2015 Big Data Mafihe Téli Iskola
Tervezett program
10:45-12:15,
Csabai István (ELTE): Adatintenzív megközelítés a modern természettudományokban: lehetőségek és kihívások [pdf]
Az elmúlt évtizedben a technológiai fejlődés hihetetlen tempóban növelte meg az elérhető adatok mennyiségét. Igaz ez a tudományok minden területére a mikrobiológiától a kozmológiáig, sőt mindennapi életünkre is egyre nagyobb hatással van. Előadásomban igyekszem választ adni arra, hogy mi áll ennek hátterében, példákon mutatom be, hogy különböző diszciplínákban milyen változásokat hozott az adat-forradalom. A legfontosabb kérdés persze az, hogy meg tudunk-e birkózni a kihívásokkal és ki tudjuk-e aknázni a feltáruló lehetőségeket.
12:25-13:10,
Vincze János (KRTK): Információ és tudás: a Big Data szerepe a közgazdaságtanban [pptx]
Nagy mennyiségű adat (big data) közgazdasági elemzése ritka, ellentétben az üzleti vagy pénzügyi alkalmazásokkal. Az előadásban egy példán illusztrálom a különbséget, és ennek okait. Nagy mennyiségű gazdasági adatot eddig is gyűjtöttek, de ezek nagy része elvész. A közgazdászok hagyományos attitűdje a sok adattal kapcsolatban az aggregálás, ami adattömörítés a priori alapokon. Elméleti és tudományszociológiai okai vannak annak, hogy nagyon kevesen keresték azt, hogyan lehetne nagy mennyiségű gazdasági adatot nemcsak „gyors haszonszerzés” céljára használni, és eddig még nem született meggyőző eredmény. Egy közgazdasági problémán keresztül bemutatom, hogy milyen újdonságot jelenthet a közgazdaságtanban a „big data” elemzésekhez kialakított módszerek használata.
14:10-15:40,
Szépszó Gabriella (OMSz): Big Data az időjárás-előrejelzésben és az éghajlatváltozás kutatásában [pdf]
Az éghajlati rendszer a légkör, a felszíni és felszín alatti vizek, a hó- és jégtakaró, a szárazföldi felszín, valamint az élővilág kölcsönhatásban álló együttese. A klímaváltozás leírásánál a teljes komplex rendszer, az időjárás előrejelzésénél pedig döntően a légkör folyamatainak ismerete szükséges. Az időjárás és az éghajlati rendszer folyamatait fizikai törvények kormányozzák, amelyeket egy matematikai egyenletrendszer révén számszerűsíthetünk. Az így előálló parciális differenciálegyenlet-rendszert a numerikus modellezés eszközeivel és nagyteljesítményű számítógépek alkalmazásával oldjuk meg. Az előadásban részletesen bemutatjuk az éghajlati rendszer alapvető folyamatait, számszerű modellekkel történő leírásának hátterét. Tárgyaljuk az időjárás-előrejelzések és éghajlati projekciók készítésének rokon és egyedi jellemzőit. Kitérünk a szimulációk bizonytalanságainak ismertetésére és a valószínűségi jellegű előrejelzések készítésére. Néhány gyakorlati példával illusztráljuk, hogy a meteorológiai modellezésben milyen módon jelenik meg a Big Data.
15:50-17:20,
Barta Endre (DE/NAIK): Big Data kihívások a genomikában
A molekuláris biológiában már nagyon hamar felismerték a számítógépek használatának az előnyeit a kutatásban. 1962-ben jelent meg az első cikk, ahol egy IBM 7090-ra írt bioinformatikai programot ismertettek. A későbbiekben is a bioinformatikai felhasználások (adatbázisok, és a szekvencia adatok elemzése) együtt fejlődtek a számítástechnikával. 2005 után az újgenerációs szekvenálás (NGS) megjelenésével a bioinformatika egy új korszakba lépett, amit már a genomikai felhasználás jellemez. Napjainkban a legmodernebb szekvenáló berendezések képesek naponta akár több Terabyte-nyi adatot generálni. A szekvencia archívumokban pedig exponenciálisan nő a tárolt, már most is Petabyte nagyságrendnyi adatmennyiség. Ez az adat mind nyers nukleinsav szekvencia, ami gyakoratilag egy négybetűs (A,C,G és T) kód. Ennek a hatalmas anyagmennyiségnek a tárolása, mozgatása és elemzése hatalmas kihívásokat jelent a genomika számára. Ez minden szinten jelentkezik, hiszen ugyanolyan problémás ma egy kisebb analízist elvégezni egy asztali gépen, mint nagyobb meta-elemzést a komolyabb szervereken. Ennek megfelelően a szuperszámítástechnikában is újfajta problémák jelentkeznek. A genomikának nem minél több teraflops lebegőpontos teljesítményre, hanem sokkal inkább rengeteg diszk területre és nagyon gyors I/O műveletekre van szüksége. A legtöbb genomikai program éppen ezért nem is párhuzamosított.
10:00-11:30,
Hermann Gábor (SZTAKI): Korszerű Big Data feldolgozó keretrendszerek [pdf]
Az elmúlt években a folyamatos digitális adatnövekedés új kihívások elé állítja az informatika tudományát. A hatalmas adatmennyiségből hasznos információk kinyerésére már léteznek korszerű technológiák, ám számos nyitott kérdés és új kutatási eredmény van a területen, amit a mainstream rendszerek még nem feltétlenül használnak. Ahhoz, hogy lépést tarthassunk a rohamosan növekvő adatmennyiséggel, a rendszereknek nem csak gyorsan kell sok adatot feldolgozniuk, de minél egyszerűbben használhatónak kell lenniük. Előadásom célja néhány ilyen keretrendszer bemutatásán keresztül képet adni a Big Data feldolgozás jelenlegi állásáról, kihívásairól, jövőjéről és az eszközök használatáról.
11:40-13:10,
Barnaföldi Gergely (WFK): A CERN, mint a Big Data egyik bölcsője! [pdf]
A CERN, az Európai Nukleáris Kutatási Szervezet Európai Részecskefizikai Laboratóriuma gigantikus detektorainak köszönhetően hatalmas alapadat-mennyiség előállítására képes. 2014 végéig rögzített, szimulált és elsődlegesen feldolgozott adatok már most is több, mint 100 PB-ot tesznek ki. Az éppen indulásra kész Nagy Hadronütköztető (LHC) gyorsító a nagyobb luminozitás mellett még több adatot fog produkálni.
Előadásomban bemutatom a Big Data CERN-bölcsőjét és részecskefizikai adatok és feldolgozásuk lehetséges jövőképét.
14:10-15:40,
Házi András (WFK): GRID a modern tudományban [pdf]
A CERN LHC kísérlete sok szempontból minden idők egyik legnagyobb tudományos vállalkozása. A kísérletek jellegéből adódóan hatalmas mennyiségű adattal járó kihívásokkal kell megküzdenie. A különböző detektorból jövő adatokat képtelenség egészében feldolgozni, ezért szükség van a tudományos szempontból fontos adatok kiválogatására. Azonban a kiválogatott adatmennyiség még mindig akkora méretet jelent, hogy kezelése, tárolása, és elemzése egyedi megoldásokat igényel. Ezeknek a megoldásoknak egy csoportját foglalja magában a WLCG. Ez egy olyan számítástechnikai erőforrás-megosztáson alapuló infrastruktúra, mely egy speciális middleware segítségével, a világhálón keresztül összekapcsolja a világszerte fellelhető több száz számítógép-központot.
Az előadás célja ennek a sokrétegű infrastruktúrának a rövid bemutatása, példaként vázolva az LHC CMS kísérletben használt grid szoftverek eszköztárát a budapesti Tier-2 site működésén keresztül.
15:50-17:20,
Debreczeni Gergely (WFK): Adatfeldolgozás a kísérleti gravitációs-hullám fizikában [pdf]
A jelenleg fejlesztés alatt álló Virgo és LIGO interferometrikus gravitációs-hullám detektorok várhatóan 1 éven belül újra megkezdik működésüket. Céljuk az Általános Relativitáselmélet által, immáron majdnem 100 éve megjósolt úgynevezett gravitációs-hullámok első közvetlen megfigyelése. Habár a detektorok által várhatóan előállított mérési adatsorok mennyisége egy nagyságrenddel kisebb mint például az LHC detektorok által termelt adattömeg, a mögöttes fizikai folyamatok, elméletek és az adatszerkezet sajátosságai miatt olyan nagy aritmetikai sűrűséggel rendelkezik, hogy feldolgozása, értelmezése helyenként sokkal nagyobb számítási kapacitást és komplexitás igényel mint a nagyenergiás fizika adatainak kiértékelése. Az előadásban bemutatásra kerülnek napjaink gravitációs-hullám kísérletei, külön figyelmet szentelve a mérési adatok jellegének és feldolgozásukhoz szükséges algoritmikus és számítástechnikai háttér bemutatására.
10:00-11:30,
Vattay Gábor (ELTE): Közösségi hálózatok adatanalízise — forradalom a szociológiában [pptx]
11:40-13:10,
Kondor Dániel (ELTE): A Bitcoin tranzakcióhálózat fejlődésének vizsgálata adatbányász módszerekkel [pdf]
Az utóbbi évek egyik nagy figyelmet kapott innovációja a Bitcoin digitális pénz rendszer. A hagyományos pénzügyi rendszerekkel ellentétben ez egy teljesen decentralizáltan működő rendszer, működését egy központi entitás helyett a benne részt vevő felhasználók által alkotott hálózat tartja fent. Ennek fontos eleme, hogy a tranzakciók teljes listája elérhető bárki számára, bár a bennük szereplő tranzakciós partnerek kiléte általában nem azonosítható könnyen. Előadásomban röviden bemutatom a Bitcoin rendszer működését, elsősorban adatbányász nézőpontból, bemutatom, hogy milyen adatok érhetőek el, és röviden kitérek az adatfeldolgozás során fellépő néhány technikai kihívásra is, majd bemutatom néhány eredményünket, amiket a tranzakciós hálózat elemzésével kaptunk.
14:10-15:40,
Rácz Gábor (ELTE): Kozmológiai n-test szimulációk [pdf]
A kozmológia standard modellje szerint az Univerzum nagy skálákon homogén és izotróp, viszont a megfigyelések alapján 500Mpc-nél kisebb méretskálák esetén már jól látható struktúrákkal rendelkezik. Ezeknek a struktúráknak a kialakulását modellezhetjük gravitációs n-test szimulációkkal.
Előadásom első felében a kozmológiai szimulációk megvalósítását, és a fellépő nehézségeket fogom áttekinteni, majd az előadás második felében kitérek a kialakuló inhomogenitások lehetséges hatásaira.
15:50-17:20,
Varga József (ELTE): Az univerzum feltérképezése a Sloan Digitális Égboltfelméréssel [pdf]
A Sloan Digitális Égboltfelmérés (SDSS) a 2000-es évek elejének egyik legjelentősebb csillagászati projektje, amelyben az égbolt mintegy harmadát fényképezték le, és milliónyi forrásról vettek fel színképet. A fényképek és színképek automatikus feldolgozásával létrehozott katalógusokban több százmillió objektum szerepel: csillagok, galaxisok, kvazárok, szupernóvák stb. Előadásomban az SDSS-felmérés technikai megvalósításáról fogok beszélni, külön figyelmet szentelve az adatkezelési kihívásokra és a feldolgozó programokra. Emellett bemutatok néhány fontosabb múltbeli égboltfelmérést, és beszélek az előkészítés alatt álló Nagy Szinoptikus Felmérőtávcsőről (LSST) is.