Data Science Tanfolyam
Képzésünkön megismerheted a data science technikákat Python alapokon, dolgozhatsz valós adathalmazokon, és elsajátíthatod az adatok kiaknázásának újszerű szemléletét.

2024 tavasz

48 óra

Online vagy személyes

A tanfolyamról

Használd ki te is az adatokban rejlő lehetőségeket, építs gépi tanulási modelleket, és ugorj szintet a mesterséges intelligencia világában!

A munkareőpiacon jól hasznosítható tudásról van szó, hiszen a mesterséges intelligencia előretörésével egyre több szoftver kapcsán elvárás már az okos megoldások alkalmazása. Az adatvezérelt gondolkodásnak köszönhetően újfajta szemléletet sajátíthatsz el, így az adatokkal való munka egy újfajta agilis megközelítést hoz be a munkádba

Kiknek ajánljuk a tanfolyamot?

  • bárkinek, aki szeretné megismerni a data science alapjait, szemléletét, legfontosabb eljárásait
  • olyan szakembereknek, akik szeretnék elsajátítani a Python nyelv alaputasításait, illetve az adatelemzésben használt legfontosabb programcsomagokat
  • azoknak, akik szeretnének a jövőben felügyelt tanulási feladatokat megoldani, előrejelzéseket készíteni
  • olyanoknak, akik szeretnének képessé válni anomália detekciós módszerek építésére és ügyfelek szegmentációjára gépi tanulási algoritmusokkal

Tematika

1.nap

BEVEZETÉS A DATA SCIENCE VILÁGÁBA

A kapcsolódó kulcsszavak mögött megjelenő gondolatok, a mesterséges intelligencia és a big data népszerűsége mögötti mozgatórugók
Adatok szerepe, a szervezeteket megváltoztató hatásának háttere
Adat mint vagyonelem, kapcsolódó társadalmi stratégiák
Tipikus alkalmazási területek banki, távközlési, értékesítési környezetben
Big data jelenség, data science megjelenésének oka, data science területek azonosítása

Az első félnapos bevezető során azt vizsgáljuk meg, milyen módon vált a data science területe az IT egyik kiemelt irányává, milyen módon kapcsolódik be ez a modern gazdaságba, társadalmak működésébe, mi az oka annak, hogy a mainstream médiában naponta olvashatunk a témába vágó cikkeket, milyen hatással van ez magára a szakmai területre, milyen módon érdemes emiatt megtanulni ezt a területet 2020 végén.

GÉPI TANULÁSI ALAPOK, PYTHON ÉS PANDAS BEVEZETŐ

A gépi tanulás négy fő alapfeladatának ismertetése
Tipikus üzleti feladatok besorolása az adott területre
Python és általában a programozási nyelvek szerepe a data science területén
Python alapszókincs a közös elemzői munka megvalósításához
Pandas táblázatos adatkezelő csomag ismertetése, adatkezelés alapjai python pandas segítségével
Egy tipikus adathalmaz feltárása a tanult új módszerek segítségével

A gépi tanulás alapfeladatait ismertetjük, majd néhány valós üzleti feladatot elhelyezünk ebben a fogalmi térben. Áttekintjük, hogy miért érdemes fejlesztőként a Python nyelvű adatelemzés mellett letennünk a voksunk, miért vált a Python nyelv a data science világ alapnyelvévé, majd megtanuljuk annak alapkészletét – pont annyit, hogy a képzés során később könnyen tudjunk Python nyelven alkotni különböző adatbányászati modelleket és manipulálni adatokat. Végül egy valós adathalmaz segítségével megnézzük, hogyan lehet egy adathalmazról minél több mindent kideríteni úgy, hogy közben a most megszerzett Python tudást is kamatoztatjuk.

2.nap

REGRESSZIÓS FELADATOK, ADATELŐKÉSZÍTÉS LAKÁSÁR ELŐREJELZÉS FELADATÁN KERESZTÜL

Regressziós feladat megoldása sklearn csomag segítségével
CRISP-DM metodika, mint az adatelemzési projekteket támogató menedzsment standard
Lineáris regresszió és a döntési fa fogalmának bevezetése
Lakás hirdetési adatok elemzése, árelőrejelzés építése
Regressziós módszerek kiértékelése, kiértékelő függvények jelentősége
Adatelőkészítés hatása a modell hatékonyságára, dummy változók képzése

Elsőként a regressziós alapfeladat demonstrálására egy ingatlan hirdetéseket tartalmazó adathalmaz segítségével előrejelzést készítünk arra, hogyan lehet automatikusan kiemelni az alul vagy felülértékelt lakásokat. A gyakorlati példát Python nyelven oldjuk meg a sklearn programcsomag segítségével, bemutatjuk az elemzés folyamatának standardjait, az iteratív elemzési módszereket életszerű környezetben, közös gondolkodással sajátítjuk el.

3.nap

OSZTÁLYOZÁSI ALAPFELADAT ÉS A KIÉRTÉKELÉSI MÓDSZEREK ÁTTEKINTÉSE HITELBÍRÁLATI FELADAT ALAPJÁN

Osztályozási feladat áttekintése, viszonya a regresszióval
Hitelbírálati alapfeladat ismertetése, logisztikus regresszió szerepe a hitelbírálatban
Áruhitelbírálati feladat megoldása Python nyelven
Osztályozási feladatok kiértékelésének nehézségei, pontosság, ROC görbe, AUC érték számítása és jelentése
Speciális üzleti kiértékelési függvények létjogosultsága, profitgörbe készítés
Modellek finomítása, keresztvalidáció

Egy hitelbírálati feladaton keresztül mutatjuk be milyen módon lehet egy osztályozási feladattal támogatni egy üzleti döntési helyzetet. Rámutatunk az osztályozási feladatok nehézségeire, a túl sok dimenzió használatának problémáira (dimenziók átka), az algoritmusok kiválasztásának fontosságára. Bevezetésre kerül a data science kiemelt metrikája is, a ROC görbe AUC értékének formájában, bemutatjuk annak jelentését, értelmezését, majd ütköztetjük azt az üzleti szintű kiértékelés lehetőségeivel.

4.nap

KLASZTEREZÉSI MÓDSZEREK ÉS AZ GÉPI TANULÁSI RENDSZEREK ÜZEMELTETÉSI KÉRDÉSEI

Klaszterezési alapfeladat bemutatása
Python nyelvű klaszterezés egy ügyfélanalitikai adathalmaz felhasználásával
Triviális klaszterezés fogalma, K-means és K-medoid algoritmusok ismertetése
Klaszterek ábrázolásának módjai, klaszterezés mint dimenziócsökkentő eljárás
Klaszterezési módszerek kritikája, a feltáró adatelemzés szempontjából való bemutatása
Teljes adatelemzési folyamatok felépítése, pipe-line szemlélet
Data science Python kódok integrálása tágabb rendszerekbe, a gépi tanulási algoritmusok üzemeltetésének speciális körülményei

Elsőként bemutatjuk milyen módon lehet klaszterezni egy ügyféladatbázist, bemutatjuk az alap klaszterező eljárásokat, az ezekkel elérhető eredmények kihívásait, nehézségeit. Ezt követően általánosan foglalkozunk a gépi tanulási algoritmusok üzemeltetési kérdéseivel, a Python nyelvű megoldások integrációjának problémáival. Mind a klaszterezés során, mind az üzemeltetési kérdések megválaszolása során a közönséggel közösen készítjük el az adott feladat megoldását.

5.nap

TRANZAKCIÓS ADATOK ELEMZÉSE ÉS A MODELLEK INTERPRETÁLHATÓSÁGA

Tranzakciós adatok szerepe a modern adatelemzési folyamatokban, a klasszikus és a tranzakciós gépi tanulási problémák szétválasztása
Elemzési tábla készítése egy vásárlói kártya adathalmaz feldolgozásával
A tanító és tesztadatok szétválasztásának problematikája, javasolt megoldási minta, a walk forward optimization megközelítés áttekintése
Fejlett gépi tanulási technikák, mesterséges neuron hálók, Random Forest és Gradient Boosting Machine algoritmusok áttekintése
Modellek interpretálhatósága, a Partial Dependence Plot technika megismerése

A valós esetekben sokszor időben változó adathalmazokkal, események logadataival kell dolgoznunk, az alkalmon a tranzakciós adatok feldolgozásának problematikáját ismerjük meg, mely alapján az idősoros adatok elemzésének módja már magától értetődőnek mondható. Kitérünk a tanító és tesztadatok szétválasztásának dilemmáira, megismerjük az ehhez kapcsolódó legjobb gyakorlatokat, módszereket. Megismerjük a legfontosabb komplex modellezési eljárást, majd azzal foglalkozunk, hogy a komplex modellekbe belekerülő összefüggéseket hogyan lehet mégis interpretálni, megérteni, hogyan tudunk mi magunk tanulni a felépült modellek összefüggéseiből.

6.nap

ANOMÁLIA DETEKCIÓS ALAPFELADAT ÉS KITEKINTÉS A BIG DATA TECHNOLÓGIÁK IRÁNYÁBA

Anomália detekciós alapfeladat, az anomália data science megközelítésű definíciója
Felügyelt, félig felügyelt és nem felügyelt anomália detekciós technikák lehetőségei
Isolation Forest és más módszerek használata egy anomália detekcióhoz igazított szimulációs környezetben
Korábban tárgyalt módszerek használata valós adathalmaz felett
Kitekintés a big data jelenség mögött megbúvó technológiai háttérre, a data science szempontjából érdekes technológiai stack bemutatása
Spark alap megközelítés, PySpark bevezetés és sajátosságok
Példa megoldása egy analitikai feladatnak PySpark környezetben.

Az alkalom első felében egy gyakori feladattal foglalkozunk, nevezetesen az anomália detekcióval, bemutatjuk a leg elterjedtebb megoldásokat egy ilyen feladat megoldására. A nap második felében pedíg a big data világába adunk betekintést, valamint azt a probléma kört is tárgyaljuk, hogy mely esetekben kell egy feladatot megoldanunk big- data eszközök segítségével, és erre melyek a legmegfelelőbb eszközök és platformok. Megismerkedünk az elosztott rendszerek alapkoncepciójával adatfeldolgozási szempontból, majd ezt a tudást a Databricks nevű platformon ki is próbáljuk egy analitikai feladat megoldásával Pyspark programnyelvben.

Képzésvezető

Oktatóink a területükön kiemelkedő teljesítményt nyújtó szakemberek, akik sokéves tapasztalatukkal, gyakorlatorientált tréningekkel adnak át olyan tudást, amelynek segítségével hallgatóink élvezettel fejlődhetnek.

Személyre szabott vállalati képzésünk érdekel?

Egy egész fejlesztői csapat számára keresel oktatást? Esetleg más technológia érdekel? Vedd fel velünk a kapcsolatot, és a vállalati igényekhez és a tudásszinthez kialakított ajánlatot küldünk egyedi tematikával, tanrenddel.

Helyszín

Online platformon vagy személyesen, igény szerint

Ők minket választottak

Ezért válassz Te is minket!

IT képzéseinket agilisan, a legfrissebb technológiai igényekhez mérten, gyakorlatorientáltan, folyamatos visszajelzésekre alapozva fejlesztjük magánszemélyek és vállalatok részére.

Szakmai csapatunk világszínvonalú fejlesztői tapasztalattal rendelkezik. Oktatóink a vállalati szférából érkeznek, a tananyag kialakításánál pedig mindig a piaci igényekből indulunk ki. Személyre szabott oktatás esetén díjmentes igényfelmérést követően a vállalati igényekhez és tudásszinthez kialakított egyedi tematikával, tanrenddel dolgozunk. Eredménycentrikus megoldásokkat kínálunk, amelyek minden esetben partnereink üzleti céljait szolgálják. Küldetésünknek tekintjük, hogy olyan IT tudást és szemléletet adjunk át hallgatóinknak, amelyeket élvezettel használhatnak saját énjük komplexebbé tétele érdekében.

Információ

Amennyiben kérdésed lenne, keresd kollegáinkat az alábbi elérhetőségek egyikén.

Laczkó Gábor

gabor.laczko@stylersgroup.com

+36 (20) 416 – 1932

Jagos Orsolya

orsolya.jagos@stylersgroup.com

+36 (30) 705 – 0973