# 0. Környezetkezelés

Ebben a fejezetben átnézzük, hogy milyen eszközök kellenek ahhoz, hogy a Pythont futtatni és használni tudjuk. Szó lesz a könyvtárakról, csomagokról és a környezetekről, illetve a Jupyter fejlesztői környezetről.

## 0.1 Anaconda környezet kezelő

Ahhoz, hogy Python programokat tudjunk írni és futtatni, szükség van egy Python értelmezőre. Magában a Python-t ritkán használjuk, legtöbbször szükség van könytárakra, amiket fel kell telepíteni az értelmező mellé. Mivel a Python-t sokan sok különböző dologra használják, nagyon hasznos, ha el tudunk különíteni többféle futási környezetet. Ezekben más-más könyvtárakat telepíthetünk fel.

Alább írok egy szemléletes példát arra, miért kell elkülöníteni a futási környezeteket.

*Képzeletben előreugrunk 3 évet az időben. Fifi ekkor már gyakorlott geo-adatelemző egy nagynevű multinál és rengeteget dolgozik otthonról. Fifi mindennapi munkájához teljesen más Python könyvtárak kellenek (ArcPy, GeoPandas), mint Csabi mindennapi munkájához (PyTorch, Scikit-Learn). Az ArcPy-nak Python 3.12-es verziójú értelmezőre van szüksége, a PyTorch-nak viszont Python 3.7-re, így Fifi és Csabi nem tudják ugyanazt a feltelepített Pythont használni -> két külön Python kell nekik.*

A fentiek verzió ütközés feloldására a Python-t nem közvetlenül telepítjük a gépre, hanem verziókezelőt vagy környezet menedzsert használunk hozzá. Egy ilyen környezet menedzselő eszköz `conda`.

**Pár fontosabb fogalom**:
- **Könyvtár** (library vagy lib): előre megírt kódok, függvények, osztályok Pythonhoz különféle alkalmazásokra. Geoinfós Python könyvtárak pl. a fent említett `ArcPy` vagy a `GeoPandas`.
- **Csomag** (package): a könyvtárakat becsomagolják, hogy feltelepíthetőek legyenek. Egy csomag több könyvtárat is tartalmazhat, bár ez ritka.
- **Csomagkezelő** (package manager): ezzel lehet csomagokat feltelepíteni és így könyvtárakat szerezni. Pl. a `pip` a Python saját csomagkezelője (tehát a Pythonnal együtt jön), de a `conda` is kezel csomagokat.
- **Függőség** (dependency): egy általad megírt programok függőségei azok a könyvtárak, amiket használsz a programodban. Egy geoinfós elemzéshez pl. függőség lehet az `ArcPy` könyvtár. A trükk az a dologban, hogy a könyvtáraknak is lehetnek más könyvtár függőségei, pl. a `NumPy` egy olyan könyvtár, ami mátrixokat kezel, ezt nagyon sok adatelemző könyvtár, függetlenül a témától (geoinfós, pénzügyi vagy AI) függőségként megjelöli. Az általad feltelepített könyvtárak függőségeit, illetve azok függőségeit (és azokét és azokét ... satöbbi) automatikusan kezeli neked a csomagkezelő.
- **Környezet** (environment): egy általad összerakott python értelmező + hozzá tartozó könyvtárak, azok függőségei és azok függőségei...
- **Környezet kezelő** (environment manager): `conda` tud ilyet is. Létrehozza, kilistázza, törli a környezeteket és pl. menedzseli a környezetekben lévő könyvtárak frissítését. `conda`-n kívül van még más ilyen is, pl. `poetry`, `pyenv`.
- **Fejlesztő környezet** (development environment: DE vagy IDE): az a program, amiben Python kódot írsz. Ilyen pl. Jupyter, PyCharm vagy VSCode.

Tehát összefoglalva, ha dolgozol Pythonnal, lesz egy (vagy több) környezeted. Ezek a környezetek más-más könyvtárakat használnak függőségként. A környezeteket egymástól a `conda` különíti majd el, illetve kezeli őket (frissíti, törli, létrehozza). A környezeteken belül a könyvtárakat csomagok formájában telepítjük fel a csomagkezelővel (`conda install arcpy`) vagy (`pip install geopandas`). Ezeknek a könyvtáraknak a függőségeit automatikusan feltelepíti a csomagkezelő.

### Fontosabb conda parancsok

- `conda create --name környezet_neve_pl_geoinfo_de_bármi_lehet`: ez létrehoz egy új környezetet. Ez ekkor még üres, nincsenek benne feltelepített könyvtárak.
- `conda activate környezet_neve`: aktivál egy környezetet. Aktiválás után minden Python telepítő parancsot a környezeten belül hajt végre.
- `conda install könyvtár_neve`: feltelepít egy könyvtárat, pl. arcpy, pandas, jupyter, stb. Automatikusan feltelepíti a könyvtár függőségeit is.
- `pip install könyvtár_neve`: a pip a Python saját csomagkezelője, amivel könyvtárakat lehet telepíteni. Ha egy könyvtár conda-val nem elérhető, pip-pel is fel lehet telepíteni. A pip nem tud környezeteket kezelni, viszont ha egy conda környezetben futtatunk pip-es telepítő parancsot, a conda felismeri és csak a környezeten belül telepíti fel a könyvtárat.
- `conda env list`: kilistázza, milyen környezetek vannak létrehozva. Ha elfelejtenéd, mi volt a neve valamelyik környezetnek (velem gyakran megesik).
- `conda env export > fájlnév.yml`: elmenti a környezetet a megadott fájlba. Ha van egy jó környezeted, azt így exportálhatod és pl. egy másik gépre átviheted.
- `conda env create --name környezet_neve --file environment_fájl.yml`: ezzel importálni lehet egy elmentett környezetet, pl. másik gépen vagy újratelepítés után.

Ezeket a parancsokat nem kell fejből tudni, de ideírtam a fontosabbak szemléltetésként és esetleg később referenciaként, hogy lásd ha valamit keresel. Az Anaconda oldalán fent van egy puska egy csomó paranccsal, itt éred el: [Anaconda parancsok](https://docs.conda.io/projects/conda/en/latest/_downloads/843d9e0198f2a193a3484886fa28163c/conda-cheatsheet.pdf)

Az Anaconda vagy Miniconda feltelepítésekor kapsz minden esetben egy `base` nevű környezetet. Ez Anaconda telepítés esetén már tele van hasznos könyvtárakkal, amik mindenféle adatelemzéshez jók. Miniconda esetében a `base` környezet szinte teljesen üres, csak a Python értelmező van benne, a pip csomagkezelő és a conda környezetkezelő.

### Vizuális példa

![kornyezet1_visu](_assets/kornyezet1_pelda.png "Title")

Tegyük fel, hogy adatelemzésre készülünk. Az táblázatos adatok betöltéséhez és kezeléséhez a `Pandas` könyvtárat szeretnénk használni. Diagrammok megjelenítéséhez pedig a `Seaborn` könyvtárat. Mind a Pandas, mind a Seaborn függőségként igényli a NumPy könyvtár jelenlétét, ami mátrixos adatok tárolását, kezelését végzi. Nekünk az adatelemzéshez közvetlenül nem biztos, hogy kell a NumPy könyvtárt használni, de pl. a Pandas használja a NumPy által biztosított funkciókat a táblázat mátrixként való tárolására, így a NumPy nélkül nem tud működni.

A Seaborn ezen felül kéri a MatPlotLib könyvtárat, ami szintén rajzoláshoz, diagrammok készítéséhez van.

Láthatod még, hogy minden könyvtárnak van egy verzió száma, ami tovább bonyolítja a képet. Szerencsére a legtöbb esetben a konkrét verziókkal és a könyvtárak függőségeivel nekünk nem kell foglalkozni, azokat automatikusan kezeli a csomagkezelő.

A fenti környezetet az alábbi parancsokkal hozhatjuk létre:
- `conda create --name adat`: létrehoz egy új (üres) conda környezetet, **adat** néven.
- `conda activate adat`: aktiváljuk a környezetet, így minden további telepítő parancs az **adat** környezetben fut le. Ha ezt elmulasztjuk megtenni, akkor a telepítő parancsok a **base** környezetben futnak majd, ami nem feltétlenül kívánatos, jobb a környezeteket elválasztani egymástól.
- `conda install pandas seaborn`: feltelepítjük a pandas és seaborn csomagokat, hogy elérhető legyen a Pandas és Seaborn könyvtár.
- `conda install jupyter`: végül feltesszük a Jupyter környezetet.

Próbaképpen lefuttathatod a fenti parancsokat. A valóságban nem csak a MatPlotLib és NumPy könyvtárak fognak függőségként települni, hanem még rengeteg másik is.

### 1. feladat - conda export

- Indítsd el a terminált: Start menü -> Anaconda PowerShell Prompt, a `conda` parancs itt működni fog.
- Hozz létre egy új környezetet, hazi_feladat_1 néven. Telepítsd fel az alábbi könyvtárakat:
- **NumPy**: mátrixok kezelése és mátrix műveletek (lineáris algebra). Csomag neve: `numpy`
- **Pandas**: táblázatok beolvasása és műveletek. Csomag neve: `pandas`
- **Seaborn**: diagrammok készítése, vizualizálás. Csomag neve: `seaborn`
- **Scikit-Learn**: gépi tanulás. Csomag neve: `scikit-learn`
- **Jupyter**: fejlesztő környezet, amiben Pythont tudsz írni és futtatni.
- Exportáld ki a `conda` környezetet `conda_kornyezet.yml` fájlba.
- Küldd át nekem a környezet fájlt.

## 0.2 Jupyter notebook-ok

A Jupyter egy fejlesztő környezet, amit adattudományban rengeteget használnak. Alapvetően arra jó, hogy a Python kódot cellákba rendezze. Ezeket a cellákat külön-külön futtathatjuk, tetszőleges sorrendben. A celláknak van egy bemeneti része, ahová a kód kerül és ha lefuttatjuk a cellát, alatta létrejön egy kimeneti rész, ahová kiírkálódik minden amit a programunk kiad magából.

In [1]:
# Ez itt egy komment.
# Ez egy kód cella.
print("Van bemeneti és kimeneti része is.")
# Jelöld ki (vagy lépj bele) és futtasd le ezt a cellát
# a Ctrl+Enter lenyomásával vagy a notebook fejlécben a lejátszás gomb megnyomásával
# Alulra íródik ki a cella kimenete

Van bemeneti és kimeneti része is.


A kódcellákon kívül használhatsz Markdown cellákat is (mint amilyen ez is). A Markdown egy faék egyszerűségű jelölő nyelv, amivel formázott szöveget tudunk írni. A beviteli mód aktiválásához kattints kétszer erre a cellára és meglátod, milyen jelekkel tudtam előhozni a formázásokat. Olvasási módra váltáshoz pedig futtasd a cellát ctrl+Enter lenyomásával vagy a fejlécben a lejátszás gomb megnyomásával.

Ez sima szöveg.

*Ez dőlt, csillag karakterek közé írjuk*

**Ez félkövér, dupla csillaggal hozzuk létre**

`Ezt kódhoz használom, AltGr-7 (backtick) karakterek közé tesszük`

- lista, kötőjel + space után írjuk
- második elem

1. felsorolás, szám + pont + space után írjuk.
2. következő elem

Kettőskereszt karakterrel tudsz különböző szintű címsorokat létrehozni. Ezek segítik a Notebook átláthatóságát, engedik a Notebook "összehajtását", hogy eltűntesd a nem releváns részeket és a tartalomjegyzék használatát is lehetővé teszik, úgyhogy erősen ajánlottak.

\# Első szintű címsor

\#\# Második szintű címsor

\#\#\# Harmadik szintű címsor

stb. sok szint lehet.

### Ez Címsor 3 (3 kettőskereszt) rendesen megformázva

A cellákat futtatni Ctrl+Enter kombinációval tudod, miután kijelölted a cellát (a cella bal szélére kattintasz) vagy belépsz szerkesztő módba (dupla klikk a cellára). A futtatás parancs kód cella esetében futtatja a cellában a kódot, Markdown cella esetében pedig átvált szerkesztő módból a formázott szöveg megjelenítésére.

Próbáld ki ezen Markdown cellán, hogy szerkesztő módba változ (dupla klikk bárhol a cella szövegére). Így látni fogod, a különböző formázásokat hogyan hoztam létre.

### Jupyter és különböző környezetek

*Elöljáróban: a Jupyter-t fejlesztő környezetnek hívják. Ebben az esetben a környezet alatt nem ugyanazt értjük, mint a conda környezet alatt. A fejlesztő környezet felület és eszközök a kódoláshoz. A conda környezet: csomagok összessége.*

A kavarodás elkerülése végett a fejlesztő környezeteket (development environment) DE-knek szoktuk hívni (pl. Jupyter DE, PyCharm DE), a conda környezeteket pedig röviden csak env-nek szoktuk nevezni ("létrehozok egy új envet", "exportáld a conda envet").

Nyilván szeretnénk, ha különböző Jupyter Notebookjaink esetleg más-más conda envet tudnának használni. Ezt legegyszerűbben úgy tudjuk elérni, ha a használni kívánt envbe feltelepítjük a `jupyter` csomagot:

- `conda activate kornyezet_neve`
- `conda install jupyter`

Ezután a `jupyter lab` parancs elindítja a Jupyter felületét, ahol tudunk létrehozni, törölni, szerkeszteni notebook-okat.

Ez a reláció azonban fordított is lehet: elindítunk egy DE-t és a DE-ben aktiváljuk, váltogatjuk az enveket. Ez történik, amikor az Anaconda Navigator-ból elindítjuk a Jupyter Lab applikációt. Az Anaconda Navigator ekkor a `base` environmentből indítja el a Jupyter Lab-ot. A létrehozott Notebook-ok alapból a `base` környezetet és annak könyvtárait fogják látni. Envet váltani ekkor a Notebook jobb felső sarkában is lehet.

Ennek a tutorialnak a teljesítéséhez elég lesz az Anaconda base környezet használata, amiben elérhető minden adatelemző csomag, amit használni fogunk.

### 2. feladat - hello world

Csinálj egy új Jupyter Notebook-ot, `hello_world` néven. Az első cellába írj egy címet, majd pár sor szöveget. Használj félkövér, dőlt, lista, stb. formázásokat.

A második cella legyen kód cella, amiben kiíratod, hogy "Hello World!"

# 1. Python alapok

A Python nagyon lassú nyelv, ezért csak arra használjuk, hogy a könyvtárak működését koordináljuk vele. Mivel a könyvtárakat nem feltétlenül Pythonban írják, ezért azok lehetnek nagyon gyorsak is (a NumPy könyvtár például C-ben van írva).

Ennek ellenére szükség van a nyelv működésének minimális ismeretére, ezt mutatom most be.

## 1.1 Típusok és változók

### Számok

In [2]:
# Számok

a = 1  # a egy változó. Típusa: egész szám (integer, röviden int). Értéke: 1
b = 1.0  # b típusa: lebegőpontos tört (floating point, röviden float). Értéke 1.0

# Ez a változó definiálás vagy érték-hozzárendelés (variable definition / variable assignement)
# Pythonban a változók típusát nem kell kiírni, de opcionálisan lehet megadni típust így:
a: int  # Itt megadjuk, hogy 'a' egy int, de nem adunk értéket neki. 
b: float = 1.0  # Itt megadjuk, hogy 'b' tört szám és értéket is adunk neki.


# A típusokkal a Python nem foglalkozik. Később felülírhatjuk a változót bármilyen típussal:
a: float = 1  # Nem fog hibát dobni. Sok programnyelv ezt hibaként venné.

# Emiatt a típusok megjelölésével nem szoktunk foglalkozni csak legfejlebb nagyobb programok esetén.

a + b  # ez az utasítás összeadja a számokat.
# A két szám nem ugyanolyan típusú. 'a' egész, 'b' pedig tört.
# Szerencsére a Python ezt lekezeli és nem kell az átváltással szórakozni.
# A fenti utasítás összeadta a számokat, de az eredménnyel nem csináltunk semmit.
# Nem tároltuk el, nem írattuk ki.
c = a + b  # Itt eltároljuk az összeadás eredményét egy új változóban.

# Műveletek: + - * /
# Ezen kívül: ** a hatványozás:
d = a ** b
# Gyökvonáshoz, szögfüggvényekhez, logaritmushoz már könyvtárakat kell használni.

In [3]:
print(c)  # Kiírathatod egy változó értékét a 'print' függvénnyel
print(a + b)  # Magát az összeadást is beteheted ide. A python előbb kiértékeli az összeadást,
# majd végrehajtja a print függvényt.
c_tipusa = type(c)  # lekérjük, milyen típusú c
print(c_tipusa)

2.0
2.0
<class 'float'>


### Változónevek

Változónevekben használható karakterek:
- kis betűk
- nagy betűk
- számok (kivéve első karakter)
- alsó vonás
- ékezetes betűk is használhatóak (de nem ajánlott)
- görög betűk is használhatóak (de nem ajánlott)

A változókat rendszerint csupa kis betűvel nevezzük el és a szavakat alsó vonással választjuk el egymástól. Ez nem kötelező, de Pythonban ez a konvenció.

Tiltott változónevek, amik ütköznek egy nyelvi kulcsszóval, pl. `del`, `def`, `class`, `return`, `if`, `else` stb. A nyelvi kulcsszavakat a Jupyter zöld színnel kiemeli a kód cellákban.

Nem tiltott, de nem ajánlott olyan változónevet használni, ami beépített függvény nevével ütközik, pl. `print`, `sum`, `type`, stb.

### Karakterláncok

In [4]:
# Érdemes értelmes változónevekkel dolgozni.

karakterlanc_eleje = "Ez egy karakterlánc (string). Ebben tárolunk szövegeket."
karakterlanc_vege = 'Egyes és kettes idézőjelekkel is létrehozhatod.'

# Karakterláncokat összefűzheted (konkatenálhatod) a + operátorral:
szoveg = karakterlanc_eleje + karakterlanc_vege

print(szoveg)

Ez egy karakterlánc (string). Ebben tárolunk szövegeket.Egyes és kettes idézőjelekkel is létrehozhatod.


*Ide beékeltem egy Markdown cellát. Ebben formázott szöveg használatával magyarázhatod pl. egy cella működését.*

**Ajj!** Egy space karakter hiányzik a két mondat között. Javítsuk ki:

In [5]:
# Konkatenáljuk a szöveg elejét, majd egy " " space karaktert, majd a szöveg végét
szoveg = karakterlanc_eleje + " " + karakterlanc_vege
print(szoveg)

Ez egy karakterlánc (string). Ebben tárolunk szövegeket. Egyes és kettes idézőjelekkel is létrehozhatod.


*Na ez máris jobban néz ki.*

In [6]:
# Még jobb lenne sortöréssel. Azt így tudod bevinni:
szoveg = karakterlanc_eleje + "\n" + karakterlanc_vege
print(szoveg)

Ez egy karakterlánc (string). Ebben tárolunk szövegeket.
Egyes és kettes idézőjelekkel is létrehozhatod.


A vissza-perjel (backslash) mindig valami speciális dolgot jelent a stringen belül. `\n` jelenti a sortörést.

In [7]:
# Néha találkozhatsz tripla-idézőjeles szöveggel
nagyon_hosszu_string = """Ezt akkor használjuk, ha hosszú stringet szeretnénk létrehozni,
amiben pl. sortörések is vannak.

Rendesen a Python nem engedi az entert a stringen belül, de ha tripla-idézőjellel
hozod létre a stringet, akkor magába a szövegbe is üthetsz enterrel sortöréseket."""
# Itt a hosszú string vége. Figyeld meg, hogy ezt a hosszú stringet eltettem egy változóba.

# Itt egy másik hosszú string:
'''Egyesek az ilyen stringeket arra is használják, hogy hosszú kommentet írjanak a kódba.
Ekkor elhagyható a változó-hozzárendelés.
Ez a string nem lesz eltárolva semmilyen változóba, de nincs is rá szükség,
mert nem akarjuk használni, csak ideírtuk, mint komment.'''

print(nagyon_hosszu_string)  # A változóban eltárolt stringet ki is írathatjuk a kimenetre.

Ezt akkor használjuk, ha hosszú stringet szeretnénk létrehozni,
amiben pl. sortörések is vannak.

Rendesen a Python nem engedi az entert a stringen belül, de ha tripla-idézőjellel
hozod létre a stringet, akkor magába a szövegbe is üthetsz enterrel sortöréseket.


### Más, speciális típusok

In [8]:
igaz = True  # nagy betűvel írjuk.
hamis = False
semmi = None  # Ez speciális, de gyakran előjön.
print(igaz)
print(hamis)
print(semmi)

True
False
None


## 1.2 Print függvény

In [9]:
# A print nagyon hasznos függvény:
print("Ez a program az összeadást mutatja be")
print("Összeadtam ezeket a számokat:", a, "+", b)  # A vessző helyére a print automatikusan tesz egy space-t.
print("Ezt az eredményt kaptam:", c, "<- látható, hogy ez egy 'float'.")

Ez a program az összeadást mutatja be
Összeadtam ezeket a számokat: 1 + 1.0
Ezt az eredményt kaptam: 2.0 <- látható, hogy ez egy 'float'.


In [10]:
# Még egy koncepciót mutatok, az f-stringeket. Ezek formázott stringek,
# ami azt jelenti, hogy a string közepébe beilleszthetünk változókat.
# Ezt az esetek 99%-ban a printtel együtt használjuk:
print(f"Összeadtam {a}-t és {b}-t. Az eredmény: {c}")

Összeadtam 1-t és 1.0-t. Az eredmény: 2.0


In [11]:
# A szintaxis a következő:
# A stringet f-fel prefixeljük: f"" vagy f''.
# A behelyettesítés helyére kapcsos zárójelet teszünk:
# f"blablabla {} blabla"
# A zárójelbe beírhatsz python változót:
print(f"Ez az 'a' értéke: {a}")

Ez az 'a' értéke: 1


In [12]:
# De beírhatsz kifejezést is, amit kiértékel a program és az eredményt illeszti be:
print(f"Ez egy kifejezés: {a + b}")

Ez egy kifejezés: 2.0


In [13]:
# A string-konkatenációt is megcsinálhatod így:
print(f"{karakterlanc_eleje}{karakterlanc_vege}")

Ez egy karakterlánc (string). Ebben tárolunk szövegeket.Egyes és kettes idézőjelekkel is létrehozhatod.


In [14]:
# Hüpsz, megint kimaradt a space.
print(f"{karakterlanc_eleje} {karakterlanc_vege}")

Ez egy karakterlánc (string). Ebben tárolunk szövegeket. Egyes és kettes idézőjelekkel is létrehozhatod.


In [15]:
# Legyen inkább sortörés?
print(f"{karakterlanc_eleje}\n{karakterlanc_vege}")

Ez egy karakterlánc (string). Ebben tárolunk szövegeket.
Egyes és kettes idézőjelekkel is létrehozhatod.


### 3. feladat - gyerekek adatai

Csinálj egy új Jupyter Notebook-ot, "gyerekek_adatai.ipynb" fájlnévvel. Az első cella legyen Markdown, írd le, hogy mit fogsz csinálni a notebook-ban. A második cellába vegyél fel változókat:
- Alíz neve: karakterlánc
- Alíz kora: egész szám
- Alíz súlya: tört szám

Csináld meg Benedekre, Lucára is.
Írasd ki printtel és formázott karakterlánccal, hogy mennyi a három gyerek együttes súlya és a három gyerek együttes kora.

## 1.3 Feltételes utasítások (if-else)

Az `if` Pythonban így néz ki:

In [16]:
igaz_logikai_ertek = True
hamis_logikai_ertek = False

if igaz_logikai_ertek:
    print("Az egyik logikai érték igaz (True) volt.")
    print("Nagyon boldog vagyok!")
else:
    print("Az egyik logikai érték hamis (False) volt.")
    print("Kicsit elspzomorodtam emiatt.")

if hamis_logikai_ertek:
    print("A másik logikai érték igaz (True) volt.")
else:
    print("A másik logikai érték hamis (False) volt.")

Az egyik logikai érték igaz (True) volt.
Nagyon boldog vagyok!
A másik logikai érték hamis (False) volt.


Az `if` egy **összetett utasítás**, ami annyit jelent, hogy az if-en belül több sornyi kódot is írhatunk (azaz egy kód blokkot).

A kód blokkot behúzással különbötetjük meg. Általában 4 space-szel szoktunk behúzni, de van aki 2-vel szokott (google kódjainál általában). A behúzásnál használhatsz Tab-ot is, ezt Jupyter automatikusan kicseréli neked 4 space-re.

Arra figyelj csak, hogy ha a kódod egyik részénél 4-gyel húztál be, akkor mindenhol 4-gyel vagy 4 többszörösével kell behúznod:

In [17]:
if igaz_logikai_ertek:
    # Az első if-ben 4-gyel húztunk be
    print("Az egyik logikai érték igaz volt.") 
    # az if-be beágyazhatunk egy második if szintet is:
    if hamis_logikai_ertek:
        # Itt már 8-cal húzunk be.
        print("A másik is igaz, ettől nagyon boldog vagyok")
        print("Teljesen fel vagyok dobódva!!!!")
    else:
        print("A másik sajnos hamis volt.")
        print("Hát ennél jobb is lehetett volna.")
else:
    print("Nem is igaz")

Az egyik logikai érték igaz volt.
A másik sajnos hamis volt.
Hát ennél jobb is lehetett volna.


In [18]:
# A logikai értékeket ritkán tesszük változókba. Az if-be beírhatsz kifejezéseket is
if a == b:  # Dupla egyenlőség jel az összehasonlító egyenlő. A szimpla az változó érték-hozzárendelés
    print(f"{a} egyenlő volt {b}-vel")

# Ezek a logikai operátorok vannak:
# Egyenlő: ==
# Nem egyenlő: !=
# Nagyobb-kisebb: <>
# Nagyobb-egyenlő, kisebb-egyenlő: >=  <=

1 egyenlő volt 1.0-vel


In [19]:
# Ezen kívül van még and, or:
if a == b and b <= 1 and a <= 1:
    print("Ez egy összetettebb logikai vizsgálat, de igaz eredményt adott.")

Ez egy összetettebb logikai vizsgálat, de igaz eredményt adott.


In [20]:
# Lehet elif-fel más elágazásokat is csinálni. Ezek egymás után értékelődnek ki,
# azaz ha az előbbi if/elif ágba belefutunk, a többit elif ágat (és az else ágat is) át fogjuk ugrani.
if a < 0:
    print("'a' negatív")
elif a == 0:
    print("'a' nulla")
elif a > 0 and a < 1:
    print("'a' nulla és egy közötti érték")
elif a == 1:
    print("'a' pontosan eggyel egyenlő")
elif b == 1:
    print("Ez az ág hiába igaz. Mivel a == 1-be belefutunk, ezt át fogjuk ugrani")
else:
    print("'a' 1-nél nagyobb pozitív szám")
# if/elif/else esetében mindig csak az egyik ága fog lefutni a programnak.

'a' pontosan eggyel egyenlő


### 4. feladat - kvíz
Oldd meg a `hf_kviz` feladatot a `hazi_feladat` mappában.

## 1.4 Összetett adattípusok

A string, egész (int), lebegőpontos tört (float) egyszerű adattípusok. Az összetett adattípusok általában valamilyen tárolók, amiben más adatokat tudunk eltenni.

### Listák (list)

A listák rendezett elemek, amik bármilyen típusba tartozhatnak.

In [21]:
# Python lista
ez_ures_lista = []
ebben_vannak_dolgok = [1, 2, 3, 4]  # ebben 4 int van
kevert_tipusok = [1, 0.0, "szöveg"]  # lehet keverni a típusokat. Más programnyelveken ez nem mindig lehetséges.

In [22]:
kevert_tipusok = [1, 0.0, "szöveg"]

# A listával tudunk csinálni dolgokat:
kevert_lista_hossza = len(kevert_tipusok)  # len() függvény lekéri a hosszát
print(f"A kevert lista hossza: {kevert_lista_hossza} elem")

# A lista elemeit kikérhetjük a sorszámuk szerint, indexeléssel:
# lista_neve[hányadik_elem_kell]. Nullától indexelünk Pythonban.

elso_elem = kevert_tipusok[0]
print(f"A lista első eleme: {elso_elem}")
print(f"A lista második eleme: {kevert_tipusok[1]}")  # Itt már nem csinálok külön változót
print(f"A lista harmadik eleme: {kevert_tipusok[2]}")

A kevert lista hossza: 3 elem
A lista első eleme: 1
A lista második eleme: 0.0
A lista harmadik eleme: szöveg


In [23]:
# A listát indexelhetjük a vége felől is, negatív számokkal:
print(f"A lista utolsó eleme: {kevert_tipusok[-1]}")
print(f"A lista utolsó előtti eleme: {kevert_tipusok[-2]}")

A lista utolsó eleme: szöveg
A lista utolsó előtti eleme: 0.0


In [24]:
# A listának kikérhetjük egy 'szeletét' vagy al-listáját:
print(f"A lista első két eleme: {kevert_tipusok[0:2]}")
# Ennek a szintaxisa a következő:
# kapcsos zárójelben [hányadiktól:hányadikig]
# Itt oda kell figyelni, mert a 'hányadiktól' elemet megkapjuk, de a 'hányadikig' elemet már nem kapjuk meg.

A lista első két eleme: [1, 0.0]


Ha túlindexelünk, hibát kapunk:

```python

print(f"A lista negyedik eleme: {kevert_tipusok[3]}")
```

In [25]:
# Hossza van a stringeknek is:
print(f"Nagyon hosszú string hossza (amit ezelőtt pár cellával csináltunk): {len(nagyon_hosszu_string)}")
# A string hossza a karakterek számát adja vissza.

Nagyon hosszú string hossza (amit ezelőtt pár cellával csináltunk): 261


In [26]:
# A listába tudunk elemeket tenni a létrehozása után is
meghivottak = ["Misi", "Azuma"]
print(f"Lista kinézete append előtt: {meghivottak}")

# Az append hozzáfűz a lista végéhez egy elemet.
meghivottak.append("Benji")
print(f"Lista kinézete append után: {meghivottak}")

# Az extend összefűz két listát. A sorrendeket megtartja.
meghivottak.extend(["Hege", "Hege fura nője", "Gergő", "Fanni"])
print(f"Lista kinézete extend után: {meghivottak}")

Lista kinézete append előtt: ['Misi', 'Azuma']
Lista kinézete append után: ['Misi', 'Azuma', 'Benji']
Lista kinézete extend után: ['Misi', 'Azuma', 'Benji', 'Hege', 'Hege fura nője', 'Gergő', 'Fanni']


In [27]:
# A lista elemeit tudjuk módosítani
meghivottak[2] = "Bendzsi"  # A harmadik elemet kicseréltem
print(f"Lista kinézete a csere után: {meghivottak}")
del meghivottak[2]  # A del kulcsszóval törölni tudunk. Ez kitörli a harmadik elemet.
print(f"Lista kinézete a törlés után: {meghivottak}")
# A listát tudjuk rendezni kétféle képpen.
# A sorted() függvény békénhagyja az eredeti listát és visszaad egy másolatot belőle, a rendezett elemekkel:
rendezett_lista = sorted(meghivottak) 
print(f"rendezett_lista kinézete: {rendezett_lista}")

# A másik módszer, hogy helyben rendezzük a listát a .sort() metódussal:
print(f"Lista kinézete rendezés előtt: {meghivottak}")
meghivottak.sort()
print(f"Lista kinézete rendezés után: {meghivottak}")

Lista kinézete a csere után: ['Misi', 'Azuma', 'Bendzsi', 'Hege', 'Hege fura nője', 'Gergő', 'Fanni']
Lista kinézete a törlés után: ['Misi', 'Azuma', 'Hege', 'Hege fura nője', 'Gergő', 'Fanni']
rendezett_lista kinézete: ['Azuma', 'Fanni', 'Gergő', 'Hege', 'Hege fura nője', 'Misi']
Lista kinézete rendezés előtt: ['Misi', 'Azuma', 'Hege', 'Hege fura nője', 'Gergő', 'Fanni']
Lista kinézete rendezés után: ['Azuma', 'Fanni', 'Gergő', 'Hege', 'Hege fura nője', 'Misi']


In [28]:
# A listába tehetünk listákat is:
kulso_lista = [1, 2]
belso_lista1 = [3, 3, 3]
belso_lista2 = [5, 5, 5, 5, "öt"]
kulso_lista.append(belso_lista1)
kulso_lista.append("négy")
kulso_lista.append(belso_lista2)

print(kulso_lista)

[1, 2, [3, 3, 3], 'négy', [5, 5, 5, 5, 'öt']]


In [29]:
# Fontos, hogy a lista elemei referenciák, azaz csak rámutatnak egy adatra.
# Hadd demonstráljam, ez mit jelent:
print("Külső lista a belsők módosítása előtt:")
print(kulso_lista)
print("Módosítom a belső listát")
belso_lista1[1] = "három"  # A középső elemet kicserélem
print("Belső lista most így néz ki:")
print(belso_lista1)
print("A külső listán belül is látszik ez a változás:")
print(kulso_lista)

Külső lista a belsők módosítása előtt:
[1, 2, [3, 3, 3], 'négy', [5, 5, 5, 5, 'öt']]
Módosítom a belső listát
Belső lista most így néz ki:
[3, 'három', 3]
A külső listán belül is látszik ez a változás:
[1, 2, [3, 'három', 3], 'négy', [5, 5, 5, 5, 'öt']]


Általánosan igaz minden összetett adattípusra (nem csak a listára), hogy ezeknek az elemei csak mutatók egy másik adatra, így ha a kívül módosítunk valamit, az a módosítás automatikusan érvényesül a lista vagy más adattípus tartalmára.

### Szótárak (dictionary)

A szótárak kulcs: érték párokat tartalmaznak, amik egymáshoz vannak rendelve. Ezeket is indexelhetjük, de nem sorrend alapján, hanem egy értéket kérhetünk ki a kulcsa alapján:

In [30]:
ez_ures_dict = {}  # dict-eket kapcsos zárójellel jelöljük
don_pepe_adatok = {"név": "Don Pepe", "margarita_ár": 2100, "almalé_ár": 800}

# Nagyobb dicteket érdemes több sorba kiírni, így jobban átlátható.
# Zárójeleken belül a Python engedi a sortörés használatát.
konrado_adatok = {
    "név": "Konrádó",  # a szótárnak kulcs: érték párok az elemei
    "margarita_ár": 1500,  # bal oldalt van a kulcs (key), jobb oldalt az érték (value)
    "almalé_ár": 700,  # vesszővel választjuk el az elemeket
    "pontszám": 7.5,
}

# A kulcsoknak egyedinek kell lennie, azaz nem ismétlődhetnek. Az értékek igen.

print(konrado_adatok)

{'név': 'Konrádó', 'margarita_ár': 1500, 'almalé_ár': 700, 'pontszám': 7.5}


In [31]:
konrado_alma_ar = konrado_adatok["almalé_ár"]  # dict-eket a kulccsal indexeljük.
print(f"Az almalé ára a Konrádóban: {konrado_alma_ar}")

# Itt nem veszem ki külön változóba az értéket.
print(f"A Margarita ára a Konrádóban: {konrado_adatok['margarita_ár']}")
# Figyelj, hogy itt az f-stringen belül egyes idézőjelet kellett használnom.
# Ez azért van, mert az f-stringet kettős idézőjellel nyitottam.

Az almalé ára a Konrádóban: 700
A Margarita ára a Konrádóban: 1500


In [32]:
# Utólag is tehetünk a dict-be adatot:
print(f"Don Pepe dict módosítás előtt: {don_pepe_adatok}")
don_pepe_adatok["pontszám"] = 7
print(f"Don Pepe dict módosítás után: {don_pepe_adatok}")

Don Pepe dict módosítás előtt: {'név': 'Don Pepe', 'margarita_ár': 2100, 'almalé_ár': 800}
Don Pepe dict módosítás után: {'név': 'Don Pepe', 'margarita_ár': 2100, 'almalé_ár': 800, 'pontszám': 7}


Bár a python megtartja a dict-ben a párok sorrendjét, de a dict-eket nem lehet sorrend alapján indexelni:

```python
don_pepe_adatok[0]  # úgy veszi, hogy 0 kulcsot szeretnénk, de ilyen kulcs nincs ebben a dict-ben.
```

Érték alapján sem lehet indexelni:

```python
don_pepe_adatok[7]
```

Hiába "7" létezik a dict-ben, de az értékek oldalán van, nem a kulcsok oldalán.

In [33]:
# Ellenben a dictek és listák tetszőlegesen kombinálhatóak önmagukkal is és egymással is:

# Íme egy lista, aminek az első eleme is dict és a második eleme is.
pizza_adatok_listaba_teve = [don_pepe_adatok, konrado_adatok]
print(pizza_adatok_listaba_teve)

# Ez egy dict, aminek az értékei dict-ek.
pizza_adatok_dictbe_teve = {
    "Konrádó adatok": konrado_adatok,
    "Don Pepe adatok": don_pepe_adatok,
}
print(pizza_adatok_dictbe_teve)

[{'név': 'Don Pepe', 'margarita_ár': 2100, 'almalé_ár': 800, 'pontszám': 7}, {'név': 'Konrádó', 'margarita_ár': 1500, 'almalé_ár': 700, 'pontszám': 7.5}]
{'Konrádó adatok': {'név': 'Konrádó', 'margarita_ár': 1500, 'almalé_ár': 700, 'pontszám': 7.5}, 'Don Pepe adatok': {'név': 'Don Pepe', 'margarita_ár': 2100, 'almalé_ár': 800, 'pontszám': 7}}


In [34]:
# Ezek a listában dictek és dictben dictek már csúnyák, átláthatatlanok kiprintelve.
# A Python ezért ad egy Pretty Print könyvtárat, ami szépen formázva ki tudja őket íratni.
# Így tudsz könyvtárat használni:
from pprint import pprint  # a Pretty Print könyvtárból importáljuk a 'pprint' függvényt.
pprint(pizza_adatok_dictbe_teve)  # Meghívjuk az importált függvényt

{'Don Pepe adatok': {'almalé_ár': 800,
                     'margarita_ár': 2100,
                     'név': 'Don Pepe',
                     'pontszám': 7},
 'Konrádó adatok': {'almalé_ár': 700,
                    'margarita_ár': 1500,
                    'név': 'Konrádó',
                    'pontszám': 7.5}}


In [35]:
pprint(pizza_adatok_listaba_teve)

[{'almalé_ár': 800, 'margarita_ár': 2100, 'név': 'Don Pepe', 'pontszám': 7},
 {'almalé_ár': 700, 'margarita_ár': 1500, 'név': 'Konrádó', 'pontszám': 7.5}]


In [36]:
# Gyarkan előfordul, hogy nem tudjuk előre, hogy egy dictben szerepel-e valamilyen kulcs.
# Ezt le tudjuk ellenőrizni:
kulcs = "próbáltuk"
print("Don Pepe adatok futtatás előtt:")
pprint(don_pepe_adatok)
if kulcs in don_pepe_adatok:  # Az 'in' kulcsszóval tudjuk csekkolni, hogy valami szerepel-e valami másban.
    print(f"A kulcs: '{kulcs}' szerepel a Don Pepe dictben.")
else:
    print(f"A kulcs: '{kulcs}' nem szerepel a Don Pepe dictben. Most beleteszem.")
    don_pepe_adatok[kulcs] = False
print("Don Pepe adatok futtatás után:")
pprint(don_pepe_adatok)

Don Pepe adatok futtatás előtt:
{'almalé_ár': 800, 'margarita_ár': 2100, 'név': 'Don Pepe', 'pontszám': 7}
A kulcs: 'próbáltuk' nem szerepel a Don Pepe dictben. Most beleteszem.
Don Pepe adatok futtatás után:
{'almalé_ár': 800,
 'margarita_ár': 2100,
 'név': 'Don Pepe',
 'pontszám': 7,
 'próbáltuk': False}


### 5. feladat - meghívottak
Oldd meg a hf_meghivottak.ipynb feladatot.

## 1.5 Függvények

Nagyon gyakran szükség lehet arra, hogy egy kódrészt vagy logikát újrahasználjuk. Erre adnak lehetőséget a függvények. A függvény egy olyan kódrészlet vagy logika, amit elnevezünk és elmentünk egy változóba, hogy később újra meghívhassuk.

Alapból a Python nyelv rendelkezik pár egyszerű beépített függvénnyel, melyeket használhatunk:

- `print()`: kiíratás a kimenetre, ezt már sokszor használtuk.
- `type()`: egy változó típusának lekérése (int, float, dict, list, str, stb.)
- `quit()`: megszakítja a program futását, kilép a programból.
- `sum()`: szumma, pl. egy lista elemeit összeadja, ha azok mind számok.
- `len()`: egy összetett adattípus (lista, dict) vagy string hosszát lekéri
- `open()`: megnyit egy fájlt

Van még pár beépített függvény, azokat most nem fejtem ki. Ha más, bonyolultabb funkcionalitásra van szükségünk, azt általában egy könyvtárból kell importálnunk.

In [37]:
# Pythonban sok hasznos beépített függvény van:
szam_lista = [1, 2, 4, 8, 16, 32]
print(f"A lista szummája: {sum(szam_lista)}")  # sum() függvény
print(f"A lista hossza: {len(szam_lista)}")  # len() függvény
print(f"A lista átlaga: {sum(szam_lista) / len(szam_lista)}")  # Átlag számítás két függvénnyel

A lista szummája: 63
A lista hossza: 6
A lista átlaga: 10.5


In [38]:
# Ez a kódrész létrehoz egy új függvényt.
# Függvény neve furcsa_kivalaszto lesz.
# A függvénynek 2 bemenete van.
# A bemeneteket paramétereknek vagy argumentumoknak szoktuk nevezni.
# A függvény visszatérhet valamivel, jelen esetben a nagyobb méretű paraméterrel.
# Speciális esetben nullával tér vissza.

def furcsa_kivalaszto(elso_parameter, masodik_parameter):
    if elso_parameter > masodik_parameter:
        return elso_parameter
    elif masodik_parameter > elso_parameter:
        return masodik_parameter
    else:  # Ha egyenlők
        return 0

In [39]:
a = 1
b = 2

# Meghívjuk a függvényt:
c = furcsa_kivalaszto(a, b)
print(f"A függvény ezzel tért vissza: {c}")

A függvény ezzel tért vissza: 2


In [40]:
# A függvényt meghívhatjuk helyben létrehozott bemeneti paraméterekkel is:
c = furcsa_kivalaszto(2, 2)
print(f"A függvény ezzel tért vissza: {c}")

A függvény ezzel tért vissza: 0


Azáltal, hogy definiáltuk a `furcsa_kivalaszto` függvényt, kaptunk egy kódrészletet, amit mindig újrahasználhatunk. Ha nem lenne definiálva ez a függvény, a hosszú if-elif-else elágazást minden cellába újra bele kellene írnunk.

*Függvények használatával a kódunk rövidebb és fenntarthatóbb - tegyük fel, hogy hibát találunk az if-elif-else kódrészben. Ha nem lenne kiemelve az a blokk függvénybe, minden cellában módosítanunk kellene az if-elif-else logikáját. Így viszont csak simán módosítjuk a függvény definícióját és máris minden használatnál a módosult működés érvényesül.*

### 6. feladat - kód kiemelése függvénybe

Oldd meg a `hazi_feladat/hf_kodkiemeles.ipynb` Notebook-ot.

## 1.6 Objektumok

Programozásban legtöbbször az a feladatunk, hogy a való világot leképezzük egy programban. Ennek az egyik módja az **objektumok** használata. A való életben a dolgoknak lehetnek tulajdonságai (**attribútumok**, valamiféle tulajdonságok), illetve a valós dolgok tudhatnak csinálni valamit (**metódusok**, valamiféle képességek). Említést kell tennünk a **típusokról** vagy más nével osztályokról is. Az egy típusba tartozó objektumok hasonlítanak egymásra. Íme egy egyszerű példa:

**Típus neve**: kutya
**Attribútumok**: fajta, testsúly, marmagasság, orr_hossz, barátságosság
**Metódusok**: ugatás, ugrálás, futás, gyaloglás

Konkrét *kutya* típusú objektumok a való életben például: Berci, Molli, Fifi, stb.

Figyeld meg, hogy minden *kutya* típusú objektumnak rendelkezik a felsorolt attribútumokkal, bár az attribútumok konkrét **értéke** eltérhet közöttük:
- **Bercinek van fajtája**: utcai vegyes
- **Mollinak van fajtája**: skót juhász
- **Fifinek van fajtája**: border collie

A *metódusok* esetében is hasonló dolgot figyelünk meg.
- **Berci tud ugatni**: úgy, hogy váuváuvávuváiuv
- **Molli is tud ugatni**: úgy, hogy vá, vá, vá - a lényeg, hogy másképp ugat, mint Berci. 

stb.

Berci egy olyan objektum, aminek a **típusa** kutya.

A kutya típusnak egy **példánya** Berci.

A **típushoz** képest az **objektum** egy *konkrétabb* dolog: attribútumainak konkrét értékei vannak.

Az **objektumhoz** képest a **típus** egy *absztraktabb* dolog: attribútumainak tudjuk a nevét, de nincs konkrét értékük.

Amikor egy **típus** alapján **objektumok** készítünk, **példányosítjuk** a típust.

### Osztályok

In [41]:
# Pythonban a típus és az osztály szó is használatos, de nagyrészt ugyanazt jelentik.
# Itt bemutatom, hogy lehet 'dataclass' típusú osztályt létrehozni.
# A dataclass használata tisztábbá teszi a kódot. Később megmutatom, hogy kell
# dataclass használata nélkül csinálni, de az kicsit bonyolultabb, nehezebben átlátható.
from dataclasses import dataclass

@dataclass  # ezzel a sorral jelezzük, hogy dataclass típusú osztályt szeretnénk létrehozni.
class Kutya:  # az osztály nevét közmegegyezés szerint nagy betűvel kezdjük.
    # Először felsoroljuk az attribútumokat. Itt általában megjelöljük azok típusait is.
    nev: str
    fajta: str  
    testsuly: float
    marmagassag: float
    orr_hossz: float
    baratsagossag: str

    def ugatas(self):
        if self.fajta == "pincsi":
            print("VÁVÁVÁVÁVÁVÁVÁVÁVÁVÁÁVÁVÁVÁVÁVÁVÁVÁVÁ")
            return   # Ha ide érünk, megszakad a függvény futása
        
        # Ez csak akkor fut le, ha nem pincsi volt a fajta.
        if self.baratsagossag != "barátságos":
            print("VÁUVÁVÁVÁ")
        else:
            if self.testsuly > 50:
                print("Vufff vvvvvuffff")
            else:
                print("vá  vá   vá")

    def futas(self):
        if self.baratsagossag != "barátságos":
            self.ugatas()  # Ha nem barátságos, ugat egyet futás előtt.
            # Itt nincs return. A barátságos kutya nem fog ugatni, de attól még tovább fut a program.
            
        if self.testsuly > 50:
            print("Lassú galoppozás")
        else:
            print("Skerázás")

In [42]:
# Az osztály olyan, mint egy terv, ami megmondja, milyen tulajdonságai
# lesznek az objektumainkak, de azok konkrét értékéről még nem mond semmit.

# Így tudunk objektumokat példányosítani az osztályunkból:
molli = Kutya(nev="Molli", fajta="Skót juhász", testsuly=40.0, marmagassag=1.2, orr_hossz=0.4, baratsagossag="barátságos")

# Itt is megtörhetjük a sorokat, hogy átláthatóbb legyen:
berci = Kutya(
    nev="Berci",
    fajta="UV",
    testsuly=51.0,
    marmagassag=1.3,
    orr_hossz=0.2,
    baratsagossag="nem barátságos",
)

In [43]:
# Ezután kikérhetjük objektumaink tulajsonságait:

print(f"Molli orrhossza: {molli.orr_hossz}")
print(f"Berci orrhossza: {berci.orr_hossz}")

Molli orrhossza: 0.4
Berci orrhossza: 0.2


Láthatod, hogy az orr hossz, mint tulajdonság mindkét objektumnál szerepel, de az értéke más. Ezt a ponttal elválasztott szintaxist tag-hozzáférésnek hívják (member access) és arra használjuk, hogy az objektum belső dolgait manipuláljuk vagy kiolvassuk. Kicsit hasonló ahhoz, ahogy a szótárból kiolvastuk a kulcs-érték párokat:

`print(szotar["kulcs"])`

Objektumnál ennek a megfelelője:

`print(molli.orr_hossz)`

Az objektumban eltárolt 'változókat', mint az `orr_hossz`, az objektum vagy az osztály attribútumainak hívják (attributes).

Az objektumhoz rendelt függvényeket pedig az objektum metódusainak (methods) hívják.

### Névterek
Az objektumok névterek - ez azt jelenti, hogy alárendelt neveket tartalmaznak. A `molli` névtér alá van rendelve az `orr_hossz` név. A névtéren kívül létrehozott változókat (mint a `meghivottak`, `don_pepe_adatok` vagy a `pizza_adatok_dictbe_teve`) az ún. **külső névtérben** hozzuk létre. A `molli` névtéren belüli változók a pont szintaxissal érhetőek el: `molli.orr_hossz`.

Külső névtérben van a `molli`, de a `Kutya` osztály, `furcsa_kivalaszto()` függvény és minden, ami nem egy osztályon belül jön létre.

In [44]:
# A névterek átjárhatóak. Egy belső névtér mindig név szerint látja a külsőbb névtér változóit


kulso_valtozo = "külső"


def fuggveny(parameter):
    belso_valtozo = "belső"
    print(f"A belső létrejött. A változó értéke: {belso_valtozo}")
    print(f"Paraméter értéke: {parameter}")
    print(f"Látom a külső változót is: {kulso_valtozo}")


# Ne felejtsd, hogy a függvény felső definíció nem futtatja le a függvényt, csak létrehozza.
# Ha futtatni szeretnéd, külön meg kell hívni.
fuggveny(parameter="meglepi")  # a 'parameter' a függvény belső névteréhez tartozik.

print(f"Külső változó értéke: {kulso_valtozo}")

A belső létrejött. A változó értéke: belső
Paraméter értéke: meglepi
Látom a külső változót is: külső
Külső változó értéke: külső


Az alábbi sorok hibásak, mert a belső változók csak a függvényeken belül elérhetőek. A függvény paraméterei is a belső névtérhez tartoznak.

```python
print(f"Nem látom a belső változót... {belso_valtozo}")
```

```python
print(f"Sőt, a 'parameter' értékéhez sem férek hozzá: {parameter}")
```

# 2. Adatelemzés

Ebben a fejezetben elkezdünk adatot elemezni. Átnézzük, milyen könyvtárak elérhetőek és kipróbálunk pár elemzési és megjelenítési módszert.

## 2.1 Pandas és NumPy

Ezeket a könyvtárakat együtt beszéljül át, kezdjük a NumPy-jal, ami az alapját adja a Pandas-nak.

A NumPy egy hatékony eszköz, amellyel mátrixokat tudunk kezelni, manipulálni. A NumPy ezeket tömböknek nevezi (array). Egy tömb olyasmi, mint a Python lista, de típusát tekintve homogén, azaz ebben nem lehet keverni egészeket, törteket, karaktereket, stb.

In [45]:
import numpy as np
# Az 'import <könyvtár> as <valami>' kifejezés egy átnevezést jelent.
# A 'np' rövidebb, mint a 'numpy', ezért így importáljuk.

szamok_tomb = np.array([0, 1, 2, 3, 4])  # Python listából numpy tömböt képzünk
print(szamok_tomb)

[0 1 2 3 4]


In [46]:
tomb_numpyban = np.array([
    [1, 2, 3, 4],
    [1, 2, 3, 4],
    [1, 2, 3, 4],
])  # A sortörések csak az esztétika miatt vannak benne.
# Ez amúgy 3 db 3 elemű lista egy külső listában.
print(tomb_numpyban)

[[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]


Egy másik numpy megkötés, hogy sorhosszak, oszlophosszak
is homogének kell, hogy legyenek.

Nem lehet ún. 'rongyos' (ragged) tömböt csinálni:

```python
rongyos_tomb = np.array([
    [0, 0, 0],
    [1, 1, 1, 1, 1],
    [2, 2, 2, 2],
])  # Ez hibát dobna, ha lefuttatnánk.
```


In [47]:
# Lekérhetjük egy tömb alakját:
print(tomb_numpyban.shape)

# Lekérhetjük az adat típusát (data type):
print(tomb_numpyban.dtype)

# int32, int64, float32, float64 - ilyen típusmegnevezésekkel találkozhatsz.
# Azt jelenti, hogy 32 (float) vagy 64 (double) biten tároljuk a számokat.
# Ezzel nem valószínű, hogy foglalkozni kell, csak megemlítem.

(3, 4)
int64


In [48]:
# Pár matematikai és statisztikai függvény be van építve a numpy tömbökbe:
print("sum:", tomb_numpyban.sum())  # szumma
print("mean:", tomb_numpyban.mean())  # átlag
print("std:", tomb_numpyban.std())  # minta szórás

sum: 30
mean: 2.5
std: 1.118033988749895


In [49]:
# Mátrixok esetében ezeket soronként vagy oszloponként is elvégezhetjük:
print("sum:", tomb_numpyban.sum(axis=0))  # oszlopok szummája
print("mean:", tomb_numpyban.sum(axis=1))  # sorok szummája
# Numpy-ban megegyeztés alapján a 0. dimenzió a sor és az 1. dimenzió az oszlop.

sum: [ 3  6  9 12]
mean: [10 10 10]


Enny elég is a NumPy-ról, térjünk át a **Pandas**-ra. Pár dolog hiányzik a NumPy-ből, hogy táblázatos adat kezelésére használjuk.

Az oszlopokat jó lenne, ha el tudnánk nevezni. Egy táblázatos adatban az oszlopok neveivel hivatkozunk, pl:

| Név    | Életkor | Nem | Dohányzik? |
| ------ | ------- | --- | ---------- |
| Bubi   | 26      |  ?  |   igen     |
| Dáma   | 18      |  F  |   nem      |
| Király | 45      |  N  |   igen     |


Jó lenne, ha keverhetnénk a típusokat legalább oszlopok szintjén:
- **Név**: karakterlánc
- **Életkor**: egész
- **Nem**: karakterlánc, esetleg igaz/hamis (bool)
- **Dohányzik**: igaz/hamis

A Pandas biztosítja ezeket a lehetőségeket. Belül a NumPy homogén tömbjeit használja az adat tárolására, de ad kényelmes módokat az oszlopok szintjén történő manipulációra és sok más varázslatra is.

A Pandas a táblázatokat ezzel az osztállyal reprezentálja: **DataFrame** (DF), ami adatkeretet jelent, de gondolhatsz rá egy Excel táblaként is.

Ami az Excelből hiányzik, de a Pandasban kötelező, az **az index**, ami a sorok azonosítója. Ennek egyedinek érdemes lenni soronként (bár ez nincs szigorúan ellenőrizve, de hibához vezethet).

Ha mi nem adunk meg indexet, akkor kitalál nekünk egy sorszámozást, emiatt nem kell aggódni, de fontos információ, hogy van index és kötelező eleme a DF-nek (pl. ha kitörlünk egy sort, akkor kiesik az az indexszű sor).

In [50]:
import pandas as pd

adataink = pd.DataFrame(columns=["Név", "Életkor", "Nem", "Dohányzik?"])
print(adataink)

Empty DataFrame
Columns: [Név, Életkor, Nem, Dohányzik?]
Index: []


A Pandas oszlopokban gondolkozik, DF-hez soronként adatot hozzáadni sajnos nem lehet, csak oszloponként.

Illetve ennél is jobb megoldás, ha a DF létrehozásakor adjuk be neki az adatokat. Alább mutatok pár megoldást adattal való feltöltésre:

In [51]:
adataink = pd.DataFrame(data={
    "Név": ["Bubi", "Dáma", "Király"],
    "Életkor": [26, 18, 45],
    "Nem": [None, "N", "F"],
    "Dohányzik?": [True, False, True],
})  # A típusokat magától kiokoskodja.
# A data paraméter ebben az esetben egy Python dict-et vár, aminek a kulcsai
# az oszlopnevek és értékei Python listába szedve az oszlopok.
adataink

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Bubi,26,,True
1,Dáma,18,N,False
2,Király,45,F,True


Fent megfigyelheted, hogy elhagytam a `print()` hívást. Ezt azért tehetjük meg, mert a Jupyter extrán támogatja a Pandas-t és megformázza ilyen szép táblázattá, ha a cellában az utolsó utasítás (de csak a legutolsó) az egy ilyen 'meztelen' DF hivatkozás.

Minden más ilyen 'meztelen' hivatkozást figyelmen kívül fog hagyni (ha nem a legutolsó sorban van).

In [52]:
# Üres DF-et hozunk létre:
adataink2 = pd.DataFrame()

# Oszloponként feltöltjük adattal.
adataink2["Név"] = ["Káró", "Treff", "Pikk"]
adataink2["Életkor"] = [23, 19, 50]
adataink2["Nem"] = ["F", "N", "F"]
adataink2["Dohányzik?"] = [False, False, True]
adataink2

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Káró,23,F,False
1,Treff,19,N,False
2,Pikk,50,F,True


## 2.2 Adat műveletek

### Adatforrás: fájlok

Így kódban adatot bevinni pokol. Normál esetben az ember az adatbevitelt excelben csinálja,
majd behúzza az adatot manipulációra, vizualizálásra Pandas DF-be:

In [53]:
adat1_eleresi_utja = "_assets/adat1.xlsx"

# A pandas (pd) könyvtár tagja a 'read_excel' nevű függvény.
adat1 = pd.read_excel(adat1_eleresi_utja)
adat1

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Górapa,60,F,0
1,Gorenje,58,N,1
2,Nagypappantyú,69,F,0
3,Nyanyanyó,65,N,0
4,Oltyemajm,26,,0
5,Marci,30,,0
6,Mámicuj,18,N,0
7,Apacuj,98,F,0
8,Alíz,13,N,1
9,Bencsussz,10,F,0


A fenti táblában megfigyelhető az adathiányt jelző speciális érték (NaN - Not a Number) a 4. és 5. sorokban.

Gyakori fájlformátum nyers adatok esetében a .csv Comma-separated value, azaz vesszővel elválasztott értékek.

A CSV nyers formában így néz ki (ha pl. jegyzettömbbel megnyitnád, ilyen lenne):

In [54]:
# Ez a sor megnyitja a nyers szövegfájlt és beolvassa a tartalmát.
# Az 'open' beépített Python függvény fájlok megnyitására.
csv_nyers_tartalma = open("_assets/adat2.csv").read()
print(csv_nyers_tartalma)

Név,Életkor,Nem,Dohányzik?
Kovács Bence,8,F,0
Szabó Hanna,24,N,1
Tóth Levente,37,F,0
Nagy Dóra,15,N,0
Farkas Gergő,42,F,1
Horváth Lilla,19,N,0
Balogh Ádám,63,F,0
Molnár Nóra,29,N,0
Varga Tamás,10,F,1
Kiss Petra,56,N,0
Németh Zoltán,33,F,0



*Ez így még nem táblázat, csak nyers adatok sortörésekkel és vesszőkkel elválasztva.*

**A csv használatának előnyei**:
- Ember számára is olvasható a megnyitott fájl.
- Portábilis (legtöbb táblázatkezelő és Pandas is meg tudja nyitni)

**Hátrányai**:
- Nem menti a formázást, szűrő létrehozást, Excelben készített diagrammokat.
- Nagy méretű, nem tömörített (ellenben pl. az xlsx-szel).

Mindenesetre nagyon gyakran használunk csv-t. Olvassuk be Pandas-ba:

In [55]:
adat2_eleresi_utja = "_assets/adat2.csv"

# A 'read_csv' a pandas (pd) könyvtár tagja.
adat2 = pd.read_csv(adat2_eleresi_utja)  # Az első sort alapból fejlécnek veszi
adat2

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Kovács Bence,8,F,0
1,Szabó Hanna,24,N,1
2,Tóth Levente,37,F,0
3,Nagy Dóra,15,N,0
4,Farkas Gergő,42,F,1
5,Horváth Lilla,19,N,0
6,Balogh Ádám,63,F,0
7,Molnár Nóra,29,N,0
8,Varga Tamás,10,F,1
9,Kiss Petra,56,N,0


*Egy modern alternatívája a csv-nek a parquet ('parké')*

Ezt akkor érdemes használni, ha nagyon nagy méretű adattáblánk van és sok helyet foglal. Használata: pd.read_parquet("<fájlnév>.parquet")

A parquet előnyei:
- tömörített formátum
- adattudományban portábilis

hátrányai:
- grafikus táblázatkezelők (Excel, LibreOffice) és "Jegyzettömb" nem támogatják.

parquet-re nem hozok példát, ha belefutsz, hogy kezelhetetlen méretűvé kezdenek válni az adatok, majd jusson eszedbe.

Mindkét beolvasott formátum esetében látható, hogy a pandas automatikusan észlelte a fejlécet és létrehozta az oszlopneveket. Létrehozott egyedi indexeket is. Jelenleg van két külön táblázatunk, jó lenne összefűzni őket:

In [56]:
# A két adattábla sorait összefűzhetjük, ha ugyanazok az oszlopneveik.
# Egy listában adjuk be a két táblát és a concat elvégzi az összefűzést.
dohanyos_adat = pd.concat([adat1, adat2])
dohanyos_adat

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Górapa,60,F,0
1,Gorenje,58,N,1
2,Nagypappantyú,69,F,0
3,Nyanyanyó,65,N,0
4,Oltyemajm,26,,0
5,Marci,30,,0
6,Mámicuj,18,N,0
7,Apacuj,98,F,0
8,Alíz,13,N,1
9,Bencsussz,10,F,0


Az egyesített tablát érdemes lehet elmenteni, hogy később ne kelljen újra az összefűzéssel bajlódni. Ekkor újra felmerülhet a kérdés, hogy milyen formátumban érdemes menteni.

- XLSX (excel): ha később szeretnénk excelben manipulalni az adatokat. Csak relatíve kis táblákkal (<2000 sor, <100 oszlop) működik jól.
- CSV: ha később programból hozzáférnénk és az adat kisebb, mint 1-2 GB. Excel meg tudja ezt is nyitni, de pl. formázni nem lehet.
- Parquet: Ha bazi nagy az adat, sok sor, sok oszlop, mérete nagyobb, mint 2 GB.

Itt érdemes megfigyelni, hogy az indexek összekeveredtek. Ezt később majd érdemes rendbe rakni, mert zavarhoz vezethet, de most nem annyira érdekes.

In [57]:
dohanyos_adat.to_excel("munkapad/dohanyosok.xlsx")

Nézz bele az elmentett táblázatba. Figyeld meg, hogy a Pandas kéretlenül is elmenti a létrehozott indexet új oszlopként.

### Oszlopok lekérése 

Mivel a Pandasban az oszlop az alapvető építőelem, oszlopokat legkönnyeb lekérni. Sorokat (rekordokat) is lehet, de az kicsit komplikáltabb. Sorokat általában nem egyesével kérjük ki, hanem valamely oszlop értékei alapján szűrünk, csoportosítunk.

In [58]:
# Egy oszlop lekérése:
dohanyos_adat["Név"]

0            Górapa
1           Gorenje
2     Nagypappantyú
3         Nyanyanyó
4         Oltyemajm
5             Marci
6           Mámicuj
7            Apacuj
8              Alíz
9         Bencsussz
10            Lucko
0      Kovács Bence
1       Szabó Hanna
2      Tóth Levente
3         Nagy Dóra
4      Farkas Gergő
5     Horváth Lilla
6       Balogh Ádám
7       Molnár Nóra
8       Varga Tamás
9        Kiss Petra
10    Németh Zoltán
Name: Név, dtype: object

In [59]:
# Több oszlop lekérése:
dohanyos_adat[["Név", "Életkor"]]

# Ez a dupla-zárójel annak az eredménye, hogy
# egy listával [] indexelünk [].

Unnamed: 0,Név,Életkor
0,Górapa,60
1,Gorenje,58
2,Nagypappantyú,69
3,Nyanyanyó,65
4,Oltyemajm,26
5,Marci,30
6,Mámicuj,18
7,Apacuj,98
8,Alíz,13
9,Bencsussz,10


In [60]:
# Amikor több oszlopot kérünk le, az eredmény, amit kapunk egy másik DataFrame lesz:
oszlopok = dohanyos_adat[["Nem", "Életkor"]]
print("'oszlopok' típusa:", type(oszlopok))

# Ellenben amikor egyetlen oszlopot kérünk le, az eredmény egy 'sorozat' (Series) típusú objektum lesz:
egy_oszlop = dohanyos_adat["Dohányzik?"]
print("'egy_oszlop' típusa:", type(egy_oszlop))

# De kényszeríthetjük a Pandas-t, hogy DF-et adjon vissza, ha egyelemű listával indexelünk:
egy_oszlop_df = dohanyos_adat[["Dohányzik?"]]
print("'egy_oszlop_df' típusa:", type(egy_oszlop_df))

'oszlopok' típusa: <class 'pandas.core.frame.DataFrame'>
'egy_oszlop' típusa: <class 'pandas.core.series.Series'>
'egy_oszlop_df' típusa: <class 'pandas.core.frame.DataFrame'>


A Series is egy Pandas típus, akkor adja a Pandas, ha egy sort vagy egy oszlopot kikérünk. Míg a DataFrame két dimenziós (oszlopai és sorai vannak), a Series egy dimenziós adatot reprezentál (egy sor, egy oszlop).

A Series olyasmi, mint egy dictionary és egy NumPy tömb keveréke:
- Ha egy sort képvisel, akkor oszlopnevekkel indexelhető.
- Ha egy oszlopot képvisel, akkor a sorok indexével indexelhető.
- A NumPy tömbök matematikai, statisztikai beépített műveletei elvégezhetőek rajta (.sum(), .mean(), stb.)

### Sorok lekérése (.loc, .iloc)

Erre a Pandas ad egy speciális módszert, mellyel kicsit strukturáltabban indexelhetünk:

In [61]:
# Készítünk egy másik DF-et:
ceg_adatok = pd.DataFrame(
    data={
        "Cégnév": ["Kovács és Társa Kft.", "Global Tech Zrt.", "Almafa Bt."],
        "Egyenleg (HUF)": [1250000, -450000, 320000]
    },
    index=["123-456-789", "987-654-321", "456-789-123"]  # Adóazonosítók az indexek
)
ceg_adatok

Unnamed: 0,Cégnév,Egyenleg (HUF)
123-456-789,Kovács és Társa Kft.,1250000
987-654-321,Global Tech Zrt.,-450000
456-789-123,Almafa Bt.,320000


Ennek a DF-nek az indexe már nem egy sima sorszám, hanem string típusú adóazonosítók.

Bonyolultabb lekérésekre minden Pandas DF biztosít egy `.loc` nevű attribútumot (localizer), mellyel a következőképpen tudunk indexelni:

In [62]:
sorok_indexei = ["123-456-789", "456-789-123"]
oszlopok_nevei = ["Cégnév"]
lekeres = ceg_adatok.loc[sorok_indexei, oszlopok_nevei]
lekeres

Unnamed: 0,Cégnév
123-456-789,Kovács és Társa Kft.
456-789-123,Almafa Bt.


A `.loc` első paramétere mindig a sorra való hivatkozás (pl. index), második paramétere az oszlopra való hivatkozás (pl. oszlopnevek).

Mind a sorra, mind az oszlopra való hivatkozás opcionális. Ha valamelyiket kihagyjuk, azt egy `:` karakterrel kell helyettesíteni, ami azt jelenti, 'Mindent kérek':

In [63]:
ceg_adatok.loc[:, ["Cégnév"]]  # Minden sort kérek és bizonyos oszlopokat

Unnamed: 0,Cégnév
123-456-789,Kovács és Társa Kft.
987-654-321,Global Tech Zrt.
456-789-123,Almafa Bt.


In [64]:
ceg_adatok.loc[["123-456-789"], :]  # Bizonyos sorokat kérek és minden oszlopot

Unnamed: 0,Cégnév,Egyenleg (HUF)
123-456-789,Kovács és Társa Kft.,1250000


In [65]:
# Rövidítés végett a 'hátsó' kettőspontok elhagyhatóak:
lekeres = ceg_adatok.loc[["123-456-789"]]  # Ez minden oszlopot lekér.a megadott sor mellé.
# Másik ilyen "rövidítés":
lekeres = ceg_adatok[oszlopok_nevei]  # Ez ugyanazt csinálja, mint a .loc[:, oszlopok_nevei]

In [66]:
# Ezen a ponton érthető, hogy miért problémás, ha duplikáció van az indexek között:
dohanyos_adat

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Górapa,60,F,0
1,Gorenje,58,N,1
2,Nagypappantyú,69,F,0
3,Nyanyanyó,65,N,0
4,Oltyemajm,26,,0
5,Marci,30,,0
6,Mámicuj,18,N,0
7,Apacuj,98,F,0
8,Alíz,13,N,1
9,Bencsussz,10,F,0


In [67]:
# Szeretném kikérni, a 0, 2, 4 indexű sorokat:
dohanyos_adat.loc[[0, 2, 4]]

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Górapa,60,F,0
0,Kovács Bence,8,F,0
2,Nagypappantyú,69,F,0
2,Tóth Levente,37,F,0
4,Oltyemajm,26,,0
4,Farkas Gergő,42,F,1


In [68]:
# Ez egy nem kívánt hatás a legtöbb adatfeldolgozás esetében (értsd: bug).
# A duplikált indexet kitörölhetjük és újragenerálhatunk egy új sorszám-indexet:
# Ezt érdemes adatok összefűzáse után automatikusan, megszokásból is megcsinálni, hacsak az adat
# nem tartalmaz értelmes indexeket (ebben az esetben valószínűleg nem lesz ütközés).
dohanyos_adat = dohanyos_adat.reset_index(drop=True)
dohanyos_adat

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
0,Górapa,60,F,0
1,Gorenje,58,N,1
2,Nagypappantyú,69,F,0
3,Nyanyanyó,65,N,0
4,Oltyemajm,26,,0
5,Marci,30,,0
6,Mámicuj,18,N,0
7,Apacuj,98,F,0
8,Alíz,13,N,1
9,Bencsussz,10,F,0


Egyes esetekben szükség lehet rá, hogy sorszám alapján kérjünk ki sort, vagy oszlopot. Erre egy másik indexelési objektum, az `.iloc` használatos (integer localizer):

In [69]:
# Kikérjük az első és második sort és első és második oszlopot.
sorok_sorszamai = [1, 2]
oszlopok_sorszamai = [0, 1]
ceg_adatok.iloc[sorok_sorszamai, oszlopok_sorszamai] 

Unnamed: 0,Cégnév,Egyenleg (HUF)
987-654-321,Global Tech Zrt.,-450000
456-789-123,Almafa Bt.,320000


Azért választottam nem-integer indexű DF-et, hogy lásd és érzékeld, mi a különbség a `.loc` és a `.iloc` között. Nagyon gyakori az, hogy sorszámozott indexű DF-fel dolgozunk, de érteni kell, mi a különbség ezek között:

```python
df.loc[0]
df.iloc[0]
```

`loc[0]` csak olyan DF-ekre fog működni, ahol az indexben szerepel az egész szám `0`. Ez nem feltétlenül pont az első helyen lesz jelen és nem feltétlenül csak egy sorhoz tartozhat (ahogy fentebb is láthattad).

`iloc[0]` minden esetben működni fog, bármilyen DF-re, amelyben legalább 1 sor van és minden esetben csak a sorrendben első sort fogja visszaadni.

Természetesen ha sorszámozott indexű DF-fel dolgozunk és a sorszámok sorba vannak rendezve az indexben és minden index egyedi, akkor a `.loc[0]` és a `.iloc[0]` ugyanazt a sort fogja visszaadni, de akkor is más a mögöttes működési elv.

### Szűrés

Gyakori művelet, melyet DF-eken végzünk, hogy valamilyen oszlop értékei alapján szűrjük a sorokat. Amikor kikérünk egy oszlopot (Nem), egy Pandas Series objektumot kapunk vissza. Ha ezen logikai összehasonlítást végzünk, az az összehasonlítás a sorozat minden egyes elemén külön elvégzésre kerül, így amit kapunk szintén egy Series lesz, logikai igaz/hamis értékekkel feltöltve. Az ilyen bool típusú sorozatokat maszkként használhatjuk a teljes DF-en:

In [70]:
maszk = dohanyos_adat["Nem"] == "N"
maszk

0     False
1      True
2     False
3      True
4     False
5     False
6      True
7     False
8      True
9     False
10     True
11    False
12     True
13    False
14     True
15    False
16     True
17    False
18     True
19    False
20     True
21    False
Name: Nem, dtype: bool

In [71]:
# Ez alapján a maszk alapján aztán leválogathatjuk a DF-et, ha indexeljük vele:
dohanyos_adat[maszk]

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
1,Gorenje,58,N,1
3,Nyanyanyó,65,N,0
6,Mámicuj,18,N,0
8,Alíz,13,N,1
10,Lucko,25,N,1
12,Szabó Hanna,24,N,1
14,Nagy Dóra,15,N,0
16,Horváth Lilla,19,N,0
18,Molnár Nóra,29,N,0
20,Kiss Petra,56,N,0


In [72]:
# Kombinálhatunk maszkokat logikai műveletekkel:
# - és: &
# - vagy: |
# Ezek szintén elemenként kerülnek elvégzésre.
no_nemu = dohanyos_adat["Nem"] == "N"
dohanyzik = dohanyos_adat["Dohányzik?"] == 1
dohanyos_adat[no_nemu & dohanyzik]

Unnamed: 0,Név,Életkor,Nem,Dohányzik?
1,Gorenje,58,N,1
8,Alíz,13,N,1
10,Lucko,25,N,1
12,Szabó Hanna,24,N,1


In [74]:
# Egy sorba összevonható minden, ez már egy igazi datás kód:
dohanyos_nok_aranya = dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"].mean()
print(f"Dohányos nők aránya: {dohanyos_nok_aranya}")

Dohányos nők aránya: 0.4


*Mi történik a fenti cellában?*

A kifejezések balról-jobbra, belülről kifelé értékelődnek ki (a zárójelek előnyt élveznek). Bontsuk fel lépésenként:

- `dohanyos_adat["Nem"]`: lekér egy oszlopot, létrejön egy 'Series' objektum
- `dohanyos_adat["Nem"] == "N"`: elvégzi az összehasonlítást elemenként a Series és a string között. Eredménye egy 'bool' típusú maszk.
- `dohanyos_adat[dohanyos_adat["Nem"] == "N"]`: szűrjük a teljes dohányos DF-et a maszk alapján. Eredménye a szűrt DF, minden oszlopával.
- `dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"]`: A szűrt DF-ből lekérjük 'Dohányzik?' oszlopot. Eredménye lekért oszlop (Series típusú), de csak a megszűrt elemek.
- `dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"].mean()`: Vesszük a megszűrt, lekért oszlop értékeinek átlagát. Mivel 0 és 1 van csak benne, az oszlop átlaga épp a dohányosok arányával lesz egyenlő.

Végső soron amit kapunk, az a nőnenműre szűrt dohányosok aránya, ami 0.4 (azaz 40%).

*Ha a fenti cella még zavaros, bonyolult, akkor érdemes szóban átbeszélni, hogy mi minden történik benne.*

Ha a fenti cella érhető, alább láthatsz egy konkrét statisztikai összehasonlítást:

In [78]:
dohanyos_nok = 
# Kiszámoljuk a dohányos nők arányát
dohanyos_nok_aranya = dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"].mean()
# Kiszámoljuk a dohányos nők szórását
dohanyos_nok_aranya_szoras = dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"].std()
# Kiszámoljuk a dohányos nők mintaszámát
dohanyos_nok_n = dohanyos_adat[dohanyos_adat["Nem"] == "N"]["Dohányzik?"].count()
# Kiszámoljuk a dohányos férfiak arányát
dohanyos_ferfiak_aranya = dohanyos_adat[dohanyos_adat["Nem"] == "F"]["Dohányzik?"].mean()
# Kiszámoljuk a dohányos férfiak szórását
dohanyos_ferfiak_aranya_szoras = dohanyos_adat[dohanyos_adat["Nem"] == "F"]["Dohányzik?"].std()
# Kiszámoljuk a dohányos nők mintaszámát
dohanyos_ferfiak_n = dohanyos_adat[dohanyos_adat["Nem"] == "F"]["Dohányzik?"].count()
print(f"Dohányos nők aránya ({dohanyos_nok_n}):     {dohanyos_nok_aranya} +- {dohanyos_nok_aranya_szoras}")
print(f"Dohányos férfiak aránya ({dohanyos_ferfiak_n}): {dohanyos_ferfiak_aranya} +- {dohanyos_ferfiak_aranya_szoras}")

Dohányos nők aránya (10):     0.4 +- 0.5163977794943223
Dohányos férfiak aránya (10): 0.2 +- 0.42163702135578396
