# Pandas

---

(2020. 01. 28. – 13. óra)

Mittelholcz Iván

## 1. Bevezetés

### 1.1. Python csomagok statisztikához és gépi tanuláshoz

* [numpy](http://www.numpy.org/): adatszerkezetek (array), matematikai számítások, lineáris algebra
* [scipy](https://www.scipy.org/): numpy-ra épülő, tudományos számítások
* [matplotlib](https://matplotlib.org/), [seaborn](https://seaborn.pydata.org/): adatvizualizáció, plottolás
* [pandas](http://pandas.pydata.org/): dataframe adatszerkezet adatok kezeléséhez
* [scikit-learn](http://scikit-learn.org/stable/): gépitanulás

### 1.2. Írisz adatbázis

(Fisher, 1936)

Gépitanulós, adattudományos *hello world*:

- 150 írisz
- négy tulajdonság: *sepal_length*, *sepal_width*, *petal_length*, *petal_width*
- három alosztály: *setosa*, *versicolor*, *virginica*

<img src="https://www.math.umd.edu/~petersd/666/html/iris_with_labels.jpg" />

## 2. Pandas DataFrame

A Pandas saját, kétdimenziós, címkézett adatszerkezete. Series-ekből (egydimenziós címkézett adatszerkezetekből épül fel -- ezekkel nem fogunk foglalkozni).

CSV fájl beolvasása DF-be:

```py
df = pd.read_csv('filename')
```

Hasznos opcionális paraméterek:

- `sep='\t'`: TSV-hez.
- `index_col=0`: Saját index (címke) oszlop megadása.

DF kiírása CSV fájlba:

```py
df.to_csv('filename')
```

A `sep` paraméter itt is hasznos lehet!

In [None]:
# Példa

import pandas as pd

# TODO!
df = pd.read_csv('iris.tsv')
# Feladat: javítsuk meg a beolvasást!
df

## 3. Megjelenítés, alap infók

- DF első (*n*) sora: `df.head()`, `df.head(n)`
- DF utolsó (*n*) sora: `df.tail()`, `df.tail(n)`
- Adattípus: `type(df)`
- Hányszor hányas: `df.shape`
- Mit lehet még tudni róla: `df.info()`

In [None]:
# Feladatok:

# Dimenziók?

# Mekkora helyet foglal a memóriában?

# Írassuk ki az utolsó 10 sort


## 4. Sorok, oszlopok indexelése, szeletelése

Egy DF-ben a sorok és oszlopok címkézettek és pozíciójuk is van $\rightarrow$ egyszerre tudnak szótárszerűen és listaszerűen is viselkedni: hivatkozhatók kulcsszó ill. pozíció szerint is!

- címkék: `df.axes`
- sorcímkék: `df.axes[0]`
- oszlopcímkék: `df.axes[1]`
- adatok, címkék nélkül: `df.values`

### 4.1. Közvetlen hivatkozás

- A DF oszlopai közvetlenül a nevükkel hivatkozhatók (`df['oszlopnev']`), de pozícióval nem.
- A sorok nem hivatkozhatók közvetlenül.
- A DF közvetlenül nem is szeletelhető.

### 4.2. Hivatkozás címkékkel (`df.loc`)

```py
df.loc[[sorcímkék], [oszlopcímkék]]
```

- egy cella: `df.loc[[x], [y]]`
- több cella: `df.loc[[x1, x2, ...], [y1, y2, ...]]` (listával)
- több cella:  `df.loc[x1:x2, y1:y2]` (szeleteléssel, inklúzív!)
- egy sor: `df.loc[[x], :]`
- egy oszlop: `df.loc[:, [y]]`
- több sor: `df.loc[[x1, x2, ...], :]` (listával)
- több sor: `df.loc[x1:x2, :]` (szeleteléssel)
- több oszlop: `df.loc[:, [x1, x2, ...]]` (listával)
- több oszlop: `df.loc[:, x1:x2]` (szeleteléssel)



### 4.3. Hivatkozás pozícióval (`df.iloc`)

```py
df.iloc[[sor_pozíciók], [oszlop_pozíciók]]
```

Ugyanaz, mint a `df.loc`, de szeletelésnél a *meddig* exkluzív (ahogy pythonban)!

In [None]:
# Feladatok

# Irassuk ki a 95-105 sorokban található levélszélességeket többféleképpen is.


## 5. Manipulálás

### 5. 1. Sorok szűrése

Oszlopra is megfogalmazhatunk feltételt $\rightarrow$ boolean oszlop. Példa:

In [None]:
df['sepal_length'] < 4.8

In [None]:
df['petal_length'] < 1.5

A feltételek kombinálhatóak bináris operátorokkal (zárójel kötelező!)

Operátorok:

- `&`: *és*
- `|`: *vagy*
- `~`: *nem*

In [None]:
(df['sepal_length'] < 4.8) | (df['petal_length'] < 1.5)

Sorok szűrhetők boolean oszlopokkal: az *hamis* sorok nem lesznek az eredményben:

In [None]:
df[df['sepal_length'] < 4.8]

In [None]:
# Feladat: Keressük azokat az íriszeket, amelyeknél a sepal_length < 4.8 és a petal_length < 1.5


### 5.2. Oszlop hozzáadása

Új oszlopot adhatunk meg:

- konstans értékkel
- listaszerűséggel
- oszlop + művelettel
- a [`transform()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html) metódussal

In [None]:
# Példák

df2 = df.copy()
df2['const'] = 1
df2['range'] = range(1, 300, 2)
df2['sl_inc'] = df2['sepal_length'] + 1
df2['petal_sum'] = df2['petal_length'] + df2['petal_width']
df2

## Alap statisztikak

In [None]:
df.describe()

In [None]:
# legkisebb érték
df['sepal_length'].min()

In [None]:
# legnagyobb érték
df['sepal_length'].max()

In [None]:
# értékek összege
df['sepal_length'].sum()

In [None]:
# átlag
df['sepal_length'].mean()

In [None]:
# medián
df['sepal_length'].median()

In [None]:
# modusz, leggyakoribb érték
df['sepal_length'].mode()

In [None]:
# szórás
df['sepal_length'].std()

In [None]:
# értékek gyakorisága
df['sepal_length'].value_counts()

In [None]:
# Feladat: Melyek azok az íriszek, amelyeknek mind a négy levélmérete átlag feletti?
# Ne kézzel adjuk meg az átlagok értékét!


## Irodalom

- Hivatalos:
    - [Dokumentáció](https://pandas.pydata.org/pandas-docs/stable/)
    - [Getting started](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html)
- [Real Python: Pandas](https://realpython.com/search?q=pandas)
- [Downey, Allen B.: Think Stats](http://www.greenteapress.com/thinkstats/)
- [VanderPlas, Jake: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)