# Pandas

---

(2020. 01. 28. – 13. óra)

Mittelholcz Iván

## 1. Bevezetés

### 1.1. Python csomagok statisztikához és gépi tanuláshoz

* [numpy](http://www.numpy.org/): adatszerkezetek (array), matematikai számítások, lineáris algebra
* [scipy](https://www.scipy.org/): numpy-ra épülő, tudományos számítások
* [matplotlib](https://matplotlib.org/), [seaborn](https://seaborn.pydata.org/): adatvizualizáció, plottolás
* [pandas](http://pandas.pydata.org/): dataframe adatszerkezet adatok kezeléséhez
* [scikit-learn](http://scikit-learn.org/stable/): gépitanulás

### 1.2. Írisz adatbázis

(Fisher, 1936)

Gépitanulós, adattudományos *hello world*:

- 150 írisz
- négy tulajdonság: *sepal_length*, *sepal_width*, *petal_length*, *petal_width*
- három alosztály: *setosa*, *versicolor*, *virginica*

<img src="https://www.math.umd.edu/~petersd/666/html/iris_with_labels.jpg" />

## 2. Pandas DataFrame

A Pandas saját, kétdimenziós, címkézett adatszerkezete. Series-ekből (egydimenziós címkézett adatszerkezetekből épül fel -- ezekkel nem fogunk foglalkozni).

CSV fájl beolvasása DF-be:

```py
df = pd.read_csv('filename')
```

Hasznos opcionális paraméterek:

- `sep='\t'`: TSV-hez.
- `index_col=0`: Saját index (címke) oszlop megadása.

DF kiírása CSV fájlba:

```py
df.to_csv('filename')
```

A `sep` paraméter itt is hasznos lehet!

In [11]:
# Példa

import pandas as pd

# TODO!
df = pd.read_csv('iris.tsv')
df = pd.read_csv('iris.tsv', sep='\t', index_col=0)

## 3. Megjelenítés, alap infók

- DF első (*n*) sora: `df.head()`, `df.head(n)`
- DF utolsó (*n*) sora: `df.tail()`, `df.tail(n)`
- Adattípus: `type(df)`
- Hányszor hányas: `df.shape`
- Mit lehet még tudni róla: `df.info()`

In [10]:
# Feladatok:

# Dimenziók?
# Mekkora helyet foglal a memóriában?
# Írassuk ki az utolsó 10 sort

## 4. Sorok, oszlopok indexelése, szeletelése

Egy DF-ben a sorok és oszlopok címkézettek és pozíciójuk is van $\rightarrow$ egyszerre tudnak szótárszerűen és listaszerűen is viselkedni: hivatkozhatók kulcsszó ill. pozíció szerint is!

- címkék: `df.axes`
- sorcímkék: `df.axes[0]`
- oszlopcímkék: `df.axes[1]`
- adatok, címkék nélkül: `df.values`

### 4.1. Közvetlen hivatkozás

- A DF oszlopai közvetlenül a nevükkel hivatkozhatók (`df['oszlopnev']`), de pozícióval nem.
- A sorok nem hivatkozhatók közvetlenül.
- A DF közvetlenül nem is szeletelhető.

### 4.2. Hivatkozás címkékkel (`df.loc`)

```py
df.loc[[sorcímkék], [oszlopcímkék]]
```

- egy cella: `df.loc[[x], [y]]`
- több cella: `df.loc[[x1, x2, ...], [y1, y2, ...]]` (listával)
- több cella:  `df.loc[x1:x2, y1:y2]` (szeleteléssel, inklúzív!)
- egy sor: `df.loc[[x], :]`
- egy oszlop: `df.loc[:, [y]]`
- több sor: `df.loc[[x1, x2, ...], :]` (listával)
- több sor: `df.loc[x1:x2, :]` (szeleteléssel)
- több oszlop: `df.loc[:, [x1, x2, ...]]` (listával)
- több oszlop: `df.loc[:, x1:x2]` (szeleteléssel)



### 4.3. Hivatkozás pozícióval (`df.iloc`)

```py
df.iloc[[sor_pozíciók], [oszlop_pozíciók]]
```

Ugyanaz, mint a `df.loc`, de szeletelésnél a *meddig* excuzív (ahogy pythonban)!

In [38]:
# Feladatok

# Irassuk ki a 95-105 sorokban található levélszélességeket többféleképpen is.

## 5. 1. Sorok szűrése

In [80]:
df[(df['sepal_length'] > 5.5) & (df['petal_length'] < 4)]

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
15,5.8,4.0,1.2,0.2,setosa
16,5.7,4.4,1.5,0.4,setosa
19,5.7,3.8,1.7,0.3,setosa
65,5.6,2.9,3.6,1.3,versicolor
70,5.6,2.5,3.9,1.1,versicolor
80,5.7,2.6,3.5,1.0,versicolor
83,5.8,2.7,3.9,1.2,versicolor


## TODO

1. új sorok és oszlopok (származtatott oszlopok hozzáadása)
1. alap statisztikák (átlag, medián, modusz, szórás)
1. korreláció
1. plottolás

Általában nem kell mindent megmutatni, csak a leggyakoribb szükségeket kielégítő módszert.

## Alap statisztikak

In [77]:
df.describe()
#df.min()
#df.max()
#df.mode()
#df.median()
#df.std()
#df.count(axis=1, 'virginica')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
