# Pandas

---

(2020. 01. 28. – 13. óra)

Mittelholcz Iván

## 1. Bevezetés

### 1.1. Python csomagok statisztikához és gépi tanuláshoz

* [numpy](http://www.numpy.org/): adatszerkezetek (array), matematikai számítások, lineáris algebra
* [scipy](https://www.scipy.org/): numpy-ra épülő, tudományos számítások
* [matplotlib](https://matplotlib.org/), [seaborn](https://seaborn.pydata.org/): adatvizualizáció, plottolás
* [pandas](http://pandas.pydata.org/): dataframe adatszerkezet adatok kezeléséhez
* [scikit-learn](http://scikit-learn.org/stable/): gépitanulás

### 1.2. Írisz adatbázis

(Fisher, 1936)

Gépitanulós, adattudományos *hello world*:

- 150 írisz
- négy tulajdonság: *sepal_length*, *sepal_width*, *petal_length*, *petal_width*
- három alosztály: *setosa*, *versicolor*, *virginica*

<img src="https://www.math.umd.edu/~petersd/666/html/iris_with_labels.jpg" />

## 2. Pandas DataFrame

A Pandas saját, kétdimenziós, címkézett adatszerkezete. Series-ekből (egydimenziós címkézett adatszerkezetekből épül fel -- ezekkel nem fogunk foglalkozni).

CSV fájl beolvasása DF-be:

```py
df = pd.read_csv('filename')
```

Hasznos opcionális paraméterek:

- `sep='\t'`: TSV-hez.
- `index_col=0`: Saját index (címke) oszlop megadása.

DF kiírása CSV fájlba:

```py
df.to_csv('filename')
```

A `sep` paraméter itt is hasznos lehet!

In [1]:
# Példa

import pandas as pd

# TODO!
df = pd.read_csv('iris.tsv')
df = pd.read_csv('iris.tsv', sep='\t', index_col=0)

## 3. Megjelenítés, alap infók

- DF első (*n*) sora: `df.head()`, `df.head(n)`
- DF utolsó (*n*) sora: `df.tail()`, `df.tail(n)`
- Adattípus: `type(df)`
- Hányszor hányas: `df.shape`
- Mit lehet még tudni róla: `df.info()`

In [2]:
# Feladatok:

# Dimenziók?
# Mekkora helyet foglal a memóriában?
# Írassuk ki az utolsó 10 sort

## 4. Sorok, oszlopok indexelése, szeletelése

Egy DF-ben a sorok és oszlopok címkézettek és pozíciójuk is van $\rightarrow$ egyszerre tudnak szótárszerűen és listaszerűen is viselkedni: hivatkozhatók kulcsszó ill. pozíció szerint is!

- címkék: `df.axes`
- sorcímkék: `df.axes[0]`
- oszlopcímkék: `df.axes[1]`
- adatok, címkék nélkül: `df.values`

### 4.1. Közvetlen hivatkozás

- A DF oszlopai közvetlenül a nevükkel hivatkozhatók (`df['oszlopnev']`), de pozícióval nem.
- A sorok nem hivatkozhatók közvetlenül.
- A DF közvetlenül nem is szeletelhető.

### 4.2. Hivatkozás címkékkel (`df.loc`)

```py
df.loc[[sorcímkék], [oszlopcímkék]]
```

- egy cella: `df.loc[[x], [y]]`
- több cella: `df.loc[[x1, x2, ...], [y1, y2, ...]]` (listával)
- több cella:  `df.loc[x1:x2, y1:y2]` (szeleteléssel, inklúzív!)
- egy sor: `df.loc[[x], :]`
- egy oszlop: `df.loc[:, [y]]`
- több sor: `df.loc[[x1, x2, ...], :]` (listával)
- több sor: `df.loc[x1:x2, :]` (szeleteléssel)
- több oszlop: `df.loc[:, [x1, x2, ...]]` (listával)
- több oszlop: `df.loc[:, x1:x2]` (szeleteléssel)



### 4.3. Hivatkozás pozícióval (`df.iloc`)

```py
df.iloc[[sor_pozíciók], [oszlop_pozíciók]]
```

Ugyanaz, mint a `df.loc`, de szeletelésnél a *meddig* excuzív (ahogy pythonban)!

In [3]:
# Feladatok

# Irassuk ki a 95-105 sorokban található levélszélességeket többféleképpen is.

## 5. Manipulálás

### 5. 1. Sorok szűrése

Oszlopra is megfogalmazhatunk feltételt $\rightarrow$ boolean oszlop. Példa:

In [26]:
df.head()['sepal_length'] < 4.8

ID
1    False
2    False
3     True
4     True
5    False
Name: sepal_length, dtype: bool

In [25]:
df.head()['petal_length'] < 1.5

ID
1     True
2     True
3     True
4    False
5     True
Name: petal_length, dtype: bool

A feltételek kombinálhatóak bináris operátorokkal (zárójel kötelező!)

Operátorok:

- `&`: *és*
- `|`: *vagy*
- `~`: *nem*

In [37]:
(df['sepal_length'] < 4.8) | (df['petal_length'] < 1.5)

ID
1       True
2       True
3       True
4       True
5       True
       ...  
146    False
147    False
148    False
149    False
150    False
Length: 150, dtype: bool

Sorok szűrhetők boolean oszlopokkal: az *hamis* sorok nem lesznek az eredményben:

In [41]:
df[df['sepal_length'] < 4.8]

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
7,4.6,3.4,1.4,0.3,setosa
9,4.4,2.9,1.4,0.2,setosa
14,4.3,3.0,1.1,0.1,setosa
23,4.6,3.6,1.0,0.2,setosa
30,4.7,3.2,1.6,0.2,setosa
39,4.4,3.0,1.3,0.2,setosa
42,4.5,2.3,1.3,0.3,setosa
43,4.4,3.2,1.3,0.2,setosa


In [43]:
# Feladat: Keressük azokat az íriszeket, amelyeknél a sepal_length < 4.8 és a petal_length < 1.5

### 5.2. Oszlop hozzáadása

Új oszlopot adhatunk meg:

- konstans értékkel
- listaszerűséggel
- oszlop + művelettel

In [53]:
# Példák

df2 = df.copy()
df2['const'] = 1
df2['range'] = range(1, 300, 2)
df2['sl_inc'] = df2['sepal_length'] + 1
df2['petal_sum'] = df2['petal_length'] + df2['petal_width']
df2

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species,const,range,sl_inc,petal_sum
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,5.1,3.5,1.4,0.2,setosa,1,1,6.1,1.6
2,4.9,3.0,1.4,0.2,setosa,1,3,5.9,1.6
3,4.7,3.2,1.3,0.2,setosa,1,5,5.7,1.5
4,4.6,3.1,1.5,0.2,setosa,1,7,5.6,1.7
5,5.0,3.6,1.4,0.2,setosa,1,9,6.0,1.6
...,...,...,...,...,...,...,...,...,...
146,6.7,3.0,5.2,2.3,virginica,1,291,7.7,7.5
147,6.3,2.5,5.0,1.9,virginica,1,293,7.3,6.9
148,6.5,3.0,5.2,2.0,virginica,1,295,7.5,7.2
149,6.2,3.4,5.4,2.3,virginica,1,297,7.2,7.7


## Alap statisztikak

In [55]:
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [65]:
# legkisebb érték
df['sepal_length'].min()

4.3

In [66]:
# legnagyobb érték
df['sepal_length'].max()

7.9

In [81]:
# értékek összege
df['sepal_length'].sum()

876.5

In [73]:
# átlag
df['sepal_length'].mean()

5.843333333333334

In [71]:
# medián
df['sepal_length'].median()

5.8

In [69]:
# modusz, leggyakoribb érték
df['sepal_length'].mode()

0    5.0
dtype: float64

In [75]:
# szórás
df['sepal_length'].std()

0.828066127977863

In [80]:
# értékek gyakorisága
df['sepal_length'].value_counts().head()

5.0    10
6.3     9
5.1     9
6.7     8
5.7     8
Name: sepal_length, dtype: int64

## Irodalom

- Hivatalos:
    - [Dokumentáció](https://pandas.pydata.org/pandas-docs/stable/)
    - [Getting started](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html)
- [Real Python: Pandas](https://realpython.com/search?q=pandas)
- [Downey, Allen B.: Think Stats](http://www.greenteapress.com/thinkstats/)
- [VanderPlas, Jake: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)