# Vyprávíme příběh s daty

## Seznámení s daty

## Pandas 🐼

### Nasťa a Filip Sedlákovi

## Seznámení s daty - postup

1. Načíst data
    - Případně přejmenovat sloupce

2. V jakém formátu jsou sloupce?

3. Kolik je řádků a sloupců?

4. Obsahují některé sloupce chybějící data?

5. Udělat popisnou statistiku dat

## Co je pandas?

- Knihovna pro analýzu dat v Pythonu
- Je postavena na NumPy (knihovna pro práci s numerickými daty)
- [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)


## Jak naimportuji pandas?

In [1]:
# Importujeme pandas jako zkrátku
# Není to nutné, ale většina tutorialu to tak má
import pandas as pd

## Jak načtu data?

Pandas má několik funkcí, tady je [hezký](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#data-in-out) přehled

Nejpoužívanější je funkce [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html), která má více než 20 parametrů (nebojte se, jenom jeden parametr je povinný 🙂)

In [2]:
data = pd.read_csv('http://vincentarelbundock.github.io/Rdatasets/csv/DAAG/primates.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [3]:
data = pd.read_csv('primates.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [4]:
# Zobrazíme index tabulky
data.index

RangeIndex(start=0, stop=5, step=1)

## Cvičení
 
Načtěte data `tips.csv` (jsou ve stejné složce) a použijte první sloupec jako index

**Bonus**: Načtete [data z UNICEF](https://data.unicef.org/wp-content/uploads/2015/12/Out-of-School-Rate-Final-for-website.xlsx) pomocí `read_excel` funkce z pandas a přeskočte prvních 9 řádků

## Jak přejmenuji sloupce?

In [5]:
# Zobrazíme názvy sloupců
data.columns

Index(['Unnamed: 0', 'Bodywt', 'Brainwt'], dtype='object')

In [6]:
# inplace=True znamená, že se pozmění současná tabulka
data.rename(index=str, columns={'Unnamed: 0': 'Species'}, inplace=True)
data

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


## Cvičení
 
1. Načtěte data `titanic3.xls` pomocí `read_excel` funkce z pandas
2. Přejmenujte sloupec `pclass` na `passenger_class` a `home.dest` na `home_destination`

## Jak zjistím, v jakém formátu jsou sloupce?

In [3]:
data.dtypes

Unnamed: 0     object
Bodywt        float64
Brainwt         int64
dtype: object

## Jak zjistím, kolik má tabulká řádů a sloupců?

In [7]:
# Počet řádků a počet sloupců
data.shape

(5, 3)

In [8]:
# Počet řádků
data.shape[0]

5

In [9]:
# Počet řádků
len(data)

5

## Cvičení
 
1. Načtěte data `titanic3.xls` pomocí `read_excel` funkce z pandas
2. Zjistěte počet řádků (správná odpověď je 1309)
3. Zjistěte počet sloupců (správná odpověď je 14)

## Jak zjistím, zda v tabulce jsou chybějící data?

In [10]:
# Načteme data z Excelu
data = pd.read_excel('titanic3.xls')
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [11]:
# Jaké sloupce má tabulka?
data.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [12]:
# Má tabulká chybějící data?
data.isnull().values.any()

True

In [13]:
# Zjistíme, které sloupce mají chybějící data
data.isnull().any()

pclass       False
survived     False
name         False
sex          False
age           True
sibsp        False
parch        False
ticket       False
fare          True
cabin         True
embarked      True
boat          True
body          True
home.dest     True
dtype: bool

## Cvičení
 
1. Načtěte data `titanic`
2. Zjistěte, které sloupce mají chybající data (správná odpověď Sleep, Sleep7, SmokeLife, SmokeDaily, MarijuaEver)

**Bonus**: Zjistěte kolík řádků má chybějící data (správná odpověď je 72)

## Jak vyberu řádky a sloupce?

Pandas má 2 způsoby:
- `iloc` vybírá podle pozic (indexů)
    - stejně jako když vybírám ze seznamu
    - bez koncového indexu
- `loc` vybírá podle jmen
    - včetně koncového indexu

In [14]:
# Načteme data
data = pd.read_csv('primates.csv')
data.rename(index=str, columns={'Unnamed: 0': 'Species'}, inplace=True)
data.head()

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [15]:
# Vybereme 0. a 1. řádky
data.iloc[0:2]

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406


In [16]:
# Vybereme 0. a 1. řádky a 1. a 2. sloupce
data.iloc[0:2, 1:3]

Unnamed: 0,Bodywt,Brainwt
0,10.0,115
1,207.0,406


In [17]:
# Vybíráme podle jména
# POZOR: číselný index musí být převeden řetězec
data.loc['1':'2', ['Species', 'Bodywt']]

Unnamed: 0,Species,Bodywt
1,Gorilla,207.0
2,Human,62.0


In [18]:
# Vybereme sloupec
data.Bodywt

0     10.0
1    207.0
2     62.0
3      6.8
4     52.2
Name: Bodywt, dtype: float64

In [19]:
# Vybereme sloupec - druhy způsob
data['Bodywt']

0     10.0
1    207.0
2     62.0
3      6.8
4     52.2
Name: Bodywt, dtype: float64

In [20]:
# Lze specifikovat, který sloupec je index
# Index se v tomto případě skládá z řetězců
data = pd.read_csv(
    'primates.csv', 
    index_col=0
)
data.head()

Unnamed: 0,Bodywt,Brainwt
Potar monkey,10.0,115
Gorilla,207.0,406
Human,62.0,1320
Rhesus monkey,6.8,179
Chimp,52.2,440


In [21]:
data.loc['Potar monkey']

Bodywt      10.0
Brainwt    115.0
Name: Potar monkey, dtype: float64

## Cvičení
 
1. Načtěte data `titanic`
2. Vyberte prvních 20 řádků
3. Vyberte prvních 20 řádků a sloupec se jménem (`name`)

**Bonus**: Vyberte řádky 10 až 550 a následující sloupce: jméno (`name`), cena jízdenky (`fare`), zda osoba přežila (`survived`)

## Jak vyberu řádky, které splňují určitou podmínku?

`data[podmínka]`

`data[(podmínka1) & (podmínka2)]`

In [22]:
data.columns

Index(['Bodywt', 'Brainwt'], dtype='object')

In [23]:
data.Bodywt > 60

Potar monkey     False
Gorilla           True
Human             True
Rhesus monkey    False
Chimp            False
Name: Bodywt, dtype: bool

In [24]:
# Vyberéme řádky, kde tělěsná hmota je více než 60
data[data.Bodywt > 60]

Unnamed: 0,Bodywt,Brainwt
Gorilla,207.0,406
Human,62.0,1320


In [25]:
# Vyberéme řádky, kde je tělěsná hmota více než 60 a hmota mozku je méně než 500
data[(data.Bodywt > 60) & (data.Brainwt < 500)]

Unnamed: 0,Bodywt,Brainwt
Gorilla,207.0,406


 ## Cvičení
 
1. Načtěte data `titanic`
2. Vyberte řádky cestujících ženského pohlaví a spočítejte je (správná odpověď je 466)
3. Vyberte řádky cestujících ženského pohlaví, které jsou starší 1 roku a spočítejte je (správná odpověď je 379)

**Bonus**: Pro vybrané řádky spočítejte průměrnou cenu jízdenky (`fare`) (správná odpověď je cca 51)

## Jak seskupím řádky?

Použijeme metodu `groupby`, která seskupí řádky dle jednoho nebo více sloupců.

Potom použijeme nějakou metodu nad seskupenými řádky (`count`, `mean`, `sum`).

In [26]:
# Načteme data z Excelu
data = pd.read_excel('titanic3.xls')
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [27]:
# Groupby vrací iterátor
data.groupby('sex')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x1116422e8>

In [28]:
# Seskupíme řádky dle pohlaví a spočítáme průměrnou hodnotu všech číselných proměnných
data.groupby('sex').mean()

Unnamed: 0_level_0,pclass,survived,age,sibsp,parch,fare,body
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,2.154506,0.727468,28.687071,0.652361,0.633047,46.198097,166.625
male,2.372479,0.190985,30.585233,0.413998,0.247924,26.154601,160.39823


In [29]:
# Totéž můžeme udělat pomocí filtrování
data[data.sex == 'female'].mean()

pclass        2.154506
survived      0.727468
age          28.687071
sibsp         0.652361
parch         0.633047
fare         46.198097
body        166.625000
dtype: float64

In [30]:
data[data.sex == 'male'].mean()

pclass        2.372479
survived      0.190985
age          30.585233
sibsp         0.413998
parch         0.247924
fare         26.154601
body        160.398230
dtype: float64

In [31]:
# Seskupení dle více proměnných - pohlaví a místa nalodění
data.groupby(['sex', 'embarked']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,survived,age,sibsp,parch,fare,body
sex,embarked,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,C,1.646018,0.902655,31.22449,0.504425,0.513274,81.12854,328.0
female,Q,2.9,0.616667,25.458333,0.2,0.133333,12.550837,229.0
female,S,2.206186,0.680412,27.87721,0.80756,0.786942,39.339305,79.5
male,C,2.0,0.305732,33.284357,0.324841,0.267516,48.810619,155.083333
male,Q,2.888889,0.111111,31.557692,0.47619,0.095238,12.273941,134.75
male,S,2.414125,0.170144,29.942407,0.430177,0.258427,21.841878,163.105882


 ## Cvičení

Seskupte `titanic` dle třídy (`pclass`) a pohlaví (`sex`) zobrazte medián (`median`)

**Bonus**: zobrazte jenom sloupec věk (`age`)

## Jak ukažu popisnou statistiku pro všechny sloupce?

In [5]:
# Bez include='all' jenom numerické sloupce
data.describe(include='all')

Unnamed: 0.1,Unnamed: 0,Bodywt,Brainwt
count,5,5.0,5.0
unique,5,,
top,Rhesus monkey,,
freq,1,,
mean,,67.6,492.0
std,,81.724048,483.679129
min,,6.8,115.0
25%,,10.0,179.0
50%,,52.2,406.0
75%,,62.0,440.0


## Cvičení

Použijte následující postup a seznamte se s [těmito daty](http://vincentarelbundock.github.io/Rdatasets/csv/robustbase/education.csv), [popis dat](http://vincentarelbundock.github.io/Rdatasets/doc/robustbase/education.html)


1. Načíst data
    - Případně přejmenovat sloupce

2. V jakém formátu jsou sloupce?

3. Kolik je řádků a sloupců?

4. Obsahují některé sloupce chybějící data?

5. Udělat popisnou statistiku dat