# Vyprávíme příběh s daty

## Seznámení s daty

## Pandas 🐼

### Nasťa a Filip Sedlákovi

## Seznámení s daty - postup

1. Načíst data
    - Případně přejmenovat sloupce

2. V jakém formátu jsou sloupce?

3. Kolik je řádků a sloupců?

4. Obsahují některé sloupce chybějící data?

5. Udělat popisnou statistiku dat

## Co je pandas?

- Knihovna pro analýzu dat v Pythonu
- Je postavena na NumPy (knihovna pro práci s numerickými daty)
- [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Srovnání Pandas s SQL](https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html)


## Jak naimportuji pandas?

In [1]:
# Importujeme pandas jako zkrátku
# Není to nutné, ale většina tutorialu to tak má
import pandas as pd

## Jak načtu data?

Pandas má několik funkcí, tady je [hezký](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#data-in-out) přehled

Nejpoužívanější je funkce [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html), která má více než 20 parametrů (nebojte se, jenom jeden parametr je povinný 🙂)

In [2]:
data = pd.read_csv('http://vincentarelbundock.github.io/Rdatasets/csv/DAAG/primates.csv')


In [3]:
# Zobrazir první 2 řádky
data.head(n=2)

Unnamed: 0.1,Unnamed: 0,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406


In [4]:
# Zapsát náhodné 3 řádky do CSV souboru
data1 = data.sample(n=3)
data1.to_csv('data1.csv')

In [5]:
# Zjistit datový typ tabulky
type(data)

pandas.core.frame.DataFrame

In [6]:
# Zjistit datový typ sloupce
type(data.Bodywt)

pandas.core.series.Series

In [7]:
primates = pd.read_csv('primates.csv')
primates.head()

Unnamed: 0.1,Unnamed: 0,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [8]:
# Zobrazíme index tabulky
primates.index

RangeIndex(start=0, stop=5, step=1)

In [9]:
# Zobrazíme názvy sloupců tabulky
data.columns

Index(['Unnamed: 0', 'Bodywt', 'Brainwt'], dtype='object')

## Cvičení
 
Načtěte data `tips.csv` (jsou ve stejné složce) a použijte první sloupec jako index

**Bonus**: Načtete [data z UNICEF](https://data.unicef.org/wp-content/uploads/2015/12/Out-of-School-Rate-Final-for-website.xlsx) pomocí `read_excel` funkce z pandas a přeskočte prvních 9 řádků

In [10]:
tips = pd.read_csv('tips.csv')
tips.head()

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,1,16.99,1.01,Female,No,Sun,Dinner,2
1,2,10.34,1.66,Male,No,Sun,Dinner,3
2,3,21.01,3.5,Male,No,Sun,Dinner,3
3,4,23.68,3.31,Male,No,Sun,Dinner,2
4,5,24.59,3.61,Female,No,Sun,Dinner,4


In [11]:
tips = pd.read_csv('tips.csv', index_col=0)
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
1,16.99,1.01,Female,No,Sun,Dinner,2
2,10.34,1.66,Male,No,Sun,Dinner,3
3,21.01,3.5,Male,No,Sun,Dinner,3
4,23.68,3.31,Male,No,Sun,Dinner,2
5,24.59,3.61,Female,No,Sun,Dinner,4


In [12]:
# Bonus načtení Excelu
unicef = pd.read_excel('Out-of-School-Rate-Final-for-website.xlsx', 
                       skiprows=9
)
unicef.head()

Unnamed: 0,ISO3 Code,Countries,Total,Unnamed: 3,Male,Unnamed: 5,Female,Unnamed: 7,Urban,Unnamed: 9,...,Poorer,Unnamed: 15,Middle,Unnamed: 17,Fourth,Unnamed: 19,Richest,Unnamed: 21,Source,Unnamed: 23
0,AFG,Afghanistan,36.3,,26.9,,46.8,,19.7,,...,46.2,,44.4,,31.8,,16.7,,DHS 2015,
1,ALB,Albania,7.60232,x,7.76783,x,7.41396,x,6.66002,x,...,6.45801,x,8.8039,x,6.7463,x,6.39511,x,DHS 2008-09,
2,DZA,Algeria,2.19084,,2.1955,,2.18592,,1.94815,,...,2.57707,,1.7089,,1.65181,,1.42334,,MICS 2012-13,
3,AND,Andorra,,,,,,,,,...,,,,,,,,,,
4,AGO,Angola,23.7,y,22.8,y,24.6,y,15.1,y,...,25.8,y,22.5,y,14.4,y,9.7,y,IBEP 2008-09,


### Jak můžu odstranít sloupce bez názvu?

In [13]:
# Zobrazíme všechny sloupce
unicef.columns

Index(['ISO3 Code', 'Countries', 'Total', 'Unnamed: 3', 'Male', 'Unnamed: 5',
       'Female', 'Unnamed: 7', 'Urban', 'Unnamed: 9', 'Rural', 'Unnamed: 11',
       'Poorest', 'Unnamed: 13', 'Poorer', 'Unnamed: 15', 'Middle',
       'Unnamed: 17', 'Fourth', 'Unnamed: 19', 'Richest', 'Unnamed: 21',
       'Source', 'Unnamed: 23'],
      dtype='object')

## Malá odbočka - list comprehensions

[Dokumetace](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions)

Elegantní způsob jak transformovat seznamy.

In [14]:
# Zahřívací příklad: 
# nový seznam obsahuje všechny prvky původního seznamu
my_list = [1,2,3,4,5,6]
[item for item in my_list]

[1, 2, 3, 4, 5, 6]

In [15]:
# Nový seznam obsahuje všechny prvky původního, 
# ale každý prvk je vynásoben 100
[item*100 for item in my_list]

[100, 200, 300, 400, 500, 600]

In [16]:
# Nový seznam obsahuje jenom ty prvky seznamu, které jsou sudé
[item for item in my_list if item%2 == 0]

[2, 4, 6]

In [17]:
# Obdobným způsobem vytvoříme seznam názvu sloupců, 
# které obsahují 'Unnamed' (částečná shoda)
# To jsou sloupce, které chceme vyhodit
col_to_drop = [
    col_name for col_name in unicef.columns if 'Unnamed' in col_name
]
col_to_drop

['Unnamed: 3',
 'Unnamed: 5',
 'Unnamed: 7',
 'Unnamed: 9',
 'Unnamed: 11',
 'Unnamed: 13',
 'Unnamed: 15',
 'Unnamed: 17',
 'Unnamed: 19',
 'Unnamed: 21',
 'Unnamed: 23']

In [18]:
# Odstraníme z tabulky seznam sloupců, 
# které jsme vytvořili v předešlém kroku
unicef.drop(col_to_drop, axis='columns', inplace=True)
unicef.head()

Unnamed: 0,ISO3 Code,Countries,Total,Male,Female,Urban,Rural,Poorest,Poorer,Middle,Fourth,Richest,Source
0,AFG,Afghanistan,36.3,26.9,46.8,19.7,41.4,40.6,46.2,44.4,31.8,16.7,DHS 2015
1,ALB,Albania,7.60232,7.76783,7.41396,6.66002,8.25574,8.8999,6.45801,8.8039,6.7463,6.39511,DHS 2008-09
2,DZA,Algeria,2.19084,2.1955,2.18592,1.94815,2.61943,3.4101,2.57707,1.7089,1.65181,1.42334,MICS 2012-13
3,AND,Andorra,,,,,,,,,,,
4,AGO,Angola,23.7,22.8,24.6,15.1,33.2,37.2,25.8,22.5,14.4,9.7,IBEP 2008-09


## Jak přejmenuji sloupce?

In [19]:
primates = pd.read_csv('primates.csv')
# Zobrazíme názvy sloupců
primates.columns

Index(['Unnamed: 0', 'Bodywt', 'Brainwt'], dtype='object')

In [20]:
# inplace=True znamená, že se pozmění současná tabulka
primates.rename(
    columns={'Unnamed: 0': 'Species'}, 
    inplace=True
)
primates.head()

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


## Cvičení
 
1. Načtěte data `titanic3.xls` pomocí `read_excel` funkce z pandas
2. Přejmenujte sloupec `pclass` na `passenger_class` a `home.dest` na `home_destination`

In [21]:
titanic = pd.read_excel('titanic3.xls')
titanic.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [22]:
titanic.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [23]:
titanic.rename(
    columns={
        'pclass': 'passenger_class', 
        'home.dest':'home_destination'
    },
    inplace=True
)
titanic.head()

Unnamed: 0,passenger_class,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home_destination
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


## Jak zjistím, v jakém formátu jsou sloupce?

In [24]:
primates.dtypes

Species     object
Bodywt     float64
Brainwt      int64
dtype: object

In [25]:
titanic.dtypes

passenger_class       int64
survived              int64
name                 object
sex                  object
age                 float64
sibsp                 int64
parch                 int64
ticket               object
fare                float64
cabin                object
embarked             object
boat                 object
body                float64
home_destination     object
dtype: object

## Jak zjistím, kolik má tabulká řádů a sloupců?

In [26]:
# Počet řádků a počet sloupců
primates.shape

(5, 3)

In [27]:
# Počet řádků
primates.shape[0]

5

In [28]:
# Počet sloupců
primates.shape[1]

3

In [29]:
# Počet řádků
len(primates)

5

## Cvičení
 
1. Načtěte data `titanic3.xls` pomocí `read_excel` funkce z pandas
2. Zjistěte počet řádků (správná odpověď je 1309)
3. Zjistěte počet sloupců (správná odpověď je 14)

In [30]:
titanic.shape[0]

1309

In [31]:
titanic.shape[1]

14

## Jak zjistím, zda v tabulce jsou chybějící data?

In [32]:
# Načteme data z Excelu
titanic = pd.read_excel('titanic3.xls')
titanic.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [33]:
# Jaké sloupce má tabulka?
titanic.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [34]:
# Má tabulká chybějící data?
titanic.isnull().values.any()

True

In [35]:
# Zjistíme, které sloupce mají chybějící data
titanic.isnull().any()

pclass       False
survived     False
name         False
sex          False
age           True
sibsp        False
parch        False
ticket       False
fare          True
cabin         True
embarked      True
boat          True
body          True
home.dest     True
dtype: bool

In [36]:
# Zobrazíme počet chybějících hodnot v každém sloupci
titanic.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

## Cvičení
 
1. Načtěte data `YouthRisk2009.csv`
2. Zjistěte, které sloupce mají chybějící data (správná odpověď Sleep, Sleep7, SmokeLife, SmokeDaily, MarijuaEver)

**Bonus**: Zjistěte kolík řádků má chybějící data (správná odpověď je 72)

In [37]:
youth_risk = pd.read_csv('YouthRisk2009.csv', index_col=0)
youth_risk.head()

Unnamed: 0,Sleep,Sleep7,SmokeLife,SmokeDaily,MarijuaEver,Age
1,,,No,,0.0,16
2,8 hours,1.0,Yes,Yes,1.0,16
3,5 hours,0.0,Yes,Yes,1.0,17
4,5 hours,0.0,Yes,Yes,1.0,18
5,7 hours,1.0,Yes,No,1.0,17


In [38]:
# Nastavíme maximální počet řádků, které se zobrazí při náhledu
pd.options.display.max_rows = 100

In [39]:
youth_risk.isnull().any(axis=1)

1       True
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
30     False
31     False
32      True
33     False
34     False
35     False
36      True
37     False
38     False
39     False
40     False
41     False
42     False
43     False
44     False
45     False
46     False
47     False
48      True
49     False
50     False
       ...  
451    False
452    False
453    False
454    False
455    False
456    False
457    False
458    False
459    False
460    False
461    False
462     True
463    False
464    False
465    False
466    False
467    False
468    False
469    False
470    False
471    False
472    False
473     True
474    False
475    False
476    False

In [40]:
# Počet řádků s chybějícími hodnotami
youth_risk.isnull().any(axis=1).sum()

72

## Jak vyberu řádky a sloupce?

Pandas má 2 způsoby:
- `iloc` vybírá podle pozic (indexů)
    - stejně jako když vybírám ze seznamu
    - bez koncového indexu
- `loc` vybírá podle jmen
    - včetně koncového indexu

In [41]:
# Načteme data
primates = pd.read_csv('primates.csv')
primates.rename(index=str, columns={'Unnamed: 0': 'Species'}, inplace=True)
primates.head()

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [42]:
# Vybereme 0. a 1. řádky
primates.iloc[0:2]

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406


In [43]:
# Vybereme 0. a 1. řádky a 1. a 2. sloupce
primates.iloc[0:2, [0,2]]

Unnamed: 0,Species,Brainwt
0,Potar monkey,115
1,Gorilla,406


In [44]:
# Vybíráme podle jména
# POZOR: číselný index musí být převeden řetězec
primates.loc[:'2', ['Species', 'Bodywt']]

Unnamed: 0,Species,Bodywt
0,Potar monkey,10.0
1,Gorilla,207.0
2,Human,62.0


In [45]:
# Vybereme sloupec
primates.Bodywt

0     10.0
1    207.0
2     62.0
3      6.8
4     52.2
Name: Bodywt, dtype: float64

In [46]:
# Vybereme sloupec - druhy způsob
primates['Bodywt']

0     10.0
1    207.0
2     62.0
3      6.8
4     52.2
Name: Bodywt, dtype: float64

In [47]:
# Lze specifikovat, který sloupec je index
# Index se v tomto případě skládá z řetězců
primates2 = pd.read_csv(
    'primates.csv', 
    index_col=0
)
primates2.head()

Unnamed: 0,Bodywt,Brainwt
Potar monkey,10.0,115
Gorilla,207.0,406
Human,62.0,1320
Rhesus monkey,6.8,179
Chimp,52.2,440


In [48]:
primates2.loc['Potar monkey']

Bodywt      10.0
Brainwt    115.0
Name: Potar monkey, dtype: float64

## Cvičení
 
1. Načtěte data `titanic`
2. Vyberte prvních 20 řádků
3. Vyberte prvních 20 řádků a sloupec se jménem (`name`)

**Bonus**: Vyberte řádky 10 až 550 a následující sloupce: jméno (`name`), cena jízdenky (`fare`), zda osoba přežila (`survived`)

In [49]:
titanic.iloc[:20]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1,1,"Anderson, Mr. Harry",male,48.0,0,0,19952,26.55,E12,S,3,,"New York, NY"
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1,0,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S,,,"Belfast, NI"
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


In [50]:
titanic.iloc[:20, 2]

0                         Allen, Miss. Elisabeth Walton
1                        Allison, Master. Hudson Trevor
2                          Allison, Miss. Helen Loraine
3                  Allison, Mr. Hudson Joshua Creighton
4       Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
5                                   Anderson, Mr. Harry
6                     Andrews, Miss. Kornelia Theodosia
7                                Andrews, Mr. Thomas Jr
8         Appleton, Mrs. Edward Dale (Charlotte Lamson)
9                               Artagaveytia, Mr. Ramon
10                               Astor, Col. John Jacob
11    Astor, Mrs. John Jacob (Madeleine Talmadge Force)
12                        Aubart, Mme. Leontine Pauline
13                         Barber, Miss. Ellen "Nellie"
14                 Barkworth, Mr. Algernon Henry Wilson
15                                  Baumann, Mr. John D
16                             Baxter, Mr. Quigg Edmond
17      Baxter, Mrs. James (Helene DeLaudeniere 

In [51]:
titanic.iloc[10:551, [1,2,8]]

Unnamed: 0,survived,name,fare
10,0,"Astor, Col. John Jacob",227.5250
11,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",227.5250
12,1,"Aubart, Mme. Leontine Pauline",69.3000
13,1,"Barber, Miss. Ellen ""Nellie""",78.8500
14,1,"Barkworth, Mr. Algernon Henry Wilson",30.0000
15,0,"Baumann, Mr. John D",25.9250
16,0,"Baxter, Mr. Quigg Edmond",247.5208
17,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",247.5208
18,1,"Bazzani, Miss. Albina",76.2917
19,0,"Beattie, Mr. Thomson",75.2417


In [52]:
titanic.loc[10:550, ['name', 'fare', 'survived']]

Unnamed: 0,name,fare,survived
10,"Astor, Col. John Jacob",227.5250,0
11,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",227.5250,1
12,"Aubart, Mme. Leontine Pauline",69.3000,1
13,"Barber, Miss. Ellen ""Nellie""",78.8500,1
14,"Barkworth, Mr. Algernon Henry Wilson",30.0000,1
15,"Baumann, Mr. John D",25.9250,0
16,"Baxter, Mr. Quigg Edmond",247.5208,0
17,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",247.5208,1
18,"Bazzani, Miss. Albina",76.2917,1
19,"Beattie, Mr. Thomson",75.2417,0


## Počítání s celými sloupci

* Pandas umí počítat s celým sloupcem najednou

Primáti:

* Jaká je hmotnost mozku primátů v kilogramech?
* Jaký je poměr mezi hmotností mozku a těla?

In [53]:
primates

Unnamed: 0,Species,Bodywt,Brainwt
0,Potar monkey,10.0,115
1,Gorilla,207.0,406
2,Human,62.0,1320
3,Rhesus monkey,6.8,179
4,Chimp,52.2,440


In [54]:
brainwt_kg = primates.Brainwt / 1000
brainwt_kg

0    0.115
1    0.406
2    1.320
3    0.179
4    0.440
Name: Brainwt, dtype: float64

In [55]:
brainwt_kg / primates.Bodywt

0    0.011500
1    0.001961
2    0.021290
3    0.026324
4    0.008429
dtype: float64

In [56]:
# První způsob vytvoření nového sloupce
primates['ratio'] = brainwt_kg / primates.Bodywt
primates

Unnamed: 0,Species,Bodywt,Brainwt,ratio
0,Potar monkey,10.0,115,0.0115
1,Gorilla,207.0,406,0.001961
2,Human,62.0,1320,0.02129
3,Rhesus monkey,6.8,179,0.026324
4,Chimp,52.2,440,0.008429


In [57]:
# První způsob vytvoření nového sloupce
primates.assign(ratio2=(brainwt_kg / primates.Bodywt), inplace=True)
primates

Unnamed: 0,Species,Bodywt,Brainwt,ratio
0,Potar monkey,10.0,115,0.0115
1,Gorilla,207.0,406,0.001961
2,Human,62.0,1320,0.02129
3,Rhesus monkey,6.8,179,0.026324
4,Chimp,52.2,440,0.008429


In [1]:
# Nevektorové oprerace - iterujeme řádky tabulky
for row_index, row in primates.iterrows():
    print(row)

NameError: name 'primates' is not defined

## Jak vyberu řádky, které splňují určitou podmínku?

`data[podmínka]`

`data[(podmínka1) & (podmínka2)]`

In [59]:
primates2

Unnamed: 0,Bodywt,Brainwt
Potar monkey,10.0,115
Gorilla,207.0,406
Human,62.0,1320
Rhesus monkey,6.8,179
Chimp,52.2,440


In [60]:
primates2.columns

Index(['Bodywt', 'Brainwt'], dtype='object')

In [61]:
primates2.Bodywt

Potar monkey      10.0
Gorilla          207.0
Human             62.0
Rhesus monkey      6.8
Chimp             52.2
Name: Bodywt, dtype: float64

In [62]:
primates2.Bodywt > 60

Potar monkey     False
Gorilla           True
Human             True
Rhesus monkey    False
Chimp            False
Name: Bodywt, dtype: bool

In [63]:
#  ~ znamená negace
~(primates2.Brainwt < 500)

Potar monkey     False
Gorilla          False
Human             True
Rhesus monkey    False
Chimp            False
Name: Brainwt, dtype: bool

In [64]:
# | znamená nebo
primates2[(primates2.Bodywt > 60) | (primates2.Brainwt >= 500)]

Unnamed: 0,Bodywt,Brainwt
Gorilla,207.0,406
Human,62.0,1320


In [65]:
# Vyberéme řádky, kde tělesná hmota je více než 60
primates2[primates2.Bodywt > 60]

Unnamed: 0,Bodywt,Brainwt
Gorilla,207.0,406
Human,62.0,1320


In [66]:
# Vyberéme řádky, kde je tělesná hmota více než 60 a
# hmota mozku je méně než 500
primates2[(primates2.Bodywt > 60) & (primates2.Brainwt < 500)]

Unnamed: 0,Bodywt,Brainwt
Gorilla,207.0,406


 ## Cvičení
 
1. Načtěte data `titanic`
2. Vyberte řádky cestujících ženského pohlaví a spočítejte je (správná odpověď je 466)
3. Vyberte řádky cestujících ženského pohlaví, které jsou starší 1 roku a spočítejte je (správná odpověď je 379)

**Bonus**: Pro vybrané řádky spočítejte průměrnou cenu jízdenky (`fare`) (správná odpověď je cca 51)

In [67]:
sum(titanic.sex == 'female')

466

In [68]:
len(titanic[titanic.sex == 'female'])

466

In [69]:
titanic[titanic.sex == 'female'].shape[0]

466

In [70]:
sum((titanic.age > 1) & (titanic.sex == 'female'))

379

In [71]:
titanic[(titanic.age > 1) & (titanic.sex == 'female')].fare.mean()

51.017481530343005

## Jak seskupím řádky?

Použijeme metodu `groupby`, která seskupí řádky dle jednoho nebo více sloupců.

Potom použijeme nějakou metodu nad seskupenými řádky (`count`, `mean`, `sum`).

In [72]:
# Načteme data z Excelu
data = pd.read_excel('titanic3.xls')
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [73]:
# Groupby vrací iterátor
groups = titanic.groupby('sex')

In [74]:
# Unikátní hodnoty dle kterých je rozdělena tabulka
groups.groups.keys()

dict_keys(['female', 'male'])

In [75]:
# Seskupíme řádky dle pohlaví a spočítáme průměrnou hodnotu všech číselných proměnných
data.groupby('sex').mean()

Unnamed: 0_level_0,pclass,survived,age,sibsp,parch,fare,body
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,2.154506,0.727468,28.687071,0.652361,0.633047,46.198097,166.625
male,2.372479,0.190985,30.585233,0.413998,0.247924,26.154601,160.39823


In [76]:
# Totéž můžeme udělat pomocí filtrování
titanic[titanic.sex == 'female'].mean()

pclass        2.154506
survived      0.727468
age          28.687071
sibsp         0.652361
parch         0.633047
fare         46.198097
body        166.625000
dtype: float64

In [77]:
titanic[titanic.sex == 'male'].mean()

pclass        2.372479
survived      0.190985
age          30.585233
sibsp         0.413998
parch         0.247924
fare         26.154601
body        160.398230
dtype: float64

In [78]:
# Ve smyčce vytiskneme průměrné hodnoty pro cestující obou pohlaví
for sex in titanic.sex.unique():
    print(sex, titanic[titanic.sex == sex].mean())

female pclass        2.154506
survived      0.727468
age          28.687071
sibsp         0.652361
parch         0.633047
fare         46.198097
body        166.625000
dtype: float64
male pclass        2.372479
survived      0.190985
age          30.585233
sibsp         0.413998
parch         0.247924
fare         26.154601
body        160.398230
dtype: float64


In [79]:
# Seskupení dle více proměnných - pohlaví a místa nalodění
titanic.groupby(['sex', 'embarked', 'survived']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,pclass,age,sibsp,parch,fare,body
sex,embarked,survived,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,C,0,2.636364,27.071429,0.454545,0.454545,17.460991,328.0
female,C,1,1.539216,31.543956,0.509804,0.519608,87.994648,
female,Q,0,3.0,26.692308,0.086957,0.347826,9.311961,229.0
female,Q,1,2.837838,24.0,0.27027,0.0,14.564192,
female,S,0,2.806452,24.842105,1.333333,1.075269,26.117341,79.5
female,S,1,1.924242,29.104167,0.560606,0.651515,45.549622,
male,C,0,2.119266,35.178082,0.302752,0.201835,42.555965,155.083333
male,C,1,1.729167,29.912602,0.375,0.416667,63.013896,
male,Q,0,2.875,32.104167,0.5,0.107143,12.561384,134.75
male,Q,1,3.0,25.0,0.285714,0.0,9.9744,


 ## Cvičení

Seskupte `titanic` dle třídy (`pclass`) a pohlaví (`sex`) zobrazte medián (`median`)

**Bonus**: zobrazte jenom sloupec věk (`age`)

In [80]:
titanic.groupby(['pclass', 'sex']).median()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age,sibsp,parch,fare,body
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,female,1,36.0,0,0,80.92915,
1,male,0,42.0,0,0,49.5042,166.0
2,female,1,28.0,0,0,23.0,52.0
2,male,0,29.5,0,0,13.0,160.0
3,female,0,22.0,0,0,10.4896,206.0
3,male,0,25.0,0,0,7.8958,148.0


In [81]:
# Pokud seskupojeme podle 2 a více proměnných, výsledná tabulka 
# bude mít několikaúrovňový index
titanic.groupby(['pclass', 'sex']).median()['age'].index

MultiIndex(levels=[[1, 2, 3], ['female', 'male']],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]],
           names=['pclass', 'sex'])

In [82]:
titanic.groupby(['pclass',]).median()['age'].index

Int64Index([1, 2, 3], dtype='int64', name='pclass')

In [83]:
titanic.groupby(['pclass', 'sex']).median().age

pclass  sex   
1       female    36.0
        male      42.0
2       female    28.0
        male      29.5
3       female    22.0
        male      25.0
Name: age, dtype: float64

## Jak ukážu popisnou statistiku pro všechny sloupce?

In [84]:
# Bez include='all' jenom numerické sloupce
titanic.describe(include='all')

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
count,1309.0,1309.0,1309,1309,1046.0,1309.0,1309.0,1309,1308.0,295,1307,486.0,121.0,745
unique,,,1307,2,,,,939,,186,3,28.0,,369
top,,,"Connolly, Miss. Kate",male,,,,CA. 2343,,C23 C25 C27,S,13.0,,"New York, NY"
freq,,,2,843,,,,11,,6,914,39.0,,64
mean,2.294882,0.381971,,,29.881135,0.498854,0.385027,,33.295479,,,,160.809917,
std,0.837836,0.486055,,,14.4135,1.041658,0.86556,,51.758668,,,,97.696922,
min,1.0,0.0,,,0.1667,0.0,0.0,,0.0,,,,1.0,
25%,2.0,0.0,,,21.0,0.0,0.0,,7.8958,,,,72.0,
50%,3.0,0.0,,,28.0,0.0,0.0,,14.4542,,,,155.0,
75%,3.0,1.0,,,39.0,1.0,0.0,,31.275,,,,256.0,


In [85]:
# Bez include='all' jenom numerické sloupce
titanic.describe()

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


## Cvičení

Použijte následující postup a seznamte se s [těmito daty](http://vincentarelbundock.github.io/Rdatasets/csv/robustbase/education.csv), [popis dat](http://vincentarelbundock.github.io/Rdatasets/doc/robustbase/education.html)


1. Načíst data
    - Případně přejmenovat sloupce

2. V jakém formátu jsou sloupce?

3. Kolik je řádků a sloupců?

4. Obsahují některé sloupce chybějící data?

5. Udělat popisnou statistiku dat

### Načíst data

In [86]:
education = pd.read_csv(
    'http://vincentarelbundock.github.io/Rdatasets/csv/robustbase/education.csv',
    index_col=0
)
education.head()

Unnamed: 0,State,Region,X1,X2,X3,Y
1,ME,1,508,3944,325,235
2,NH,1,564,4578,323,231
3,VT,1,322,4011,328,270
4,MA,1,846,5233,305,261
5,RI,1,871,4780,303,300


### Přejmenovat sloupce

In [87]:
education.rename(columns={
    'X1': 'residents', 'X2': 'income', 
    'X3': 'residents_young', 'Y': 'expenditure'
    }, 
    inplace=True
)
education.head()

Unnamed: 0,State,Region,residents,income,residents_young,expenditure
1,ME,1,508,3944,325,235
2,NH,1,564,4578,323,231
3,VT,1,322,4011,328,270
4,MA,1,846,5233,305,261
5,RI,1,871,4780,303,300


### V jakém formátu jsou sloupce?

In [88]:
education.dtypes

State              object
Region              int64
residents           int64
income              int64
residents_young     int64
expenditure         int64
dtype: object

### Kolik je řádků a sloupců?

In [89]:
education.shape

(50, 6)

### Obsahují některé sloupce chybějící data?

In [90]:
education.isnull().any()

State              False
Region             False
residents          False
income             False
residents_young    False
expenditure        False
dtype: bool

### Udělat popisnou statistiku dat

In [91]:
education.describe(include='all')

Unnamed: 0,State,Region,residents,income,residents_young,expenditure
count,50,50.0,50.0,50.0,50.0,50.0
unique,50,,,,,
top,CO,,,,,
freq,1,,,,,
mean,,2.66,657.8,4675.12,325.74,284.6
std,,1.061574,145.016396,644.506254,19.423119,61.340136
min,,1.0,322.0,3448.0,287.0,208.0
25%,,2.0,546.75,4137.25,310.75,234.25
50%,,3.0,662.5,4706.0,324.5,269.5
75%,,3.75,782.25,5054.25,333.0,316.75
