# Pandas letem světem

[10 minutový úvod](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html)

[Srovnání s jinými nástrojí (R, SQL, SAS)](https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/index.html)

## Data

Budeme používat [data o ceně nemovitostí z Kaggle](https://www.kaggle.com/alphaepsilon/housing-prices-dataset).
Máte 2 soubory: data [`housing.csv`](housing.csv) a popis dat [`housing_description.txt`](housing_description.txt).

## Načtení dat

Nejčastěji budeme používat funkci [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html), ale existují i [dálší funkce](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

Výhodou pandas je, že vstupem může být jak soubor, tak i URL.

In [1]:
# Načteme pandas jako zkratku 'pd'
import pandas as pd

In [2]:
houses = pd.read_csv('housing.csv')
# Head zobrazi prvních 5 řádků, číslo lze změnit
houses.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


## Výběr sloupců

Obecný postup (platí pro všechny názvy sloupců)

```python
houses['SalePrice']
```

Postup pro sloupce neobsahující mezery, výhoda: doplnění názvu sloupce tabulátorem

```python
houses.SalePrice
```

In [3]:
houses['SalePrice'].head()

0    208500
1    181500
2    223500
3    140000
4    250000
Name: SalePrice, dtype: int64

In [4]:
houses.SalePrice.head()

0    208500
1    181500
2    223500
3    140000
4    250000
Name: SalePrice, dtype: int64

## Základní datové typy v Pandas

- `DataFrame` - tabulka s indexovanými řádky
- `Series` - sloupec s indexovanými řádky

Dále každá `Series` může být:

- Číslo (`int64`, `int32`, `float64`, `float32`)
- True/False (`bool`)
- Řetězec (`object`)
- Kategorie (`category`)
- Datum (`datetime64`)

Více v [tomto článku](https://pbpython.com/pandas_dtypes.html)

In [5]:
# Funkce pro určování datového typy ze základního Pythonu
type(houses)

pandas.core.frame.DataFrame

In [6]:
type(houses.SalePrice)

pandas.core.series.Series

In [7]:
# Zjistíme datové typy jednotlivých sloupců
houses.dtypes.head()

Id               int64
MSSubClass       int64
MSZoning        object
LotFrontage    float64
LotArea          int64
dtype: object

## Atributy versus metody

Dle názvu rozdíl ne vždy zřetelný, obecně atribut je něco, co není potřeba vypočitávat (sloupce, index, ale i dimenze).

Metoda se vola jako v základním pythonu se závorkami (např. `houses.head()`), zatímco atribut se volá bez závorek (např. `houses.columns`).

[Seznam atributů a metod `DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

[Seznam atributů a metod `Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

In [8]:
houses.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [9]:
houses.shape

(1460, 81)

In [10]:
houses.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [11]:
# Popisná statistika, include='all' vytvoří statistiku i pro nenumerické sloupce
houses.describe(include='all')

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
count,1460.0,1460.0,1460,1201.0,1460.0,1460,91,1460,1460,1460,...,1460.0,7,281,54,1460.0,1460.0,1460.0,1460,1460,1460.0
unique,,,5,,,2,2,4,4,2,...,,3,4,4,,,,9,6,
top,,,RL,,,Pave,Grvl,Reg,Lvl,AllPub,...,,Gd,MnPrv,Shed,,,,WD,Normal,
freq,,,1151,,,1454,50,925,1311,1459,...,,3,157,49,,,,1267,1198,
mean,730.5,56.89726,,70.049958,10516.828082,,,,,,...,2.758904,,,,43.489041,6.321918,2007.815753,,,180921.19589
std,421.610009,42.300571,,24.284752,9981.264932,,,,,,...,40.177307,,,,496.123024,2.703626,1.328095,,,79442.502883
min,1.0,20.0,,21.0,1300.0,,,,,,...,0.0,,,,0.0,1.0,2006.0,,,34900.0
25%,365.75,20.0,,59.0,7553.5,,,,,,...,0.0,,,,0.0,5.0,2007.0,,,129975.0
50%,730.5,50.0,,69.0,9478.5,,,,,,...,0.0,,,,0.0,6.0,2008.0,,,163000.0
75%,1095.25,70.0,,80.0,11601.5,,,,,,...,0.0,,,,0.0,8.0,2009.0,,,214000.0


In [12]:
# Zjistit datový typ
houses.SalePrice.dtype

dtype('int64')

In [13]:
# Zkontrolovat zda Series obsahuje alespoň jednu chybějící hodnotu
houses.SalePrice.isnull().any()

False

## Operace se sloupci

- Vektorové operace se sloupci jsou rychlé
    - Sloupce lze sčítat, násobit, dělit, atd.
    - Příklad `houses.LotArea*0.09290304`
- Na téměř všechno, co chcete v pandas se sloupci udělat, už je metoda 😉

In [14]:
# Převedení čtverečních stop na metry čtvereční
houses.LotArea*0.09290304

0        785.030688
1        891.869184
2       1045.159200
3        887.224032
4       1324.797350
5       1311.326410
6        936.834255
7        964.519361
8        568.566605
9        689.340557
10      1040.514048
11      1107.775849
12      1204.766623
13       989.603182
14      1014.501197
15       568.566605
16      1044.323073
17      1002.516705
18      1272.307133
19       702.346982
20      1320.616714
21       692.034745
22       905.061416
23       392.422441
24       766.078468
25      1322.010259
26       668.901888
27      1066.341093
28      1516.270516
29       587.518825
           ...     
1430    2037.363667
1431     457.826181
1432    1003.352832
1433     953.278093
1434    1616.512896
1435     780.385536
1436     836.127360
1437    1156.085430
1438     688.132817
1439    1076.188815
1440    1070.800439
1441     411.188855
1442    1022.212149
1443     822.563516
1444     789.675840
1445     780.385536
1446    2428.671272
1447     929.030400
1448    1093.190072


In [15]:
# Vytvoříme nový sloupec
houses['LotAreaMeters'] = houses.LotArea/0.09290304

In [16]:
houses.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice,LotAreaMeters
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,,,,0,2,2008,WD,Normal,208500,90955.043021
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,,,,0,5,2007,WD,Normal,181500,103333.54
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,,,,0,9,2008,WD,Normal,223500,121093.992188
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,,,,0,2,2006,WD,Abnorml,140000,102795.34448
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,,,,0,12,2008,WD,Normal,250000,153493.362542


## Filtrování
```
data[podmínka]

data[(podmínka1) & (podmínka2)]
```
Povolené operátory

- `&` logické AND
- `|` logické OR
- `~` logické NOT

Příklady
```python
houses[houses.SalePrice < 100000]

houses[(houses.SalePrice < 100000) & (houses.OverallCond >= 8)]
```

In [17]:
# Domy, které se prodali za méně než 100000 USD
houses[houses.SalePrice < 100000]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice,LotAreaMeters
17,18,90,RL,72.0,10791,Pave,,Reg,Lvl,AllPub,...,,,Shed,500,10,2006,WD,Normal,90000,116153.357307
29,30,30,RM,60.0,6324,Pave,,IR1,Lvl,AllPub,...,,,,0,5,2008,WD,Normal,68500,68070.969475
30,31,70,C (all),50.0,8500,Pave,Pave,Reg,Lvl,AllPub,...,,MnPrv,,0,7,2008,WD,Normal,40000,91493.238542
39,40,90,RL,65.0,6040,Pave,,Reg,Lvl,AllPub,...,,,,0,6,2008,WD,AdjLand,82000,65014.018917
68,69,30,RM,47.0,4608,Pave,,Reg,Lvl,AllPub,...,,,,0,6,2010,WD,Normal,80000,49600.099200
75,76,180,RM,21.0,1596,Pave,,Reg,Lvl,AllPub,...,,GdWo,,0,11,2009,WD,Normal,91000,17179.201025
88,89,50,C (all),105.0,8470,Pave,,IR1,Lvl,AllPub,...,,MnPrv,,0,10,2009,ConLD,Abnorml,85000,91170.321230
91,92,20,RL,85.0,8500,Pave,,Reg,Lvl,AllPub,...,,GdWo,,0,12,2006,WD,Abnorml,98600,91493.238542
97,98,20,RL,73.0,10921,Pave,,Reg,HLS,AllPub,...,,,,0,5,2007,WD,Normal,94750,117552.665661
98,99,30,RL,85.0,10625,Pave,,Reg,Lvl,AllPub,...,,,Shed,400,5,2010,COD,Abnorml,83000,114366.548178


In [18]:
# Domy, které se prodali za méně než 100000 USD a zároveň mají velmi dobrý nebo výborný stav
houses[(houses.SalePrice < 100000) & (houses.OverallCond >= 8)]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice,LotAreaMeters
125,126,190,RM,60.0,6780,Pave,,Reg,Lvl,AllPub,...,,,,0,6,2006,WD,Normal,84500,72979.312625
489,490,180,RM,21.0,1526,Pave,,Reg,Lvl,AllPub,...,,,,0,5,2009,WD,Normal,86000,16425.727296
494,495,30,RM,50.0,5784,Pave,,Reg,Lvl,AllPub,...,,,,0,12,2009,WD,Normal,91300,62258.45785
1137,1138,50,RL,54.0,6342,Pave,,Reg,Lvl,AllPub,...,,,,0,5,2010,WD,Normal,94000,68264.719863
1257,1258,30,RL,56.0,4060,Pave,,Reg,Lvl,AllPub,...,,,,0,7,2009,WD,Normal,99900,43701.476292


## Cvíčení

Vyberte domy, které splňuji všechny podmínky:
- Mají plochu pozemku více než 1000 metrů čtverečních (`LotAreaMeters`)
- Pozemek je pravidelného tvaru (`LotShape`)
- Rok vystavby je nejříve 2000 (`YearBuilt`)
- Cena je maximálně 150000 USD (`SalePrice`)

Kolik je domů, které splňují všechny podmínky?

Kolik je domů, které splňují alespoň jednu podmínku?

## Agregace dat

Použijeme metody `groupby`, která seskupí řádky dle jednoho nebo více sloupců a vrátí iterator.

Na tento iterátor potom aplikujeme nějakou metodu (count, mean, sum).
Pokud chceme aplikovat více metod nebo máme vlastní funkci, použijeme metodu `agg`.

```python
houses.groupby('LotShape').SalePrice.mean()

houses.groupby(['LotShape', 'OverallCond']).SalePrice.mean()
```

[Dokumentace groupby](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)

In [19]:
# Zjistíme cenu nemovitostí dle tvaru pozemku
houses.groupby('LotShape').SalePrice.mean()

LotShape
IR1    206101.665289
IR2    239833.365854
IR3    216036.500000
Reg    164754.818378
Name: SalePrice, dtype: float64

In [20]:
# Zjistíme průmernou cenu nemovitostí dle tvaru pozemku a celkového stavu
houses.groupby(['LotShape', 'OverallCond']).SalePrice.mean()

LotShape  OverallCond
IR1       1               61000.000000
          2               80750.000000
          3              136656.000000
          4              116488.888889
          5              226462.943144
          6              174803.602740
          7              176484.271429
          8              178263.157895
          9              245957.142857
IR2       5              234471.310345
          6              190000.000000
          7              295875.000000
          8              212500.000000
          9              475000.000000
IR3       3              163500.000000
          5              221873.888889
Reg       2              182810.666667
          3               91905.550000
          4              121178.979167
          5              186517.900826
          6              144181.942529
          7              144140.656489
          8              144998.529412
          9              182528.571429
Name: SalePrice, dtype: float64

In [21]:
# Zjistíme průmernou cenu nemovitostí dle tvaru pozemku a celkového stavu 
# a zároveň počet nemovitosti v každé kategorii
houses.groupby(['LotShape', 'OverallCond']).SalePrice.agg(['mean', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,count
LotShape,OverallCond,Unnamed: 2_level_1,Unnamed: 3_level_1
IR1,1,61000.0,1
IR1,2,80750.0,2
IR1,3,136656.0,4
IR1,4,116488.888889,9
IR1,5,226462.943144,299
IR1,6,174803.60274,73
IR1,7,176484.271429,70
IR1,8,178263.157895,19
IR1,9,245957.142857,7
IR2,5,234471.310345,29


## Cvíčení

Seskupte řádky dle druhu střechy (`RoofStyle`) a stavu exteriéru (`ExterCond`) a zobrazte minimální a maximální cenu a počet nemovitostí.

## Iterace řádky

Iterujeme `DataFrame` pomocí metody [`iterrows`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html), která vrací n-tici (první prvek číslo řádku, druhý prvek - obsah řádku). Hodí se například pro tvorbu popisků ke grafům.


In [22]:
text = []
for i, row in houses.iterrows():
    # :.0f uloží číslo bez desetinného místa
    text.append('Cena (USD): {:.0f}, Plocha (m^2): {:.0f}'.format(row.SalePrice, row.LotAreaMeters))
text

['Cena (USD): 208500, Plocha (m^2): 90955',
 'Cena (USD): 181500, Plocha (m^2): 103334',
 'Cena (USD): 223500, Plocha (m^2): 121094',
 'Cena (USD): 140000, Plocha (m^2): 102795',
 'Cena (USD): 250000, Plocha (m^2): 153493',
 'Cena (USD): 143000, Plocha (m^2): 151933',
 'Cena (USD): 307000, Plocha (m^2): 108543',
 'Cena (USD): 200000, Plocha (m^2): 111751',
 'Cena (USD): 129900, Plocha (m^2): 65875',
 'Cena (USD): 118000, Plocha (m^2): 79868',
 'Cena (USD): 129500, Plocha (m^2): 120556',
 'Cena (USD): 345000, Plocha (m^2): 128349',
 'Cena (USD): 144000, Plocha (m^2): 139586',
 'Cena (USD): 279500, Plocha (m^2): 114657',
 'Cena (USD): 157000, Plocha (m^2): 117542',
 'Cena (USD): 132000, Plocha (m^2): 65875',
 'Cena (USD): 149000, Plocha (m^2): 120997',
 'Cena (USD): 90000, Plocha (m^2): 116153',
 'Cena (USD): 159000, Plocha (m^2): 147412',
 'Cena (USD): 139000, Plocha (m^2): 81375',
 'Cena (USD): 325300, Plocha (m^2): 153009',
 'Cena (USD): 139400, Plocha (m^2): 80180',
 'Cena (USD): 230

## Cvíčení

Vytvořte seznam, kde každý prvek bude ve formátu: `'Cena (CZK): {:.0f}, Plocha (m^2): {:.0f}'`.

Pro vytvoření ceny v korunách, počitejte s kurzem 22.55 CZK.

In [23]:
text = []
for i, row in houses.iterrows():
    text.append('Cena (CZK): {:.0f}, Plocha (m^2): {:.0f}'.format(row.SalePrice * 22.55, row.LotAreaMeters))
text

['Cena (CZK): 4701675, Plocha (m^2): 90955',
 'Cena (CZK): 4092825, Plocha (m^2): 103334',
 'Cena (CZK): 5039925, Plocha (m^2): 121094',
 'Cena (CZK): 3157000, Plocha (m^2): 102795',
 'Cena (CZK): 5637500, Plocha (m^2): 153493',
 'Cena (CZK): 3224650, Plocha (m^2): 151933',
 'Cena (CZK): 6922850, Plocha (m^2): 108543',
 'Cena (CZK): 4510000, Plocha (m^2): 111751',
 'Cena (CZK): 2929245, Plocha (m^2): 65875',
 'Cena (CZK): 2660900, Plocha (m^2): 79868',
 'Cena (CZK): 2920225, Plocha (m^2): 120556',
 'Cena (CZK): 7779750, Plocha (m^2): 128349',
 'Cena (CZK): 3247200, Plocha (m^2): 139586',
 'Cena (CZK): 6302725, Plocha (m^2): 114657',
 'Cena (CZK): 3540350, Plocha (m^2): 117542',
 'Cena (CZK): 2976600, Plocha (m^2): 65875',
 'Cena (CZK): 3359950, Plocha (m^2): 120997',
 'Cena (CZK): 2029500, Plocha (m^2): 116153',
 'Cena (CZK): 3585450, Plocha (m^2): 147412',
 'Cena (CZK): 3134450, Plocha (m^2): 81375',
 'Cena (CZK): 7335515, Plocha (m^2): 153009',
 'Cena (CZK): 3143470, Plocha (m^2): 80

## Export do souboru

Analogicky s načtením dat, nejčastěji použijeme [`to_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) (ovšem voláme tuto metodu na `DataFrame`, který chceme uložit), ale jsou i [dálší funkce](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

In [24]:
# Pokud nechceme mít zapisovat inde, nastavíme index=False
houses.to_csv('houses_processed.csv', index=False)