# Pandas - datové typy a manipulace se sloupci

V minulé lekci jsme si představili knihovnu pandas a její základní třídy: `Series`, `DataFrame` a `Index`. Brali jsme je ovšem jako statické objekty, na které jsme se pouze dívali.

V této lekci začneme upravovat existující tabulky. Ukážeme si:

* jak přidat či ubrat sloupce a řádky
* jak změnit hodnotu konkrétní buňky
* jaké datové typy se hodí pro který účel
* aritmetické a další operace, které lze se sloupci provádět
* filtrování a řazení řádků

A jelikož o výsledky práce určitě nechceš přijít, přijde nakonec vhod i ukládání výsledků do externích souborů.

In [1]:
import pandas as pd

## Manipulace s DataFrames

Pro rozehřátí budeme pracovat s malou tabulkou obsahující několik základních informací o planetách, které snadno najdeš např. na [wikipedii](https://en.wikipedia.org/wiki/Planet).

In [2]:
planety = pd.DataFrame({
    "jmeno": ["Merkur", "Venuše", "Země", "Mars", "Jupiter", "Saturn", "Uran", "Neptun"],
    "symbol": ["☿", "♀", "⊕", "♂", "♃", "♄", "♅", "♆"],
    "obezna_poloosa": [0.39, 0.72, 1.00, 1.52, 5.20, 9.54, 19.22, 30.06],
    "obezna_doba": [0.24, 0.62, 1, 1.88, 11.86, 29.46, 84.01, 164.8]
})
planety = planety.set_index("jmeno")    # S jmenným indexem se ti bude snáze pracovat
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Merkur,☿,0.39,0.24
Venuše,♀,0.72,0.62
Země,⊕,1.0,1.0
Mars,♂,1.52,1.88
Jupiter,♃,5.2,11.86
Saturn,♄,9.54,29.46
Uran,♅,19.22,84.01
Neptun,♆,30.06,164.8


### Přidání nového sloupce

Když chceme přidat nový sloupec (`Series`), přiřadíme ho do `DataFrame` jako hodnotu do slovníku - tedy v hranatých závorkách s názvem sloupce. Dobrá zpráva je, že stejně jako v konstruktoru, `pandas` si "poradí" jak se `Series`, tak s obyčejným seznamem.

V našem konkrétním případě si najdeme a přidáme počet známých měsíců (velkých i malých).

In [3]:
mesice = [0, 0, 1, 2, 79, 82, 27, 14]      # Alternativně mesice = pd.Series([...])
planety["mesice"] = mesice
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Merkur,☿,0.39,0.24,0
Venuše,♀,0.72,0.62,0
Země,⊕,1.0,1.0,1
Mars,♂,1.52,1.88,2
Jupiter,♃,5.2,11.86,79
Saturn,♄,9.54,29.46,82
Uran,♅,19.22,84.01,27
Neptun,♆,30.06,164.8,14


💡 V tomto případě jsme přímo upravili existující `DataFrame`. Většina metod / operací (už znáš např. `set_index`) ve výchozím nastavení vždy vrací nový objekt - je to dobrým zvykem, který budeme dodržovat. Přiřazování sloupců je jednou z výjimek tohoto jinak uznávaného pravidla (tou druhou je pohodlnost).

<div style="background-color: yellow; color: red"><b>TODO</b>: 
   Jak to píšu, tak mi to zase tak samozřejmé nepřijde. Nějak bych tohle chtěl zformulovat líp.</div>
   
`DataFrame` nabízí ještě metodu `assign`, která nemění tabulku, ale vytváří její kopii s přidanými (nebo nahrazenými) sloupci:

In [4]:
# Nový dočasný DataFrame
planety.assign(
    je_stavebnice=[True, False, False, False, False, False, False, False],
    ma_vztah_k_vestonicim=[False, True, False, False, False, False, False, False],
)

# Objekt `planety` zůstal nezměněn.

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_stavebnice,ma_vztah_k_vestonicim
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Merkur,☿,0.39,0.24,0,True,False
Venuše,♀,0.72,0.62,0,False,True
Země,⊕,1.0,1.0,1,False,False
Mars,♂,1.52,1.88,2,False,False
Jupiter,♃,5.2,11.86,79,False,False
Saturn,♄,9.54,29.46,82,False,False
Uran,♅,19.22,84.01,27,False,False
Neptun,♆,30.06,164.8,14,False,False


**Úkol**: Zkus (jedním či druhým způsobem) přidat sloupec s rokem objevu (`"objeveno"`). Údaje najdeš např. zde: https://cs.wikipedia.org/wiki/Slune%C4%8Dn%C3%AD_soustava.

Není to zase tak často praktické, ale pro hodnoty nového sloupce lze použít i jednu skalární hodnotu:

In [5]:
planety["je_planeta"] = True     # Platilo do roku 2006

### Přidání nového řádku

Když se strojem času vrátíme do dětství (nebo rané dospělosti) autorů těchto materiálů, tedy před rok 2006, kdy se v Praze konal astronomický kongres, který definoval pojem "planeta" (ale ne před rok 1930!), přibude nám nová planeta: Pluto.

Do naší tabulky ho vložíme pomocí indexeru `loc`, který jsme již dříve používali pro "koukání" do tabulky:

In [6]:
planety.loc["Pluto"] = ["♇", 39.48, 247.94, 5, True]   # Seznam hodnot v řádku
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_planeta
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Merkur,☿,0.39,0.24,0,True
Venuše,♀,0.72,0.62,0,True
Země,⊕,1.0,1.0,1,True
Mars,♂,1.52,1.88,2,True
Jupiter,♃,5.2,11.86,79,True
Saturn,♄,9.54,29.46,82,True
Uran,♅,19.22,84.01,27,True
Neptun,♆,30.06,164.8,14,True
Pluto,♇,39.48,247.94,5,True


### Změna hodnoty buňky

"Indexery" `.loc` a `.iloc` se dvěma argumenty v hranatých závorkách odkazují přímo na konkrétní buňku, a přiřazením do nich (opět, podobně jako ve slovníku) se hodnota na příslušné místo zapíše. Jen je třeba zachovat pořadí (řádek, sloupec). 

Vrátíme se opět do současnosti a Pluto zbavíme jeho privilegií:

In [7]:
planety.loc["Pluto", "je_planeta"] = False
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_planeta
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Merkur,☿,0.39,0.24,0,True
Venuše,♀,0.72,0.62,0,True
Země,⊕,1.0,1.0,1,True
Mars,♂,1.52,1.88,2,True
Jupiter,♃,5.2,11.86,79,True
Saturn,♄,9.54,29.46,82,True
Uran,♅,19.22,84.01,27,True
Neptun,♆,30.06,164.8,14,True
Pluto,♇,39.48,247.94,5,False


**⚠ Pozor:** Podobně jako ve slovníku, ale možná poněkud neintuitivně, je možné zapsat hodnotu do řádku i sloupce, které neexistují!

In [8]:
planety_bad = planety.copy()     # Pro jistotu si uděláme kopii

planety_bad.loc["Zeme", "planeta"] = True
planety_bad

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_planeta,planeta
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Merkur,☿,0.39,0.24,0.0,True,
Venuše,♀,0.72,0.62,0.0,True,
Země,⊕,1.0,1.0,1.0,True,
Mars,♂,1.52,1.88,2.0,True,
Jupiter,♃,5.2,11.86,79.0,True,
Saturn,♄,9.54,29.46,82.0,True,
Uran,♅,19.22,84.01,27.0,True,
Neptun,♆,30.06,164.8,14.0,True,
Pluto,♇,39.48,247.94,5.0,False,
Zeme,,,,,,True


Přiřazovat je možné i do rozsahů v indexech - jen je potřeba hlídat, aby přiřazovaná hodnota či hodnoty byly buď skalárem, nebo měly stejný tvar jako oblast, do které přiřazujeme:

In [9]:
planety.loc["Merkur":"Mars", "je_obr"] = False
planety.loc["Jupiter":"Neptun", "je_obr"] = [True, True, True, True]
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_planeta,je_obr
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Merkur,☿,0.39,0.24,0,True,False
Venuše,♀,0.72,0.62,0,True,False
Země,⊕,1.0,1.0,1,True,False
Mars,♂,1.52,1.88,2,True,False
Jupiter,♃,5.2,11.86,79,True,True
Saturn,♄,9.54,29.46,82,True,True
Uran,♅,19.22,84.01,27,True,True
Neptun,♆,30.06,164.8,14,True,True
Pluto,♇,39.48,247.94,5,False,




**Úkol:** Shodou okolností (nebo jde o astronomickou nevyhnutelnost?) mají všichni planetární obři alespoň nějaký prstenec. Dokážeš jednoduše vytvořit sloupec `"ma_prstenec"`?

### Odstranění sloupce

Pro odebrání sloupce či řádku z `DataFrame` slouží metoda `drop`. Její první argument očekává označení (index) jednoho nebo více řádků či sloupců, které chceš odebrat. Argument `axis` označuje, ve které dimenzi se operace má aplikovat (0 či 1). Číslo je intuitivní a odpovídá pořadí, ve kterém se uvádějí klíče při odkazování na buňky.

Osa (`axis`):
- 0 = řádky
- 1 = sloupce

(Tento argument používají i četné další metody a funkce, proto se ujisti, že mu rozumíš).

In [10]:
# Odstraníme zbytečný sloupec s informační hodnotou na úrovni "stěrače stírají, klakson troubí"
planety = planety.drop("je_planeta", axis=1)   
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_obr
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Merkur,☿,0.39,0.24,0,False
Venuše,♀,0.72,0.62,0,False
Země,⊕,1.0,1.0,1,False
Mars,♂,1.52,1.88,2,False
Jupiter,♃,5.2,11.86,79,True
Saturn,♄,9.54,29.46,82,True
Uran,♅,19.22,84.01,27,True
Neptun,♆,30.06,164.8,14,True
Pluto,♇,39.48,247.94,5,


<span style="color: red; left: 50%; top: 0.5em; font-weight: bold; position: absolute; opacity: 0.3; width: 0px; height: 0px; font-size: 6em">⛧</span> Metoda `drop`, v souladu s výše zmíněnou konvencí, vrací nový `DataFrame` (a proto výsledek operace musíme přiřadit do `planety`). Pokud chceš operovat rovnou na tabulce, můžeš použít příkaz `del` (funguje stejně jako u slovníku) nebo poprosit pandí bohy (a autory těchto materiálů) o odpuštění a přidat argument `inplace=True`:

In [11]:
# Alternativa 1)
# del planety["je_planeta"]

# Alternativa 2)
# planety.drop("je_planeta", axis=1, inplace=True)

### Odstranění řádku

Vrátíme se zpátky do budoucnosti (resp. současnosti) a vypořádáme se nemilosrdně s Plutem.

Opět použijeme metodu `drop` se správnou hodnotou argument `axis`, tedy 0. Naštěstí pro nás, tato hodnota je výchozí, a tak můžeme argument úplně vynechat:

In [12]:
planety = planety.drop("Pluto")   # Přidej axis=0, chceš-li být explicitní
planety

Unnamed: 0_level_0,symbol,obezna_poloosa,obezna_doba,mesice,je_obr
jmeno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Merkur,☿,0.39,0.24,0,False
Venuše,♀,0.72,0.62,0,False
Země,⊕,1.0,1.0,1,False
Mars,♂,1.52,1.88,2,False
Jupiter,♃,5.2,11.86,79,True
Saturn,♄,9.54,29.46,82,True
Uran,♅,19.22,84.01,27,True
Neptun,♆,30.06,164.8,14,True


## Datové typy

Jak už jsme předeslali, datové typy v pandas se trochu liší od typů v Pythonu, ale naštěstí konverze mezi nimi je většinou automatická a "chovající se dle očekávání".

#### Příprava dat

V datovém kurzu budeme využívat různých datových sad (obvykle větších - takových, kde není praktické je celé zapsat v konstruktoru). Nyní opustíme planety a podíváme se na některé zajímavé charakteristiky zemí kolem světa (ježto definice toho, co je to země, je poněkud vágní, bereme v potaz členy OSN), zachycené k jednomu konkrétnímu roku uplynulé dekády (protože ne vždy jsou všechny údaje k dispozici, bereme poslední rok, kde je známo dost ukazatelů). Data pocházejí povětšinou z projektu [Gapminder](https://www.gapminder.org/), doplnili jsme je jen o několik dalších informací z wikipedie.

<div style="background-color: yellow; color: red">TODO: Upravit URL podle toho, kde nakonec data budou.</div>

In [13]:
url = "https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv"
countries = pd.read_csv(url, index_col="name")   # Místo `set_index`
countries

Unnamed: 0_level_0,iso,world_6region,world_4region,income_groups,is_eu,is_oecd,eu_accession,year,area,population,alcohol_adults,bmi_men,bmi_women,car_deaths_per_100000_people,calories_per_day,infant_mortality,life_expectancy,life_expectancy_female,life_expectancy_male,un_accession
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Afghanistan,AFG,south_asia,asia,low_income,False,False,,2018,652860.0,34500000.0,0.03,20.62,21.07,,2090.0,66.3,58.69,65.812,63.101,1946-11-19
Albania,ALB,europe_central_asia,europe,upper_middle_income,False,False,,2018,28750.0,3238000.0,7.29,26.45,25.66,5.978,3193.0,12.5,78.01,80.737,76.693,1955-12-14
Algeria,DZA,middle_east_north_africa,africa,upper_middle_income,False,False,,2018,2381740.0,36980000.0,0.69,24.60,26.37,,3296.0,21.9,77.86,77.784,75.279,1962-10-08
Andorra,AND,europe_central_asia,europe,high_income,False,False,,2017,470.0,88910.0,10.17,27.63,26.43,,,2.1,82.55,,,1993-07-28
Angola,AGO,sub_saharan_africa,africa,upper_middle_income,False,False,,2018,1246700.0,20710000.0,5.57,22.25,23.48,,2473.0,96.0,65.19,64.939,59.213,1976-12-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Venezuela,VEN,america,americas,upper_middle_income,False,False,,2018,912050.0,30340000.0,7.60,27.45,28.13,7.332,2631.0,12.9,75.91,79.079,70.950,1945-11-15
Vietnam,VNM,east_asia_pacific,asia,lower_middle_income,False,False,,2018,330967.0,90660000.0,3.91,20.92,21.07,,2745.0,17.3,74.88,81.203,72.003,1977-09-20
Yemen,YEM,middle_east_north_africa,asia,lower_middle_income,False,False,,2018,527970.0,26360000.0,0.20,24.44,26.11,,2223.0,33.8,67.14,66.871,63.875,1947-09-30
Zambia,ZMB,sub_saharan_africa,africa,lower_middle_income,False,False,,2018,752610.0,14310000.0,3.56,20.68,23.05,11.260,1930.0,43.3,59.45,65.362,59.845,1964-12-01


Namátkou si vybereme nějakou náhodnou\* zemi a podíváme se, jaké údaje o ní v tabulce máme.

\**Trochu si štěstíčko přiohneme, ale uznej, že 42 je číslo stejně dobré nebo lepší než kterékoliv jiné.*

In [16]:
import numpy; numpy.random.seed(42)  # "Usměrnění" náhody

row = countries.sample(1).iloc[0]
row

# Alternativa pro méně důvěřivé:
#  countries.loc["Czechia"]

iso                                             PHL
world_6region                     east_asia_pacific
world_4region                                  asia
income_groups                   lower_middle_income
is_eu                                         False
is_oecd                                       False
eu_accession                                    NaN
year                                           2018
area                                         300000
population                                9.811e+07
alcohol_adults                                 6.08
bmi_men                                       22.87
bmi_women                                     23.47
car_deaths_per_100000_people                  2.507
calories_per_day                               2570
infant_mortality                               22.2
life_expectancy                               70.55
life_expectancy_female                       72.973
life_expectancy_male                         66.068
un_accession

Už na první pohled je každé pole jiného typu. Ale jakého? Na to nám odpoví vlastnost `dtypes` naší tabulky (Pamatuj: U `Series` jsme použili `dtype`).

In [None]:
countries.dtypes

Když pandas načítá z tabulek, snaží se automaticky rozpoznat čísla (včetně druhu) a logické hodnoty. U všech zbylých sloupců to nechává na tobě a poněkud defétisticky je považuje za "objekty". Nicméně to nejsou všechny (ani všechny běžné) typy. Navíc z Pythonu sice znáš `float` a `int`, ale proč je součástí názvu i číslo `64`? Pojďme na to tedy od lesa.

## Typy sloupců



**celočíselné typy**

**čísla s plovoucí desetinnou čárkou**

**objekty**

**kategorické**

**datum / čas**

**logické** 

In [None]:
countries.dtypes

In [None]:
countries.world_6region.astype("category")

In [None]:
countries["population"] = countries["population"].astype("int")

## Matematika

In [None]:
countries["population"] / countries["area"]

In [None]:
countries["population"].sum(), countries["area"].sum()

In [None]:
from datetime import datetime
datetime.now() - pd.to_datetime(countries["eu_accession"]).dropna()

## Filtrování

Zatím jsme 

In [None]:
countries["is_eu"].value_counts()

In [None]:
countries[countries["is_eu"]]

In [None]:
countries.query("is_oecd")

## Řazení

V úvodní lekci `pandas` jsme si již ukázali, jak pomocí metody `sort_index` seřadit řádky podle indexu.

In [None]:
countries["population"].sort_values()

In [None]:
countries["area"].sort_values(ascending=False)

In [None]:
countries.sort_values("alcohol_adults", ascending=False).head(10)

In [None]:
countries[countries["is_eu"]].sort_values(["eu_accession", "population"])

In [None]:
countries.assign(density=countries["population"] / countries["area"]).sort_values("density", ascending=False)[["population", "area", "density"]]

In [None]:
countries.sort_index(axis=1)

**Úkol:** Které země mají problémy s nadváhou (průměrné BMI mužů a žen je přes 25)?

In [None]:
bmi = (countries["bmi_men"] + countries["bmi_women"]) / 2
bmi[bmi > 25].sort_values(ascending=False)

**Úkol:** V kterých 20 zemích umře na světě nejvíc lidí při automobilových haváriích?

In [None]:
(countries["population"] * countries["car_deaths_per_100000_people"] / 100000).dropna().astype("int").sort_values(ascending=False).head(20)