# Úvod do práce s knihovnou Pandas

[Pandas](https://pandas.pydata.org/) je open-source knihovna v jazyce Python, která slouží pro jednoduchou práci s daty v růzuných formátek. Umožňuje snadné načítání, manipulaci a jednoduché analýzy. Pro použití stačí naimportovat balíček *pandas*.

In [2]:
import pandas as pd

Pandas obsahuje dvě základní datové struktury - [Series](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.Series.html) a [DataFrame](https://pandas.pydata.org/pandas-docs/dev/reference/frame.html), které si dále přiblížíme.

## Series

Series je jednodimenzionální objekt podobný datové struktuře [list](https://docs.python.org/3/tutorial/datastructures.html) v pythonu nebo sloupci v relačních databázích. Každé jeho položce je při vytvoření automaticky přiřazen index (celé číslo od 0 do n, kde n je počet položek minus 1).

In [4]:
s = pd.Series([1, 2, 3.14, "Karel"])
s

0        1
1        2
2     3.14
3    Karel
dtype: object

Pokud chceme použít jiné indexy než ty automatické, je třeba je definovat při vytváření objektu.

In [6]:
vysky = pd.Series([1603, 1491, 1378], index = ["Snezka", "Praded", "Plechy"])
vysky

Snezka    1603
Praded    1491
Plechy    1378
dtype: int64

Případně je možné pro vytvoření objektu použít datovou strukturu [dictionary](https://docs.python.org/3/tutorial/datastructures.html).

In [7]:
vysky = pd.Series({"Snezka": 1603, "Praded": 1491, "Plechy": 1378})
vysky

Snezka    1603
Praded    1491
Plechy    1378
dtype: int64

Index je potom možné použít pro přístup k jednotlivým položkám.

In [9]:
vysky["Snezka"]

1603

Pro výběr položek je možné použít i podmínky. 

In [11]:
vysky[vysky > 1400]

Snezka    1603
Praded    1491
dtype: int64

Matematické operace je možné aplikovat na všechny položky najednou.

In [13]:
vysky_v_kilometrech = vysky / 1000
vysky_v_kilometrech

Snezka    1.603
Praded    1.491
Plechy    1.378
dtype: float64

## DataFrame

DataFrame je datová struktura podobná tabulce relační databáze nebo tabulce v Excelu. V zásadě jde o skupinu objektů Series, které mají společný index.

In [16]:
data = {
    "pohori": ["Krkonose", "Jeseniky", "Sumava"],
    "hora": ["Snezka", "Praded", "Plechy"],
    "vyska": [1603, 1491, 1378]
}
df = pd.DataFrame(data, columns = ["pohori", "hora", "vyska"])
df

Unnamed: 0,pohori,hora,vyska
0,Krkonose,Snezka,1603
1,Jeseniky,Praded,1491
2,Sumava,Plechy,1378


Nejčastnějším způsobem vytvoření DataFramu je načtení ze souboru. Nepovinný parametr "sep" označuje použitý oddělovač sloupců v CSV souboru.

In [19]:
csv_data = pd.read_csv('data/nehody_cyklistu.csv', sep=';')
csv_data

Unnamed: 0,datum,srazka,zavineni,alkohol,nasledek,prilba,pohlavi
0,2013/10/16 00:00:00+00,srážka s jedoucím nekolejovým vozidlem,řidičem motorového vozidla,"Ano, obsah alkoholu v krvi od 0,5‰ do 0,8‰",lehké zranění,ano,muž
1,2014/06/14 00:00:00+00,srážka s chodcem,chodcem,Ne,lehké zranění,ne,muž
2,2014/08/13 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,muž
3,2014/08/29 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,muž
4,2015/02/02 00:00:00+00,"srážka s vozidlem zaparkovaným, odstaveným",řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,muž
5,2015/04/15 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",bez zraněn,ne,muž
6,2015/04/15 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,žena
7,2015/07/16 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,muž
8,2016/06/08 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ano,muž
9,2016/06/12 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi od 1,0‰ do 1,5‰",lehké zranění,ne,muž


Pro rychlý náhled na data se hodí metoda _head(n)_, která zobrazí pouze prvních _n_ položek. Pokud parametr _n_ nepoužijeme, zobrazí se prvních 5.

In [23]:
csv_data.head(3)

Unnamed: 0,datum,srazka,zavineni,alkohol,nasledek,prilba,pohlavi
0,2013/10/16 00:00:00+00,srážka s jedoucím nekolejovým vozidlem,řidičem motorového vozidla,"Ano, obsah alkoholu v krvi od 0,5‰ do 0,8‰",lehké zranění,ano,muž
1,2014/06/14 00:00:00+00,srážka s chodcem,chodcem,Ne,lehké zranění,ne,muž
2,2014/08/13 00:00:00+00,havárie,řidičem nemotorového vozidla,"Ano, obsah alkoholu v krvi 1,5‰ a více",lehké zranění,ne,muž


Pro zapsání uložení DataFramu ve formátu CSV na disk slouží metoda *to_csv(nazev_souboru.csv)*. 

In [31]:
df.to_csv("/tmp/vysky.csv")

In [32]:
!ls /tmp/

[32mcom.adobe.reader.rna.0.1f5.DC[m[m [34mcom.apple.launchd.yn7wtIJULC[m[m
[32mcom.adobe.reader.rna.37a.1f5[m[m  [34mpowerlog[m[m
[34mcom.apple.launchd.rFtFo6bocN[m[m  vysky.csv


Pro získání jednoho nebo více sloupců slouží závorková notace.

In [34]:
df['vyska']

0    1603
1    1491
2    1378
Name: vyska, dtype: int64

In [36]:
df[['hora', 'vyska']]

Unnamed: 0,hora,vyska
0,Snezka,1603
1,Praded,1491
2,Plechy,1378
