# Načtení dat s využitím knihovny pandas

## Základní práce s DataFrame

Základní datový typ, který Pandas nabízí, je `DataFrame`, neboli lidově „tabulka”. 

Jednotlivé záznamy jsou v ní uvedeny jako řádky a části těchto záznamů jsou úhledně srovnány ve sloupcích.

*Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html*


In [1]:
import pandas as pd

### Načítání dat

**Funkce `read_csv()`** 

Dokumentace: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Pandas nabízí kromě funkce `read_csv()` také funkci pro čtení formátu JSON `read_json()` nebo dokonce funkci pro čtení přímo Excelových tabulek `read_excel()`.

**Načtení csv souboru**

In [2]:
url_food_sample_100 = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/nacteni-dat/food_sample_100.csv"

# url_food_sample_100 = "food_sample_100.csv" # csv je ve stejne slozce jako notebook
# url_food_sample_100 = "../../../data/food_sample_100.csv" # csv je v jine slozce nez notebook, tady v nadrazene slozce data

food = pd.read_csv(url_food_sample_100)

In [3]:
food
# print(food)

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28
3,321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01
4,322951,sub_sample_food,Hot dogs beef,7.0,2019-04-01
...,...,...,...,...,...
95,2260615,sub_sample_food,"Yogurt, whole milk, plain",1.0,2022-04-28
96,2646468,sub_sample_food,"chicken, breast, boneless, skinless",5.0,2023-10-19
97,2647032,sub_sample_food,"pork, loin, boneless",10.0,2023-10-19
98,2349564,sub_sample_food,"Oats, whole grain, rolled, old fashioned",20.0,2022-10-28


### Index

Všimni si, že pandas nám přidal nový sloupec s číslem řádku.

Index je hodnota, která identifikuje řádek. 

V některých případech nemusíme jako index používat číslo řádku, ale můžeme jako index vybrat některý ze sloupců. Obdobnou funkci má v databázích primární klíč. 


In [4]:
food.set_index("fdc_id")
# food.reset_index()

Unnamed: 0_level_0,data_type,description,food_category_id,publication_date
fdc_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28
321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01
322951,sub_sample_food,Hot dogs beef,7.0,2019-04-01
...,...,...,...,...
2260615,sub_sample_food,"Yogurt, whole milk, plain",1.0,2022-04-28
2646468,sub_sample_food,"chicken, breast, boneless, skinless",5.0,2023-10-19
2647032,sub_sample_food,"pork, loin, boneless",10.0,2023-10-19
2349564,sub_sample_food,"Oats, whole grain, rolled, old fashioned",20.0,2022-10-28


### Základní informace o tabulce

Metoda `info()` vrací souhrnné informace o celé tabulce: názvy sloupců, datové typy, počet neprázdných hodnot atd.

In [5]:
food.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   fdc_id            100 non-null    int64  
 1   data_type         100 non-null    object 
 2   description       100 non-null    object 
 3   food_category_id  99 non-null     float64
 4   publication_date  100 non-null    object 
dtypes: float64(1), int64(1), object(3)
memory usage: 4.0+ KB


Počet řádků a sloupců můžeme získat z vlastnosti `shape`.

Můžeme si z ní data načíst stejně jako ze seznamu, na prvním místě je vždy počet řádků a na druhém počet sloupců.

In [6]:
food.shape

(100, 5)

In [7]:
# Pokud by nás třeba zajímal jen počet řádků, napíšeme:
pocet_radku = food.shape[0]

print(f"Moje data mají {pocet_radku} řádků.")

Moje data mají 100 řádků.



Názvy všech sloupců získáme pomocí vlastnosti `columns`.

In [8]:
food.columns

Index(['fdc_id', 'data_type', 'description', 'food_category_id',
       'publication_date'],
      dtype='object')

### Začátek a konec

K zobrazení posledních několik řádků můžeme použít i funkce `head()` a `tail()`.

In [9]:
food.head()  # food.head(10) zobrazi 10 prvnich radek

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28
3,321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01
4,322951,sub_sample_food,Hot dogs beef,7.0,2019-04-01


In [10]:
food.tail()

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
95,2260615,sub_sample_food,"Yogurt, whole milk, plain",1.0,2022-04-28
96,2646468,sub_sample_food,"chicken, breast, boneless, skinless",5.0,2023-10-19
97,2647032,sub_sample_food,"pork, loin, boneless",10.0,2023-10-19
98,2349564,sub_sample_food,"Oats, whole grain, rolled, old fashioned",20.0,2022-10-28
99,328565,market_acquisition,"Cheese, cheddar, mild, block/chunk, store bran...",1.0,2019-04-01


## Výběr sloupců

Pokud vybíráme pouze jeden sloupec, vrátí se nám takzvaná Série (`Series`), což je jiný datový typ než `DataFrame`. 

Sérii si představme jako jednorozměrnou tabulku.


In [11]:
food["description"]

0                                          lentils, dry
1                                           heavy cream
2                                         Flour, potato
3                                         Salt, Iodized
4                                         Hot dogs beef
                            ...                        
95                            Yogurt, whole milk, plain
96                  chicken, breast, boneless, skinless
97                                 pork, loin, boneless
98             Oats, whole grain, rolled, old fashioned
99    Cheese, cheddar, mild, block/chunk, store bran...
Name: description, Length: 100, dtype: object

Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.

In [12]:
food[["fdc_id", "description"]]

Unnamed: 0,fdc_id,description
0,2644829,"lentils, dry"
1,2347263,heavy cream
2,2261954,"Flour, potato"
3,321470,"Salt, Iodized"
4,322951,Hot dogs beef
...,...,...
95,2260615,"Yogurt, whole milk, plain"
96,2646468,"chicken, breast, boneless, skinless"
97,2647032,"pork, loin, boneless"
98,2349564,"Oats, whole grain, rolled, old fashioned"


In [13]:
# Tady se nám již vrátil datový typ DataFrame.
# Tohoto triku můžeme využít, když
# - chceme získat pouze jeden sloupec,
# - ale nechceme ho v datovém typu Série,
# - ale jako DataFrame.

food[["description"]]

Unnamed: 0,description
0,"lentils, dry"
1,heavy cream
2,"Flour, potato"
3,"Salt, Iodized"
4,Hot dogs beef
...,...
95,"Yogurt, whole milk, plain"
96,"chicken, breast, boneless, skinless"
97,"pork, loin, boneless"
98,"Oats, whole grain, rolled, old fashioned"


---
### 



# Cvičení
## Titanic data set

Každý tutoriál datové analýzy začíná zpracováváním data setu pasažérů lodi Titanic. 

Nebude tomu jinak ani v našem případě. Stáhni si soubor [titanic.csv](https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/excs/titanic/titanic.csv).


Načti data do `DataFrame`, který si pojmenuj `titanic`.


In [None]:
url = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/nacteni-dat/excs/titanic/titanic.csv"


Nech si zobrazit názvy sloupců, které jsou v souboru uloženy.


Podívej se, kolik má soubor řádků.


Zjisti, v jakých sloupcích nějaké hodnoty chybí.