# Spojování, agregace a řazení

## Pokročilé úpravy



In [75]:
import pandas as pd

url_food_nutrient = "https://kodim.cz/cms/assets/analyza-dat/python-data-1/python-pro-data-1/podmineny-vyber/podmineny-vyber/food_nutrient.csv"

food_nutrient = pd.read_csv(url_food_nutrient)
food_nutrient.head(3)

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,1106032,1257,,,71.0,,,,,,,"Fatty acids, total trans",G
1,1107191,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
2,1107295,1257,,,70.0,,,,,,,"Fatty acids, total trans",G


### Práce s chybějícími hodnotami



**`isna()`, `notna()`**

Obě metody vrací hodnoty `True` nebo `False`

In [76]:
food_nutrient_incomplete = food_nutrient[food_nutrient["amount"].isna()]
food_nutrient_incomplete.head(3)

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,1106032,1257,,,71.0,,,,,,,"Fatty acids, total trans",G
1,1107191,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
2,1107295,1257,,,70.0,,,,,,,"Fatty acids, total trans",G


In [77]:
food_nutrient_complete = food_nutrient[food_nutrient["amount"].notna()]
food_nutrient_complete.head(3)

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
4,1107528,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G
5,1108007,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G
6,1108158,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G


**Jak chybějící hodnoty odstranit**

In [78]:
food_nutrient = food_nutrient.dropna(subset="amount")
food_nutrient.head(3)

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
4,1107528,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G
5,1108007,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G
6,1108158,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G


### Spojení dat

Nyní bychom chtěli všechny tři naše tabulky spojit do jedné. 

Nejprve si ukážeme, jak spojit tabulky pod sebe.

- Počet sloupců je ve výsledné tabulce stejný jako u spojovaných tabulek.
- Počet řádků odpovídá součtu řádků spojovaných tabulek.

V SQL používáme pro danou operaci klíčové slovo `UNION`, `pandas` používáme funkci `concat()`.

In [79]:
url_food_sample_100 = "https://kodim.cz/cms/assets/analyza-dat/python-data-1/python-pro-data-1/nacteni-dat/nacteni-dat/food_sample_100.csv"
url_food_other = "https://kodim.cz/cms/assets/analyza-dat/python-data-1/python-pro-data-1/spojovani/pokrocile-upravy/food_other.csv"

food_sample_100 = pd.read_csv(url_food_sample_100)
food_other = pd.read_csv(url_food_other)

Pozor na to, že v takto vzniklém DataFrame se nám rozbije index, protože se spojí za sebe indexy jednotlivých tabulek. 

Pokud chceme, aby pandas při spojování index přepočítal, musíme nastavit hodnotu parametru ignore_index na True.

In [80]:
food = pd.concat([food_sample_100, food_other], ignore_index=True)
food

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28
3,321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01
4,322951,sub_sample_food,Hot dogs beef,7.0,2019-04-01
...,...,...,...,...,...
9995,2661515,branded_food,"CHAI LATTE SUGAR FREE BLACK TEA CONCENTRATE, C...",,2023-10-26
9996,2661730,branded_food,"APPLE BANANA ORGANIC FRUIT POUCHES, APPLE BANANA",,2023-10-26
9997,2661782,branded_food,"SPINACH ORGANIC PUREE, SPINACH",,2023-10-26
9998,2662107,branded_food,LIGHT MOZZARELLA LOW-MOISTURE PART-SKIM STRING...,,2023-10-26


# Propojení dat

`pandas` umí `DataFrame` také propojit, což odpovídá SQL příkazu `JOIN`. 

- Tabulky můžeme spojit více způsoby. 
- Výsledná tabulka bude mít více sloupců.
- Počet řádků zavisí na typu propojení.


![Druhy propojeni](../../img/type_of_join_operations.png)

U operace `JOIN` jsou důležité dvě věci:

- Podle jakého sloupce (nebo jakých sloupců) dvě různé tabulky propojujeme.
- Co udělat v případě, že pro nějaké řádky nemám ve druhé tabulce odpovídající hodnotu.

In [81]:
food.shape

(10000, 5)

In [82]:
food_nutrient.shape

(135332, 13)

In [83]:
food_merged = pd.merge(food, food_nutrient, on="fdc_id", how="inner")
food_merged

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19,1101,1.58,1.0,1.0,,,,,,,"Manganese, Mn",MG
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28,1258,20.00,1.0,1.0,,,,,,,"Fatty acids, total saturated",G
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28,1102,21.80,1.0,1.0,,,,,,,"Molybdenum, Mo",UG
3,321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01,1051,0.69,1.0,1.0,,,,,,,Water,G
4,321470,sub_sample_food,"Salt, Iodized",2.0,2019-04-01,1007,98.40,1.0,1.0,,,,,,,Ash,G
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
135327,2662182,branded_food,"ITALIAN-STYLE DICED TOMATOES WITH BASIL, GARLI...",,2023-10-26,1005,4.07,,70.0,,,,,,,"Carbohydrate, by difference",G
135328,2662182,branded_food,"ITALIAN-STYLE DICED TOMATOES WITH BASIL, GARLI...",,2023-10-26,1004,0.41,,70.0,,,,,,,Total lipid (fat),G
135329,2662182,branded_food,"ITALIAN-STYLE DICED TOMATOES WITH BASIL, GARLI...",,2023-10-26,1003,0.81,,70.0,,,,,,,Protein,G
135330,2662182,branded_food,"ITALIAN-STYLE DICED TOMATOES WITH BASIL, GARLI...",,2023-10-26,1235,0.00,,70.0,,,,,,,"Sugars, added",G


---
# Cvičení


## Značky a výrobci

Stáhni si data z tabulky `branded_food.csv`, která obsahuje data o konkrétních potravinách od výrobců. Tabulku načti do `pandas` tabulky `branded_food`.

Pro tabulku `branded_food` splň následující úkoly.

_Nápověda: Na body 2 a 3 využij metodu, kterou jsme si již ukazovali v předchozí lekci. Její název se skládá ze dvou slov - anglického výrazu pro hodnotu a pro počet._


In [None]:
url = "https://kodim.cz/cms/assets/analyza-dat/python-data-1/python-pro-data-1/spojovani/excs/znacky/branded_food.csv"


1. Zobraz si prvních několik řádků tabulky a podívej se na to, jaké jsou v ní sloupce a jaké jsou v nich hodnoty.



2. Ve sloupci `brand_owner` jsou názvy výrobců potravin. Zjisti tři výrobce s největším počtem potravin v tabulce.




3. Ve sloupci `branded_food_category` jsou kategorie potravin. Zjisti pět kategorií s největších počtem potravin v tabulce.


V tabulce je sloupec `fdc_id`, pomocí kterého ji můžeš propojit s tabulkou `food_merged`. 

Protože názvy jsou v obou tabulkách stejné, takže by bylo možné použít parametr `on`. Vyzkoušej si ale místo toho parametry `left_on` a `right_on`, kterým dáš stejnou hodnotu, tj. název sloupce `fdc_id`. 

Výsledek ulož do tabulky `food_merged_brands`.


In [None]:
food_merged_brands = pd.DataFrame()


Pro tabulku `food_merged_brands` splň následující úkoly.

1. U výsledné tabulky `food_merged_brands` zkontroluj počet řádků a srovnej ho s původní tabulkou `food_merged`. Ubyly nějaké řádky? A čím to je?


2. Nyní proveď operaci merge znovu, ale s parametrem `how` nastaveným na hodnotu `left`. Zkontroluj počet řádků a porovnej ho s počtem řádků tabulky `food_merged_brands`. Proč se počet liší?

## Přejmenování sloupce

Čím více tabulky propojujeme, tím více sloupců v nich máme. To může být časem až matoucí. 

Například máme v tabulce sloupec name, který označuje název výživné látky. 

Pro větší přehlednost ho přejmenujme na `nutrient_name`. K tomu slouží metoda `rename`. 

Níže je příklad toho, jak lze metodu použít. Pozorně si ho prohlédni. 

Metodu voláme pomocí tečkové notace, kterou už jsme využívali. 

```food_merged_brands = food_merged_brands.rename(columns={"stary_nazev": "novy_nazev"})```


Dále je potřeba zapsat název parametru (`columns`, protože chceme přejmenovat sloupce). Jako hodnotu vkládáme strukturu, která je označováno jako slovník. Jedná se o dvojici hodnot ve složených závorkách, která je oddělená dvojtečkou. Před dvojtečkou je starý název sloupce (v našem případě to bude name) a za dvojtečkou nový název sloupce (v našem případě to bude `nutrition_name`). Uprav tedy použití metody a spusť ho. Následně zkontroluj výsledek pomocí `.columns`.



Jako bonus se zamysli nad tím, co by se mohlo stát, pokud na místo starého názvu zadáš sloupec, který v tabulce není (např. test). 

Jaké chování bys od metody očekával(a)? Jakmile to budeš mít rozmyšlené, použij metodu s neexistujícím názvem sloupce a zkontroluj, co se stalo.

# Odstranění sloupců

Pokud máme v tabulce zbytečné sloupce, můžeme je odstranit. 

Zbytečných sloupců se můžeme zbavit dvě způsoby:

1. Výběrem sloupců, které v tabulce chceme. To už jsme si ukazovali v předchozí lekci v části "Výběr sloupců".
2. Odebráním sloupců, které v tabulce nechceme. K tomu slouží metoda `


Níže je příklad použití metody `drop()`. Použijeme parametr `columns`, kterému zadáme seznam sloupců k odstranění.


```
food_merged_brands = food_merged_brands.drop(columns=["sloupec_1", "sloupec_2"])
```


Využij metodu k odstranění sloupců `footnote` a `min_year_acquired`. 



Pomocí vlastnosti `.columns` zkontroluj výsledek. 



Nakonec se podobně jako v předchozím cvičení zamysli nad tím, co by se mohlo stát, kdybys do seznamu vložila neexistující název sloupce, například test. 

Poté metodu `drop()` s neexistujícím názvem sloupce vyzkoušej. Překvapil tě výsledek?

## Agregace a řazení



### Agregace
Agregace je operace, která "sloučí" více řádků tabulky do jednoho. 

U agregace většinou slučujeme řádky podle nějakého konkrétního sloupce. 

In [85]:
food_merged_brands_protein = food_merged_brands[
    food_merged_brands["nutrient_name"] == "Protein"
]
food_merged_brands_protein.head(3)

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date,nutrient_id,amount,data_points,derivation_id,min,...,branded_food_category,data_source,package_weight,modified_date,available_date,market_country,discontinued_date,preparation_state_code,trade_channel,short_description
211,379746,branded_food,CHEESE FLAVORED CURLES,,2019-04-01,1003.0,7.14,,70.0,,...,Other Snacks,LI,,2018-03-11,2019-04-01,United States,,,,
366,436385,branded_food,SODA,,2019-04-01,1003.0,0.0,,70.0,,...,Soda,LI,,2018-01-20,2019-04-01,United States,,,,
411,448509,branded_food,WINTER BLEND BROCCOLI & CAULIFLOWER,,2019-04-01,1003.0,1.11,,70.0,,...,Frozen Vegetables,LI,,2018-10-24,2019-04-01,United States,,,,


In [86]:
food_merged_brands_protein_agg = food_merged_brands_protein.groupby(
    "branded_food_category"
)["amount"].mean()

food_merged_brands_protein_agg

branded_food_category
Cake, Cookie & Cupcake Mixes                        3.230
Candy                                               0.000
Canned Condensed Soup                               2.400
Canned Vegetables                                   0.815
Cheese                                             25.000
Cookies & Biscuits                                  3.570
Frozen Appetizers & Hors D'oeuvres                  4.000
Frozen Fruit & Fruit Juice Concentrates             0.710
Frozen Vegetables                                   1.110
Nut & Seed Butters                                 12.500
Other Condiments                                    0.000
Other Snacks                                        7.140
Pickles, Olives, Peppers & Relishes                 0.000
Powdered Drinks                                     0.000
Rice                                                6.670
Seasoning Mixes, Salts, Marinades & Tenderizers     0.000
Snack, Energy & Granola Bars                      

### Řazení

In [87]:
food_merged_brands_protein_agg.sort_values(ascending=False).head(10)

branded_food_category
Snack, Energy & Granola Bars          31.91
Cheese                                25.00
Nut & Seed Butters                    12.50
Other Snacks                           7.14
Rice                                   6.67
Frozen Appetizers & Hors D'oeuvres     4.00
Cookies & Biscuits                     3.57
Cake, Cookie & Cupcake Mixes           3.23
Canned Condensed Soup                  2.40
Frozen Vegetables                      1.11
Name: amount, dtype: float64

In [91]:
food_merged_brands_protein.sort_values("amount", ascending=False).head()

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date,nutrient_id,amount,data_points,derivation_id,min,...,branded_food_category,data_source,package_weight,modified_date,available_date,market_country,discontinued_date,preparation_state_code,trade_channel,short_description
2516,1574124,branded_food,ACCELERATE MORNING PROTEIN BAR,,2021-03-19,1003.0,31.91,,70.0,,...,"Snack, Energy & Granola Bars",LI,,2018-10-05,2021-03-19,United States,,,,
4405,2387243,branded_food,"ORGANIC, MOZZARELLA LOW-MOISTURE PART SKIM STR...",,2022-12-22,1003.0,25.0,,70.0,,...,Cheese,LI,6 oz/170 g,2022-11-14,2022-12-22,United States,,,,
2059,1377290,branded_food,"MAPLE CASHEW BUTTER, MAPLE",,2021-02-26,1003.0,12.5,,70.0,,...,Nut & Seed Butters,LI,,2019-10-25,2021-02-26,United States,,,,
2700,1633356,branded_food,"FLAMIN' HOT CHEESE FLAVORED SNACKS, FLAMIN' HOT",,2021-03-19,1003.0,7.14,,70.0,,...,Other Snacks,LI,,2019-07-11,2021-03-19,United States,,,,
211,379746,branded_food,CHEESE FLAVORED CURLES,,2019-04-01,1003.0,7.14,,70.0,,...,Other Snacks,LI,,2018-03-11,2019-04-01,United States,,,,


---

# Cvičení

## Lipidy a tuky

Podívej se nyní na to, které kategorie potravin obsahují nejvíce lipidů (tuků). 

Nejprve pomocí dotazu vytvořit novou tabulku `food_merged_brands_lipid`, do které pomocí dotazu vlož pouze řádky, které mají jako název výživné látky hodnotu `Total lipid (fat)`. 


Poté proveď agregaci podle návu kategorie a seřaď výslednou tabulku tak, aby nahoře byly vidět kategorie s největším počtem tuků. 

Porovnej si výslednou tabulku s tabulkou `food_merged_brands_protein_agg`, kterou jsme vytvořili v rámci lekce. 

Podívej se, zda se některé kategorie objevují v obou tabulkách.

## Výrobci a kategorie

Nyní uvažuj, že si chceme udělat přehled o tom, jaký výrobce produkuje jaké typy potravin. 



Proveď agregaci tabulky `food_merged_brands` podle dvou sloupců: `brand_owner` a `branded_food_category`. 

Sloupce musíš metodě `food_merged_brands` zadat jako seznam, tj. musíš použít hranaté závorky. 




Dále vyber sloupec `fdc_id` pro provedení agregace a použij agregaci `nunique()`, který vrátí počet unikátních hodnot. 

Nakonec použij metodu `sort_values` s tím, že chceš data seřadit sestupně.