## Podmíněný výběr

Vyzkoušíme si jeden z hlavních nástrojů zpracování dat, a to je psaní dotazů. 

Logika psaní dotazů je v různých prostředích stejná, liší se pouze to, jak ji provádíme. 



In [1]:
import pandas as pd

In [2]:
url_food_nutrient = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/podmineny-vyber/podmineny-vyber/food_nutrient.csv"
food_nutrient = pd.read_csv(url_food_nutrient)
food_nutrient.head()

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,1106032,1257,,,71.0,,,,,,,"Fatty acids, total trans",G
1,1107191,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
2,1107295,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
3,1107475,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
4,1107528,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G


 Stručný popis sloupců tabulky.

- `id`: Identifikační číslo záznamu.
- `fdc_id`: Identifikační číslo potraviny, ke které se vztahuje živina.
- `nutrient_id`: Identifikační číslo živiny.
- `amount`: Množství živiny v potravině.
- `data_points`: Počet datových bodů použitých pro výpočet průměru.
- `derivation_id`: Identifikační číslo metody, kterou byla hodnota živiny odvozena.
- `standard_error`: Standardní chyba měření množství živiny.
- `min`: Minimální hodnota množství živiny nalezlá v potravině.
- `max`: Maximální hodnota množství živiny nalezlá v potravině.
- `median`: Medián hodnot množství živiny v potravině.
- `footnote`: Poznámka nebo dodatečné informace o živině.
- `name`: Název živiny.
- `unit_name`: Název jednotky, ve které se měří živina.
- `nutrient_nbr`: Unikátní číslo identifikující živinu nebo potravinovou složku​.

### Co vlastně umí série

In [3]:
food_nutrient["name"]

0         Fatty acids, total trans
1         Fatty acids, total trans
2         Fatty acids, total trans
3         Fatty acids, total trans
4         Fatty acids, total trans
                    ...           
135331                   Vitamin E
135332                   Vitamin E
135333                   Vitamin E
135334                   Vitamin E
135335                   Vitamin E
Name: name, Length: 135336, dtype: object

In [4]:
food_nutrient["name"].unique()

array(['Fatty acids, total trans', 'Fatty acids, total polyunsaturated',
       'Cholesterol', 'Potassium, K', 'Energy', 'Iron, Fe',
       'Vitamin C, total ascorbic acid', 'Fatty acids, total saturated',
       'Calcium, Ca', 'Fatty acids, total monounsaturated', 'Sodium, Na',
       'Vitamin A, IU', 'Sugars, total including NLEA',
       'Fiber, total dietary', 'Vitamin D (D2 + D3), International Units',
       'Carbohydrate, by difference', 'Total lipid (fat)', 'Protein',
       'Folic acid', 'Folate, DFE', 'Riboflavin', 'Thiamin',
       'Vitamin B-12', 'Vitamin B-6', 'Phosphorus, P', 'Manganese, Mn',
       'Magnesium, Mg', 'Niacin', 'Sugars, added', 'Folate, total',
       'Selenium, Se', 'Pantothenic acid', 'Iodine, I', 'Zinc, Zn',
       'Vitamin E', 'Fiber, soluble', 'Fiber, insoluble',
       'Total sugar alcohols', 'Vitamin K (phylloquinone)', 'Copper, Cu',
       'Carbohydrate, other', 'Molybdenum, Mo', 'Chromium, Cr', 'Biotin',
       'Inulin', 'Vitamin E (alpha-tocophero

In [5]:
food_nutrient["name"].value_counts()

name
Protein                        9553
Sodium, Na                     9499
Energy                         9473
Total lipid (fat)              9413
Carbohydrate, by difference    9357
                               ... 
SFA 5:0                           1
MUFA 12:1                         1
SFA 21:0                          1
SFA 23:0                          1
TFA 18:2 t,t                      1
Name: count, Length: 205, dtype: int64

### Podmíněný výběr

Uvažujme, že nám jde o obsah hořčíku (Magnesium), protože naším úkolem je doporučit potraviny lidem s nedostatkem hořčíku.

Při použití operátorů pro porovnávání vždy získáme hodnotu typu `bool`. 

In [6]:
food_nutrient["name"] == "Magnesium, Mg"

0         False
1         False
2         False
3         False
4         False
          ...  
135331    False
135332    False
135333    False
135334    False
135335    False
Name: name, Length: 135336, dtype: bool

`pandas` teď jednoduše udělají to, že vypíšou ty řádky řádky, kde má náš polotovar hodnotu `True` a ty, které mají hodnotu `False`, před námi skryjí.

In [7]:
magnesium = food_nutrient[food_nutrient["name"] == "Magnesium, Mg"]
magnesium.head()

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
125766,1108349,1090,147.0,,70.0,,,,,,,"Magnesium, Mg",MG
125767,1109796,1090,156.0,,75.0,,,,,,,"Magnesium, Mg",MG
125768,1114461,1090,107.0,,70.0,,,,,,,"Magnesium, Mg",MG
125769,1114961,1090,267.0,,75.0,,,,,,,"Magnesium, Mg",MG
125770,1118500,1090,158.0,,70.0,,,,,,,"Magnesium, Mg",MG


### Popisná statistika

In [8]:
magnesium["amount"].describe()

count     394.000000
mean      102.079797
std       210.755384
min         0.000000
25%        13.000000
50%        43.000000
75%       124.250000
max      2941.000000
Name: amount, dtype: float64

Naším úkolem je vybrat potraviny, které mají vyšší množství hořčíku. K tomu opět využijeme dotaz. 

Uvažujeme, že nás zajímají potraviny, které mají více než 100 gramů hořčíku.

In [9]:
magnesium_limit = magnesium[magnesium["amount"] > 100]
magnesium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
125766,1108349,1090,147.0,,70.0,,,,,,,"Magnesium, Mg",MG
125767,1109796,1090,156.0,,75.0,,,,,,,"Magnesium, Mg",MG
125768,1114461,1090,107.0,,70.0,,,,,,,"Magnesium, Mg",MG
125769,1114961,1090,267.0,,75.0,,,,,,,"Magnesium, Mg",MG
125770,1118500,1090,158.0,,70.0,,,,,,,"Magnesium, Mg",MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...
126141,2550641,1090,218.0,,70.0,,,,,,,"Magnesium, Mg",MG
126147,2558685,1090,133.0,,78.0,,,,,,,"Magnesium, Mg",MG
126148,2592707,1090,207.0,,70.0,,,,,,,"Magnesium, Mg",MG
126154,2627542,1090,118.0,,75.0,,,,,,,"Magnesium, Mg",MG


### Spojení více podmínek

Pokud chceme, aby musely být splněny obě podmínky, vložíme mezi ně symbol `&`. 

Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`. 



Naším úkolem bude vybrat potraviny, které mají mezi 30 a 500 mg vápníku. 

In [10]:
calcium = food_nutrient[food_nutrient["name"] == "Calcium, Ca"]
calcium_limit = calcium[(calcium["amount"] > 30) & (calcium["amount"] < 500)]
calcium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
51848,1107475,1087,129.0,,70.0,,,,,,,"Calcium, Ca",MG
51849,1107528,1087,107.0,,75.0,,,,,,,"Calcium, Ca",MG
51850,1108007,1087,31.0,,70.0,,,,,,,"Calcium, Ca",MG
51852,1108349,1087,382.0,,70.0,,,,,,,"Calcium, Ca",MG
51853,1108803,1087,33.0,,75.0,,,,,,,"Calcium, Ca",MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59729,2659382,1087,67.0,,75.0,,,,,,,"Calcium, Ca",MG
59730,2659508,1087,31.0,,75.0,,,,,,,"Calcium, Ca",MG
59733,2660573,1087,80.0,,75.0,,,,,,,"Calcium, Ca",MG
59734,2660613,1087,133.0,,70.0,,,,,,,"Calcium, Ca",MG


In [11]:
calcium_limit = food_nutrient[
    (food_nutrient["name"] == "Calcium, Ca")
    & (food_nutrient["amount"] > 30)
    & (food_nutrient["amount"] < 500)
]

calcium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
51848,1107475,1087,129.0,,70.0,,,,,,,"Calcium, Ca",MG
51849,1107528,1087,107.0,,75.0,,,,,,,"Calcium, Ca",MG
51850,1108007,1087,31.0,,70.0,,,,,,,"Calcium, Ca",MG
51852,1108349,1087,382.0,,70.0,,,,,,,"Calcium, Ca",MG
51853,1108803,1087,33.0,,75.0,,,,,,,"Calcium, Ca",MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59729,2659382,1087,67.0,,75.0,,,,,,,"Calcium, Ca",MG
59730,2659508,1087,31.0,,75.0,,,,,,,"Calcium, Ca",MG
59733,2660573,1087,80.0,,75.0,,,,,,,"Calcium, Ca",MG
59734,2660613,1087,133.0,,70.0,,,,,,,"Calcium, Ca",MG


Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`.

---
# Cvičení



## Vláknina

Problémem dnešních potravin je často nedostatek vlákniny. 

Konzumace potravin bohatých na vlákninu může být pro řadu lidí zdravotně prospěná. 

Vyhledej v tabulce `food_nutrient` potraviny, které obsahují alespoň 10 gramů vlákniny. 

Vláknina je uložená pod názvem `Fiber, total dietary`. 

Napiš dotaz jako jeden příkaz a využij operátor `&`.

# Hlášení chyb

V datech se bohužel můžou vyskytnout i chyby.

 V případě výživných látek jsou uváděné hodnoty vždy přepočtené na 100 gramů potraviny. 
 
 Chybou by tedy například bylo, pokud by bylo nějaké výživné látky v potravině více než 100 gramů, tj. výživné látky by bylo více než samotné potraviny. 
 
 Podobně to platí i pro miligramy. Více než 100 000 miligramů výživné látky též nedává smysl (1 gram = 1 000 miligramů).

Vyhledej všechny řádky, kde jsou hodnoty v miligramech (ve sloupci `unit_name` je hodnota `MG`) a množství látky (sloupec `amount`) má větší hodnotu než 100 000. 

Ulož tato data do tabulky `error_report.csv`. K tomu využij metodu `.to_csv()`, které zadáš jako parametr název tabulky. 

Níže je příklad jejího použití.

```
tabulky.to_csv("nazev_souboru.csv")
```

Takto vytvořenou tabulku bychom mohli poslat poskytovateli dat a požádat ho o opravu.

## Česká jména

Použij soubor `jmena.csv` se jmény a načti ho tak, aby Pandas vyrobil číselný index. 

Proveď následující dotazy:

Vypiš všechny řádky se jmény, jejichž nositelé mají průměrný věk vyšší než 60.


Vypiš pouze jména z těch řádků, kde četnost je mezi 80 000 a 100 000.


Vypiš jména a četnost pro jména se slovanským nebo hebrejským původem. Kolik takových jmen je?

Pro poslední úkol můžeš využít operátor |. Alternativně si můžeš vyzkoušet metodu .isin(), která zápis zkrátí. 

Jako parametr vkládáme seznam hodnot, které vyhovují podmínce. 

Níže je příklad použití metody. Z tabulky tabulka chceme vybrat řádky, které ve sloupci sloupec mají hodnotu hodnota_1 nebo hodnota_2. 

Pokud jsi vytvořil(a) i verzi s operátorem |, můžeš obě verze porovnat a rozhodnout se, která verze se ti líbí více.

`tabulka = tabulka[tabulka["sloupec"].isin(["hodnota_1", "hodnota_2"])]`


## Dvě kritéria

Připravujeme seznam potravin pro účely lékařského výzkumu, který se bude zabývat kardiovaskulárním systémem. Chceme vybrat potraviny, které splňují dvě kritéria:

- nízký obsah nasycených mastných kyselin (`Fatty acids, total saturated`, uvažuj méně než 1 gram),
- vysoký obsah vlákniny (`Fiber, total dietary`, uvažuj více než 5 gramů).

Zatímco nasycené mastné kyseliny jsou považovány za spíše škodlivé pro kardiovaskulární systém, vláknina je považována spíše za prospěšnou.

Nejprve je potřeba napsat dotaz, který potraviny vybere. Dotaz je poměrně složitý, ale později si v rámci kurzu ukážeme, jak takovou úlohu vyřešit jednodušeji. Je potřeba použít operátor & i | a závorky, pomocí kterých řídíme, které podmínky se vyhodnocují spolu. Níže jsou rozepsané podmínky, které budeme potřebovat:

- Ve sloupci "name" musí být hodnota "Fatty acids, total saturated" a současně ve sloupci "amount" hodnota menší než 1. Mezi tyto podmínky vložíme operátor &, protože musí být splněné obě.
- Ve sloupci "name" musí být hodnota "Fiber, total dietary" a současně ve sloupci "amount" hodnota vetší než 4. Mezi tyto podmínky vložíme operátor &, protože musí být splněné obě.

Protože obě výživné látky jsou na samostatném řádku, musíme mezi obě podmínky dát operátor |. Pokud nějaká potraviny splňuje obě podmínky, bude tedy ve výsledné tabulce dvakrát. Pokud splňuje pouze jednou z podmínek, bude ve výsledné tabulce pouze jednou. Počet výskytů potraviny ve výsledné tabulce můžeme ověřit pomocí metodu values_count().

U kombinace operátorů & a | je vhodné uvědomit si, v jaké prioritě by měly být používány. Ač to zní složitě, je to pojem, který už známe z úvodního kurzu z příkladu, kde jsme používali násobení a sčítání v jednom příkladu. Pro operátory & a | platí, že operátor & máš vyšší prioritu než |. To nám vyhovuje, protože my chceme nejprve vyhodnotit podmínky s operátorem & a poté spojit výsledky s využitím opretáro |.

Níže je tedy struktura, kterou je potřeba upravit, aby řešila popsané podmínky.

```
food_nutrient_filtered = food_nutrient[(ve sloupci "name" je hodnota "Fatty acids, total saturated") & (ve sloupci "amount" je hodnota menší než 1) | (ve sloupci "name" je hodnota "Fiber, total dietary") & (ve sloupci "amount" je hodnota větší než 4)]
```

Pokud se úvaze o priotách chceš vyhnout, je možné to vyřešit přidanými závorkami. Tyto závorky nijak neovlivňují, jak Python příkaz vyhodnotí, ale můžou zlepšit čistelnost a pochopitelnost příkazu pro člověka.

```
food_nutrient_filtered = food_nutrient[((ve sloupci "name" je hodnota "Fatty acids, total saturated") & (ve sloupci "amount" je hodnota menší než 1)) | ((ve sloupci "name" je hodnota "Fiber, total dietary") & (ve sloupci "amount" je hodnota větší než 4))]
```