## Podmíněný výběr

In [2]:
import pandas as pd

In [3]:
url_food_nutrient = "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/podmineny-vyber/podmineny-vyber/food_nutrient.csv"
food_nutrient = pd.read_csv(url_food_nutrient)
food_nutrient.head()

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,1106032,1257,,,71.0,,,,,,,"Fatty acids, total trans",G
1,1107191,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
2,1107295,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
3,1107475,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
4,1107528,1257,0.0,,70.0,,,,,,,"Fatty acids, total trans",G


 Stručný popis sloupců tabulky.

- `id`: Identifikační číslo záznamu.
- `fdc_id`: Identifikační číslo potraviny, ke které se vztahuje živina.
- `nutrient_id`: Identifikační číslo živiny.
- `amount`: Množství živiny v potravině.
- `data_points`: Počet datových bodů použitých pro výpočet průměru.
- `derivation_id`: Identifikační číslo metody, kterou byla hodnota živiny odvozena.
- `standard_error`: Standardní chyba měření množství živiny.
- `min`: Minimální hodnota množství živiny nalezlá v potravině.
- `max`: Maximální hodnota množství živiny nalezlá v potravině.
- `median`: Medián hodnot množství živiny v potravině.
- `footnote`: Poznámka nebo dodatečné informace o živině.
- `name`: Název živiny.
- `unit_name`: Název jednotky, ve které se měří živina.
- `nutrient_nbr`: Unikátní číslo identifikující živinu nebo potravinovou složku​.

In [4]:
food_nutrient.drop(columns=['data_points', 'min', 'max', 'median', 'loq', 'min_year_acquired', 'derivation_id', 'footnote'], inplace=True)
food_nutrient

Unnamed: 0,fdc_id,nutrient_id,amount,name,unit_name
0,1106032,1257,,"Fatty acids, total trans",G
1,1107191,1257,,"Fatty acids, total trans",G
2,1107295,1257,,"Fatty acids, total trans",G
3,1107475,1257,,"Fatty acids, total trans",G
4,1107528,1257,0.0,"Fatty acids, total trans",G
...,...,...,...,...,...
135331,2614074,2068,0.0,Vitamin E,MG
135332,2622536,2068,2.0,Vitamin E,MG
135333,2622742,2068,13.0,Vitamin E,MG
135334,2627542,2068,2.0,Vitamin E,MG


### Co vlastně umí série

In [5]:
food_nutrient["name"]

0         Fatty acids, total trans
1         Fatty acids, total trans
2         Fatty acids, total trans
3         Fatty acids, total trans
4         Fatty acids, total trans
                    ...           
135331                   Vitamin E
135332                   Vitamin E
135333                   Vitamin E
135334                   Vitamin E
135335                   Vitamin E
Name: name, Length: 135336, dtype: object

In [6]:
food_nutrient["name"].unique()
# food_nutrient["name"].nunique()

array(['Fatty acids, total trans', 'Fatty acids, total polyunsaturated',
       'Cholesterol', 'Potassium, K', 'Energy', 'Iron, Fe',
       'Vitamin C, total ascorbic acid', 'Fatty acids, total saturated',
       'Calcium, Ca', 'Fatty acids, total monounsaturated', 'Sodium, Na',
       'Vitamin A, IU', 'Sugars, total including NLEA',
       'Fiber, total dietary', 'Vitamin D (D2 + D3), International Units',
       'Carbohydrate, by difference', 'Total lipid (fat)', 'Protein',
       'Folic acid', 'Folate, DFE', 'Riboflavin', 'Thiamin',
       'Vitamin B-12', 'Vitamin B-6', 'Phosphorus, P', 'Manganese, Mn',
       'Magnesium, Mg', 'Niacin', 'Sugars, added', 'Folate, total',
       'Selenium, Se', 'Pantothenic acid', 'Iodine, I', 'Zinc, Zn',
       'Vitamin E', 'Fiber, soluble', 'Fiber, insoluble',
       'Total sugar alcohols', 'Vitamin K (phylloquinone)', 'Copper, Cu',
       'Carbohydrate, other', 'Molybdenum, Mo', 'Chromium, Cr', 'Biotin',
       'Inulin', 'Vitamin E (alpha-tocophero

In [7]:
food_nutrient["name"].value_counts()

name
Protein                        9553
Sodium, Na                     9499
Energy                         9473
Total lipid (fat)              9413
Carbohydrate, by difference    9357
                               ... 
SFA 5:0                           1
MUFA 12:1                         1
SFA 21:0                          1
SFA 23:0                          1
TFA 18:2 t,t                      1
Name: count, Length: 205, dtype: int64

### Podmíněný výběr

Uvažujme, že nám jde o obsah hořčíku (Magnesium), protože naším úkolem je doporučit potraviny lidem s nedostatkem hořčíku.

Při použití operátorů pro porovnávání vždy získáme hodnotu typu `bool`. 

In [8]:
food_nutrient["name"] == "Magnesium, Mg"

0         False
1         False
2         False
3         False
4         False
          ...  
135331    False
135332    False
135333    False
135334    False
135335    False
Name: name, Length: 135336, dtype: bool

`pandas` teď jednoduše udělají to, že vypíšou ty řádky řádky, kde má náš polotovar hodnotu `True` a ty, které mají hodnotu `False`, před námi skryjí.

In [9]:
magnesium = food_nutrient[food_nutrient["name"] == "Magnesium, Mg"]
magnesium.head()

Unnamed: 0,fdc_id,nutrient_id,amount,name,unit_name
125766,1108349,1090,147.0,"Magnesium, Mg",MG
125767,1109796,1090,156.0,"Magnesium, Mg",MG
125768,1114461,1090,107.0,"Magnesium, Mg",MG
125769,1114961,1090,267.0,"Magnesium, Mg",MG
125770,1118500,1090,158.0,"Magnesium, Mg",MG


### Popisná statistika

In [10]:
magnesium["amount"].describe()

count     394.000000
mean      102.079797
std       210.755384
min         0.000000
25%        13.000000
50%        43.000000
75%       124.250000
max      2941.000000
Name: amount, dtype: float64

Naším úkolem je vybrat potraviny, které mají vyšší množství hořčíku. K tomu opět využijeme dotaz. 

Uvažujeme, že nás zajímají potraviny, které mají více než 100 gramů hořčíku.

In [11]:
magnesium_limit = magnesium[magnesium["amount"] > 100]
magnesium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,name,unit_name
125766,1108349,1090,147.0,"Magnesium, Mg",MG
125767,1109796,1090,156.0,"Magnesium, Mg",MG
125768,1114461,1090,107.0,"Magnesium, Mg",MG
125769,1114961,1090,267.0,"Magnesium, Mg",MG
125770,1118500,1090,158.0,"Magnesium, Mg",MG
...,...,...,...,...,...
126141,2550641,1090,218.0,"Magnesium, Mg",MG
126147,2558685,1090,133.0,"Magnesium, Mg",MG
126148,2592707,1090,207.0,"Magnesium, Mg",MG
126154,2627542,1090,118.0,"Magnesium, Mg",MG


### Spojení více podmínek

Pokud chceme, aby musely být splněny obě podmínky, vložíme mezi ně symbol `&`. 

Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`. 



Naším úkolem bude vybrat potraviny, které mají mezi 30 a 500 mg vápníku. 

In [12]:
calcium = food_nutrient[food_nutrient["name"] == "Calcium, Ca"]
calcium_limit = calcium[(calcium["amount"] > 30) & (calcium["amount"] < 500)]
calcium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,name,unit_name
51848,1107475,1087,129.0,"Calcium, Ca",MG
51849,1107528,1087,107.0,"Calcium, Ca",MG
51850,1108007,1087,31.0,"Calcium, Ca",MG
51852,1108349,1087,382.0,"Calcium, Ca",MG
51853,1108803,1087,33.0,"Calcium, Ca",MG
...,...,...,...,...,...
59729,2659382,1087,67.0,"Calcium, Ca",MG
59730,2659508,1087,31.0,"Calcium, Ca",MG
59733,2660573,1087,80.0,"Calcium, Ca",MG
59734,2660613,1087,133.0,"Calcium, Ca",MG


In [13]:
calcium_limit = food_nutrient[
    (food_nutrient["name"] == "Calcium, Ca")
    & (food_nutrient["amount"] > 30)
    & (food_nutrient["amount"] < 500)
]

calcium_limit

Unnamed: 0,fdc_id,nutrient_id,amount,name,unit_name
51848,1107475,1087,129.0,"Calcium, Ca",MG
51849,1107528,1087,107.0,"Calcium, Ca",MG
51850,1108007,1087,31.0,"Calcium, Ca",MG
51852,1108349,1087,382.0,"Calcium, Ca",MG
51853,1108803,1087,33.0,"Calcium, Ca",MG
...,...,...,...,...,...
59729,2659382,1087,67.0,"Calcium, Ca",MG
59730,2659508,1087,31.0,"Calcium, Ca",MG
59733,2660573,1087,80.0,"Calcium, Ca",MG
59734,2660613,1087,133.0,"Calcium, Ca",MG


Pokud chceme, aby stačilo splnění jedné podmínky, použijeme symbol `|`.

In [23]:
%%time
%time %time calcium_limit = food_nutrient[(food_nutrient["name"] == "Calcium, Ca") & (food_nutrient["amount"] > 30) & (food_nutrient["amount"] < 500)]

%time calcium_limit = food_nutrient.query('name == "Calcium, Ca" and 30 < amount < 500')

%time calcium_limit = food_nutrient[(food_nutrient["name"] == "Calcium, Ca") & food_nutrient["amount"].between(30, 500, inclusive="neither")]

%time calcium_limit = food_nutrient.loc[(food_nutrient["name"] == "Calcium, Ca") & (food_nutrient["amount"] > 30) & (food_nutrient["amount"] < 500)]

CPU times: user 9.21 ms, sys: 10.6 ms, total: 19.8 ms
Wall time: 33.4 ms
CPU times: user 9.52 ms, sys: 10.9 ms, total: 20.4 ms
Wall time: 35 ms
CPU times: user 3.94 ms, sys: 4.09 ms, total: 8.03 ms
Wall time: 14.6 ms
CPU times: user 6.12 ms, sys: 447 µs, total: 6.57 ms
Wall time: 6.6 ms
CPU times: user 5.13 ms, sys: 124 µs, total: 5.25 ms
Wall time: 5.28 ms
CPU times: user 25.7 ms, sys: 15.6 ms, total: 41.3 ms
Wall time: 62.5 ms
