# Přehled dat pro kapitoly Spojování a Agregace a řazení

## Příprava všech potřebných dat v případě nouze

Pokud se nemůžeš dopátrat k tomu, jak vytvořit ten správný DataFrame, 
který zrovna potřebuješ k pokračování v lekci,
spusť následující blok kódu pro vygenerování všech potřebných dat.

**Spoiler alert: kód částečně vyzrazuje řešení cvičení.**

In [15]:
import pandas as pd

# food_nutrient (csv vstup)
#   Obsahuje informace o nutrientech. Každý řádek odpovídá jednomu nutrientu, 
#   který se váže k určité potravině skrze ID potraviny (fdc_id). 
#   K jedné potravině se může vázat více nutrientů.
food_nutrient = pd.read_csv("food_nutrient.csv")

# food
#   Tabulka s názvy potravin a dalšími informacemi.
food_sample_100 = pd.read_csv("food_sample_100.csv")
food_other = pd.read_csv("food_other.csv")
food = pd.concat([food_sample_100, food_other], ignore_index=True)

# food_merged
food_merged = pd.merge(food, food_nutrient, on="fdc_id")

# branded_food (csv vstup)
#   Obsahuje doplňující informace k potravinám z tabulky food 
#   (značka/výrobce, kategorie, velikost porce, apod.)
branded_food = pd.read_csv("branded_food.csv")

# food_merged_brands
#   Tabulka vzniklá propojením tabulky potravin+nutrientů 
#   s tabulkou značek/výrobců.
food_merged_brands = pd.merge(food_merged, branded_food, on="fdc_id")
food_merged_brands = food_merged_brands.rename(columns={"name": "nutrient_name"})

## Podrobnější přehled dat

### **food_nutrient**

Obsahuje informace o nutrientech. Každý řádek odpovídá jednomu nutrientu, který se váže k určité potravině skrze ID potraviny (fdc_id). K jedné potravině se může vázat více nutrientů.

In [16]:
food_nutrient = pd.read_csv("food_nutrient.csv")

display(food_nutrient.shape)
display(list(food_nutrient.columns))
food_nutrient.head(3)

(135336, 13)

['fdc_id',
 'nutrient_id',
 'amount',
 'data_points',
 'derivation_id',
 'min',
 'max',
 'median',
 'loq',
 'footnote',
 'min_year_acquired',
 'name',
 'unit_name']

Unnamed: 0,fdc_id,nutrient_id,amount,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,name,unit_name
0,1106032,1257,,,71.0,,,,,,,"Fatty acids, total trans",G
1,1107191,1257,,,70.0,,,,,,,"Fatty acids, total trans",G
2,1107295,1257,,,70.0,,,,,,,"Fatty acids, total trans",G


### food_sample_100.csv & food_other.csv -> **food**

Tabulka s názvy potravin a dalšími informacemi.

In [17]:
food_sample_100 = pd.read_csv("food_sample_100.csv")
food_other = pd.read_csv("food_other.csv")

food = pd.concat([food_sample_100, food_other], ignore_index=True)

display(food.shape)
display(list(food.columns))
food.head(3)

(10000, 5)

['fdc_id', 'data_type', 'description', 'food_category_id', 'publication_date']

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28


### food + food_nutrient -> **food_merged**

Tabulka vzniklá propojením tabulky potravin s tabulkou nutrientů. K jedné potravině se může vázat více nutrientů.

In [18]:
food_merged = pd.merge(food, food_nutrient, on="fdc_id")

display(food_merged.shape)
display(list(food_merged.columns))
food.head(3)

(135336, 17)

['fdc_id',
 'data_type',
 'description',
 'food_category_id',
 'publication_date',
 'nutrient_id',
 'amount',
 'data_points',
 'derivation_id',
 'min',
 'max',
 'median',
 'loq',
 'footnote',
 'min_year_acquired',
 'name',
 'unit_name']

Unnamed: 0,fdc_id,data_type,description,food_category_id,publication_date
0,2644829,sub_sample_food,"lentils, dry",16.0,2023-10-19
1,2347263,sub_sample_food,heavy cream,1.0,2022-10-28
2,2261954,sub_sample_food,"Flour, potato",11.0,2022-04-28


### **Branded_food**

Obsahuje doplňující informace k potravinám z tabulky food (značka/výrobce, kategorie, velikost porce, apod.)

In [19]:
branded_food = pd.read_csv("branded_food.csv")

display(branded_food.shape)
display(list(branded_food.columns))
branded_food.head(3)

(9541, 20)

['fdc_id',
 'brand_owner',
 'brand_name',
 'subbrand_name',
 'gtin_upc',
 'ingredients',
 'not_a_significant_source_of',
 'serving_size',
 'serving_size_unit',
 'household_serving_fulltext',
 'branded_food_category',
 'data_source',
 'package_weight',
 'modified_date',
 'available_date',
 'market_country',
 'discontinued_date',
 'preparation_state_code',
 'trade_channel',
 'short_description']

Unnamed: 0,fdc_id,brand_owner,brand_name,subbrand_name,gtin_upc,ingredients,not_a_significant_source_of,serving_size,serving_size_unit,household_serving_fulltext,branded_food_category,data_source,package_weight,modified_date,available_date,market_country,discontinued_date,preparation_state_code,trade_channel,short_description
0,1106032,BRAKEBUSH BROTHERS INC.,,,10038034720202,INGREDIENTS: BONELESS CHICKEN BREAST MEAT WITH...,,85.0,g,,Meat/Poultry/Other Animals Prepared/Processed,GDSN,,2020-09-03,2020-11-13,United States,,,,
1,1107191,Mahco Inc,,,877448001674,"TOMATO PUREE (TOMATOES), CARROTS, ONIONS, SUN-...",,125.0,g,,Prepared Pasta & Pizza Sauces,LI,,2020-09-22,2020-11-13,United States,,,,
2,1107295,Hormel Foods Corporation,,,37600665605,MASA FLOUR (GROUND WHITE CORN WITH A TRACE OF ...,,30.0,g,,"Chips, Pretzels & Snacks",LI,,2020-04-08,2020-11-13,United States,,,,


### food_merged + branded_food -> **food_merged_brands**

Tabulka vzniklá propojením tabulky potravin+nutrientů s tabulkou značek/výrobců.

In [20]:
food_merged_brands = pd.merge(food_merged, branded_food, on="fdc_id", how="inner")

food_merged_brands = food_merged_brands.rename(columns={"name": "nutrient_name"})

display(food_merged_brands.shape)
display(list(food_merged_brands.columns))
food_merged_brands.head(3)

(129284, 36)

['fdc_id',
 'brand_owner',
 'brand_name',
 'subbrand_name',
 'gtin_upc',
 'ingredients',
 'not_a_significant_source_of',
 'serving_size',
 'serving_size_unit',
 'household_serving_fulltext',
 'branded_food_category',
 'data_source',
 'package_weight',
 'modified_date',
 'available_date',
 'market_country',
 'discontinued_date',
 'preparation_state_code',
 'trade_channel',
 'short_description',
 'data_type',
 'description',
 'food_category_id',
 'publication_date',
 'nutrient_id',
 'amount',
 'data_points',
 'derivation_id',
 'min',
 'max',
 'median',
 'loq',
 'footnote',
 'min_year_acquired',
 'nutrient_name',
 'unit_name']

Unnamed: 0,fdc_id,brand_owner,brand_name,subbrand_name,gtin_upc,ingredients,not_a_significant_source_of,serving_size,serving_size_unit,household_serving_fulltext,...,data_points,derivation_id,min,max,median,loq,footnote,min_year_acquired,nutrient_name,unit_name
0,1106032,BRAKEBUSH BROTHERS INC.,,,10038034720202,INGREDIENTS: BONELESS CHICKEN BREAST MEAT WITH...,,85.0,g,,...,,71.0,,,,,,,"Fatty acids, total trans",G
1,1106032,BRAKEBUSH BROTHERS INC.,,,10038034720202,INGREDIENTS: BONELESS CHICKEN BREAST MEAT WITH...,,85.0,g,,...,,71.0,,,,,,,Cholesterol,MG
2,1106032,BRAKEBUSH BROTHERS INC.,,,10038034720202,INGREDIENTS: BONELESS CHICKEN BREAST MEAT WITH...,,85.0,g,,...,,71.0,,,,,,,Energy,KCAL
