# Normalizacja zbioru danych

W pliku **dims.xlsx** w arkuszach znajdują się słowniki do danych z pliku **ceny_towarow_cleaned.csv**. Używając `merge`, dokonaj normalizacji danych w następujących krokach:

1. Wczytaj zawartość wszystkich arkuszy z pliku **dims.xlsx** do osobnych `DataFrame`.
Dla czytelności, nazwy ramek nadaj, używając nazw skoroszytów.

1. Wczytaj dane z pliku **ceny_towarow_cleaned.csv** do zmiennej `df`,

1. Na podstawie skoroszytu **d_province** dodaj do ramki `df` kolumnę `province_id` używając kolumny `id`,

1. Na podstawie skoroszytu **d_product** dodaj do ramki `df` kolumnę `product_id`,

1. Z tabeli wyselekcjonuj tylko kolumny, które referują do innych tabel np. **product_id** oraz kolumny **value**, **date**. Czy Twoim zdaniem, ta postać jest czytelniejsza? Jakie mogą być zalety tego podejścia?`

> O tym jak można zaczytać wiele skoroszytów naraz będziemy mówić w trakcie omawiania `openpyxl`.

Więcej o normalizacji baz danych znajdziesz pod tym [linkiem](https://www.sqlpedia.pl/projektowanie-i-normalizacja-bazy-danych/).

In [28]:
import pandas as pd
p = "../../01_Dane/ceny_produktow_cleaned.csv"

df = pd.read_csv(
    p,
    sep=';',
    decimal='.'
)
df.head(1)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product
0,PODKARPACKIE,,zł,2,szynka wieprzowa gotowana - za 1kg,21.37,2013-3,szynka wieprzowa gotowana - za 1kg


In [2]:
from pathlib import Path
cwd = Path('.').resolve()
cwd
dims_path = '../../01_Dane/dims.xlsx'

In [17]:
tmp_df_dict = pd.read_excel(
    dims_path,
    # sheet_name=[0,1,2]
    sheet_name=["d_province", "d_product", "d_product_group"]
)

tmp_df_dict

d_province = tmp_df_dict["d_province"]
d_product = tmp_df_dict["d_product"]
d_product_group = tmp_df_dict["d_product_group"]


In [19]:
d_province.head(1)

Unnamed: 0,province_id,province
0,8,PODKARPACKIE


In [29]:
df = df.merge(d_province, on="province", how="left")
df

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,province_id
0,PODKARPACKIE,,zł,2,szynka wieprzowa gotowana - za 1kg,21.37,2013-3,szynka wieprzowa gotowana - za 1kg,8
1,ŁÓDZKIE,,zł,4,chleb - za 1kg,,2018-2,chleb - za 1kg,14
2,KUJAWSKO-POMORSKIE,,zł,2,kiszka kaszana jęczmienna - za 1kg,3.55,2019-12,kiszka kaszana jęczmienna - za 1kg,2
3,DOLNOŚLĄSKIE,,zł,2,kurczęta patroszone - za 1kg,6.14,2019-2,kurczęta patroszone - za 1kg,1
4,WARMIŃSKO-MAZURSKIE,,zł,2,salceson Włoski - za 1kg,5.63,2002-3,salceson Włoski - za 1kg,11
...,...,...,...,...,...,...,...,...,...
95825,POMORSKIE,,zł,2,baleron gotowany - za 1kg,14.48,1999-10,baleron gotowany - za 1kg,10
95826,ŚLĄSKIE,,zł,2,boczek wędzony z żeberkami - za 1kg,15.95,2015-9,boczek wędzony z żeberkami - za 1kg,15
95827,ŚLĄSKIE,,zł,2,kiszka kaszana jęczmienna - za 1kg,4.50,2004-8,kiszka kaszana jęczmienna - za 1kg,15
95828,KUJAWSKO-POMORSKIE,,zł,2,mięso wieprzowe (boczek surowy) - za 1kg,12.15,2016-11,mięso wieprzowe (boczek surowy) - za 1kg,2


In [25]:
d_product.head(1)

Unnamed: 0,product_id,product,product_group_id
0,20,szynka wieprzowa gotowana - za 1kg,2


In [30]:
df = df.merge(d_product[['product', 'product_id']], on="product", how="left")
df

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product,province_id,product_id
0,PODKARPACKIE,,zł,2,szynka wieprzowa gotowana - za 1kg,21.37,2013-3,szynka wieprzowa gotowana - za 1kg,8,20.0
1,ŁÓDZKIE,,zł,4,chleb - za 1kg,,2018-2,chleb - za 1kg,14,26.0
2,KUJAWSKO-POMORSKIE,,zł,2,kiszka kaszana jęczmienna - za 1kg,3.55,2019-12,kiszka kaszana jęczmienna - za 1kg,2,10.0
3,DOLNOŚLĄSKIE,,zł,2,kurczęta patroszone - za 1kg,6.14,2019-2,kurczęta patroszone - za 1kg,1,12.0
4,WARMIŃSKO-MAZURSKIE,,zł,2,salceson Włoski - za 1kg,5.63,2002-3,salceson Włoski - za 1kg,11,19.0
...,...,...,...,...,...,...,...,...,...,...
95825,POMORSKIE,,zł,2,baleron gotowany - za 1kg,14.48,1999-10,baleron gotowany - za 1kg,10,5.0
95826,ŚLĄSKIE,,zł,2,boczek wędzony z żeberkami - za 1kg,15.95,2015-9,boczek wędzony z żeberkami - za 1kg,15,6.0
95827,ŚLĄSKIE,,zł,2,kiszka kaszana jęczmienna - za 1kg,4.50,2004-8,kiszka kaszana jęczmienna - za 1kg,15,10.0
95828,KUJAWSKO-POMORSKIE,,zł,2,mięso wieprzowe (boczek surowy) - za 1kg,12.15,2016-11,mięso wieprzowe (boczek surowy) - za 1kg,2,13.0


In [33]:
cols_of_interest = [
    'product_id', 'province_id', 'product_group_id', 'currency', 'value', 'date'
]
df_result = df[cols_of_interest]
df_result

Unnamed: 0,product_id,province_id,product_group_id,currency,value,date
0,20.0,8,2,zł,21.37,2013-3
1,26.0,14,4,zł,,2018-2
2,10.0,2,2,zł,3.55,2019-12
3,12.0,1,2,zł,6.14,2019-2
4,19.0,11,2,zł,5.63,2002-3
...,...,...,...,...,...,...
95825,5.0,10,2,zł,14.48,1999-10
95826,6.0,15,2,zł,15.95,2015-9
95827,10.0,15,2,zł,4.50,2004-8
95828,13.0,2,2,zł,12.15,2016-11


In [34]:
df_result.to_csv('ceny_produktow_normalized.csv', sep=';', decimal='.', encoding='utf-8')