# Dodanie kolumny

Kontynuując rozwiązanie poprzedniego zadania, stwórz nową kolumnę **product** używając **product_types** oraz **product_line**:

1. sprawdź, czy kolumny **product_types** oraz **product_line** się uzupełniają (wartość pusta w jednej kolumnie pociąga za sobą niepustą wartość w drugiej),
1. stwórz nową kolumnę **produkt**, używając wartości z kolumny **product_types** np. `df['product'] = df['product_types']`,
1. znajdź niepuste wartości w kolumnie **product_line** i wpisz je do kolumny **product**,
1. dowolnym sposobem sprawdź, czy wszystkie wartości w kolumnie **product** są nie puste,
1. usuń duplikaty z tabeli,
1. używając z metody `to_csv` zapisz dane (będziemy z nich korzystać w dalszej części kursu), ustaw separator=';' oraz `index=False`.<br>
Plik zapisz jako `ceny_produktow_cleaned.csv`

Metoda `read_csv` jest jedną z wielu, których można użyć, by zapisać `DataFrame` w formie pliku **csv**. W kontekście tego zadania interesują nas poniższe parametry:
- `sep`-separator wierszy (domyślnie ','),
- `index`-czy index (domyślnie numer wiersza) tabeli ma również zostać zapisany (domyślnie `True`).

Przykład wywołania:
```
df.to_csv(
    'filepath', # sciezka do pliku
    sep=';', # ustawienie separatora
    index=False
)
```

In [16]:
import pandas as pd
# p = "../../01_Dane/ceny_produktow_renamed.csv"
p = './produkty_cleaned.csv'
df = pd.read_csv(
    p,
    sep=';',
    decimal='.'
)
df_clean = df.copy()
df_clean.head(1)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date
0,PODKARPACKIE,,zł,2,szynka wieprzowa gotowana - za 1kg,21.37,2013-3


#### 1 sprawdź, czy kolumny product_types oraz product_line się uzupełniają (wartość pusta w jednej kolumnie pociąga za sobą niepustą wartość w drugiej),

In [17]:
df['product_types'].isna().value_counts()

True     93937
False    16927
Name: product_types, dtype: int64

In [18]:
df_clean.loc[df['product_types'].isna(), ['product_types', 'product_line']].sample(3)

Unnamed: 0,product_types,product_line
84078,,salceson Włoski - za 1kg
75116,,kasza jęczmienna Mazurska - za 1kg
103927,,kasza gryczana prażona cała - za 1kg


In [19]:
# wybieramy kolumne product_line tam gdzie product_types jest puste
# sprawdzamy czy istnieja w tej (product_line) kolumnie puste wartosci
# z pomoca funkcji isna()
df_clean.loc[df['product_types'].isna(), 'product_line'].isna().value_counts()

False    93937
Name: product_line, dtype: int64

In [20]:
df_clean.loc[df['product_line'].isna(), ['product_types', 'product_line']].sample(3)

Unnamed: 0,product_types,product_line
110517,"cukier biały z buraków cukrowych, workowany - ...",
38670,mieszanka mrożona marchew i groszek - za 1kg,
96589,"sok jabłkowy, w opakowaniu kartonowym - za 1l",


In [21]:
df_clean.loc[df['product_line'].isna(), 'product_types'].isna().value_counts()

False    16927
Name: product_types, dtype: int64

#### 2 stwórz nową kolumnę produkt, używając wartości z kolumny product_types np. df['product'] = df['product_types'],

In [22]:
df_clean['product'] = df_clean['product_types']

#### 3 znajdź niepuste wartości w kolumnie product_line i wpisz je do kolumny product,

In [23]:
# to jest to samo co odkomentowany kod, pandas jest sprytny
# df_clean.loc[df_clean['product_line'].notna(), 'product'] = df_clean.loc[df_clean['product_line'].notna(), 'product_line']
df_clean.loc[df_clean['product_line'].notna(), 'product'] = df_clean['product_line']


#### 4 dowolnym sposobem sprawdź, czy wszystkie wartości w kolumnie product są nie puste,
usuń duplikaty z tabeli,

In [24]:
df_clean['product'].isna().value_counts()

False    110864
Name: product, dtype: int64

#### 5 usuń duplikaty z tabeli,

In [25]:
# df_clean.drop_duplicates(inplace=True)
df_clean = df_clean.drop_duplicates()

#### 6 używając z metody to_csv zapisz dane (będziemy z nich korzystać w dalszej części kursu), ustaw separator=';' oraz index=False.
Plik zapisz jako ceny_produktow_cleaned.csv

In [27]:

df_clean.to_csv('ceny_produktow_cleaned.csv', sep=';', decimal='.', encoding='utf-8', index=False)

In [28]:
df_clean.head(10)

Unnamed: 0,province,product_types,currency,product_group_id,product_line,value,date,product
0,PODKARPACKIE,,zł,2,szynka wieprzowa gotowana - za 1kg,21.37,2013-3,szynka wieprzowa gotowana - za 1kg
1,ŁÓDZKIE,,zł,4,chleb - za 1kg,,2018-2,chleb - za 1kg
2,KUJAWSKO-POMORSKIE,,zł,2,kiszka kaszana jęczmienna - za 1kg,3.55,2019-12,kiszka kaszana jęczmienna - za 1kg
3,DOLNOŚLĄSKIE,,zł,2,kurczęta patroszone - za 1kg,6.14,2019-2,kurczęta patroszone - za 1kg
4,WARMIŃSKO-MAZURSKIE,,zł,2,salceson Włoski - za 1kg,5.63,2002-3,salceson Włoski - za 1kg
5,ŚWIĘTOKRZYSKIE,"ogórki konserwowe całe 0,9l - za 1szt.",zł,1,,0.28,2010-4,"ogórki konserwowe całe 0,9l - za 1szt."
6,POLSKA,,zł,2,baleron gotowany - za 1kg,19.62,2017-3,baleron gotowany - za 1kg
7,KUJAWSKO-POMORSKIE,,zł,2,mięso wieprzowe z kością (schab środkowy) - z...,11.19,1999-4,mięso wieprzowe z kością (schab środkowy) - z...
8,PODLASKIE,,zł,4,chleb mieszany zwykły (pszenno-żytni) - za 1kg,3.86,2017-7,chleb mieszany zwykły (pszenno-żytni) - za 1kg
9,WARMIŃSKO-MAZURSKIE,,zł,4,"mąka pszenna Poznańska, workowana - za 1kg",0.95,2009-5,"mąka pszenna Poznańska, workowana - za 1kg"
