## Ćwiczenie 2 - TIER protocol i tidy data

Celem ćwiczenia jest pobranie i uporządkowanie przydzielonego zbioru danych zgodnie z protokołem TIER i zasadami "tidy data".

### Dla przypomnienia:

W uporządkowanych danych:

-Każda zmienna tworzy kolumnę.

-Każda obserwacja tworzy rząd.

-Każdy typ jednostki obserwacyjnej tworzy tabelę.

In [43]:
import numpy as np
import pandas as pd

In [44]:
#wczytanie pliku csv
df = pd.read_csv(r'C:\Users\Michal\Documents\Analiza i bazy danych\Lab2\Original Data\tb.csv')
df

Unnamed: 0,iso2,year,new_sp,new_sp_m04,new_sp_m514,new_sp_m014,new_sp_m1524,new_sp_m2534,new_sp_m3544,new_sp_m4554,...,new_sp_f04,new_sp_f514,new_sp_f014,new_sp_f1524,new_sp_f2534,new_sp_f3544,new_sp_f4554,new_sp_f5564,new_sp_f65,new_sp_fu
0,AD,1989,,,,,,,,,...,,,,,,,,,,
1,AD,1990,,,,,,,,,...,,,,,,,,,,
2,AD,1991,,,,,,,,,...,,,,,,,,,,
3,AD,1992,,,,,,,,,...,,,,,,,,,,
4,AD,1993,15.0,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5764,ZW,2004,14581.0,,,187.0,833.0,2908.0,2298.0,1056.0,...,,,225.0,1140.0,2858.0,1565.0,622.0,214.0,111.0,
5765,ZW,2005,13155.0,,,210.0,837.0,2264.0,1855.0,762.0,...,,,269.0,1136.0,2242.0,1255.0,578.0,193.0,603.0,
5766,ZW,2006,12718.0,,,215.0,736.0,2391.0,1939.0,896.0,...,,,237.0,1020.0,2424.0,1355.0,632.0,230.0,96.0,
5767,ZW,2007,10583.0,6.0,132.0,138.0,500.0,3693.0,0.0,716.0,...,7.0,178.0,185.0,739.0,3311.0,0.0,553.0,213.0,90.0,


In [45]:
#zmiana nazwy kolumny oraz usunięcie powtarzających się przedziałów wiekowych
df = df.rename(columns = {'iso2': 'country'})
del df["new_sp"]
del df["new_sp_m014"]
del df["new_sp_f014"]

In [46]:
#operacja meltingu
df_melt = pd.melt(df, id_vars =['country', 'year'], value_vars = list(df.columns)[2:], var_name ='column', value_name ='cases')
df_melt

Unnamed: 0,country,year,column,cases
0,AD,1989,new_sp_m04,
1,AD,1990,new_sp_m04,
2,AD,1991,new_sp_m04,
3,AD,1992,new_sp_m04,
4,AD,1993,new_sp_m04,
...,...,...,...,...
103837,ZW,2004,new_sp_fu,
103838,ZW,2005,new_sp_fu,
103839,ZW,2006,new_sp_fu,
103840,ZW,2007,new_sp_fu,


In [47]:
#dodanie kolumny "sex"
df_melt_s = df_melt.assign(sex=df_melt['column'].str[7])

In [48]:
#dodanie kolumny "age"
df_melt_s_a = df_melt_s.assign(age=df_melt['column'].str[8:].map({
    '04': '0-4',
    '1524': '15-24',
    '2534': '25-34',
    '3544': '35-44',
    '4554': '45-54',
    '5564': '55-64',
    '65': '65+',
    'u':'Undefined'
}))
df_melt_s_a

Unnamed: 0,country,year,column,cases,sex,age
0,AD,1989,new_sp_m04,,m,0-4
1,AD,1990,new_sp_m04,,m,0-4
2,AD,1991,new_sp_m04,,m,0-4
3,AD,1992,new_sp_m04,,m,0-4
4,AD,1993,new_sp_m04,,m,0-4
...,...,...,...,...,...,...
103837,ZW,2004,new_sp_fu,,f,Undefined
103838,ZW,2005,new_sp_fu,,f,Undefined
103839,ZW,2006,new_sp_fu,,f,Undefined
103840,ZW,2007,new_sp_fu,,f,Undefined


In [49]:
#usunięcie kolumny "column" z niepotrzebnymi już danymi
del df_melt_s_a["column"]
df_melt_s_a

Unnamed: 0,country,year,cases,sex,age
0,AD,1989,,m,0-4
1,AD,1990,,m,0-4
2,AD,1991,,m,0-4
3,AD,1992,,m,0-4
4,AD,1993,,m,0-4
...,...,...,...,...,...
103837,ZW,2004,,f,Undefined
103838,ZW,2005,,f,Undefined
103839,ZW,2006,,f,Undefined
103840,ZW,2007,,f,Undefined


In [50]:
#usunięcie wszystkich wierszy, w których wartość "cases" jest NaN
tidy_df = df_melt_s_a.dropna()
tidy_df

Unnamed: 0,country,year,cases,sex,age
15,AD,2005,0.0,m,0-4
16,AD,2006,0.0,m,0-4
18,AD,2008,0.0,m,0-4
42,AE,2006,0.0,m,0-4
43,AE,2007,0.0,m,0-4
...,...,...,...,...,...
103657,VU,2008,0.0,f,Undefined
103731,YE,2008,0.0,f,Undefined
103785,ZA,2008,0.0,f,Undefined
103812,ZM,2008,0.0,f,Undefined


In [51]:
#posortowanie danych w sposób alfabetyczny po kodzie kraju i roku
sorted_df = tidy_df.sort_values(["country","year"], ascending=True)
sorted_df

Unnamed: 0,country,year,cases,sex,age
11544,AD,1996,0.0,m,15-24
17313,AD,1996,0.0,m,25-34
23082,AD,1996,4.0,m,35-44
28851,AD,1996,1.0,m,45-54
34620,AD,1996,0.0,m,55-64
...,...,...,...,...,...
80765,ZW,2008,2890.0,f,35-44
86534,ZW,2008,467.0,f,45-54
92303,ZW,2008,174.0,f,55-64
98072,ZW,2008,105.0,f,65+


In [52]:
#zapisanie danych do folderu w pliku csv
sorted_df.to_csv(r'C:\Users\Michal\Documents\Analiza i bazy danych\Lab2\Analysis Data\tb_final.csv', index = False)