## Data cleaning

Datasets
* [Average wages](https://data.oecd.org/earnwage/average-wages.htm)
* [Hours worked](https://data.oecd.org/emp/hours-worked.htm)
* [Working hours needed to exit poverty](https://data.oecd.org/benwage/working-hours-needed-to-exit-poverty.htm)
* [GDP per hour worked](https://data.oecd.org/lprdty/gdp-per-hour-worked.htm)
* [Labour productivity and utilisation](https://data.oecd.org/lprdty/labour-productivity-and-utilisation.htm#indicator-chart)
* [ Employee compensation by activity](https://data.oecd.org/earnwage/employee-compensation-by-activity.htm#indicator-chart)
* [# Employment rate](https://data.oecd.org/emp/employment-rate.htm)
* [# Inégalité de revenu](https://data.oecd.org/fr/inequality/inegalite-de-revenu.htm)
* [# Poverty rate](https://data.oecd.org/inequality/poverty-rate.htm)

In [24]:
import pandas as pd
import numpy as np

In [27]:
avg_wg = pd.read_csv('average_wages.csv')
hrs_wk = pd.read_csv('hours_worked.csv')
hrs_pvty = pd.read_csv('workHours_exitPoverty.csv')
GDPhrs_wk = pd.read_csv('GDPhoursWorked.csv')
GDPcapContr = pd.read_csv('GDPCAPCONTR.csv')
wg_actvy = pd.read_csv('COMPEMPLOYEEACTY.csv')
income_ineq = pd.read_csv('INCOMEINEQ.csv')
poverty = pd.read_csv('POVERTY.csv')
emp_rate = pd.read_csv('EMP_rate.csv')

In [33]:
hrs_wk.head()

Unnamed: 0,LOCATION,INDICATOR,SUBJECT,MEASURE,FREQUENCY,TIME,Value,Flag Codes
0,AUS,HRWKD,TOT,HR_WKD,A,1985,1876.0,
1,AUS,HRWKD,TOT,HR_WKD,A,1986,1877.0,
2,AUS,HRWKD,TOT,HR_WKD,A,1987,1889.0,
3,AUS,HRWKD,TOT,HR_WKD,A,1988,1885.0,
4,AUS,HRWKD,TOT,HR_WKD,A,1989,1875.0,


In [32]:
hrs_wk['INDICATOR']

0       HRWKD
1       HRWKD
2       HRWKD
3       HRWKD
4       HRWKD
        ...  
1747    HRWKD
1748    HRWKD
1749    HRWKD
1750    HRWKD
1751    HRWKD
Name: INDICATOR, Length: 1752, dtype: object

In [30]:
hrs_wk['INDICATOR'].unique()

array(['HRWKD'], dtype=object)

In [5]:
#liste des pays par dataset: si un pays est mentionné 3 fois dans la colonne 'LOCATION', ça le réunit en une seule fois
countries_avg_wg = avg_wg['LOCATION'].unique()
countries_hrs_wk = hrs_wk['LOCATION'].unique()
countries_hrs_pvty = hrs_pvty['LOCATION'].unique()
countries_GDPhrs_wk = GDPhrs_wk['LOCATION'].unique()
countries_GDPcapContr = GDPcapContr['LOCATION'].unique()
countries_income_ineq = income_ineq['LOCATION'].unique()
countries_poverty = poverty['LOCATION'].unique()
countries_emp_rate = emp_rate['LOCATION'].unique()

#réunions de tous les pays de tous les datasets
countries = np.concatenate((countries_avg_wg,countries_hrs_wk,countries_hrs_pvty,countries_GDPhrs_wk,countries_GDPcapContr,countries_income_ineq,countries_poverty,countries_emp_rate), axis=0)
# [countries_avg_wg,countries_hrs_wk,countries_hrs_pvty,countries_GDPhrs_wk,countries_GDPcapContr,countries_income_ineq,countries_poverty,countries_emp_rate]

In [6]:
#.unique() sur la liste des pays dans tous les datasets confondus
countries
print(np.unique(countries))

['AUS' 'AUT' 'BEL' 'BGR' 'BRA' 'CAN' 'CHE' 'CHL' 'CHN' 'COL' 'CRI' 'CYP'
 'CZE' 'DEU' 'DNK' 'EA19' 'ESP' 'EST' 'EU27' 'EU27_2020' 'EU28' 'FIN'
 'FRA' 'G-7' 'GBR' 'GRC' 'HRV' 'HUN' 'IDN' 'IND' 'IRL' 'ISL' 'ISR' 'ITA'
 'JPN' 'KOR' 'LTU' 'LUX' 'LVA' 'MEX' 'MLT' 'NLD' 'NOR' 'NZL' 'OECD' 'POL'
 'PRT' 'ROU' 'RUS' 'SVK' 'SVN' 'SWE' 'TUR' 'USA' 'ZAF']


In [7]:
#nombre de pays par dataset
check_countries_nb = [countries_avg_wg,countries_hrs_wk,countries_hrs_pvty,countries_GDPhrs_wk,countries_GDPcapContr,countries_income_ineq,countries_poverty,countries_emp_rate]
for element in check_countries_nb :
    # print(element)
    print(len(element))

36
46
43
48
48
44
44
46


Oupsi, pas du tout les mêmes pays par dataset et pas le même nombre

In [8]:
#print(np.unique(countries))

### Quelles sont les valeurs utiles pour chaque dataset ?

#### Attention à 
- Prendre l'année la plus avancée pour chaque donnée de chaque pays (1990,1991,1992...) -> **FAIT**
- Vérifier que les années sont toutes comparables (après 2010 idéalement ?) -> **FAIT**
- Vérifier que Subject est bien à "TOT" pour tous les dataset (population totale) -> **fait mais c'est pas le cas du coup. Vérifier ce que signifient les autres noms de codes pour la population**
- Vérifier ce que ça veut dire "flag codes" ?
- Renommer la colonne Value de chaque dataset par la donnée observée (par ex avg_wg pour average wages) sinon on va rien comprendre quand on va merge
- merge les trucs : pd.merge(df1,df2,left_index=True ou False, right_on = 'nom_de_la_colonne')**
- enlever le pays G7 !

Pas mal de trucs à checker, je commence avec les datasets les plus importants d'après le sujet : **hours worked et GDP per hour.**

In [9]:
#Je checke que toutes les dates vont bien jusqu'à nos jours : 
print('Date la plus récente pour Hours Worked et GDP per hour: ',  hrs_wk['TIME'].iloc[-1], ', ',  GDPhrs_wk['TIME'].iloc[-1])

Date la plus récente pour Hours Worked et GDP per hour:  2020 ,  2020


C'est bon pour les deux premiers datasets. Bon allez, je regarde pour les autres

In [10]:
print('Average wages', avg_wg['TIME'].iloc[-1])
print('')
print('Hours poverty', hrs_pvty['TIME'].iloc[-1])
print('')
print('GDP cap contr', GDPcapContr['TIME'].iloc[-1])
print('')
print('Wages par activty', wg_actvy['TIME'].iloc[-1])
print('')
print('Income inequalities', income_ineq['TIME'].iloc[-1])
print('')
print('Poverty rate', poverty['TIME'].iloc[-1])
print('')
print('Emp rate', emp_rate['TIME'].iloc[-1])
print('')

Average wages 2020

Hours poverty 2018

GDP cap contr 2020

Wages par activty 2020

Income inequalities 2019

Poverty rate 2019

Emp rate 2021-12



Go prendre 2018 puisque la date la plus ancienne est 2018, on peut pas aller plus loin si on veut prendre en compte les heures à travailler pour sortie de la pauvreté

In [11]:
print('Hours worked wages', hrs_wk['SUBJECT'].iloc[0])
print('')
print('GDP per hour', GDPhrs_wk['SUBJECT'].iloc[0])
print('')
print('Hours poverty', hrs_pvty['SUBJECT'].iloc[0])
print('')
print('GDP cap contr', GDPcapContr['SUBJECT'].iloc[0])
print('')
print('Wages par activty', wg_actvy['SUBJECT'].iloc[0])
print('')
print('Income inequalities', income_ineq['SUBJECT'].iloc[0])
print('')
print('Poverty rate', poverty['SUBJECT'].iloc[0])
print('')
print('Emp rate', emp_rate['SUBJECT'].iloc[0])


Hours worked wages TOT

GDP per hour TOT

Hours poverty SNGL2CHLD

GDP cap contr LPRDTY

Wages par activty SERV

Income inequalities P50P10

Poverty rate 0_17

Emp rate MEN


Oupsi. Faudrait voir ce que signifient SNGL2CHLD, LPRDTY, SERV, P50P10, 0_17 et MEN 
(bon, probablement MEN ça veut dire hommes ?)

**Renommer les colonnes pour faciliter le merge**


In [34]:
hrs_wk.rename(columns={'Value': 'hrs_wk'}, inplace=True)
avg_wg.rename(columns={'Value': 'avg_wg'}, inplace=True)
hrs_pvty.rename(columns={'Value': 'hrs_pvty'}, inplace=True)
GDPhrs_wk.rename(columns={'Value': 'GDPhrs_wk'}, inplace=True)
GDPcapContr.rename(columns={'Value': 'GDPcapContr'}, inplace=True)
wg_actvy.rename(columns={'Value': 'wg_actvy'}, inplace=True)
income_ineq.rename(columns={'Value': 'income_ineq'}, inplace=True)
poverty.rename(columns={'Value': 'poverty'}, inplace=True)
emp_rate.rename(columns={'Value': 'emp_rate'}, inplace=True)

exemple: 

In [35]:
hrs_wk.head(1)

Unnamed: 0,LOCATION,INDICATOR,SUBJECT,MEASURE,FREQUENCY,TIME,hrs_wk,Flag Codes
0,AUS,HRWKD,TOT,HR_WKD,A,1985,1876.0,


**Maintenant, réunir les datasets par pays: si une donnée n'est pas disponible pour l'un des pays, ne pas prendre le pays en compte (si le tri est trop strict on peut adapter après)**

Premier test sur une année (**2018**) avec uniquement le pays et la valeur pour la variable étudiée. On va merge Hours worked et GDP per hour worked

Encore un test: certaines lignes ont deux valeurs. Par exemple dans GDP per hour worked, pour l'Australie et l'année 2018, il y a deux lignes dans le dataset. L'une avec Measure = USD, l'autre avec Measure = IDX2015
Voyez par vous-même

In [56]:
salut = GDPhrs_wk[GDPhrs_wk['TIME'] == 2018]

In [57]:
salut[salut['LOCATION'] == 'AUS'].head()

Unnamed: 0,LOCATION,INDICATOR,SUBJECT,MEASURE,FREQUENCY,TIME,GDPhrs_wk,Flag Codes
48,AUS,GDPHRWKD,TOT,USD,A,2018,54.536922,E
1882,AUS,GDPHRWKD,TOT,IDX2015,A,2018,100.795748,E


Bon, essayons quand même de merge les deux et on va voir ce que ça donne.

In [58]:
hrs_wk_merge_facile = hrs_wk[hrs_wk['TIME'] == 2018]
hrs_wk_merge_facile = hrs_wk_merge_facile[['LOCATION', 'hrs_wk']]
hrs_wk_merge_facile.head(5)

Unnamed: 0,LOCATION,hrs_wk
33,AUS,1733.0
59,AUT,1502.0
110,BEL,1580.0
170,CAN,1708.0
198,CZE,1785.0


In [59]:
GDPhrs_wk_merge_facile = GDPhrs_wk[GDPhrs_wk['TIME'] == 2018]
GDPhrs_wk_merge_facile = GDPhrs_wk_merge_facile[['LOCATION', 'GDPhrs_wk']]
GDPhrs_wk_merge_facile.head(5)

Unnamed: 0,LOCATION,GDPhrs_wk
48,AUS,54.536922
74,AUT,68.360281
125,BEL,71.700122
176,CAN,52.212832
204,CZE,41.152718


GO MERGE

In [60]:
hrs_wk_MERGE_gdp_hrs = pd.merge(hrs_wk_merge_facile,GDPhrs_wk_merge_facile)

In [61]:
hrs_wk_MERGE_gdp_hrs.head()

Unnamed: 0,LOCATION,hrs_wk,GDPhrs_wk
0,AUS,1733.0,54.536922
1,AUS,1733.0,100.795748
2,AUT,1502.0,68.360281
3,AUT,1502.0,101.624302
4,BEL,1580.0,71.700122


Effectivement y a un problème, y a deux ligne pour l'Australie (et peut-être d'autres pays). Aled