### Import libraries

In [1]:
import pandas as pd

### Read dataframes

In [2]:
df_emigranti_definitivi_sexe_judete_ani = pd.read_csv("data/emigranti_definitivi_sexe_judete_ani.csv")
df_emigranti_definitivi_sexe_judete_ani = df_emigranti_definitivi_sexe_judete_ani.groupby([' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'])[' Valoare'].sum().reset_index()

df_nascuti_vii = pd.read_csv("data/nascuti_vii_medii_rezidenta.csv")
df_nascuti_vii.drop(labels=['Sexe', ' UM: Numar persoane'], axis=1, inplace=True)
df_nascuti_vii_urban = df_nascuti_vii[df_nascuti_vii[' Medii de rezidenta'] == ' Urban'].drop(' Medii de rezidenta', axis=1).reset_index(drop=True)
df_nascuti_vii_rural = df_nascuti_vii[df_nascuti_vii[' Medii de rezidenta'] == ' Rural'].drop(' Medii de rezidenta', axis=1).reset_index(drop=True)

df_nascuti_morti = pd.read_csv("data/nascuti_morti_medii_rezidenta.csv")
df_nascuti_morti.drop(labels=[' UM: Numar persoane'], axis=1, inplace=True)
df_nascuti_morti_urban = df_nascuti_morti[df_nascuti_morti['Medii de rezidenta'] == 'Urban'].drop('Medii de rezidenta', axis=1).reset_index(drop=True)
df_nascuti_morti_rural = df_nascuti_morti[df_nascuti_morti['Medii de rezidenta'] == 'Rural'].drop('Medii de rezidenta', axis=1).reset_index(drop=True)

df_divorturi = pd.read_csv("data/divorturi_medii_rezidenta.csv")
df_divorturi.drop(labels=[' UM: Numar'], axis=1, inplace=True)
df_divorturi_urban = df_divorturi[df_divorturi['Medii de rezidenta'] == 'Urban'].drop('Medii de rezidenta', axis=1).reset_index(drop=True)
df_divorturi_rural = df_divorturi[df_divorturi['Medii de rezidenta'] == 'Rural'].drop('Medii de rezidenta', axis=1).reset_index(drop=True)
                      
df_rata_somajului = pd.read_csv("data/rata_somajului_sexe.csv")
df_rata_somajului.drop(labels=[' UM: Procente'], axis=1, inplace=True)
df_rata_somajului_masculin = df_rata_somajului[df_rata_somajului['Sexe'] == 'Masculin'].drop('Sexe', axis=1).reset_index(drop=True)
df_rata_somajului_feminin = df_rata_somajului[df_rata_somajului['Sexe'] == 'Feminin'].drop('Sexe', axis=1).reset_index(drop=True)

df_conflicte_interese = pd.read_csv("data/conflicte_interese.csv")
df_conflicte_interese.drop(labels=[' UM: Numar'], axis=1, inplace=True)
df_conflicte_interese.rename(columns={'Macroregiuni  regiuni de dezvoltare si judete':' Macroregiuni  regiuni de dezvoltare si judete'}, inplace=True)
df_conflicte_interese[' Macroregiuni  regiuni de dezvoltare si judete'] = ' ' + df_conflicte_interese[' Macroregiuni  regiuni de dezvoltare si judete'].astype(str)

df_unitati_invatamant = pd.read_csv("data/unitati_invatamant.csv")
df_unitati_invatamant.drop(labels=['Niveluri de educatie', ' Localitati ', ' UM: Numar'], axis=1, inplace=True)
df_unitati_invatamant.rename(columns={' Judete':' Macroregiuni  regiuni de dezvoltare si judete'}, inplace=True)

df_personal_didactic = pd.read_csv("data/personal_didactic.csv")
df_personal_didactic.drop(labels=['Niveluri de educatie', ' Sexe', ' UM: Numar persoane'], axis=1, inplace=True)
                      
df_spitale = pd.read_csv("data/spitale.csv")
df_spitale.drop(labels=['Categorii de unitati sanitare', ' Forme de proprietate ', ' UM: Numar'], axis=1, inplace=True)

##### Rename numeric columns accordingly

In [3]:
df_emigranti_definitivi_sexe_judete_ani.rename(columns={' Valoare':'EMIGRANTS'}, inplace=True)
df_nascuti_vii_urban.rename(columns={' Valoare':'BORN_URBAN'}, inplace=True)
df_nascuti_vii_rural.rename(columns={' Valoare':'BORN_RURAL'}, inplace=True)
df_nascuti_morti_urban.rename(columns={' Valoare':'DEAD_URBAN'}, inplace=True)
df_nascuti_morti_rural.rename(columns={' Valoare':'DEAD_RURAL'}, inplace=True)
df_divorturi_urban.rename(columns={' Valoare':'DIVORCES_URBAN'}, inplace=True)
df_divorturi_rural.rename(columns={' Valoare':'DIVORCES_RURAL'}, inplace=True)
df_rata_somajului_masculin.rename(columns={' Valoare':'UNEMPLOYMENT_RATE_MALE'}, inplace=True)
df_rata_somajului_feminin.rename(columns={' Valoare':'UNEMPLOYMENT_RATE_FEMALE'}, inplace=True)
df_unitati_invatamant.rename(columns={' Valoare':'EDUCATIONAL_UNITS'}, inplace=True)
df_personal_didactic.rename(columns={' Valoare':'TEACHING_STAFF'}, inplace=True)
df_conflicte_interese.rename(columns={' Valoare':'CONFLICTS_OF_INTEREST'}, inplace=True)
df_spitale.rename(columns={' Valoare':'HOSPITALS'}, inplace=True)

### Perform aggregations

In [4]:
df_merged = df_emigranti_definitivi_sexe_judete_ani.merge(df_nascuti_vii_urban, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left')

# Fill NaN's with 0 because Municipiul Bucuresti is a city
df_merged = df_merged.merge(df_nascuti_vii_rural, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

# Fill NaN's with 0 because we had 0 deaths where we've encountered missing values
df_merged = df_merged.merge(df_nascuti_morti_urban, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)
df_merged = df_merged.merge(df_nascuti_morti_rural, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

# Fill NaN's with 0 because we had 0 divorces where we've encountered missing values
df_merged = df_merged.merge(df_divorturi_urban, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)
df_merged = df_merged.merge(df_divorturi_rural, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

df_merged = df_merged.merge(df_rata_somajului_masculin, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='right').fillna(0)
df_merged = df_merged.merge(df_rata_somajului_feminin, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='right').fillna(0)

df_merged = df_merged.merge(df_unitati_invatamant, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='right').fillna(0)

df_merged = df_merged.merge(df_personal_didactic, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

df_merged = df_merged.merge(df_conflicte_interese, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

df_merged = df_merged.merge(df_spitale, on=[' Ani', ' Macroregiuni  regiuni de dezvoltare si judete'], how='left').fillna(0)

df_merged.rename(columns={' Ani':'YEARS', ' Macroregiuni  regiuni de dezvoltare si judete':'COUNTIES'}, inplace=True)

##### Make sure we don't have any NaN value

In [5]:
df_merged.isnull().sum()

YEARS                       0
COUNTIES                    0
EMIGRANTS                   0
BORN_URBAN                  0
BORN_RURAL                  0
DEAD_URBAN                  0
DEAD_RURAL                  0
DIVORCES_URBAN              0
DIVORCES_RURAL              0
UNEMPLOYMENT_RATE_MALE      0
UNEMPLOYMENT_RATE_FEMALE    0
EDUCATIONAL_UNITS           0
TEACHING_STAFF              0
CONFLICTS_OF_INTEREST       0
HOSPITALS                   0
dtype: int64

### Export dataset

In [6]:
df_merged.to_csv('data/df_emigrant_population.csv', index=False)