# Traitement des valeurs manquantes

Ce notebook sert à compléter les valeurs manquantes au niveau des variables de faits.

In [19]:
import pandas as pd

In [20]:
df_global = pd.read_csv("data/merged/global.csv", sep=";") 

Dans un premier temps, nous allons recherchers les pays ayants des valeurs manquantes pour toutes les années pour un indicateur données. Ce sont les cas pour lesquelles, nous n'avons aucune information pour la combinaison d'un pays/indicateur pour toutes les années de données dont nous disposons (2015-2023).

In [21]:
def pays_var_manquante(df: pd.DataFrame) -> None:
    for pays in df_global.Country.unique():
        nativity_missing = pd.isnull(df_global.loc[df_global.Country==pays].nativity).all()
    
        migration_missing = pd.isnull(df_global.loc[df_global.Country==pays].migration).all()
    
        health_expend_missing = pd.isnull(df_global.loc[df_global.Country==pays].health_expend).all()
    
        educ_expend_missing = pd.isnull(df_global.loc[df_global.Country==pays].educ_expend).all()
    
        gdp_missing = pd.isnull(df_global.loc[df_global.Country==pays].gdp).all()
    
        taxes_missing = pd.isnull(df_global.loc[df_global.Country==pays].taxes).all()
    
        budget_missing = pd.isnull(df_global.loc[df_global.Country==pays].budget).all()
    
        milit_missing = pd.isnull(df_global.loc[df_global.Country==pays].milit).all()
    
        if nativity_missing & migration_missing & health_expend_missing & educ_expend_missing & gdp_missing & taxes_missing & budget_missing & milit_missing:
            print(f"*** Tout les indicateur sont manquant pour: {pays}")
        else:
            if nativity_missing:
                print(f"Nativity manquant pour: {pays}")
            if migration_missing:
                print(f"Migration manquant pour: {pays}")
            if health_expend_missing:
                print(f"Health expend manquant pour: {pays}")
            if educ_expend_missing:
                print(f"Educ expend manquant pour: {pays}")
            if gdp_missing:
                print(f"GDP manquant pour: {pays}")
            if taxes_missing:
                print(f"Taxes manquant pour: {pays}")
            if budget_missing:
                print(f"Budget manquant pour: {pays}")
            if milit_missing:
                print(f"Milit expend manquant pour: {pays}")

In [22]:
pays_var_manquante(df_global)

Milit expend manquant pour: Qatar
Health expend manquant pour: Taiwan
Educ expend manquant pour: Taiwan
Educ expend manquant pour: Suriname
Milit expend manquant pour: Suriname
Educ expend manquant pour: Trinidad and Tobago
Educ expend manquant pour: Libya
Milit expend manquant pour: Libya
*** Tout les indicateur sont manquant pour: North Cyprus
Health expend manquant pour: Kosovo
Educ expend manquant pour: Kosovo
Health expend manquant pour: Hong Kong
Milit expend manquant pour: Hong Kong
Milit expend manquant pour: Bhutan
Educ expend manquant pour: Montenegro
*** Tout les indicateur sont manquant pour: Somaliland region
Educ expend manquant pour: North Macedonia
Educ expend manquant pour: Bosnia and Herzegovina
*** Tout les indicateur sont manquant pour: Palestinian Territories
Milit expend manquant pour: Haiti
Milit expend manquant pour: Djibouti
Milit expend manquant pour: Comoros
Milit expend manquant pour: Syria
Health expend manquant pour: Puerto Rico
Milit expend manquant pour:

Dans un premier temps nous allons supprimer les pays pour lesquelles nous n'avons pas du tout d'indicateur. 

In [23]:
df_global = df_global[df_global.Country!="North Cyprus"]
df_global = df_global[df_global.Country!="Somaliland region"]
df_global = df_global[df_global.Country!="Palestinian Territories"]
df_global = df_global[df_global.Country!="Somaliland Region"]
df_global = df_global[df_global.Country!="Hong Kong S.A.R., China"]
df_global = df_global[df_global.Country!="Northern Cyprus"]
df_global = df_global[df_global.Country!="Hong Kong S.A.R. of China"]
df_global = df_global[df_global.Country!="State of Palestine"]

Suppression d'Hong Kong et Porto Rico puisque ce ne sont pas des pays.

In [24]:
df_global = df_global[df_global.Country!="Hong Kong"]
df_global = df_global[df_global.Country!="Puerto Rico"]

Maintenant nous allons assigner la moyenne annuelle pour les variables manquante.  
Ainsi nous pourrons garder ces pays tout en minimisant l'impact d'assigner à l'indicateur une valeur artificielle.

In [25]:
# Méthode pour assigner la moyenne annuelle de la variable donnée pour le pays passé en paramètre
def assigner_moyenne_annuelle(df: pd.DataFrame, pays: str, varname: str) -> pd.DataFrame:
    for annee in range(2015, 2024):
        df.loc[(df.annee==annee) & (df.Country==pays), varname] = df.loc[df.annee==annee, varname].mean()
    return df

In [26]:
df_global = assigner_moyenne_annuelle(df_global, "Qatar", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Taiwan", "health_expend")
df_global = assigner_moyenne_annuelle(df_global, "Taiwan", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Suriname", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Suriname", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Trinidad and Tobago", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Libya", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Libya", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Kosovo", "health_expend")
df_global = assigner_moyenne_annuelle(df_global, "Kosovo", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Bhutan", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Montenegro", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "North Macedonia", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Bosnia and Herzegovina", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Haiti", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Djibouti", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Comoros", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Syria", "milit")
df_global = assigner_moyenne_annuelle(df_global, "Somalia", "health_expend")
df_global = assigner_moyenne_annuelle(df_global, "Somalia", "educ_expend")
df_global = assigner_moyenne_annuelle(df_global, "Maldives", "milit")

Vérification s'il reste des pays/variables ayant uniquement des valeurs manquantes.  
Il ne devrait plus n'y en avoir

In [27]:
pays_var_manquante(df_global)

Ensuite, il faut remplacer les valeurs manquantes restantes par la valeur de l'année antérieure la plus raproché s'il y en a une de disponible pour le pays.

In [28]:
# Méthode servant à renseigner les valeurs manquantes avec la valeur de l'année antérieur la plus raprocher.
#  La méthode affiche la trace des cas pour lesquelles aucune valeur antérieure n'est disponible.
def renseigner_manquante_ante(df: pd.DataFrame) -> pd.DataFrame:
    nullable_cols = ['nativity', 'migration', 'health_expend', 'educ_expend', 'gdp', 'taxes', 'budget', 'milit']
    for i, row in df[df.isna().any(axis=1)].iterrows():
        for colname in nullable_cols:
            if pd.isnull(row[colname]):
                t_annee = row.annee - 1
                while 2015 <= t_annee:
                    try:
                        val_precedente = df.loc[(df.annee == t_annee) & (df.Country == row.Country)][colname].values[0]
                    except IndexError:
                        # Pas de données pour l'indice de bonheur de ce pays cet année, on passe à l'année de la prochaine itération
                        val_precedente = None
                    
                    if pd.notnull(val_precedente):
                        df.loc[i, colname] = val_precedente
                        break
                    t_annee -= 1
                if t_annee < 2015:
                    print(f"Aucune valeur de remplacement pour {row.Country}, {colname} en {row.annee}.")
    return df

In [29]:
# Appel de la méthode
df_global = renseigner_manquante_ante(df_global)

Aucune valeur de remplacement pour Costa Rica, milit en 2015.
Aucune valeur de remplacement pour Luxembourg, educ_expend en 2015.
Aucune valeur de remplacement pour United Arab Emirates, educ_expend en 2015.
Aucune valeur de remplacement pour United Arab Emirates, milit en 2015.
Aucune valeur de remplacement pour Panama, milit en 2015.
Aucune valeur de remplacement pour Taiwan, milit en 2015.
Aucune valeur de remplacement pour Suriname, health_expend en 2015.
Aucune valeur de remplacement pour Trinidad and Tobago, milit en 2015.
Aucune valeur de remplacement pour Uzbekistan, educ_expend en 2015.
Aucune valeur de remplacement pour Uzbekistan, milit en 2015.
Aucune valeur de remplacement pour Kosovo, nativity en 2015.
Aucune valeur de remplacement pour Kosovo, migration en 2015.
Aucune valeur de remplacement pour Kosovo, milit en 2015.
Aucune valeur de remplacement pour Turkmenistan, milit en 2015.
Aucune valeur de remplacement pour Kyrgyzstan, milit en 2015.
Aucune valeur de remplacemen

Il y a encore des valeurs manquantes dans les cas où il n'y a pas de valeur antérieur disponible.  
Nous allons donc renseigner ces cas par une valeur ultérieure.

In [30]:
# Méthode servant à renseigner les valeurs manquantes avec la valeur de l'année ultérieur la plus raprocher.
#  La méthode affiche la trace des cas pour lesquelles aucune valeur ultérieure n'est disponible; 
#  Ça ne devrait pas arrivé puisque nous avons déjà supprimé ou renseigné par la moyenne les cas sans valeurs antérieure ni ultérieure.
def renseigner_manquante_ulte(df):
    nullable_cols = ['nativity', 'migration', 'health_expend', 'educ_expend', 'gdp', 'taxes', 'budget', 'milit']
    for i, row in df[df.isna().any(axis=1)].iterrows():
        for colname in nullable_cols:
            if pd.isnull(row[colname]):
                t_annee = row.annee + 1
                while t_annee <= 2023:
                    try:
                        val_precedente = df.loc[(df.annee == t_annee) & (df.Country == row.Country)][colname].values[0]
                    except IndexError:
                        # Pas de données pour l'indice de bonheur de ce pays cet année, on passe à l'année de la prochaine itération
                        val_precedente = None
                    
                    if pd.notnull(val_precedente):
                        df.loc[i, colname] = val_precedente
                        break
                    t_annee += 1
                if t_annee > 2023:
                    print(f"Aucune valeur de remplacement pour {row.Country}, {colname} en {row.annee}.")
    return df

In [31]:
df_global = renseigner_manquante_ulte(df_global)

Vérification qu'il ne restes plus de valeurs manquantes

In [32]:
df_global.isna().sum()

annee              0
Country            0
Happiness Score    0
nativity           0
migration          0
health_expend      0
educ_expend        0
gdp                0
taxes              0
budget             0
milit              0
dtype: int64

Maintenant que l'ensemble de données ne contient plus de valeurs manquantes nous allons le sauvegarder ainsi.

In [33]:
df_global.to_csv("data/merged/global2.csv", sep=";", index=False) 