# RESTRUCTURATION DE LA BASE DE DONNEES HDR_2007_2008_Table_02_python.xlsx

In [1]:
# Importons les librairies pandas et numpy respectivement pour l'analyse et la restructuration de la base de données. 
import numpy as np
import pandas as pd

# Recherchons l'emplacement de la base de données et importons-la.
source = "C:/Users/Kparatiogo/Desktop/GAVIN_BOYERA/HDR_2007_2008_Table_02_python.xlsx"

# Utilisons la fonction read_excel de pandas pour déchiffer le contenu du fichier HDR_2007_2008_Table_02_python.xlsx. 
df = pd.read_excel(source)

# Affichons les 15 premières lignes afin d'avoir un aperçu des en-têtes de notre jeu de données. 
df.head(15)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32
0,,Monitoring human development: enlarging people...,,,,,,,,,...,,,,,,,,,,
1,2 Human development index trends,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
6,,,,,,,,,,,...,,,,,,,,,,
7,,,,,,,,,,,...,,,,,,,,,,
8,,,,,,,,,,,...,,,,,,,,,,
9,,,,,,,,,,,...,,,,,,,,,,


In [2]:
# Repositionnons la ligne d'en-tête. Nous pouvons voir que la vraie ligne des en-têtes est à la ligne 11.
df = pd.read_excel(source, header=11)

# Supprimons d'abord toutes les colonnes (axe=1) sans valeurs
df = df.dropna(how="all", axis=1)

# Supprimons toutes les lignes (axe=0) sans valeurs
df = df.dropna(how="all", axis=0).reset_index(drop=True)

# Affichons les 15 premières lignes
df.head(15)

Unnamed: 0,HDI rank,Unnamed: 1,Unnamed: 3,Unnamed: 5,Unnamed: 7,Unnamed: 9,Unnamed: 11,Unnamed: 13,Unnamed: 15
0,,,1975.0,1980.0,1985.0,1990.0,1995.0,2000.0,2005.0
1,HIGH HUMAN DEVELOPMENT,,,,,,,,
2,1,Iceland,0.868,0.89,0.899,0.918,0.923,0.947,0.968
3,2,Norway,0.87,0.889,0.9,0.913,0.938,0.958,0.968
4,3,Australia,0.851,0.868,0.88,0.894,0.934,0.949,0.962
5,4,Canada,0.873,0.888,0.911,0.931,0.936,0.946,0.961
6,5,Ireland,0.823,0.835,0.851,0.875,0.898,0.931,0.959
7,6,Sweden,0.872,0.882,0.893,0.904,0.935,0.952,0.956
8,7,Switzerland,0.883,0.895,0.902,0.915,0.926,0.946,0.955
9,8,Japan,0.861,0.886,0.899,0.916,0.929,0.941,0.953


In [3]:
# Définissons une liste vide appélée columns
columns = []
for c in df.columns:
    # Pour chaque colonne, obtenir les valeurs des 5 premières lignes
    # puis conservez toutes les chaînes (c'est-à-dire excluez-les si elles sont nulles) et ajoutez-les en colonne
    columns.append([str(v) for v in df[c][:5] if pd.notnull(v)])

    # Affichons le contenu de la liste de listes columns
columns

[['HIGH HUMAN DEVELOPMENT', '1', '2', '3'],
 ['Iceland', 'Norway', 'Australia'],
 ['1975', '0.868', '0.870', '0.851'],
 ['1980', '0.890', '0.889', '0.868'],
 ['1985', '0.899', '0.900', '0.880'],
 ['1990', '0.918', '0.913', '0.894'],
 ['1995', '0.923', '0.938', '0.934'],
 ['2000', '0.947', '0.958', '0.949'],
 ['2005.0', '0.968', '0.968', '0.9620000000000001']]

In [4]:
# Créons une liste de string redéfinissant les noms des colonnes
columns = [
    "HDI rank",
    "Country Name",
    1975,
    1980,
    1985,
    1990,
    1995,
    2000,
    2005,
]

# Réinitialisons les colonnes créées aux cadres de données existants déjà
df.columns = columns

# Supprimons les lignes qui contenaient les informations dont nous n'avons plus besoin et réinitialisons l'index
# np.arange(5) crée un tableau = [0, 1, 2, 3, 4, 5]
df = df.drop(np.arange(2), axis=0).reset_index(drop=True)

# Le code ci-dessous permet de s'assurer que la réinitialisation a bel et bien été bien faite
df.columns

# Regardons un aperçu de notre tableau
df.head()

Unnamed: 0,HDI rank,Country Name,1975,1980,1985,1990,1995,2000,2005
0,1,Iceland,0.868,0.89,0.899,0.918,0.923,0.947,0.968
1,2,Norway,0.87,0.889,0.9,0.913,0.938,0.958,0.968
2,3,Australia,0.851,0.868,0.88,0.894,0.934,0.949,0.962
3,4,Canada,0.873,0.888,0.911,0.931,0.936,0.946,0.961
4,5,Ireland,0.823,0.835,0.851,0.875,0.898,0.931,0.959


In [5]:
# Affichons plus en détail le contenu de notre fichier afin de nous impregner des types de données et de métadonnées qui y restent. 
df.tail(30)

Unnamed: 0,HDI rank,Country Name,1975,1980,1985,1990,1995,2000,2005
152,152,Togo,0.423,0.473,0.469,0.496,0.514,0.521,0.512
153,153,Yemen,..,..,..,0.402,0.439,0.473,0.508
154,154,Uganda,..,..,0.420,0.434,0.433,0.480,0.505
155,155,Gambia,0.290,..,..,..,0.436,0.472,0.502
156,LOW HUMAN DEVELOPMENT,,,,,,,,
157,156,Senegal,0.342,0.367,0.401,0.428,0.449,0.473,0.499
158,157,Eritrea,..,..,..,..,0.435,0.459,0.483
159,158,Nigeria,0.321,0.378,0.391,0.411,0.432,0.445,0.47
160,159,Tanzania (United Republic of),..,..,..,0.421,0.419,0.433,0.467
161,160,Guinea,..,..,..,..,..,..,0.456


In [6]:
# Rassurons-nous que le nombre de lignes du fichier est bien 182 (181 + la ligne d'en-tête).
len(df)

182

In [7]:
# Déposons les lignes du bas des données que nous voulons conserver, jusqu'à la fin (défini comme len(df))
df = df.drop(np.arange(179,len(df)), axis=0).reset_index(drop=True)

In [8]:
# Affichons plus en détail le fichier afin de s'assurer que les notes de bas de page ont bel et bien été enlevées. 
df.tail(177)

Unnamed: 0,HDI rank,Country Name,1975,1980,1985,1990,1995,2000,2005
2,3,Australia,0.851,0.868,0.880,0.894,0.934,0.949,0.962
3,4,Canada,0.873,0.888,0.911,0.931,0.936,0.946,0.961
4,5,Ireland,0.823,0.835,0.851,0.875,0.898,0.931,0.959
5,6,Sweden,0.872,0.882,0.893,0.904,0.935,0.952,0.956
6,7,Switzerland,0.883,0.895,0.902,0.915,0.926,0.946,0.955
...,...,...,...,...,...,...,...,...,...
174,173,Mali,0.245,0.268,0.272,0.296,0.321,0.352,0.380
175,174,Niger,0.246,0.264,0.261,0.279,0.296,0.321,0.374
176,175,Guinea-Bissau,0.267,0.271,0.300,0.322,0.350,0.365,0.374
177,176,Burkina Faso,0.257,0.280,0.305,0.321,0.337,0.353,0.370


In [9]:
# Définissons une nouvelle liste contenant les catégories de pays selon l'indice de développement humain 
hdi_categories = ["HIGH HUMAN DEVELOPMENT", "MEDIUM HUMAN DEVELOPMENT", "LOW HUMAN DEVELOPMENT"]

# Débarrassons-nous des rangées avec les catégories HDI
df = df.drop(df[df["HDI rank"].isin(hdi_categories)].index, axis=0).reset_index(drop=True)

# Référence pour np.where https://docs.scipy.org/doc/numpy/reference/generated/numpy.where.html

# Pensez que cela ressemble à une déclaration du type "if" : where(test est vrai, vrai-quelque chose, faux-quelque chose)
# ceci peut aussi être imbriqué : where(test is true, true-thing, where(new-test is true, true-thing, false-thing))
df.loc[:, "HDI category"] = np.where(df["HDI rank"] < 71,
                                     "HIGH HUMAN DEVELOPMENT",
                                     np.where(df["HDI rank"] < 156,
                                              "MEDIUM HUMAN DEVELOPMENT",
                                              "LOW HUMAN DEVELOPMENT"
                                             )
                                    )
df.sort_values(by="HDI rank", inplace=True)
df.head()

Unnamed: 0,HDI rank,Country Name,1975,1980,1985,1990,1995,2000,2005,HDI category
0,1,Iceland,0.868,0.89,0.899,0.918,0.923,0.947,0.968,HIGH HUMAN DEVELOPMENT
1,2,Norway,0.87,0.889,0.9,0.913,0.938,0.958,0.968,HIGH HUMAN DEVELOPMENT
2,3,Australia,0.851,0.868,0.88,0.894,0.934,0.949,0.962,HIGH HUMAN DEVELOPMENT
3,4,Canada,0.873,0.888,0.911,0.931,0.936,0.946,0.961,HIGH HUMAN DEVELOPMENT
4,5,Ireland,0.823,0.835,0.851,0.875,0.898,0.931,0.959,HIGH HUMAN DEVELOPMENT


In [10]:
id_columns = ['HDI rank', 'Country Name', 'HDI category']
year_columns = set(df.columns).difference(set(id_columns))

# https://pandas.pydata.org/docs/reference/api/pandas.melt.html
df = pd.melt(df, id_vars=id_columns, value_vars=year_columns,
             var_name='Years', value_name='Values')
df.head(30)

Unnamed: 0,HDI rank,Country Name,HDI category,Years,Values
0,1,Iceland,HIGH HUMAN DEVELOPMENT,1985,0.899
1,2,Norway,HIGH HUMAN DEVELOPMENT,1985,0.900
2,3,Australia,HIGH HUMAN DEVELOPMENT,1985,0.880
3,4,Canada,HIGH HUMAN DEVELOPMENT,1985,0.911
4,5,Ireland,HIGH HUMAN DEVELOPMENT,1985,0.851
5,6,Sweden,HIGH HUMAN DEVELOPMENT,1985,0.893
6,7,Switzerland,HIGH HUMAN DEVELOPMENT,1985,0.902
7,8,Japan,HIGH HUMAN DEVELOPMENT,1985,0.899
8,9,Netherlands,HIGH HUMAN DEVELOPMENT,1985,0.899
9,10,France,HIGH HUMAN DEVELOPMENT,1985,0.884


In [11]:
# Définissons un emplacement au fichier CSV produit et donnons-lui le nom Human-development-index-data   
destination = "C:/Users/Kparatiogo/Desktop/GAVIN_BOYERA/Human-development-index-data.csv"

# 'index=False' signifie que nous n'allons pas garder cette colonne d'index - elle sera recréée lorsque nous ouvrirons le fichier à l'avenir
df.to_csv(destination, index=False)

In [12]:
# Rassurons-nous que toutes les lignes à conserver ont bien été prises en compte
len(df)

1239

# THANK YOU SO MUCH !