# Eploration des données

In [4]:
# importation des packages nécessaires à l'exploration
import pandas as pd
import numpy as np
from pandas_profiling import ProfileReport

In [5]:
# attribution des fichiers csv à des variables
population = pd.read_csv('raw_datas/Population.csv')
region_country = pd.read_csv('raw_datas/RegionCountry.csv')
political_stability = pd.read_csv('raw_datas/PoliticalStability.csv')
mortality = pd.read_csv('raw_datas/MortalityRateAttributedToWater.csv')
drinking_water_service = pd.read_csv('raw_datas/BasicAndSafelyManagedDrinkingWaterServices.csv')

### Le fichier 'Population.csv'

In [6]:
# affichage des premières lignes de la table 'population'
population.head(10)

Unnamed: 0,Country,Granularity,Year,Population
0,Afghanistan,Total,2000,20779.953
1,Afghanistan,Male,2000,10689.508
2,Afghanistan,Female,2000,10090.449
3,Afghanistan,Rural,2000,15657.474
4,Afghanistan,Urban,2000,4436.282
5,Afghanistan,Total,2001,21606.988
6,Afghanistan,Male,2001,11117.754
7,Afghanistan,Female,2001,10489.238
8,Afghanistan,Rural,2001,16318.324
9,Afghanistan,Urban,2001,4648.139


Dans ce dataframe on va retrouver la population de chaque pays par année. On peut retrouver ces informations par sexe, par environnement (urbain ou rural), puis au total.

In [7]:
# affichage des dimensions de la table population
population.shape

(20914, 4)

In [8]:
# affichage des détails de la table population
population.describe(include='all')

Unnamed: 0,Country,Granularity,Year,Population
count,20914,20914,20914.0,20914.0
unique,239,5,,
top,Afghanistan,Total,,
freq,95,4430,,
mean,,,2009.046715,22531.64
std,,,5.479195,100016.9
min,,,2000.0,0.0
25%,,,2004.0,348.3462
50%,,,2009.0,3016.337
75%,,,2014.0,11150.43


In [9]:
population.dtypes

Country         object
Granularity     object
Year             int64
Population     float64
dtype: object

Ici on voit que l'on n'a pas de valeurs nulles (autant de valeurs dans chaques colonnes), on voit également que les années vont de 2000 à 2018, que l'on retrouve des informations sur 239 pays. On voit cependant que dans la colonnes population on a des valeurs à 0. On peut aller regarder cela de plus près

In [10]:
# ici nous créons la variable population_0 qui regroupe les information de population
# pour les pays pour lesquels une donnée de population est à 0
population_0 = population.loc[population['Population'] == 0].copy()
population_0.shape

(253, 4)

Sur les 20.914 lignes de notre table, on a 253 lignes avec une population à 0

In [11]:
population_0.describe(include='all')

Unnamed: 0,Country,Granularity,Year,Population
count,253,253,253.0,253.0
unique,14,2,,
top,Anguilla,Rural,,
freq,19,215,,
mean,,,2009.241107,0.0
std,,,5.467905,0.0
min,,,2000.0,0.0
25%,,,2005.0,0.0
50%,,,2009.0,0.0
75%,,,2014.0,0.0


Ici on voit que 14 pays sont concernés, et que seuls 2 niveaux de granularité sont concernés. 

In [12]:
# affichage de la liste des pays concernés
population_0['Country'].unique().tolist()

['Anguilla',
 'Bermuda',
 'Cayman Islands',
 'China, Hong Kong SAR',
 'China, Macao SAR',
 'Gibraltar',
 'Holy See',
 'Kuwait',
 'Monaco',
 'Nauru',
 'Singapore',
 'Sint Maarten  (Dutch part)',
 'Tokelau',
 'Wallis and Futuna Islands']

In [13]:
# affichage de la liste des niveaux de granularité concernés
population_0['Granularity'].unique().tolist()

['Rural', 'Urban']

Il est intéressant de remarquer que seuls les niveaux de granularité 'Rural' et 'Urban' sont concernés. Nous avons donc à disposition les donées de population totales et par sexe.

In [14]:
# affichage d'un échantillon de la table population_0
population_0.sample(5)

Unnamed: 0,Country,Granularity,Year,Population
10215,Kuwait,Rural,2008,0.0
8569,Holy See,Rural,2010,0.0
3954,"China, Hong Kong SAR",Rural,2014,0.0
7597,Gibraltar,Rural,2009,0.0
10250,Kuwait,Rural,2015,0.0


La question est de savoir s'il s'agit de valeurs manquantes ou non. En effet, si le pays en question n'est composé que de zones urbaines, il est normal qu'aucun habitant ne se trouve en zone rurale. Regardons cela de plus près.

In [15]:
# nous affichons les données de population de gibraltar pour l'année 2005
population.loc[(population['Country'] == 'Gibraltar') & (population['Year'] == 2005)]

Unnamed: 0,Country,Granularity,Year,Population
7584,Gibraltar,Total,2005,33.219
7585,Gibraltar,Rural,2005,0.0
7586,Gibraltar,Urban,2005,32.085


A première vue, pour le cas de Gibraltar, nous avons bien une population urbaine qui représente à peu de choses près la population totale du pays. Nous pouvons également réaliser une boucle afin de voir les résultats pour les différents pays pour lesquels il nous manque des donées de population.

In [16]:
# ici nous affectons à la variable list_0 la liste de pays concernés par des données de population à 0
list_0 = population_0['Country'].unique().tolist()

# nous réalisont ensuite une boucle qui nous affiche les données de chaque pays de la liste pour l'année 2005
for i in list_0:
    i = population.loc[(population['Country'] == i) & (population['Year'] == 2005)]
    display(i)
    print(" ")


Unnamed: 0,Country,Granularity,Year,Population
509,Anguilla,Total,2005,12.453
510,Anguilla,Rural,2005,0.0
511,Anguilla,Urban,2005,12.638


 


Unnamed: 0,Country,Granularity,Year,Population
1991,Bermuda,Total,2005,66.257
1992,Bermuda,Rural,2005,0.0
1993,Bermuda,Urban,2005,65.13


 


Unnamed: 0,Country,Granularity,Year,Population
3364,Cayman Islands,Total,2005,49.261
3365,Cayman Islands,Rural,2005,0.0
3366,Cayman Islands,Urban,2005,48.622


 


Unnamed: 0,Country,Granularity,Year,Population
3906,"China, Hong Kong SAR",Total,2005,6769.574
3907,"China, Hong Kong SAR",Male,2005,3252.142
3908,"China, Hong Kong SAR",Female,2005,3517.437
3909,"China, Hong Kong SAR",Rural,2005,0.0
3910,"China, Hong Kong SAR",Urban,2005,6827.761


 


Unnamed: 0,Country,Granularity,Year,Population
4001,"China, Macao SAR",Total,2005,482.858
4002,"China, Macao SAR",Male,2005,229.402
4003,"China, Macao SAR",Female,2005,253.461
4004,"China, Macao SAR",Rural,2005,0.0
4005,"China, Macao SAR",Urban,2005,482.559


 


Unnamed: 0,Country,Granularity,Year,Population
7584,Gibraltar,Total,2005,33.219
7585,Gibraltar,Rural,2005,0.0
7586,Gibraltar,Urban,2005,32.085


 


Unnamed: 0,Country,Granularity,Year,Population
8553,Holy See,Total,2005,0.798
8554,Holy See,Rural,2005,0.0
8555,Holy See,Urban,2005,0.798


 


Unnamed: 0,Country,Granularity,Year,Population
10197,Kuwait,Total,2005,2270.198
10198,Kuwait,Male,2005,1340.475
10199,Kuwait,Female,2005,929.721
10200,Kuwait,Rural,2005,0.0
10201,Kuwait,Urban,2005,2276.623


 


Unnamed: 0,Country,Granularity,Year,Population
12391,Monaco,Total,2005,33.843
12392,Monaco,Rural,2005,0.0
12393,Monaco,Urban,2005,33.793


 


Unnamed: 0,Country,Granularity,Year,Population
13045,Nauru,Total,2005,9.849
13046,Nauru,Rural,2005,0.0
13047,Nauru,Urban,2005,10.114


 


Unnamed: 0,Country,Granularity,Year,Population
17042,Singapore,Total,2005,4265.687
17043,Singapore,Male,2005,2156.06
17044,Singapore,Female,2005,2109.633
17045,Singapore,Rural,2005,0.0
17046,Singapore,Urban,2005,4491.042


 


Unnamed: 0,Country,Granularity,Year,Population


 


Unnamed: 0,Country,Granularity,Year,Population
18706,Tokelau,Total,2005,1.208
18707,Tokelau,Rural,2005,1.208
18708,Tokelau,Urban,2005,0.0


 


Unnamed: 0,Country,Granularity,Year,Population
20492,Wallis and Futuna Islands,Total,2005,14.939
20493,Wallis and Futuna Islands,Rural,2005,14.568
20494,Wallis and Futuna Islands,Urban,2005,0.0


 


Les résultats confirment notre hypothèse : lorsqu'il n'y a pas de données de population en zone rurale, c'est que tous les habitants se trouvent en zone urbaine, et inverseement. Il n'y a donc pas de modification à réaliser. Cependant, nous pouvons observer que les chiffres ne corresmondent pas toujours au total. Nous allons regarder cela plus en détail dans les prochaines lignes.

In [17]:
population_verif = population.loc[(population['Country'] == 'Afghanistan')&(population['Year'] == 2000)].copy()
population_verif

Unnamed: 0,Country,Granularity,Year,Population
0,Afghanistan,Total,2000,20779.953
1,Afghanistan,Male,2000,10689.508
2,Afghanistan,Female,2000,10090.449
3,Afghanistan,Rural,2000,15657.474
4,Afghanistan,Urban,2000,4436.282


On peut vérifier si, par exemple, pour l'Afghanistan, la somme des hommes et des femmes correspond bien au total, puis si la somme des habitants des zones urbaines et rurales correspond bien au total. 

In [18]:
total = np.round(population_verif.loc[population_verif['Granularity'] == 'Total', 'Population'],3)[0]
male_female = np.round(np.sum(population_verif.loc[(population_verif['Granularity']=='Male') | (population_verif['Granularity']=='Female'), 'Population']),3)
urban_rural = np.round(np.sum(population_verif.loc[(population_verif['Granularity'] == 'Rural') | (population_verif['Granularity'] == 'Urban'), 'Population']), 3)

print("Total :", total)
print("Male + Female :", male_female, "(", round(total - male_female, 3) ,")")
print("Rural + Urban :", urban_rural, "(", round(total - urban_rural, 3) ,")")

Total : 20779.953
Male + Female : 20779.957 ( -0.004 )
Rural + Urban : 20093.756 ( 686.197 )


On remarque que la somme des sexes correspond bien au total (à peu de choses près), mais que la somme de urban + rural ne correspond pas au total. 

Cela pourrait nous poser problème dans notre future analyse. 

Pour régler ce problème, nous pouvons faire la somme de urban et rural, puis calculer les pourcentage et les appliquer au total afin d'avoir des sommes cohérentes. Nous pouvons également réaliser cette opération pour les sexes afin d'être sûr qu'il n'y ait pas d'écarts.

Il est également possible de préciser lors de notre présentation que les sommes des population par sexe ne correspondent pas exactement aux sommes des population par environnement, tout en précisant que ce qui nous importe n'est pas le nombre d'habitant, mais plutôt la répartition entre hommes et femmes, puis entre habitants urbains et ruraux.

### Le fichier 'RegionCountry.csv'

In [19]:
# affichage des premières lignes
region_country.head(10)

Unnamed: 0,REGION (DISPLAY),COUNTRY (DISPLAY)
0,Europe,Albania
1,Europe,Andorra
2,Europe,Armenia
3,Western Pacific,Australia
4,Europe,Austria
5,Europe,Azerbaijan
6,Eastern Mediterranean,Bahrain
7,South-East Asia,Bangladesh
8,Europe,Belarus
9,Europe,Belgium


À première vue, ce tableau nous liste les différents pays, puis le continent associé. Nous pouvons noter que le nom des colonne peut être changé afin de faciliter l'écriture du code. 

In [20]:
# affichage des dimensions de la table region_country
region_country.shape

(194, 2)

In [21]:
# affichage des détails de la table region_country
region_country.describe()

Unnamed: 0,REGION (DISPLAY),COUNTRY (DISPLAY)
count,194,194
unique,6,194
top,Europe,Albania
freq,53,1


In [22]:
region_country.dtypes

REGION (DISPLAY)     object
COUNTRY (DISPLAY)    object
dtype: object

In [23]:
# affichage de la liste des régions
region_country['REGION (DISPLAY)'].unique().tolist()

['Europe',
 'Western Pacific',
 'Eastern Mediterranean',
 'South-East Asia',
 'Africa',
 'Americas']

In [24]:
# modification des noms de colonnes
region_country.rename(columns={'REGION (DISPLAY)': 'Region', 'COUNTRY (DISPLAY)' : 'County'}, inplace=True)
region_country.sample(5)

Unnamed: 0,Region,County
63,Europe,Malta
185,Africa,Togo
145,Africa,Guinea-Bissau
162,Africa,Mozambique
1,Europe,Andorra


### Le fichier 'PoliticalStability.csv'

In [25]:
political_stability.head(5)

Unnamed: 0,Country,Year,Political_Stability,Granularity
0,Afghanistan,2000,-2.44,Total
1,Afghanistan,2002,-2.04,Total
2,Afghanistan,2003,-2.2,Total
3,Afghanistan,2004,-2.3,Total
4,Afghanistan,2005,-2.07,Total


In [26]:
political_stability.shape

(3526, 4)

In [27]:
political_stability.describe(include='all')

Unnamed: 0,Country,Year,Political_Stability,Granularity
count,3526,3526.0,3526.0,3526
unique,200,,,1
top,Afghanistan,,,Total
freq,18,,,3526
mean,,2009.521838,-0.051044,
std,,5.255833,0.996039,
min,,2000.0,-3.31,
25%,,2005.0,-0.71,
50%,,2010.0,0.05,
75%,,2014.0,0.7975,


In [28]:
political_stability.dtypes

Country                 object
Year                     int64
Political_Stability    float64
Granularity             object
dtype: object

Dans cette table nous retrouvons des informations sur le pays, l'année et la stabilité politique. 

Il est intéressant de noter que jusqu'ici, toutes les tables analysées contienent une colonne 'Country', mais aucune n'a le même nombre de pays : 239 pays dans la table 'population', 194 pays dans la table 'region_country', puis 200 pays dans la table 'political stability'. Il serait intéressant de connaitre les pays dont nous n'avons pas les informations, afin d'éviter que cela pose problème lors de l'analyse et lors de la visualisation des données. 

Concernant la colonne 'Year', nous voyons que les années vont de 2000 à 2018, tout comme la table 'population'.

Nous remarquons que la colonne 'Granularity' ne contient qu'une seule variable : 'Total'. Cette colonne n'est donc pas nécessaire et peut être supprimée.

Concernant la stabilité politique, les données vont de -3,31 à 1,97. Il s'agit d'un indice. L'indice de stabilité politique mesure la probabilité que le gouvernement en place soit renversé, qu'il y ait des conflits au sein du pays (conflits armés, régionaux, ou encore religieux), que le pays connaisse des tensions à l'international, ou qu'il y ait un risque de terrorisme. Plus cet indice est faible, plus le risque est élevé. À l'inverse, plus l'indice est élevé, et plus le risque sera faible.

In [29]:
# cherchons après les pays ayant les coefficients les plus élevés et les plus faibles
mask = political_stability['Political_Stability']
political_stability.loc[(mask == mask.max()) | (mask == mask.min())]

Unnamed: 0,Country,Year,Political_Stability,Granularity
1320,Greenland,2016,1.97,Total
2936,Somalia,2009,-3.31,Total


On remarque ici que le pays avec l'indice de stabilité politique le plus élevé est le Groenland, et celui avec l'indice de staiblité politique le plus faible est la Somalie.

In [30]:
# supprimons la colonne 'Granularity'
political_stability.drop(columns='Granularity', inplace=True)

### Le fichier 'MortalityRateAttributedToWater.csv'

In [31]:
mortality.head(5)

Unnamed: 0,Year,Country,Granularity,Mortality rate attributed to exposure to unsafe WASH services,WASH deaths
0,2016,Afghanistan,Female,15.31193,
1,2016,Afghanistan,Male,12.61297,
2,2016,Afghanistan,Total,13.92067,4824.353
3,2016,Albania,Female,0.12552,
4,2016,Albania,Male,0.2065,


In [32]:
# affichage des dimensions de la table 'mortality'
mortality.shape

(549, 5)

In [33]:
# affichage des détails de la table 'mortality'
mortality.describe(include='all')

Unnamed: 0,Year,Country,Granularity,Mortality rate attributed to exposure to unsafe WASH services,WASH deaths
count,549.0,549,549,549.0,183.0
unique,,183,3,,
top,,Afghanistan,Female,,
freq,,3,183,,
mean,2016.0,,,12.493876,4756.097706
std,0.0,,,20.830508,21280.125369
min,2016.0,,,0.00396,0.08229
25%,2016.0,,,0.19296,11.163275
50%,2016.0,,,1.28871,130.9834
75%,2016.0,,,18.05478,1950.4335


Ici nous pouvons voir qu'il y a des valeurs manquantes dans la colonne 'WASH deaths'. En effet, dans les autres colonnes nous retrouvons 549 lignes, alors que seules 183 valeurs sont renseignées dans la colonne 'WASH deaths'

In [34]:
# vérification des types des variables
mortality.dtypes

Year                                                               int64
Country                                                           object
Granularity                                                       object
Mortality rate attributed to exposure to unsafe WASH services    float64
WASH deaths                                                      float64
dtype: object

Dans cette table, nous avons à disposition l'information sur le pays, (183 pays), sur l'année (uniquement 2016). Nous avons égalment une colnone granularité que nous regarderons plus en détail par la suite. Enfin nous avons un taux de mortalité, qui va de 0,003 à 107,048 ainsi qu'un nombre de décès qui va de 0,082 à 246.087,9. 

Ces deux derniers chiffres seront intéressant pour notre analyse. 

Concernant le taux de mortalité, l'unité de mesure n'est pas spécifiée dans le dictionnaire de données, mais nous pouvons nous douter que le taux de mortalité n'est pas indiqué pour cent habitants, car il n'est pas possible d'avoir un taux de mortalité supérieur à 100%. Après vérification sur le site de l'OMS, cet indicateur est donné pour 100.000 habitants. Le taux maximum de 107 représente donc 107 morts pour 100.000 habitants, soit un taux de mortalité de 0,107% du à l'utilisation de services WASH de mauvais qualité. 

Le nombre de decès peut également parraitre étrange, car le minimum est de 0,0822. Afin de vérifier cela, nous sommes allé vérifier le nombre de WASH deaths en 2016. Le National Institutes of Heath nous indique 829.000 WASH deaths en 2016. Nous allons donc faire la somme de la colonne WASH deaths :

In [35]:
# calcul de la somme des décès pour 2016
mortality['WASH deaths'].sum()

870365.88011

Nous voyons que nous obtenons un nombre qui se rapproche de celui avancé par le National Institutes of Health. Nous pouvons donc arrondir les nombre de la colonne en question à l'unité.

In [36]:
# arrondissons le nombre de décès à l'unité
mortality['WASH deaths'] = round(mortality['WASH deaths'],0)

Vérifions maintenant les différents niveaux de granularité

In [37]:
# affichage des différents niveaux de granularité
mortality['Granularity'].unique().tolist()

['Female', 'Male', 'Total']

Dans la colonne 'Granularity', nous avons l'information sur le sexe ainsi qu'une valeur 'Total'. 
Comme nous l'avons fait plus haut, prenons un pays au hasard et vérifions que la somme de 'Male' et 'Female' correspond bien au total.

In [38]:
# affichage des données pour la France
mortality.loc[mortality['Country']=='France']

Unnamed: 0,Year,Country,Granularity,Mortality rate attributed to exposure to unsafe WASH services,WASH deaths
177,2016,France,Female,0.32449,
178,2016,France,Male,0.2043,
179,2016,France,Total,0.26542,172.0


Nous pouvons remarquer que la colonne 'WASH deaths' n'est renseignée ici que pour la granularité 'Total'. 
Nous avons vu plus haut que seules 183 valeurs sur les 549 lignes étaient renseignées dans cette colonne. 183 étant le tiers de 549, il est possible que seule la granularité 'Total' contienne le nombre de décès. Vérifions cela : 

In [39]:
# vérifions qu'il n'y a pas de valeurs nulles pour la catégorie 'Total'
mortality.loc[mortality['Granularity'] == 'Total', 'WASH deaths'].isnull().any()


False

Cette formule nous renvoie 'False', ce qui signifie que la colonne 'WWASH deaths' ne contient pas de valeur nulle lorsque nous filtrons la granularité sur 'Total'. 
Nous pouvons essayer de faire l'inverse, en vérifiant si cette même colonne nous renvoie des valeurs non nulles lorsque la granularité est filtrée sur 'Male' ou 'Female'. Normalement le résultat devrait également être 'False'

In [40]:
# vérifions qu'il n'y ait pas de valeurs non-nulles pour les catégories 'Male' et 'Female'
print("Granularity = Male :", mortality.loc[mortality['Granularity'] == 'Male', 'WASH deaths'].notnull().any())
print("Granularity = Female :",mortality.loc[mortality['Granularity'] == 'Female', 'WASH deaths'].notnull().any())


Granularity = Male : False
Granularity = Female : False


In [41]:
# affichage des 5 pays ayany le nombre de décès le plus faible
mortality.sort_values('WASH deaths').head(5)

Unnamed: 0,Year,Country,Granularity,Mortality rate attributed to exposure to unsafe WASH services,WASH deaths
275,2016,Latvia,Total,0.0206,0.0
164,2016,Estonia,Total,0.00627,0.0
200,2016,Grenada,Total,0.34283,0.0
224,2016,Iceland,Total,0.10354,0.0
71,2016,Brunei Darussalam,Total,0.0452,0.0


### Le fichier 'BasicAndSafelyManagedDrinkingWaterServices.csv'

In [42]:
drinking_water_service.head(5)

Unnamed: 0,Year,Country,Granularity,Population using at least basic drinking-water services (%),Population using safely managed drinking-water services (%)
0,2000,Afghanistan,Rural,21.61913,
1,2000,Afghanistan,Total,27.7719,
2,2000,Afghanistan,Urban,49.48745,
3,2000,Albania,Rural,81.78472,
4,2000,Albania,Total,87.86662,49.29324


In [43]:
# affichage des dimensions de la table 'drinking_water_service'
drinking_water_service.shape

(10476, 5)

In [44]:
# affichage du détail de la table 'drinking_water_service'
drinking_water_service.describe(include='all')

Unnamed: 0,Year,Country,Granularity,Population using at least basic drinking-water services (%),Population using safely managed drinking-water services (%)
count,10476.0,10476,10476,9415.0,3286.0
unique,,194,3,,
top,,Afghanistan,Rural,,
freq,,54,3492,,
mean,2008.5,,,83.96212,66.070856
std,5.188375,,,19.968269,30.383942
min,2000.0,,,4.08262,0.0
25%,2004.0,,,75.928395,41.895583
50%,2008.5,,,93.1154,73.966655
75%,2013.0,,,98.95424,94.77664


Dans cette table nous avons une colonne qui nous renseigne l'année (de 2000 à 2017), un autre qui nous renseigne le pays (194 pays différents, dont 54 occurences de 'Afghanistan'), une colonne de granularité avec 3 niveaux de granularité différents que nous irons voir plus en détail par la suite. 

Nous avons également deux colonne qui contiennent un pourcentage. 
- Le premier est le taux d'accès aux services 'basic' ou supérieur (allant de 4% à 100%).
- Le second est le taux d'accès aux services 'safely managed' (allant de 0% à 100%). 

Ces deux niveaux de services font partie des 5 niveaux définis par le WASH system. 
Les 3 premiers niveaux étant : 
- eaux de surface, 
- services d'eaux non améliorées, 
- services d'eaux limité. 

Nous parlons de niveau de **service de base** (ou 'basic drniking-water service') lorsque l'eau provient d'une source améliorée située dans un rayon de 30 minutes de trajet aller/retour par rapport au domicile. 

Nous parlons de niveau de **service géré en toute sécurité** (ou 'safely managed drinking-water services') lorsque l'eau provient d'une source améliorée, disponible en cas de besoin et exempte de toute contamination d'origine fécale ou chimique.

Au niveaux des valeurs manquantes, nous voyons qu'il n'y a pas de données manquantes dans les colonnes 'Year', 'Country' et 'Granularity'. Cependant on voit qu'il n'y a pas le même nombre de données dans les deux dernières colonnes. Nous compterons par la suite le nombre de valeurs manquantes.

In [45]:
# vérification des types des variables
drinking_water_service.dtypes

Year                                                             int64
Country                                                         object
Granularity                                                     object
Population using at least basic drinking-water services (%)    float64
Population using safely managed drinking-water services (%)    float64
dtype: object

In [46]:
# affichage des différents nievaux de granularité
drinking_water_service['Granularity'].unique().tolist()

['Rural', 'Total', 'Urban']

Ici, les trois niveaux de granularité sont les suivants : 
- zone rurale
- zone urbaine
- total

Afin de faciliter la lecture, nous pouvons arrondir les pourcentages à deux chiffres après la virgule

In [47]:
drinking_water_service['Population using at least basic drinking-water services (%)'] = round(
    drinking_water_service['Population using at least basic drinking-water services (%)'],2)
drinking_water_service['Population using safely managed drinking-water services (%)'] = round(
    drinking_water_service['Population using safely managed drinking-water services (%)'], 2)

Regardons maintenant les valeurs nulles dans les deux dernières colonnes

In [48]:
drinking_water_service.isnull().sum()

Year                                                              0
Country                                                           0
Granularity                                                       0
Population using at least basic drinking-water services (%)    1061
Population using safely managed drinking-water services (%)    7190
dtype: int64

In [49]:
drinking_water_service.isnull().mean()

Year                                                           0.000000
Country                                                        0.000000
Granularity                                                    0.000000
Population using at least basic drinking-water services (%)    0.101279
Population using safely managed drinking-water services (%)    0.686331
dtype: float64

Concernant les valeurs nulles :
- la colonne 'basic' contient 1.061 valeurs nulles, ce qui correspond à 10% des valeurs
- la colonne 'safely managed' contient 7.190 valeurs nulles, ce qui correspond à 68% des valeurs

La question est de savoir pourquoi on retrouve ces valeurs nulles alors qu certains pays contienent des valeurs à 0,00.

### Jointure

### Export des fichiers d'analyse html

In [50]:
ProfileReport(population).to_file(output_file='population.html')

Summarize dataset:  40%|████      | 6/15 [00:03<00:09,  1.10s/it, scatter Year, Year]          

Summarize dataset: 100%|██████████| 17/17 [00:04<00:00,  3.41it/s, Completed]                     
Generate report structure: 100%|██████████| 1/1 [00:02<00:00,  2.55s/it]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  1.35it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 462.03it/s]


In [51]:
ProfileReport(region_country).to_file(output_file='region_country.html')
ProfileReport(political_stability).to_file(
    output_file='political_stability.html')
ProfileReport(mortality).to_file(output_file='mortality.html')
ProfileReport(drinking_water_service).to_file(
    output_file='drinking_water_service.html')


Summarize dataset: 100%|██████████| 11/11 [00:00<00:00, 21.59it/s, Completed]               
Generate report structure: 100%|██████████| 1/1 [00:00<00:00,  1.57it/s]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  7.61it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 273.53it/s]
Summarize dataset: 100%|██████████| 16/16 [00:01<00:00, 14.83it/s, Completed]                                      
Generate report structure: 100%|██████████| 1/1 [00:01<00:00,  1.62s/it]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  3.99it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 566.57it/s]
Summarize dataset: 100%|██████████| 18/18 [00:01<00:00, 15.18it/s, Completed]                                                                                                                          
Generate report structure: 100%|██████████| 1/1 [00:02<00:00,  2.15s/it]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  2.75it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:0

### Export des fichiers csv à utiliser pour la visualisation

In [54]:
population.to_csv('population.csv')
region_country.to_csv('region_country.csv')
political_stability.to_csv('political_stability.csv')
mortality.to_csv('mortality.csv')
drinking_water_service.to_csv('drinking_water_service.csv')