# Sommaire

- [1- Bibliothéque et fonctions](#1---Bibliothéque-et-fonction)
  * [1.1 - Disponibilité alimentaire](#1.1---Disponibilité-alimentaire)
    * [1.1.1 - Import](#1.1.1---Import)
    * [1.1.2 - Description](#1.1.2---Description)
    * [1.1.3 - Nettoyage et préparation.](#1.1.3---Nettoyage-et-préparation.)
    * [1.1.4 - Analyse univariée](#1.1.4---Analyse-univariée)
      * [Exportation](#Exportation)
      * [Importation](#Importation)
      * [Nourriture](#Nourriture)
      * [Production](#Production)
  * [1.2 - Population](#1.2---Population)
    * [1.2.1 - Import](#1.2.1---Import)
    * [1.2.2 - Description](#1.2.2---Description)
    * [1.2.3 - Nettoyage et préparation.](#1.2.3---Nettoyage-et-préparation.)
    * [1.2.4 - Analyse univariée](#1.2.4---Analyse-univariée)
      * [Population](#Population)
  * [1.3 - Stabilité Politique](#1.3---Stabilité-Politique)
    * [1.3.1 - Import](#1.3.1---Import)
    * [1.3.2 - Description](#1.3.2---Description)
    * [1.3.3 - Nettoyage et préparation](#1.3.3---Nettoyage-et-préparation)
    * [1.3.4 - Analyse univariée](#1.3.4---Analyse-univariée)
      * [Stabilité politique](#Stabilité-politique)
  * [1.4 - ISO3](#1.4---ISO3)
    * [1.4.1 - Import](#1.4.1---Import)
    * [1.4.2 - Description](#1.4.2---Description)
    * [1.4.3 - Nettoyage et préparation](#1.4.3---Nettoyage-et-préparation)
  * [1.5 - Doing Business](#1.5---Doing-Business)
    * [1.5.1 - Import](#1.5.1---Import)
    * [1.5.2 - Description](#1.5.2---Description)
    * [1.5.3 - Nettoyage et préparation](#1.5.3---Nettoyage-et-préparation)
    * [1.5.4 - Analyse univariée](#1.5.4---Analyse-univariée)
      * [Facilité du Business](#Facilité-du-Business)
  * [1.6 - Distance](#1.6---Distance)
    * [1.6.1 - Import](#1.6.1---Import)
    * [1.6.2 - Description](#1.6.2---Description)
    * [1.6.3 - Nettoyage et préparation](#1.6.3---Nettoyage-et-préparation)
    * [1.6.4 - Analyse univariée](#1.6.4---Analyse-univariée)
      * [distance](#distance)
- [2 - Merge](#2---Merge)
  * [2.1 - "Disponibilité alimentaire" + "Population"](#2.1---"Disponibilité-alimentaire"-+-"Population")
  * [2.2 - 'df' + "Stabilité Politique"](#2.2---Ajout-de-la-"Stabilité-Politique")
  * [2.3 -  df' + 'ISO 3'](#2.3---Ajout-du-code-ISO-3)
  * [2.4 - 'df' + 'facilité du business'](#2.4---Ajout-du-score-sur-facilité-du-business)
  * [2.5 - 'df' + 'distance'](#2.5---Ajout-du-paramètre-distance)

# 1- Bibliothéque et fonctions

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.figure_factory as ff

In [2]:
# Fonction analyse multivarié
def analyse_univarie(df, col, nbins, log_y, titre, titre_axex):
    count = df[col].count()
    moyenne = df[col].mean()
    ecart_type = df[col].std()
    mediane = df[col].median()
    valeur_max = df[col].max()
    valeur_min = df[col].min()
    quantile_25_pourcent = df[col].quantile(0.25)
    quantile_75_pourcent = df[col].quantile(0.75)
    mode = df[col].mode().max()

    print("Description rapide")
    print("--------------")
    print("Count :                      ",round(count,2)) 
    print("Moyenne :                    ",round(moyenne,2)) 
    print("Ecart type :                 ",round(ecart_type,2)) 
    print("\n")
    print("Minimum :                    ",round(valeur_min,2))
    print("Quantile 25 % :              ",round(quantile_25_pourcent,2))
    print("Médiane :                    ",round(mediane,2))
    print("Quantile 75 % :              ",round(quantile_75_pourcent,2))
    print("Maximum :                    ",round(valeur_max,2))
    print("\n")
    print("Valeur la plus représentée : ",round(mode,2))
    print("\n")
    print("--------------")
   

    fig = px.histogram(df, 
                       x = col, 
                       nbins = nbins, 
                       log_y= log_y,
                       marginal = "box", 
                       height = 540)

    fig.update_layout(
        template = 'plotly_dark',
        title = titre,
        xaxis_title = titre_axex,
        yaxis_title = 'Count')
    
    fig.update_xaxes(showline=True, linewidth=1,linecolor='#E0E2E5')
    
    fig.show()
    
    print("--------------------")
    print("Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.")
    print(f"Skewness: {df[col].skew()}")
    print(f"Kurtosis: {df[col].kurt()}")
    print("--------------------")

# 2 - Import des données

On va importer les différentes tables de données suivantes pour chaque pays : 
4 sources de données que j'ai reçu de votre part plus 2 sources externes que j'ai choisi pour compléter mon analyse:
- La disponibilité alimentaire
- La population 
- La stabilité politique 
- Le code ISO 3, c'est la norme de codification des pays. 
- La facilité à faire du business (source : https://databank.worldbank.org/source/doing-business)
- La distance entre les pays. C'est une distance qui tient compte de la dispersion de la population dans le pays (source : http://www.cepii.fr/CEPII/en/bdd_modele/bdd_modele_item.asp?id=6)

## 2.1 - Disponibilité alimentaire
### 2.1.1 - Import 

In [3]:
dispo_alim = pd.read_csv(r"C:\Users\imadk\Downloads\DAN-P9-data\DAN-P9-data\DisponibiliteAlimentaire_2017.csv", sep=',')
dispo_alim

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
0,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5511,Production,2511,Blé et produits,2017,2017,Milliers de tonnes,4281.00,S,Données standardisées
1,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5611,Importations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,2302.00,S,Données standardisées
2,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5072,Variation de stock,2511,Blé et produits,2017,2017,Milliers de tonnes,-119.00,S,Données standardisées
3,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5911,Exportations - Quantité,2511,Blé et produits,2017,2017,Milliers de tonnes,0.00,S,Données standardisées
4,FBS,Nouveaux Bilans Alimentaire,2,Afghanistan,5301,Disponibilité intérieure,2511,Blé et produits,2017,2017,Milliers de tonnes,6701.00,S,Données standardisées
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
176595,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,5142,Nourriture,2899,Miscellanees,2017,2017,Milliers de tonnes,19.00,S,Données standardisées
176596,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,645,Disponibilité alimentaire en quantité (kg/pers...,2899,Miscellanees,2017,2017,kg,1.33,Fc,Donnée calculée
176597,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,664,Disponibilité alimentaire (Kcal/personne/jour),2899,Miscellanees,2017,2017,Kcal/personne/jour,1.00,Fc,Donnée calculée
176598,FBS,Nouveaux Bilans Alimentaire,181,Zimbabwe,674,Disponibilité de protéines en quantité (g/pers...,2899,Miscellanees,2017,2017,g/personne/jour,0.04,Fc,Donnée calculée


### 2.1.2 - Description
- On commence par voir en détail notre jeu de données et les variables qu'il contient

In [4]:
dispo_alim.describe(include='all')

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole
count,176600,176600,176600.0,176600,176600.0,176600,176600.0,176600,176600.0,176600.0,176600,176600.0,176600,176600
unique,1,1,,174,,17,,98,,,4,,2,2
top,FBS,Nouveaux Bilans Alimentaire,,Tchad,,Disponibilité intérieure,,Maïs et produits,,,Milliers de tonnes,,S,Données standardisées
freq,176600,176600,,1416,,15905,,2593,,,118487,,118487,118487
mean,,,125.47474,,3810.052894,,2628.778545,,2017.0,2017.0,,210.554918,,
std,,,72.941699,,2211.790089,,91.993247,,0.0,0.0,,4762.047787,,
min,,,1.0,,645.0,,2511.0,,2017.0,2017.0,,-10388.0,,
25%,,,63.0,,684.0,,2556.0,,2017.0,2017.0,,0.0,,
50%,,,120.0,,5142.0,,2612.0,,2017.0,2017.0,,0.12,,
75%,,,188.0,,5301.0,,2732.0,,2017.0,2017.0,,8.4625,,


In [5]:
dispo_alim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176600 entries, 0 to 176599
Data columns (total 14 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Code Domaine            176600 non-null  object 
 1   Domaine                 176600 non-null  object 
 2   Code zone               176600 non-null  int64  
 3   Zone                    176600 non-null  object 
 4   Code Élément            176600 non-null  int64  
 5   Élément                 176600 non-null  object 
 6   Code Produit            176600 non-null  int64  
 7   Produit                 176600 non-null  object 
 8   Code année              176600 non-null  int64  
 9   Année                   176600 non-null  int64  
 10  Unité                   176600 non-null  object 
 11  Valeur                  176600 non-null  float64
 12  Symbole                 176600 non-null  object 
 13  Description du Symbole  176600 non-null  object 
dtypes: float64(1), int64

- On remarque qu'on a des variables qui sont des constantes c'est le cas de **Code domaine** ou de **Année** par exemple. 
- On remarque aussi qu'il y a beaucoup de données liées entre elles, comme **Code élément** et **Élément**, on supprimera les variables de type Code.
- Les colonnes **Élément** et **Valeur** contiennent différentes variables comme l'exportation, l'importation... On fera un pivot de ces colonnes
- On a aussi des variables inutiles qu'on va supprimé.

### 2.1.3 - Nettoyage et préparation. 
- On va tout d'abord voir s'il y a des doublons.

In [6]:
dispo_alim.duplicated().sum()

0

- Il n'y a pas de doublon.
- On procéde aux opérations citer auparavant

In [7]:
dispo_alim = dispo_alim.pivot_table(index=['Zone','Produit'], 
                                    columns='Élément', 
                                    values='Valeur', 
                                    fill_value=0)
# Les colonnes Produit et zone sont transformées en index par la méthode pivot_table. On les retransforme en colonnes
dispo_alim.reset_index(inplace= True)
# On filtre la colonne produit pour ne garder que les données concernant la viande de volailles
dispo_alim = dispo_alim[dispo_alim['Produit'] == 'Viande de Volailles']
# On garde les colonnes utiles
dispo_alim = dispo_alim[['Zone', 
                        'Exportations - Quantité', 
                        'Importations - Quantité', 
                        'Nourriture', 
                        'Production']]
# renommer les colonnes
dispo_alim.rename(columns={'Exportations - Quantité': 'Exportations Volailles (en milliers tonnes)',
                            'Importations - Quantité': 'Importations Volailles (en milliers tonnes)',
                            'Nourriture' : 'Nourritures (en milliers tonnes)',
                            'Production' : 'Productions Volailles (en milliers tonnes)'}, 
                            inplace=True)

dispo_alim

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
78,Afghanistan,0,29,55,28
173,Afrique du Sud,63,514,2035,1667
265,Albanie,0,38,47,13
357,Algérie,0,2,264,275
452,Allemagne,646,842,1609,1514
...,...,...,...,...,...
15668,Émirats arabes unis,94,433,412,48
15765,Équateur,0,0,324,340
15860,États-Unis d'Amérique,3692,123,18100,21914
15954,Éthiopie,0,1,14,14


- Maintenant que notre dataset est propre, on va regarder les variables dans le détail.

### 2.1.4 - Analyse univariée
- Ici, on va s'intéresser plus particulièrement à chacune des variables.

#### Exportation

- On réalise une description rapide.

In [8]:
analyse_univarie(dispo_alim, 'Exportations Volailles (en milliers tonnes)', 50, False, 'Dispersion des exportations', 'Exportations Vollailes (en milliers de tonnes)')

Description rapide
--------------
Count :                       172
Moyenne :                     103.75
Ecart type :                  458.07


Minimum :                     0
Quantile 25 % :               0.0
Médiane :                     0.0
Quantile 75 % :               12.0
Maximum :                     4223


Valeur la plus représentée :  0


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 7.3912924275999625
Kurtosis: 59.95692289814235
--------------------


- On voit que la grande partie des pays exporte peu de poulet entre **0** et **100 000 tonnes**, mais il y a quelques pays qui exportent plus de **1 000 000 tonnes** de poulet. Quels sont ces pays ?

In [9]:
dispo_alim[dispo_alim['Exportations Volailles (en milliers tonnes)'] > 1000 ]

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
2073,Brésil,4223,3,9982,14201
11036,Pays-Bas,1418,608,346,1100
11227,Pologne,1025,55,1150,2351
15860,États-Unis d'Amérique,3692,123,18100,21914


- D'après le tableau précedent on a maintenant **les 4 pays** qui exportent le plus de viande de volaille au monde.

#### Importation

- On réalise une description rapide.

In [10]:
analyse_univarie(dispo_alim, 'Importations Volailles (en milliers tonnes)', 50, False, 'Dispersions des importations', 'Importations Vollailes (en milliers tonnes)')

Description rapide
--------------
Count :                       172
Moyenne :                     88.49
Ecart type :                  185.82


Minimum :                     0
Quantile 25 % :               3.0
Médiane :                     16.0
Quantile 75 % :               79.75
Maximum :                     1069


Valeur la plus représentée :  0


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 3.3389744604199065
Kurtosis: 11.66500629821301
--------------------


- On peut voir qu'une grande partie des pays importe moins de **400 000 tonnes** de poulet, mais que quelques pays importe plus de **400 000 tonnes** . 
- On va voir maintenant quels sont ces pays qui importent plus de poulet que les autres.

In [11]:
dispo_alim[dispo_alim['Importations Volailles (en milliers tonnes)'] > 400 ]

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
173,Afrique du Sud,63,514,2035,1667
452,Allemagne,646,842,1609,1514
735,Arabie saoudite,10,722,1435,616
3014,Chine - RAS de Hong-Kong,663,907,391,24
3298,"Chine, continentale",576,452,17518,18236
4898,France,501,506,1485,1750
6572,Iraq,0,470,561,96
7143,Japon,10,1069,2359,2215
9259,Mexique,9,972,4058,3249
11036,Pays-Bas,1418,608,346,1100


- On a **12 pays** qui importent le plus de viande de volaille au monde.

#### Nourriture

In [12]:
analyse_univarie(dispo_alim, 'Nourritures (en milliers tonnes)', 50, False, 'Dispersion de la nourriture', 'Nourritures (en milliers tonnes)')

Description rapide
--------------
Count :                       172
Moyenne :                     649.41
Ecart type :                  2125.19


Minimum :                     0
Quantile 25 % :               27.5
Médiane :                     94.5
Quantile 75 % :               353.75
Maximum :                     18100


Valeur la plus représentée :  3


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 6.803898376356385
Kurtosis: 50.90548081760291
--------------------


- La grande majorité des pays utilise moins de **2 millions de tonnes** de viande de volaille pour nourrir la population. 
- Mais ça n'empêche pas que quelques pays on utilise plus.

In [13]:
dispo_alim[dispo_alim['Nourritures (en milliers tonnes)'] > 2000 ]

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
173,Afrique du Sud,63,514,2035,1667
2073,Brésil,4223,3,9982,14201
3298,"Chine, continentale",576,452,17518,18236
4993,Fédération de Russie,115,226,4509,4444
6289,Inde,4,0,2965,3545
6478,Iran (République islamique d'),45,6,2220,2174
7143,Japon,10,1069,2359,2215
9259,Mexique,9,972,4058,3249
11696,Royaume-Uni de Grande-Bretagne et d'Irlande du...,359,779,2131,1814
15860,États-Unis d'Amérique,3692,123,18100,21914


- On retrouve parmi les **10 pays** qui utilisent **le plus de viande de volaille** pour nourrir leurs populations sont **les pays les plus peuplés**. 
- Ce qui sera intéressant ici  c'est d'avoir **le ratio entre le nombre de nourriture disponible pour la population et la population du pays**

#### Production

In [14]:
analyse_univarie(dispo_alim, 'Productions Volailles (en milliers tonnes)', 50, False, 'Dispersion de la production', 'Productions Volailles (en milliers tonnes)')

Description rapide
--------------
Count :                       172
Moyenne :                     708.33
Ecart type :                  2474.46


Minimum :                     0
Quantile 25 % :               11.0
Médiane :                     66.0
Quantile 75 % :               368.75
Maximum :                     21914


Valeur la plus représentée :  0


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 6.8198812530837705
Kurtosis: 50.277322011953345
--------------------


- La plupart des pays produisent moins de **2,5 millions de tonnes** de viande de volaille. 
- Mais quelques pays en produits jusqu'à **21 millions de tonnes**.

In [15]:
dispo_alim[dispo_alim['Productions Volailles (en milliers tonnes)'] > 2500 ]

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
2073,Brésil,4223,3,9982,14201
3298,"Chine, continentale",576,452,17518,18236
4993,Fédération de Russie,115,226,4509,4444
6289,Inde,4,0,2965,3545
9259,Mexique,9,972,4058,3249
15860,États-Unis d'Amérique,3692,123,18100,21914


- On retrouve **les mêmes pays qui ont une grande population à nourrir** et qui utilise aussi **beaucoup de disponibilité pour la nourriture** de leur population. 
- Certains de ces pays en **profitent pour faire de l'exportation et d'autres pas du tout**.

In [16]:
dispo_alim

Élément,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes)
78,Afghanistan,0,29,55,28
173,Afrique du Sud,63,514,2035,1667
265,Albanie,0,38,47,13
357,Algérie,0,2,264,275
452,Allemagne,646,842,1609,1514
...,...,...,...,...,...
15668,Émirats arabes unis,94,433,412,48
15765,Équateur,0,0,324,340
15860,États-Unis d'Amérique,3692,123,18100,21914
15954,Éthiopie,0,1,14,14


## 2.2 - Population
### 2.2.1 - Import

In [17]:
population = pd.read_csv(r"C:\Users\imadk\Downloads\DAN-P9-data\DAN-P9-data\Population_2000_2018.csv", sep=',')
population

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2000,2000,1000 personnes,20779.953,X,Sources internationales sûres,
1,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2001,2001,1000 personnes,21606.988,X,Sources internationales sûres,
2,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2002,2002,1000 personnes,22600.770,X,Sources internationales sûres,
3,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2003,2003,1000 personnes,23680.871,X,Sources internationales sûres,
4,OA,Séries temporelles annuelles,2,Afghanistan,511,Population totale,3010,Population-Estimations,2004,2004,1000 personnes,24726.684,X,Sources internationales sûres,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4406,OA,Séries temporelles annuelles,181,Zimbabwe,511,Population totale,3010,Population-Estimations,2014,2014,1000 personnes,13586.707,X,Sources internationales sûres,
4407,OA,Séries temporelles annuelles,181,Zimbabwe,511,Population totale,3010,Population-Estimations,2015,2015,1000 personnes,13814.629,X,Sources internationales sûres,
4408,OA,Séries temporelles annuelles,181,Zimbabwe,511,Population totale,3010,Population-Estimations,2016,2016,1000 personnes,14030.331,X,Sources internationales sûres,
4409,OA,Séries temporelles annuelles,181,Zimbabwe,511,Population totale,3010,Population-Estimations,2017,2017,1000 personnes,14236.595,X,Sources internationales sûres,


### 2.2.2 - Description
- Ici, on va voir en détail un petit peu, notre jeu de données et les variables qu'il contient

In [18]:
population.describe(include='all')

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
count,4411,4411,4411.0,4411,4411.0,4411,4411.0,4411,4411.0,4411.0,4411,4411.0,4411,4411,258
unique,1,1,,238,,1,,1,,,1,,2,2,1
top,OA,Séries temporelles annuelles,,Afghanistan,,Population totale,,Population-Estimations,,,1000 personnes,,X,Sources internationales sûres,"UNDESA, Population Division – World Population..."
freq,4411,4411,,19,,4411,,4411,,,4411,,4374,4374,258
mean,,,132.202902,,511.0,,3010.0,,2009.068238,2009.068238,,29630.04,,,
std,,,75.85484,,0.0,,0.0,,5.481539,5.481539,,123802.9,,,
min,,,1.0,,511.0,,3010.0,,2000.0,2000.0,,0.785,,,
25%,,,68.0,,511.0,,3010.0,,2004.0,2004.0,,392.189,,,
50%,,,132.0,,511.0,,3010.0,,2009.0,2009.0,,4764.741,,,
75%,,,195.0,,511.0,,3010.0,,2014.0,2014.0,,18215.48,,,


In [19]:
population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4411 entries, 0 to 4410
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            4411 non-null   object 
 1   Domaine                 4411 non-null   object 
 2   Code zone               4411 non-null   int64  
 3   Zone                    4411 non-null   object 
 4   Code Élément            4411 non-null   int64  
 5   Élément                 4411 non-null   object 
 6   Code Produit            4411 non-null   int64  
 7   Produit                 4411 non-null   object 
 8   Code année              4411 non-null   int64  
 9   Année                   4411 non-null   int64  
 10  Unité                   4411 non-null   object 
 11  Valeur                  4411 non-null   float64
 12  Symbole                 4411 non-null   object 
 13  Description du Symbole  4411 non-null   object 
 14  Note                    258 non-null    

- On a la colonne **Année** qu'on va filtrer sur **2017.**
- On a la colonne **Valeur** qui représente le nombre de la **population en milliers.**
- On a aussi des colonnes inutiles qu'on va supprimées. 

### 2.2.3 - Nettoyage et préparation.
- On va tout d'abord voir s'il y a des doublons

In [20]:
population.duplicated().sum()

0

- Il n'y a pas de doublon.

In [21]:
# pivot de la table 
population = population.pivot_table(index=['Zone'], 
                                    columns='Année', 
                                    values='Valeur', 
                                    fill_value=0,) #Remplace les Nan en 0
# La colonne zone est transformée en index par la méthode pivot_table. On la retransforme en colonne
population.reset_index(inplace= True)
# On filtre la colonne zone pour ne garder que les données concernant l'année 2017
population = population[['Zone', 2017]]
# renommer la colonne 2017
population.rename(columns={2017: "Population en 2017 (milliers de personnes)"}, inplace=True)
population

Année,Zone,Population en 2017 (milliers de personnes)
0,Afghanistan,36296.113
1,Afrique du Sud,57009.756
2,Albanie,2884.169
3,Algérie,41389.189
4,Allemagne,82658.409
...,...,...
233,Îles Salomon,636.039
234,Îles Turques-et-Caïques,37.115
235,Îles Vierges américaines,104.751
236,Îles Vierges britanniques,29.577


- Maintenant que notre dataframe est propre, on va regarder les variables dans le détail.

### 2.2.4 - Analyse univariée
#### Population

In [22]:
analyse_univarie(population, 'Population en 2017 (milliers de personnes)', 50, False, 'Dispersion de la population', 'Population en 2017 (milliers de personnes)')

Description rapide
--------------
Count :                       238
Moyenne :                     31714.85
Ecart type :                  131369.77


Minimum :                     0.0
Quantile 25 % :               375.81
Médiane :                     5030.32
Quantile 75 % :               19023.03
Maximum :                     1421021.79


Valeur la plus représentée :  0.0


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 9.328329313879022
Kurtosis: 93.68920524061015
--------------------


- On a des pays avec le nombre de population élevé.

In [23]:
# Renvoyer les 10 premières lignes avec les plus grandes valeurs dans la colonne 'Population 2017 (millier de personne)', dans ordre décroissant
# Cette méthode est équivalente à df.sort_values() mais plus performante
population.nlargest(n=10, columns=['Population en 2017 (milliers de personnes)'])

Année,Zone,Population en 2017 (milliers de personnes)
44,"Chine, continentale",1421021.791
84,Inde,1338676.785
223,États-Unis d'Amérique,325084.756
85,Indonésie,264650.963
141,Pakistan,207906.209
30,Brésil,207833.823
132,Nigéria,190873.244
19,Bangladesh,159685.424
64,Fédération de Russie,145530.082
93,Japon,127502.725


- On a **10 pays** les plus peuplés du monde.

## 2.3 - Stabilité Politique
### 2.3.1 - Import

In [24]:
political_stability=pd.read_csv(r"C:\Users\imadk\Downloads\DAN-P9-data\DAN-P9-data\FAOSTAT_data_fr_3-30-2023.csv", sep=',')
political_stability

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
0,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2000,2000,indice,-2.44,X,Ciffre de sources internationales,
1,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2002,2002,indice,-2.04,X,Ciffre de sources internationales,
2,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2003,2003,indice,-2.20,X,Ciffre de sources internationales,
3,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2004,2004,indice,-2.30,X,Ciffre de sources internationales,
4,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2005,2005,indice,-2.07,X,Ciffre de sources internationales,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3903,FS,Données de la sécurité alimentaire,181,Zimbabwe,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2016,2016,indice,-0.62,X,Ciffre de sources internationales,
3904,FS,Données de la sécurité alimentaire,181,Zimbabwe,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-0.71,X,Ciffre de sources internationales,
3905,FS,Données de la sécurité alimentaire,181,Zimbabwe,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2018,2018,indice,-0.72,X,Ciffre de sources internationales,
3906,FS,Données de la sécurité alimentaire,181,Zimbabwe,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2019,2019,indice,-0.96,X,Ciffre de sources internationales,


In [25]:
political_stability.describe(include= 'all')

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
count,3908,3908,3908.0,3908,3908.0,3908,3908.0,3908,3908.0,3908.0,3908,3908.0,3908,3908,0.0
unique,1,1,,199,,1,,1,,,1,,1,1,
top,FS,Données de la sécurité alimentaire,,Afghanistan,,Valeur,,Stabilité politique et absence de violence/ter...,,,indice,,X,Ciffre de sources internationales,
freq,3908,3908,,20,,3908,,3908,,,3908,,3908,3908,
mean,,,127.986438,,6125.0,,21032.0,,2010.542733,2010.542733,,-0.05,,,
std,,,75.020769,,0.0,,0.0,,5.827217,5.827217,,0.997415,,,
min,,,1.0,,6125.0,,21032.0,,2000.0,2000.0,,-3.31,,,
25%,,,61.0,,6125.0,,21032.0,,2006.0,2006.0,,-0.71,,,
50%,,,127.0,,6125.0,,21032.0,,2011.0,2011.0,,0.055,,,
75%,,,193.0,,6125.0,,21032.0,,2016.0,2016.0,,0.8,,,


In [26]:
political_stability.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3908 entries, 0 to 3907
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            3908 non-null   object 
 1   Domaine                 3908 non-null   object 
 2   Code zone               3908 non-null   int64  
 3   Zone                    3908 non-null   object 
 4   Code Élément            3908 non-null   int64  
 5   Élément                 3908 non-null   object 
 6   Code Produit            3908 non-null   int64  
 7   Produit                 3908 non-null   object 
 8   Code année              3908 non-null   int64  
 9   Année                   3908 non-null   int64  
 10  Unité                   3908 non-null   object 
 11  Valeur                  3908 non-null   float64
 12  Symbole                 3908 non-null   object 
 13  Description du Symbole  3908 non-null   object 
 14  Note                    0 non-null      

- On a colonne **Zone** qui repésente le **nom du pays** qui sera la clé de liaison.
- On a la colonne **Année** qu'on va filtrer sur l'année **2017.**
- On a la colonne **Valeur** qui représente **l'indice de la stabilité politique.**
- On a aussi plusieurs colonnes inutiles qu'on supprimera.

### 2.3.2 - Nettoyage et préparation

In [27]:
# On filtre la colonne 'Année' pour ne garder que les données de 2017
political_stability = political_stability.loc[political_stability['Année']== 2017]
political_stability

Unnamed: 0,Code Domaine,Domaine,Code zone,Zone,Code Élément,Élément,Code Produit,Produit,Code année,Année,Unité,Valeur,Symbole,Description du Symbole,Note
16,FS,Données de la sécurité alimentaire,2,Afghanistan,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-2.80,X,Ciffre de sources internationales,
36,FS,Données de la sécurité alimentaire,202,Afrique du Sud,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-0.28,X,Ciffre de sources internationales,
56,FS,Données de la sécurité alimentaire,3,Albanie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,0.38,X,Ciffre de sources internationales,
76,FS,Données de la sécurité alimentaire,4,Algérie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-0.92,X,Ciffre de sources internationales,
96,FS,Données de la sécurité alimentaire,79,Allemagne,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,0.59,X,Ciffre de sources internationales,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3824,FS,Données de la sécurité alimentaire,236,Venezuela (République bolivarienne du),6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-1.27,X,Ciffre de sources internationales,
3844,FS,Données de la sécurité alimentaire,237,Viet Nam,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,0.23,X,Ciffre de sources internationales,
3864,FS,Données de la sécurité alimentaire,249,Yémen,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,-2.94,X,Ciffre de sources internationales,
3884,FS,Données de la sécurité alimentaire,251,Zambie,6125,Valeur,21032,Stabilité politique et absence de violence/ter...,2017,2017,indice,0.15,X,Ciffre de sources internationales,


- On va tout d'abord voir s'il y a des doublons

In [28]:
political_stability.duplicated().sum()

0

- Il n'y a aucun doublon

In [29]:
# On garde les colonnes 'Zone' et 'Année'
political_stability = political_stability[['Zone', 'Valeur']].copy()
# On renomme la colonne 'Valeur'
political_stability.rename(columns={'Valeur' : 'Stabilité politique'}, inplace=True)

political_stability

Unnamed: 0,Zone,Stabilité politique
16,Afghanistan,-2.80
36,Afrique du Sud,-0.28
56,Albanie,0.38
76,Algérie,-0.92
96,Allemagne,0.59
...,...,...
3824,Venezuela (République bolivarienne du),-1.27
3844,Viet Nam,0.23
3864,Yémen,-2.94
3884,Zambie,0.15


- Maintenant que notre dataframe est propre, on va regarder les variables dans le détail.

### 2.3.3 - Analyse univariée
#### Stabilité politique

In [30]:
analyse_univarie(political_stability, 'Stabilité politique', 50, False, 'Dispersion de la stabilité politique', 'Stabilité Politique')

Description rapide
--------------
Count :                       197
Moyenne :                     -0.06
Ecart type :                  0.99


Minimum :                     -2.94
Quantile 25 % :               -0.65
Médiane :                     0.04
Quantile 75 % :               0.77
Maximum :                     1.92


Valeur la plus représentée :  0.87


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: -0.672368084877596
Kurtosis: 0.06484930155904367
--------------------


- On a **une asymétrie négative** qui nous indique que l'**on a plus de pays avec une note positive que négative**.

## 2.4 - ISO3
### 2.4.1 - Import

In [31]:
iso3 = pd.read_csv(r"C:\Users\imadk\Downloads\DAN-P9-data\DAN-P9-data\FAOSTAT_data_3-30-2023.csv", sep=',')
iso3

Unnamed: 0,Code Groupe de pays,Groupe de pays,Code Pays,Pays,Code M49,Code ISO2,Code ISO3
0,5100,Afrique,616,"Afrique de l'Ouest, non spécifié",875.0,F616,F616
1,5100,Afrique,202,Afrique du Sud,710.0,ZA,ZAF
2,5100,Afrique,4,Algérie,12.0,DZ,DZA
3,5100,Afrique,7,Angola,24.0,AO,AGO
4,5100,Afrique,24,Archipel des Chagos,86.0,IO,IOT
...,...,...,...,...,...,...,...
1952,5828,"Western Asia (exc. Armenia, Azerbaijan, Cyprus...",299,Palestine,275.0,F299,PSE
1953,5828,"Western Asia (exc. Armenia, Azerbaijan, Cyprus...",179,Qatar,634.0,QA,QAT
1954,5828,"Western Asia (exc. Armenia, Azerbaijan, Cyprus...",212,République arabe syrienne,760.0,SY,SYR
1955,5828,"Western Asia (exc. Armenia, Azerbaijan, Cyprus...",223,Turquie,792.0,TR,TUR


### 2.4.2 - Description
- Ici, on va voir en détail  notre jeu de données et les variables qu'il contient.

In [32]:
iso3.describe(include='all')

Unnamed: 0,Code Groupe de pays,Groupe de pays,Code Pays,Pays,Code M49,Code ISO2,Code ISO3
count,1957.0,1957,1957.0,1957,1957.0,1949,1957
unique,,57,,277,,276,278
top,,Monde,,"Chine, continentale",,CN,GNB
freq,,279,,13,,13,11
mean,5510.499234,,142.396014,,436.454854,,
std,1372.714101,,96.894832,,256.15238,,
min,336.0,,1.0,,4.0,,
25%,5200.0,,68.0,,212.0,,
50%,5403.0,,136.0,,430.0,,
75%,5848.0,,203.0,,660.0,,


In [33]:
iso3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1957 entries, 0 to 1956
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Code Groupe de pays  1957 non-null   int64  
 1   Groupe de pays       1957 non-null   object 
 2   Code Pays            1957 non-null   int64  
 3   Pays                 1957 non-null   object 
 4   Code M49             1957 non-null   float64
 5   Code ISO2            1949 non-null   object 
 6   Code ISO3            1957 non-null   object 
dtypes: float64(1), int64(2), object(4)
memory usage: 107.1+ KB


- On a la colonne **Pays** qui est notre clé de liaison à renommer.
- On a la colonne **Code ISO3** qui repésente le code du pays à conserver.
- On a plusieurs colonnes inutiles qu'on supprimera.

### 2.4.3 - Nettoyage et préparation
- On va tout d'abord voir s'il y a des doublons.

In [34]:
iso3.duplicated().sum()

0

- Il n'y a aucun doublon.

In [35]:
# On garde les colonnes 'Pays' et 'Code ISO3'
iso3 = iso3[['Pays', 'Code ISO3']].copy()
# On renomme la colonne 'Pays'
iso3.rename(columns= {'Pays' : 'Zone', 'Code ISO3' : 'Code Zone'}, inplace= True)
iso3

Unnamed: 0,Zone,Code Zone
0,"Afrique de l'Ouest, non spécifié",F616
1,Afrique du Sud,ZAF
2,Algérie,DZA
3,Angola,AGO
4,Archipel des Chagos,IOT
...,...,...
1952,Palestine,PSE
1953,Qatar,QAT
1954,République arabe syrienne,SYR
1955,Turquie,TUR


- Nous avons un dataframe contenant **1 957 données**, maintenant que l'on a simplifié le dataframe, on va avoir des doublons.

In [36]:
iso3.duplicated().sum()

1678

Nous avons **`1 678 doublons`**, on va donc les **`supprimer`**.

In [37]:
# Suppression des doublons
iso3.drop_duplicates(keep='first', inplace= True)
# Vérifivation des doublons
iso3.duplicated().sum()

0

In [38]:
iso3

Unnamed: 0,Zone,Code Zone
0,"Afrique de l'Ouest, non spécifié",F616
1,Afrique du Sud,ZAF
2,Algérie,DZA
3,Angola,AGO
4,Archipel des Chagos,IOT
...,...,...
1163,"Polynésie, non spécifié",F618
1191,Samoa,WSM
1192,Samoa américaines,ASM
1220,Tokélaou,TKL


- Maintenant on a notre dataframe est propre. 
- On ne peut pas faire  d'analyse univariée car ce dataframe est une table de correspondance entre **les pays et leurs codes ISO3.**

## 2.5 - Doing Business
### 2.5.1 - Import

In [39]:
doing_business = pd.read_excel(r'C:\Users\imadk\Downloads\doing_buisness.xlsx')
doing_business

Unnamed: 0,Country Name,Country Name2,Series Name,Series Code,2017 [YR2017]
0,Afghanistan,AFG,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,38.9
1,Albania,ALB,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,64.2
2,Algeria,DZA,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,46.1
3,Angola,AGO,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,37.7
4,Antigua and Barbuda,ATG,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,58.8
...,...,...,...,...,...
186,Vietnam,VNM,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,65.3
187,West Bank and Gaza,PSE,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,55.5
188,"Yemen, Rep.",YEM,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,31.2
189,Zambia,ZMB,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,60.3


### 2.5.2 - Description
- On va voir en détail notre jeu de données et les variables qu'il contient.

In [40]:
doing_business.describe(include= 'all')

Unnamed: 0,Country Name,Country Name2,Series Name,Series Code,2017 [YR2017]
count,191,191,191,191,190.0
unique,191,191,1,1,
top,Afghanistan,AFG,Global: Ease of doing business score (DB17-20 ...,IC.BUS.EASE.DFRN.XQ.DB1719,
freq,1,1,191,191,
mean,,,,,60.508947
std,,,,,13.983273
min,,,,,20.3
25%,,,,,50.925
50%,,,,,60.6
75%,,,,,71.75


In [41]:
doing_business.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 191 entries, 0 to 190
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Country Name   191 non-null    object 
 1   Country Name2  191 non-null    object 
 2   Series Name    191 non-null    object 
 3   Series Code    191 non-null    object 
 4   2017 [YR2017]  190 non-null    float64
dtypes: float64(1), object(4)
memory usage: 7.6+ KB


- On a la colonne Country Name2 qui représente aussi une clé de liaison qu'on renommera en Code ISO3.
- On a la colonne 2017[YR2017] qui représente l'indice de la facilité buisness.
- Les autres colonnes sont a supprimées puisqu'ils sont inutiles de mon point de vue pour la suite de mon analyse.

### 2.5.3 - Nettoyage et préparation
On va tout d'abord voir s'il y a des doublons

In [42]:
doing_business.duplicated().sum()

0

- Il n'y a aucun doublon

In [43]:
# On renomme les colonnes
doing_business.rename(columns={'2017 [YR2017]' : 'Facilité du Business',
                               'Country Name2' : 'Code Zone'}, inplace= True)
# On garde les colonnes 'Country Name2' et '2017 [YR2017]' et cela on supprimant les autres colonnes
doing_business.drop(columns=['Country Name','Series Name','Series Code'], inplace= True)
doing_business

Unnamed: 0,Code Zone,Facilité du Business
0,AFG,38.9
1,ALB,64.2
2,DZA,46.1
3,AGO,37.7
4,ATG,58.8
...,...,...
186,VNM,65.3
187,PSE,55.5
188,YEM,31.2
189,ZMB,60.3


On regarde s'il y a des valeurs **NAN** dans le jeu de données.

In [44]:
doing_business[doing_business['Facilité du Business'].isna()]

Unnamed: 0,Code Zone,Facilité du Business
98,LIE,


- Cela correspond à la **principauté du Liechtenstein**
- On va le garder parce qu'on est pas sûre que dans les autres DataFrame on est des  données sur cette principauté.

Maintenant que notre dataframe est propre, on va regarder les variables dans le détail.

### 2.5.4 - Analyse univariée
#### Facilité du Business

In [45]:
analyse_univarie(doing_business,'Facilité du Business', 20, False, 'Dispersion de la facilité buisness', 'Facilité du Buisness')

Description rapide
--------------
Count :                       190
Moyenne :                     60.51
Ecart type :                  13.98


Minimum :                     20.3
Quantile 25 % :               50.92
Médiane :                     60.6
Quantile 75 % :               71.75
Maximum :                     87.2


Valeur la plus représentée :  58.0


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: -0.28978725392208116
Kurtosis: -0.37610420953690316
--------------------


- On peut voir que la dispersion de la facilité du business des pays du monde est assez symétrique autour de la **moyenne de 60,5**. 
- Et la forme de la dispersion est assez proche **d'une loi normale**.

## 2.6 - Distance
### 2.6.1 - Import

In [46]:
distance = pd.read_excel(r'C:\Users\imadk\Downloads\dist_cepii\dist_cepii.xls')
distance

Unnamed: 0,iso_o,iso_d,contig,comlang_off,comlang_ethno,colony,comcol,curcol,col45,smctry,dist,distcap,distw,distwces
0,ABW,ABW,0,0,0,0,0,0,0,0,5.225315,5.225315,25.09354,23.04723
1,ABW,AFG,0,0,0,0,0,0,0,0,13257.810000,13257.810000,13168.22,13166.37
2,ABW,AGO,0,0,0,0,0,0,0,0,9516.913000,9516.913000,9587.316,9584.193
3,ABW,AIA,0,0,1,0,0,0,0,0,983.268200,983.268200,976.8974,976.8916
4,ABW,ALB,0,0,0,0,0,0,0,0,9091.742000,9091.742000,9091.576,9091.466
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50171,ZWE,YUG,0,0,0,0,0,0,0,0,7056.402000,7056.402000,7046.432,7042.83
50172,ZWE,ZAF,1,1,1,0,0,0,0,0,2186.206000,926.174300,1258.552,1101.438
50173,ZWE,ZAR,0,0,0,0,0,0,0,0,2283.061000,2283.061000,1930.976,1719.147
50174,ZWE,ZMB,1,1,1,0,1,0,0,0,396.804100,396.804100,583.7954,525.0734


### 2.6.2 - Description
- On va voir en détail notre jeu de données et les variables qu'il contient

In [47]:
distance.describe(include= 'all')

Unnamed: 0,iso_o,iso_d,contig,comlang_off,comlang_ethno,colony,comcol,curcol,col45,smctry,dist,distcap,distw,distwces
count,50176,50176,50176.0,50176.0,50176.0,50176.0,50176.0,50176.0,50176.0,50176.0,50176.0,50176.0,50176,50176
unique,224,224,,,,,,,,,,,25526,25606
top,ABW,ABW,,,,,,,,,,,.,.
freq,224,224,,,,,,,,,,,2215,2215
mean,,,0.012277,0.174386,0.169165,0.009606,0.117307,0.001276,0.006218,0.007992,8481.799404,8471.597042,,
std,,,0.11012,0.379445,0.374901,0.09754,0.321789,0.035692,0.07861,0.08904,4703.571509,4704.894938,,
min,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.995137,0.995137,,
25%,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4783.38325,4768.61775,,
50%,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8084.5155,8080.471,,
75%,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12030.0875,12004.52,,


In [48]:
distance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50176 entries, 0 to 50175
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   iso_o          50176 non-null  object 
 1   iso_d          50176 non-null  object 
 2   contig         50176 non-null  int64  
 3   comlang_off    50176 non-null  int64  
 4   comlang_ethno  50176 non-null  int64  
 5   colony         50176 non-null  int64  
 6   comcol         50176 non-null  int64  
 7   curcol         50176 non-null  int64  
 8   col45          50176 non-null  int64  
 9   smctry         50176 non-null  int64  
 10  dist           50176 non-null  float64
 11  distcap        50176 non-null  float64
 12  distw          50176 non-null  object 
 13  distwces       50176 non-null  object 
dtypes: float64(2), int64(8), object(4)
memory usage: 5.4+ MB


- On a la colonne **iso_o** qu'on filtrer sur **FRA et la supprimé.**
- On a la colonne **iso_d** qu'on renommera en **Code ISO3**
- On a la colonne **dist** qui repésennte la **distance** entre la france et le pays cible.
- On a des colonnes inutiles pour notre analyse donc on va les supprimées.

### 2.6.3 - Nettoyage et préparation
On va tout d'abord voir s'il y a des doublons

In [49]:
distance.duplicated().sum()

0

- Il n'y a pas de doublon.

In [50]:
# On filtre la colonne 'iso_o' sur 'FRA' 
distance = distance[distance['iso_o'] == 'FRA']
#On renomme la colonne 'iso_d' 
distance.rename(columns={'iso_d' : 'Code Zone', 'dist' : 'Distance'}, inplace= True)
# On supprime la colonne 'iso_o' ainsi que les colonnes inutiles
distance.drop(columns=['iso_o','comlang_off','comlang_ethno','colony','comcol', 'curcol', 'col45','smctry', 'distcap', 'distw', 'distwces','contig'], inplace= True)
distance

Unnamed: 0,Code Zone,Distance
15008,ABW,7685.884
15009,AFG,5590.381
15010,AGO,6510.322
15011,AIA,6710.570
15012,ALB,1603.534
...,...,...
15227,YUG,1449.718
15228,ZAF,9353.552
15229,ZAR,6049.656
15230,ZMB,7604.841


Maintenant que notre dataframe est propre, on va regarder les variables dans le détail.

### 2.6.4 - Analyse univariée
#### distance

In [51]:
analyse_univarie(distance, 'Distance', 20, False, 'Dispersion des distances', 'Distance')

Description rapide
--------------
Count :                       224
Moyenne :                     6671.63
Ecart type :                  4263.68


Minimum :                     262.38
Quantile 25 % :               3418.89
Médiane :                     6552.28
Quantile 75 % :               8934.95
Maximum :                     19263.88


Valeur la plus représentée :  19263.88


--------------


--------------------
Évaluation de la distribution avec les coefficients d'assymétrie et de Kurtosis.
Skewness: 0.6794496254634893
Kurtosis: 0.07840924008572081
--------------------


- Il y a **41 pays à moins de 2000 km de nous** , et la **plus grande majorité des pays est à moins de 10 000 km de nous**.

# 3 - Merge

On fusionne les tables sur la variable Zone ou son code Zone

## 3.1 - "Disponibilité alimentaire" + "Population" 

In [52]:
df = dispo_alim.merge(population, how= 'outer', on='Zone', indicator= 'True')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),True
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,both
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,both
2,Albanie,0.0,38.0,47.0,13.0,2884.169,both
3,Algérie,0.0,2.0,264.0,275.0,41389.189,both
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,both
...,...,...,...,...,...,...,...
233,Îles Marshall,,,,,58.058,right_only
234,Îles Turques-et-Caïques,,,,,37.115,right_only
235,Îles Vierges américaines,,,,,104.751,right_only
236,Îles Vierges britanniques,,,,,29.577,right_only


- On teste si pour chaque ligne, la fusion a trouvé des données dans chaque table.

In [53]:
df['True'].unique()

['both', 'right_only']
Categories (3, object): ['left_only', 'right_only', 'both']

- On remarque qu'il y a des données importées qui proviennent seulement de la table **population**

In [54]:
country_without_data = df[df['True'] == 'right_only']
country_without_data

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),True
172,Andorre,,,,,77.001,right_only
173,Anguilla,,,,,14.584,right_only
174,Antilles néerlandaises (ex),,,,,275.186,right_only
175,Aruba,,,,,105.366,right_only
176,Bahreïn,,,,,1494.076,right_only
...,...,...,...,...,...,...,...
233,Îles Marshall,,,,,58.058,right_only
234,Îles Turques-et-Caïques,,,,,37.115,right_only
235,Îles Vierges américaines,,,,,104.751,right_only
236,Îles Vierges britanniques,,,,,29.577,right_only


- La liste des pays que nous avons ici sont **des pays qui n'ont pas communiqué sur leurs données à la FAO**, on peut supprimer ces lignes du jeu de données.

In [55]:
df = df.loc[df['True'] == 'both'].drop(columns='True')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes)
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756
2,Albanie,0.0,38.0,47.0,13.0,2884.169
3,Algérie,0.0,2.0,264.0,275.0,41389.189
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409
...,...,...,...,...,...,...
167,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203
168,Équateur,0.0,0.0,324.0,340.0,16785.361
169,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756
170,Éthiopie,0.0,1.0,14.0,14.0,106399.924


## 3.2 - "df" + "Stabilité Politique"

In [56]:
df = df.merge(political_stability, how= 'outer', on='Zone', indicator= 'True')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,both
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,both
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,both
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,both
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,both
...,...,...,...,...,...,...,...,...
195,Singapour,,,,,,1.62,right_only
196,Somalie,,,,,,-2.26,right_only
197,Soudan du Sud,,,,,,-2.45,right_only
198,Tonga,,,,,,0.79,right_only


In [57]:
df['True'].unique()

['both', 'left_only', 'right_only']
Categories (3, object): ['left_only', 'right_only', 'both']

- On remarque qu'il y a des données importées qui proviennent seulement de la table **political_stability**

In [58]:
df[df['True'] == 'right_only']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
172,Andorre,,,,,,1.42,right_only
173,Bahreïn,,,,,,-0.96,right_only
174,Bermudes,,,,,,1.0,right_only
175,Bhoutan,,,,,,1.12,right_only
176,Brunéi Darussalam,,,,,,1.16,right_only
177,Burundi,,,,,,-2.01,right_only
178,Comores,,,,,,0.04,right_only
179,Érythrée,,,,,,-0.73,right_only
180,Groenland,,,,,,1.92,right_only
181,Guinée équatoriale,,,,,,-0.17,right_only


- On remarque aussi que ce sont **les mêmes pays qui n'ont pas voulu partager leurs informations sur leurs disponibilités alimentaires`** . 
- Donc on peut les supprimées de notre jeu de données.

In [59]:
# On garde que les lignes complètes, et on supprime la colonne de test `True`
df = df.loc[(df['True'] == 'both') | (df['True'] == 'left_only'), :]
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,both
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,both
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,both
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,both
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,both
...,...,...,...,...,...,...,...,...
167,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62,both
168,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07,both
169,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29,both
170,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68,both


- On remarque aussi qu'il y a des données importées qui n'ont pas de correspondance dans la table **political_stability**

In [60]:
df[df['True'] == 'left_only']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
34,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,,left_only
108,Nouvelle-Calédonie,0.0,9.0,11.0,1.0,277.15,,left_only
120,Polynésie française,0.0,15.0,13.0,1.0,276.102,,left_only


- Pour **la Nouvelle-Calédonie et la Polynésie française**, on va pouvoir prendre la valeur de la **France** puiqu'ils sont des territoires d'outre mer. 

In [61]:
# Valeur de la stabilité politique de la France
df.loc[df["Zone"]=="France"]['Stabilité politique']

51    0.28
Name: Stabilité politique, dtype: float64

In [62]:
# Remplacement de la valeur pour la Nouvelle-calédonie et la polynésie française par celle de la france
df.loc[df["Zone"]=="Nouvelle-Calédonie", 'Stabilité politique']=  np.unique(df[(df['Zone']=="France" )]['Stabilité politique'])
df.loc[df["Zone"]=="Polynésie française", 'Stabilité politique']= np.unique(df[(df['Zone']=="France" )]['Stabilité politique'])
df[df['True'] == 'left_only']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
34,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,,left_only
108,Nouvelle-Calédonie,0.0,9.0,11.0,1.0,277.15,0.28,left_only
120,Polynésie française,0.0,15.0,13.0,1.0,276.102,0.28,left_only


- Pour la **Chine**, on va regarder sur une autre source de données sur la stabilité politique afin de pouvoir renseigner la valeur. 

In [63]:
political_stability_1 = pd.read_csv(r"C:\Users\imadk\Downloads\DAN-P8-donnees\PoliticalStability.csv", sep=',')
political_stability_1 

Unnamed: 0,Country,Year,Political_Stability,Granularity
0,Afghanistan,2000,-2.44,Total
1,Afghanistan,2002,-2.04,Total
2,Afghanistan,2003,-2.20,Total
3,Afghanistan,2004,-2.30,Total
4,Afghanistan,2005,-2.07,Total
...,...,...,...,...
3521,Zimbabwe,2014,-0.71,Total
3522,Zimbabwe,2015,-0.62,Total
3523,Zimbabwe,2016,-0.62,Total
3524,Zimbabwe,2017,-0.71,Total


In [64]:
political_stability_1[(political_stability_1["Country"]=="China, mainland") & (political_stability_1['Year']== 2017)]

Unnamed: 0,Country,Year,Political_Stability,Granularity
715,"China, mainland",2017,-0.23,Total


In [65]:
df.loc[df["Zone"]=="Chine, continentale", 'Stabilité politique'] = -0.23
df[df['True'] == 'left_only']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,True
34,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,-0.23,left_only
108,Nouvelle-Calédonie,0.0,9.0,11.0,1.0,277.15,0.28,left_only
120,Polynésie française,0.0,15.0,13.0,1.0,276.102,0.28,left_only


In [66]:
# On garde que les lignes complètes, et on supprime la colonne de test `True`
df = df.loc[(df['True'] == 'both') | (df['True'] == 'left_only'), :]
df= df.drop(columns= 'True')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59
...,...,...,...,...,...,...,...
167,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62
168,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07
169,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29
170,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68


## 3.3 - 'df' + 'ISO 3'

In [67]:
df = df.merge(iso3, how='left', on= 'Zone')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,AFG
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,ZAF
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,ALB
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,DZA
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,DEU
...,...,...,...,...,...,...,...,...
168,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62,ARE
169,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07,ECU
170,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29,USA
171,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68,ETH


- On vérifie s'il y des doublons

In [68]:
df['Zone'].duplicated().sum()

1

In [69]:
duplicated_country = df[df.duplicated(subset=['Zone'])]
duplicated_country

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone
35,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,-0.23,F41


In [70]:
df[df['Zone'] == 'Chine, continentale']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone
34,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,-0.23,CHN
35,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,-0.23,F41


- Si l'on regarde la **Chine continentale**, on peut voir que le **code Zone** est bizarre, normalement le code Zone de la **Chine** est **CHN**.
- On va donc garder **le Code Zone CHN**

In [71]:
df= df.drop(df.index[35])
df[df['Zone'] == 'Chine, continentale']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone
34,"Chine, continentale",576.0,452.0,17518.0,18236.0,1421021.791,-0.23,CHN


In [72]:
df['Zone'].duplicated().sum()

0

## 3.4 - 'df' + 'Facilité buisness'

In [73]:
df = df.merge(doing_business, how='left', on= 'Code Zone')
df

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,AFG,38.9
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,ZAF,65.4
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,ALB,64.2
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,DZA,46.1
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,DEU,79.6
...,...,...,...,...,...,...,...,...,...
167,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62,ARE,77.4
168,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07,ECU,57.5
169,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29,USA,83.6
170,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68,ETH,44.1


- On vérifie s'il y a des valeurs **NAN** dans notre jeu de données.

In [74]:
df[df['Facilité du Business'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business
32,Chine - RAS de Macao,0.0,23.0,21.0,3.0,622.585,1.43,MAC,
40,Cuba,0.0,312.0,269.0,29.0,11339.254,0.65,CUB,
108,Nouvelle-Calédonie,0.0,9.0,11.0,1.0,277.15,0.28,NCL,
120,Polynésie française,0.0,15.0,13.0,1.0,276.102,0.28,PYF,
131,République populaire démocratique de Corée,0.0,0.0,41.0,43.0,25429.825,-0.5,PRK,
156,Turkménistan,0.0,9.0,26.0,20.0,5757.667,-0.13,TKM,


- Pour la **Nouvelle-Calédonie et la Polynésie française**, on va faire comme on a fait aupparavant on va récupérer la valeur de la **France**

In [75]:
# Valeur de la stabilité politique de la France
df[df["Zone"]=="France"]['Facilité du Business']

51    76.3
Name: Facilité du Business, dtype: float64

In [76]:
df.loc[df["Zone"]=="Nouvelle-Calédonie", 'Facilité du Business']= np.unique(df[(df['Zone']=="France" )]['Facilité du Business'])
df.loc[df["Zone"]=="Polynésie française", 'Facilité du Business']= np.unique(df[(df['Zone']=="France" )]['Facilité du Business'])
df[df["Zone"].isin(["Nouvelle-Calédonie","Polynésie française"])]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business
108,Nouvelle-Calédonie,0.0,9.0,11.0,1.0,277.15,0.28,NCL,76.3
120,Polynésie française,0.0,15.0,13.0,1.0,276.102,0.28,PYF,76.3


- Il reste le cas de la `Corée-du-nord` où je pense que la facilité du business est **difficile** à cause des problèmes politiques.

In [77]:
df= df.drop(df.index[131])
df[df['Zone'] == 'République populaire démocratique de Corée']

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business


- Il nous reste **3 pays** à traiter : **Macao, Cuba, et le Turkménistan** qui n'ont pas de valeurs **facilité buisness** 
- La solution qui me reste et de calculer **la valeur moyenne** de notre jeu de données afin de l'imputer pour ces **3 pays** .

In [78]:
df.loc[df["Zone"]=="Chine - RAS de Macao", 'Facilité du Business']=round(np.mean(doing_business['Facilité du Business']), 2)
df.loc[df["Zone"]=="Cuba", 'Facilité du Business']=round(np.mean(doing_business['Facilité du Business']), 2)
df.loc[df["Zone"]=="Turkménistan", 'Facilité du Business']=round(np.mean(doing_business['Facilité du Business']), 2)
df.loc[df["Zone"].isin(['Turkménistan', 'Cuba', 'Chine - RAS de Macao'])]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business
32,Chine - RAS de Macao,0.0,23.0,21.0,3.0,622.585,1.43,MAC,60.51
40,Cuba,0.0,312.0,269.0,29.0,11339.254,0.65,CUB,60.51
156,Turkménistan,0.0,9.0,26.0,20.0,5757.667,-0.13,TKM,60.51


In [79]:
# On revérifie s'il y a encore des valeurs NAN
df[df['Facilité du Business'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business


- Maintenant on peut continuer a construire notre dataframe final

## 3.5 - 'df' + 'Distance'

In [80]:
df_final = df.merge(distance, how='left', on= 'Code Zone', indicator=True)
df_final

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,AFG,38.9,5590.3810,both
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,ZAF,65.4,9353.5520,both
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,ALB,64.2,1603.5340,both
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,DZA,46.1,1340.3900,both
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,DEU,79.6,439.8984,both
...,...,...,...,...,...,...,...,...,...,...,...
166,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62,ARE,77.4,5249.5350,both
167,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07,ECU,57.5,9367.0980,both
168,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29,USA,83.6,5838.1570,both
169,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68,ETH,44.1,5582.5020,both


- On regarde s'il y a des valeurs **NAN**

In [81]:
df_final[df_final['Distance'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
100,Monténégro,0.0,8.0,10.0,4.0,627.563,-0.06,MNE,71.2,,left_only
123,Roumanie,69.0,146.0,381.0,392.0,19653.969,0.06,ROU,72.9,,left_only
137,Serbie,7.0,12.0,90.0,85.0,8829.628,0.09,SRB,73.3,,left_only
151,Timor-Leste,0.0,11.0,5.0,1.0,1243.258,0.07,TLS,38.2,,left_only


- Il manque **4 valeurs: (Monténégro, Roumanie, Serbie, Timor-Leste).**
- Pour la **Roumanie**, on a encore un problème sur le **Code Zone**.  
- Nous avons le code **ROU** alors que c'est le code **ROM**. 
- On va récupérer dans la dataframe distance la valeur.

In [82]:
distance[distance['Code Zone']=='ROM']['Distance']

15177    1875.018
Name: Distance, dtype: float64

In [83]:
df_final.loc[df_final['Code Zone']=="ROU", 'Distance']= np.unique(distance[(distance['Code Zone']=="ROM" )]['Distance'])
df_final[df_final['Code Zone']=="ROU"]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
123,Roumanie,69.0,146.0,381.0,392.0,19653.969,0.06,ROU,72.9,1875.018,left_only


In [84]:
df_final[df_final['Distance'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
100,Monténégro,0.0,8.0,10.0,4.0,627.563,-0.06,MNE,71.2,,left_only
137,Serbie,7.0,12.0,90.0,85.0,8829.628,0.09,SRB,73.3,,left_only
151,Timor-Leste,0.0,11.0,5.0,1.0,1243.258,0.07,TLS,38.2,,left_only


- En ce qui concerne **le Monténégro et la Serbie**, elles faisaient partie de l'ancien **Yougoslavie** . 
- On va donc prendre le **Code Zone de la Yougoslavie**, c'est-à-dire, **YUG** et mettre la valeur aux deux pays

In [85]:
df_final.loc[df_final["Zone"]=="Monténégro", 'Distance'] = np.unique(distance[(distance['Code Zone']=="YUG" )]['Distance'])
df_final.loc[df_final["Zone"]=="Serbie", 'Distance']= np.unique(distance[(distance['Code Zone']=="YUG" )]['Distance'])
df_final.loc[df_final["Zone"].isin(['Monténégro', 'Serbie'])]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
100,Monténégro,0.0,8.0,10.0,4.0,627.563,-0.06,MNE,71.2,1449.718,left_only
137,Serbie,7.0,12.0,90.0,85.0,8829.628,0.09,SRB,73.3,1449.718,left_only


In [86]:
df_final[df_final['Distance'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
151,Timor-Leste,0.0,11.0,5.0,1.0,1243.258,0.07,TLS,38.2,,left_only


- En ce qui concerne le **Timor-leste** on a encore un problème sur le **Code Zone**.

In [87]:
distance[distance['Code Zone']=='TMP']['Distance']

15206    13128.84
Name: Distance, dtype: float64

In [88]:
df_final.loc[df_final["Zone"]=="Timor-Leste", 'Distance']= np.unique(distance[(distance['Code Zone']=="TMP" )]['Distance'])
df_final.loc[df_final["Zone"].isin(['Timor-Leste'])]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge
151,Timor-Leste,0.0,11.0,5.0,1.0,1243.258,0.07,TLS,38.2,13128.84,left_only


In [89]:
df_final[df_final['Distance'].isna()]

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance,_merge


In [90]:
df_final = df_final.drop(columns='_merge')
df_final

Unnamed: 0,Zone,Exportations Volailles (en milliers tonnes),Importations Volailles (en milliers tonnes),Nourritures (en milliers tonnes),Productions Volailles (en milliers tonnes),Population en 2017 (milliers de personnes),Stabilité politique,Code Zone,Facilité du Business,Distance
0,Afghanistan,0.0,29.0,55.0,28.0,36296.113,-2.80,AFG,38.9,5590.3810
1,Afrique du Sud,63.0,514.0,2035.0,1667.0,57009.756,-0.28,ZAF,65.4,9353.5520
2,Albanie,0.0,38.0,47.0,13.0,2884.169,0.38,ALB,64.2,1603.5340
3,Algérie,0.0,2.0,264.0,275.0,41389.189,-0.92,DZA,46.1,1340.3900
4,Allemagne,646.0,842.0,1609.0,1514.0,82658.409,0.59,DEU,79.6,439.8984
...,...,...,...,...,...,...,...,...,...,...
166,Émirats arabes unis,94.0,433.0,412.0,48.0,9487.203,0.62,ARE,77.4,5249.5350
167,Équateur,0.0,0.0,324.0,340.0,16785.361,-0.07,ECU,57.5,9367.0980
168,États-Unis d'Amérique,3692.0,123.0,18100.0,21914.0,325084.756,0.29,USA,83.6,5838.1570
169,Éthiopie,0.0,1.0,14.0,14.0,106399.924,-1.68,ETH,44.1,5582.5020


In [91]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 171 entries, 0 to 170
Data columns (total 10 columns):
 #   Column                                       Non-Null Count  Dtype  
---  ------                                       --------------  -----  
 0   Zone                                         171 non-null    object 
 1   Exportations Volailles (en milliers tonnes)  171 non-null    float64
 2   Importations Volailles (en milliers tonnes)  171 non-null    float64
 3   Nourritures (en milliers tonnes)             171 non-null    float64
 4   Productions Volailles (en milliers tonnes)   171 non-null    float64
 5   Population en 2017 (milliers de personnes)   171 non-null    float64
 6   Stabilité politique                          171 non-null    float64
 7   Code Zone                                    171 non-null    object 
 8   Facilité du Business                         171 non-null    float64
 9   Distance                                     171 non-null    float64
dtypes:

In [92]:
df_final.to_csv('df_final.csv', index= False)