Import des librairies et données nécessaires à l'étude:
===

In [2]:
# Librairies de calcul:
import pandas as pd
import numpy as np

# Options globales pour l'output display:
pd.options.display.float_format = "{:.2f}".format

# Import des donnees:
Dispo_Alim_df = pd.read_csv("DisponibiliteAlimentaire_2017.csv")
Pop_df = pd.read_csv("Population_2000_2018.csv")
Pib_df = pd.read_csv("PIB_2017.csv")
Prot_df = pd.read_csv("Protein_df.csv")
Code_Pays_df = pd.read_csv("codes_pays.csv")

In [3]:
# Renommage des colonnes:
Dispo_Alim_df = Dispo_Alim_df.rename(columns = {
    "Code Domaine":          "c_domain",
    "Domaine":               "domain",
    "Code zone":             "c_zone",
    "Zone":                  "zone",
    "Code Élément":          "c_element",
    "Élément":               "element",
    "Code Produit":          "c_prod",
    "Produit":               "prod",
    "Code année":            "c_year",
    "Année":                 "year",
    "Unité":                 "unit",
    "Valeur":                "value",
    "Symbole":               "symb",
    "Description du Symbole":"symb_description"
})

Pop_df = Pop_df.rename(columns = {
    "Code Domaine":          "c_domain",
    "Domaine":               "domain",
    "Code zone":             "c_zone",
    "Zone":                  "zone",
    "Code Élément":          "c_element",
    "Élément":               "element",
    "Code Produit":          "c_prod",
    "Produit":               "prod",
    "Code année":            "c_year",
    "Année":                 "year",
    "Unité":                 "unit",
    "Valeur":                "pop",
    "Symbole":               "symb",
    "Description du Symbole":"symb_description",
    "Note":                  "note"
})

Pib_df = Pib_df.rename(columns = {
    "Code Domaine":          "c_domain",
    "Domaine":               "domain",
    "Code zone (FAO)":       "c_zone",
    "Zone":                  "zone",
    "Code Élément":          "c_element",
    "Élément":               "element",
    "Code Produit":          "c_prod",
    "Produit":               "prod",
    "Code année":            "c_year",
    "Année":                 "year",
    "Unité":                 "unit",
    "Valeur":                "pib/hab",
    "Symbole":               "symb",
    "Description du Symbole":"symb_description",
    "Note":                  "note"
})

Prot_df = Prot_df.rename(columns = {
    "Domain Code":           "c_domain",
    "Domain":                "domain",
    "Area Code (FAO)":       "c_zone",
    "Area":                  "zone",
    "Element Code":          "c_element",
    "Element":               "element",
    "Item Code":             "c_prod",
    "Item":                  "prod",
    "Year Code":             "c_year",
    "Year":                  "year",
    "Unit":                  "unit",
    "Value":                 "value",
    "Flag":                  "symb",
    "Flag Description":      "symb_description",
    "Note":                  "note"
})

Code_Pays_df = Code_Pays_df.rename(columns = {
    "code_pays_fao":           "c_zone",
    "ISO3":                    "iso3"
})

Observation et nettoyage des Dataframes:
===

Dispo_Alim_df:
---

In [4]:
Dispo_Alim_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176600 entries, 0 to 176599
Data columns (total 14 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   c_domain          176600 non-null  object 
 1   domain            176600 non-null  object 
 2   c_zone            176600 non-null  int64  
 3   zone              176600 non-null  object 
 4   c_element         176600 non-null  int64  
 5   element           176600 non-null  object 
 6   c_prod            176600 non-null  int64  
 7   prod              176600 non-null  object 
 8   c_year            176600 non-null  int64  
 9   year              176600 non-null  int64  
 10  unit              176600 non-null  object 
 11  value             176600 non-null  float64
 12  symb              176600 non-null  object 
 13  symb_description  176600 non-null  object 
dtypes: float64(1), int64(5), object(8)
memory usage: 18.9+ MB


Il n'y a pas de valeurs nulles dans nos données, les colonnes de type "code" devraient être des object et non des int64. L'année pourrait être passée en date/year. Certaines colonnes contiennent des données redondantes et inutiles, on peut les supprimer.

In [5]:
# Suppression des colonnes inutiles:
Dispo_Alim_df = Dispo_Alim_df.drop(["c_domain","domain","c_year","symb","symb_description"], axis=1)

In [6]:
# Changement de types:
Dispo_Alim_df["c_zone"] = Dispo_Alim_df["c_zone"].apply(str)
Dispo_Alim_df["c_element"] = Dispo_Alim_df["c_element"].apply(str)
Dispo_Alim_df["c_prod"] = Dispo_Alim_df["c_prod"].apply(str)

Dispo_Alim_df.info()
Dispo_Alim_df["value"].describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176600 entries, 0 to 176599
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   c_zone     176600 non-null  object 
 1   zone       176600 non-null  object 
 2   c_element  176600 non-null  object 
 3   element    176600 non-null  object 
 4   c_prod     176600 non-null  object 
 5   prod       176600 non-null  object 
 6   year       176600 non-null  int64  
 7   unit       176600 non-null  object 
 8   value      176600 non-null  float64
dtypes: float64(1), int64(1), object(7)
memory usage: 12.1+ MB


count   176600.00
mean       210.55
std       4762.05
min     -10388.00
25%          0.00
50%          0.12
75%          8.46
max     758548.00
Name: value, dtype: float64

Pop_df:
---

In [7]:
Pop_df.info()
Pop_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4411 entries, 0 to 4410
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   c_domain          4411 non-null   object 
 1   domain            4411 non-null   object 
 2   c_zone            4411 non-null   int64  
 3   zone              4411 non-null   object 
 4   c_element         4411 non-null   int64  
 5   element           4411 non-null   object 
 6   c_prod            4411 non-null   int64  
 7   prod              4411 non-null   object 
 8   c_year            4411 non-null   int64  
 9   year              4411 non-null   int64  
 10  unit              4411 non-null   object 
 11  pop               4411 non-null   float64
 12  symb              4411 non-null   object 
 13  symb_description  4411 non-null   object 
 14  note              258 non-null    object 
dtypes: float64(1), int64(5), object(9)
memory usage: 517.0+ KB


Unnamed: 0,c_zone,c_element,c_prod,c_year,year,pop
count,4411.0,4411.0,4411.0,4411.0,4411.0,4411.0
mean,132.2,511.0,3010.0,2009.07,2009.07,29630.04
std,75.85,0.0,0.0,5.48,5.48,123802.86
min,1.0,511.0,3010.0,2000.0,2000.0,0.79
25%,68.0,511.0,3010.0,2004.0,2004.0,392.19
50%,132.0,511.0,3010.0,2009.0,2009.0,4764.74
75%,195.0,511.0,3010.0,2014.0,2014.0,18215.48
max,299.0,511.0,3010.0,2018.0,2018.0,1427647.79


Les colonnes de type "code" devraient être des object et non des int64. L'année pourrait être passée en date/year. De plus de nombreuses lignes sont vides dans la colonne "note", il serait surement plus interressant de la suprimer, de plus certaines colonnes contiennent des informations redondantes ou inutiles, on peut donc les supprimer.

In [8]:
# Supression des colonnes inutiles:
Pop_df = Pop_df.drop(["c_domain",
                      "domain",
                      "c_element",
                      "element",
                      "c_prod",
                      "prod",
                      "c_year",
                      "unit",
                      "symb",
                      "symb_description",
                      "note"],
                      axis=1
)

In [9]:
# Changement de types:
Pop_df["c_zone"] = Pop_df["c_zone"].apply(str)

Pop_df.info()
Pop_df["pop"].describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4411 entries, 0 to 4410
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   c_zone  4411 non-null   object 
 1   zone    4411 non-null   object 
 2   year    4411 non-null   int64  
 3   pop     4411 non-null   float64
dtypes: float64(1), int64(1), object(2)
memory usage: 138.0+ KB


count      4411.00
mean      29630.04
std      123802.86
min           0.79
25%         392.19
50%        4764.74
75%       18215.48
max     1427647.79
Name: pop, dtype: float64

Pib_df:
---

In [10]:
Pib_df.info()
Pib_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211 entries, 0 to 210
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   c_domain          211 non-null    object 
 1   domain            211 non-null    object 
 2   c_zone            211 non-null    int64  
 3   zone              211 non-null    object 
 4   c_element         211 non-null    int64  
 5   element           211 non-null    object 
 6   c_prod            211 non-null    int64  
 7   prod              211 non-null    object 
 8   c_year            211 non-null    int64  
 9   year              211 non-null    int64  
 10  unit              211 non-null    object 
 11  pib/hab           211 non-null    float64
 12  symb              211 non-null    object 
 13  symb_description  211 non-null    object 
 14  note              0 non-null      float64
dtypes: float64(2), int64(5), object(8)
memory usage: 24.9+ KB


Unnamed: 0,c_zone,c_element,c_prod,c_year,year,pib/hab,note
count,211.0,211.0,211.0,211.0,211.0,211.0,0.0
mean,131.33,6185.0,22008.0,2017.0,2017.0,16371.23,
std,77.8,0.0,0.0,0.0,0.0,24883.33,
min,1.0,6185.0,22008.0,2017.0,2017.0,104.02,
25%,64.5,6185.0,22008.0,2017.0,2017.0,2151.75,
50%,129.0,6185.0,22008.0,2017.0,2017.0,6208.99,
75%,194.5,6185.0,22008.0,2017.0,2017.0,19443.13,
max,351.0,6185.0,22008.0,2017.0,2017.0,175085.06,


Les colonnes de type "code" devraient être des object et non des int64. L'année pourrait être passée en date/year. De plus toutes les lignes sont vides dans la colonne "note", et certaines colonnes contiennent des informations redondantes et inutiles on peut donc les supprimer.

In [11]:
# Supression des colonnes inutiles:
Pib_df = Pib_df.drop(["c_domain",
                      "domain",
                      "c_element",
                      "element",
                      "c_prod",
                      "prod",
                      "c_year",
                      "unit",
                      "symb",
                      "symb_description",
                      "note"],
axis=1)

In [12]:
# Changement de types:
Pib_df["c_zone"] = Pib_df["c_zone"].apply(str)

Pib_df.info()
Pib_df["pib/hab"].describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211 entries, 0 to 210
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   c_zone   211 non-null    object 
 1   zone     211 non-null    object 
 2   year     211 non-null    int64  
 3   pib/hab  211 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 6.7+ KB


count      211.00
mean     16371.23
std      24883.33
min        104.02
25%       2151.75
50%       6208.99
75%      19443.13
max     175085.06
Name: pib/hab, dtype: float64

Prot_df:
---

In [13]:
Prot_df.info()
Prot_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   c_domain          346 non-null    object 
 1   domain            346 non-null    object 
 2   c_zone            346 non-null    int64  
 3   zone              346 non-null    object 
 4   c_element         346 non-null    int64  
 5   element           346 non-null    object 
 6   c_prod            346 non-null    int64  
 7   prod              346 non-null    object 
 8   c_year            346 non-null    int64  
 9   year              346 non-null    object 
 10  unit              346 non-null    object 
 11  value             346 non-null    float64
 12  symb              346 non-null    object 
 13  symb_description  346 non-null    object 
 14  note              0 non-null      float64
dtypes: float64(2), int64(4), object(9)
memory usage: 40.7+ KB


Unnamed: 0,c_zone,c_element,c_prod,c_year,value,note
count,346.0,346.0,346.0,346.0,346.0,0.0
mean,127.94,6123.0,21013.5,20162018.0,59.09,
std,74.63,0.0,0.5,0.0,30.35,
min,1.0,6123.0,21013.0,20162018.0,6.0,
25%,67.0,6123.0,21013.0,20162018.0,35.78,
50%,122.0,6123.0,21013.5,20162018.0,59.85,
75%,189.0,6123.0,21014.0,20162018.0,83.15,
max,351.0,6123.0,21014.0,20162018.0,143.3,


In [14]:
# Supression des colonnes inutiles:
Prot_df = Prot_df.drop(["c_domain",
                        "domain",
                        "c_element",
                        "element",
                        "c_prod",
                        "c_year",
                        "year",
                        "unit",
                        "symb",
                        "symb_description",
                        "note"],
axis=1)

In [15]:
# Changement de types:
Prot_df["c_zone"] = Prot_df["c_zone"].apply(str)
Prot_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   c_zone  346 non-null    object 
 1   zone    346 non-null    object 
 2   prod    346 non-null    object 
 3   value   346 non-null    float64
dtypes: float64(1), object(3)
memory usage: 10.9+ KB


Code_Pays_df:
---

In [16]:
Code_Pays_df.info()
Code_Pays_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   iso3    174 non-null    object
 1   ISO2    174 non-null    object
 2   c_zone  175 non-null    int64 
 3   pays    175 non-null    object
dtypes: int64(1), object(3)
memory usage: 5.6+ KB


Unnamed: 0,c_zone
count,175.0
mean,126.72
std,75.17
min,1.0
25%,64.5
50%,121.0
75%,188.5
max,351.0


In [17]:
# Supression des colonnes inutiles:
Code_Pays_df = Code_Pays_df.drop(["ISO2",
                                  "pays"],
axis=1)

In [18]:
# Changement de types:
Code_Pays_df["c_zone"] = Code_Pays_df["c_zone"].apply(str)
Code_Pays_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   iso3    174 non-null    object
 1   c_zone  175 non-null    object
dtypes: object(2)
memory usage: 2.9+ KB


Il manque le code IOS alpha 3 du pays correspondant au code FAO 351, c'est à dire de la Chine, ce n'est pas grave puisqu'elle sera supprimée des données plus tard au profit des sous groupes "Chine continentale" "Chine Macao" ect....

Preparation des donnees avant analyse:
===

On veux ensuite créer un dataframe avec par pays:
- La population en 2017
- La variation de population selon nos données (depuis 2000)
- Le PIB en 2017
- Les importations de viande de volailles en 2017
- La production ou disponibilité intérrieure (?) de viande de volailles en 2017
- *La proportion de protéines d'origine animale par rapport à la quantité totale de protéines dans la disponibilité alimentaire du pays*

Nous avons décider de nous concerntrer sur 2017 puisque nous avons toutes les données dans nos dataframes respectifs. Après analyse nous pourrons éventuellement ajouter d'autres varriables (stabilité, présence de voisins producteurs, appartenance à des marchés 
(UE, MERCA...), isolationisme/nationalisme/taxation des imports en provenance de France...)

On commence par remodeler le dataframe population pour ne garder que les informations utiles:

In [19]:
# Modification du dataframe Pop_df:
Pop_df = pd.pivot_table(Pop_df, columns=["year"], index=["c_zone","zone"]).reset_index()              #On met les annees en colonnes
Pop_df = Pop_df.drop(Pop_df.columns[[2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,20]],axis=1)            #On supprime celles qui ne serviront pas
Pop_df.columns = ["c_zone","zone","pop07","pop17"]
Pop_df.info()

# On change l'unite pour avoir l'estimation reelle (et non en miliers d'habitants) pour eviter limiter les riques d'erreurs
Pop_df["pop07"] = Pop_df["pop07"]*1000
Pop_df["pop17"] = Pop_df["pop17"]*1000

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   c_zone  238 non-null    object 
 1   zone    238 non-null    object 
 2   pop07   230 non-null    float64
 3   pop17   236 non-null    float64
dtypes: float64(2), object(2)
memory usage: 7.6+ KB


In [20]:
print(Pop_df.index[Pop_df.isnull().any(axis=1)])

Int64Index([89, 111, 163, 164, 165, 166, 168, 169, 170], dtype='int64')


On remaque qu'il nous manque certaines données, or pour les analyses a venir il est important de ne pas avoir de données manquantes:
- 89,Serbie et Monténégro : ils sont présentents séparéments, on peut supprimer cette ligne.
- 111, Soudan (ex): remplacé en 2011 par le Soudan et le Soudan du sud qui sont présents séparéments, on peut supprimer cette ligne.
- 163, Soudan : pas de données pour 2007, on doit les remplacées par celle du Soudan (ex)
- 164, Soudan du sud: pas de données pour 2007, on doit les remplacées par celle du Soudan (ex)
- 165, Bonaire, Saint-Eustache et Saba : pas de pop07
- 166, Curaçao : pas de pop07
- 168, Sint Maarten  (partie néerlandaise) : pas de pop07
- 169, Saint Martin (partie française) : pas de pop07
- 170, Saint-Barthélemy : pas de pop07

Les cinq autres sont sous l'égide de pays plus grands (France, Pays Bas...) en 2007 leur population était comptabilisée directement dans ce pays, par manque de temps pour rechercher des sources fiables pouvant nous donner ces informations et pour éviter au maximum les redondances dans nos données nous supprimons ces lignes.

In [21]:
# Ajout de la population de 2007 Pour les deux Soudan à partir de Soudan (ex)
soudan07 = Pop_df.loc[(Pop_df["c_zone"] == "206"),"pop07"].values[0]

Pop_df["pop07"] = np.where(Pop_df["c_zone"] == "276",soudan07,Pop_df["pop07"])
Pop_df["pop07"] = np.where(Pop_df["c_zone"] == "277",soudan07,Pop_df["pop07"])

# Suppression du reste:
Pop_df = Pop_df.dropna()

In [22]:
# Ajout d'une colonne "taux d'evolution de la population sur dix ans" en pourcentage:
Pop_df["evo_pop"] = round((Pop_df["pop17"] - Pop_df["pop07"])/ Pop_df["pop07"]*100,3)

# On supprime la colonne pop07 qui ne nous servira plus:
Pop_df.drop(["pop07"],axis=1, inplace=True)

# Verification de l'unicite du code pays ("c_zone"):
print(Pop_df["c_zone"].nunique())

231


Il y a 231 codes zones différents pour 231 lignes dans notre dataframes, les codes zones sont donc uniques et peuvent faire une bonne clé pour la suite. 
*RQ: Pour ne pas surcharger les dataframes suivants nous supprimons la colonnes pop07 qui ne nous servira plus*

On peut maintenant merger le dataframe population et le dataframe pib:

In [23]:
# On verrifie l'unicite de c_zone pour pib_df:
print(Pib_df["c_zone"].nunique())


211


211 codes de zones pour 211 lignes, les codes sont bien uniques et peuvent servir de clés dans la fusion avec le dataframe de population cependant on remarque qu'il y a une différence de 7 lignes entre les deux dataframes, nous devrons donc regarder quel sont les pays concernés. On fera une jointure "full outter" pour ne perdre aucune informations (on pourrait faire une jointure lattérale qui supprimerait directement les pays pour lesquels nous avons pas d'informations sur le PIB)

In [24]:
# Merge des datafrma Pop_df et pib_df:
Complet_df = pd.merge(Pop_df, Pib_df, on="c_zone", how="outer")
Complet_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 234 entries, 0 to 233
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   c_zone   234 non-null    object 
 1   zone_x   231 non-null    object 
 2   pop17    231 non-null    float64
 3   evo_pop  231 non-null    float64
 4   zone_y   211 non-null    object 
 5   year     211 non-null    float64
 6   pib/hab  211 non-null    float64
dtypes: float64(4), object(3)
memory usage: 14.6+ KB


In [25]:
# Identification des pays ayant des donnees manquantes:
print(Complet_df.index[Complet_df.isnull().any(axis=1)])

Int64Index([ 39,  55,  64,  66,  85,  89,  93, 109, 118, 122, 144, 145, 154,
            156, 158, 183, 197, 198, 202, 213, 218, 219, 225, 231, 232, 233],
           dtype='int64')


Les données manquantes sont:
- 39, Martinique
- 55, Antilles néerlandaises (ex)
- 64, Nioué
- 66, Îles Mariannes du Nord
- 85, Réunion 
- 89, Sainte-Hélène, Ascension et Tristan da Cunha
- 93, Saint-Pierre-et-Miquelon
- 109, Sahara occidental
- 118, Chine, Taiwan Province de
- 122, Tokélaou
- 144, Îles Vierges américaines
- 145, Îles Wallis-et-Futuna
- 154, Îles Anglo-Normandes
- 156, Île de Man
- 158, Mayotte
- 197, Îles Féroé
- 198, Îles Falkland (Malvinas)
- 202, Guyane française
- 213, Gibraltar
- 218, Guadeloupe
- 219, Guam
- 225, Saint-Siège
- 231, Chine 
- 232, Curaçao (PIB)
- 233, Sint Maarten (partie néerlandaise)

La plupart des pays sont comme précédement sous dépendance de pays plus influents (France, Pays Bas, Italie...) leur PIB peut donc se retrouver incorporé aux leurs. Par manque de temps pour trouver des sources fiables et pour éviter au maximum la redondance des données nour décidons de les supprimer.

Les cas du Sahara occidental et de Taiwan sont plus complexes, leur indépendance n'étant pas unaniement reconnue par la communauté internationnale leur PIB pourrait être comptabilisé dans celui des pays revendiquant un droit sur leur territoires (le Maroc et la Chine respecctivement). Dans tous les cas nous décidons de les supprimer pour éviter les redondances dans nos données mais aussi parceque leur situation n'est pas très propice aux importations.

Pour fini le cas de la Chine est plus inquitant en effet nous avant son PIB mais pas sa population. En regardant plus attentivement nos données, il s'avère qu'elle est en fait découpé en régions (Macao, Hong-Kong et la Chine continentale), nous avons les données de population et de PIB pour ces régions nous décidons donc de ne pas les réuinir pour gagner en précision et de supprimer le ligne générale "Chine".

En résumé nous prennons la déscision de supprimer toutes les lignes contenant au moins un NaN. Nous supprimons également la colonne "year" puisque nous avons décidés de nous concentrer sur l'année 2017 et la colonne "Zone_y" duplicat de "zone_x" qui sera donc renommée en "zone" 

In [26]:
# Suppression des donnees manquantes:
Complet_df = Complet_df.dropna()

# Suppression et renommage des colonnes zones:
Complet_df.drop(["zone_y"],axis=1, inplace=True)
Complet_df.drop(["year"],axis=1, inplace=True)
Complet_df.rename(columns={"zone_x": "zone"},inplace=True)

Regardons ensuite Prot_df:

In [27]:
# Modification du dataframe Pop_df:
Prot_df = pd.pivot_table(Prot_df, columns=["prod"], index=["c_zone","zone"]).reset_index()
Prot_df.columns = ["c_zone","zone","dispo_prot_(g/hab/j)","dispo_prot_animal_(g/hab/j)"]
Prot_df.info()

# Ajout colonne ratio disponibilite en proteine animale sur disponibilite en protein totale:
Prot_df["ratio_prot_animal/prot_tot"] = Prot_df["dispo_prot_animal_(g/hab/j)"]/Prot_df["dispo_prot_(g/hab/j)"]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173 entries, 0 to 172
Data columns (total 4 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   c_zone                       173 non-null    object 
 1   zone                         173 non-null    object 
 2   dispo_prot_(g/hab/j)         173 non-null    float64
 3   dispo_prot_animal_(g/hab/j)  173 non-null    float64
dtypes: float64(2), object(2)
memory usage: 5.5+ KB


In [28]:
# On verrifie l'unicite de c_zone pour Prot_df:
print(Prot_df["c_zone"].nunique())


173


173 codes zones pour 173 lignes, les codes zones sont bien uniques et peuvent servir de clé.

In [29]:
# Merge des datafrma Complet_df et Prot_df:
Complet_df = pd.merge(Complet_df, Prot_df, on="c_zone", how="outer")
Complet_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 210 entries, 0 to 209
Data columns (total 9 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   c_zone                       210 non-null    object 
 1   zone_x                       208 non-null    object 
 2   pop17                        208 non-null    float64
 3   evo_pop                      208 non-null    float64
 4   pib/hab                      208 non-null    float64
 5   zone_y                       173 non-null    object 
 6   dispo_prot_(g/hab/j)         173 non-null    float64
 7   dispo_prot_animal_(g/hab/j)  173 non-null    float64
 8   ratio_prot_animal/prot_tot   173 non-null    float64
dtypes: float64(6), object(3)
memory usage: 16.4+ KB


In [30]:
Complet_df.drop(["zone_y"],axis=1, inplace=True)
Complet_df.rename(columns={"zone_x": "zone"},inplace=True)

Passons maintenant au remodelage du dataframe "Dispo_Alim":

In [31]:
# Creation d'un dataframe specifique à la viande de volaille:
Volaille_df = Dispo_Alim_df.loc[(Dispo_Alim_df["c_prod"] == "2734"),("c_zone","zone","c_element","element","unit","value")]
Volaille_df["element_(unit)"] = Volaille_df["element"].map(str) + " (" + Volaille_df["unit"] + ")"
Volaille_df.drop(["c_element"],axis=1, inplace=True)
Volaille_df.drop(["element"],axis=1, inplace=True)
Volaille_df.drop(["unit"],axis=1, inplace=True)
Volaille_df = pd.pivot_table(Volaille_df, columns=["element_(unit)"], index=["c_zone","zone"]).reset_index()
Volaille_df = Volaille_df.drop(Volaille_df.columns[[2,3,4,5,7,10,12,13,15,16,17,18]],axis=1)
Volaille_df.columns = ["c_zone","zone","dispo_alim_volaille_(kg/hab/an)","dispo_prot_volaille_(g/hab/j)","dispo_int_volaille_(kt)","import_volaille_(kt)","production_volaille_(kt)"]
Volaille_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172 entries, 0 to 171
Data columns (total 7 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   c_zone                           172 non-null    object 
 1   zone                             172 non-null    object 
 2   dispo_alim_volaille_(kg/hab/an)  172 non-null    float64
 3   dispo_prot_volaille_(g/hab/j)    172 non-null    float64
 4   dispo_int_volaille_(kt)          170 non-null    float64
 5   import_volaille_(kt)             170 non-null    float64
 6   production_volaille_(kt)         168 non-null    float64
dtypes: float64(5), object(2)
memory usage: 9.5+ KB


Il y a des cases vides

In [32]:
print(Volaille_df.index[Volaille_df.isnull().any(axis=1)])

Int64Index([23, 32, 106, 151], dtype='int64')


- 23, République démocratique populaire lao : dipos intérieure, imports et production manquent
- 32, Maldives : production manque
- 106, Ouzbékistan : dipos intérieure, imports et production manquent
- 151, Djibouti : production manque

Les analyses à venir ne supportant que mal les données manquantes nous supprimons ces lignes.

Si temps:
*On pourrait aussi utiliser le package missMDA dans R en complément de FactoMineR...* 
*Nous savons (P04) que la Disponibilité intérieure = Production + Importation - Exportation + Variation des stocks. On peut donc en déduire que :*
*Production = Disponibilité intérieure - Importations + Exportation - Variations des stocks.*
*Cette formule nous permet de completer nos données de manière suffisament préscise pour Djibouti et les Maldives, cependant pour la République démocratique populaire du Laos et l'Ouzbékistan trop de données manquent pour l'appliquée.*


In [33]:
# Suppression des données manquantes:
Volaille_df = Volaille_df.dropna()

# On verrifie l'unicite de c_zone pour Volaille_df:
print(Volaille_df["c_zone"].nunique())


168


168 c_zone pour 168 lignes, les codes sont bien uniques et peuvent servir de clés dans la fusion avec le dataframe Complet_df

In [34]:
# Merge des datafrma Complet_df et Volaille_df:
Complet_df = pd.merge(Complet_df, Volaille_df, on="c_zone", how="outer")
Complet_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 210 entries, 0 to 209
Data columns (total 14 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   c_zone                           210 non-null    object 
 1   zone_x                           208 non-null    object 
 2   pop17                            208 non-null    float64
 3   evo_pop                          208 non-null    float64
 4   pib/hab                          208 non-null    float64
 5   dispo_prot_(g/hab/j)             173 non-null    float64
 6   dispo_prot_animal_(g/hab/j)      173 non-null    float64
 7   ratio_prot_animal/prot_tot       173 non-null    float64
 8   zone_y                           168 non-null    object 
 9   dispo_alim_volaille_(kg/hab/an)  168 non-null    float64
 10  dispo_prot_volaille_(g/hab/j)    168 non-null    float64
 11  dispo_int_volaille_(kt)          168 non-null    float64
 12  import_volaille_(kt)  

Il y a beaucoup de données manquantes (40 zones sont concernées, elles n'ont pas de donées dans le dataframe Volaille_df):
* République démocratique populaire lao
* Libye
* Liechtenstein
* Îles Marshall
* Bahreïn
* Maldives
* Monaco
* Montserrat
* Micronésie (États fédérés de)
* Nauru
* Papouasie-Nouvelle-Guinée
* Bermudes
* Porto Rico
* Érythrée
* Qatar
* Bhoutan
* Palaos
* Saint-Marin
* Seychelles
* Singapour
* Somalie
* République arabe syrienne
* Tonga
* Aruba
* Monaco
* Îles Turques-et-Caïques
* Tuvalu
* Ouzbékistan
* Îles Vierges britanniques
* République démocratique du Congo
* Anguilla
* Brunéi Darussalam
* Soudan du Sud
* Burundi
* Palestine
* Îles Caïmanes
* Comores
* Îles Cook
* Andorre
* Guinée équatoriale
* Djibouti
* Groenland

Dans la majorité des cas il s'agit de petites nations dépendant d'autres plus grandes. La déscision est prise de supprimer les lignes contenant au moins un NaN mais nous perdons tout de même des informations, il pourrait être interressant de completer notre jeux de données.

In [35]:
# Suppression des données manquantes:
Complet_df = Complet_df.dropna()

# Suppression et renommage des colonnes zones:
Complet_df.drop(["zone_y"],axis=1, inplace=True)
Complet_df.rename(columns={"zone_x": "zone"},inplace=True)


In [36]:
# Normalisation des imports:
Complet_df["import_volaille_(t/hab)"] = (Complet_df["import_volaille_(kt)"]*1000)/Complet_df["pop17"]
Complet_df.drop(["import_volaille_(kt)"],axis=1, inplace=True)

# Normalisation de la production:
Complet_df["production_volaille_(t/hab)"] = (Complet_df["production_volaille_(kt)"]*1000)/Complet_df["pop17"]
Complet_df.drop(["production_volaille_(kt)"],axis=1, inplace=True)

# Normalisation disponibilite interrieure:
Complet_df["dispo_int_volaille_(t/hab)"] = (Complet_df["dispo_int_volaille_(kt)"]*1000)/Complet_df["pop17"]
Complet_df.drop(["dispo_int_volaille_(kt)"],axis=1, inplace=True)

Complet_df.drop(["pop17"],axis=1, inplace=True)
Complet_df.drop(["dispo_alim_volaille_(kg/hab/an)"],axis=1, inplace=True)

In [37]:
# Ajout colonne ratio disponibilite en proteine de volaille sur disponibilite en protein animale:
Complet_df["ratio_prot_volaille/prot_animal"] = Complet_df["dispo_prot_volaille_(g/hab/j)"]/Complet_df["dispo_prot_animal_(g/hab/j)"]

En dernier on ajoute une colone avec le code ISO des pays pour pouvoir utiliser des représentation graphique sous forme de cartes

In [38]:
#Ajout d'une colonne de code ISO
Complet_df = pd.merge(Complet_df, Code_Pays_df, on="c_zone", how="outer")
Complet_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 175 entries, 0 to 174
Data columns (total 13 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   c_zone                           175 non-null    object 
 1   zone                             167 non-null    object 
 2   evo_pop                          167 non-null    float64
 3   pib/hab                          167 non-null    float64
 4   dispo_prot_(g/hab/j)             167 non-null    float64
 5   dispo_prot_animal_(g/hab/j)      167 non-null    float64
 6   ratio_prot_animal/prot_tot       167 non-null    float64
 7   dispo_prot_volaille_(g/hab/j)    167 non-null    float64
 8   import_volaille_(t/hab)          167 non-null    float64
 9   production_volaille_(t/hab)      167 non-null    float64
 10  dispo_int_volaille_(t/hab)       167 non-null    float64
 11  ratio_prot_volaille/prot_animal  167 non-null    float64
 12  iso3                  

Les valeurs nulles dans correpsondent à des code IS3 ou FAO de pays qui ont été supprimés préalablement par manque de données, on ne les garde pas.

In [39]:
# Suppression des données manquantes:
Complet_df = Complet_df.dropna()

Complet_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 167 entries, 0 to 166
Data columns (total 13 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   c_zone                           167 non-null    object 
 1   zone                             167 non-null    object 
 2   evo_pop                          167 non-null    float64
 3   pib/hab                          167 non-null    float64
 4   dispo_prot_(g/hab/j)             167 non-null    float64
 5   dispo_prot_animal_(g/hab/j)      167 non-null    float64
 6   ratio_prot_animal/prot_tot       167 non-null    float64
 7   dispo_prot_volaille_(g/hab/j)    167 non-null    float64
 8   import_volaille_(t/hab)          167 non-null    float64
 9   production_volaille_(t/hab)      167 non-null    float64
 10  dispo_int_volaille_(t/hab)       167 non-null    float64
 11  ratio_prot_volaille/prot_animal  167 non-null    float64
 12  iso3                  

In [40]:
# Export de Complet_df en CSV :
#Complet_df.to_csv("C:\\Users\\leroc\\Dropbox\\2020 - 2021 OpenClassrooms, MOOC et conférences\\09 - Produisez une étude de marché avec R ou Python\\Complet_data.csv",
#                index = False,
#                header=True)