# Data Analyst au sein de la FAO

lien du brief : https://simplonline.co/briefs/688fc302-e4d4-4324-8904-f22316c31713



lien du dossier git : https://github.com/data-IA-2023/Groupe-3


Vous venez d'intégrer la FAO (Food and Agriculture Organization of the United Nations). BRAVO !!!!!!
Vous allez mener votre première mission en analysant les données mondiales de production agricole, d'alimentation et de nutrition.

**Livrables**

* Un dépôt Github
* Un notebook **fonctionnel, documenté et commenté**
* Une présentation écrite et orale résumant vos travaux, votre analyse et vos recommandations

**Contexte du projet**

* Au sein du service Data Analytics and Prospective de la FAO, vous êtes en charge d'analyser les données produites par les Nations Unies.

* Ces analyses conduisent à des rapports de synthèse à destination des décideurs.

* Pour êtes également en charge de la partie Prospective, c'est à dire donner des tendances et des évolutions probables quant à la production agricole, à l'alimentation et la nutrition mondiales.


**Ressource(s)**

FAO - Wikipedia : https://fr.wikipedia.org/wiki/Organisation_des_Nations_unies_pour_l'alimentation_et_l'agriculture

FAOSTAT : https://www.fao.org/faostat/fr/#home

Les données FAO 2013 : https://github.com/remijul/dataset/tree/master/fao_2013

## Partie extraction des données

In [129]:
"""
0 : importation
"""
import pandas as pd
import numpy as np
import seaborn as sns

In [130]:
"""
1.7 : creation du fichier "Données de la sécurité alimentaire 2020"
"""

chemein_fichier = "https://raw.githubusercontent.com/data-IA-2023/Groupe-3/main/fao_2020/FAOSTAT_2020_Donn%C3%A9es%20de%20la%20s%C3%A9curit%C3%A9%20alimentaire.csv"

df_securite_alimentaire_2020 = pd.read_csv(chemein_fichier, sep=',', on_bad_lines='skip', encoding='utf-8')
#df_securite_alimentaire_2020

In [131]:
"""
1.8 : creation du fichier "Population 2020"
"""

chemein_fichier = "https://raw.githubusercontent.com/data-IA-2023/Groupe-3/main/fao_2020/FAOSTAT_2020_Population.csv"

df_population_2020 = pd.read_csv(chemein_fichier, sep=',', on_bad_lines='skip', encoding='utf-8')
#df_population_2020

## Partie netoyage des données

In [132]:
"""
2.7 : info sur le fichier "Données de la sécurité alimentaire 2020"
"""
df_securite_alimentaire_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12638 entries, 0 to 12637
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Code Domaine            12638 non-null  object
 1   Domaine                 12638 non-null  object
 2   Code zone (M49)         12638 non-null  int64 
 3   Zone                    12638 non-null  object
 4   Code Élément            12638 non-null  int64 
 5   Élément                 12638 non-null  object
 6   Code Produit            12638 non-null  object
 7   Produit                 12638 non-null  object
 8   Code année              12638 non-null  int64 
 9   Année                   12638 non-null  object
 10  Unité                   12638 non-null  object
 11  Valeur                  7902 non-null   object
 12  Symbole                 12439 non-null  object
 13  Description du Symbole  12439 non-null  object
 14  Note                    648 non-null    object
dtypes:

In [133]:
"""
3.7 : suprime doublon
"""
df_securite_alimentaire_2020.drop_duplicates(ignore_index=True)
df_securite_alimentaire_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12638 entries, 0 to 12637
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Code Domaine            12638 non-null  object
 1   Domaine                 12638 non-null  object
 2   Code zone (M49)         12638 non-null  int64 
 3   Zone                    12638 non-null  object
 4   Code Élément            12638 non-null  int64 
 5   Élément                 12638 non-null  object
 6   Code Produit            12638 non-null  object
 7   Produit                 12638 non-null  object
 8   Code année              12638 non-null  int64 
 9   Année                   12638 non-null  object
 10  Unité                   12638 non-null  object
 11  Valeur                  7902 non-null   object
 12  Symbole                 12439 non-null  object
 13  Description du Symbole  12439 non-null  object
 14  Note                    648 non-null    object
dtypes:

In [134]:
"""
4.7 : exploration des données et supprétion des données redondantes
"""
n = df_securite_alimentaire_2020.nunique(axis=0)
n

Code Domaine                 1
Domaine                      1
Code zone (M49)            204
Zone                       204
Code Élément                12
Élément                      3
Code Produit                44
Produit                     43
Code année                   2
Année                        2
Unité                        8
Valeur                    1820
Symbole                      4
Description du Symbole       4
Note                         2
dtype: int64

In [135]:
"""
on remarque que Code Domaine et Domaine n'ont que 1 valeur, elles sont peut-être redondande.
Code année et Année ont 2 valeurs, elles sont peut-être redondande. A voir, si oui, suprimé Code année
Code zone (M49) et Zone ont 204 valeurs, elles sont peut-être redondande. A voir, si oui, suprimé Code zone
Symbole et Description du Symbole ont 4 valeurs, elles sont peut-être redondande. A voir, si oui, 
suprimé Symbole et renommé Description du Symbole en Symbole
"""

"\non remarque que Code Domaine et Domaine n'ont que 1 valeur, elles sont peut-être redondande.\nCode année et Année ont 2 valeurs, elles sont peut-être redondande. A voir, si oui, suprimé Code année\nCode zone (M49) et Zone ont 204 valeurs, elles sont peut-être redondande. A voir, si oui, suprimé Code zone\nSymbole et Description du Symbole ont 4 valeurs, elles sont peut-être redondande. A voir, si oui, \nsuprimé Symbole et renommé Description du Symbole en Symbole\n"

In [136]:
Code_Domaine_info = df_securite_alimentaire_2020['Code Domaine'].value_counts()
Domaine_info = df_securite_alimentaire_2020['Domaine'].value_counts()
print (Code_Domaine_info, "\n", Domaine_info)

Code Domaine
FS    12638
Name: count, dtype: int64 
 Domaine
Données de la sécurité alimentaire    12638
Name: count, dtype: int64


In [137]:
"""
Les lignes sont bien redondande, on crée une table de coresponcence, suprime la colone "Domaine"
"""
Code_Domaine_count = df_securite_alimentaire_2020['Code Domaine'].nunique()
Domaine_count = df_securite_alimentaire_2020['Domaine'].nunique()

if Code_Domaine_count == Domaine_count :
    liste_value_Code_Domaine = df_securite_alimentaire_2020['Code Domaine'].unique()
    liste_value_Domaine = df_securite_alimentaire_2020['Domaine'].unique()
    dic_Code_Domaine_Domaine = dict(zip(liste_value_Code_Domaine, liste_value_Domaine))
    print (dic_Code_Domaine_Domaine)
    df_securite_alimentaire_2020.drop("Domaine", inplace=True, axis=1)

n = df_securite_alimentaire_2020.nunique(axis=0)
n

{'FS': 'Données de la sécurité alimentaire'}


Code Domaine                 1
Code zone (M49)            204
Zone                       204
Code Élément                12
Élément                      3
Code Produit                44
Produit                     43
Code année                   2
Année                        2
Unité                        8
Valeur                    1820
Symbole                      4
Description du Symbole       4
Note                         2
dtype: int64

In [138]:
Code_annee_info = df_securite_alimentaire_2020['Code année'].value_counts()
annee_info = df_securite_alimentaire_2020['Année'].value_counts()
print (Code_annee_info, "\n", annee_info)

Code année
20192021    9588
2020        3050
Name: count, dtype: int64 
 Année
2019-2021    9588
2020         3050
Name: count, dtype: int64


In [139]:
"""
'Code année' et 'Année' sont bien redondant, on va supprimer 'Année'
"""

Code_Annee_count = df_securite_alimentaire_2020["Code année"].nunique()
Annee_count = df_securite_alimentaire_2020["Année"].nunique()

if Code_Annee_count == Annee_count :
    liste_value_Code_Annee = df_securite_alimentaire_2020["Code année"].unique()
    liste_value_Annee = df_securite_alimentaire_2020["Année"].unique()
    dic_Code_Annee_Annee = dict(zip(liste_value_Code_Annee, liste_value_Annee))
    print (dic_Code_Annee_Annee)
    df_securite_alimentaire_2020.drop("Année", inplace=True, axis=1)

n = df_securite_alimentaire_2020.nunique(axis=0)
n

{20192021: '2019-2021', 2020: '2020'}


Code Domaine                 1
Code zone (M49)            204
Zone                       204
Code Élément                12
Élément                      3
Code Produit                44
Produit                     43
Code année                   2
Unité                        8
Valeur                    1820
Symbole                      4
Description du Symbole       4
Note                         2
dtype: int64

In [140]:
Symbole_info = df_securite_alimentaire_2020['Symbole'].value_counts()
Description_Symbole_info = df_securite_alimentaire_2020['Description du Symbole'].value_counts()
print (Symbole_info, "\n", Description_Symbole_info)

Symbole
E    5629
O    4537
X    1625
A     648
Name: count, dtype: int64 
 Description du Symbole
Valeur estimée                       5629
Valeur manquante                     4537
Ciffre de sources internationales    1625
Chiffre officiel                      648
Name: count, dtype: int64


In [141]:
Symbole_count = df_securite_alimentaire_2020["Symbole"].nunique()
Description_Symbole_count = df_securite_alimentaire_2020["Description du Symbole"].nunique()

if Symbole_count == Description_Symbole_count :
    liste_value_Symbole = df_securite_alimentaire_2020["Symbole"].unique()
    liste_value_Description_Symbole = df_securite_alimentaire_2020["Description du Symbole"].unique()
    dic_Symbole_Description_Symbole = dict(zip(liste_value_Symbole, liste_value_Description_Symbole))
    print (dic_Symbole_Description_Symbole)
    df_securite_alimentaire_2020.drop("Description du Symbole", inplace=True, axis=1)

n = df_securite_alimentaire_2020.nunique(axis=0)
n

{'E': 'Valeur estimée', 'O': 'Valeur manquante', 'X': 'Ciffre de sources internationales', 'A': 'Chiffre officiel', nan: nan}


Code Domaine          1
Code zone (M49)     204
Zone                204
Code Élément         12
Élément               3
Code Produit         44
Produit              43
Code année            2
Unité                 8
Valeur             1820
Symbole               4
Note                  2
dtype: int64

In [142]:
Code_zone_info = df_securite_alimentaire_2020['Code zone (M49)'].value_counts()
zone_info = df_securite_alimentaire_2020['Zone'].value_counts()
print (Code_zone_info, "\n", zone_info)

Code zone (M49)
566    66
270    66
275    66
646    65
496    64
       ..
308    56
583    56
44     56
212    56
158    55
Name: count, Length: 204, dtype: int64 
 Zone
Nigéria                          66
Gambie                           66
Palestine                        66
Rwanda                           65
Mongolie                         64
                                 ..
Grenade                          56
Micronésie (États fédérés de)    56
Bahamas                          56
Dominique                        56
Chine, Taiwan Province de        55
Name: count, Length: 204, dtype: int64


In [143]:
"""
'Code zone (M49)' et 'Zone' sont bien redondant, on va supprimer 'Zone'
"""
Code_Zone_count = df_securite_alimentaire_2020["Code zone (M49)"].nunique()
Zone_count = df_securite_alimentaire_2020["Zone"].nunique()

if Code_Zone_count == Zone_count :
    liste_value_Code_Zone = df_securite_alimentaire_2020["Code zone (M49)"].unique()
    liste_value_Zone = df_securite_alimentaire_2020["Zone"].unique()
    dic_Code_Zone_Zone = dict(zip(liste_value_Code_Zone, liste_value_Zone))
    print (dic_Code_Zone_Zone)
    df_securite_alimentaire_2020.drop("Zone", inplace=True, axis=1)

n = df_securite_alimentaire_2020.nunique(axis=0)
n

{4: 'Afghanistan', 710: 'Afrique du Sud', 8: 'Albanie', 12: 'Algérie', 276: 'Allemagne', 20: 'Andorre', 24: 'Angola', 28: 'Antigua-et-Barbuda', 682: 'Arabie saoudite', 32: 'Argentine', 51: 'Arménie', 36: 'Australie', 40: 'Autriche', 31: 'Azerbaïdjan', 44: 'Bahamas', 48: 'Bahreïn', 50: 'Bangladesh', 52: 'Barbade', 112: 'Bélarus', 56: 'Belgique', 84: 'Belize', 204: 'Bénin', 60: 'Bermudes', 64: 'Bhoutan', 68: 'Bolivie (État plurinational de)', 70: 'Bosnie-Herzégovine', 72: 'Botswana', 76: 'Brésil', 96: 'Brunéi Darussalam', 100: 'Bulgarie', 854: 'Burkina Faso', 108: 'Burundi', 132: 'Cabo Verde', 116: 'Cambodge', 120: 'Cameroun', 124: 'Canada', 152: 'Chili', 159: 'Chine', 344: 'Chine - RAS de Hong-Kong', 446: 'Chine - RAS de Macao', 156: 'Chine, continentale', 158: 'Chine, Taiwan Province de', 196: 'Chypre', 170: 'Colombie', 174: 'Comores', 178: 'Congo', 188: 'Costa Rica', 384: "Côte d'Ivoire", 191: 'Croatie', 192: 'Cuba', 208: 'Danemark', 262: 'Djibouti', 212: 'Dominique', 818: 'Égypte', 2

Code Domaine          1
Code zone (M49)     204
Code Élément         12
Élément               3
Code Produit         44
Produit              43
Code année            2
Unité                 8
Valeur             1820
Symbole               4
Note                  2
dtype: int64

In [144]:
Code_Produit_info = df_securite_alimentaire_2020['Code Produit'].value_counts()
Produit_info = df_securite_alimentaire_2020['Produit'].value_counts()
print (Code_Produit_info)

Code Produit
210091     612
210091F    612
210081F    612
210081M    612
210081     612
210071F    612
210071M    612
210401     612
210401M    612
210401F    612
210071     612
210091M    612
21031      204
21010      204
22000      204
21044      204
21056      204
21057      204
21058      204
21059      204
21061      204
21030      204
21033      204
210011     204
21034      204
21035      204
21012      204
21013      204
21014      204
210041     204
21032      199
21047      188
22013      186
21048      183
21041      155
210410     155
210250     155
21025      155
21045      120
21046      116
21026        4
210260       4
210040       1
210010       1
Name: count, dtype: int64


In [145]:
print (Produit_info)

Produit
Nombre de personnes en situation d’insécurité alimentaire grave (millions) (moyenne sur 3 ans)                                                         1224
Prévalence de l’insécurité alimentaire grave – femmes adultes (%) (moyenne sur 3 ans)                                                                   612
Prévalence de l’insécurité alimentaire modérée ou grave – hommes adultes (%) (moyenne sur 3 ans)                                                        612
Nombre de femmes adultes en situation d’insécurité alimentaire modérée ou grave (millions) (moyenne sur 3 ans)                                          612
Nombre d’hommes adultes en situation d’insécurité alimentaire modérée ou grave (millions) (moyenne sur 3 ans)                                           612
Nombre de personnes en situation d’insécurité alimentaire modérée ou grave (millions) (moyenne sur 3 ans)                                               612
Nombre de femmes adultes en situation d’insécurité alime

In [146]:
"""
si 'Code Produit' et 'Produit' sont bien redondant, on va supprimer 'Produit'
"""
Code_Produit_count = df_securite_alimentaire_2020["Code Produit"].nunique()
Produit_count = df_securite_alimentaire_2020["Produit"].nunique()

if Code_Produit_count == Produit_count :
    liste_value_Code_Produit = df_securite_alimentaire_2020["Code Produit"].unique()
    liste_value_Produit = df_securite_alimentaire_2020["Produit"].unique()
    dic_Code_Produit_Produit = dict(zip(liste_value_Code_Produit, liste_value_Produit))
    print (dic_Code_Produit_Produit)
    df_securite_alimentaire_2020.drop("Produit", inplace=True, axis=1)

n = df_securite_alimentaire_2020.nunique(axis=0)
n

Code Domaine          1
Code zone (M49)     204
Code Élément         12
Élément               3
Code Produit         44
Produit              43
Code année            2
Unité                 8
Valeur             1820
Symbole               4
Note                  2
dtype: int64

In [147]:
"""
2.8 : info sur le fichier "Population 2020"
"""
df_population_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1173 entries, 0 to 1172
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            1173 non-null   object 
 1   Domaine                 1173 non-null   object 
 2   Code zone (M49)         1173 non-null   int64  
 3   Zone                    1173 non-null   object 
 4   Code Élément            1173 non-null   int64  
 5   Élément                 1173 non-null   object 
 6   Code Produit            1173 non-null   int64  
 7   Produit                 1173 non-null   object 
 8   Code année              1173 non-null   int64  
 9   Année                   1173 non-null   int64  
 10  Unité                   1173 non-null   object 
 11  Valeur                  1173 non-null   float64
 12  Symbole                 1173 non-null   object 
 13  Description du Symbole  1173 non-null   object 
 14  Note                    0 non-null      

In [148]:
"""
3.8 : suprime doublon et la colonne 14 car toujour vide
"""
df_population_2020.drop_duplicates(ignore_index=True)
df_population_2020.drop("Note", inplace=True, axis=1)
df_population_2020.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1173 entries, 0 to 1172
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Code Domaine            1173 non-null   object 
 1   Domaine                 1173 non-null   object 
 2   Code zone (M49)         1173 non-null   int64  
 3   Zone                    1173 non-null   object 
 4   Code Élément            1173 non-null   int64  
 5   Élément                 1173 non-null   object 
 6   Code Produit            1173 non-null   int64  
 7   Produit                 1173 non-null   object 
 8   Code année              1173 non-null   int64  
 9   Année                   1173 non-null   int64  
 10  Unité                   1173 non-null   object 
 11  Valeur                  1173 non-null   float64
 12  Symbole                 1173 non-null   object 
 13  Description du Symbole  1173 non-null   object 
dtypes: float64(1), int64(5), object(8)
memor

In [150]:
"""
4.8 : exploration des données et supprétion des données redondantes
"""
n = df_population_2020.nunique(axis=0)
n

Code Domaine                 1
Domaine                      1
Code zone (M49)            236
Zone                       236
Code Élément                 5
Élément                      5
Code Produit                 1
Produit                      1
Code année                   1
Année                        1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [None]:
"""
on remarque que Code Domaine et Domaine n'ont que 1 valeur, elles sont peut-être redondande.
Code zone (M49) et Zone ont 204 valeurs, elles sont peut-être redondande. 
Code Élément et Élément  ont 5 valeurs, elles sont peut-être redondande.
Code Produit et Produit n'ont que 1 valeur, elles sont peut-être redondande. 
Code année et Année ont 1 valeur, elles sont peut-être redondande.
Symbole et Description du Symbole ont 1 valeur, elles sont peut-être redondande.
"""

In [152]:
Code_Domaine_info = df_population_2020['Code Domaine'].value_counts()
Domaine_info = df_population_2020['Domaine'].value_counts()
print (Code_Domaine_info, "\n", Domaine_info)

Code Domaine
OA    1173
Name: count, dtype: int64 
 Domaine
Séries temporelles annuelles    1173
Name: count, dtype: int64


In [153]:
"""
Les lignes sont bien redondande, on crée une table de coresponcence, suprime la colone "Domaine"
"""
Code_Domaine_count = df_population_2020['Code Domaine'].nunique()
Domaine_count = df_population_2020['Domaine'].nunique()

if Code_Domaine_count == Domaine_count :
    liste_value_Code_Domaine = df_population_2020['Code Domaine'].unique()
    liste_value_Domaine = df_population_2020['Domaine'].unique()
    dic_Code_Domaine_Domaine = dict(zip(liste_value_Code_Domaine, liste_value_Domaine))
    print (dic_Code_Domaine_Domaine)
    df_population_2020.drop("Domaine", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{'OA': 'Séries temporelles annuelles'}


Code Domaine                 1
Code zone (M49)            236
Zone                       236
Code Élément                 5
Élément                      5
Code Produit                 1
Produit                      1
Code année                   1
Année                        1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [154]:
Code_zone_info = df_population_2020['Code zone (M49)'].value_counts()
zone_info = df_population_2020['Zone'].value_counts()
print (Code_zone_info, "\n", zone_info)

Code zone (M49)
4      5
586    5
520    5
524    5
558    5
      ..
226    5
716    5
663    3
652    3
830    2
Name: count, Length: 236, dtype: int64 
 Zone
Afghanistan                        5
Pakistan                           5
Nauru                              5
Népal                              5
Nicaragua                          5
                                  ..
Guinée équatoriale                 5
Zimbabwe                           5
Saint-Martin (partie française)    3
Saint-Barthélemy                   3
Îles Anglo-Normandes               2
Name: count, Length: 236, dtype: int64


In [156]:
"""
'Code zone (M49)' et 'Zone' sont bien redondant, on va supprimer 'Zone'
"""
Code_Zone_count = df_population_2020["Code zone (M49)"].nunique()
Zone_count = df_population_2020["Zone"].nunique()

if Code_Zone_count == Zone_count :
    liste_value_Code_Zone = df_population_2020["Code zone (M49)"].unique()
    liste_value_Zone = df_population_2020["Zone"].unique()
    dic_Code_Zone_Zone = dict(zip(liste_value_Code_Zone, liste_value_Zone))
    print (dic_Code_Zone_Zone)
    df_population_2020.drop("Zone", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{4: 'Afghanistan', 710: 'Afrique du Sud', 8: 'Albanie', 12: 'Algérie', 276: 'Allemagne', 20: 'Andorre', 24: 'Angola', 660: 'Anguilla', 28: 'Antigua-et-Barbuda', 682: 'Arabie saoudite', 32: 'Argentine', 51: 'Arménie', 533: 'Aruba', 36: 'Australie', 40: 'Autriche', 31: 'Azerbaïdjan', 44: 'Bahamas', 48: 'Bahreïn', 50: 'Bangladesh', 52: 'Barbade', 112: 'Bélarus', 56: 'Belgique', 84: 'Belize', 204: 'Bénin', 60: 'Bermudes', 64: 'Bhoutan', 68: 'Bolivie (État plurinational de)', 535: 'Bonaire, Saint-Eustache et Saba', 70: 'Bosnie-Herzégovine', 72: 'Botswana', 76: 'Brésil', 96: 'Brunéi Darussalam', 100: 'Bulgarie', 854: 'Burkina Faso', 108: 'Burundi', 132: 'Cabo Verde', 116: 'Cambodge', 120: 'Cameroun', 124: 'Canada', 152: 'Chili', 159: 'Chine', 344: 'Chine - RAS de Hong-Kong', 446: 'Chine - RAS de Macao', 156: 'Chine, continentale', 158: 'Chine, Taiwan Province de', 196: 'Chypre', 170: 'Colombie', 174: 'Comores', 178: 'Congo', 188: 'Costa Rica', 384: "Côte d'Ivoire", 191: 'Croatie', 192: 'Cuba

Code Domaine                 1
Code zone (M49)            236
Code Élément                 5
Élément                      5
Code Produit                 1
Produit                      1
Code année                   1
Année                        1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [157]:
Code_Element_info = df_population_2020['Code Élément'].value_counts()
Element_info = df_population_2020['Élément'].value_counts()
print (Code_zone_info, "\n", zone_info)

Code zone (M49)
4      5
586    5
520    5
524    5
558    5
      ..
226    5
716    5
663    3
652    3
830    2
Name: count, Length: 236, dtype: int64 
 Zone
Afghanistan                        5
Pakistan                           5
Nauru                              5
Népal                              5
Nicaragua                          5
                                  ..
Guinée équatoriale                 5
Zimbabwe                           5
Saint-Martin (partie française)    3
Saint-Barthélemy                   3
Îles Anglo-Normandes               2
Name: count, Length: 236, dtype: int64


In [158]:
"""
'Code Élément' et 'Élément' sont bien redondant, on va supprimer 'Élément'
"""
Code_Element_count = df_population_2020["Code Élément"].nunique()
Element_count = df_population_2020["Élément"].nunique()

if Code_Element_count == Element_count :
    liste_value_Code_Element = df_population_2020["Code Élément"].unique()
    liste_value_Element = df_population_2020["Élément"].unique()
    dic_Code_Element_Element = dict(zip(liste_value_Code_Element, liste_value_Element))
    print (dic_Code_Element_Element)
    df_population_2020.drop("Élément", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{511: 'Population totale', 512: 'Hommes', 513: 'Femmes', 551: 'Population rurale', 561: 'Population urbaine'}


Code Domaine                 1
Code zone (M49)            236
Code Élément                 5
Code Produit                 1
Produit                      1
Code année                   1
Année                        1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [160]:
Code_Produit_info = df_population_2020['Code Produit'].value_counts()
Produit_info = df_population_2020['Produit'].value_counts()
print (Code_Produit_info, "\n", Produit_info)

Code Produit
3010    1173
Name: count, dtype: int64 
 Produit
Population-Estimations    1173
Name: count, dtype: int64


In [162]:
"""
si 'Code Produit' et 'Produit' sont bien redondant, on va supprimer 'Produit'
"""
Code_Produit_count = df_population_2020["Code Produit"].nunique()
Produit_count = df_population_2020["Produit"].nunique()

if Code_Produit_count == Produit_count :
    liste_value_Code_Produit = df_population_2020["Code Produit"].unique()
    liste_value_Produit = df_population_2020["Produit"].unique()
    dic_Code_Produit_Produit = dict(zip(liste_value_Code_Produit, liste_value_Produit))
    print (dic_Code_Produit_Produit)
    df_population_2020.drop("Produit", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{3010: 'Population-Estimations'}


Code Domaine                 1
Code zone (M49)            236
Code Élément                 5
Code Produit                 1
Code année                   1
Année                        1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [164]:
Code_annee_info = df_population_2020['Code année'].value_counts()
annee_info = df_population_2020['Année'].value_counts()
print (Code_annee_info, "\n", annee_info)

Code année
2020    1173
Name: count, dtype: int64 
 Année
2020    1173
Name: count, dtype: int64


In [166]:
"""
'Code année' et 'Année' sont bien redondant, on va supprimer 'Année'
"""

Code_Annee_count = df_population_2020["Code année"].nunique()
Annee_count = df_population_2020["Année"].nunique()

if Code_Annee_count == Annee_count :
    liste_value_Code_Annee = df_population_2020["Code année"].unique()
    liste_value_Annee = df_population_2020["Année"].unique()
    dic_Code_Annee_Annee = dict(zip(liste_value_Code_Annee, liste_value_Annee))
    print (dic_Code_Annee_Annee)
    df_population_2020.drop("Année", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{2020: 2020}


Code Domaine                 1
Code zone (M49)            236
Code Élément                 5
Code Produit                 1
Code année                   1
Unité                        1
Valeur                    1160
Symbole                      1
Description du Symbole       1
dtype: int64

In [167]:
Symbole_info = df_population_2020['Symbole'].value_counts()
Description_Symbole_info = df_population_2020['Description du Symbole'].value_counts()
print (Symbole_info, "\n", Description_Symbole_info)

Symbole
X    1173
Name: count, dtype: int64 
 Description du Symbole
Ciffre de sources internationales    1173
Name: count, dtype: int64


In [169]:
Symbole_count = df_population_2020["Symbole"].nunique()
Description_Symbole_count = df_population_2020["Description du Symbole"].nunique()

if Symbole_count == Description_Symbole_count :
    liste_value_Symbole = df_population_2020["Symbole"].unique()
    liste_value_Description_Symbole = df_population_2020["Description du Symbole"].unique()
    dic_Symbole_Description_Symbole = dict(zip(liste_value_Symbole, liste_value_Description_Symbole))
    print (dic_Symbole_Description_Symbole)
    df_population_2020.drop("Description du Symbole", inplace=True, axis=1)

n = df_population_2020.nunique(axis=0)
n

{'X': 'Ciffre de sources internationales'}


Code Domaine          1
Code zone (M49)     236
Code Élément          5
Code Produit          1
Code année            1
Unité                 1
Valeur             1160
Symbole               1
dtype: int64

## Partie traitement des données

### 1 - Analyses descriptives et exploratoire des données

Il s’agit ici de réaliser des analyses descriptives statistiques et graphiques sur les différentes variables des jeux de données :

    • Analyses univariées
    • Analyses bi-variées
    • Analyses multi-variées

Réaliser également des analyses exploratoires sur les différentes variables

Il s’agit ici de réaliser des analyses descriptives statistiques et graphiques sur les différentes variables des jeux de données :
    • Analyses univariées
    • Analyses bi-variées
    • Analyses multi-variées
Réaliser également des analyses exploratoires sur les différentes variables

In [149]:
"""
7 : fichier "Données de la sécurité alimentaire 2020"
"""



'\n1 : ouverture du fichier "Données de la sécurité alimentaire 2020"\n'

In [None]:
"""
8 : fichier "Population 2020"
"""

### 2 - Etude guidée n°1

Il s’agit ici de répondre à toutes les questions ci-dessous.

#### Question 1 : Nombre d'humains sur la planète
Calculez le nombre total d’humains sur la planète.
Critiquez votre résultat. En cas d’anomalie, analysez et effectuer les corrections nécessaires.
Donnez le résultat de votre calcul pour l'année 2013.

#### Question 2 : Redondances
Identifiez ces redondances, en donnant votre réponse sous forme de formule mathématique (pas besoin de coder ici).
C'est une équation à 3 termes de type (a_1 + a2 + [...] = b_1 + b_2 + [...] = c_1 + c_2 + [...]) ) faisant intervenir chacune des 11 quantités données ci dessus.
Illustrez cette équation avec l'exemple du blé en France.

#### Question 3 : Disponibilité alimentaire (calories, protéines)
Calculez (pour chaque pays et chaque produit) la disponibilité alimentaire en kcal puis en kg de protéines. Vous ferez cela à partir de ces informations :
- Population de chaque pays
- Disponibilité alimentaire donnée pour chaque produit et pour chaque pays en kcal/personne/jour, -
- Disponibilité alimentaire en protéines donnée pour chaque produit et pour chaque pays en g/personne/jour.
Pour cette étape vous avez besoin de constituer une seule et même table à partir des tables animaux et végétaux.

#### Question 4 : Ratio énergie/poids
A partir de ces dernières informations, et à partir du poids de la disponibilité alimentaire (pour chaque pays et chaque produit), calculez pour chaque produit le ratio "énergie/poids", que vous donnerez en kcal/kg. Vous pouvez vérifier la cohérence de votre calcul en comparant ce ratio aux données disponibles sur internet, par exemple en cherchant la valeur calorique d'un oeuf.

#### Question 5 : Aliments les plus caloriques et protéiques
En considérant les aliments végétaux et animaux, citez 5 aliments parmi les 20 aliments les plus caloriques, en utilisant le ratio énergie/poids. Citez 5 aliments parmi les 20 aliments les plus riches en protéines.

#### Question 6 : Dispo. intérieure mondiale des végétaux
Calculez, pour les produits végétaux uniquement, la disponibilité intérieure mondiale exprimée en kcal.

#### Question 7 : Potentiel alimentaire des végétaux
Combien d'humains pourraient être nourris si toute la disponibilité intérieure mondiale de produits végétaux était utilisée pour de la nourriture ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

#### Question 8 : Potentiel alimentaire des végétaux (destinés aux animaux pertes)
Combien d'humains pourraient être nourris si toute la disponibilité alimentaire en produits végétaux la nourriture végétale destinée aux animaux et les pertes de produits végétaux étaient utilisés pour de la nourriture ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

#### Question 9 : Potentiel alimentaire de la dispo. Mondiale
Combien d'humains pourraient être nourris avec la disponibilité alimentaire mondiale ? Donnez les résultats en termes de calories, puis de protéines, et exprimez ensuite ces 2 résultats en pourcentage de la population mondiale.

#### Question 10 : Proportion de la sous-nutrition mondiale
A partir des données téléchargées qui concernent la sous-nutrition, répondez à cette question : Quelle proportion de la population mondiale est considérée comme étant en sous-nutrition ?

#### Question 11 : Céréales
Établissez la liste des produits (ainsi que leur code) considéré comme des céréales selon la FAO. En ne prenant en compte que les céréales destinées à l'alimentation (humaine et animale), quelle proportion (en termes de poids) est destinée à l'alimentation animale ?

#### Question 12 : Sous-nutrition
Sélectionnez parmi les données des bilans alimentaires les informations relatives aux pays dans lesquels la FAO recense des personnes en sous-nutrition.
Repérez les 15 produits les plus exportés par ce groupe de pays.
Parmi les données des bilans alimentaires au niveau mondial, sélectionnez les 200 plus grandes importations de ces produits (1 importation = une quantité d'un produit donné importée par un pays donné).
Groupez ces importations par produit, afin d'avoir une table contenant 1 ligne pour chacun des 15 produits. Ensuite, calculez pour chaque produit les 2 quantités suivantes :

    • le ratio entre la quantité destinés aux "Autres utilisations" (Other uses) et la disponibilité intérieure.
    • le ratio entre la quantité destinée à la nourriture animale et la quantité destinée à la nourriture (animale + humaine)
    
Donnez les 3 produits qui ont la plus grande valeur pour chacun des 2 ratios (vous aurez donc 6 produits à citer)

#### Question 13 : USA
Combien de tonnes de céréales pourraient être libérées si les USA diminuaient leur production de produits animaux de 10% ?

#### Question 14 : Thaïlande
En Thaïlande, quelle proportion de manioc est exportée ? Quelle est la proportion de personnes en sous-nutrition?

### 3 - Etude guidée n°2

Il s’agit ici d’intégrer toutes les données dans une base de données relationnelle puis de répondre à toutes les questions ci-dessous.
La base de données contiendra 4 tables : population, dispo_alim, equilibre_prod, sous_nutrition.

#### Question 15 : Table population
Définir une clé primaire pertinente pour la table population. Intégrer la table dans la base de données relationnelle.

#### Question 16 : Table dispo_alim
La table appelée dispo_alim contient pour chaque pays, pour chaque produit, sur l'année 2013, les informations suivantes:
- la nature du produit (deux valeurs possibles“animal” ou “végétal”)
- disponibilité alimentaire en tonnes
- disponibilité alimentaire en Kcal/personne/jour
- disponibilité alimentaire de protéines en g/personne/jour
- disponibilité alimentaire de matières grasses en g/personne/jour
La table contient ces colonnes : pays, code_pays, année, produit, code_produit, origin, dispo_alim_tonnes, dispo_alim_kcal_p_j, dispo_prot, dispo_mat_gr .
Définir une clé primaire pertinente pour la table dispo_alim. Intégrer la table dans la base de données relationnelle.

#### Question 17 : Table equilibre_prod
La table appelée equilibre_prod contient pour chaque pays, pour chaque produit, et pour l'année disponible 2013, les quantités suivantes :
- disponibilité intérieure
- aliments pour animaux
- semences
- pertes
- transformés
- nourriture
- autres utilisations
Elle contient ces colonnes : pays, code_pays, année, produit, code_produit, dispo_int, alim_ani, semences, pertes, transfo, nourriture, autres_utilisations.
Définir une clé primaire pertinente pour la table equilibre_prod. Intégrer la table dans la base de données relationnelle.

#### Question 18 : Table sous_nutrition
La table appelée sous_nutrition, contient le nombre de personnes en sous-alimentation pour chaque pays et pour chaque année. Elle contient 4 colonnes : pays, code_pays, année, nb_personnes.
Définir une clé primaire pertinente pour la table sous_nutrition. Intégrer la table dans la base de données relationnelle.

#### Question 19 : Requêtes SQL
Formuler les requêtes SQL pour répondre aux questions suivantes :
    • Quels sont les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant ?
    • Quels sont les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant ?
    • Quelle est la quantité totale (en kg) de produits perdus par pays?
    • Quels sont les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte ?
    • Quels sont les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé ?

#### Question 20 : Autres utilisations des produits
Pour quelques-uns des produits identifiés dans cette dernière requête SQL, supposez quelles sont ces "autres utilisations" possibles (recherchez sur internet !).

### 4 - Analyses complémentaire

Fort de votre expérience de Data Analyst, il s’agit maintenant de réaliser vos propres analyses et exploration.