### Exportation vers Sqlite et requêtes SQL

- On va requêter grâce à Pandas. On va créer une connexion grâce au module sqlite3 qui nous permet d'afficher le résultat des requêtes SQL.

- Importation des librairies

In [41]:
import pandas as pd
import sqlite3

- Téléchargement des fichiers

In [4]:
df_population = pd.read_csv("fr_population.csv")
df_vegetal = pd.read_csv("fr_vegetaux.csv")
df_animal = pd.read_csv("fr_animaux.csv")
df_sous_alimentation = pd.read_csv("fr_sousalimentation.csv")

### Question 15

Proposez une clé primaire pertinente pour cette table.

Votre base devra contenir ces différentes tables :

- Une table appelée population, contenant la population de chaque pays pour 2013. Elle devra contenir 4 colonnes : pays, code_pays, annee, population.

In [9]:
# exporter le df

# supprimer la ligne correspondant à la Chine
population = df_population.loc[df_population["Symbole"]!="A"]

# On sélectionne les colonnes 'code zone', 'zone' et 'année'
liste_col = ["Code zone","Zone","Année"]
population = df_population[liste_col]
# On les renomme
population = population.rename(columns={"Code zone":"code_pays","Zone":"pays", "Année":"annee"})

# colonne population multipliée par 1000 (unité)
population["population"] = df_population["Valeur"]*1000
population.head()

Unnamed: 0,code_pays,pays,annee,population
0,2,Afghanistan,2013,30552000
1,202,Afrique du Sud,2013,52776000
2,3,Albanie,2013,3173000
3,4,Algérie,2013,39208000
4,79,Allemagne,2013,82727000


- Clé primaire code_pays et année

In [10]:
# exportation à SQL
population.to_csv("population.csv", index = False)

In [46]:
#Création de la table population
cur.execute('''CREATE TABLE population(
           code_pays INTEGER,
           pays TEXT,
           annee INTEGER,
           population REAL,
           PRIMARY KEY(code_pays, annee))''')
conn.commit()

In [47]:
population.to_sql('population', conn, if_exists='replace', index=False)

### Question 16

Proposez une clé primaire pertinente pour cette table.

Une table appelée dispo_alim contenant pour chaque pays et pour chaque produit en 2013, les informations suivantes:
- la nature du produit (deux valeurs possibles : “animal” ou “végétal”)
- disponibilité alimentaire en tonnes
- disponibilité alimentaire en Kcal/personne/jour
- disponibilité alimentaire de protéines en g/personne/jour
- disponibilité alimentaire de matières grasses en g/personne/jour
- Elle devra contenir ces colonnes : pays, code_pays, année, produit, code_produit, origin, dispo_alim_tonnes, dispo_alim_kcal_p_j, dispo_prot, dispo_mat_gr .

In [17]:
# concaténation des df animaux et végétaux
# On ajoute une colonne origine dans chaque df

df_vegetal["Origine"] = "Vegetale"
df_animal["Origine"] = "Animale"

# concaténation
animal_vegetal = pd.concat([df_vegetal, df_animal])

# On exclut les lignes "Chine" (redondance)
animal_vegetal = animal_vegetal.loc[animal_vegetal["Code zone"]!=351]

# créer un tableau croisé dynamique (table pivot)
# le table pivot
animal_vegetal_pivot = pd.pivot_table(animal_vegetal_new, index=["Code zone", "Zone","Code Produit", "Produit","Origine","Année",
                                                     "Code année"], columns="Élément", values="Valeur", aggfunc="sum")

# réinitialiser les indexs
alimen = animal_vegetal_pivot.reset_index()

# On sélectionne les colonnes
liste_col = ["Code zone","Zone","Année","Produit","Code Produit","Origine",
            "Disponibilité alimentaire en quantité (kg/personne/an)",
            "Disponibilité alimentaire (Kcal/personne/jour)",
            "Disponibilité de protéines en quantité (g/personne/jour)",
            "Disponibilité de matière grasse en quantité (g/personne/jour)"]

dispo_alim = alimen[liste_col]

# On les renomme

dispo_alim = dispo_alim.rename(columns={"Code zone":"code_pays","Zone":"pays",
                                        "Année":"annee","Produit":"produit",
                                        "Code Produit":"code_produit","Origine":"origin",
            "Disponibilité alimentaire en quantité (kg/personne/an)":"dispo_alim_tonnes",
                "Disponibilité alimentaire (Kcal/personne/jour)":"dispo_alim_kcal_p_j",
                "Disponibilité de protéines en quantité (g/personne/jour)":"dispo_prot",
        "Disponibilité de matière grasse en quantité (g/personne/jour)":"dispo_mat_gr"})
dispo_alim.head()

Élément,code_pays,pays,annee,produit,code_produit,origin,dispo_alim_tonnes,dispo_alim_kcal_p_j,dispo_prot,dispo_mat_gr
0,1,Arménie,2013,Blé,2511,Vegetale,130.6,1024.0,30.52,3.6
1,1,Arménie,2013,Orge,2513,Vegetale,0.0,0.0,0.0,0.0
2,1,Arménie,2013,Maïs,2514,Vegetale,0.03,0.0,0.01,
3,1,Arménie,2013,Seigle,2515,Vegetale,0.12,1.0,0.02,0.0
4,1,Arménie,2013,Avoine,2516,Vegetale,0.37,2.0,0.09,0.03


- clé primaire qui est composée de 3 colonnes, c'est ce que l'on appelle une clé "composite" (code_pays, code_produit, annee)

In [18]:
# exportation à SQL
dispo_alim.to_csv("dispo_alim.csv", index = False)

In [48]:
#Création de la table dispo_alim
cur.execute('''CREATE TABLE dispo_alim(
            code_pays INTEGER,
            pays TEXT,
            annee INTEGER,
            produit TEXT,
            code_produit INTEGER,
            origin TEXT,
            dispo_alim_tonnes REAL,
            dispo_alim_kcal_p_j REAL,
            dispo_prot REAL,
            dispo_mat_gr REAL,
            PRIMARY KEY(code_pays, annee, code_produit))''')
conn.commit()

In [49]:
dispo_alim.to_sql('dispo_alim', conn, if_exists='replace', index=False)

### Question 17

Proposez une clé primaire pertinente pour cette table.

Une table appelée equilibre_prod contenant pour chaque pays et pour chaque produit en 2013, les quantités suivantes :
- disponibilité intérieure
- aliments pour animaux
- semences
- pertes
- transformés
- nourriture
- autres utilisations
- Elle devra contenir ces colonnes : pays, code_pays, année, produit, code_produit, dispo_int, alim_ani, semences, pertes, transfo, nourriture, autres_utilisations.

In [19]:
# On sélectionne les colonnes

liste_col2 = ["Zone","Code zone","Année","Produit","Code Produit",
             "Disponibilité intérieure","Aliments pour animaux","Semences","Pertes",
                 "Traitement","Nourriture","Autres utilisations (non alimentaire)"]

equilibre_prod = alimen[liste_col2]

# On les renomme 
equilibre_prod = equilibre_prod.rename(columns={"Code zone":"code_pays","Zone":"pays", "Année":"annee","Produit":"produit",
                                                "Code Produit":"code_produit", "Disponibilité intérieure":"dispo_int",
                                                "Aliments pour animaux":"alim_ani", "Semences":"semences","Pertes":"pertes",
                                                "Traitement":"transfo",  "Nourriture":"nourriture",
                                                "Autres utilisations (non alimentaire)":"autres_utilisations"})
equilibre_prod.head()

Élément,pays,code_pays,annee,produit,code_produit,dispo_int,alim_ani,semences,pertes,transfo,nourriture,autres_utilisations
0,Arménie,1,2013,Blé,2511,554.0,93.0,30.0,32.0,10.0,389.0,0.0
1,Arménie,1,2013,Orge,2513,198.0,137.0,14.0,15.0,7.0,0.0,26.0
2,Arménie,1,2013,Maïs,2514,102.0,96.0,0.0,7.0,,0.0,
3,Arménie,1,2013,Seigle,2515,1.0,1.0,0.0,0.0,,0.0,
4,Arménie,1,2013,Avoine,2516,6.0,4.0,0.0,0.0,,1.0,


- clé primaire qui est composée de 3 colonnes, c'est ce que l'on appelle une clé "composite" (code_pays, code_produit, annee)

In [20]:
# exportation à SQL
equilibre_prod.to_csv("equilibre_prod.csv", index = False)

In [50]:
#Création de la table equilibre_prod
cur.execute("""CREATE TABLE equilibre_prod(
            pays TEXT, 
            code_pays INTEGER, 
            annee INTEGER, 
            produit TEXT, 
            code_produit INTEGER, 
            dispo_int REAL, 
            alim_ani REAL, 
            semences REAL, 
            pertes REAL, 
            nourriture REAL, 
            autres_utilisations REAL,
            PRIMARY KEY(code_pays, code_produit, annee))""")
conn.commit()

In [51]:
equilibre_prod.to_sql('equilibre_prod', conn, if_exists='replace', index=False)

### Question 18

Vous vous en doutez... proposez encore une fois une clé primaire pertinente pour cette table !

Une table appelée sous_nutrition, contenant le nombre de personnes en sous-alimentation pour chaque pays en 2013. Elle devra contenir 4 colonnes : pays, code_pays, année, nb_personnes.

In [23]:
# 2012-2014 pour les calculs
sous_alimentation_2013 = df_sous_alimentation[df_sous_alimentation["Année"]\
                                                               .str.contains("2012-2014")]

# On sélectionne uniquement les données estimées par la FAO
sous_alimentation_2013 = sous_alimentation_2013.loc[
                        (df_sous_alimentation["Description du Symbole"]=="Estimation FAO")]

#  On supprime la donnée "<0.1"
sous_alimentation_2013 = sous_alimentation_2013[~sous_alimentation_2013['Valeur']\
                                                                        .isin(['<0.1'])]

# conversion de la colonne en float
sous_alimentation_2013["Valeur"] = pd.to_numeric(sous_alimentation_2013["Valeur"], errors='coerce')

# On renomme la colonne "Valeur" en "sous_alimentés"

sous_alimentation_2013 = sous_alimentation_2013.rename(columns={"Valeur":"sous_alimentés"})

# On supprime les données de la Chine (redondance)
sous_nutrition = sous_alimentation_2013.loc[df_sous_alimentation["Zone"]!="Chine"]

# On sélectionne les colonnes 
liste_col = ["Zone","Code zone", "Année"]

sous_nutrition = sous_nutrition[liste_col]

# colonne pour l'avoir en millions
sous_nutrition["nb_personnes"] = sous_alimentation_2013["sous_alimentés"]*1000000

# On les renomme
sous_nutrition = sous_nutrition.rename(columns={"Zone":"pays", "Code zone":"code_pays", "Année":"annee"})
sous_nutrition.head()

Unnamed: 0,pays,code_pays,annee,nb_personnes
0,Afghanistan,2,2012-2014,7900000.0
5,Afrique du Sud,202,2012-2014,2600000.0
10,Albanie,3,2012-2014,200000.0
15,Algérie,4,2012-2014,1700000.0
30,Angola,7,2012-2014,8100000.0


- clé primaire qui est composée de 2 colonnes, c'est ce que l'on appelle une clé "composite" (code_pays, annee)

In [24]:
sous_nutrition.to_csv("sous_nutrition.csv", index = False)

In [56]:
#cur.execute("DROP TABLE sous_nutrition")

In [55]:
#Création de la table sous_nutrition
cur.execute("""CREATE TABLE sous_nutrition(
            pays TEXT, code_pays INTEGER, annee TEXT, nb_personnes REAL, CONSTRAINT pays_annee PRIMARY KEY (pays, annee))""")

conn.commit()

In [57]:
sous_nutrition.to_sql('sous_nutrition', conn, if_exists='replace', index=False)

### Question 19

Écrivez les requêtes SQL permettant de connaître…

- Les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.
- Pour l'année 2013, les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant.
- La quantité totale (en kg) de produits perdus par pays en 2013.
- Les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.
- Les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé.

In [25]:
# On crée la connexion entre notre base de données et notre notebook
conn = sqlite3.connect("/Users/Rodrigo Torres/Desktop//proje3_BDD.db")
cur = conn.cursor()

##### Les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.

- Protéins

In [58]:
reque_1 = pd.read_sql_query(
    """SELECT pays, sum(dispo_prot/1000) AS dispo_prot_habitant 
        FROM dispo_alim 
        GROUP BY pays 
        ORDER BY dispo_prot_habitant 
        DESC LIMIT 10""", conn)
reque_1

Unnamed: 0,pays,dispo_prot_habitant
0,Islande,0.13306
1,Chine - RAS de Hong-Kong,0.12907
2,Israël,0.128
3,Lituanie,0.12436
4,Maldives,0.12232
5,Finlande,0.11756
6,Luxembourg,0.11364
7,Monténégro,0.1119
8,Pays-Bas,0.11146
9,Albanie,0.11137


- Kcal

In [59]:
reque_2 = pd.read_sql_query(
    """SELECT pays, sum(dispo_alim_kcal_p_j) AS dispo_kcal_habitant 
        FROM dispo_alim 
        GROUP BY pays 
        ORDER BY dispo_kcal_habitant 
        DESC LIMIT 10""", conn)
reque_2

Unnamed: 0,pays,dispo_kcal_habitant
0,Autriche,3770.0
1,Belgique,3737.0
2,Turquie,3708.0
3,États-Unis d'Amérique,3682.0
4,Israël,3610.0
5,Irlande,3602.0
6,Italie,3578.0
7,Luxembourg,3540.0
8,Égypte,3518.0
9,Allemagne,3503.0


- Pour l'année 2013, les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant.

In [60]:
reque_3 = pd.read_sql_query(
    """SELECT pays, sum(dispo_prot/1000) AS dispo_prot_habitant_kg 
        FROM dispo_alim 
        GROUP BY pays 
        ORDER BY dispo_prot_habitant_kg 
        ASC LIMIT 10""", conn)
reque_3

Unnamed: 0,pays,dispo_prot_habitant_kg
0,Libéria,0.03766
1,Guinée-Bissau,0.04405
2,Mozambique,0.04568
3,République centrafricaine,0.04604
4,Madagascar,0.04669
5,Haïti,0.0477
6,Zimbabwe,0.04832
7,Congo,0.05141
8,Ouganda,0.05264
9,Sao Tomé-et-Principe,0.0531


- La quantité totale (en kg) de produits perdus par pays en 2013.

In [61]:
reque_4 = pd.read_sql_query(
    """SELECT pays, annee, sum(pertes)*1000000 
        FROM equilibre_prod 
        GROUP BY pays""", conn)
reque_4

Unnamed: 0,pays,annee,sum(pertes)*1000000
0,Afghanistan,2013,1.135000e+09
1,Afrique du Sud,2013,2.193000e+09
2,Albanie,2013,2.760000e+08
3,Algérie,2013,3.753000e+09
4,Allemagne,2013,3.781000e+09
...,...,...,...
169,Émirats arabes unis,2013,7.050000e+08
170,Équateur,2013,7.070000e+08
171,États-Unis d'Amérique,2013,7.162000e+09
172,Éthiopie,2013,2.256000e+09


- Les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.

In [62]:
reque_5 = pd.read_sql_query(
    """SELECT S.pays,(S.nb_personnes /P.population)*100 as prop_sous_alim   
        FROM sous_nutrition S, population P
        WHERE P. code_pays = S. code_pays
        ORDER BY prop_sous_alim  DESC
        LIMIT 10""", conn)
reque_5

Unnamed: 0,pays,prop_sous_alim
0,Haïti,50.402249
1,Zambie,48.146365
2,Zimbabwe,46.64311
3,République centrafricaine,43.327556
4,République populaire démocratique de Corée,42.578831
5,Congo,40.467626
6,Tchad,38.206628
7,Angola,37.723547
8,Libéria,37.261295
9,Madagascar,35.768811


- Les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé.

In [63]:
reque_6 = pd.read_sql_query(
   """SELECT produit, avg(autres_utilisations /dispo_int) as ratio_others_dispo FROM equilibre_prod
        GROUP BY produit
        ORDER BY  ratio_others_dispo DESC
        LIMIT 10""",conn)
reque_6

Unnamed: 0,produit,ratio_others_dispo
0,"Alcool, non Comestible",0.982456
1,Plantes Aquatiques,0.920661
2,Huile de Palmistes,0.773645
3,Piments,0.73913
4,Huile de Palme,0.65252
5,Huile de Colza&Moutarde,0.616865
6,Palmistes,0.575625
7,Huile de Coco,0.570894
8,Huil Plantes Oleif Autr,0.547179
9,Huile de Son de Riz,0.502955


### Question 20

pour quelques uns des produits identifiés dans cette dernière requête SQL, supposez quelles sont ces "autres utilisations" possibles

Quelles sont les autres utilisations possibles pour ces 10 produits ?

- Alcool : usage médical, cosmétique et combustible 
- Plantes aquatiques : aquariophilie 
- Huile de palmistes, huile de palme, huile de colza, palmistes, huile de coco, huile de plantes oleif, huile de son de riz : bio-carburants et cosmétique 
- Piments : usage médicinal