# <span style="color:purple">Etude de santé publique FAO</span>

## Entrez les données dans une base de données relationnelle

Une fois les données correctement formatées et exportées en CSV dans la première partie P3_01_coderéponses, il faut à présent les intégrer dans une base de données.

J'ai choisi **Mysql** et la  dépendence **SqlAlchemy** pour cette partie.

In [1]:
import pandas as pd
import mysql.connector as mysql
from sqlalchemy import create_engine

### <span style="color:purple">Question 15 : Proposez une clé primaire pertinente pour la table population.</span>

Pour cette table, la clé primaire idéale est le couple **code_pays / annee** qui sera forcement unique.

In [2]:
# Nous allons donc créer la table correspondante avec la bonne clé primaire
# Connexion à la base de données
conn = mysql.connect(host="localhost",user="root",password="Attention54", database="p3_database_fao", use_pure=True)
#print(conn)
cursor = conn.cursor()

# Création de la table Mysql
cursor.execute("""
CREATE TABLE IF NOT EXISTS population (
    pays VARCHAR(100) NOT NULL,
    code_pays INTEGER NOT NULL,
    annee INTEGER NOT NULL,
    population INTEGER DEFAULT NULL,
    PRIMARY KEY(code_pays, annee)
);
""")

In [3]:
# Importation des données du CSV dans la table population crée avec sqlalchemy
engine = create_engine('mysql://root:Attention54@localhost:3306/p3_database_fao')

df_population = pd.read_csv('exports/population.csv')
# Truncate de la table pour les besoins de l'actualisation de l'exercice.
cursor.execute("""TRUNCATE TABLE population""")
df_population.to_sql("population", engine, index= False, if_exists='append')

#conn.close()

 ### <span style="color:purple">Question 16 : Proposez une clé primaire pertinente pour la table dispo_alim.</span>

Pour cette table, la clé primaire idéale est l'ensemble **code_pays, annee, code_produit** qui sera forcement unique.

In [4]:
# Création de la table Mysql dispo_alim
cursor.execute("""
CREATE TABLE IF NOT EXISTS dispo_alim (
    pays varchar(100) NOT NULL, 
    code_pays INTEGER NOT NULL, 
    annee INTEGER NOT NULL, 
    produit VARCHAR(100) NOT NULL, 
    code_produit INTEGER NOT NULL, 
    origin VARCHAR(20) DEFAULT NULL, 
    dispo_alim_tonnes FLOAT DEFAULT NULL, 
    dispo_alim_kcal_p_j FLOAT DEFAULT NULL, 
    dispo_prot FLOAT DEFAULT NULL, 
    dispo_mat_gr FLOAT DEFAULT NULL,
    PRIMARY KEY(code_pays, annee, code_produit)
);
""")

In [5]:
df_dispo_alim = pd.read_csv('exports/dispo_alim.csv')
# Truncate de la table pour les besoins de l'actualisation de l'exercice.
cursor.execute("""TRUNCATE TABLE dispo_alim""")
df_dispo_alim.to_sql("dispo_alim", engine, index= False, if_exists='append')

### <span style="color:purple">Question 17 : Proposez une clé primaire pertinente pour la table equilibre_prod.</span>

Pour cette table, la clé primaire idéale est l'ensemble **code_pays, annee, code_produit** qui sera forcement unique.

In [6]:
# Création de la table Mysql equilibre_prod
cursor.execute("""
CREATE TABLE IF NOT EXISTS equilibre_prod (
    pays varchar(100) NOT NULL, 
    code_pays INTEGER NOT NULL, 
    annee INTEGER NOT NULL, 
    produit VARCHAR(100) NOT NULL, 
    code_produit INTEGER NOT NULL, 
    dispo_int FLOAT DEFAULT NULL, 
    alim_ani FLOAT DEFAULT NULL, 
    semences FLOAT DEFAULT NULL, 
    pertes FLOAT DEFAULT NULL, 
    transfo FLOAT DEFAULT NULL, 
    nourriture FLOAT DEFAULT NULL, 
    autres_utilisations FLOAT DEFAULT NULL,
    PRIMARY KEY(code_pays, annee, code_produit)
);
""")

In [7]:
df_equilibre_prod = pd.read_csv('exports/equilibre_prod.csv')
# Truncate de la table pour les besoins de l'actualisation de l'exercice.
cursor.execute("""TRUNCATE TABLE equilibre_prod""")
df_equilibre_prod.to_sql("equilibre_prod", engine, index= False, if_exists='append')

### <span style="color:purple">Question 18 : Proposez une clé primaire pertinente pour la table sous_nutrition.</span>

Pour cette table, la clé primaire idéale est l'ensemble **code_pays, annee** qui sera forcement unique.

In [8]:
# Création de la table Mysql sous_nutrition
cursor.execute("""
CREATE TABLE IF NOT EXISTS sous_nutrition (
    pays varchar(100) NOT NULL, 
    code_pays INTEGER NOT NULL, 
    annee INTEGER NOT NULL,   
    nb_personnes INTEGER DEFAULT NULL,
    PRIMARY KEY(code_pays, annee)
);
""")

In [9]:
df_sous_nutrition = pd.read_csv('exports/sous_nutrition.csv')
# Truncate de la table pour les besoins de l'actualisation de l'exercice.
cursor.execute("""TRUNCATE TABLE sous_nutrition""")
df_sous_nutrition.to_sql("sous_nutrition", engine, index= False, if_exists='append')

## Ecrire des  requêtes SQL sur cette base de données relationnelle.

Une fois les données correctement formatées et exportées en CSV dans la première partie P3_01_coderéponses, il faut à présent les intégrerez dans une base de données.

### <span style="color:purple">Question 19 : Écrivez les requêtes SQL permettant de connaître…</span>

#### Les 10 pays ayant le plus haut ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.

In [10]:
# ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant
paramTri = 'DESC'
query_top_pays_dispo_kg_prot = f"""
SELECT dispo_alim.pays, 
(sum(dispo_alim.dispo_prot * 365)/1000) as ratio_dipo_prot_pays_kg_habts 
FROM dispo_alim 
WHERE dispo_alim.annee = 2013
GROUP BY dispo_alim.pays
ORDER BY ratio_dipo_prot_pays_kg_habts {paramTri}
LIMIT  0,10"""
SQL_query_top_pays_dispo_kg_prot = pd.read_sql_query(query_top_pays_dispo_kg_prot, engine) 

df_top_pays_dispo_kg_prot = pd.DataFrame(SQL_query_top_pays_dispo_kg_prot)
df_top_pays_dispo_kg_prot

Unnamed: 0,pays,ratio_dipo_prot_pays_kg_habts
0,Islande,48.5669
1,Israël,46.72
2,Lituanie,45.3914
3,Maldives,44.6468
4,Finlande,42.9094
5,Luxembourg,41.4786
6,Monténégro,40.8435
7,Pays-Bas,40.6829
8,Albanie,40.650049
9,Portugal,40.46755


In [11]:
# ratio disponibilité alimentaire/habitant en termes de kcal par habitant.
SQL_query_top_pays_dispo_kcal = pd.read_sql_query("""
SELECT dispo_alim.pays,
(SUM(dispo_alim_kcal_p_j * 365)) AS ratio_dipo_pays_kcal_habts 
FROM dispo_alim
WHERE dispo_alim.annee = 2013 
GROUP BY dispo_alim.pays
ORDER BY ratio_dipo_pays_kcal_habts DESC
LIMIT  0,10
""", engine)

df_top_pays_dispo_kcal = pd.DataFrame(SQL_query_top_pays_dispo_kcal)
df_top_pays_dispo_kcal

Unnamed: 0,pays,ratio_dipo_pays_kcal_habts
0,Autriche,1376050.0
1,Belgique,1364005.0
2,Turquie,1353420.0
3,États-Unis d'Amérique,1343930.0
4,Israël,1317650.0
5,Irlande,1314730.0
6,Italie,1305970.0
7,Luxembourg,1292100.0
8,Égypte,1284070.0
9,Allemagne,1278595.0


#### Les 10 pays ayant le plus faible ratio disponibilité alimentaire/habitant en termes de protéines (en kg) par habitant, puis en termes de kcal par habitant.

In [16]:
paramTri = 'ASC'
query_mini_pays_dispo_kg_prot = f"""
SELECT dispo_alim.pays, 
(SUM(dispo_alim.dispo_prot * 365)/1000) AS ratio_dipo_prot_pays_kg_habts 
FROM dispo_alim 
WHERE dispo_alim.annee = 2013
GROUP BY dispo_alim.pays
ORDER BY ratio_dipo_prot_pays_kg_habts {paramTri}
LIMIT  0,10"""
SQL_query_mini_pays_dispo_kg_prot = pd.read_sql_query(query_mini_pays_dispo_kg_prot, engine)

df_mini_pays_dispo_kg_prot = pd.DataFrame(SQL_query_mini_pays_dispo_kg_prot)
df_mini_pays_dispo_kg_prot

Unnamed: 0,pays,ratio_dipo_prot_pays_kg_habts
0,Libéria,13.7459
1,Guinée-Bissau,16.07825
2,Mozambique,16.6732
3,République centrafricaine,16.8046
4,Madagascar,17.04185
5,Haïti,17.4105
6,Zimbabwe,17.6368
7,Congo,18.76465
8,Ouganda,19.2136
9,Sao Tomé-et-Principe,19.3815


#### La quantité totale (en kg) de produits perdus par pays en 2013.

In [13]:
SQL_query_pays_pertes_kg = pd.read_sql_query("""
SELECT pays, SUM(pertes*1000) AS pertes_pays_kg
FROM equilibre_prod
WHERE equilibre_prod.annee = 2013
GROUP BY pays
""", engine)

df_pays_pertes_kg = pd.DataFrame(SQL_query_pays_pertes_kg)
df_pays_pertes_kg

Unnamed: 0,pays,pertes_pays_kg
0,Arménie,2.280000e+08
1,Afghanistan,1.135000e+09
2,Albanie,2.760000e+08
3,Algérie,3.753000e+09
4,Angola,4.799000e+09
...,...,...
166,Luxembourg,1.100000e+07
167,Serbie,7.070000e+08
168,Monténégro,3.300000e+07
169,Soudan,1.670000e+08


#### Les 10 pays pour lesquels la proportion de personnes sous-alimentées est la plus forte.

In [14]:
SQL_query_top_pays_sousnutrits = pd.read_sql_query("""
SELECT sous_nutrition.pays, ((sous_nutrition.nb_personnes/population.population)*100) AS taux_sous_nutrition
FROM sous_nutrition
NATURAL JOIN population
WHERE sous_nutrition.annee = 2013
ORDER BY taux_sous_nutrition DESC
LIMIT 0,10
""", engine)

df_top_pays_sousnutrits = pd.DataFrame(SQL_query_top_pays_sousnutrits)
df_top_pays_sousnutrits

Unnamed: 0,pays,taux_sous_nutrition
0,Haïti,50.4022
1,Zambie,48.1464
2,Zimbabwe,46.6431
3,République centrafricaine,43.3276
4,République populaire démocratique de Corée,42.5788
5,Congo,40.4676
6,Tchad,38.2066
7,Angola,37.7235
8,Libéria,37.2613
9,Madagascar,35.7688


#### Les 10 produits pour lesquels le ratio Autres utilisations/Disponibilité intérieure est le plus élevé.

In [17]:
SQL_query_top_ratio_autres_sur_dispo = pd.read_sql_query("""
SELECT produit, AVG(autres_utilisations / dispo_int) AS ratio_autres_sur_dispo_interieure
FROM equilibre_prod
GROUP BY produit
ORDER BY ratio_autres_sur_dispo_interieure DESC
LIMIT 0,10
""", engine)

df_top_ratio_autres_sur_dispo = pd.DataFrame(SQL_query_top_ratio_autres_sur_dispo)
df_top_ratio_autres_sur_dispo

Unnamed: 0,produit,ratio_autres_sur_dispo_interieure
0,"Alcool, non Comestible",0.981982
1,Plantes Aquatiques,0.918852
2,Huile de Palmistes,0.783431
3,Piments,0.73913
4,Huile de Palme,0.650285
5,Huile de Colza&Moutarde,0.618201
6,Huile de Coco,0.567152
7,Huil Plantes Oleif Autr,0.553192
8,Palmistes,0.531346
9,Huile de Son de Riz,0.502955


### <span style="color:purple">Question 20 : pour quelques uns des produits identifiés dans cette dernière requête SQL, supposez quelles sont ces "autres utilisations" possibles</span>

#### Alcool, non Comestible

Les alcools non commestibles, dénaturés ou non, peuvent par exemple être utilisés dans l'industrie cosmétique ou encore les alcools ménagers.

#### Huile de Palme

L'huile de palme trouve des usages dans les domaines de la cosmétique (utilisée pour la saponification par exemple) ou dans la parfumerie. L'huile de palme est également utilisée pour la production d'agro-carburants.

#### Piments

Les piments sont utilisés en médecine (traitement de la douleur et désordres respiratoires) mais également pour les parfums et cosmétiques. Ils sont également utilisés comme insecticides ou en bombes de défense.  