# S06 - Exercices après le cours : Analyse descriptive et visualisation

## Instructions
Pour chaque exercice, vous avez une cellule de code pour la réponse en dessous, où vous devez écrire votre réponse entre les lignes contenant `### commencez votre code ici ###` et `### terminez votre code ici ###`. Votre code peut contenir une ou plusieurs lignes et vous pouvez exécuter cette cellule afin de terminer l'exercice. Pour exécuter la cellule, vous pouvez taper `Shift+Enter` ou appuyer sur le bouton de lecture dans la barre d'outils ci-dessus. Vos résultats apparaîtront juste en dessous de cette cellule de réponse.

REMARQUE : Veuillez prêter attention au nom de la variable de sortie que vous devez fournir pour chaque question. Vous devez utiliser le même nom de variable pour la sortie afin que le résultat puisse être imprimé correctement.

# Analyse et visualisation de statistiques sur les cultures dans les Amériques
Dans ce notebook, vous allez mettre en œuvre une visualisation des données sur des statistiques des cultures dans les Amériques. Ces données sont disponibles dans le fichier CSV `Production_Crops_E_Americas.csv`, adapté des données fournies par l'Organisation des Nations Unies pour l'alimentation et l'agriculture (FAO). Les fichiers originaux peuvent être trouvés à [cette page](https://data.world/agriculture/crop-production).

Voici une description des colonnes de ces données adaptées :

| NOM DE LA VARIABLE | DESCRIPTION |  
|:----|:----|  
|area_code| valeur numérique représentant la zone |  
|area| nom de la zone (par exemple, Argentine, Canada, Chili, Colombie) |  
|item_code| valeur numérique représentant l'article |  
|item| nom du produit (par exemple, Bananes, Haricots, Manioc) |  
|element_code| valeur numérique représentant l'élément |  
|element| spécification des données (par exemple, Superficie Récoltée, Rendement, Production) |  
|unit| unité de mesure (par exemple, ha - *hectare* -, hg/ha - *hectogramme par hectare* -, et tonnes) |  
|Y2000| récolte de l'année 2000 |  
|...| ... |  
|Y2014| récolte de l'année 2014 |

## Préparation des données : importation de librairies et d'ensembles de données

Dans la cellule de code ci-dessous, importez la librairie `pandas` sous l'alias `pd` ; la librairie `seaborn` sous l'alias `sns` ; et la librairie `matplotlib.pyplot` sous l'alias `plt`.

**IMPORTANT :** Il vous suffit d'exécuter les cellules de code ci-dessous pour prétraiter les données jusqu'à ce que le DataFrame `df_transformed` soit généré (avant l'exercice 1)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Importez le fichier de données `Production_Crops_E_Americas.csv` dans un DataFrame nommé `df_crops`.

**Remarque :** vous pouvez utiliser la fonction `pandas.read_csv()` et le paramètre `encoding` défini sur `latin-1'` pour éviter les erreurs dues aux caractères spéciaux dans le fichier de données.

In [None]:
url = 'https://raw.githubusercontent.com/acedesci/scanalytics/master/data/Production_Crops_E_Americas.csv'
df_crops = pd.read_csv(url, encoding='latin-1')  # lecture d'un fichier de données dans un DataFrame
df_crops.head()
    
# remplacement des valeurs manquantes par 0
df_crops.fillna(0, inplace=True) 

df_crops.head()

Étant donné que les données se trouvent dans une structure pivot, nous les transformons à l'aide de la fonction `pd.melt(...)` pour les dé-pivoter et réorganiser les années en une seule colonne. Voir [ce lien](https://pandas.pydata.org/docs/reference/api/pandas.melt.html).

In [None]:
df_unpivot = pd.melt(df_crops, 
                     id_vars=['item', 'area', 'element'], 
                     value_vars=[f'Y20{i:02d}' for i in range(15)], 
                     var_name='year', value_name='value') 
df_unpivot

Nous transformons ensuite les données et plaçons les valeurs dans des colonnes séparées pour les variables.

In [None]:
df_transformed = df_unpivot.pivot(index=["item", "area", "year"], 
                                  columns='element', values='value').reset_index()
df_transformed

## Exercice 1 : Visualisations
**a)** Explorons la production de certains produits au Canada de 2000 à 2014. Pour cela, nous séparons d'abord les données qui nous intéressent. Plus précisément, nous nous intéressons uniquement aux données de `df_transformed` en fonction des conditions suivantes

* la zone est `'Canada'`
* liste des articles (produits) à analyser : `'Blueberries'`, `'Raspberries'` et `'Strawberries'`

Veuillez placer le DataFrame résultant dans un nouvel objet DataFrame `df_canada`.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

**b)** Créez un graphique linéaire à partir du DataFrame `df_canada` pour afficher la production de `'Blueberries'`, `'Raspberries'` et `'Strawberries'` au Canada. Configurez l'esthétique de votre graphique comme suit.

* Définissez la taille de la figure sur `(12, 6)`
* Donnez le titre `'Annual Production in Canada'` au graphique
* Définissez les étiquettes des axes x et y comme `'Year'` et `'Tonnes'`, respectivement
* Chaque élément doit apparaître comme une ligne distincte dans le graphique en utilisant les arguments `hue="item"`, `style="item"` et `markers=True`

**Indice**:

* Utilisez la fonction `seaborn.lineplot()` pour dessiner un tracé linéaire avec plusieurs groupes sémantiques (par exemple, pour différencier les éléments). Consultez [cette page](https://seaborn.pydata.org/generated/seaborn.lineplot.html) pour plus d'informations sur cette fonction.
* Utilisez les fonctions `plt.title()` et `plt.figure()` pour définir respectivement le titre et la taille du graphique.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

**c)** Créez un nuage de points à partir du DataFrame `df_canada` pour montrer les relations entre la superficie récoltée et la production des produits sélectionnés au Canada. Configurez l'esthétique de votre graphique comme suit.

* Définissez la taille de la figure sur `(12, 6)`
* Donner un titre significatif au graphique
* Utilisez le style `'white'`
* Définissez les étiquettes des axes x et y comme `'Hectares'` et `'Tonnes'`, respectivement
* Chaque produit doit être différencié à l'aide de l'argument `hue='item'`

**Indice:**
* Utilisez la fonction `seaborn.scatterplot()` pour dessiner un graphique avec plusieurs groupes sémantiques (par exemple, pour différencier les éléments). Consultez [cette page](https://seaborn.pydata.org/generated/seaborn.scatterplot.html) pour plus d'informations sur cette fonction.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

## Exercice 2 : Algorithmes de clustering

**a)** Veuillez filtrer et transformer les données du DataFrame transformé `df_transformed` (qui contient les données de tous les pays) en suivant les étapes suivantes

* Étape 1 : Filtrer uniquement l'élément : `'Grapes'`
* Étape 2 : Utilisez la méthode `DataFrame.groupby()` pour résumer les statistiques par pays (`area`) pour les variables suivantes :
* `'Production'` moyenne par an
* `'Rendement'` moyen par an
* Étape 3 : Supprimez les lignes avec `NaN` (Astuce : vous pouvez utiliser `df = df.dropna(axis='rows')`. Voir [ce lien](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html).
* Étape 4 : standardiser les deux colonnes ci-dessus à l'aide de la transformation z-score et placez-les dans des nouvelles colonnes avec le préfixe `'z_'`

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

**Remarque :** pour les deux questions suivantes, vous pouvez utiliser le code de clustering du cours et l'adapter à ces données.

**b)** Appliquez la méthode $k$-means pour regrouper les pays en fonction du DataFrame récemment créé à l'aide des variables standardisées `["z_Production", "z_Yield"]`. Veuillez comparer les résultats en fonction de $k = 2, 3, ..., 9$ et recommander le meilleur nombre de clusters.

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###

**c)** Appliquez la méthode de clustering hiérarchique pour regrouper les pays en utilisant les variables standardisées `["z_Production", "z_Yield"]` et en utilisant $k = 2, 3, 4$. Veuillez ensuite expliquer à quoi ressemble la hiérarchie résultante des clusters. Plus précisément, quels clusters sont agrégés et combinés à partir de $k = 4$ ?

In [None]:
### commencez votre code ici ###

### terminez votre code ici ###