##### `Nom et prenom :`
##### `Numéro de groupe:`

# **Manipulation et traitement de données avec Python** 

Ce cahier de notes présente une série d'exercices à résoudre en utilisant les fonctionnalités des packages `pandas` et `scikit-learn`. Chaque exercice doit être résolu à la suite de chaque énoncé, en expliquant de façon claire et concise les étapes utilisées pour y répondre. Les exercices doivent impérativement être résolus à l'aide des fonctions disponibles dans `pandas` et `scikit-learn` qui sont optimisées pour les opérations sur des data frames (ne pas utiliser d'opérations non optimisées, comme des boucles sur des colonnes ou des lignes).

## Import de fichiers, opérations de reagroupement et détection de données manquantes 

### `Exercice 1`

Créer un tableau de données (data frame) df_earthquake à partir du fichier nommé <earthquakes.csv>. - Une fois le fichier chargé, répondre aux questions suivantes :

- Le data frame est-il vide ?
- Si le data frame n'est pas vide, quelles sont ses dimensions (nombre de lignes et de colonnes) ?
- Ensuite, extraire le label des colonnes ainsi que leurs types de données.
- Construire un data frame (q) composé de l'extraction du nombre de données manquantes et non manquantes par colonne. Changer les étiquettes des colonnes par « données_non_manquantes » et « données_manquantes ».
- À partir du data frame de données manquantes/non manquantes, extraire le top 6 des variables avec le plus de valeurs manquantes.
- Agréger tous les résultats précédents dans un dictionnaire.

### `Exercice 2`

En utilisant le data frame créé dans l'exercice précédent (**df_earthquake**), répondre aux questions suivantes :

- Changer le format de la variable time (le temps est initialement défini en millisecondes à partir de la date 1970-01-01T00:00:00.000Z) au format date (aaaa-mm-jj)
- Entre quelles dates ont été enregistrées les données ?
- Extraire les catégories des variables tsunami, magType, type et alert.
- Construire un tableau croisé (utiliser la fonction `groupby`) des variables type (celle-ci définit le type de tremblement) et tsunami (variable binaire déterminant si le tremblement est d'origine continentale ou non) qui montre les valeurs minimales, maximales, le nombre d'occurrences et la moyenne de la magnitude du tremblement (variable mag). Quelles conclusions peut-on tirer des valeurs obtenues ?
- Répliquer l'exercice précédent à l'aide de la fonction `pivot_table`.

## Analytique des bases de données relationnelles: Opérations de regroupement, de jointure, d'agrégation et de pivotage.

### `Exercice 3`

À partir du schéma simple stocké dans le fichier `wheater.db`, effectuer les opérations suivantes:

- À l'aide de la blibliothèque `sqlite3` charger les tableaux disponibles dans le fichier `wheater.db` en utilisant Pandas. Pour ce faire, il faudrait dans un premier temps, extraire les noms des tableaux dans le schéma relationnel du fichier `wheater.db`
- Joindre les tableaux du schéma relationnel, en utilisant les deux principales fonctionnalités disponibles en pandas (merge et join)

### `Exercice 4`

À partir du tableau joint (celui obtenu à partir de la fonction « Merge ») de l'exercice précédent, effectuez les opérations demandées et répondez aux questions suivantes.

- Déterminer le nombre de stations climatologiques enregistrées dans ce tableau.
- Générer un tableau de résultats regroupés par date, nom et type de donnée présentant les valeurs minimales, maximales et moyennes par groupe. Le regroupement par date doit se faire par mois. Pour ce faire, il est impératif de changer le format de la colonne date.
- Changer le format obtenu du format court au format long (pivotage) à l'aide de la fonction `melt`.
- À partir du long format obtenu, déterminer les 10 stations avec les valeurs moyennes les plus importantes enregistrées pendant le premier mois de l'année pour la catégorie SNOW.
- Déterminer les 35 valeurs de température les plus élevées enregistrées pendant l'année.
- Quelles sont les cinq stations météorologiques qui ont enregistré les températures les plus élevées ?
- Selon les valeurs de température enregistrées pour les stations météorologiques, quel a été le mois le plus chaud à New York en 2018 ?

### `Exercice 5`

Un bureau d'études a conçu un système relationnel pour gérer une plateforme de vente de musique numérique (similaire, mais à une échelle réduite, à iTunes ou Spotify). Ce schéma inclut des informations sur les artistes, les albums, les chansons, les clients, les employés, les factures et les listes de lecture.

Le schéma relationnel est illustré dans la figure ci-dessus

<img src="html/Schema_relationnel.jpg" alt="alternatvie text" width="1000" height="700">

À partir de ce système relationnel, veuillez répondre aux questions suivantes :

- Utilisez la bibliothèque `sqlite3` (déjà utilisée dans l'exercice précedent) pour charger les tables contenus dans le fichier `Chinook.db` et stocker les dans un dictionnaire.
- À l'aide du schéma relationnel et des fonctions de regroupement et de jointure (utilisez la fontion `merge` pour les jointures), veuillez répondre aux questions suivantes formulées par le chef du service des ventes :
  - Quel montant les clients ont-ils dépensé par artiste
  - Quels sont les 10 genres musicaux les plus vendus?
  - Quelles sont les chansons les plus vendues (Quantité)
  - Quel est le total des ventes par répresentante de support
  - Quelles playlists contiennent les chansons Eruption et The Trooper, qui en sont les compositeurs et à quels albums appartiennent-elles


## Traitement et mise en forme des données pour les algorithmes de Machine Learning

### `Exercice 6`

Une enquête de satisfaction concernant un service de santé publique a été réalisée auprès d'un échantillon de 2 000 personnes. Certaines réponses n'ont pas été fournies ou ont été perdues lors du traitement des données pour l'agrégation. Les données doivent maintenant être mises en forme afin de pouvoir être utilisées pour concevoir un modèle de machine learning visant à prédire le degré de satisfaction des futurs répondants. À partir du fichier `Satisfaction.csv`, appliquez un traitement des données afin de les préparer pour la modélisation ultérieure, en suivant les consignes suivantes:

- Identifiez les valeurs manquantes pour chaque variable ainsi que le total des données manquantes dans l'ensemble du dataset. Présentez les résultats sous la forme d'un dictionnaire
- Effectuez l'imputation des données manquantes en remplaçant les valeurs numériques manquantes par la moyenne, et en appliquant deux méthodes d'imputation pour les variables catégorielles : une imputation par la modalité la plus fréquente et une imputation par une valeur constante (par exemple, 'inconnu'). Vous devez afficher les DataFrames avant et après l'imputation.
- Appliquez l'encodage approprié aux variables catégorielles et une standardisation aux variables numériques. Vous devez afficher les DataFrames avant et après l'encodage, en utilisant une approche étape par étape
- Appliquez le même traitement que dans le point précédent, mais cette fois en adoptant une approche de type pipeline