##### `Nom et prenom :`
##### `Numéro de groupe`

# **Résolution de problèmes à l'aide des bibliothèques Scikit learn et Pycaret** 

Ce cahier de notes présente une série d'exercices à résoudre en utilisant les fonctionnalités du package ou de la bibliothèque `pandas`. Chaque exercice doit être résolu à la suite de chaque énoncé, en expliquant de façon claire et concise les étapes utilisées pour y répondre. Les exercices doivent impérativement être résolus à l'aide des fonctions disponibles dans des bibliothèque demandées 

### `Exercice 1`

Trouvez un jeu de données comportant au moins quatre variables et appliquez-y des techniques de prétraitement telles que l'imputation des valeurs manquantes et l'encodage OneHot. Vous devrez présenter à la fois le DataFrame original et le DataFrame après prétraitement

### `Exercice 2`

Une université américaine souhaite construire un modèle prédictif simple qui lui permette d'anticiper la performance des étudiants en fonction de leurs activités extrascolaires, de leur temps de repos, des heures d'étude, etc. À partir de l'ensemble des données fournies par l'université (`Student_Performance.csv`), répondre aux questions suivantes :

- Construire un modèle linéaire  multiple (avec scikitlearn) permettant de prédire la performance des étudiants. Pour ce faire, utilisez la technique de validation croisée avec 5 plis.
- Déterminer le RMSE globale à partir des résultats de la validation croisée.
- Quelles sont les valeurs des coefficients de régression obtenus ?
- Quelles sont les variables les plus influentes sur la performance des étudiants?
- Réaliser un graphique représentant les valeurs réelles en abscisse et les valeurs prédites en ordonnée pour l'ensemble de test, puis le superposer au graphique de la droite identité. Quel est le rôle de la droite identité dans ce graphique?

### `Exercice 3`

Avec le même jeu de données de l'exercice précédent, répondre aux questions suivantes :

- Trouver la valeur optimale des k plus proches voisins autour des 30 points. Pour ce faire, utiliser la validation croisée avec 5 plis (fold).
- Réaliser les graphiques de validation qui représentent l'erreur d'entraînement et l'erreur de validation (prenez comme métrique $r^2$).
- Réaliser un graphique représentant les valeurs réelles en ordonnée et les valeurs prédites en abscisse pour l'ensemble de test, puis le superposer au graphique de la droite identité.
- L'université vous demande de faire un choix entre le modèle linéaire (exemple précédent) et le modèle des k plus proches voisins. Lequel leur suggéreriez-vous et pour quelles raisons ?

### `Exercice 4`

Un groupe de chercheurs en cancérologie dispose d'une base de données de patients présentant des tumeurs. Ces données contiennent une série de caractéristiques structurales des tumeurs, telles que la taille, la texture, le périmètre, etc. Les chercheurs souhaitent construire un modèle leur permettant de prédire des diagnostics futurs en fonction des caractéristiques de la tumeur. À partir de l'ensemble de données `breast_cancer_winsconsin.csv`, répondez aux questions suivantes:

- Réaliser l'entraînement d'un arbre de décision en optimisant la profondeur de l'arbre à l'aide de la validation croisée (k=5) et de l'index de Gini pour la construction de l'arbre. Vous devez également afficher la profondeur maximale optimisée ainsi que l'accuracy obtenue pendant la validation croisée.
- Réaliser le graphique de validation qui présente les courbes d'entraînement et de validation pour l'obtention de la profondeur maximale optimisée. Les graphiques doivent être présentés en tant que courbes d'erreur et non en tant que courbes d'accuracy. Réaliser aussi le graphique de votre arbre de décision obtenu
- Déterminer sous l'ensemble de test, la précision, le recall et le F1 score:
- Combien d'individus ont été mal classé dans l'ensemble de test?
- Selon votre modèle, quels sont les paramètres les plus influents pour déterminer le diagnostic?. Réalisez un graphique de barres qui montrera ces paramètres et leur influence sur le diagnostic.
- Extrayez la règle de décision de votre modèle et reprogrammez-la en utilisant des règles conditionnelles. Pour ce faire, créez une fonction avec des arguments d'entrée correspondant aux variables définies par la règle de décision.
- Comparez les résultats obtenus de votre fonction décisionnelle et ceux obtenus par la fonction `predict` de scikitlearn. Pour ce faire, créez un data frame et détectez s'il y a des incohérences dans les prédictions ou non (!faites attention aux arrondis). 

### `Exercice 5`

Plusieurs marques de voitures ont fait appel à une société environnementale canadienne afin qu'elle crée un modèle prédictif permettant d'estimer à l'avance les émissions de gaz à effet de serre (CO₂) produites par leurs véhicules. Ces constructeurs ont fourni à la société un jeu de données présentant des caractéristiques propres aux véhicules : marque, consommation, modèle, type de combustible, etc. En tant que data scientist junior de cette société, on vous demande d'utiliser un modèle de type Random Forest à l'aide de la bibliothèque PyCaret pour résoudre ce problème, en répondant aux questions suivantes:

- Entraînez un modèle de type Random Forest. Pour ce faire, suivez les indications suivantes :
  - Extrayez les 20 dernières lignes du data frame d'origine et stockez les dans un data frame nommé `data_CO2_emission_pred` pour effectuer des prédictions ultérieurement. Ces lignes doivent être éliminées du data frame sur lequel vous allez entraîner votre modèle. 
  - Appliquez une normalisation de type centrée réduite aux variables numériques.
  - Appliquez un encodage OneHot aux variables qualitatives nominales.
  - Utilisez un 5-fold pour optimiser le nombre d'arbres sur un ensemble d'entraînement d'un pourcentage de 70 % de l'échantillon initial.
- Traçez le graphique de validation de $r^2$ en fonction du nombre d'estimateur
- Quelles sont les caractéristiques les plus déterminantes de l'émission de $CO_2$ des véhicules ?
- À partir du modèle optimisé, effectuer les prédictions des données de véhicules dans le data frame `data_CO2_emission_pred`.

### `Exercice 6`
Une petite société de marketing souhaite faire une segmentation rapide de ses clients et se demande comment effectuer un clustering kmeans pour obtenir une réponse en temps réel. La société dispose d'un jeu de données `segmentation_data.csv` dont les spécifications de chaque variable se trouvent dans le fichier `segmentation data legend.xlsx`. Vous faites partie de l'équipe et ils vous demandent d'optimiser le nombre de clusters (celui-ci ne doit dépaser de 7) pour cette segmentation. Vous devez répondre aux questions suivantes:

- Créez une fonction de normalisation nommée min_max et appliquez-la au DataFrame avant de réaliser la clusterisation
- En utilisant la méthode de la silhouette, déterminez le nombre optimal de clusters. Vous devez afficher le graphique permettant d'arriver à ce résultat.