## Contexte

Ce projet rentre dans la formation "Artificial Intelligence for robotics with Python" proposée par Micro Club. A travers ce court projet vous aurez à revoir les principes de classification utilisant des méthodes de Machine Learning classique comme vus durant la séance 3. 

Ce projet se base sur ce [dataset](https://www.kaggle.com/datasets/andrewmvd/fetal-health-classification) donnant les données CTG (cardiotocogramme) pour définir les taux de risques de maladie de foetus, donc l'objectif est de classer les différents cas en trois catégories : 
- Normal : 1
- Suspect : 2
- Malade : 3

Ainsi ce genre de projet vous permettra de vous entraîner sur de vrais problématiques. 

In [None]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

# Pré-traitement des données
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Pour tester les performances des modèles utilisés
from sklearn import metrics

## Importation des modèles de Machine Learning

Importez les modèles que vous voulez évaluer sur cette problématique à partir de la librairie scikit-learn. Voici la documentation officielle : [Documentation](https://scikit-learn.org/stable/supervised_learning.html)

Choisissez 4 modèles à évaluer.

## Importation des données

Importer le fichier "fetal_health.csv" proposé avec ce challenge en utilisant Pandas

## Analyse des données

Utilisant Pandas veuillez faire une analyse rapide des données : 
- Faire une description globale des données (describe)
- Expliquez si on a besoin ou pas d'une normalisation des données
- Indiquer si on a des valeurs manquante ou pas
- Indiquer la distribution (ou le nombre d'échantillon par classe) des différentes classes qu'on a (colonne : fetal_health)
- Voyez la corrélation entre les différentes features qu'on a

## Visualisation des données

Utilisant matplotlib et Seaborn : 
- Faites une visualisation de la matrice de corrélation précédemment réalisée et commentez la
- Faites une visualisation des différentes distributions et relations entre les variables utilisant seaborn (pairplot) par rapport à chaque classe
- Faites un ensemble de visualisations sur les données (faites celles que vous jugez pertinentes)

## Préparation des données

Utilisant les différentes fonctions de scikit-learn : 
- D'après votre analyse et visualisation des données, supprimez s'il le faut les features que vous jugez en trop
- Subdivisez les données en un ensemble d'entrainement et de test, prenez 30% du jeux de données pour le test, le reste sera pris pour l'entrainement.
- Appliquez une normalisation (s'il le faut) aux données d'entrainement ainsi qu'aux données de test

## Application des modèles

Utilisant scikit-learn :
- Appliquez les modèles que vous avez sélectionné pour la classification de ces données
- Evaluez les performances des modèles utilisant : l'accuracy, f1-score
- Utilisez GridSearchCV pour sélectionner les meilleurs paramètres pour vos différents modèles
- Indiquez pour chaque modèle sélectionné quelle est la meilleure combinaison de paramètres
- Indiquez pour chaque modèle sélectionné les performances (en terme de métrique) maximales atteintes.

## Bonus

Pour aller plus loin : 
- Features engineering
    - Etudiez les techniques de sélection de caractéristiques (features selection) : [Source intéressante](https://machinelearningmastery.com/calculate-feature-importance-with-python/)
    - Garder les features les plus importantes utilisant les techniques précédemment présentées (choisissez le nombre de caractéristiques sélectionnées que vous voulez)
    - Evaluez le modèle avec ce nombre de features et analysez s'il gagne ou perd en performances
- Dimensionality reduction
    - Etudiez l'analyse en composantes principales (PCA) : [Source](https://builtin.com/data-science/step-step-explanation-principal-component-analysis)
    - Appliquez la PCA utilisant scikit-learn
    - Appliquez la PCA pour garder les 2 composantes principales et faites une visualisation (scatter plot) de vos données en mettant une couleur par classes et analysez la facilité (ou difficulté) de classification
    - Sélectionner un nombre de composantes principales permettant d'avoir au moins 90% de la variance globale du jeux de données initial
    - Appliquez à nouveau les modèles que vous avez sélectionnés et analysez les performances atteintes via cette technique

In [None]:
from sklearn.decomposition import PCA