# Feature Selection

Dans ce notebook, nous allons tester différentes **méthodes de sélection de variables**. En apprentissage supervisé,cette étape cruciale permet d'améliorer les performances des modèles prédictifs, en excluant les variables non significatives ou redondantes.

Ces méthodes se déclinent en 3 familles :
- **Filter** methods
- **Wrapped** methods
- **Embedded** methods 

Nous allons étudier les méthodes les plus largement utilisées en ML. Nous allons appliquer ces méthodes au dataset **Breast Cancer Winconsin** puis comparer les performances des modèles obtenues.

Pour rappel, ce dataset contient les informations suivantes (*source Kaggle*):

1. ID number
2. Diagnosis (M = malignant, B = benign)
3. 32 Ten real-valued features are computed for each cell nucleus:

       a) radius (mean of distances from center to points on the perimeter)
       b) texture (standard deviation of gray-scale values)
       c) perimeter
       d) area
       e) smoothness (local variation in radius lengths)
       f) compactness (perimeter^2 / area - 1.0)
       g) concavity (severity of concave portions of the contour)
       h) concave points (number of concave portions of the contour)
       i) symmetry
       j) fractal dimension ("coastline approximation" - 1)

The mean, standard error and "worst" or largest (mean of the three largest values) of these features were computed for each image, resulting in 30 features. For instance, field 3 is Mean Radius, field 13 is Radius SE, field 23 is Worst Radius.




## 1. Chargement et description des données

- Charger les données
- Afficher les dimensions et les premières lignes du DataFrame

## 2. Data Analysis et preprocessing

1. Analyser les missing values et les distributions marginales des features

2. Analyser la matrice de corrélation des features.Noter les corrélations supérieures à 0.9

3. Analyser les distributions conditionnelles (à la target) des features. 

**Bonus :** Utiliser la statistique de Kolmogorov-Smirnov (`scipy.stats`) pour comparer les distributions.

On décide de supprimer à ce stade les features : 
'perimeter_mean','radius_mean','texture_worst','area_worst','perimeter_worst','radius_worst'



4. Standardiser les données numériques et modifier le format de la Target

5. Splitter les données en bases training et test

## 3. Feature Selection

### 3.1 Filter methods

1. Expliquer le principe de ces méthodes. Donner des exemples de méthodes

![filter%20image.webp](attachment:filter%20image.webp)

Filter methods are generally used as a **data preprocessing step**. The selection of features is **independent of any machine learning algorithm**. Features give rank on the basis of statistical scores which tend to determine the features' correlation with the outcome variable.

2. On souhaite appliquer la fonction `SelectKBest` de la librairie `sklearn.feature_selection` pour définir un premier subset de features.
   Afficher la DocString de cette fonction. 
   Créer l'instance suivante : `SelectKBest(f_classif, k=10)`
   Fitter sur la base de Training
   Stocker les 10 Best features dans une liste
   
   **Bonus** : Analyser la matrice de corrélations et détecter les features fortement corrélées entre elles (seuil fixé à 0.9)
   

### 3.2 Wrapper methods

1. Expliquer le principe de ces méthodes. Donner des exemples de méthodes

2. On souhaite appliquer la fonction `SequentialFeatureSelector` de la librairie `mlxtend.feature_selection`pour faire de la sélection `Forward`et `Backward` des features avec la Régression Logistique

   Afficher la DocString de cette fonction. 
   Créer les instances suivantes (à adapter selon la méthode Forward ou Backward): 
           SequentialFeatureSelector(LogisticRegression(), 
           k_features=10, 
           forward=, 
           floating=False, 
           verbose=2,
           scoring='accuracy',
           cv=0)
   Fitter sur la base de Training
   Stocker les Best Features dans des listes
   

3. On souhaite appliquer la fonction `RFE` de la librairie `sklearn.feature_selection` pour faire de la `Recursive Feature Elimination`de features avec la Régression Logistique

   Afficher la DocString de cette fonction. 
   Créer l'instance suivante: 
           RFE(estimator=LogisticRegression(), n_features_to_select=10, step=1)
   Fitter sur la base de Training
   Stocker les Best Features dans une liste
   
   **Bonus** : Relancer la fonction RFE avec Cross_Validation (3 Folds)


### 3.2 Embedded methods

1. Expliquer le principe de ces méthodes. Donner des exemples de méthodes

 On souhaite appliquer la fonction `SelectFromModel` de la librairie `mlxtend.feature_selection` pour sélectionner les features les plus importantes avec le ExtraTreesClassifier

   Afficher la DocString de cette fonction. 
   Créer l'instance suivante :
   SelectFromModel(ExtraTreesClassifier(n_estimators=50), prefit=True)
          
   Fitter sur la base de Training
   Stocker les Best Features dans une liste


## 4. Modeling et Validation

Appliquer la régression Logistique et Evaluer les performances des modèles (Accuracy, Recall, Precision, ROC, AUC) selon les scenarii suivants :

1. Sur l'ensemble des features (sans selection)
2. Sur les subsets de features définis aux différentes étapes
2. Avec régularisation LASSO (sur l'ensemble des features)