# Arbres de décision dans un contexte de classification

## Human Activity Recognition

Le but de ce projet est de **prédire le type d'activité d'une personne** (variable `Activity`) en fonction de diverses mesures obtenues à l'aide de senseurs. Les différentes activités sont:
- STANDING (être debout)
- SITTING (être assis)
- LAYING (être couché)
- WALKING (marcher)
- WALKING_DOWNSTAIRS (marcher vers le bas)
- WALKING_UPSTAIRS  (marcher vers le haut)

Pour plus de précision sur les data, voir le lien suivant:<br>
https://www.kaggle.com/datasets/uciml/human-activity-recognition-with-smartphones

## Exercice


### Load Data
1. Loadez les data.<br>
   ```
   train_df = pd.read_csv('./data/HumanActivity/train.csv')
   test_df = pd.read_csv('./data/HumanActivity/test.csv')
   ```


### Data Analysis
2. Vérifiez s'il existe des data dupliquées ou manquantes:<br>
   ```
   train_df.duplicated().sum()
   train_df.isna().values.sum()
   ```


3. Visualisez la répartition des valeurs de la variable `Activity` à prédire:<br> 
   ```
   sns.countplot(train_df.Activity, order=train_df.Activity.value_counts().index)
   ```


4. **Principal Component Analysis (PCA)** est une méthode qui réduit la dimension des data selon un critère de maximisation d'explicabilité de leur variance...<br>
   Effectuez une PCA de dimension 2 sur votre train set (sans les colonnes `Activity` et `subject`) et visualisez vos data de dimensions réduites:<br>
   ```
   # PCA
   ...
   pca = PCA(n_components=2, random_state=0).fit_transform(X_train_modified)
   # plot
   ...
   sns.scatterplot(x=pca[:, 0], y=pca[:, 1], hue=train_df['Activity'])
   ...
   ```
   
   
5. **t-Distributed Stochastic Neighbor Embedding (t-SNE)** est une méthode plus avancée que PCA pour la réduction de dimension, et donc la visualisation des data.<br>
   Effectuez un t-SNE de dimension 2 sur votre train set (sans les colonnes `Activity` et `subject`) et visualisez vos data de dimensions réduites:<br>
      ```
   # t-SNE
   ...
   tsne = TSNE(n_components=2, random_state=0, n_iter=1000).fit_transform(X_train_modified)
   # plot
   ...
   sns.scatterplot(x=tsne[:, 0], y=tsne[:, 1], hue=train_df['Activity'])
   ...
   ```

### Data Preprocessing and Splitting
6. Obtenez les **features** `X` et les **targets** `y` à partir de votre dataframe.<br>
    Les **features** corrrespondent à toutes les colonnes sauf `Activity` et `subject`.<br>
    Les **targets** corrrespondent à la colonne `Activity`.<br>
    Utilisez `df.drop(...)`.


7. Dans le cas présent, il n'y a pas besoin de splittez les data en un **train set** et un **test set**, car ceci est déjà effectué...


### Model and Results
8. Instanciez et entraînez un **arbre de décision** `DecisionTreeClassifier` sur vos data:<br>
   https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html<br>
    Le processus s'effectue en 3 étapes:
    1. Instanciation du modèle
    2. Entraînement du modèle sur le train set (méthode `fit(...)`)
    3. Prédictions sur le test set


9. Calculez ensuite le **rapport de classification** de votre modèle sur le test set:<br>
    Que représentent la **precision**, le **recall**, l'**accuracy** et le **F1-score**?<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html<br>    

    
### Other Models
10. Entraînez également les modèles suivants de `scikit-learn`. Vous pouvez vous référer à la documentation de ces modèles pour plus d'information sur leurs utilisations.<br>
    1. `LogisiticRegression`
    2. `RandomForestClassifier`


### Hyperparameter Tuning
11. Utilisez technique de **grid search** avec **cross validation** pour optimiser les hyperparamètres d'un random forest (prend du temps).<br>
    Faites varier les paramètres du modèle au sein des valeurs suivantes:<br>
    ```
    rf_params = {"max_depth": [3, 5, 8, None],
             "max_features": [3, 5, 10],
             "min_samples_split": [2, 5, 10],
             "min_samples_leaf": [1, 3, 5, 10],
             "bootstrap": [True, False],
             "n_estimators": [100, 500, 1000],
             "random_state": [42]}
    ```
    https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV

## Libraries

In [1]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier

from sklearn.metrics import classification_report

import seaborn as sns
import matplotlib.pyplot as plt

## Load Data

In [2]:
train_df = pd.read_csv('./data/HumanActivity/train.csv')
test_df = pd.read_csv('./data/HumanActivity/test.csv')

## Data Analysis

## Data Preprocessing and Splitting

## Model and Results

## Other Models
### Logistic Regression, Random Forest

## Hyperparameter Tuning