# Travail à faire : Déploiement d’un modèle KNN avec Streamlit  
## Prédiction de la charge CPU à partir d’indicateurs réseau

On souhaite déployer, sous forme d’application web interactive (avec **Streamlit**), un modèle de **régression KNN** permettant de prédire la charge CPU (`cpu_load`) d’un serveur à partir d’indicateurs réseau.  
Les données sont fournies dans le fichier : **`cpu_load_data_.csv`**.


## Objectifs

Votre application Streamlit doit permettre à un analyste SOC de :

1. **Explorer les données**
2. **Configurer et entraîner un modèle KNN**
3. **Visualiser la performance du modèle (validation croisée)**
4. **Tester le modèle sur une nouvelle observation (simulation d’un nouveau trafic réseau)**


## 1. Chargement et affichage des données

1. Charger le fichier `cpu_load_data_.csv` dans un `DataFrame` pandas.
2. Dans l’interface Streamlit, ajouter une section permettant de :
   - Afficher le **`head()`** du DataFrame (premières lignes du jeu de données).
   - Afficher la **matrice de corrélation** entre les variables (sous forme de tableau et/ou de heatmap).


## 2. Configuration des paramètres du modèle (Sidebar)

Dans la **sidebar** de l’application Streamlit, l’utilisateur doit pouvoir :

1. **Choisir la valeur de k** pour le modèle `KNeighborsRegressor` :  
   - Ajouter un slider ou une `selectbox` pour choisir `n_neighbors` parmi une liste de valeurs (par exemple : 3, 5, 7, 9, 11, 13, 15).

2. **Choisir le nombre de features utilisées** pour l’apprentissage :  
   - Ajouter un slider ou `selectbox` pour fixer le **nombre de variables** à sélectionner (par exemple entre 2 et 8), en supposant que vous utilisez une méthode de sélection (par exemple `SequentialFeatureSelector` ou une sélection manuelle).


## 3. Apprentissage et évaluation du modèle

À partir des paramètres choisis dans la sidebar :

1. Construire le pipeline d’apprentissage (par exemple : `StandardScaler` → éventuellement `PolynomialFeatures` → sélection de variables → `KNeighborsRegressor`).
2. Appliquer une **validation croisée** (par exemple `cross_val_score` avec `cv=5` et `scoring='r2'`).

Votre application doit afficher :
- le **score moyen R²** en validation croisée,
- éventuellement l’écart-type ou la liste des scores sur les différents folds.

L’utilisateur doit pouvoir **modifier k et le nombre de features** et voir l’impact sur les performances du modèle.


## 4. Prédiction pour une nouvelle observation

Ajouter une section **« Prédiction d’un nouveau cas »** :

1. Proposer des **widgets de saisie** (sliders, `number_input`, etc.) pour renseigner les valeurs d’une nouvelle observation :  
   - par exemple : `tcp_connections`, `data_volume_MB`, `packet_loss_rate`, `ids_alerts`, etc.
2. À partir des valeurs saisies par l’utilisateur :
   - Construire un vecteur de features au bon format (même ordre de colonnes que lors de l’entraînement).
   - Appliquer le pipeline entraîné avec les paramètres choisis dans la sidebar.
   - Afficher la **valeur prédite de `cpu_load`** (par exemple en pourcentage), sous forme de texte et, si vous le souhaitez, sous forme de jauge ou d’indicateur visuel.


## 5. Consignes de rendu

- Le travail doit être rendu sous la forme d’un fichier `.py` Streamlit (par exemple `app_cpu_knn.py`)


- Votre code doit être **commenté**, lisible et structuré :
  - sections logiques (`# Chargement des données`, `# Sidebar`, `# Modèle KNN`, etc.),
  - explications courtes sur les choix de paramètres.

- L’interface Streamlit doit comporter :
  - un **titre clair**,
  - quelques **textes explicatifs** pour guider l’utilisateur (ingénieur SOC).

