### Explication détaillée du MSE (Mean Squared Error)

### **Qu'est-ce que le MSE ?**
Le succès de ton modèle sera évalué avec l'**erreur quadratique moyenne (MSE)**.  
C'est une mesure qui calcule à quel point tes prédictions sont éloignées des vraies valeurs (*"mana_demand"* réel dans les données d'entraînement).  
Plus le MSE est petit, mieux ton modèle prédit.

---

### **Comment ça marche ?**
1. Pour chaque prédiction, on calcule la différence entre la valeur prédite et la vraie valeur (**erreur**).
2. On élève cette différence au carré (pour éviter que les erreurs positives et négatives s'annulent).
3. On fait la moyenne de toutes ces erreurs carrées sur toutes les données.

---

### **Formule mathématique :**

\[
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} \left( y_{\text{vrai},i} - y_{\text{prédit},i} \right)^2
\]

- \( n \) : nombre de lignes dans les données.
- \( y_{\text{vrai},i} \) : la vraie valeur de *mana_demand* pour la ligne \( i \).
- \( y_{\text{prédit},i} \) : la valeur prédite par ton modèle pour la ligne \( i \).

---

### **Exemple de calcul :**

Supposons que tu as 3 lignes avec :

- Vraies valeurs : [100, 150, 200]  
- Prédictions : [110, 140, 190]

1. **Erreurs :**
   - Ligne 1 : \( 100 - 110 = -10 \), erreur carrée = \( (-10)^2 = 100 \)
   - Ligne 2 : \( 150 - 140 = 10 \), erreur carrée = \( 10^2 = 100 \)
   - Ligne 3 : \( 200 - 190 = 10 \), erreur carrée = \( 10^2 = 100 \)

2. **Moyenne :**

\[
\text{MSE} = \frac{100 + 100 + 100}{3} = 100
\]

Un MSE de 100 signifie que tes erreurs moyennes sont significatives.  
Un MSE de 0 serait parfait (toutes les prédictions sont exactes).

---

### **Pourquoi utiliser le MSE ?**
- Il punit les grosses erreurs (car on élève au carré).
- C'est une norme standard en *machine learning* pour les problèmes de **régression** (prédire des nombres).

---

### 3. Différence entre fichier train et fichier test, et leur rôle

- **Fichier train (`forcast_train_data.csv`)** :
  - **Rôle :** Contient les données historiques, y compris *mana_demand* (la vraie valeur). Il sert à **entraîner le modèle** pour qu’il apprenne les relations entre les variables (ex : température, portes ouvertes...) et la demande.
  - **Exemple :** En janvier, s’il y avait 3 portes ouvertes pour une demande de 100, le modèle apprend cette relation.

- **Fichier test (`forcast_test_data.csv`)** :
  - **Rôle :** Contient de **nouvelles données sans `mana_demand`**, représentant le futur. Tu utilises ton modèle entraîné pour **prédire `mana_demand`**.

**Différence clé :**
- Le fichier *train* contient les réponses, le fichier *test* non. C’est à ton modèle de les deviner !

---
### 4. Entraîner le modèle
- **Idée :**  Entraîner un modèle signifie lui apprendre à relier les features (X_train_scaled) à la cible (y_train).
- **But :**   Créer un modèle qui peut prédire "mana_demand" à partir de nouvelles données.

- **Fichier créé :** `model_linear_regression.pkl`, qui contient les paramètres appris (poids et biais de la régression).
- **Contenu du fichier :** Une version sérialisée du modèle, avec les coefficients calculés pour prédire "mana_demand" (par exemple, combien ajouter pour chaque degré de température).
- **Utilité :** Tu peux le réutiliser sans réentraîner.

---
### 5. Faire des prédictions
- **Idée :** Utiliser le modèle entraîné pour prédire "mana_demand" sur les données de test.
- **But :**   Générer un fichier avec les prédictions pour soumettre au challenge.

- **Fichier créé :** `predictions.csv` avec toutes les colonnes de **forcast_test_data.csv** plus **"mana_demand"**.
- **Exemple :** Une ligne pourrait être `datetime, city, temperature, ..., mana_demand=120.5`.

---

---


