### Projet 2 - Analyse d’un phénomène environnemental inconnu.

**À rendre avant le 19.12.2024 minuit.**

---

#### **Synopsis**

Vous travaillez comme data scientist pour une entreprise spécialisée dans la modélisation de systèmes physiques complexes. Une équipe d'experts a collecté des données sur un phénomène environnemental à l’aide d’un réseau de capteurs. Ces données, enregistrées toutes les 15 minutes entre le **1er janvier 2024** et le **29 février 2024**, contiennent des informations provenant de trois capteurs. Malheureusement, un capteur est devenu défectueux à partir du **20 février**, et votre objectif est d’approximer les valeurs manquantes.

Le jeu de données non défecteuses sont disponibles dans le fichier _[./projet_2_data.csv](./projet_2_data.csv)_. Les colonnes sont :

1. **timestamp** : la date et l'heure de chaque observation (au format datetime).
2. **x1** : une première mesure physique observable liée au système.
3. **x2** : une seconde mesure physique observable liée au système.
4. **y** : la variable cible à reconstituer, représentant un comportement du système physique.

Le jeu de données défecteuses sont disponibles dans le fichier _[./projet_2_hold_out.csv](./projet_2_hold_out.csv)_ qui n'inclus pas la variable cible.

Les experts soupçonnent que la variable cible **y** dépend de plusieurs facteurs :
- L’activité anthropique (jour de semaine ou week-end, heure de la journée, etc) selon un motif cyclique.
- Les interactions temporelles des variables **x1** et **x2**, incluant un potentiel **décalage dans le temps (lag)** pouvant aller jusqu’à 30 minutes.

Votre mission consiste à découvrir cette relation pour créer un modèle prédictif permettant de reconstituer les valeurs manquantes de **y**. Il vous revient de décider quel type de modèle est le plus adapté pour capturer cette relation.

---

### **Important**

Ce problème est une simulation contenant des variables fictives. Il ne repose pas sur des connaissances physiques réelles. Ne vous appuyez pas sur une expertise métier pour résoudre ce problème : basez vos décisions sur les données et vos analyses, et des informations données ci-dessus.

---

#### **Objectifs**

1. **Analyse exploratoire** :
   - Visualiser les variations de **y** en fonction du temps, des variables explicatives, et des caractéristiques temporelles, etc.
   - Identifier des motifs cycliques ou des relations structurelles dans les données.

2. **Transformation des données** :
   - Extraire et créer des nouvelles caractéristiques pertinentes.
   - Traiter les valeurs manquantes de manière appropriée.

3. **Construction du modèle** :
   - Concevez un modèle capable de capturer efficacement les relations entre les variables explicatives et la variable cible.
   - Vous pouvez tester plusieurs approches et choisir celle offrant les meilleures performances.

4. **Évaluation des performances** :
   - Utiliser des métriques adaptées pour mesurer la qualité des prédictions.
   - Vous pouvez comparer les performances entre plusieurs modèles ou configurations.

5. **Présentation des résultats** :
   - Fournir un rapport clair et structuré expliquant vos choix méthodologiques, vos résultats, et vos conclusions.

---

#### **Livrables**

1. **Modèle prédictif** :
   - Un modèle entraîné sur les données avant le 20 février.

2. **Fonction de transformation** :
   - Une fonction python permettant de préparer des données brutes à partir d'un fichier similaire à _[projet_2_hold_out.csv](./projet_2_hold_out.csv)_, qui peuvent être utilisées avec votre modèle prédictif. Cette fonction doit retourner une DataFrame pandas ou un array numpy utilisable par votre modèle (voir exemple _inputTransform_).

3. **Rapport** :
   - Fournissez un _[rapport](./rapport.ipynb)_ bref et clair expliquant vos choix, vos résultats et les performances des modèles.
   - Explication des étapes d’analyse exploratoire et de création des caractéristiques, avec une description claire des caractéristiques sélectionnées et de la méthodologie.
   - Méthode de création du modèle, régularisations etc, avec justification de vos choix.
   - Performance du modèle, et interpretation.

---

#### **Astuces**

1. **Séries temporelles** :
   - Assurez-vous de respecter l’ordre chronologique lors de la division des données en ensembles d’entraînement et de validation.

3. **Caractéristiques temporelles** :
   - Transformez les informations temporelles en variables utiles (par exemple, type de jour, heure, etc.).
   - Explorez l’influence des décalages temporels. Par exemple, la valeur de **x1** à un instant donné pourrait influencer **y** avec un retard de 15 ou 30 minutes.

4. **Nettoyage avant soumission** :
   - Vérifiez que votre notebook s'exécute correctement de bout en bout en utilisant l’option _Restart Kernel and Run All Cells…_. Ensuite, nettoyez les sorties avec _Restart Kernel and Clear All Outputs…_.
  
5. **Fonctions utiles** :
   - _pandas.DataFrame.shift_ : pour créer des décalages temporels sur vos colonnes.
   - _pandas.concat_ : pour combiner plusieurs DataFrames ou colonnes.
   - _pandas.get_dummies_ : pour créer des variables indicatrices (dummy variables) à partir de colonnes catégoriques.
   - _pandas.read_csv_ : pour lire les données et traiter les timestamps correctement.
   - _pandas.dropna_ : pour gérer les valeurs manquantes dans vos données.
   - Fonctions de conversion des colonnes datetime : par exemple, _df.timestamp.dt.hour_, _df.timestamp.dt.minute_, et autres méthodes de l’objet pandas datetime pour extraire des informations temporelles pertinentes.
   - _sklearn.model_selection.TimeSeriesSplit_ : pour diviser vos données temporelles en ensembles d'entraînement et de test tout en respectant l'ordre chronologique (sinon KFold, etc. changent l'ordre de manière aléatoire).


---

#### **Évaluation**

Cette question admet plusieurs solutions possibles. Une partie de la note sera attribuée en fonction de la cohérence et de la justification de vos choix. Votre rapport devra inclure une discussion expliquant la méthode utilisée, ainsi que l'interpretation des résultats obtenus.

---

#### Barème - sur 6 points

1. **Qualité de la méthode et du code** :
    - Noté sur 3 points, en tenant compte de la clarté, de l'organisation et de l'efficacité de l'approches utilisée.

2. **Vérification et analyse des résultats** :
    - Noté sur 3 points, en fonction de la rigueur dans l'évaluation du modèle et de la pertinence des conclusions.

3. **Fonctionnalité** :
    - Des points seront déduits si le notebook n'est pas fonctionnel, en fonction de la gravité des problèmes rencontrés et du nombre de corrections nécessaires pour le rendre opérationnel.

Les notes incluent une évaluation des réponses fournies dans le rapport, en particulier la justification des choix effectués et l'interprétation des résultats et performances du modèle.

# Projet 2 - Analyse d’un phénomène environnemental inconnu

Dans cette version, nous incluons une étape de séparation des données en ensembles d'entraînement et de test en respectant l'ordre chronologique. Nous :

1. Chargons les données et appliquons la fonction `inputTransform` pour générer les features.
2. Choisissons une date de coupure (par exemple le 20 février 2024) pour séparer le jeu de données :
   - **Train** : Données avant le 20 février 2024.
   - **Test** : Données à partir du 20 février 2024.
3. Entraînons le modèle uniquement sur l'ensemble d'entraînement.
4. Évaluons le modèle sur l'ensemble de test pour obtenir une mesure plus réaliste de ses performances futures.
5. Présentons les résultats (métriques, graphiques) pour comparer le train et le test.

---

## Chargement des bibliothèques

- `pandas` et `numpy` pour la manipulation des données et les calculs.
- `matplotlib` pour la visualisation.
- `sklearn` pour l'entraînement du modèle et l'évaluation.

In [1]:
import pandas as pd #type: ignore
import numpy as np  #type: ignore
import matplotlib.pyplot as plt  #type: ignore
from sklearn.ensemble import RandomForestRegressor  #type: ignore
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error  #type: ignore
from sklearn.model_selection import TimeSeriesSplit, cross_val_score  #type: ignore

## Paramètres et Chemins d'accès

- `input_filename` : Fichier contenant les données complètes, non défectueuses, avec la cible y.
- `hold_out_filename` : Fichier contenant les données défectueuses (sans y).
- `split_date` : Date de coupure pour séparer entraînement et test.

In [2]:
input_filename = './projet_2_data.csv'
hold_out_filename = './projet_2_hold_out.csv'
split_date = pd.Timestamp("2024-02-19 12:00:00")  # Date de coupure

## Chargement des données initiales

Nous chargeons les données brutes (avec y) depuis `projet_2_data.csv`. Nous vérifions l'aperçu.

In [None]:
data = pd.read_csv(input_filename, parse_dates=['timestamp'])
data = data.set_index('timestamp')

print("Aperçu des données :")
display(data.head())

## Visualisation rapide des données brutes

Observons rapidement la série `y` ainsi que `x1` et `x2`.

In [None]:
fig, ax = plt.subplots(3, 1, figsize=(12,8), sharex=True)

ax[0].plot(data.index, data['y'], label='y', color='blue')
ax[0].set_title('y')
ax[0].grid(True)

ax[1].plot(data.index, data['x1'], label='x1', color='orange')
ax[1].set_title('x1')
ax[1].grid(True)

ax[2].plot(data.index, data['x2'], label='x2', color='green')
ax[2].set_title('x2')
ax[2].grid(True)

plt.tight_layout()
plt.show()

Veuillez adapter la fonction ci-dessous pour qu'elle génère une _DataFrame_ pandas utilisable pour l'entraînement ou l'évaluation de votre modèle prédictif à partir d'un fichier CSV de données brutes.

Cette fonction doit prendre en paramètre le fichier CSV contenant les données historiques, avec ou sans la variable cible *y*, par example _projet_2_data.csv_ ou _projet_2_hold_out.csv_.

Elle doit retourner un tuple Python contenant les éléments suivants, dans cet ordre :

1. Une _pandas.DataFrame_ des caractéristiques (_X_) utilisées comme entrées pour le modèle de prédiction.
2. Une _pandas.Series_ contenant les valeurs connues de la variable cible (_y_), si celle-ci est présente dans les données. Sinon, la fonction doit retourner _None_ à la place.
3. Une _pandas.Series_ des timestamps correspondant aux instants de prédiction de _y_.

Assurez-vous que _X_, _y_ (si présent), et les timestamps ont **la même taille** afin de garantir la cohérence des données.

## Fonction de transformation des données (inputTransform)

Cette fonction prend un fichier CSV et :
- Extrait des features temporelles (heure, jour de la semaine).
- Crée des transformations cycliques (sin_hour, cos_hour).
- Ajoute des lags sur x1 et x2 (15 et 30 minutes).
- Retourne X, y, timestamps.

In [5]:
def inputTransform(file_path: str =hold_out_filename):
    df = pd.read_csv(file_path, parse_dates=['timestamp'])
    df = df.set_index('timestamp')
    
    # Caractéristiques temporelles
    df['hour'] = df.index.hour
    df['weekday'] = df.index.weekday
    df['sin_hour'] = np.sin(2 * np.pi * df['hour'] / 24)
    df['cos_hour'] = np.cos(2 * np.pi * df['hour'] / 24)
    
    # Lags sur x1 et x2 (1 pas = 15 min, 2 pas = 30 min)
    df['x1_lag15'] = df['x1'].shift(1)
    df['x1_lag30'] = df['x1'].shift(2)
    df['x2_lag15'] = df['x2'].shift(1)
    df['x2_lag30'] = df['x2'].shift(2)
    
    # Supprimer les lignes avec NaN
    df = df.dropna()
    
    features = ['x1', 'x2', 'x1_lag15', 'x1_lag30', 'x2_lag15', 'x2_lag30', 'sin_hour', 'cos_hour', 'weekday']
    X = df[features]
    y = df['y'] if 'y' in df.columns else None
    timestamps = df.index
    
    return X, y, timestamps

## Transformation des données

On transforme les données complètes. Ensuite, on fera la séparation temporelle.

In [None]:
X_full, y_full, ts_full = inputTransform(input_filename)
print("Dimensions de X_full :", X_full.shape)
print("Dimensions de y_full :", y_full.shape)
print("Aperçu de X_full :")
display(X_full.head())

## Séparation Entraînement/Test

Nous utilisons la date de coupure `split_date` (20 février 2024).  
- Entraînement : jusqu'au 19 février 2024 inclus.
- Test : à partir du 20 février 2024.

Cette séparation respecte la chronologie.

In [None]:
train_mask = ts_full < split_date
test_mask = ts_full >= split_date

X_train, y_train = X_full[train_mask], y_full[train_mask]
X_test, y_test = X_full[test_mask], y_full[test_mask]

print("Taille Entraînement :", X_train.shape, y_train.shape)
print("Taille Test :", X_test.shape, y_test.shape)
print("Min date:", ts_full.min())
print("Max date:", ts_full.max())
print("Train rows:", train_mask.sum())
print("Test rows:", test_mask.sum())

## Entraînement du Modèle

Nous entraînons le modèle (ici un `RandomForestRegressor`) uniquement sur l'ensemble d'entraînement.

In [None]:
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

## Évaluation sur l'ensemble d'entraînement

Calcul des prédictions et des métriques sur l'entraînement.

In [None]:
y_train_pred = model.predict(X_train)
r2_train = r2_score(y_train, y_train_pred)
mse_train = mean_squared_error(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)
mape_train = np.mean(np.abs((y_train - y_train_pred) / y_train)) * 100

print("Entraînement :")
print("R²      :", r2_train)
print("MSE     :", mse_train)
print("RMSE    :", np.sqrt(mse_train))
print("MAE     :", mae_train)
print("MAPE(%) :", mape_train)

## Évaluation sur l'ensemble de test

On prédit les valeurs de y pour la période postérieure au 20 février.

In [None]:
y_test_pred = model.predict(X_test)
r2_test = r2_score(y_test, y_test_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)
mape_test = np.mean(np.abs((y_test - y_test_pred) / y_test)) * 100

print("Test :")
print("R²      :", r2_test)
print("MSE     :", mse_test)
print("RMSE    :", np.sqrt(mse_test))
print("MAE     :", mae_test)
print("MAPE(%) :", mape_test)

## Visualisation des prédictions vs observations réelles sur l'ensemble de test

Comparons les valeurs réelles (y_test) et prédites (y_test_pred) sur la période de test.

In [None]:
plt.figure(figsize=(12,5))
plt.plot(X_test.index, y_test, label='y réel (test)', alpha=0.7)
plt.plot(X_test.index, y_test_pred, label='y prédit (test)', alpha=0.7)
plt.title("Comparaison des valeurs réelles et prédites (Test)")
plt.xlabel("Temps")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.show()

## Nuage de points des prédictions vs réelles sur le test

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(y_test, y_test_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("y réel (test)")
plt.ylabel("y prédit (test)")
plt.title("Valeurs prédites vs réelles (Test)")
plt.grid(True)
plt.show()

## Analyse des Résidus sur le Test

Distribution des résidus (test) et résidus en fonction du temps.

In [None]:
residuals_test = y_test - y_test_pred

plt.figure(figsize=(10,5))
plt.hist(residuals_test, bins=50, alpha=0.7, edgecolor='black')
plt.title("Distribution des résidus (Test)")
plt.xlabel("Résidu (y - y_prédit)")
plt.ylabel("Fréquence")
plt.grid(True)
plt.show()

plt.figure(figsize=(12,5))
plt.plot(X_test.index, residuals_test, alpha=0.7)
plt.axhline(y=0, color='r', linestyle='--')
plt.title("Résidus en fonction du temps (Test)")
plt.xlabel("Temps")
plt.ylabel("Résidu")
plt.grid(True)
plt.show()

---
#### Verification

Veuillez valider votre modèles à l'aide de la fonction ci-dessous, vous devez entrer votre modèle de prédiction, ainsi que la fonction de transformation de la donnée de test (inputGenerator=...).

⚠️ - Cette fonction vérifie uniquement que votre soumission est vérifiable. Elle ne donne aucune indication sur la validité de la soumission (e.g. type de ML) ou sa qualité.


In [14]:
# executer la commande ci-dessous si nécessaire (enlever le #).
# !pip install -e ./eng209

In [15]:
from importlib import reload
import eng209.verify
reload(eng209.verify)
from eng209.verify import verify_q2

In [None]:
# Remplacez model par votre modèle
model = model
verify_q2(model, inputGenerator=inputTransform)