# Weather Data – Régression linéaire simple

Ce notebook illustre une **première exploitation IA** des données produites par le pipeline
**AWS Weather Data Pipeline**.

Les données utilisées proviennent de la vue métier Athena :
`weather_daily_metrics_by_city`.

Objectif :
- démontrer la continuité entre un pipeline Data Cloud et une exploitation IA,
- implémenter une **régression linéaire simple** à des fins pédagogiques,
- interpréter les résultats sans recherche de performance prédictive avancée.

In [12]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [13]:
df = pd.read_csv("../weather_daily_metrics_by_city.csv")

df.head()

Unnamed: 0,date,city,avg_temperature_c,min_temperature_c,max_temperature_c,avg_humidity,avg_wind_kmh,total_precip_mm
0,2025-11-20,Lyon,3.359821,-1.8,9.5,79.627976,10.83244,341.0
1,2025-11-20,Marseille,7.195685,1.8,13.4,67.739583,24.211905,209.0
2,2025-11-20,Nice,9.554167,3.3,17.1,68.247024,8.396131,414.0
3,2025-11-20,Paris,4.374702,-0.5,9.7,83.681548,9.767857,294.0
4,2025-11-20,Toulouse,6.354762,0.5,14.1,78.875,11.939286,965.0


In [14]:
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   date               5 non-null      object 
 1   city               5 non-null      object 
 2   avg_temperature_c  5 non-null      float64
 3   min_temperature_c  5 non-null      float64
 4   max_temperature_c  5 non-null      float64
 5   avg_humidity       5 non-null      float64
 6   avg_wind_kmh       5 non-null      float64
 7   total_precip_mm    5 non-null      float64
dtypes: float64(6), object(2)
memory usage: 452.0+ bytes


Unnamed: 0,avg_temperature_c,min_temperature_c,max_temperature_c,avg_humidity,avg_wind_kmh,total_precip_mm
count,5.0,5.0,5.0,5.0,5.0,5.0
mean,6.167827,0.66,12.76,75.634226,13.029524,444.6
std,2.432022,1.980656,3.202811,7.212978,6.386866,300.280369
min,3.359821,-1.8,9.5,67.739583,8.396131,209.0
25%,4.374702,-0.5,9.7,68.247024,9.767857,294.0
50%,6.354762,0.5,13.4,78.875,10.83244,341.0
75%,7.195685,1.8,14.1,79.627976,11.939286,414.0
max,9.554167,3.3,17.1,83.681548,24.211905,965.0


In [15]:
df = df.dropna()

df.isnull().sum()

date                 0
city                 0
avg_temperature_c    0
min_temperature_c    0
max_temperature_c    0
avg_humidity         0
avg_wind_kmh         0
total_precip_mm      0
dtype: int64

In [None]:
print(df.columns)

features = [
    "avg_temperature_c",
    "avg_humidity",
    "avg_wind_kmh"
]

target = "total_precip_mm"

X = df[features]
y = df[target]

Index(['date', 'city', 'avg_temperature_c', 'min_temperature_c',
       'max_temperature_c', 'avg_humidity', 'avg_wind_kmh', 'total_precip_mm'],
      dtype='object')


KeyError: 'total_precipitation_mm'

In [None]:
model = LinearRegression()
model.fit(X, y)

In [None]:
coefficients = pd.DataFrame({
    "feature": features,
    "coefficient": model.coef_
})

coefficients

In [None]:
y_pred = model.predict(X)

r2 = r2_score(y, y_pred)
mse = mean_squared_error(y, y_pred)

r2, mse

## Interprétation des résultats

- Les coefficients indiquent l’influence relative de chaque variable
  sur les précipitations totales.
- Le modèle reste volontairement simple :
  - pas de validation croisée,
  - pas d’optimisation,
  - pas de feature engineering avancé.

L’objectif n’est **pas** la performance prédictive,
mais la démonstration d’une **chaîne complète Data → IA**.

## Limites et conclusion

Ce modèle de régression linéaire a une portée pédagogique.
Il montre comment des données issues d’un pipeline Data Cloud
peuvent être directement exploitées dans un contexte IA.

Dans un contexte industriel, plusieurs améliorations seraient nécessaires :
- enrichissement des features,
- plus grand volume de données,
- validation croisée,
- modèles plus robustes.

Néanmoins, ce notebook démontre la **continuité fonctionnelle**
entre ingestion, transformation, exposition analytique et IA appliquée.