# EDA - Données Météorologiques Malgaches
## Analyse Exploratoire des Conditions Climatiques

In [None]:
# Importations des librairies
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

# Configuration des visualisations
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12, 6)
%matplotlib inline

## 1. Chargement des Données

In [None]:
# Chargement des tables du schéma en étoile
facts = pd.read_csv("data/star_schema/facts_meteo.csv")
villes = pd.read_csv("data/star_schema/dim_villes.csv")
dates = pd.read_csv("data/star_schema/dim_dates.csv")

# Fusion des tables
df = facts.merge(villes, on='ville_id').merge(dates, on='date_id')
df['date'] = pd.to_datetime(df['date'])

# Aperçu
print("\n=== Structure des données ===")
display(df.head(3))
print("\nInfos clés :")
display(df.info())

## 2. Analyse Univariée

In [None]:
# Configuration des subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Température
sns.histplot(df['temperature'], bins=20, kde=True, ax=axes[0,0])
axes[0,0].set_title('Distribution des Températures')

# Pluie
sns.histplot(df[df['pluie']>0]['pluie'], bins=20, kde=True, ax=axes[0,1])
axes[0,1].set_title('Distribution des Précipitations (jours de pluie)')

# Vent
sns.histplot(df['vent'], bins=20, kde=True, ax=axes[1,0])
axes[1,0].set_title('Distribution de la Vitesse du Vent')

# Score Météo
sns.histplot(df['score_meteo'], bins=20, kde=True, ax=axes[1,1])
axes[1,1].set_title('Distribution des Scores Météo')

plt.tight_layout()
plt.show()

# Statistiques descriptives
print("\n=== Statistiques Descriptives ===")
display(df[['temperature', 'pluie', 'vent', 'score_meteo']].describe())

## 3. Analyse par Ville

In [None]:
# Boxplot des températures par ville
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x='ville', y='temperature', order=villes['ville'])
plt.title('Distribution des Températures par Ville')
plt.xticks(rotation=45)
plt.show()

# Tableau récapitulatif
print("\n=== Statistiques par Ville ===")
ville_stats = df.groupby('ville').agg({
    'temperature': ['mean', 'min', 'max'],
    'pluie': ['sum', 'mean'],
    'score_meteo': 'mean'
}).round(1)
display(ville_stats)

## 4. Analyse Temporelle

In [None]:
# Tendances mensuelles
monthly = df.groupby(['mois', 'ville'])['temperature'].mean().unstack()

plt.figure(figsize=(14, 6))
sns.lineplot(data=monthly, dashes=False, markers=True)
plt.title('Évolution Mensuelle des Températures')
plt.xlabel('Mois')
plt.ylabel('Température Moyenne (°C)')
plt.xticks(range(1,13))
plt.grid(True)
plt.legend(title='Ville', bbox_to_anchor=(1.05, 1))
plt.show()

## 5. Corrélations et Relations

In [None]:
# Matrice de corrélation
corr = df[['temperature', 'humidite', 'pluie', 'vent', 'score_meteo']].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)
plt.title('Matrice de Corrélation')
plt.show()

# Relation Température/Score
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='temperature', y='score_meteo', hue='ville')
plt.title('Relation entre Température et Score Météo')
plt.show()

## 6. Jours Idéaux

In [None]:
# Filtre des jours idéaux
ideal_days = df[df['ideal_temp'] & df['low_rain'] & df['low_wind']]

# Répartition par ville
plt.figure(figsize=(10, 5))
sns.countplot(data=ideal_days, x='ville', order=villes['ville'])
plt.title('Nombre de Jours "Parfaits" par Ville')
plt.xticks(rotation=45)
plt.show()

# Top 5 des meilleurs jours
print("\n=== Top 5 des Meilleurs Jours ===")
top_days = df.sort_values('score_meteo', ascending=False).head()
display(top_days[['date', 'ville', 'temperature', 'pluie', 'vent', 'score_meteo']])

## 7. Recommandations Finales

In [None]:
# Calcul des recommandations
best_month = df.groupby('mois')['score_meteo'].mean().idxmax()
best_city = df.groupby('ville')['score_meteo'].mean().idxmax()

print(f"""
=== Recommandations de Voyage ===
Meilleure période globale : Mois {best_month}
Ville la plus agréable : {best_city}

Conseils :
- Éviter Janvier-Février (fortes pluies)
- Privilégier Mahajanga pour un climat chaud et sec
- Antananarivo offre le meilleur équilibre température/humidité
""")