# Analyse des données de production électrique en France

Ce notebook permet de lire et d'afficher les données du fichier `production_france_detail.parquet`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

In [None]:
# Lecture du fichier parquet
df = pd.read_parquet('production_france_detail.parquet')
print(f"Données chargées : {len(df)} lignes")

In [None]:
# Afficher les premières lignes
df.head(10)

In [None]:
# Informations sur le dataset
df.info()

In [None]:
# Statistiques descriptives
df.describe()

In [None]:
# Afficher les noms de colonnes
print("Colonnes disponibles:")
for col in df.columns:
    print(f"  - {col}")

In [None]:
# Vérifier les valeurs manquantes
missing = df.isnull().sum()
if missing.sum() > 0:
    print("Valeurs manquantes par colonne:")
    print(missing[missing > 0])
else:
    print("Aucune valeur manquante")

In [None]:
# Afficher quelques statistiques si des colonnes numériques existent
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
if len(numeric_cols) > 0:
    print(f"Colonnes numériques trouvées: {len(numeric_cols)}")
    df[numeric_cols].describe().T

In [None]:
# Afficher les types de données
df.dtypes

In [None]:
# Exemple de visualisation si des colonnes temporelles et numériques existent
# Adapter selon la structure réelle des données
date_cols = df.select_dtypes(include=['datetime64']).columns
if len(date_cols) > 0 and len(numeric_cols) > 0:
    fig, ax = plt.subplots(figsize=(14, 6))
    df.set_index(date_cols[0])[numeric_cols[:5]].plot(ax=ax)
    plt.title('Évolution des principales variables dans le temps')
    plt.xlabel('Date')
    plt.ylabel('Valeur')
    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.show()
else:
    print("Pas de colonnes temporelles ou numériques détectées pour la visualisation")