# Notebook : Ingestion quotidienne de donn√©es √©oliennes

## üìã Objectif
Charger de mani√®re incr√©mentale les donn√©es de production √©olienne depuis GitHub vers le Lakehouse Bronze.

## üîÑ Logique
1. Identifier la date la plus r√©cente dans Bronze
2. Calculer le jour suivant (date + 1)
3. T√©l√©charger le fichier CSV correspondant depuis GitHub
4. Ajouter les nouvelles donn√©es en mode append

## ‚öôÔ∏è Ex√©cution
- **Fr√©quence recommand√©e** : Quotidienne (via pipeline)
- **Dur√©e moyenne** : 50-60 secondes
- **D√©pendances** : Repository GitHub public accessible

## üì¶ D√©pendances
- Lakehouse : LH_Wind_Power_Bronze
- Source : https://github.com/gsoulat/data-training-fabric/tree/main/eolienne

In [1]:
import requests
import pandas as pd
from datetime import datetime, timedelta

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 3, Finished, Available, Finished, False)

In [2]:
# URL de base du repository GitHub
base_url = "https://raw.githubusercontent.com/gsoulat/data-training-fabric/refs/heads/main/eolienne/"

# Chemin vers la table Bronze
bronze_table_path = "abfss://50299c72-6b9d-447f-b7e0-9efb111c4078@onelake.dfs.fabric.microsoft.com/0759b365-0bb6-4be1-9f82-a5b9225c29bb/Tables/dbo/windpower"

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 4, Finished, Available, Finished, False)

In [3]:
# V√©rifier que la table existe et afficher quelques statistiques
df_check = spark.read.format("delta").load(bronze_table_path)

print(f"üìä Nombre total de lignes : {df_check.count()}")

print(f"üìÖ Colonnes disponibles : {df_check.columns}")

print(f"üîç Aper√ßu des 5 premi√®res lignes :")

df_check.show(5)

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 5, Finished, Available, Finished, False)

üìä Nombre total de lignes : 864
üìÖ Colonnes disponibles : ['production_id', 'date', 'time', 'turbine_name', 'capacity', 'location_name', 'latitude', 'longitude', 'region', 'status', 'responsible_department', 'wind_speed', 'wind_direction', 'energy_produced']
üîç Aper√ßu des 5 premi√®res lignes :
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+------+----------------------+----------+--------------+---------------+
|production_id|               date|    time|turbine_name|capacity|location_name|latitude|longitude|  region|status|responsible_department|wind_speed|wind_direction|energy_produced|
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+------+----------------------+----------+--------------+---------------+
|         6481|2024-06-16 00:00:00|00-00-00|   Turbine A|    2200|   Location 1| 34.0522|-118.2437|Region A|Online|            Operations|  17.49365|      

In [4]:
# Charger les donn√©es existantes depuis Bronze
df_spark = spark.read.format("delta").load(bronze_table_path)

# Convertir en Pandas pour manipulation plus facile
df_pandas = df_spark.toPandas()

print(f"üìä Donn√©es actuelles dans Bronze : {len(df_pandas)} lignes")

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 6, Finished, Available, Finished, False)

üìä Donn√©es actuelles dans Bronze : 864 lignes


In [5]:
# Trouver la date la plus r√©cente dans les donn√©es
most_recent_date = pd.to_datetime(df_pandas['date'], format="%Y%m%d").max()

# Calculer le jour suivant
next_date = (most_recent_date + timedelta(days=1)).strftime("%Y%m%d")

print(f"üìÖ Date la plus r√©cente : {most_recent_date.strftime('%Y-%m-%d')}")
print(f"‚û°Ô∏è  Prochaine date √† charger : {next_date}")

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 7, Finished, Available, Finished, False)

üìÖ Date la plus r√©cente : 2024-06-16
‚û°Ô∏è  Prochaine date √† charger : 20240617


In [6]:
# Construire l'URL du fichier CSV
file_url = f"{base_url}{next_date}_wind_power_data.csv"
print(f"üåê URL du fichier : {file_url}")

try:
    # T√©l√©charger le CSV depuis GitHub
    df_pandas_new = pd.read_csv(file_url)
    
    # Convertir la colonne date en datetime
    df_pandas_new['date'] = pd.to_datetime(df_pandas_new['date'])
    
    print(f"‚úÖ Nouvelles donn√©es t√©l√©charg√©es : {len(df_pandas_new)} lignes")
    print(f"üìä Aper√ßu des nouvelles donn√©es :")
    print(df_pandas_new.head())
    
except Exception as e:
    print(f"‚ùå Erreur lors du t√©l√©chargement : {e}")
    print(f"üí° Cela peut signifier que le fichier pour la date {next_date} n'existe pas encore.")

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 8, Finished, Available, Finished, False)

üåê URL du fichier : https://raw.githubusercontent.com/gsoulat/data-training-fabric/refs/heads/main/eolienne/20240617_wind_power_data.csv
‚úÖ Nouvelles donn√©es t√©l√©charg√©es : 432 lignes
üìä Aper√ßu des nouvelles donn√©es :
   production_id       date      time turbine_name  capacity location_name  \
0           6913 2024-06-17  00-00-00    Turbine A      2200    Location 1   
1           6914 2024-06-17  00-00-00    Turbine B      2000    Location 2   
2           6915 2024-06-17  00-00-00    Turbine C      2500    Location 3   
3           6916 2024-06-17  00-10-00    Turbine A      2200    Location 1   
4           6917 2024-06-17  00-10-00    Turbine B      2000    Location 2   

   latitude  longitude    region  status responsible_department  wind_speed  \
0   34.0522  -118.2437  Region A  Online             Operations     7.73222   
1   36.7783  -119.4179  Region B  Online             Operations    19.67376   
2   40.7128   -74.0060  Region C  Online             Operations  

In [7]:
# Convertir le DataFrame Pandas en Spark DataFrame
df_spark_new = spark.createDataFrame(df_pandas_new, schema=df_spark.schema)

# Ajouter les nouvelles donn√©es √† la table Bronze (mode append)
df_spark_new.write.format('delta').mode("append").save(bronze_table_path)

print("‚úÖ Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze")
print(f"üìä Total apr√®s ajout : {spark.read.format('delta').load(bronze_table_path).count()} lignes")

StatementMeta(, 3381bacf-9acf-466f-840a-9ff1d4be6e2f, 9, Finished, Available, Finished, False)

‚úÖ Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze
üìä Total apr√®s ajout : 1296 lignes
