# Notebook : Ingestion quotidienne de donn√©es √©oliennes

## üìã Objectif
Charger de mani√®re incr√©mentale les donn√©es de production √©olienne depuis GitHub vers le Lakehouse Bronze.

## üîÑ Logique
1. Identifier la date la plus r√©cente dans Bronze
2. Calculer le jour suivant (date + 1)
3. T√©l√©charger le fichier CSV correspondant depuis GitHub
4. Ajouter les nouvelles donn√©es en mode append

## ‚öôÔ∏è Ex√©cution
- **Fr√©quence recommand√©e** : Quotidienne (via pipeline)
- **Dur√©e moyenne** : 50-60 secondes
- **D√©pendances** : Repository GitHub public accessible

## üì¶ D√©pendances
- Lakehouse : LH_Wind_Power_Bronze
- Source : https://github.com/gsoulat/data-training-fabric/tree/main/eolienne

In [22]:
import requests
import pandas as pd
from datetime import datetime, timedelta

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 24, Finished, Available, Finished)

In [23]:
# Get the current notebook name
notebook_name = notebookutils.runtime.context.get("currentNotebookName")

# Get the current workspace name
workspace_name = notebookutils.runtime.context.get("currentWorkspaceName")

# Get the current workspace name
workspace_id = notebookutils.runtime.context.get("currentWorkspaceId")

display(notebook_name)
display(workspace_name)
display(workspace_id)

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 25, Finished, Available, Finished)

'NB_Get_Daily_Data_Python'

'My workspace'

'3e466a0e-52dd-454c-8eed-106445e4c9f1'

In [24]:
# URL de base du repository GitHub
base_url = "https://raw.githubusercontent.com/gsoulat/data-training-fabric/main/eolienne/"

# Chemin vers la table Bronze
# bronze_table_path = "Tables/dbo/wind_power"
bronze_table_path = "abfss://3e466a0e-52dd-454c-8eed-106445e4c9f1@onelake.dfs.fabric.microsoft.com/46f8ad23-c07e-4263-bf79-ae0ce1f4fed3/Tables/dbo/wind_power"

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 26, Finished, Available, Finished)

In [25]:
# ‚ö†Ô∏è CELLULE D'INITIALISATION - √Ä ex√©cuter UNE SEULE FOIS
# Cette cellule cr√©e la table Bronze avec le premier fichier de donn√©es

# initial_date = "20240615"  # Premier jour disponible
# initial_url = f"{base_url}{initial_date}_wind_power_data.csv"

# print(f"üì• T√©l√©chargement du fichier initial : {initial_url}")

# T√©l√©charger et charger le premier fichier
# df_initial = pd.read_csv(initial_url)
# df_initial['date'] = pd.to_datetime(df_initial['date'])

# print(f"‚úÖ Fichier charg√© : {len(df_initial)} lignes")
# print(f"üìä Aper√ßu des donn√©es :")
# print(df_initial.head())

# Convertir en Spark DataFrame et sauvegarder
# df_spark_initial = spark.createDataFrame(df_initial)
# df_spark_initial.write.format('delta').mode("overwrite").save(bronze_table_path)

# print("‚úÖ Table Bronze initialis√©e avec succ√®s !")

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 27, Finished, Available, Finished)

In [26]:
# V√©rifier que la table existe et afficher quelques statistiques
df_check = spark.read.format("delta").load(bronze_table_path)

print(f"üìä Nombre total de lignes : {df_check.count()}")
print(f"üìÖ Colonnes disponibles : {df_check.columns}")
print(f"üîç Aper√ßu des 5 premi√®res lignes :")
df_check.show(5)

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 28, Finished, Available, Finished)

üìä Nombre total de lignes : 1296
üìÖ Colonnes disponibles : ['production_id', 'date', 'time', 'turbine_name', 'capacity', 'location_name', 'latitude', 'longitude', 'region', 'status', 'responsible_department', 'wind_speed', 'wind_direction', 'energy_produced']
üîç Aper√ßu des 5 premi√®res lignes :
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+------+----------------------+----------+--------------+---------------+
|production_id|               date|    time|turbine_name|capacity|location_name|latitude|longitude|  region|status|responsible_department|wind_speed|wind_direction|energy_produced|
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+------+----------------------+----------+--------------+---------------+
|         6589|2024-06-16 00:00:00|06-00-00|   Turbine A|    2200|   Location 1| 34.0522|-118.2437|Region A|Online|            Operations|  19.98823|     

In [27]:
# Charger les donn√©es existantes depuis Bronze
df_spark = spark.read.format("delta").load(bronze_table_path)

# Convertir en Pandas pour manipulation plus facile
df_pandas = df_spark.toPandas()

print(f"üìä Donn√©es actuelles dans Bronze : {len(df_pandas)} lignes")

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 29, Finished, Available, Finished)

üìä Donn√©es actuelles dans Bronze : 1296 lignes


In [28]:
# Trouver la date la plus r√©cente dans les donn√©es
most_recent_date = pd.to_datetime(df_pandas['date'], format="%Y%m%d").max()

# Calculer le jour suivant
next_date = (most_recent_date + timedelta(days=1)).strftime("%Y%m%d")

print(f"üìÖ Date la plus r√©cente : {most_recent_date.strftime('%Y-%m-%d')}")
print(f"‚û°Ô∏è  Prochaine date √† charger : {next_date}")

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 30, Finished, Available, Finished)

üìÖ Date la plus r√©cente : 2024-06-17
‚û°Ô∏è  Prochaine date √† charger : 20240618


In [29]:
# Construire l'URL du fichier CSV
file_url = f"{base_url}{next_date}_wind_power_data.csv"
print(f"üåê URL du fichier : {file_url}")

try:
    # T√©l√©charger le CSV depuis GitHub
    df_pandas_new = pd.read_csv(file_url)
    
    # Convertir la colonne date en datetime
    df_pandas_new['date'] = pd.to_datetime(df_pandas_new['date'])
    
    print(f"‚úÖ Nouvelles donn√©es t√©l√©charg√©es : {len(df_pandas_new)} lignes")
    print(f"üìä Aper√ßu des nouvelles donn√©es :")
    print(df_pandas_new.head())
    
except Exception as e:
    print(f"‚ùå Erreur lors du t√©l√©chargement : {e}")
    print(f"üí° Cela peut signifier que le fichier pour la date {next_date} n'existe pas encore.")

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 31, Finished, Available, Finished)

üåê URL du fichier : https://raw.githubusercontent.com/gsoulat/data-training-fabric/main/eolienne/20240618_wind_power_data.csv
‚úÖ Nouvelles donn√©es t√©l√©charg√©es : 432 lignes
üìä Aper√ßu des nouvelles donn√©es :
   production_id       date      time turbine_name  capacity location_name  \
0           7345 2024-06-18  00-00-00    Turbine A      2200    Location 1   
1           7346 2024-06-18  00-00-00    Turbine B      2000    Location 2   
2           7347 2024-06-18  00-00-00    Turbine C      2500    Location 3   
3           7348 2024-06-18  00-10-00    Turbine A      2200    Location 1   
4           7349 2024-06-18  00-10-00    Turbine B      2000    Location 2   

   latitude  longitude    region  status responsible_department  wind_speed  \
0   34.0522  -118.2437  Region A  Online             Operations    20.54374   
1   36.7783  -119.4179  Region B  Online             Operations    11.69426   
2   40.7128   -74.0060  Region C  Online             Operations    11.39494 

In [30]:
# Convertir le DataFrame Pandas en Spark DataFrame
df_spark_new = spark.createDataFrame(df_pandas_new, schema=df_spark.schema)

# Ajouter les nouvelles donn√©es √† la table Bronze (mode append)
df_spark_new.write.format('delta').mode("append").save(bronze_table_path)

print("‚úÖ Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze")
print(f"üìä Total apr√®s ajout : {spark.read.format('delta').load(bronze_table_path).count()} lignes")

StatementMeta(, bd9e5d3e-9b73-4777-aef3-e1010efece40, 32, Finished, Available, Finished)

‚úÖ Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze
üìä Total apr√®s ajout : 1728 lignes
