# Notebook : Ingestion quotidienne de donn√©es √©oliennes

##  Objectif
Charger de mani√®re incr√©mentale les donn√©es de production √©olienne depuis GitHub vers le Lakehouse Bronze.

##  Logique
1. Identifier la date la plus r√©cente dans Bronze
2. Calculer le jour suivant (date + 1)
3. T√©l√©charger le fichier CSV correspondant depuis GitHub
4. Ajouter les nouvelles donn√©es en mode append

##  Ex√©cution
- **Fr√©quence recommand√©e** : Quotidienne (via pipeline)
- **Dur√©e moyenne** : 50-60 secondes
- **D√©pendances** : Repository GitHub public accessible

##  D√©pendances
- Lakehouse : LH_Wind_Power_Bronze
- Source : https://github.com/gsoulat/data-training-fabric/tree/main/eolienne

2.1 - Cellule 1 : Imports

In [6]:
import requests
import pandas as pd
from datetime import datetime, timedelta

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 8, Finished, Available, Finished)

2.2 - Cellule 2 : Configuration

In [2]:
# URL de base du repository GitHub
base_url = "https://raw.githubusercontent.com/gsoulat/data-training-fabric/main/eolienne/"

# Chemin vers la table Bronze
#bronze_table_path = "abfss://44fadaf6-616a-4041-8a61-e92d278f3039@onelake.dfs.fabric.microsoft.com/3b5e9453-5d0e-43b9-800f-132c10130c48/Files"
bronze_table_path = "abfss://44fadaf6-616a-4041-8a61-e92d278f3039@onelake.dfs.fabric.microsoft.com/3b5e9453-5d0e-43b9-800f-132c10130c48/Tables/dbo/wind_power"

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 4, Finished, Available, Finished)

2.3 - Cellule 3 : Initialisation (PREMI√àRE FOIS UNIQUEMENT)

In [14]:
# CELLULE D'INITIALISATION - √Ä ex√©cuter UNE SEULE FOIS
# Cette cellule cr√©e la table Bronze avec le premier fichier de donn√©es

initial_date = "20240615"  # Premier jour disponible
initial_url = f"{base_url}{initial_date}_wind_power_data.csv"

print(f" T√©l√©chargement du fichier initial : {initial_url}")

# T√©l√©charger et charger le premier fichier
df_initial = pd.read_csv(initial_url)
df_initial['date'] = pd.to_datetime(df_initial['date'])

print(f" Fichier charg√© : {len(df_initial)} lignes")
print(f" Aper√ßu des donn√©es :")
print(df_initial.head())

# Convertir en Spark DataFrame et sauvegarder
df_spark_initial = spark.createDataFrame(df_initial)
df_spark_initial.write.format('delta').mode("overwrite").save(bronze_table_path)

print(" Table Bronze initialis√©e avec succ√®s !")

StatementMeta(, bbf4a9e1-920c-4366-86db-f75ff4768f88, 16, Finished, Available, Finished)

 T√©l√©chargement du fichier initial : https://raw.githubusercontent.com/gsoulat/data-training-fabric/main/eolienne/20240615_wind_power_data.csv
 Fichier charg√© : 432 lignes
 Aper√ßu des donn√©es :
   production_id       date      time turbine_name  capacity location_name  \
0           6049 2024-06-15  00-00-00    Turbine A      2200    Location 1   
1           6050 2024-06-15  00-00-00    Turbine B      2000    Location 2   
2           6051 2024-06-15  00-00-00    Turbine C      2500    Location 3   
3           6052 2024-06-15  00-10-00    Turbine A      2200    Location 1   
4           6053 2024-06-15  00-10-00    Turbine B      2000    Location 2   

   latitude  longitude    region      status responsible_department  \
0   34.0522  -118.2437  Region A      Online             Operations   
1   36.7783  -119.4179  Region B  Inspection            Maintenance   
2   40.7128   -74.0060  Region C      Online             Operations   
3   34.0522  -118.2437  Region A      Online    

2.4 - V√©rification de l'initialisation

In [3]:
# V√©rifier que la table existe et afficher quelques statistiques
df_check = spark.read.format("delta").load(bronze_table_path)

print(f" Nombre total de lignes : {df_check.count()}")
print(f" Colonnes disponibles : {df_check.columns}")
print(f" Aper√ßu des 5 premi√®res lignes :")
df_check.show(5)

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 5, Finished, Available, Finished)

 Nombre total de lignes : 432
 Colonnes disponibles : ['production_id', 'date', 'time', 'turbine_name', 'capacity', 'location_name', 'latitude', 'longitude', 'region', 'status', 'responsible_department', 'wind_speed', 'wind_direction', 'energy_produced']
 Aper√ßu des 5 premi√®res lignes :
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+--------------------+----------------------+----------+--------------+---------------+
|production_id|               date|    time|turbine_name|capacity|location_name|latitude|longitude|  region|              status|responsible_department|wind_speed|wind_direction|energy_produced|
+-------------+-------------------+--------+------------+--------+-------------+--------+---------+--------+--------------------+----------------------+----------+--------------+---------------+
|         6319|2024-06-15 00:00:00|15-00-00|   Turbine A|    2200|   Location 1| 34.0522|-118.2437|Region A|              Onl

2.5 - Cellule 4 : Chargement des donn√©es existantes

In [4]:
# Charger les donn√©es existantes depuis Bronze
df_spark = spark.read.format("delta").load(bronze_table_path)

# Convertir en Pandas pour manipulation plus facile
df_pandas = df_spark.toPandas()

print(f" Donn√©es actuelles dans Bronze : {len(df_pandas)} lignes")

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 6, Finished, Available, Finished)

 Donn√©es actuelles dans Bronze : 432 lignes


2.6 - Cellule 5 : Identification de la prochaine date

In [7]:
# Trouver la date la plus r√©cente dans les donn√©es
most_recent_date = pd.to_datetime(df_pandas['date'], format="%Y%m%d").max()

# Calculer le jour suivant
next_date = (most_recent_date + timedelta(days=1)).strftime("%Y%m%d")

print(f" Date la plus r√©cente : {most_recent_date.strftime('%Y-%m-%d')}")
print(f"  Prochaine date √† charger : {next_date}")

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 9, Finished, Available, Finished)

 Date la plus r√©cente : 2024-06-15
  Prochaine date √† charger : 20240616


2.7 - Cellule 6 : T√©l√©chargement des nouvelles donn√©es

In [8]:
# Construire l'URL du fichier CSV
file_url = f"{base_url}{next_date}_wind_power_data.csv"
print(f" URL du fichier : {file_url}")

try:
    # T√©l√©charger le CSV depuis GitHub
    df_pandas_new = pd.read_csv(file_url)
    
    # Convertir la colonne date en datetime
    df_pandas_new['date'] = pd.to_datetime(df_pandas_new['date'])
    
    print(f" Nouvelles donn√©es t√©l√©charg√©es : {len(df_pandas_new)} lignes")
    print(f" Aper√ßu des nouvelles donn√©es :")
    print(df_pandas_new.head())
    
except Exception as e:
    print(f" Erreur lors du t√©l√©chargement : {e}")
    print(f" Cela peut signifier que le fichier pour la date {next_date} n'existe pas encore.")

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 10, Finished, Available, Finished)

üåê URL du fichier : https://raw.githubusercontent.com/gsoulat/data-training-fabric/main/eolienne/20240616_wind_power_data.csv
 Nouvelles donn√©es t√©l√©charg√©es : 432 lignes
 Aper√ßu des nouvelles donn√©es :
   production_id       date      time turbine_name  capacity location_name  \
0           6481 2024-06-16  00-00-00    Turbine A      2200    Location 1   
1           6482 2024-06-16  00-00-00    Turbine B      2000    Location 2   
2           6483 2024-06-16  00-00-00    Turbine C      2500    Location 3   
3           6484 2024-06-16  00-10-00    Turbine A      2200    Location 1   
4           6485 2024-06-16  00-10-00    Turbine B      2000    Location 2   

   latitude  longitude    region  status responsible_department  wind_speed  \
0   34.0522  -118.2437  Region A  Online             Operations    17.49365   
1   36.7783  -119.4179  Region B  Online             Operations    13.09261   
2   40.7128   -74.0060  Region C  Online             Operations     8.26528   
3   

2.8 - Cellule 7 : Sauvegarde dans Bronze

In [10]:
# Convertir le DataFrame Pandas en Spark DataFrame
df_spark_new = spark.createDataFrame(df_pandas_new, schema=df_spark.schema)

# Ajouter les nouvelles donn√©es √† la table Bronze (mode append)
df_spark_new.write.format('delta').mode("append").save(bronze_table_path)

print(" Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze")
print(f" Total apr√®s ajout : {spark.read.format('delta').load(bronze_table_path).count()} lignes")

StatementMeta(, bc181ada-752e-4de0-9ae0-59e316d85230, 12, Finished, Available, Finished)

 Donn√©es ajout√©es avec succ√®s dans le Lakehouse Bronze
 Total apr√®s ajout : 1296 lignes
