# Importation des modules nécessaires

In [52]:
from Extract.API import API
from Extract.Scrapping import Scrapping
from Transform.TransformData import TransformData   
import pandas as pd

# Récupération de la donnée (via api)

In [53]:
# Utiliser l'API pour récupérer les données vélo/piéton
api = API()

# Lien de l'API qui retourne un CSV
lien_api_velo_pieton = (
    "https://data.rennesmetropole.fr/api/explore/v2.1/catalog/datasets/"
    "eco-counter-data/exports/csv?lang=fr&timezone=Europe%2FBerlin&"
    "use_labels=true&delimiter=%3B"
)

# Récupérer toutes les données au format CSV
csv_pieton_velo_rennes = api.get_api_data(lien_api_velo_pieton)

# Vérifier et afficher les données récupérées
if csv_pieton_velo_rennes is not None:
    print(f"Total d'enregistrements récupérés : {len(csv_pieton_velo_rennes)}")
else:
    print("Aucune donnée récupérée.")

df_velo_piton = pd.DataFrame(csv_pieton_velo_rennes)
df_velo_piton.head()


Les données ont été chargées avec succès.
Total d'enregistrements récupérés : 137650


Unnamed: 0,date,isoDate,counts,status,ID,name,counter,geo,sens
0,2019-03-13T01:00:00+01:00,2019-03-13T00:00:00+0100,,,100050719,Rennes Rue d'Isly V1,Y2H19037896,"48.10572, -1.67767",5
1,2019-03-13T03:00:00+01:00,2019-03-13T02:00:00+0100,,,100050719,Rennes Rue d'Isly V1,Y2H19037896,"48.10572, -1.67767",5
2,2019-03-13T07:00:00+01:00,2019-03-13T06:00:00+0100,2.0,0.0,100050719,Rennes Rue d'Isly V1,Y2H19037896,"48.10572, -1.67767",5
3,2019-03-13T08:00:00+01:00,2019-03-13T07:00:00+0100,23.0,0.0,100050719,Rennes Rue d'Isly V1,Y2H19037896,"48.10572, -1.67767",5
4,2019-03-13T14:00:00+01:00,2019-03-13T13:00:00+0100,69.0,0.0,100050719,Rennes Rue d'Isly V1,Y2H19037896,"48.10572, -1.67767",5


# Récupération de la data (via scrapping)

In [54]:
# Importation de notre class de scraping 
scrap = Scrapping()

### Scrap toute les datas d'aujourd'hui 

In [55]:
# col, data = scrap.scrap_site()

# df_meteo_aujourdhui = pd.DataFrame(data, columns=col)
# df_meteo_aujourdhui.head()

### Scrap à partir d'une date

In [56]:
# # Scrap à partir de x date et renvoie un csv dans dataset et renvoie un dataframe 
# df_meteo_date = scrap.scrap_with_start_date('2024-11-12')

# df_meteo_date.head()

# Transformation de la data

In [57]:
df_meteo = pd.read_csv("./dataset/meteo_rennes.csv")
df_meteo.count()

Unnamed: 0                                16368
Heure locale\naccess_time\n30mn\nMETAR    16368
Unnamed: 2                                16339
Température                               16362
Temps                                        44
Pluie                                     16344
Vent                                      16350
Humidité                                  16343
Bio-météo                                 11867
Pt. de rosée                              16334
Pression                                  16318
Visibilité                                16297
dtype: int64

## Traitement du df de la météo

In [58]:
transform = TransformData()

df_meteo = transform.remove_currency_symbols(df_meteo, ['Humidité', 'Pression', 'Visibilité', 'Température', 'Pluie', 'Vent', 'Pt. de rosée'])

df_meteo = transform.rename_column(df_meteo, 'Heure locale\naccess_time\n30mn\nMETAR', 'date')
df_meteo = transform.rename_column(df_meteo, 'Température', 'Temperature')
df_meteo = transform.rename_column(df_meteo, 'Humidité', 'Humidite')
df_meteo = transform.rename_column(df_meteo, 'Pt. de rosée', 'Point_rose')
df_meteo = transform.rename_column(df_meteo, 'Pression', 'Pression')
df_meteo = transform.rename_column(df_meteo, 'Visibilité', 'Visibilite')

df_meteo = transform.remove_column(df_meteo, ['Unnamed: 0', 'Unnamed: 2', 'Temps', 'Bio-météo'])

df_meteo.count()

Traitement de la colonne: Humidité
Traitement de la colonne: Pression
Traitement de la colonne: Visibilité
Traitement de la colonne: Température
Traitement de la colonne: Pluie
Traitement de la colonne: Vent
Traitement de la colonne: Pt. de rosée


date           16368
Temperature    16368
Pluie          16368
Vent           16368
Humidite       16368
Point_rose     16368
Pression       16368
Visibilite     16368
dtype: int64

In [59]:
df_meteo.head()

Unnamed: 0,date,Temperature,Pluie,Vent,Humidite,Point_rose,Pression,Visibilite
0,2023-01-01 00:00:00,9.5,0,7,94,8.6,1013.3,60
1,2023-01-01 23:00:00,9.9,0,7,94,9.0,1012.8,60
2,2023-01-01 22:00:00,10.5,0,22,91,9.1,1011.6,60
3,2023-01-01 21:00:00,13.1,0,22,89,11.3,1010.1,14
4,2023-01-01 20:00:00,13.0,0,18,89,11.2,1008.6,30


In [60]:
df_velo_piton = transform.remove_column(df_velo_piton, ['status', 'ID', 'geo', 'counter', 'sens', 'isoDate'])

In [61]:
df_velo_piton.head()

Unnamed: 0,date,counts,name
0,2019-03-13T01:00:00+01:00,,Rennes Rue d'Isly V1
1,2019-03-13T03:00:00+01:00,,Rennes Rue d'Isly V1
2,2019-03-13T07:00:00+01:00,2.0,Rennes Rue d'Isly V1
3,2019-03-13T08:00:00+01:00,23.0,Rennes Rue d'Isly V1
4,2019-03-13T14:00:00+01:00,69.0,Rennes Rue d'Isly V1


In [62]:
# Convertir les colonnes 'date' en format datetime sans décalage horaire pour les deux DataFrames
df_velo_piton['date'] = pd.to_datetime(df_velo_piton['date'], utc=True).dt.tz_convert(None)
df_meteo['date'] = pd.to_datetime(df_meteo['date'], utc=True).dt.tz_convert(None)

# Effectuer la jointure
df_merged = pd.merge(df_velo_piton, df_meteo, on='date', how='left')
df_merged.head()


Unnamed: 0,date,counts,name,Temperature,Pluie,Vent,Humidite,Point_rose,Pression,Visibilite
0,2019-03-13 00:00:00,,Rennes Rue d'Isly V1,,,,,,,
1,2019-03-13 02:00:00,,Rennes Rue d'Isly V1,,,,,,,
2,2019-03-13 06:00:00,2.0,Rennes Rue d'Isly V1,,,,,,,
3,2019-03-13 07:00:00,23.0,Rennes Rue d'Isly V1,,,,,,,
4,2019-03-13 13:00:00,69.0,Rennes Rue d'Isly V1,,,,,,,


In [63]:
# Suppression des lignes où la colonne 'Température (°C)' a une valeur NaN
df_cleaned = df_merged.dropna(subset=['Temperature'])
df_cleaned_all = df_cleaned.drop_duplicates(subset=['date'])

# Affichage des premières lignes pour vérifier le résultat
df_cleaned_all.head()

Unnamed: 0,date,counts,name,Temperature,Pluie,Vent,Humidite,Point_rose,Pression,Visibilite
8001,2023-10-04 21:00:00,58.0,Rennes Rue d'Isly V1,13.6,0,7,72,8.6,1028.7,55
8002,2023-10-05 01:00:00,18.0,Rennes Rue d'Isly V1,10.5,0,0,90,8.9,1026.8,5
8003,2023-10-05 02:00:00,2.0,Rennes Rue d'Isly V1,11.5,0,4,89,9.7,1027.5,30
8004,2023-10-05 05:00:00,3.0,Rennes Rue d'Isly V1,8.2,0,4,97,7.8,1027.0,200
8005,2023-10-06 02:00:00,8.0,Rennes Rue d'Isly V1,9.3,0,0,95,8.5,1026.8,300


In [64]:
df_cleaned_all.count()

date           16366
counts         15771
name           16366
Temperature    16366
Pluie          16366
Vent           16366
Humidite       16366
Point_rose     16366
Pression       16366
Visibilite     16366
dtype: int64

In [65]:
df_cleaned_all = df_cleaned_all.drop(df_cleaned_all[df_cleaned_all['Temperature'] == 'nn'].index)
df_cleaned_all = df_cleaned_all.drop(df_cleaned_all[df_cleaned_all['Pluie'] == 'nn'].index)
df_cleaned_all = df_cleaned_all.drop(df_cleaned_all[df_cleaned_all['Humidite'] == 'nn'].index)
df_cleaned_all = df_cleaned_all.drop(df_cleaned_all[df_cleaned_all['Point_rose'] == 'nn'].index)
df_cleaned_all = df_cleaned_all.drop(df_cleaned_all[df_cleaned_all['Visibilite'] == 'nn'].index)

In [66]:
df_cleaned_all = transform.remove_currency_symbols(df_cleaned_all, ['Point_rose'])

Traitement de la colonne: Point_rose


In [67]:
df_cleaned_all[df_cleaned_all['Point_rose'] == '1008.8\n\n=']

Unnamed: 0,date,counts,name,Temperature,Pluie,Vent,Humidite,Point_rose,Pression,Visibilite


In [68]:
df_cleaned_all['Temperature'] = df_cleaned_all['Temperature'].astype(float)
df_cleaned_all['Pluie'] = df_cleaned_all['Pluie'].astype(float)
df_cleaned_all['Vent'] = df_cleaned_all['Vent'].astype(float)
df_cleaned_all['Humidite'] = df_cleaned_all['Humidite'].astype(float)
df_cleaned_all['Point_rose'] = df_cleaned_all['Point_rose'].astype(float)
df_cleaned_all.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16288 entries, 8001 to 126289
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   date         16288 non-null  datetime64[ns]
 1   counts       15694 non-null  float64       
 2   name         16288 non-null  object        
 3   Temperature  16288 non-null  float64       
 4   Pluie        16288 non-null  float64       
 5   Vent         16288 non-null  float64       
 6   Humidite     16288 non-null  float64       
 7   Point_rose   16288 non-null  float64       
 8   Pression     16288 non-null  object        
 9   Visibilite   16288 non-null  object        
dtypes: datetime64[ns](1), float64(6), object(3)
memory usage: 1.4+ MB


# Connection bdd

In [69]:
from Load.DataBaseConnection import DataBaseConnection
import mysql.connector
from sqlalchemy import create_engine

In [70]:
# Informations de connexion
DB_USER = 'root'
DB_PASSWORD = 'admin'
DB_HOST = 'localhost'
DB_PORT = 3306
DB_NAME = 'ETL'

# Créer une connexion à MySQL
engine = create_engine(f"mysql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}")

print(engine)

# Vérifier la connexion
try:
    with engine.connect() as conn:
        print("Connexion réussie à la base de données")
except Exception as e:
    print(f"Erreur de connexion : {e}")


Engine(mysql://root:***@localhost:3306/ETL)
Connexion réussie à la base de données


In [71]:
# Insérer les données dans MySQL
try:
    with engine.connect() as connection:  # Assure que la connexion reste ouverte
        df_cleaned_all.to_sql('weather_pieton_count_data', con=connection, if_exists='append', index=False)
    print("Données insérées avec succès")
except Exception as e:
    print(f"Erreur lors de l'insertion des données : {e}")


Données insérées avec succès
