In [34]:
pip install pandas sqlalchemy psycopg2 openpyxl

Note: you may need to restart the kernel to use updated packages.


In [35]:
import os
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import inspect
import psycopg2
import openpyxl

In [36]:
from pathlib import Path

data_lake_path = Path("C:/Users/smoha/DataLake_Groupe5")


In [37]:
stops = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/transport_data/reference_data/stops/transit_stops.csv",sep=";")


In [38]:
print(stops.head(5))

   stop_id  stop_code         stop_name  stop_desc   stop_lat  stop_lon  \
0       57        NaN          8 MAI 45        NaN  49.099805  6.138669   
1       46        NaN          8 MAI 45        NaN  49.099927  6.138371   
2      450        NaN  11ème D'AVIATION        NaN  49.085890  6.146239   
3      852        NaN  11ème D'AVIATION        NaN  49.086159  6.145297   
4      323        NaN           18 AOUT        NaN  49.191534  6.034971   

   zone_id                                     stop_url  location_type  \
0      NaN  https://services.lemet.fr/fr/biv/arret/1530              0   
1      NaN  https://services.lemet.fr/fr/biv/arret/1530              0   
2      NaN  https://services.lemet.fr/fr/biv/arret/7264              0   
3      NaN  https://services.lemet.fr/fr/biv/arret/7264              0   
4      NaN                                          NaN              0   

   parent_station  wheelchair_boarding  
0             NaN                    2  
1             NaN     

In [39]:
# Supprimer les colonnes dans la même commande et réaffecter à stops
stops = stops.drop(columns=[
 "stop_code",
    "stop_desc",
    "zone_id",
    "stop_url",
    "location_type",
    "parent_station",
    "wheelchair_boarding"])

In [40]:
print("Colonnes restantes :", stops.columns.tolist())

Colonnes restantes : ['stop_id', 'stop_name', 'stop_lat', 'stop_lon']


In [41]:
print(stops.head(5))

   stop_id         stop_name   stop_lat  stop_lon
0       57          8 MAI 45  49.099805  6.138669
1       46          8 MAI 45  49.099927  6.138371
2      450  11ème D'AVIATION  49.085890  6.146239
3      852  11ème D'AVIATION  49.086159  6.145297
4      323           18 AOUT  49.191534  6.034971


In [42]:
stops = stops.drop_duplicates()

In [43]:
print(stops.head(5))

   stop_id         stop_name   stop_lat  stop_lon
0       57          8 MAI 45  49.099805  6.138669
1       46          8 MAI 45  49.099927  6.138371
2      450  11ème D'AVIATION  49.085890  6.146239
3      852  11ème D'AVIATION  49.086159  6.145297
4      323           18 AOUT  49.191534  6.034971


In [44]:
for column in stops.columns:
    print(f"Doublons pour la colonne '{column}':")
    # Filtrer les lignes où la colonne a des doublons
    duplicates = stops[stops.duplicated(subset=[column], keep=False)]
    print(duplicates[[column]])  # Afficher les doublons pour la colonne
    print('-' * 40)  # Ligne de séparation pour lisibilité

Doublons pour la colonne 'stop_id':
Empty DataFrame
Columns: [stop_id]
Index: []
----------------------------------------
Doublons pour la colonne 'stop_name':
             stop_name
0             8 MAI 45
1             8 MAI 45
2     11ème D'AVIATION
3     11ème D'AVIATION
4              18 AOUT
...                ...
1040       ZAC D'AUGNY
1042        ZAC PELTRE
1043        ZAC PELTRE
1044      ZONE HERGOTT
1045      ZONE HERGOTT

[959 rows x 1 columns]
----------------------------------------
Doublons pour la colonne 'stop_lat':
       stop_lat
32    49.121440
41    49.101866
42    49.101866
54    49.075620
63    49.096509
...         ...
1023  49.151940
1035  49.150349
1036  49.150349
1037  49.151276
1038  49.151276

[80 rows x 1 columns]
----------------------------------------
Doublons pour la colonne 'stop_lon':
      stop_lon
41    6.224284
42    6.224284
45    6.224181
46    6.224181
90    6.168920
...        ...
998   6.058151
999   6.058151
1008  6.094864
1009  6.094864
1025

In [45]:
empty_rows_count = stops.isna().all(axis=1).sum()

# Afficher le nombre de lignes vides
print(f"Nombre de lignes vides : {empty_rows_count}")

Nombre de lignes vides : 0


In [47]:
shapes = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/transport_data/reference_data/shapes/route_shapes.csv",sep=";")

In [48]:
shapes = shapes.drop(columns=["shape_pt_sequence"])

In [49]:
print(shapes.head(5))

   shape_id  shape_pt_lat  shape_pt_lon
0   10008.0     49.125193      6.230550
1   10008.0     49.125861      6.227397
2   10008.0     49.125861      6.227397
3   10008.0     49.123956      6.225906
4   10008.0     49.123956      6.225906


In [50]:
# Vérifier les valeurs manquantes dans les colonnes "stop_lat" et "stop_lon"
print(stops[['stop_lat', 'stop_lon']].isnull().sum())

# Supprimer les lignes avec des valeurs manquantes dans les colonnes "stop_lat" et "stop_lon"
stops_clean = stops.dropna(subset=['stop_lat', 'stop_lon'])

# Vérifier si le problème persiste après suppression des lignes manquantes
print(stops_clean.head())


stop_lat    0
stop_lon    0
dtype: int64
   stop_id         stop_name   stop_lat  stop_lon
0       57          8 MAI 45  49.099805  6.138669
1       46          8 MAI 45  49.099927  6.138371
2      450  11ème D'AVIATION  49.085890  6.146239
3      852  11ème D'AVIATION  49.086159  6.145297
4      323           18 AOUT  49.191534  6.034971


In [51]:
# Convertir les colonnes de latitude et longitude en float
stops['stop_lat'] = pd.to_numeric(stops['stop_lat'], errors='coerce')
stops['stop_lon'] = pd.to_numeric(stops['stop_lon'], errors='coerce')

# Vérifier le type des colonnes après conversion
print(stops.dtypes)


stop_id        int64
stop_name     object
stop_lat     float64
stop_lon     float64
dtype: object


In [52]:
print(stops[['stop_lat', 'stop_lon']].isnull().sum())


stop_lat    0
stop_lon    0
dtype: int64


In [53]:
# Vérifiez s'il y a des valeurs manquantes dans les colonnes latitudes et longitudes
print(stops[['stop_lat', 'stop_lon']].isnull().sum())

# Vérifiez également les valeurs uniques pour vous assurer qu'elles sont valides
print(stops[['stop_lat', 'stop_lon']].describe())


stop_lat    0
stop_lon    0
dtype: int64
          stop_lat     stop_lon
count  1046.000000  1046.000000
mean     49.110793     6.169397
std       0.030441     0.052667
min      48.998825     6.003117
25%      49.093802     6.145880
50%      49.111007     6.170715
75%      49.128127     6.203619
max      49.204139     6.324477


In [54]:
# Vérifiez s'il y a des valeurs manquantes dans les colonnes latitudes et longitudes de shapes
print(shapes[['shape_pt_lat', 'shape_pt_lon']].isnull().sum())

# Vérifiez également les statistiques de shapes
print(shapes[['shape_pt_lat', 'shape_pt_lon']].describe())


shape_pt_lat    0
shape_pt_lon    0
dtype: int64
       shape_pt_lat  shape_pt_lon
count   6534.000000   6534.000000
mean      49.110260      6.177018
std        0.025946      0.046127
min       48.998825      6.003117
25%       49.097190      6.151972
50%       49.110841      6.177025
75%       49.126479      6.207790
max       49.204139      6.324477


In [55]:
calendar = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/transport_data/scheduling/calendar/service_calendar.csv", sep = ";")
trips = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/transport_data/scheduling/trips/transit_trips.csv", sep = ";")
population = pd.read_excel("C:/Users/smoha/DataLake_Groupe5/demographics/historical_population_communes_1876_2022.xlsx", header = 5)
stop_time = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/transport_data/operations/stop_times/trip_stop_times.csv", sep = ";")


qualite_air = pd.read_csv("C:/Users/smoha/DataLake_Groupe5/environmental_data/Air_quality/air_quality_measurements.csv", sep = ";")

# ETL sur qualité de l'air du pays

qualite_air_drop = qualite_air.drop(columns=['Country Code', 'Country Label', 'Source Name'])

qualite_air_drop['Last Updated'] = pd.to_datetime(qualite_air_drop['Last Updated'], utc=True)
qualite_air_drop_ = qualite_air_drop.dropna(subset=['City'])

#ETL sur la qualité de l'air seuelemnt à Metz
qualite_air_drop_metz = qualite_air_drop[qualite_air_drop['City'].str.lower() == 'metz']
import pandas as pd

qualite_air_drop_metz['Last Updated'] = pd.to_datetime(qualite_air_drop_metz['Last Updated'])

#Grouper par 'Coordinates' et 'Pollutant' et garder la dernière mise à jour
Qualite_Air = qualite_air_drop_metz.loc[
    qualite_air_drop_metz.groupby(['Coordinates', 'Pollutant'])['Last Updated'].idxmax()
]

#Création d'un id
Qualite_Air["qualite_id"] = range(1, len(Qualite_Air) + 1)

#Séparer la colonne coordonnée en deux colonnes : lattitude et longitude
Qualite_Air[['Latitude', 'Longitude']] = Qualite_Air['Coordinates'].str.extract(r'\s*([\d\.\-]+),\s*([\d\.\-]+)')
Qualite_Air = Qualite_Air.drop(columns=['Coordinates'])

print(Qualite_Air)


# ETL Trips 

#Supprimer les colonnes 'trip_headsign', 'direction_id', 'block_id'
colonnes_a_supprimer = ['trip_headsign', 'direction_id', 'block_id']
trips_nettoye = trips.drop(columns=colonnes_a_supprimer)

#Supprimer les lignes dupliquées
trips_nettoye = trips_nettoye.drop_duplicates()




# Construction table de fait

# Joindre stop_times et trips pour obtenir trip_id et service_id
fact_table = pd.merge(stop_time, trips, on='trip_id', how='inner')

# Ajouter des informations supplémentaires sur les arrêts depuis stops.csv
fact_table = pd.merge(fact_table, stops, on='stop_id', how='inner')

# Garder uniquement les colonnes nécessaires : stop_id, trip_id, service_id, arrival_time, departure_time
fact_table = fact_table[['stop_id', 'trip_id', 'service_id']]

Lien = stops[['stop_id',  'stop_lon', 'stop_lat']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  qualite_air_drop_metz['Last Updated'] = pd.to_datetime(qualite_air_drop_metz['Last Updated'])


      City            Location Pollutant   Unit  Value  \
419   METZ          Metz-Borny        NO  µg/m³    1.8   
418   METZ          Metz-Borny       NO2  µg/m³    7.0   
812   METZ          Metz-Borny      PM10  µg/m³   12.7   
528   METZ          Metz-Borny     PM2.5  µg/m³    0.9   
2399  METZ          Metz-Borny       SO2  µg/m³    0.0   
319   METZ         Metz-Centre        NO  µg/m³    2.3   
691   METZ         Metz-Centre       NO2  µg/m³   13.1   
1910  METZ         Metz-Centre        O3  µg/m³   56.6   
1684  METZ         Metz-Centre      PM10  µg/m³   11.2   
2111  METZ         Metz-Centre     PM2.5  µg/m³    4.7   
1792  METZ  Metz- Pont Grilles        CO  µg/m³  218.0   
397   METZ  Metz- Pont Grilles        NO  µg/m³   25.8   
2096  METZ  Metz- Pont Grilles       NO2  µg/m³   22.4   
302   METZ  Metz- Pont Grilles      PM10  µg/m³   10.2   

                  Last Updated  qualite_id           Latitude  \
419  2024-03-11 09:00:00+00:00           1   49.1102830002213   

In [61]:
link = Lien
airqual = Qualite_Air

# Convertir les champs en float (et forcer la conversion si possible)
link['stop_lon'] = pd.to_numeric(link['stop_lon'], errors='coerce')
link['stop_lat'] = pd.to_numeric(link['stop_lat'], errors='coerce')
airqual['Longitude'] = pd.to_numeric(airqual['Longitude'], errors='coerce')
airqual['Latitude'] = pd.to_numeric(airqual['Latitude'], errors='coerce')

# Fonction pour calculer la distance Haversine
def haversine(lon1, lat1, lon2, lat2):
    R = 6371  # Rayon de la Terre en kilomètres
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])
    dlon = lon2 - lon1
    dlat = lat2 - lat1
    a = np.sin(dlat / 2) ** 2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon / 2) ** 2
    c = 2 * np.arcsin(np.sqrt(a))
    return R * c

# Seuil de proximité en kilomètres
threshold = 0.5  # Ajustez selon vos besoins

# Ajouter une colonne pour l'ID de l'arrêt de bus le plus proche
airqual['stop_id'] = None

# Calcul des distances et mise à jour du stop_id
for index, air_quality in airqual.iterrows():
    air_lon, air_lat = air_quality['Longitude'], air_quality['Latitude']
    
    # Calculer la distance entre le point de qualité de l'air et tous les arrêts de bus
    link['distance'] = link.apply(
        lambda row: haversine(air_lon, air_lat, row['stop_lon'], row['stop_lat']), axis=1
    )
    
    # Trouver l'arrêt de bus le plus proche
    nearest_bus = link[link['distance'] <= threshold].sort_values(by='distance').head(1)
    
    if not nearest_bus.empty:
        # Extraire l'ID de l'arrêt de bus le plus proche
        nearest_stop_id = nearest_bus['stop_id'].values[0]
        
        # Mettre à jour la colonne `stop_id` dans le DataFrame `airqual`
        airqual.at[index, 'stop_id'] = nearest_stop_id

airqual['stop_id'] = airqual['stop_id'].astype(int)

# Résultat
print(airqual)
print(link)




      City            Location Pollutant   Unit  Value  \
419   METZ          Metz-Borny        NO  µg/m³    1.8   
418   METZ          Metz-Borny       NO2  µg/m³    7.0   
812   METZ          Metz-Borny      PM10  µg/m³   12.7   
528   METZ          Metz-Borny     PM2.5  µg/m³    0.9   
2399  METZ          Metz-Borny       SO2  µg/m³    0.0   
319   METZ         Metz-Centre        NO  µg/m³    2.3   
691   METZ         Metz-Centre       NO2  µg/m³   13.1   
1910  METZ         Metz-Centre        O3  µg/m³   56.6   
1684  METZ         Metz-Centre      PM10  µg/m³   11.2   
2111  METZ         Metz-Centre     PM2.5  µg/m³    4.7   
1792  METZ  Metz- Pont Grilles        CO  µg/m³  218.0   
397   METZ  Metz- Pont Grilles        NO  µg/m³   25.8   
2096  METZ  Metz- Pont Grilles       NO2  µg/m³   22.4   
302   METZ  Metz- Pont Grilles      PM10  µg/m³   10.2   

                  Last Updated  qualite_id   Latitude  Longitude  stop_id  
419  2024-03-11 09:00:00+00:00           1  49.110283

In [62]:
# Connexion PostgreSQL 
engine = create_engine('postgresql+psycopg2://postgres:28sUp11ViN25cI01@localhost:5432/Transports_Metz') 
try:
    # Test de connexion
    connection = engine.connect()
    
    # Inspecter les tables existantes
    inspector = inspect(engine)
    tables = inspector.get_table_names()
    print(f"Tables disponibles : {tables}")
    
    connection.close()  # Fermez la connexion proprement
except Exception as e:
    print(f"Erreur lors de l'interrogation : {e}")

# Charger les données dans PostgreSQL 
fact_table.to_sql('fact_table', engine, if_exists='replace', 
index=False) 

#Charger les données dans PostgreSQL 
link.to_sql('link', engine, if_exists='replace', 
index=False)

# Charger les données dans PostgreSQL 
trips_nettoye.to_sql('dim_trips', engine, if_exists='replace', 
index=False)

#Charger les données dans PostgreSQL 
airqual.to_sql('air_quality', engine, if_exists='replace', 
index=False)

#Charger les données dans PostgreSQL 
stops.to_sql('dim_stops', engine, if_exists='replace', 
index=False)

#Charger les données dans PostgreSQL 
calendar.to_sql('dim_calendar', engine, if_exists='replace', 
index=False)


    

Tables disponibles : ['dim_calendar', 'air_quality', 'dim_stops', 'fact_table', 'dim_trips', 'link']


14

In [None]:
#Carte sur les arrêts de bus à Metz
import folium

map_center = [stops['stop_lat'].mean(), stops['stop_lon'].mean()]
m = folium.Map(location=map_center, zoom_start=12)

# Ajouter des marqueurs pour chaque arrêt de transport
for _, row in stops.iterrows():
    folium.Marker(
        location=[row['stop_lat'], row['stop_lon']],
        popup=row['stop_name'],  # Nom de l'arrêt affiché lors du clic sur le marqueur
        icon=folium.Icon(color='blue')
    ).add_to(m)

# Sauvegarder la carte dans un fichier HTML et l'ouvrir dans votre navigateur
m.save("C:/Users/smoha/DataLake_Groupe5/stops_map.html")


In [None]:
#Carte sur la pollution en France 
latest_per_city = qualite_air_drop_.loc[qualite_air_drop.groupby('City')['Last Updated'].idxmax()]

latest_per_city_no2 = latest_per_city[latest_per_city['Pollutant'] == 'NO2']

m = folium.Map(location=[46.603354, 1.888334], zoom_start=6)

# Définir une échelle de couleurs basée sur la valeur de NO2
norm = colors.Normalize(vmin=latest_per_city_no2['Value'].min(), vmax=latest_per_city_no2['Value'].max())
colormap = cm.get_cmap('RdYlGn_r')  # Rouge pour haute pollution, vert pour basse pollution

# Ajouter des marqueurs pour chaque ligne du DataFrame filtré
for _, row in latest_per_city_no2.iterrows():
    # Extraire les informations
    city = row['City']
    lat, lon = map(float, row['Coordinates'].strip('()').split(','))
    value = row['Value']
    last_updated = row['Last Updated']
    
    # Calculer la couleur en fonction de la valeur de NO2
    color = colors.rgb2hex(colormap(norm(value)))

    # Créer un popup d'informations
    popup_text = f"""
    <b>City:</b> {city}<br>
    <b>NO2 Value:</b> {value} µg/m³<br>
    <b>Last Updated:</b> {last_updated}
    """
    
    # Style différent pour Metz
    if city.lower() == "metz":
        folium.Marker(
            location=[lat, lon],
            icon=folium.Icon(color='orange', icon='star'),
            popup=folium.Popup(popup_text, max_width=300)
        ).add_to(m)
    else:
        # Ajouter un cercle coloré pour les autres villes
        folium.CircleMarker(
            location=[lat, lon],
            radius=10,  # Taille du marqueur
            color=color,
            fill=True,
            fill_color=color,
            fill_opacity=0.7,
            popup=folium.Popup(popup_text, max_width=300)
        ).add_to(m)

# Ajouter une légende pour l'échelle de couleur
from branca.colormap import linear
linear_colormap = linear.RdYlGn_11.scale(latest_per_city_no2['Value'].min(), latest_per_city_no2['Value'].max())
linear_colormap.caption = 'NO2 Pollution Level (µg/m³)'
linear_colormap.add_to(m)

# Sauvegarder la carte dans un fichier HTML
m.save('C:/Cours/M1/Entrepot de données/Projet/air_quality_map_no2_with_color_scale.html')

In [None]:
#Carte sur la pollution à Metz

latest_per_city = qualite_air_drop_.loc[qualite_air_drop.groupby('City')['Last Updated'].idxmax()]

latest_per_city_no2 = latest_per_city[latest_per_city['Pollutant'] == 'NO2']

m = folium.Map(location=[46.603354, 1.888334], zoom_start=6)

# Définir une échelle de couleurs basée sur la valeur de NO2
norm = colors.Normalize(vmin=latest_per_city_no2['Value'].min(), vmax=latest_per_city_no2['Value'].max())
colormap = cm.get_cmap('RdYlGn_r')  # Rouge pour haute pollution, vert pour basse pollution

# Ajouter des marqueurs pour chaque ligne du DataFrame filtré
for _, row in latest_per_city_no2.iterrows():
    # Extraire les informations
    city = row['City']
    lat, lon = map(float, row['Coordinates'].strip('()').split(','))
    value = row['Value']
    last_updated = row['Last Updated']
    
    # Calculer la couleur en fonction de la valeur de NO2
    color = colors.rgb2hex(colormap(norm(value)))

    # Créer un popup d'informations
    popup_text = f"""
    <b>City:</b> {city}<br>
    <b>NO2 Value:</b> {value} µg/m³<br>
    <b>Last Updated:</b> {last_updated}
    """
    
    # Style différent pour Metz
    if city.lower() == "metz":
        folium.Marker(
            location=[lat, lon],
            icon=folium.Icon(color='orange', icon='star'),
            popup=folium.Popup(popup_text, max_width=300)
        ).add_to(m)
    else:
        # Ajouter un cercle coloré pour les autres villes
        folium.CircleMarker(
            location=[lat, lon],
            radius=10,  # Taille du marqueur
            color=color,
            fill=True,
            fill_color=color,
            fill_opacity=0.7,
            popup=folium.Popup(popup_text, max_width=300)
        ).add_to(m)

# Ajouter une légende pour l'échelle de couleur
linear_colormap = linear.RdYlGn_11.scale(latest_per_city_no2['Value'].min(), latest_per_city_no2['Value'].max())
linear_colormap.caption = 'NO2 Pollution Level (µg/m³)'
linear_colormap.add_to(m)

# Sauvegarder la carte dans un fichier HTML
m.save('C:/Cours/M1/Entrepot de données/Projet/air_quality_map_no2_with_color_scale.html')