In [62]:
import pandas as pd
import plotly.express as px

In [65]:
df_base = pd.read_excel('tarifs-tgv-inoui-ouigo.xlsx')
df_km = pd.read_excel('emission-co2-tgv.xlsx')

In [66]:
print(df_base.columns)
print(df_km.columns)

Index(['Transporteur', 'Gare origine', 'Gare origine - code UIC',
       'Destination', 'Gare destination - code UIC', 'Classe',
       'Profil tarifaire', 'Prix minimum', 'Prix maximum'],
      dtype='object')
Index(['Transporteur ', 'Origine', 'Origine_uic', 'Destination ',
       'Destination_uic ', 'Distance entre les gares',
       'Train - Empreinte carbone (kgCO2e) ',
       'Autocar longue distance - Empreinte carbone (kgCO2e)',
       'Avion - Empreinte carbone (kgCO2e)',
       'Voiture électrique (2,2 pers.) - Empreinte carbone (kgCO2e)',
       'Voiture thermique (2,2 pers.) - Empreinte carbone (kgCO2e)'],
      dtype='object')


In [67]:
df_base.columns = df_base.columns.str.strip()
df_km.columns = df_km.columns.str.strip()

In [68]:
# Renommer les colonnes pour faciliter la fusion
df_base.rename(columns={'Gare origine - code UIC': 'Origine_uic', 'Gare destination - code UIC': 'Destination_uic'}, inplace=True)

# Fusionner les deux bases de données sur les colonnes Origine_uic et Destination_uic
merged_df = pd.merge(df_base, df_km[['Origine_uic', 'Destination_uic', 'Distance entre les gares']],
                     on=['Origine_uic', 'Destination_uic'], how='inner')

# Calculer le prix au kilomètre
merged_df['Prix_min_km'] = merged_df['Prix minimum'] / merged_df['Distance entre les gares']
merged_df['Prix_max_km'] = merged_df['Prix maximum'] / merged_df['Distance entre les gares']

# Afficher les résultats
print(merged_df[['Transporteur', 'Gare origine', 'Destination', 'Prix_min_km', 'Prix_max_km']].head())

  Transporteur            Gare origine          Destination  Prix_min_km  \
0        OUIGO  MARNE LA VALLEE CHESSY  AIX EN PROVENCE TGV     0.022222   
1        OUIGO  MARNE LA VALLEE CHESSY          AVIGNON TGV     0.024768   
2        OUIGO              METZ VILLE           STRASBOURG     0.068027   
3    TGV INOUI              METZ VILLE           STRASBOURG     0.115646   
4    TGV INOUI              METZ VILLE           STRASBOURG     0.102041   

   Prix_max_km  
0     0.137500  
1     0.153251  
2     0.265306  
3     0.442177  
4     0.299320  


In [69]:
merged_df.to_csv('resultat_fusion.csv', index=False)

In [70]:
df_results = pd.read_csv('resultat_fusion.csv')

In [71]:
print(df_results.head())

  Transporteur            Gare origine  Origine_uic          Destination  \
0        OUIGO  MARNE LA VALLEE CHESSY     87111849  AIX EN PROVENCE TGV   
1        OUIGO  MARNE LA VALLEE CHESSY     87111849          AVIGNON TGV   
2        OUIGO              METZ VILLE     87192039           STRASBOURG   
3    TGV INOUI              METZ VILLE     87192039           STRASBOURG   
4    TGV INOUI              METZ VILLE     87192039           STRASBOURG   

   Destination_uic  Classe Profil tarifaire  Prix minimum  Prix maximum  \
0         87319012       2     Tarif Normal          16.0          99.0   
1         87318964       2     Tarif Normal          16.0          99.0   
2         87212027       2     Tarif Normal          10.0          39.0   
3         87212027       1     Tarif Normal          17.0          65.0   
4         87212027       2     Tarif Normal          15.0          44.0   

   Distance entre les gares  Prix_min_km  Prix_max_km  
0                       720     0.02

In [72]:
# Calculer le prix total minimum et maximum pour chaque trajet
merged_df['Prix_min_total'] = merged_df['Prix_min_km'] * merged_df['Distance entre les gares']
merged_df['Prix_max_total'] = merged_df['Prix_max_km'] * merged_df['Distance entre les gares']

# Afficher les résultats avec le prix total
print(merged_df[['Transporteur', 'Gare origine', 'Destination', 'Prix_min_total', 'Prix_max_total']].head())

  Transporteur            Gare origine          Destination  Prix_min_total  \
0        OUIGO  MARNE LA VALLEE CHESSY  AIX EN PROVENCE TGV            16.0   
1        OUIGO  MARNE LA VALLEE CHESSY          AVIGNON TGV            16.0   
2        OUIGO              METZ VILLE           STRASBOURG            10.0   
3    TGV INOUI              METZ VILLE           STRASBOURG            17.0   
4    TGV INOUI              METZ VILLE           STRASBOURG            15.0   

   Prix_max_total  
0            99.0  
1            99.0  
2            39.0  
3            65.0  
4            44.0  


In [86]:
df_base[(df_base["Destination"] == "PARIS GARE DE LYON")]["Gare origine"].unique()

array(['AIX EN PROVENCE TGV', 'COLMAR', 'MULHOUSE VILLE', 'BELFORT',
       'STRASBOURG', 'LILLE FLANDRES', 'ETAPLES LE TOUQUET',
       'AVIGNON TGV', 'TOURCOING', 'BOULOGNE VILLE', 'ROUBAIX',
       'CALAIS VILLE', 'CROIX WASQUEHAL', 'DUNKERQUE',
       'RANG DU FLIERS VERTON', 'DIJON VILLE',
       'CHAMBERY CHALLES LES EAUX', 'NURIEUX', 'ARLES',
       'ST ETIENNE CHATEAUCREUX', 'ST AVRE LA CHAMBRE', 'CLUSES  74',
       'NICE VILLE', 'BEZIERS', 'DOLE VILLE', 'NIMES',
       'LYON-SAINT EXUPERY TGV', 'AVIGNON CENTRE', 'PERPIGNAN',
       'MARSEILLE ST CHARLES', 'CANNES', 'MIRAMAS', 'FRASNE',
       'LILLE EUROPE', 'LYON PART DIEU', 'ST JEAN DE MAURIENNE ARVAN',
       'GRENOBLE', 'MODANE', 'MACON LOCHE TGV', 'BESANCON VIOTTE',
       'MOUCHARD', 'CULOZ', 'LE TEIL', 'LYON PERRACHE', 'LANDRY',
       'MONTPELLIER SAINT-ROCH', 'MONTBARD', 'ANNECY',
       'LA ROCHE SUR FORON', 'MACON VILLE', 'RIVES', 'AVIGNON SUD'],
      dtype=object)

In [88]:
# Trier le DataFrame par prix au kilomètre croissant
merged_df = merged_df.sort_values('Prix_min_km')

# Sélectionner les 3 premières lignes (top 3)
top3 = merged_df.head(10)

# Créer un graphique à barres horizontales interactif
fig = px.bar(top3, x="Prix_min_km", y="Destination", orientation='h',
            title="Top 3 des destinations les moins chères au km",
            labels={"Prix_min_km": "Prix minimum par km", "Destination": "Destination"})

# Afficher le graphique
fig.show()

top 3 des destinations où le prix au km est le plus cher

In [87]:
# Trier le DataFrame par prix au kilomètre décroissant
merged_df = merged_df.sort_values('Prix_min_km', ascending=False)

# Sélectionner les 3 premières lignes (top 3)
top3 = merged_df.head(10)

# Créer un graphique à barres horizontales interactif
fig = px.bar(top3, x="Prix_min_km", y="Destination", orientation='h',
            title="Top 3 des destinations les plus chères au km",
            labels={"Prix_min_km": "Prix minimum par km", "Destination": "Destination"})

# Afficher le graphique
fig.show()

In [36]:
import plotly.express as px

fig = px.violin(top3, y="Prix_min_km", x="Destination", box=True, points="all")
fig.show()

In [73]:
import plotly.graph_objects as go

# Supposons que 'merged_df' est votre DataFrame avec les colonnes 'Destination' et 'Prix_min_km'

# Trier le DataFrame par prix au kilomètre croissant et décroissant
df_min = merged_df.sort_values('Prix_min_km').head(3)
df_max = merged_df.sort_values('Prix_min_km', ascending=False).head(3)

# Créer la figure avec deux sous-graphiques
fig = go.Figure()

# Premier sous-graphique : destinations les moins chères
fig.add_trace(go.Bar(
    x=df_min['Prix_min_km'],
    y=df_min['Destination'],
    orientation='h',
    name="Moins chères",
    marker=dict(color='lightblue')
))

# Deuxième sous-graphe : destinations les plus chères
fig.add_trace(go.Bar(
    x=df_max['Prix_min_km'],
    y=df_max['Destination'],
    orientation='h',
    name="Plus chères",
    marker=dict(color='pink')
))

# Personnalisation de la figure
fig.update_layout(
    title="Top 3 des destinations : moins chères vs plus chères",
    xaxis_title="Prix minimum par km",
    yaxis_title="Destination",
    barmode='group'  # Les barres sont groupées pour une comparaison facile
)

fig.show()

In [79]:
df_gare = pd.read_excel('gares-de-voyageurs.xlsx')