# <font color="red">Comment les caractéristiques des voyageurs et leurs choix d'hébergement et de transport affectent-ils la durée et le coût de leurs voyages ?</font>


#### Dans ce projet, nous explorerons comment les différentes caractéristiques des voyageurs, ainsi que leurs choix en matière d'hébergement et de transport, influencent à la fois la durée et le coût de leurs voyages, en analysant des données provenant de diverses sources pour identifier des patterns et des facteurs déterminants

Pour cela nous avons choisi un dataset trouvé sur kaggle https://www.kaggle.com/datasets/delcdiotivane/travel-details-dataset
 qui contient des informations détaillées sur les voyages effectués par divers voyageurs, incluant des données sur leur destination, la durée du voyage, les coûts d'hébergement et de transport, ainsi que des caractéristiques démographiques telles que l'âge, la nationalité et le sexe des voyageurs, ainsi que leurs choix d'hébergement et de transport

Voici ce que chaque colonne représente dans ton fichier CSV :

Trip ID : Identifiant unique pour chaque voyage.     
Destination : Lieu de destination du voyage      
Start date : Date de début du voyage.     
End date : Date de fin du voyage.     
Duration (days) : Durée du voyage en jours.     
Traveler name : Nom du voyageur.     
Traveler age : Âge du voyageur.     
Traveler nationality : Nationalité du voyageur.     
Accommodation cost : Coût de l'hébergement durant le voyage.     
Transportation cost : Coût du transport durant le voyage.     
Accommodation type : Type d'hébergement choisi (ex. Hotel, Airbnb..).     
Traveler gender : Sexe du voyageur (Male ou Female).     
Transportation type : Type de transport utilisé durant le voyage (ex. Plane, Car rental, Train, etc.) 

### Importation des packages :

In [26]:
import pandas as pd
import plotly.express as px  
import re
import plotly.graph_objects as go

### Traitement de données 

In [27]:
df = pd.read_csv('travel_data_modified.csv')


In [28]:
df.head()

Unnamed: 0,Trip ID,Destination,Start date,End date,Duration (days),Traveler name,Traveler age,Traveler gender,Traveler nationality,Accommodation type,Accommodation cost,Transportation type,Transportation cost
0,1,Istanbul,2023-07-12 00:00:00,2023-07-15,3,Emily Nelson,58,Female,Spanish,Airbnb,352.81,Plane,42.36
1,2,Miami,2023-06-11 00:00:00,2023-06-28,17,Ashley Short,33,Male,Brazilian,Hotel,507.17,Bus,502.06
2,3,Bangkok,2024-08-01 00:00:00,2024-08-26,25,Madeline Hood,48,Male,Mexican,Hotel,177.19,Bus,253.9
3,4,Rome,2024-08-13 00:00:00,2024-08-30,17,Kelsey Mcclure,52,Male,German,Resort,162.32,Bus,969.8
4,5,Sydney,2023-08-18 00:00:00,2023-09-06,19,Mark Cuevas,77,Female,Norwegian,Hotel,432.8,Train,697.69


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1916 entries, 0 to 1915
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Trip ID               1916 non-null   int64 
 1   Destination           1916 non-null   object
 2   Start date            1916 non-null   object
 3   End date              1824 non-null   object
 4   Duration (days)       1916 non-null   int64 
 5   Traveler name         1916 non-null   object
 6   Traveler age          1916 non-null   int64 
 7   Traveler gender       1916 non-null   object
 8   Traveler nationality  1916 non-null   object
 9   Accommodation type    1916 non-null   object
 10  Accommodation cost    1865 non-null   object
 11  Transportation type   1916 non-null   object
 12  Transportation cost   1871 non-null   object
dtypes: int64(3), object(10)
memory usage: 194.7+ KB


**Nous pouvons voir que la date de début et de fin sont dans le type de données objet. nous allons résoudre ce problème afin de pouvoir l'utiliser dans des graphiques sans aucun problème.**

In [30]:
# Convertir les dates, en essayant différents formats
df['Start date'] = pd.to_datetime(df['Start date'], errors='coerce', dayfirst=True)
df['End date'] = pd.to_datetime(df['End date'], errors='coerce', dayfirst=True)

print("Dates modifiées dans le format approprié")
df.info()


Dates modifiées dans le format approprié
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1916 entries, 0 to 1915
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Trip ID               1916 non-null   int64         
 1   Destination           1916 non-null   object        
 2   Start date            792 non-null    datetime64[ns]
 3   End date              1824 non-null   datetime64[ns]
 4   Duration (days)       1916 non-null   int64         
 5   Traveler name         1916 non-null   object        
 6   Traveler age          1916 non-null   int64         
 7   Traveler gender       1916 non-null   object        
 8   Traveler nationality  1916 non-null   object        
 9   Accommodation type    1916 non-null   object        
 10  Accommodation cost    1865 non-null   object        
 11  Transportation type   1916 non-null   object        
 12  Transportation cost   1871 non-null





### Vérification des valeurs nulles

In [31]:
df.isna().sum()

Trip ID                    0
Destination                0
Start date              1124
End date                  92
Duration (days)            0
Traveler name              0
Traveler age               0
Traveler gender            0
Traveler nationality       0
Accommodation type         0
Accommodation cost        51
Transportation type        0
Transportation cost       45
dtype: int64

Il y a quelques données manquantes dans l'ensemble du jeu de données, donc on va les supprimer. 


In [32]:
df=df.dropna()

# Obtenir le compte des valeurs non nulles pour chaque colonne
non_null_counts = df.count()

# Vérifier si toutes les colonnes ont le même compte de valeurs non nulles
if non_null_counts.nunique() == 1:
    print("Total des valeurs nulles:", df.isnull().sum().sum())
else:
    print("Les colonnes qui ont des nombres différents de valeurs non nulles.")

Total des valeurs nulles: 0


In [33]:
list(df['Accommodation cost'].head(20))

['352.81',
 '507.17',
 '177.19',
 '696.49',
 '446.87',
 '852.78',
 '210.07',
 '769.74',
 '364.02',
 '253.22',
 '784.85',
 '982.97',
 '610.13',
 '$910.75',
 '870.71',
 '353.64',
 '158.01',
 '966.53',
 '614.3',
 '270.17']

Nettoyage des données en convertissant les colonnes "Accommodation cost" et "Transportation cost" en valeurs numériques, puis suppression des lignes contenant des valeurs manquantes ou non valides dans ces colonnes.

In [34]:
# Modèle d'expression régulière pour extraire les nombres
pattern = re.compile(r'\d+(?:,\d+)*\.?\d*')

# Nettoyage des colonnes 'Accommodation cost' et 'Transportation cost'
df['Accommodation cost'] = df['Accommodation cost'].apply(
    lambda x: float(pattern.search(str(x)).group().replace(',', '')) if pd.notna(x) and pattern.search(str(x)) else None
)

df['Transportation cost'] = df['Transportation cost'].apply(
    lambda x: float(pattern.search(str(x)).group().replace(',', '')) if pd.notna(x) and pattern.search(str(x)) else None
)

print(df[['Accommodation cost', 'Transportation cost']].head(20))


    Accommodation cost  Transportation cost
0               352.81                42.36
1               507.17               502.06
2               177.19               253.90
6               696.49               422.36
9               446.87               354.56
13              852.78               769.83
18              210.07                80.01
19              769.74              1331.58
21              364.02               668.79
26              253.22               837.25
30              784.85               558.69
31              982.97              1140.19
32              610.13                53.98
33              910.75               866.69
34              870.71              1155.04
35              353.64               684.28
36              158.01              1056.97
37              966.53               592.10
38              614.30               976.30
45              270.17              1368.41


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 726 entries, 0 to 1913
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Trip ID               726 non-null    int64         
 1   Destination           726 non-null    object        
 2   Start date            726 non-null    datetime64[ns]
 3   End date              726 non-null    datetime64[ns]
 4   Duration (days)       726 non-null    int64         
 5   Traveler name         726 non-null    object        
 6   Traveler age          726 non-null    int64         
 7   Traveler gender       726 non-null    object        
 8   Traveler nationality  726 non-null    object        
 9   Accommodation type    726 non-null    object        
 10  Accommodation cost    726 non-null    float64       
 11  Transportation type   726 non-null    object        
 12  Transportation cost   726 non-null    float64       
dtypes: datetime64[ns](2), fl

Nettoyage des données en convertissant les colonnes "Accommodation cost" et "Transportation cost" en valeurs numériques, puis suppression des lignes contenant des valeurs manquantes ou non valides dans ces colonnes.

In [36]:
# Conversion des colonnes 'Accommodation cost' et 'Transportation cost' en nombres
df['Accommodation cost'] = pd.to_numeric(df['Accommodation cost'], errors='coerce')
df['Transportation cost'] = pd.to_numeric(df['Transportation cost'], errors='coerce')

# Supprimer les lignes avec des valeurs manquantes dans ces colonnes
df = df.dropna(subset=['Accommodation cost', 'Transportation cost'])

# Vérification : s'assurer que les colonnes sont bien numériques après nettoyage
print(df[['Accommodation cost', 'Transportation cost']].dtypes)

# Vérification de l'échantillon
print(df[['Accommodation cost', 'Transportation cost']].head(20))


Accommodation cost     float64
Transportation cost    float64
dtype: object
    Accommodation cost  Transportation cost
0               352.81                42.36
1               507.17               502.06
2               177.19               253.90
6               696.49               422.36
9               446.87               354.56
13              852.78               769.83
18              210.07                80.01
19              769.74              1331.58
21              364.02               668.79
26              253.22               837.25
30              784.85               558.69
31              982.97              1140.19
32              610.13                53.98
33              910.75               866.69
34              870.71              1155.04
35              353.64               684.28
36              158.01              1056.97
37              966.53               592.10
38              614.30               976.30
45              270.17              1368.41


Ici convertit la colonne "Duration (days)" en valeurs numériques et supprime les lignes où l'une des colonnes "Duration (days)", "Accommodation cost" ou "Transportation cost" contient des valeurs manquantes.

In [37]:
# Convertir 'Duration (days)' en nombre
df['Duration (days)'] = pd.to_numeric(df['Duration (days)'], errors='coerce')


# Supprimer les lignes où l'une de ces colonnes contient des NaN
df_cleaned = df.dropna(subset=['Duration (days)', 'Accommodation cost', 'Transportation cost'])

## Visualisations : 

### ***Nombre de voyages par destination***

Compter le nombre de voyages par destination permet d'identifier les destinations populaires, ce qui peut influencer les choix d'hébergement et de transport, et ainsi affecter la durée et le coût des voyages en fonction des préférences des voyageurs.

In [38]:
df = pd.read_csv('travel_data_modified.csv')

# Compter le nombre de voyages par destination
destination_counts = df['Destination'].value_counts().reset_index()
destination_counts.columns = ['Destination', 'Count']

# Créer un graphique à barres
fig = go.Figure(data=[go.Bar(x=destination_counts['Destination'], y=destination_counts['Count'], marker=dict(color='skyblue'))])

fig.update_layout(
    title='Nombre de voyages par destination',
    xaxis_title='Destination',
    yaxis_title='Nombre de voyages',
    xaxis_tickangle=-45  # Pour éviter que les étiquettes des destinations se chevauchent
)

# Afficher le graphique
fig.show()


Cette visualisation représente le nombre de voyages effectués vers différentes destinations. On remarque que les destinations les plus populaires sont Bangkok, Londres, et Berlin, avec un nombre de voyages supérieur à 90. En revanche, des destinations comme Zurich et Lima sont moins populaires, avec moins de 20 voyages.

### <font color="red">Conclusion </font>


Les destinations asiatiques et européennes, telles que Bangkok et Londres, semblent attirer un plus grand nombre de voyageurs, tandis que certaines destinations moins fréquentées, comme Zurich et Lima, connaissent moins de visites

### ***Répartition des types d'hébergement***

La répartition des types d'hébergement permet d'analyser quels types d'hébergement (hotel, Airbnb, vila...) sont préférés par les voyageurs. Cela peut révéler des tendances liées aux choix d'hébergement en fonction des caractéristiques des voyageurs (âge, nationalité, sexe) et influencer la durée et le coût des voyages. Par exemple, certaines options d'hébergement peuvent être plus coûteuses ou affecter la durée du séjour, offrant ainsi des insights sur les comportements et préférences des voyageurs.

In [39]:
#  nombre de voyages par type d'hébergement
df = pd.read_csv('travel_data_modified.csv')

trips_per_accommodation_type = df['Accommodation type'].value_counts()

#  diagramme circulaire
fig = px.pie(values=trips_per_accommodation_type.values, names=trips_per_accommodation_type.index,
             title='Répartition des types d\'hébergement')
fig.show()


Le graphique en camembert montre la répartition des choix d'hébergement des voyageurs. L'hôtel est le type d'hébergement le plus choisi, avec environ 39.1%, suivi de près par Airbnb avec 31.2%. Les autres types d'hébergement comme les resorts, les auberges, les villas, et les riads représentent des parts plus petites, mais restent présents.

### <font color="red">Conclusion </font>

Les hôtels et Airbnb sont les options les plus populaires, ce qui suggère une préférence des voyageurs pour les hébergements classiques ou modernes, probablement en raison de leur confort et de leur commodité.

### ***Duree de Voyage vs Age des Voyageur***

Analyser la durée du voyage en fonction de l'âge des voyageurs permet de déterminer si l'âge influence la longueur des séjours. Par exemple, les jeunes voyageurs pourraient avoir des séjours plus courts, tandis que les voyageurs plus âgés pourraient privilégier des voyages plus longs. Cela peut également révéler des différences dans les préférences d'hébergement ou de transport, influençant ainsi le coût global du voyage. Cette analyse permet de mieux comprendre comment l'âge affecte la durée des voyages et peut être utile pour adapter les offres de services touristiques.

In [40]:
fig = px.scatter(df, x='Duration (days)', y='Traveler age', color='Traveler gender',
                    title='Duree de Voyage vs Age des Voyageur')
fig.show()

Ce graphique montre la relation entre l'âge des voyageurs et la durée de leurs voyages, différenciée par sexe. On observe une dispersion assez large des données, avec des voyages allant de 1 à 30 jours. Les points bleus (hommes) et rouges (femmes) sont dispersés de manière similaire, sans tendance évidente en fonction du sexe.

### <font color="red">Conclusion </font>

Il n'y a pas de différence significative dans la durée des voyages entre les hommes et les femmes. Les voyageurs, indépendamment de leur sexe, ont tendance à choisir des voyages de durée similaire, bien que l'âge puisse jouer un rôle dans la durée du séjour.


### ***Nationalités des Voyageur***

Analyser les nationalités des voyageurs permet de comprendre comment les choix d'hébergement, de transport, ainsi que la durée et le coût des voyages varient en fonction de la nationalité. Par exemple, certaines nationalités peuvent privilégier des destinations spécifiques, des types d'hébergement ou des modes de transport plus coûteux. Cela peut aussi révéler des tendances culturelles ou économiques, offrant des insights sur les comportements des voyageurs en fonction de leur origine, ce qui peut influencer la durée et le coût des voyages.

In [41]:



nationalities = df['Traveler nationality'].value_counts()

fig = go.Figure(data=[go.Bar(x=nationalities.index, y=nationalities.values)])

fig.update_layout(title='Nationalités des Voyageur')

fig.show()

### ***Coûts par type d hébergement***

Analyser les coûts par type d'hébergement permet de comparer les dépenses liées à différents types d'hébergement (comme les hôtels, Airbnb, resorts, etc.) et de comprendre comment ces choix influencent le coût total du voyage. Par exemple, certains types d'hébergement peuvent être plus coûteux que d'autres, et cela peut être lié à des facteurs comme le confort, l'emplacement ou les services proposés. Cette analyse aide à identifier des tendances dans les préférences des voyageurs et montre comment ces choix affectent à la fois la durée et le coût du voyage.

In [42]:
df = pd.read_csv('travel_data_modified.csv')

fig = go.Figure()

for accommodation_type in df['Accommodation type'].unique():
    fig.add_trace(go.Box(y=df[df['Accommodation type']==accommodation_type]['Transportation cost'],
                         name=accommodation_type))

fig.update_layout(title='Coûts par type d hébergement',
                  yaxis_title='Transportation cost')

fig.show()


Cette visualisation montre la variation des coûts de transport en fonction du type d'hébergement. On observe que les hôtels et les complexes de vacances (Resorts) ont des coûts de transport relativement élevés, tandis que les autres types d'hébergement, comme les chambres d'hôtes (Guesthouse), les villas et les riads, ont des coûts plus bas. Le type Airbnb semble avoir une grande variabilité, ce qui pourrait suggérer des différences significatives dans les choix des voyageurs en fonction de l’emplacement ou du type d’hébergement choisi.

### <font color="red">Conclusion </font>
Les choix d'hébergement influencent directement les coûts de transport et d’hébergement. Les voyageurs qui choisissent des hôtels et des resorts (qui ont tendance à avoir des coûts de transport plus élevés) ont tendance à privilégier le confort ou la proximité des attractions, ce qui pourrait augmenter leur durée de séjour et leurs dépenses. En revanche, les voyageurs optant pour des hébergements plus abordables, comme les guesthouses ou les riads, semblent pouvoir réduire leurs dépenses en transport, ce qui pourrait entraîner des séjours plus courts ou des choix de voyage moins coûteux. Les caractéristiques des voyageurs, comme leur budget ou leurs priorités en matière de confort, influencent donc à la fois la durée et le coût du voyage.

### ***Nombre de voyage par genre***

Analyser le nombre de voyages par genre permet de voir s'il existe des différences entre les hommes et les femmes en termes de fréquence de voyages. Cela peut aussi révéler si les choix d'hébergement, de transport, ainsi que la durée et le coût des voyages varient en fonction du genre. Par exemple, cela peut aider à comprendre si les hommes ou les femmes préfèrent certains types de voyages ou destinations, ce qui peut influencer la durée et le coût.

In [43]:
df = pd.read_csv('travel_data_modified.csv')

gender_counts = df['Traveler gender'].value_counts()

fig = go.Figure(data=[go.Pie(labels=gender_counts.index, values=gender_counts.values)])

fig.update_layout(title='Nombre de voyage par genre')

fig.show()

Cette visualisation présente la répartition des voyages selon le genre des voyageurs, avec deux pourcentages (40% et 60%) associés aux catégories "Male" (Hommes) et "Female" (Femmes). Les femmes semblent représenter la majorité des voyageurs (60%), tandis que les hommes correspondent à 40% des déplacements.


### <font color="red">Conclusion :</font>
Les hommes dominent légèrement dans cette répartition, avec une proportion de voyages supérieure de 20 points de pourcentage par rapport aux femmes. Cette différence pourrait refléter des tendances sociodémographiques, des préférences de voyage.

### ***Durée de Voyage par Rapport au Genre et Nationalité***

In [44]:
# Charger les données
df = pd.read_csv('travel_data_modified.csv')

# Créer un graphique en barres de la durée de voyage par genre et nationalité
fig = px.bar(df, 
             x='Traveler gender', 
             y='Duration (days)',  # Utiliser la colonne correcte pour la durée
             color='Traveler nationality', 
             title='Durée de Voyage par Rapport au Genre et Nationalité',
             labels={'Traveler gender': 'Genre', 'Duration (days)': 'Durée de Voyage', 'Traveler nationality': 'Nationalité'},
             barmode='group',  # Permet d'afficher les barres côte à côte pour chaque nationalité
             height=400)  # Ajuster la hauteur du graphique si nécessaire

# Afficher le graphique
fig.show()


### <font color="red">Conclusion </font>
La nationalité est un facteur déterminant de la durée des voyages, avec des écarts importants liés à des contextes culturels ou économiques (ex. : pays nordiques privilégiant les longs séjours). Le genre influence aussi la durée, particulièrement dans certaines nationalités (ex. : femmes portugaises voyageant plus longtemps), ce qui pourrait refléter des rôles sociaux, des préférences de voyage ou des disponibilités différentes. Les données mettent en lumière des comportements de voyage genrés et géographiquement segmentés


### ***Coût moyen de l’hébergement par ville***

Analyser le coût moyen de l'hébergement par ville  permet de comparer les prix des logements dans différentes villes à travers le monde. Cela peut révéler des tendances sur la cherté des destinations, influençant ainsi le coût total des voyages. Par exemple, des villes comme New York ou Tokyo pourraient avoir un coût d'hébergement plus élevé que d'autres villes moins touristiques. Cette analyse permet également d'explorer comment les voyageurs ajustent la durée de leur séjour ou leur choix de transport en fonction du coût de l'hébergement dans ces villes.

In [45]:
# Charger les données
df = pd.read_csv('travel_data_modified.csv')

# Convertir le coût d'hébergement en numérique en gérant les erreurs
df['Accommodation cost'] = pd.to_numeric(df['Accommodation cost'], errors='coerce')

# Supprimer les lignes avec des valeurs NaN dans 'Accommodation cost'
df = df.dropna(subset=['Accommodation cost'])

# Calculer le coût moyen d'hébergement par destination
avg_accommodation_cost_by_destination = df.groupby('Destination')['Accommodation cost'].mean().reset_index()

# Dictionnaire de coordonnées 
city_coords = {
    'Paris': (48.8566, 2.3522),
    'London': (51.5074, -0.1278),
    'New York': (40.7128, -74.0060),
    'Tokyo': (35.6895, 139.6917),
    'Sydney': (-33.8688, 151.2093),
    'Berlin': (52.5200, 13.4050),
    'Rome': (41.9028, 12.4964),
    'Dubai': (25.276987, 55.296249),
    'Moscow': (55.7558, 37.6173),
    'Toronto': (43.651070, -79.347015),
    'Bangkok': (13.7563, 100.5018),
    'Istanbul': (41.0082, 28.9784),
    'Singapore': (1.3521, 103.8198),
    'Barcelona': (41.3784, 2.1915),
    'Los Angeles': (34.0522, -118.2437),
    'Lisbon': (38.7223, -9.1393),
    'Miami': (25.7617, -80.1918),
    'Prague': (50.0755, 14.4378),
    'Amsterdam': (52.3676, 4.9041),
    'Dublin': (53.3498, -6.2603),
    'Seoul': (37.5665, 126.9780),
    'Cairo': (30.0444, 31.2357),
    'Buenos Aires': (-34.6037, -58.3816),
    'Cape Town': (-33.9249, 18.4241),
    'Hanoi': (21.0285, 105.8542),
    'Oslo': (59.9139, 10.7522),
    'Athens': (37.9838, 23.7275),
    'Zurich': (47.3769, 8.5417),
    'Jakarta': (-6.2088, 106.8456),
    'Lima': (-12.0464, -77.0428)
}

# Ajouter les coordonnées au DataFrame
avg_accommodation_cost_by_destination['Latitude'] = avg_accommodation_cost_by_destination['Destination'].map(lambda x: city_coords.get(x, (None, None))[0])
avg_accommodation_cost_by_destination['Longitude'] = avg_accommodation_cost_by_destination['Destination'].map(lambda x: city_coords.get(x, (None, None))[1])

# Supprimer les villes sans coordonnées
avg_accommodation_cost_by_destination.dropna(subset=['Latitude', 'Longitude'], inplace=True)

# Créer une carte avec les villes
fig = px.scatter_geo(avg_accommodation_cost_by_destination,
                     lat='Latitude',
                     lon='Longitude',
                     size='Accommodation cost',
                     hover_name='Destination',
                     color='Accommodation cost',
                     color_continuous_scale='Viridis',
                     title='Coût moyen de l’hébergement par ville (monde)')

fig.update_geos(projection_type='natural earth')
fig.show()


Cette carte géographique met en lumière les coûts d’hébergement dans différentes villes à travers le monde. Les régions d'Asie, d'Afrique et de l'Amérique Latine semblent avoir des coûts relativement plus bas, tandis que certaines villes européennes et nord-américaines affichent des coûts d'hébergement plus élevés. Cela peut être dû à des facteurs tels que la demande touristique, les niveaux de développement économique et la popularité des destinations.

### <font color="red">Conclusion </font>
Le coût moyen de l'hébergement varie selon les villes et, par extension, selon la destination choisie par les voyageurs. Les voyageurs qui choisissent des villes plus chères (en Europe ou en Amérique du Nord) auront des coûts d’hébergement plus élevés, ce qui pourrait allonger leur séjour ou les amener à ajuster d'autres aspects de leur voyage (comme le transport). À l'inverse, les voyageurs qui se rendent dans des villes avec un coût d’hébergement plus bas (Asie, Afrique) peuvent profiter de séjours plus longs ou choisir de dépenser davantage dans d'autres domaines (transport, activités), influençant ainsi la durée et le coût total du voyage.

### ***Durée du voyage, coût de l'hébergement et coût du transport***

Analyser la durée du voyage, le coût de l'hébergement et le coût du transport selon le sexe du voyageur permet de déterminer s'il existe des différences entre les hommes et les femmes dans leurs choix de voyage. Par exemple, on peut observer si les femmes ont tendance à partir pour des séjours plus courts, ou si elles choisissent des hébergements moins coûteux que les hommes. De même, cela peut aider à comprendre si le sexe influence le mode de transport choisi, ce qui affecte à la fois la durée et le coût total du voyage. Cette analyse permet d'explorer comment les caractéristiques des voyageurs influencent leurs décisions de voyage.

In [46]:

# Échantillonner les données
sample_size = min(1000, len(df_cleaned))
df_sample = df_cleaned.sample(sample_size, random_state=42)

# Créer le graphique
fig = px.scatter(df_sample, x='Duration (days)', y='Accommodation cost', color='Traveler gender',
                 size='Transportation cost', hover_data=['Destination', 'Traveler name'],
                 opacity=0.6, size_max=15)

fig.update_layout(title="Durée du voyage, coût de l'hébergement et coût du transport selon le sexe du voyageur",
                  xaxis_title="Duration (days)", yaxis_title="Accommodation cost")

fig.show()


Cette visualisation illustre la relation entre la durée du voyage, les coûts d’hébergement et de transport, et le sexe des voyageurs. On remarque que les femmes et les hommes ont des comportements assez similaires en ce qui concerne la durée du voyage et les coûts associés, bien que les femmes semblent légèrement plus enclines à faire des dépenses plus faibles sur l’hébergement. Cela peut être un reflet des choix de voyage différents entre les sexes, peut-être en raison de préférences en matière de confort ou de budget

### <font color="red">Conclusion :</font>
Les différences de sexe n’ont qu’un impact limité sur la durée du voyage, mais les femmes semblent opter pour des choix d’hébergement moins coûteux. Ce comportement pourrait affecter à la fois la durée et le coût des voyages, car les femmes, en privilégiant des options plus abordables, peuvent être plus susceptibles de partir pour des séjours plus longs ou de gérer leur budget de manière plus efficace. Ainsi, les caractéristiques des voyageurs, telles que le sexe, peuvent indirectement affecter la durée du voyage et le coût total en fonction de leurs préférences en matière d’hébergement et de transport.

### ***Durée moyenne de voyage pour chaque type d\'hébergement***

Analyser la durée moyenne de voyage pour chaque type d'hébergement permet de comprendre si certains types d'hébergement (hôtels, Airbnb, resorts, etc.) sont associés à des séjours plus longs ou plus courts. Par exemple, les voyageurs qui choisissent des hôtels peuvent avoir tendance à partir pour des séjours plus courts, tandis que ceux qui optent pour des resorts ou des maisons peuvent privilégier des voyages plus longs. Cette analyse aide à identifier des tendances et à comprendre comment le type d'hébergement influence la durée du voyage, ce qui peut également affecter le coût total du séjour.

In [47]:
df = pd.read_csv('travel_data_modified.csv')

# Calculer la durée moyenne de voyage pour chaque type d'hébergement
avg_duration_by_accommodation_type = df.groupby('Accommodation type')['Duration (days)'].mean().reset_index()

#  graphique à barres horizontales 
fig = px.bar(avg_duration_by_accommodation_type, x='Duration (days)', y='Accommodation type', orientation='h',
             title='Durée moyenne de voyage pour chaque type d\'hébergement',
             labels={'Duration (days)': 'Durée moyenne (jours)', 'Accommodation type': 'Type d\'hébergement'})
fig.show()



### <font color="red">Conclusion </font>
Le type d'hébergement détermine fortement la durée des voyages : les logements spacieux ou autonomes (villas, Ahostel) favorisent des séjours prolongés, tandis que les options spécialisées ou économiques (Ride, Hostel) s’adaptent à des besoins courts ou urgents. La flexibilité et le confort semblent être des facteurs clés dans cette relation

### ***Comparaison des Coûts Moyens d'Hébergement et de Transport par Nationalité***

La comparaison des coûts moyens d'hébergement et de transport par nationalité permet d'analyser comment les voyageurs de différentes nationalités dépensent pour leur logement et leur transport. Par exemple, certains groupes nationaux peuvent privilégier des options d'hébergement plus coûteuses ou des modes de transport plus chers en fonction de leurs préférences culturelles, économiques ou de confort. Cette analyse peut également révéler si des différences économiques existent entre les nationalités, influençant la durée et le coût total des voyages. En comprenant ces différences, on peut mieux anticiper les besoins des voyageurs selon leur origine.

In [48]:

df = pd.read_csv('travel_data_modified.csv')

# Assurez-vous que les colonnes 'Accommodation cost' et 'Transportation cost' sont de type numérique
df['Accommodation cost'] = pd.to_numeric(df['Accommodation cost'], errors='coerce')
df['Transportation cost'] = pd.to_numeric(df['Transportation cost'], errors='coerce')

# Calculer les coûts moyens d'hébergement et de transport par nationalité
costs_comparison = df.groupby('Traveler nationality').agg({
    'Accommodation cost': 'mean',
    'Transportation cost': 'mean'
}).reset_index()

# Créer un graphique en barres comparant les coûts moyens d'hébergement et de transport par nationalité
fig = px.bar(costs_comparison,
             x='Traveler nationality',
             y=['Accommodation cost', 'Transportation cost'],
             title="Comparaison des Coûts Moyens d'Hébergement et de Transport par Nationalité",
             labels={'Traveler nationality': 'Nationalité', 'value': 'Coût', 'variable': 'Type de Coût'},
             barmode='group',  # Permet d'afficher les barres côte à côte pour chaque nationalité
             height=400)

# Afficher le graphique
fig.show()



Cette visualisation compare les coûts moyens d'hébergement et de transport par nationalité, ce qui permet d'explorer comment les caractéristiques des voyageurs (ici, leur nationalité) influencent leurs dépenses.

### <font color="red">Conclusion </font>
La nationalité influence significativement les dépenses en hébergement et transport, reflétant des comportements de voyage distincts (budget, confort, urgence). Les coûts élevés en transport pourraient réduire la durée des séjours, tandis que les budgets hébergement varient selon les priorités culturelles ou économiques

### ***Proportions des types de transport utilisés par les voyageurs***

Analyser les proportions des types de transport utilisés par les voyageurs permet de comprendre quel mode de transport (avion, train, voiture, bus, etc.) est le plus couramment choisi par les voyageurs. Cela peut offrir des informations sur les préférences des voyageurs en fonction de la destination, de la durée du voyage ou même de leur budget. Par exemple, les voyageurs peuvent préférer l'avion pour des distances longues et le train ou la voiture pour des trajets plus courts. Cette analyse peut également montrer comment le choix du transport influence le coût total du voyage et sa durée.

In [49]:
df = pd.read_csv('travel_data_modified.csv')

# Compter le nombre de fois que chaque type de transport est utilisé
transport_counts = df['Transportation type'].value_counts().reset_index()
transport_counts.columns = ['Transportation type', 'Count']

# Créer un graphique en donut
fig = px.pie(transport_counts,
             names='Transportation type',
             values='Count',
             title='Proportions des types de transport utilisés par les voyageurs',
             color='Transportation type',
             color_discrete_sequence=px.colors.qualitative.Set2,
             hole=0.3)  # Le paramètre hole crée l'effet donut


fig.show()

Cette visualisation présente la répartition des modes de transport privilégiés par les voyageurs, avec cinq pourcentages (16,4%, 14,5%, 7,99%, 5,38%, 55,7%,) associés aux catégories suivantes : Plane (avion), Train, bus, Car rental (location de voiture), et Boat (bateau).

### <font color="red">Conclusion :</font>
L’avion est clairement privilégié, ce qui suggère que les voyageurs valorisent la rapidité et acceptent des coûts plus élevés pour gagner du temps. Le train et le bus complètent les besoins en transports économiques ou régionaux. La faible part de la location de voiture et du bateau souligne leur rôle niche. Ces choix impactent directement le coût total (avion = budget accru) et la durée (bus/train = voyages potentiellement plus longs). La dominance de l’avion pourrait aussi indiquer une prévalence de voyages internationaux ou professionnels.

# ***à retenir***

Les caractéristiques des voyageurs (nationalité, genre) et leurs choix logistiques (hébergement, transport) façonnent simultanément la durée et le coût des voyages, selon les dynamiques suivantes :   
Nationalité :          
        Coût : Détermine les budgets alloués (ex. : dépenses élevées en hébergement/transport pour certaines nationalités), reflétant des priorités culturelles (luxe, confort) ou économiques (low-cost).          
        Durée : Influence les séjours longs (ex. : Canadiens, Norvégiens) ou courts (ex. : Brésiliens, Vietnamiens), liés à des habitudes de voyage ou à des contraintes financières.    
Genre :          
        Durée : Dans certaines cultures (ex. : Espagnols, Turcs), les femmes voyagent plus longtemps, suggérant des rôles sociaux ou des préférences genrées (voyages familiaux, loisirs).
Hébergement :          
        Durée : Les logements autonomes (villas, Airbnb) ou confortables encouragent des séjours prolongés (16-18 jours), tandis que les options utilitaires (Ride, Hosté) correspondent à des besoins courts (2-6 jours).          
        Coût : Les hébergements luxueux augmentent le budget, tandis que les choix économiques permettent d’équilibrer les dépenses.      
 Transport :          
        Coût : L’avion (55,7%), bien que dominant pour sa rapidité, alourdit le budget.
        Durée : Le bus ou le train, moins coûteux, rallongent souvent le temps de voyage, tandis que l’avion le réduit.  



 Synthèse Finale :
 
Le coût total d’un voyage est principalement piloté par les choix de transport (priorité à la rapidité vs économie) et d’hébergement (luxe vs low-cost). La durée, quant à elle, dépend de l’interaction entre le type d’hébergement (confort vs praticité) et les contraintes de temps imposées par les transports. Les différences culturelles (nationalité) et sociales (genre) modulent ces choix, créant des profils de voyageurs distincts :               Voyageurs « rapidité-budget » : Avion + hébergement court, pour des séjours coûteux mais brefs.              Voyageurs « économie-durée » : Bus/train + Airbnb/guesthouse, pour des voyages longs à moindre coût.           Ainsi, la durée et le coût des voyages émergent d’un équilibre entre contraintes budgétaires, priorités culturelles, et stratégies individuelles d’optimisation. 