In [None]:
# ===============================
# üè® ANALYSE DE LA DEMANDE H√îTELI√àRE
# ===============================
# Dataset : Hotel Booking Demand (Kaggle)
# Auteur : [Ton Nom]
# Date : D√©cembre 2025
# ===============================

# --- Importation des biblioth√®ques ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# --- Param√®tres d‚Äôaffichage ---
sns.set(style="whitegrid", palette="pastel")
pd.set_option('display.max_columns', None)
plt.rcParams['figure.figsize'] = (10,5)

# --- Chargement du dataset ---
df = pd.read_csv("../data/hotel_bookings.csv")

# --- Aper√ßu des premi√®res lignes ---
df.head()


In [None]:
# Dimensions du dataset
print("Nombre de lignes :", df.shape[0])
print("Nombre de colonnes :", df.shape[1])

# Informations g√©n√©rales
df.info()

# Statistiques descriptives
df.describe()


In [None]:
# Pourcentage de valeurs manquantes
missing = df.isnull().mean() * 100
missing = missing[missing > 0].sort_values(ascending=False)
print("Valeurs manquantes (%):")
print(missing)

# Suppression des doublons
print("Doublons avant nettoyage :", df.duplicated().sum())
df = df.drop_duplicates()
print("Doublons apr√®s nettoyage :", df.duplicated().sum())

# Remplissage simple des NaN enfants
df['children'] = df['children'].fillna(0)


In [None]:
# Nombre de r√©servations par type d'h√¥tel
sns.countplot(data=df, x='hotel')
plt.title("R√©partition des r√©servations par type d'h√¥tel")
plt.xlabel("Type d'h√¥tel")
plt.ylabel("Nombre de r√©servations")
plt.show()

# Taux d'annulation global
cancel_rate = df['is_canceled'].mean() * 100
print(f"Taux d'annulation global : {cancel_rate:.2f}%")

sns.countplot(data=df, x='is_canceled')
plt.title("R√©partition des annulations")
plt.xlabel("0 = R√©serv√©e, 1 = Annul√©e")
plt.show()

# Taux d'annulation par type d'h√¥tel
cancel_by_hotel = df.groupby('hotel')['is_canceled'].mean() * 100
cancel_by_hotel.plot(kind='bar', color=['#66b3ff', '#ff9999'])
plt.title("Taux d'annulation (%) par type d'h√¥tel")
plt.ylabel("Taux (%)")
plt.show()

# Prix moyen (ADR) par type d'h√¥tel
sns.boxplot(data=df, x='hotel', y='adr')
plt.title("Distribution du prix moyen (ADR) selon le type d'h√¥tel")
plt.xlabel("Type d'h√¥tel")
plt.ylabel("Prix moyen par nuit (ADR)")
plt.show()

# Dur√©e moyenne des s√©jours
df['total_nights'] = df['stays_in_weekend_nights'] + df['stays_in_week_nights']
sns.boxplot(data=df, x='hotel', y='total_nights')
plt.title("Dur√©e moyenne des s√©jours selon le type d'h√¥tel")
plt.xlabel("Type d'h√¥tel")
plt.ylabel("Nombre total de nuits")
plt.show()


In [None]:
# Nombre de r√©servations par ann√©e
sns.countplot(data=df, x='arrival_date_year', hue='hotel')
plt.title("Nombre de r√©servations par ann√©e et par type d'h√¥tel")
plt.xlabel("Ann√©e d'arriv√©e")
plt.ylabel("Nombre de r√©servations")
plt.show()

# Saisonnalit√© (mois)
order_mois = ['January', 'February', 'March', 'April', 'May', 'June',
              'July', 'August', 'September', 'October', 'November', 'December']

sns.countplot(data=df, x='arrival_date_month', hue='hotel', order=order_mois)
plt.title("R√©servations par mois et type d'h√¥tel")
plt.xticks(rotation=45)
plt.show()

# Lead time (d√©lai entre r√©servation et arriv√©e)
sns.histplot(data=df, x='lead_time', bins=50, kde=True)
plt.title("Distribution du d√©lai de r√©servation (Lead Time)")
plt.xlabel("Nombre de jours entre r√©servation et arriv√©e")
plt.show()


In [None]:
# Nombre d'adultes / enfants / b√©b√©s
df[['adults', 'children', 'babies']].describe()

# Visualisation
df_melted = df.melt(value_vars=['adults', 'children', 'babies'],
                    var_name='Type', value_name='Nombre')
sns.boxplot(data=df_melted, x='Type', y='Nombre')
plt.title("R√©partition du nombre d'adultes, d'enfants et de b√©b√©s")
plt.show()

# Types de clients
sns.countplot(data=df, x='customer_type', hue='hotel')
plt.title("Types de clients par type d'h√¥tel")
plt.xlabel("Type de client")
plt.ylabel("Nombre de r√©servations")
plt.show()

# Demandes sp√©ciales
sns.boxplot(data=df, x='hotel', y='total_of_special_requests')
plt.title("Nombre de demandes sp√©ciales par type d'h√¥tel")
plt.show()


In [None]:
# Relation ADR - Annulation
sns.boxplot(data=df, x='is_canceled', y='adr')
plt.title("Relation entre prix moyen (ADR) et annulation")
plt.xlabel("Annul√© (1) / Non annul√© (0)")
plt.ylabel("Prix moyen (ADR)")
plt.show()

# Moyenne ADR par mois et type d'h√¥tel
adr_month = df.groupby(['arrival_date_month', 'hotel'])['adr'].mean().reset_index()
fig = px.line(adr_month, x='arrival_date_month', y='adr', color='hotel',
              title="√âvolution du prix moyen (ADR) par mois et type d'h√¥tel",
              category_orders={'arrival_date_month': order_mois})
fig.show()


In [None]:
# Distribution du prix moyen
fig1 = px.histogram(df, x="adr", color="hotel", nbins=50,
                    title="Distribution du prix moyen (ADR) par type d'h√¥tel",
                    marginal="box")
fig1.show()

# Annulations dans le temps
cancel_time = df.groupby(['arrival_date_year', 'hotel'])['is_canceled'].mean().reset_index()
fig2 = px.bar(cancel_time, x='arrival_date_year', y='is_canceled', color='hotel',
              title="Taux d'annulation par ann√©e et type d'h√¥tel")
fig2.update_yaxes(title_text="Taux d'annulation")
fig2.show()


In [None]:
print("‚úÖ Synth√®se des principales observations :\n")
print("- Le City Hotel re√ßoit plus de r√©servations que le Resort Hotel.")
print("- Le taux d'annulation est plus √©lev√© pour le City Hotel (~40‚Äì45%).")
print("- Le prix moyen (ADR) est plus √©lev√© pour le Resort Hotel.")
print("- La demande est saisonni√®re : pics entre juin et ao√ªt.")
print("- Les familles (adultes + enfants) r√©servent davantage le Resort Hotel.")
print("- Le d√©lai de r√©servation (lead_time) peut d√©passer 300 jours pour certains clients.")
print("\n‚ö†Ô∏è Limites du dataset :")
print("- Donn√©es entre 2015 et 2017 seulement.")
print("- Valeurs manquantes dans 'agent' et 'company'.")
print("- Aucune information sur les d√©penses annexes (repas, services, etc.).")
