In [3]:
import pandas as pd

# -----------------------------
# 1. Charger les données
# -----------------------------
df_2023 = pd.read_excel("hotel_reservations_2023.xlsx")
df_2024 = pd.read_excel("hotel_reservations_2024.xlsx")
data_dict = pd.read_csv("hotel_reservations_data_dictionary.csv")

print("✅ Données chargées :")
print(f"- 2023 : {df_2023.shape}")
print(f"- 2024 : {df_2024.shape}")
print(f"- Dictionnaire : {data_dict.shape}")

# -----------------------------
# 2. Fusionner les datasets
# -----------------------------
df_all = pd.concat([df_2023, df_2024], ignore_index=True)

print("\n✅ Données fusionnées :")
print(df_all.shape)

# -----------------------------
# 3. Vérification colonnes selon dictionnaire
# -----------------------------
colonnes_dict = data_dict["Column Name"].tolist()
df_all = df_all[[c for c in df_all.columns if c in colonnes_dict]]

print("\n📝 Colonnes disponibles :")
print(df_all.columns.tolist())

# -----------------------------
# 4. Nettoyage des données
# -----------------------------
# Exemple : remplacer les valeurs manquantes
df_all = df_all.fillna({
    "children": 0,
    "babies": 0
})

# Convertir certaines colonnes en datetime si elles existent
for col in df_all.columns:
    if "date" in col.lower():
        df_all[col] = pd.to_datetime(df_all[col], errors="coerce")

# -----------------------------
# 5. KPI de base (robuste)
# -----------------------------
print("\n📊 Indicateurs clés :")
print(f"- Nombre total de réservations : {len(df_all)}")

# Vérif colonne annulation
if "is_canceled" in df_all.columns:
    print(f"- Taux d'annulation : {df_all['is_canceled'].mean():.2%}")
elif "canceled" in df_all.columns:
    print(f"- Taux d'annulation : {df_all['canceled'].mean():.2%}")
else:
    print("- Taux d'annulation : ❌ colonne non trouvée")

# Vérif colonnes pour durée du séjour
weekend_col = None
week_col = None
for col in df_all.columns:
    if "weekend" in col.lower():
        weekend_col = col
    if "week" in col.lower() and "end" not in col.lower():
        week_col = col

if weekend_col and week_col:
    duree_moy = df_all[weekend_col].mean() + df_all[week_col].mean()
    print(f"- Durée moyenne des séjours : {duree_moy:.1f} nuits")
else:
    print("- Durée moyenne des séjours : ❌ colonnes non trouvées")

# -----------------------------
# 6. Export pour BI
# -----------------------------
df_all.to_csv("hotel_reservations_clean.csv", index=False)
df_all.to_parquet("hotel_reservations_clean.parquet", index=False)

print("\n✅ Données prêtes pour Power BI / Tableau : 'hotel_reservations_clean.csv'")


✅ Données chargées :
- 2023 : (50000, 23)
- 2024 : (42000, 23)
- Dictionnaire : (23, 2)

✅ Données fusionnées :
(92000, 23)

📝 Colonnes disponibles :
['Guest ID', 'Guest Name', 'Nationality', 'Contact Phone', 'Reservation ID', 'Check-Out Date', 'Total Amount ($)', 'Number of Guests', 'Booking Date', 'Lead Time (days)', 'Cancellation Status', 'Extra Services Costs ($)', 'Customer Review']

📊 Indicateurs clés :
- Nombre total de réservations : 92000
- Taux d'annulation : ❌ colonne non trouvée
- Durée moyenne des séjours : ❌ colonnes non trouvées

✅ Données prêtes pour Power BI / Tableau : 'hotel_reservations_clean.csv'
