In [3]:
import pandas as pd

# -----------------------------
# 1. Charger les donn√©es
# -----------------------------
df_2023 = pd.read_excel("hotel_reservations_2023.xlsx")
df_2024 = pd.read_excel("hotel_reservations_2024.xlsx")
data_dict = pd.read_csv("hotel_reservations_data_dictionary.csv")

print("‚úÖ Donn√©es charg√©es :")
print(f"- 2023 : {df_2023.shape}")
print(f"- 2024 : {df_2024.shape}")
print(f"- Dictionnaire : {data_dict.shape}")

# -----------------------------
# 2. Fusionner les datasets
# -----------------------------
df_all = pd.concat([df_2023, df_2024], ignore_index=True)

print("\n‚úÖ Donn√©es fusionn√©es :")
print(df_all.shape)

# -----------------------------
# 3. V√©rification colonnes selon dictionnaire
# -----------------------------
colonnes_dict = data_dict["Column Name"].tolist()
df_all = df_all[[c for c in df_all.columns if c in colonnes_dict]]

print("\nüìù Colonnes disponibles :")
print(df_all.columns.tolist())

# -----------------------------
# 4. Nettoyage des donn√©es
# -----------------------------
# Exemple : remplacer les valeurs manquantes
df_all = df_all.fillna({
    "children": 0,
    "babies": 0
})

# Convertir certaines colonnes en datetime si elles existent
for col in df_all.columns:
    if "date" in col.lower():
        df_all[col] = pd.to_datetime(df_all[col], errors="coerce")

# -----------------------------
# 5. KPI de base (robuste)
# -----------------------------
print("\nüìä Indicateurs cl√©s :")
print(f"- Nombre total de r√©servations : {len(df_all)}")

# V√©rif colonne annulation
if "is_canceled" in df_all.columns:
    print(f"- Taux d'annulation : {df_all['is_canceled'].mean():.2%}")
elif "canceled" in df_all.columns:
    print(f"- Taux d'annulation : {df_all['canceled'].mean():.2%}")
else:
    print("- Taux d'annulation : ‚ùå colonne non trouv√©e")

# V√©rif colonnes pour dur√©e du s√©jour
weekend_col = None
week_col = None
for col in df_all.columns:
    if "weekend" in col.lower():
        weekend_col = col
    if "week" in col.lower() and "end" not in col.lower():
        week_col = col

if weekend_col and week_col:
    duree_moy = df_all[weekend_col].mean() + df_all[week_col].mean()
    print(f"- Dur√©e moyenne des s√©jours : {duree_moy:.1f} nuits")
else:
    print("- Dur√©e moyenne des s√©jours : ‚ùå colonnes non trouv√©es")

# -----------------------------
# 6. Export pour BI
# -----------------------------
df_all.to_csv("hotel_reservations_clean.csv", index=False)
df_all.to_parquet("hotel_reservations_clean.parquet", index=False)

print("\n‚úÖ Donn√©es pr√™tes pour Power BI / Tableau : 'hotel_reservations_clean.csv'")


‚úÖ Donn√©es charg√©es :
- 2023 : (50000, 23)
- 2024 : (42000, 23)
- Dictionnaire : (23, 2)

‚úÖ Donn√©es fusionn√©es :
(92000, 23)

üìù Colonnes disponibles :
['Guest ID', 'Guest Name', 'Nationality', 'Contact Phone', 'Reservation ID', 'Check-Out Date', 'Total Amount ($)', 'Number of Guests', 'Booking Date', 'Lead Time (days)', 'Cancellation Status', 'Extra Services Costs ($)', 'Customer Review']

üìä Indicateurs cl√©s :
- Nombre total de r√©servations : 92000
- Taux d'annulation : ‚ùå colonne non trouv√©e
- Dur√©e moyenne des s√©jours : ‚ùå colonnes non trouv√©es

‚úÖ Donn√©es pr√™tes pour Power BI / Tableau : 'hotel_reservations_clean.csv'
