
# üéì PROJET 10 : Recommandation de Voyage Personnalis√©e

## üèÅ Objectif : L'Agence de Voyage IA
Les voyageurs sont perdus devant trop de choix. Votre mission est de cr√©er une IA capable de **pr√©dire la note** qu'un utilisateur donnera √† un voyage.
Cela nous permettra ensuite de lui recommander les destinations (Style + Climat) qui lui correspondent le mieux !

---

## üìã Programme des 3 Sessions

### üïµÔ∏è‚Äç‚ôÄÔ∏è SESSION 1 : Enqu√™teur de Donn√©es (45 min)
- **Part 1 :** Chargement et Nettoyage (Le budget est parfois inconnu...)
- **Part 2 :** Analyse Exploratoire (Qu'est-ce qui co√ªte cher ?)

### üèóÔ∏è SESSION 2 : Architecte de Features (45 min)
- **Part 1 :** Feature Engineering (Transformer les mots en chiffres)
- **Part 2 :** Pr√©paration finale pour l'IA

### ü§ñ SESSION 3 : Entra√Æneur d'IA (45 min)
- **Part 1 :** Entra√Ænement du Mod√®le (R√©gression)
- **Part 2 :** √âvaluation (√Ä quel point nos pr√©dictions sont-elles proches ?)
- **Part 3 :** Bonus (Le Moteur de Recommandation)

---



# üìã SESSION 1 : From Raw Data to Clean Insights



## üõ†Ô∏è Part 1: The Setup
Commen√ßons par charger nos outils et les donn√©es.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Chargement des donn√©es
df = pd.read_csv('recommandation_voyage.csv')

print("‚úÖ Donn√©es charg√©es avec succ√®s !")
print(f"üìä Dimensions : {df.shape[0]} lignes, {df.shape[1]} colonnes")
df.head()



## üßπ Part 2: The Sanity Check
Regardons si nous avons des trous dans nos donn√©es.


In [None]:

# V√©rifions les valeurs manquantes
print(df.isnull().sum())

# Visualisons les manquants
plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title("Carte des Valeurs Manquantes")
plt.show()



> **üí° Tip:** Pour le `Budget_Quotidien` manquant, nous allons le remplacer par la **m√©diane** (valeur du milieu), car elle est moins sensible aux budgets extr√™mes (tr√®s riches) que la moyenne.


In [None]:

# Remplacer les valeurs manquantes dans 'Budget_Quotidien' par la m√©diane
median_budget = df['Budget_Quotidien'].median()
df['Budget_Quotidien'].fillna(median_budget, inplace=True)

# TODO: Faites la m√™me chose pour 'Age' si n√©cessaire (ou v√©rifiez qu'il n'y a pas de manquants)
# median_age = ...
# ...

print("‚úÖ Nettoyage termin√© !")
print(df.isnull().sum())



## üîç Part 3: Exploratory Data Analysis (EDA)
Analysons notre cible : **Note_Destination**.


In [None]:

# Distribution des Notes
plt.figure(figsize=(8, 5))
sns.histplot(df['Note_Destination'], kde=True, color='purple')
plt.title("Distribution des Notes de Destination")
plt.xlabel("Note (1 √† 5)")
plt.show()

print("‚ùì Question : Les gens sont-ils g√©n√©ralement satisfaits (notes > 3) ?")



Regardons le lien entre **Budget** et **Note**. L'argent fait-il le bonheur en voyage ?


In [None]:

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='Budget_Quotidien', y='Note_Destination', hue='Style_Voyage')
plt.title("Note vs Budget")
plt.show()



# üèóÔ∏è SESSION 2 : The Art of Feature Engineering



### üè∑Ô∏è Recipe: Categories
Les colonnes `Style_Voyage` (Adventure, Relax...) et `Climat_Prefere` (Tropical, Cold...) sont du texte.
Transformons-les en colonnes num√©riques avec le **One-Hot Encoding**.


In [None]:

# Encodage One-Hot
categorical_cols = ['Style_Voyage', 'Climat_Prefere']
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

print("‚úÖ Encodage termin√© !")
df_encoded.head()



### ‚ûó Recipe: Math Magic (Log Transformation)
Le `Budget_Quotidien` varie √©norm√©ment. Certains d√©pensent 50‚Ç¨, d'autres 10000‚Ç¨ !
Cette grande √©chelle peut perturber le mod√®le. Utilisons le **Logarithme** pour "tasser" les grandes valeurs.


In [None]:

# Cr√©ation d'une feature Log_Budget
# On ajoute +1 pour √©viter log(0) si jamais le budget est 0
df_encoded['Log_Budget'] = np.log1p(df_encoded['Budget_Quotidien'])

# Comparons les distributions
fig, ax = plt.subplots(1, 2, figsize=(12, 5))
sns.histplot(df_encoded['Budget_Quotidien'], ax=ax[0], title='Budget Original')
sns.histplot(df_encoded['Log_Budget'], ax=ax[1], title='Log Budget (Plus normal)')
plt.show()



# ü§ñ SESSION 3 : Building & Trusting Your Model



## ‚úÇÔ∏è Part 1: The Split


In [None]:

from sklearn.model_selection import train_test_split

# On utilise Log_Budget au lieu de Budget_Quotidien
X = df_encoded.drop(['ID_Utilisateur', 'Note_Destination', 'Budget_Quotidien'], axis=1)
y = df_encoded['Note_Destination']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train shape: {X_train.shape}")
print(f"Test shape: {X_test.shape}")



## üèãÔ∏è Part 2: Training (R√©gression)
Nous voulons pr√©dire une note (nombre continu), donc c'est une **R√©gression**.
Utilisons `RandomForestRegressor`.


In [None]:

from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

print("‚úÖ Mod√®le entra√Æn√© !")



## üìä Part 3: Evaluation
Quelle est l'erreur moyenne de notre mod√®le ? (MAE : Mean Absolute Error)


In [None]:

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"MAE (Erreur Moyenne) : {mae:.2f} points")
print(f"RMSE : {rmse:.2f}")
print(f"R¬≤ Score : {r2:.3f}")

# Visualisons R√©alit√© vs Pr√©diction
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([1, 5], [1, 5], color='red', linestyle='--') # Ligne parfaite
plt.xlabel("Vraie Note")
plt.ylabel("Note Pr√©dite")
plt.title("R√©alit√© vs Pr√©diction")
plt.show()



## üéÅ Part 4: Going Further (Bonus)

### üåü Bonus Task 1: Le Moteur de Recommandation
Imaginons un nouvel utilisateur. Quel voyage lui recommander ?
Nous allons tester tous les styles/climats possibles pour lui et voir ce que le mod√®le pr√©dit.


In [None]:

# D√©finissons un profil utilisateur
user_age = 30
user_budget = 500
user_log_budget = np.log1p(user_budget)

# Cr√©ons des sc√©narios de voyage (combinaisons possibles)
# Note: Ceci est une simplification. Dans la r√©alit√©, on aurait une liste de destinations.
# Ici, on teste "Style" et "Climat".
# Pour simplifier, on va juste pr√©dire pour un cas manuel.

# TODO: Cr√©ez un DataFrame avec une ligne repr√©sentant :
# Age=30, Log_Budget=..., Style_Voyage_Adventure=1, Climat_Prefere_Tropical=1...
# Et faites model.predict()



### üë• Bonus Task 2: Tribus de Voyageurs (Clustering)
Pouvons-nous grouper les utilisateurs par budget et √¢ge ?


In [None]:

from sklearn.cluster import KMeans

# On prend juste Age et Budget
X_cluster = df[['Age', 'Budget_Quotidien']].dropna()

kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(X_cluster)

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='Age', y='Budget_Quotidien', hue='Cluster', palette='viridis')
plt.title("Tribus de Voyageurs")
plt.show()
