In [None]:
!pip install scikit-surprise

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from surprise import SVD
from surprise import Reader, Dataset
from surprise.model_selection import train_test_split

In [None]:
hotel_data = pd.read_csv("hotels.csv", sep=',', nrows=200000, encodage="latin-1")
hotel_data.shape

In [None]:
hotel_data.head(5)
hotel_data.info()

In [None]:
sns.heatmap(hotel_data.corr())

In [None]:
plt.figure()
ax = sns.countplot(x="is_booking", data=hotel_data, palette=["blue", "red"])
plt.tick_params(labelsize=15)
plt.title("Distribution de la variable 'is booking' ", fontsize=20)
plt.xlabel("is_booking / réservations", fontsize=20)
plt.ylabel("Quantité de réservation", fontsize=20)
plt.show();


In [None]:
hotel_data.drop_duplicates(keep='first',inplace=True)
hotel_data.info()

# Entrainer le model avec tout les lignes (200000 lignes) :

In [None]:
# entrainer le model avec tout les lignes (200000 lignes)
from surprise.model_selection import cross_validate

reader = Reader(rating_scale=(1,5))
data= hotel_data[['user_id','hotel_name','is_booking']]
data.columns =['User_Id', 'Item_Id', 'Rating']
#data.head()
data = Dataset.load_from_df(data[['User_Id', 'Item_Id', 'Rating']], reader)

svd = SVD(verbose=True, n_epochs=10)
cross_validate(svd, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

# Tant que toute les donnees sont encoder et nous sommes besoin des vrais nom de chaque modalité, on vas se limiter sur l'étude des hotels de la France:

In [None]:
hotel_data['hotel_continent'].unique()

In [None]:
# Definir un dictionnaire pour mapper chaque code de continent avec son vrai nom, selon le dictionnaire de donnees
continent_mapping = {0: 'Other', 1: 'North America', 2: 'Asia', 3: 'South America', 4: 'Oceania', 5: 'Africa', 6: 'Europe'}

# Remplacer les labels
hotel_data['hotel_continent'].replace(continent_mapping, inplace=True)

# Verifier la colonne 'hotel_continent'
continent_counts = hotel_data['hotel_continent'].value_counts()
print(continent_counts)


In [None]:
# les code des hotels francais dans notre Dataset
europe_hotels = hotel_data[hotel_data['hotel_continent'] == "Europe"]["hotel_country"].unique()
europe_hotels

**Selon le dictionnaire de donnees le code correspondant a la France est: 105**

In [None]:
# Localiser les points qui correspondent a la France, et extraire la data
df_france_hotels = hotel_data.loc[(hotel_data['hotel_continent'] == "Europe") & (hotel_data['hotel_country'] == 105)].copy()

# Changer le label
df_france_hotels.loc[:, "hotel_country"] = "France"

In [None]:
df_france_hotels.info()

**Au contraire de la data originale qui contient toute les hotels du monde qui contient 200000 lignes, cele ci contient juste 7153 lignes**

In [None]:
df_france_hotels["hotel_name"].unique()

In [None]:
df_france_hotels.sample(10)

In [None]:
# Definir un dictionnaire pour mapper chaque code d'hotel avec son vrai nom, selon le dictionnaire de donnees
france_hotel_mapping = {
    82: 'Kyriad Rennes Nord',
    37: 'Kyriad Brive la Gaillarde Centre',
    99: 'Campanile Perpignan Nord',
    8: "Brit Hotel Porte d'Espagne***",
    78: 'Kyriad Sedan',
    35: 'Hotel Des Carmes - Rouen',
    25: 'Hotel Le Romarin',
    55: 'Hotel des Cayrons',
    9: 'Hotel du Romancier',
    20: 'Holiday Inn Express Marseille Saint Charles',
    90: 'Hotel du Couvent Royal',
    43: 'Residence Routes du Monde ATC Saint-Francois-Longchamp',
    38: 'Hotel Westminster',
    50: 'Hotel Picard',
    67: 'Timhotel Nation',
    57: 'Quality Inn Las Motas St Cyprien',
    22: 'ibis budget Caen Mondeville',
    64: 'ibis budget Orgeval',
    30: 'La Vieille Auberge du Lac',
    95: 'House Maison ideale pour vos vacances au calme en lisiere de foret',
    16: 'ULVF U Libecciu **',
    60: "L'EPI HOTEL",
    29: 'Camping La Viste',
    36: 'HOTEL RESTAURANT LES STALAGMITES',
    21: "P'tit Dej-Hotel Orleans Ouest",
    11: 'Smartappart Lorient',
    10: 'Hotel Restaurant Clement ADER',
    97: 'VVF Villages > Saint-Jean-la-Vetre',
    2: 'Le Beluga Lourdes Pyrenees',
    59: 'Holiday Inn Nimes Petite Camargue Hotel',
    62: 'Hotel Premiere Classe Lille Nord- Marcq en Baroeul',
    85: 'Kyriad Besancon Palente',
    5: "L'Hacienda",
    89: 'La Cour Des Lys',
    73: 'Mona Lisa Le Clos Des Fontaneilles',
    81: "Lagrange Vacances L'Ardoisiere",
    58: 'CGH Residences & Spas Les Alpages De Champagny',
    83: 'Lagrange Vacances Chalets du Galibier',
    14: 'Logis Hotel Le Moulin de Chalons',
    51: 'Les Jardins Saint Laurent',
    15: 'Le Panoramic Hotel',
    40: 'New Hotel Candide',
    76: 'La Vieille Auberge',
    61: 'Hotel Paganini',
    6: 'Villa Club Saint Tropez Pampelonne',
    75: 'Hotel Bristol',
    3: 'Hotel Auberge Saint Hubert',
    86: 'Hotel Belle Plage ****',
    7: "Hotel L'Arboisie",
    77: 'Auberge Chez Baratier',
    17: 'le relais des forets',
    44: 'Pullman Paris Tour Eiffel',
    93: 'Melia Paris La Defense Hotel',
    23: 'Harvey Hotel',
    4: 'Splendid Hotel',
    28: 'Camping Le Picardy',
    98: 'Holiday Home La Mazerolle',
    80: 'Gites de Brion',
    91: 'Holiday Home Maison Les Oies',
    53: 'Four-Bedroom Holiday Home in Usson du Poitou',
    68: 'VVF Villages > La Bussiere',
    32: "Holiday Home L'Ancienne Scierie",
    13: 'Two-Bedroom Holiday Home in Lannion',
    12: 'Holiday home Poullaouen 51',
    69: 'Le Gite du Poire',
    41: 'Camping du Mouchet',
    48: 'Two-Bedroom Holiday Home in Jaujac',
    42: 'Four-Bedroom Holiday Home in Reauville',
    46: 'One-Bedroom Holiday Home in Ville di Paraso',
    31: 'avenir hotel',
    27: 'hotel restaurant le chalet',
    47: "le lion d'or",
    63: 'Hotel de France Arcachon',
    94: "Holiday Home L'Olivier",
    24: 'Hotel Palazzu Pigna'
}

# Remplacer les code hotels avec le vrai nom de chaque hotel
df_france_hotels['hotel_name'] = df_france_hotels['hotel_name'].map(france_hotel_mapping).fillna(df_france_hotels['hotel_name'])


unique_hotel_names = df_france_hotels['hotel_name'].unique()
print(unique_hotel_names)


In [None]:
df_france_hotels.sample(10)
df_france_hotels['UserID'] = df_france_hotels['Unnamed: 0']
df_france_hotels.drop(columns = ["Unnamed: 0"], inplace=True)


In [None]:
df_france_hotels.reset_index(inplace=True)
df_france_hotels.sample(20)

In [None]:
len(df_france_hotels[df_france_hotels['hotel_name'] == "Hotel Le Romarin"])

In [None]:
df_france_hotels.info()

In [None]:
from surprise.model_selection import cross_validate

reader = Reader(rating_scale=(1,5))
data= df_france_hotels[['user_id','hotel_name','is_booking']]
data.columns =['User_Id', 'Item_Id', 'Rating']
#data.head()
data = Dataset.load_from_df(data[['User_Id', 'Item_Id', 'Rating']], reader)

svd = SVD(verbose=True, n_epochs=10)
cross_validate(svd, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

In [None]:
# On assumant qu'on des valeurs precis pour: user_id et hotel_name
user_id = 7670
hotel_name = "Campanile Perpignan Nord"

# predir sur tout les hotels dans notre dataset pour ces valeurs de: user_id et hotel_name
all_item_ids = df_france_hotels['hotel_name'].unique()
predictions = []
for item_id in all_item_ids:
    if (item_id != hotel_name):
      prediction = svd.predict(user_id, item_id)
      predictions.append(prediction)


# Classer les predictions dans un orde decroissent en utilisant: les predictions generees
def get_estimated_rating(prediction):
    return prediction.est

sorted_predictions = sorted(predictions, key=get_estimated_rating, reverse=True)


# Extraire les 3 meilleurs recommendations
unique_recommendations = []
for pred in sorted_predictions:
    if pred.iid not in unique_recommendations:
        unique_recommendations.append(pred.iid)
    if len(unique_recommendations) == 3:
        break

# afficher les resultats
for i, hotel in enumerate(unique_recommendations, 1):
    rating = None
    for pred in sorted_predictions:
        if pred.iid == hotel:
            rating = pred.est
            break
    print(f"Recommendation {i}: Hotel '{hotel}' with estimated rating {round(rating, 7)}")



In [1]:
from ipywidgets import interact, widgets
import pandas as pd
from surprise import SVD, Dataset, Reader

# Charger le modèle SVD entraîné
svd = SVD(verbose=True, n_epochs=10)

# Adapter le modèle aux données
trainset = data.build_full_trainset()
svd.fit(trainset)

# Définir une fonction pour générer des recommandations en fonction de l'utilisateur
def generer_recommandations(user_id, nom_hotel):
    # Prédire pour tous les hôtels dans le dataset sauf l'hôtel spécifié
    tous_les_hotels = df_france_hotels['hotel_name'].unique()
    predictions = []
    for hotel in tous_les_hotels:
        if hotel != nom_hotel:
            prediction = svd.predict(user_id, hotel)
            predictions.append(prediction)

    # Trier les prédictions par ordre décroissant de la note estimée
    predictions_triees = sorted(predictions, key=lambda x: x.est, reverse=True)

    # Extraire les 3 meilleures recommandations uniques
    recommandations_uniques = []
    for pred in predictions_triees:
        if pred.iid not in recommandations_uniques:
            recommandations_uniques.append(pred.iid)
        if len(recommandations_uniques) == 3:
            break

    # Formater et afficher les recommandations
    recommendations_output.clear_output()
    with recommendations_output:
        for i, hotel in enumerate(recommandations_uniques, 1):
            note = None
            for pred in predictions_triees:
                if pred.iid == hotel:
                    note = pred.est
                    break
            print(f"Recommandation {i} : Hôtel '{hotel}' avec une note estimée de {round(note, 7)}")

# Créer des widgets pour les entrées utilisateur
user_id_widget = widgets.IntText(description='ID Utilisateur :', value=7670)
hotel_name_widget = widgets.Text(description="Nom de l'Hôtel :", value="Campanile Perpignan Nord")
bouton_generer = widgets.Button(description='Générer Recommandations')

# Définir une fonction pour gérer l'événement du clic sur le bouton
def on_bouton_generer_click(b):
    generer_recommandations(user_id=user_id_widget.value, nom_hotel=hotel_name_widget.value)

# Associer l'événement de clic du bouton à la fonction
bouton_generer.on_click(on_bouton_generer_click)

# Afficher les widgets et les recommandations
display(user_id_widget, hotel_name_widget, bouton_generer)
recommendations_output = widgets.Output()
display(recommendations_output)



ModuleNotFoundError: No module named 'surprise'

In [None]:
# Importation des modules nécessaires
from ipywidgets import interact, widgets, Layout
import pandas as pd
from surprise import SVD, Dataset, Reader

# Charger le modèle SVD entraîné
svd = SVD(verbose=True, n_epochs=10)

# Adapter le modèle aux données
trainset = data.build_full_trainset()
svd.fit(trainset)

# Définir une fonction pour générer des recommandations en fonction de l'entrée de l'utilisateur
def generer_recommandations(id_utilisateur, nom_hotel):
    # Prédire pour tous les hôtels dans le jeu de données sauf l'hôtel spécifié
    tous_les_ids_hotels = df_france_hotels['nom_hotel'].unique()
    predictions = []
    for id_hotel in tous_les_ids_hotels:
        if id_hotel != nom_hotel:
            prediction = svd.predict(id_utilisateur, id_hotel)
            predictions.append(prediction)

    # Trier les prédictions par ordre décroissant
    predictions_triees = sorted(predictions, key=lambda x: x.est, reverse=True)

    # Sélectionner les 10 meilleures recommandations uniques
    recommandations_uniques = []
    for pred in predictions_triees:
        if pred.iid not in recommandations_uniques:
            recommandations_uniques.append(pred.iid)
        if len(recommandations_uniques) == 10:
            break

    # Formater les recommandations en HTML pour une meilleure présentation
    recommandations_html = f"<ol>"
    for i, hotel in enumerate(recommandations_uniques, 1):
        estimation = None
        for pred in predictions_triees:
            if pred.iid == hotel:
                estimation = round(pred.est, 2)
                break
        recommandations_html += f"<li>Hôtel '{hotel}' avec une estimation de note de {estimation}</li>"
    recommandations_html += "</ol>"

    # Mettre à jour la sortie des recommandations avec les recommandations formatées en HTML
    recommendations_output.value = recommandations_html

# Créer des widgets pour l'entrée utilisateur
widget_id_utilisateur = widgets.IntText(description='ID Utilisateur:', value=7670, layout=Layout(width='200px'))
widget_nom_hotel = widgets.Text(description='Nom de l\'hôtel:', value="Campanile Perpignan Nord", layout=Layout(width='400px'))
bouton_generer = widgets.Button(description='Générer des recommandations', layout=Layout(width='200px'))

# Définir une fonction pour gérer l'événement de clic sur le bouton
def on_bouton_generer_click(b):
    generer_recommandations(id_utilisateur=widget_id_utilisateur.value, nom_hotel=widget_nom_hotel.value)

# Associer l'événement de clic sur le bouton avec la fonction
bouton_generer.on_click(on_bouton_generer_click)

# Créer un conteneur pour les widgets d'entrée
widgets_entree = widgets.VBox([widget_id_utilisateur, widget_nom_hotel, bouton_generer])

# Créer un widget de sortie pour afficher les recommandations
recommendations_output = widgets.HTML()

# Afficher les widgets
display(widgets_entree)
display(recommendations_output)


**xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx**

In [None]:
from surprise import Dataset, Reader
from surprise.model_selection import cross_validate
from surprise import SVD

# Definir le reader
reader = Reader(rating_scale=(1, 5))

# la data de l'utilisateur
user_id = 7670
hotel_name = "Campanile Perpignan Nord"
is_booking = 1  # 1 for booking, 0 for browsing

# Creer une DataFrame
input_data = {'User_Id': [user_id], 'Item_Id': [hotel_name], 'Rating': [is_booking]}
input_df = pd.DataFrame(input_data)
data = Dataset.load_from_df(input_df[['User_Id', 'Item_Id', 'Rating']], reader)

#  SVD model
svd = SVD(verbose=True, n_epochs=10)

# Fiting
trainset = data.build_full_trainset()
svd.fit(trainset)
all_item_ids = df_france_hotels['hotel_name'].unique()


other_item_ids = [item_id for item_id in all_item_ids if item_id != hotel_name]
predictions = [svd.predict(user_id, item_id) for item_id in other_item_ids]
sorted_predictions = sorted(predictions, key=lambda x: x.est, reverse=True)

# les preditions des hotels
unique_recommendations = []
for pred in sorted_predictions:
    if pred.iid not in unique_recommendations:
        unique_recommendations.append(pred.iid)
    if len(unique_recommendations) == 3:
        break

# Print les meilleurs recommandations
for i, hotel in enumerate(unique_recommendations, 1):
    print(f"Recommendation {i}: Hotel '{hotel}'")

