After we've done the scraping phase, we will dive to the cleaning phase

# Data Preprocessing

In [1]:
import pandas as pd
import numpy as np


In [2]:
df_1 = pd.read_csv("/Users/ahmed/Documents/ESILV/s9/web scraping/ecostay/ecostay/sustainable_hotels_paris3.csv")

In [3]:
df_1.head()

Unnamed: 0,Name,Address,Description,Rating,RatingText,NumReviews,HotelLink
0,NH Paris Gare de l'Est,"10e arr., Paris","10e arr., ParisIndiquer sur la carte2,2 km du ...","Avec une note de 8,1",Très bien,1 398 expériences vécues,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,"13e arr., Paris","13e arr., ParisIndiquer sur la carte2,5 km du ...","Avec une note de 8,2",Très bien,1 971 expériences vécues,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,"19e arr., Paris","19e arr., ParisIndiquer sur la carte4,9 km du ...","Avec une note de 7,8",Bien,14 516 expériences vécues,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,"9e arr., Paris","9e arr., ParisIndiquer sur la carte1,9 km du c...","Avec une note de 8,0",Très bien,1 677 expériences vécues,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,"14e arr., Paris","14e arr., ParisIndiquer sur la carte2,7 km du ...","Avec une note de 8,2",Très bien,736 expériences vécues,https://www.booking.com/hotel/fr/de-la-tour-pa...


for the address and description we have collected them in another way (better way since here are so general or not full) in the other csvs, so we need to drop those

In [4]:
df_1.drop(columns=["Address","Description","NumReviews"],inplace=True)

In [5]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,"Avec une note de 8,1",Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,"Avec une note de 8,2",Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,"Avec une note de 7,8",Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,"Avec une note de 8,0",Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,"Avec une note de 8,2",Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


As we can see the rating is not float and there is some text before values, let's fix this :

In [6]:
df_1['Rating'] = df_1['Rating'].str.extract(r'(\d+,\d+)')

In [7]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,81,Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,82,Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,78,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,80,Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,82,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


In [8]:
df_1['Rating'] = df_1['Rating'].str.replace(',', '.').astype(float)

In [9]:
df_1.isnull().sum()

Name          0
Rating        0
RatingText    0
HotelLink     0
dtype: int64

In [10]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


In [11]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 208 entries, 0 to 207
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Name        208 non-null    object 
 1   Rating      208 non-null    float64
 2   RatingText  208 non-null    object 
 3   HotelLink   208 non-null    object 
dtypes: float64(1), object(3)
memory usage: 6.6+ KB


In [12]:
df_2 = pd.read_csv("hotels_with_address.csv")

In [13]:
df_2.head()

Unnamed: 0,url,address,lat,lng
0,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766
1,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376
2,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066
3,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492
4,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891


From this dataset we can get the exact address and also its coordinates (lat and lng), let s merge them to the other dataset using the url

In [14]:
merged_df = pd.merge(df_1, df_2, left_on='HotelLink', right_on='url', how='inner')


In [15]:
merged_df.drop(columns=['url'], inplace=True)

In [16]:
merged_df.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink,address,lat,lng
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891


In [20]:
df4 = pd.read_csv("hotel_details4.csv")

In [21]:
df4.head()

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores
0,https://www.booking.com/hotel/fr/mercure-termi...,Le NH Paris Gare de l'Est est situé en face de...,J’aime bien cette établissement par ce que ils...,"{'Personnel': 8.7, 'Équipements': 8.1, 'Propre..."
1,https://www.booking.com/hotel/fr/citadines-apa...,Situé à mi-chemin entre le Quartier latin et l...,Toujours la gentillesse dans l accueil!\nLa mo...,"{'Personnel': 9.2, 'Équipements': 8.1, 'Propre..."
2,https://www.booking.com/hotel/fr/b-amp-b-porte...,"Situé dans le 19ème arrondissement de Paris, l...","Un personnel accueillant,reactif,tres poli.Mem...","{'Personnel': 8.5, 'Équipements': 7.7, 'Propre..."
3,https://www.booking.com/hotel/fr/comfort-opera...,Situé dans le quartier chic et central du 9ème...,"La prise en charge du personnel, la situation ...","{'Personnel': 9.0, 'Équipements': 7.9, 'Propre..."
4,https://www.booking.com/hotel/fr/de-la-tour-pa...,"Situé dans le 14ème arrondissement de Paris, l...",Personnelle vraiment sympathique et petit déje...,"{'Personnel': 9.3, 'Équipements': 7.9, 'Propre..."


While scraping, we have seen some reviews that are like this :

![Ce client n'a pas laissé de commentaire](assets/problems/no_review.png)

Let's handle this

In [22]:
df4['all_reviews_text'] = df3['all_reviews_text'].str.replace(
    r"Ce client n'a pas laissé de commentaire", "", regex=True
)

In [23]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   url               156 non-null    object
 1   full_description  156 non-null    object
 2   all_reviews_text  127 non-null    object
 3   rating_subscores  156 non-null    object
dtypes: object(4)
memory usage: 5.0+ KB


Another problem that our reviews are in different languages, so to handle this we will translate them all in english

In [66]:
!pip install langdetect retrying

Collecting retrying
  Downloading retrying-1.3.4-py3-none-any.whl.metadata (6.9 kB)
Downloading retrying-1.3.4-py3-none-any.whl (11 kB)
Installing collected packages: retrying
Successfully installed retrying-1.3.4


In [24]:
import pandas as pd
from translatepy import Translator
from langdetect import detect
from bs4 import BeautifulSoup
import re
import time
from retrying import retry


In [25]:
def preprocess_text(text):
    try:
        if pd.isnull(text) or not isinstance(text, str) or text.strip() == "":
            return ""
        # Remove HTML tags
        text = BeautifulSoup(text, "html.parser").get_text()
        # Replace multiple spaces with one
        text = re.sub(r'\s+', ' ', text)
        # Remove special characters (preserve punctuation)
        text = re.sub(r'[^\w\s,.!?-]', '', text)
        return text.strip()
    except Exception as e:
        print(f"Preprocessing Error: {e}")
        return "Preprocessing Error"


In [26]:
# Remove duplicate lines in each review
def remove_duplicates(text):
    try:
        if pd.isnull(text) or not isinstance(text, str) or text.strip() == "":
            return text
        
        # Split the text into lines and remove duplicates while preserving order
        lines = text.split('\n')
        seen = set()
        filtered_lines = []
        for line in lines:
            if line.strip() not in seen:  # Avoid duplicates
                filtered_lines.append(line.strip())
                seen.add(line.strip())
        
        # Rejoin filtered lines
        return "\n".join(filtered_lines).strip()
    except Exception as e:
        print(f"Duplicate Removal Error: {e}")
        return "Error Removing Duplicates"


In [27]:
translator = Translator()

# Retry decorator for handling temporary translation errors
@retry(stop_max_attempt_number=3, wait_fixed=2000)  # Retry 3 times, wait 2 seconds
def translate_to_english(text):
    try:
        if pd.isnull(text) or not isinstance(text, str) or text.strip() == "":
            return ""

        # Detect language
        lang = detect(text)
        if lang == 'en':  # Skip translation if already in English
            return text
        
        # Translate text
        translated = translator.translate(text, "en")
        time.sleep(1)  # Delay to avoid rate-limiting
        return translated.result
    except Exception as e:
        print(f"Translation Error: {e}")
        return "Not Translated"

In [28]:
# Step 1: Preprocess reviews
df4['clean_reviews'] = df4['all_reviews_text'].apply(preprocess_text)

# Step 2: Remove duplicate lines
df4['filtered_reviews'] = df4['clean_reviews'].apply(remove_duplicates)

# Step 3: Translate reviews to English
df4['all_reviews_text_en'] = df4['filtered_reviews'].apply(translate_to_english)

# Step 4: Identify rows that failed translation
not_translated = df4[df4['all_reviews_text_en'] == "Not Translated"]

# Save failed translations for manual review
not_translated.to_csv('failed_translations4.csv', index=False)

# Step 5: Save the final processed dataset
df4.to_csv('translated_reviews4.csv', index=False)

# Print results
print("Reviews successfully translated!")
print(f"Total rows: {len(df4)}, Failed translations: {len(not_translated)}")



Reviews successfully translated!
Total rows: 156, Failed translations: 0


In [29]:
df4[
    (df4['all_reviews_text_en'].str.strip() == "") |    # Empty strings
    (df4['all_reviews_text_en'].isnull())               # NaN values
]

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores,clean_reviews,filtered_reviews,all_reviews_text_en
42,https://www.booking.com/hotel/fr/hotel-nude-pa...,Idéalement situé entre le Quartier Latin et Mo...,,"{'Personnel': 9.2, 'Équipements': 8.1, 'Propre...",,,
43,https://www.booking.com/hotel/fr/holiday-villa...,L'Hotel Petit Lafayette est situé au cœur de P...,,"{'Personnel': 9.6, 'Équipements': 8.6, 'Propre...",,,
44,https://www.booking.com/hotel/fr/whistler.fr.h...,L’Hotel Whistler - Gare du Nord est situé dans...,,"{'Personnel': 9.3, 'Équipements': 8.5, 'Propre...",,,
45,https://www.booking.com/hotel/fr/du-printemps....,L’Hôtel Du Printemps est un boutique hôtel ple...,,"{'Personnel': 9.3, 'Équipements': 8.4, 'Propre...",,,
46,https://www.booking.com/hotel/fr/des-ducs-de-b...,L’Hotel Ducs de Bourgogne est un établissement...,,"{'Personnel': 9.5, 'Équipements': 9.0, 'Propre...",,,
47,https://www.booking.com/hotel/fr/comfort-hotel...,Installé dans le quartier résidentiel de Montm...,,"{'Personnel': 9.1, 'Équipements': 7.9, 'Propre...",,,
48,https://www.booking.com/hotel/fr/hotel-dame-de...,L'Hôtel Hôtel Dame des Arts est situé à 600 mè...,,"{'Personnel': 9.3, 'Équipements': 8.9, 'Propre...",,,
49,https://www.booking.com/hotel/fr/serotellutece...,"Le Serotel Lutèce est situé au cœur Paris, à 1...",,"{'Personnel': 9.3, 'Équipements': 8.5, 'Propre...",,,
50,https://www.booking.com/hotel/fr/auliviaopera....,"L'Hotel Aulivia Opéra vous accueille à Paris, ...",,"{'Personnel': 9.1, 'Équipements': 8.0, 'Propre...",,,
51,https://www.booking.com/hotel/fr/crayon-rouge....,L'Hôtel Crayon Rouge est situé dans le centre ...,,"{'Personnel': 9.4, 'Équipements': 8.4, 'Propre...",,,
