After we've done the scraping phase, we will dive to the cleaning phase

# Data Preprocessing

In [2]:
import pandas as pd
import numpy as np


In [24]:
df_1 = pd.read_csv("/Users/ahmed/Documents/ESILV/s9/web scraping/ecostay/ecostay/sustainable_hotels_paris3.csv")

In [25]:
df_1.head()

Unnamed: 0,Name,Address,Description,Rating,RatingText,NumReviews,HotelLink
0,NH Paris Gare de l'Est,"10e arr., Paris","10e arr., ParisIndiquer sur la carte2,2 km du ...","Avec une note de 8,1",Très bien,1 398 expériences vécues,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,"13e arr., Paris","13e arr., ParisIndiquer sur la carte2,5 km du ...","Avec une note de 8,2",Très bien,1 971 expériences vécues,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,"19e arr., Paris","19e arr., ParisIndiquer sur la carte4,9 km du ...","Avec une note de 7,8",Bien,14 516 expériences vécues,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,"9e arr., Paris","9e arr., ParisIndiquer sur la carte1,9 km du c...","Avec une note de 8,0",Très bien,1 677 expériences vécues,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,"14e arr., Paris","14e arr., ParisIndiquer sur la carte2,7 km du ...","Avec une note de 8,2",Très bien,736 expériences vécues,https://www.booking.com/hotel/fr/de-la-tour-pa...


for the address and description we have collected them in another way (better way since here are so general or not full) in the other csvs, so we need to drop those

In [26]:
df_1.drop(columns=["Address","Description","NumReviews"],inplace=True)

In [27]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,"Avec une note de 8,1",Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,"Avec une note de 8,2",Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,"Avec une note de 7,8",Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,"Avec une note de 8,0",Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,"Avec une note de 8,2",Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


As we can see the rating is not float and there is some text before values, let's fix this :

In [28]:
df_1['Rating'] = df_1['Rating'].str.extract(r'(\d+,\d+)')

In [29]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,81,Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,82,Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,78,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,80,Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,82,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


In [30]:
df_1['Rating'] = df_1['Rating'].str.replace(',', '.').astype(float)

In [31]:
df_1.isnull().sum()

Name          0
Rating        0
RatingText    0
HotelLink     0
dtype: int64

In [32]:
df_1.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...


In [33]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 208 entries, 0 to 207
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Name        208 non-null    object 
 1   Rating      208 non-null    float64
 2   RatingText  208 non-null    object 
 3   HotelLink   208 non-null    object 
dtypes: float64(1), object(3)
memory usage: 6.6+ KB


In [34]:
df_2 = pd.read_csv("hotels_with_address.csv")

In [35]:
df_2.head()

Unnamed: 0,url,address,lat,lng
0,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766
1,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376
2,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066
3,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492
4,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891


From this dataset we can get the exact address and also its coordinates (lat and lng), let s merge them to the other dataset using the url

In [36]:
merged_df = pd.merge(df_1, df_2, left_on='HotelLink', right_on='url', how='inner')


In [37]:
merged_df.drop(columns=['url'], inplace=True)

In [38]:
merged_df.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink,address,lat,lng
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891


In [3]:
df4 = pd.read_csv("hotel_details4.csv")

In [4]:
df4[
    (df4['all_reviews_text'].str.strip() == "") |    # Empty strings
    (df4['all_reviews_text'].isnull())               # NaN values
]

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores
17,https://www.booking.com/hotel/fr/coypel.fr.htm...,L’Hôtel Coypel by Magna Arbor est situé à seul...,,"{'Personnel': 8.5, 'Équipements': 7.8, 'Propre..."
88,https://www.booking.com/hotel/fr/terrass-paris...,"Le Terrass"" Hôtel Montmartre occupé un bâtimen...",,"{'Personnel': 9.5, 'Équipements': 9.1, 'Propre..."


In [5]:
df4 = df4[~((df4['all_reviews_text'].str.strip() == "") | (df4['all_reviews_text'].isnull()))]

In [6]:
df4.head()

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores
0,https://www.booking.com/hotel/fr/mercure-termi...,Le NH Paris Gare de l'Est est situé en face de...,J’aime bien cette établissement par ce que ils...,"{'Personnel': 8.7, 'Équipements': 8.1, 'Propre..."
1,https://www.booking.com/hotel/fr/citadines-apa...,Situé à mi-chemin entre le Quartier latin et l...,Toujours la gentillesse dans l accueil!\nLa mo...,"{'Personnel': 9.2, 'Équipements': 8.1, 'Propre..."
2,https://www.booking.com/hotel/fr/b-amp-b-porte...,"Situé dans le 19ème arrondissement de Paris, l...","Un personnel accueillant,reactif,tres poli.Mem...","{'Personnel': 8.5, 'Équipements': 7.7, 'Propre..."
3,https://www.booking.com/hotel/fr/comfort-opera...,Situé dans le quartier chic et central du 9ème...,"La prise en charge du personnel, la situation ...","{'Personnel': 9.0, 'Équipements': 7.9, 'Propre..."
4,https://www.booking.com/hotel/fr/de-la-tour-pa...,"Situé dans le 14ème arrondissement de Paris, l...",Personnelle vraiment sympathique et petit déje...,"{'Personnel': 9.3, 'Équipements': 7.9, 'Propre..."


In [7]:
print(df4.loc[0, 'all_reviews_text'])


J’aime bien cette établissement par ce que ils sont très bien accueillant
Pas

Tout en général vraiment un bel hôtel et un personnel au top et a l écoute du client

La propreté et le confort
Rien n’à redire

super emplacement en face de la gare.
Chambre confortable, lits très bien, douche et sdb agréables.
Bouilloire en chambre (café et thé), coffre fort
chambre donnant sur rue de la gare, donc un peu bruyant (surtout les bus)

L'emplacement, la tranquillité, l'équipement

l emplacement et personnel

Emplacement idéal, accueil chaleureux, salle de bain confortable mais surtout petit déjeuner excellent
Difficile d’améliorer mais la chambre(hors salle de bain) est si petite que tout est amassé.

Proximité de la gare et station de métro juste devant. Hôtel est propre, le personnel accueillant, un rapport qualité, prix correcte.
Le bruit de la VMC qui était juste insupportable pendant la nuit. Dommage.

chambre un peu exiguë par contre la t° de l'eau chaude est très variable ce qui est gên

While scraping, we have seen some reviews that are like this :

![Ce client n'a pas laissé de commentaire](assets/problems/no_review.png)

Let's handle this

In [8]:
df4['all_reviews_text'] = df4['all_reviews_text'].str.replace(
    r"Ce client n'a pas laissé de commentaire", "", regex=True
)

In [10]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 154 entries, 0 to 155
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   url               154 non-null    object
 1   full_description  154 non-null    object
 2   all_reviews_text  154 non-null    object
 3   rating_subscores  154 non-null    object
dtypes: object(4)
memory usage: 10.1+ KB


Another problem that our reviews are in different languages, so to handle this we will translate them all in english

First solution

In [11]:
!pip install deep-translator

Collecting deep-translator
  Downloading deep_translator-1.11.4-py3-none-any.whl.metadata (30 kB)
Downloading deep_translator-1.11.4-py3-none-any.whl (42 kB)
Installing collected packages: deep-translator
Successfully installed deep-translator-1.11.4


In [16]:
import re
from deep_translator import GoogleTranslator

# Function to split text into chunks of 5000 characters
def split_text(text, max_length=2000):
    """Split long text into chunks without breaking sentences."""
    sentences = re.split(r'(?<=[.!?]) +', text)  # Split by sentences
    chunks = []
    current_chunk = ""
    
    for sentence in sentences:
        # Check if adding the next sentence exceeds the max_length
        if len(current_chunk) + len(sentence) <= max_length:
            current_chunk += sentence + " "
        else:
            chunks.append(current_chunk.strip())
            current_chunk = sentence + " "
    
    # Add the last chunk
    if current_chunk:
        chunks.append(current_chunk.strip())
    
    return chunks

# Function to translate long text
def translate_long_text(text):
    """Translate long text by splitting it into smaller parts."""
    try:
        # Return original text if empty or NaN
        if pd.isnull(text) or text.strip() == "":
            return text
        
        # Split text into chunks of 5000 characters
        chunks = split_text(text)
        translated_chunks = []

        # Translate each chunk
        for chunk in chunks:
            translated_chunk = GoogleTranslator(source='auto', target='en').translate(chunk)
            translated_chunks.append(translated_chunk)
        
        # Combine translated chunks
        return " ".join(translated_chunks)

    except Exception as e:
        print(f"Error translating: {text[:50]}... -> {e}")
        return text

In [17]:
# Apply translation to the 'all_reviews_text' column and create a new column
df4['translated_reviews'] = df4['all_reviews_text'].apply(translate_long_text)

In [18]:
# Display sample data
print(df4[['all_reviews_text', 'translated_reviews']].head())

                                    all_reviews_text  \
0  J’aime bien cette établissement par ce que ils...   
1  Toujours la gentillesse dans l accueil!\nLa mo...   
2  Un personnel accueillant,reactif,tres poli.Mem...   
3  La prise en charge du personnel, la situation ...   
4  Personnelle vraiment sympathique et petit déje...   

                                  translated_reviews  
0  I like this establishment because they are ver...  
1  Always kind in the welcome!\nThe carpet on the...  
2  Welcoming, responsive, very polite staff. Even...  
3  The staff support, the unbeatable location in ...  
4  Really friendly staff and very well done break...  


In [21]:
df4[
    (df4['all_reviews_text'].str.strip() == "") |    # Empty strings
    (df4['all_reviews_text'].isnull())               # NaN values
]

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores,translated_reviews


In [22]:
df4[
    (df4['translated_reviews'].str.strip() == "") |    # Empty strings
    (df4['translated_reviews'].isnull())               # NaN values
]

Unnamed: 0,url,full_description,all_reviews_text,rating_subscores,translated_reviews


In [23]:
df4.to_csv('translated_reviews_final.csv', index=False)

In [39]:
merged_df.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink,address,lat,lng
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891


In [40]:
final_dataset = pd.merge(merged_df, df4, left_on='HotelLink', right_on='url', how='inner')

In [42]:
final_dataset.drop(columns=['url'], inplace=True)

In [43]:
final_dataset.head()

Unnamed: 0,Name,Rating,RatingText,HotelLink,address,lat,lng,full_description,all_reviews_text,rating_subscores,translated_reviews
0,NH Paris Gare de l'Est,8.1,Très bien,https://www.booking.com/hotel/fr/mercure-termi...,"5 rue du 8 Mai 1945, 10e arr., 75010 Paris, Fr...",48.87595,2.358766,Le NH Paris Gare de l'Est est situé en face de...,J’aime bien cette établissement par ce que ils...,"{'Personnel': 8.7, 'Équipements': 8.1, 'Propre...",I like this establishment because they are ver...
1,Citadines Austerlitz Paris,8.2,Très bien,https://www.booking.com/hotel/fr/citadines-apa...,"27 Rue Esquirol, 13e arr., 75013 Paris, France",48.834906,2.360376,Situé à mi-chemin entre le Quartier latin et l...,Toujours la gentillesse dans l accueil!\nLa mo...,"{'Personnel': 9.2, 'Équipements': 8.1, 'Propre...",Always kind in the welcome!\nThe carpet on the...
2,B&B HOTEL Paris Porte des Lilas,7.8,Bien,https://www.booking.com/hotel/fr/b-amp-b-porte...,"23 Avenue René Fonck, 19e arr., 75019 Paris, F...",48.880018,2.408066,"Situé dans le 19ème arrondissement de Paris, l...","Un personnel accueillant,reactif,tres poli.Mem...","{'Personnel': 8.5, 'Équipements': 7.7, 'Propre...","Welcoming, responsive, very polite staff. Even..."
3,Best Western Hotel Opéra Drouot,8.0,Très bien,https://www.booking.com/hotel/fr/comfort-opera...,"4 Rue De La Grange Bateliere, 9e arr., 75009 P...",48.873089,2.342492,Situé dans le quartier chic et central du 9ème...,"La prise en charge du personnel, la situation ...","{'Personnel': 9.0, 'Équipements': 7.9, 'Propre...","The staff support, the unbeatable location in ..."
4,Hotel de la Tour,8.2,Très bien,https://www.booking.com/hotel/fr/de-la-tour-pa...,"19 boulevard Edgar Quinet, 14e arr., 75014 Par...",48.841197,2.323891,"Situé dans le 14ème arrondissement de Paris, l...",Personnelle vraiment sympathique et petit déje...,"{'Personnel': 9.3, 'Équipements': 7.9, 'Propre...",Really friendly staff and very well done break...


In [44]:
final_dataset.to_csv('final_dataset.csv', index=False)