# Necessary libraries and credentials

In [3]:
import warnings
warnings.filterwarnings("ignore")

import scrapy
from scrapy.crawler import CrawlerProcess
import logging
import os
from urllib.parse import quote
from scrapy.crawler import CrawlerProcess
from scrapy.selector import Selector

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

from time import sleep
import json
import re

import boto3

from sqlalchemy import create_engine, text, Column, Integer, String, Float
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker


import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.express as px
from PIL import Image

import psycopg2

# loading credentials
credentials = json.loads(open('credentials.json').read())
s3_credentials = credentials['s3']
db_credentials = credentials['db']

BUCKET_NAME = "kayakdb"

# Scraping Booking.com

In [2]:
class booking_spider(scrapy.Spider):
    """
    Spider Scrapy pour extraire des informations sur les hôtels depuis Booking.com.

    Cette spider parcourt les pages de résultats de recherche de Booking.com pour cinq villes françaises 
    spécifiques, collecte les URLs des hôtels, puis visite chaque page d'hôtel pour extraire des 
    informations détaillées.

    Attributs:
        name (str): Nom de la spider, utilisé par Scrapy pour l'identifier.
        start_urls (list): URL de départ pour le crawl (dans ce cas, la page d'accueil de Booking.com).
        best_cities (dict): Dictionnaire des villes à crawler avec leurs identifiants Booking.com associés.
            Format: {'Nom de la ville': 'ID Booking'}

    Méthodes:
        start_requests():
            Génère les requêtes initiales pour chaque ville.
            Retourne: Un générateur de objets scrapy.Request.

        parse_hotels_with_urls(response):
            Extrait les URLs des hôtels de la page de résultats de recherche.
            Paramètres:
                response (scrapy.http.Response): La réponse HTTP de la page de résultats.
            Retourne: Un générateur d'objets scrapy.Request pour chaque hôtel et la page suivante.

        parse_hotels_details(response):
            Extrait les détails de chaque page d'hôtel individuelle.
            Paramètres:
                response (scrapy.http.Response): La réponse HTTP de la page de l'hôtel.
            Retourne: Un dictionnaire contenant les détails de l'hôtel.

    Fonctionnement détaillé:
    1. start_requests():
       - Génère une URL de recherche pour chaque ville dans best_cities.
       - Utilise un template d'URL avec des paramètres spécifiques (dates de séjour, nombre d'adultes, etc.).
       - Ajoute un User-Agent personnalisé pour imiter un navigateur Chrome.

    2. parse_hotels_with_urls(response):
       - Extrait jusqu'à 100 URLs d'hôtels (4 pages de 25 hôtels chacune) pour chaque ville.
       - Utilise des sélecteurs XPath pour localiser les éléments HTML contenant les informations des hôtels.
       - Gère la pagination en générant des requêtes pour les pages suivantes (jusqu'à 4 pages).

    3. parse_hotels_details(response):
       - Visite chaque URL d'hôtel et extrait les informations détaillées.
       - Utilise des sélecteurs XPath pour extraire chaque élément d'information.
       - Nettoie et formate les données extraites (par exemple, conversion du score en float).

    Données extraites pour chaque hôtel:
    - city (str): Nom de la ville où se trouve l'hôtel.
    - hotel_name (str): Nom de l'hôtel.
    - hotel_url (str): URL de la page de l'hôtel sur Booking.com.
    - hotel_GPS (str): Coordonnées GPS de l'hôtel, format "latitude,longitude".
    - hotel_score (float): Score de l'hôtel sur Booking.com (de 0 à 10).
    - hotel_description (str): Description textuelle de l'hôtel.
    - hotel_address (str): Adresse complète de l'hôtel.

    Configuration du Crawler:
    - Les résultats sont sauvegardés dans un fichier JSON nommé "booking_scrap.json".
    - Si le fichier existe déjà, il est supprimé avant de commencer le nouveau crawl.
    - L'User-Agent est défini pour imiter Chrome 91.0.
    - Le niveau de log est défini sur INFO.
    - Un délai entre les requêtes (DOWNLOAD_DELAY) peut être ajouté pour éviter d'être bloqué.

    Exemple d'utilisation:
    ```python
    from scrapy.crawler import CrawlerProcess

    process = CrawlerProcess(settings={
        'USER_AGENT': 'Chrome/91.0',
        'LOG_LEVEL': logging.INFO,
        "FEEDS": {
            "booking_scrap.json": {"format": "json"},
        },
        'DOWNLOAD_DELAY': 1,  # Optionnel: ajoute un délai d'une seconde entre les requêtes
    })

    process.crawl(booking_spider)
    process.start()
    ```

    Attention:
    Le web scraping peut être soumis à des restrictions légales et éthiques. Assurez-vous d'avoir 
    l'autorisation de Booking.com avant d'utiliser ce script à grande échelle. De plus, une utilisation
    intensive pourrait entraîner le blocage de votre adresse IP par Booking.com.

    Note sur la maintenance:
    Les sélecteurs XPath utilisés pour extraire les informations peuvent nécessiter des mises à jour
    si Booking.com modifie la structure de son HTML. Vérifiez régulièrement que les sélecteurs sont
    toujours valides.
    """
    
    name = "booking"
    start_urls = ['https://www.booking.com']
    best_cities = {
        'Besançon': '-1412198',
        'Annecy': '-1407760',
        'Colmar': '-1421049',
        'Strasbourg': '-1471697',
        'Dijon': '-1423981'
    }

    def start_requests(self):
        checkin = "2024-07-20"
        checkout = "2024-07-25"
        city_url_template = ('https://www.booking.com/searchresults.fr.html?'
                             'ss={}&ssne={}&ssne_untouched={}'
       '&label=gen173nr-1FCAQoggJCDHNlYXJjaF9kaWpvbkgNWARoTYgBApgBDbgBGMgBEdgBAegBAfgBA4gCAagCBLgCrcXetAbAAgHSAiRlYzAzNzU3Yy02NThkLTQ4NmMtODc3ZS00YzhlNjg4Yzc1YzbYAgXgAgE'
                             '&sid=cba41a1ac4daf1280fa535fc1f4ebac5&aid=304142&lang=fr&sb=1&src_elem=sb&src=searchresults'
                             '&dest_id={}&dest_type=city'
                             '&checkin={}&checkout={}&group_adults=2&no_rooms=1&group_children=0')

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        for city, dest_id in self.best_cities.items():
            city_url = city_url_template.format(quote(city), quote(city), quote(city), dest_id, checkin, checkout)
            yield scrapy.Request(city_url, headers=headers, callback=self.parse_hotels_with_urls,
                                 meta={'city': city, 'city_url_template': city_url, 'offset': 0})

    def parse_hotels_with_urls(self, response):
        hotels = response.xpath("//h3[@class='d3e8e3d21a']")

        for hotel in hotels:
            hotel_name = hotel.xpath(".//div[contains(@class, 'e037993315 f5f8fe25fa')]/text()").get()
            hotel_url = hotel.xpath(".//@href").get()

            yield response.follow(hotel_url, callback=self.parse_hotels_details,
                                  meta={'city': response.meta['city'],
                                        'hotel_name': hotel_name,
                                        'hotel_url': hotel_url})

        offset = response.meta['offset'] + 25
        if offset < 100:
            next_page_url = response.meta['city_url_template'] + "&offset={}".format(offset)
            yield response.follow(next_page_url, callback=self.parse_hotels_with_urls,
                                  meta={'city': response.meta['city'],
                                        'city_url_template': response.meta['city_url_template'],
                                        'offset': offset})

    def parse_hotels_details(self, response):
        hotel_score = response.xpath("//div[@class='a447b19dfd']/text()").get()

        if hotel_score:
            hotel_score = re.findall("\d+\.\d+|\d+", hotel_score.strip())
            if hotel_score:
                hotel_score = float(hotel_score[0])

        yield {
            'city': response.meta['city'].strip() if response.meta['city'] else None,
            'hotel_name': response.meta['hotel_name'].strip() if response.meta['hotel_name'] else None,
            'hotel_url': response.meta['hotel_url'].strip() if response.meta['hotel_url'] else None,
            'hotel_GPS': response.xpath("//@data-atlas-latlng").get().strip() if response.xpath(
                "//@data-atlas-latlng").get() else None,
            'hotel_score': hotel_score,
            'hotel_description': response.xpath(
                "string(//div[contains(@class, 'hp_desc_main_content')])").get().strip() if response.xpath(
                "string(//div[contains(@class, 'hp_desc_main_content')])").get() else None,
            'hotel_address': response.xpath("//span[contains(@class, 'hp_address_subtitle')]/text()").get(),
        }

filename = "booking_scrap.json"

if filename in os.listdir():
    os.remove(filename)

process = CrawlerProcess(settings={
    'USER_AGENT': 'Chrome/91.0',
    'LOG_LEVEL': logging.INFO,
    "FEEDS": {
        filename: {"format": "json"},
    },
  #  'DOWNLOAD_DELAY': 1,  # Add a delay between requests to avoid being blocked
})

process.crawl(booking_spider)
process.start()

2024-07-17 14:59:48 [scrapy.utils.log] INFO: Scrapy 2.8.0 started (bot: scrapybot)
2024-07-17 14:59:48 [scrapy.utils.log] INFO: Versions: lxml 4.9.2.0, libxml2 2.10.4, cssselect 1.1.0, parsel 1.6.0, w3lib 1.21.0, Twisted 22.10.0, Python 3.11.5 (main, Sep 11 2023, 08:19:27) [Clang 14.0.6 ], pyOpenSSL 23.2.0 (OpenSSL 3.0.14 4 Jun 2024), cryptography 41.0.3, Platform macOS-10.16-x86_64-i386-64bit
2024-07-17 14:59:48 [scrapy.crawler] INFO: Overridden settings:
{'LOG_LEVEL': 20, 'USER_AGENT': 'Chrome/91.0'}
2024-07-17 14:59:48 [scrapy.extensions.telnet] INFO: Telnet Password: 6664328511853c01
2024-07-17 14:59:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2024-07-17 14:59:48 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAut

In [3]:
df_booking_scrap = pd.read_json('booking_scrap.json')
df_booking_scrap.city.value_counts()

ValueError: Trailing data

In [4]:
df_booking_scrap

NameError: name 'df_booking_scrap' is not defined

In [5]:
"""
Nettoyage et traitement des données scrapées de Booking.com

Ce script effectue plusieurs opérations de nettoyage et de traitement sur les données
extraites de Booking.com pour s'assurer que seuls les hôtels de la ville cible sont inclus
dans le jeu de données final.

Fonctions:
    extract_city_name(address: str) -> str:
        Extrait le nom de la ville à partir de l'adresse complète de l'hôtel.

        Args:
            address (str): L'adresse complète de l'hôtel.

        Returns:
            str: Le nom de la ville extrait ou "City name not found." si non trouvé.

        Note:
            Utilise une expression régulière pour extraire le nom de la ville
            qui suit immédiatement un code postal à 5 chiffres.

Processus de nettoyage:
1. Extraction du nom de la ville:
   - Applique la fonction extract_city_name à la colonne 'hotel_address'.
   - Crée une nouvelle colonne 'hotel_city' avec les noms de ville extraits.
   - Supprime la colonne 'hotel_address' originale.

2. Filtrage des hôtels:
   - Corrige le nom de la ville "Les Saintes-Maries-de-la-Mer" en "Saintes Maries de la mer".
   - Conserve uniquement les lignes où 'city' correspond à 'hotel_city'.

3. Réorganisation et nettoyage final:
   - Réinitialise l'index du DataFrame.
   - Déplace la colonne 'hotel_city' juste après la colonne 'city'.
   - Supprime finalement la colonne 'hotel_city'.

4. Sauvegarde:
   - Enregistre le DataFrame nettoyé dans un fichier JSON.

Utilisation:
    Ce script est conçu pour être exécuté après le scraping initial de Booking.com.
    Il suppose l'existence d'un DataFrame pandas nommé 'df_booking_scrap' contenant
    les données brutes scrapées.

Exemple d'utilisation:
    # Après avoir chargé les données scrapées dans df_booking_scrap
    df_booking_scrap['hotel_city'] = df_booking_scrap['hotel_address'].apply(extract_city_name)
    df_booking_scrap.drop(columns=['hotel_address'], inplace=True)
    # ... (reste du code de nettoyage)
    df_booking_scrap.to_json("booking_scrap.json", orient="records", lines=True)

Note:
    Ce script suppose que les villes cibles sont correctement nommées dans la colonne 'city'.
    Des ajustements peuvent être nécessaires si les noms de villes dans les adresses
    ne correspondent pas exactement aux noms dans la colonne 'city'.

Attention:
    La suppression de lignes peut réduire significativement la taille du jeu de données.
    Assurez-vous que cette réduction est attendue et acceptable pour votre analyse.
"""



# Function which will extract the city name from the address using regex
def extract_city_name(address):
    pattern = r"\b\d{5}\b\s+(.*?)(?:,|$)"
    match = re.search(pattern, address)
    if match:
        return match.group(1).strip()
    else:
        return "City name not found."

# Apply the function to the "hotel_address" column, create a new column "hotel_city", remove hotel_address
df_booking_scrap['hotel_city'] = df_booking_scrap['hotel_address'].apply(extract_city_name)
df_booking_scrap.drop(columns=['hotel_address'], inplace=True)
# Remove from dataframe all hotels with other cities
df_booking_scrap['hotel_city'] = df_booking_scrap['hotel_city'].replace("Les Saintes-Maries-de-la-Mer", "Saintes Maries de la mer")
df_booking_scrap = df_booking_scrap[df_booking_scrap['city'] == df_booking_scrap['hotel_city']]
df_booking_scrap.reset_index(drop=True, inplace=True)
# Check up
cols = df_booking_scrap.columns.tolist()
cols.insert(1, cols.pop(cols.index('hotel_city'))) # move hotel_city next to city
df_booking_scrap = df_booking_scrap[cols]
# pd.set_option('display.max_rows', None)
# display(df_booking_scrap)
# df_booking_scrap.city.value_counts()

# Remove column and save again the csv
df_booking_scrap.drop(columns=['hotel_city'], inplace=True)
df_booking_scrap.to_json("booking_scrap.json", orient="records", lines=True)

In [7]:
df_booking_scrap

Unnamed: 0,city,hotel_name,hotel_url,hotel_GPS,hotel_score,hotel_description
0,Annecy,Séjours & Affaires Annecy Le Pont Neuf,https://www.booking.com/hotel/fr/sejours-affai...,"45.89719347,6.11080974",7.6,L'établissement Séjours & Affaires Annecy Le P...
1,Annecy,Cosy studio just a stone's throw from the old ...,https://www.booking.com/hotel/fr/cosy-studio-j...,"45.89706600,6.11356500",9.0,"Offrant une vue sur la ville, le Cosy studio j..."
2,Annecy,Appartement Cosy Proche du Lac,https://www.booking.com/hotel/fr/cosy-appart-a...,"45.90800780,6.14060660",9.4,"Offrant une vue sur la montagne, l'Appartement..."
3,Annecy,Ben Nevis charming studio in the heart of the ...,https://www.booking.com/hotel/fr/ben-nevis-cha...,"45.90206380,6.12601720",6.9,"Idéalement situé dans le centre d'Annecy, le B..."
4,Strasbourg,Aparthotel Adagio Access Strasbourg Petite France,https://www.booking.com/hotel/fr/adagio-access...,"48.57924766,7.73222588",8.1,"Situé dans le centre-ville, l'Aparthotel Adagi..."
...,...,...,...,...,...,...
495,Annecy,Hôtel Catalpa,https://www.booking.com/hotel/fr/au-faisan-dor...,"45.90551449,6.14412814",8.4,"Situé juste à côté des rives du lac d'Annecy, ..."
496,Annecy,Cosy studio just a stone's throw from the old ...,https://www.booking.com/hotel/fr/cosy-studio-j...,"45.89706600,6.11356500",9.0,"Offrant une vue sur la ville, le Cosy studio j..."
497,Annecy,La Parenthèse - Annecy- Grande Terrasse - Cham...,https://www.booking.com/hotel/fr/la-parenthese...,"45.89717570,6.11326420",9.0,Vous pouvez bénéficier d'une réduction Genius ...
498,Annecy,Coeur vieille ville,https://www.booking.com/hotel/fr/coeur-vieille...,"45.89819750,6.12514360",8.7,Le Coeur vieille ville est situé dans la vieil...


In [10]:
df_top5cities_weather

Unnamed: 0,city,feels_like,humidity,wind_speed,precipitation,clouds,city_id,main_weather,main_weather_scores,clouds_scores,precipitation_scores,windspeed_scores,final_score,lon,lat
0,Besançon,97.09375,419.375,1959.88,0.52375,71.95,9.0,light rain,40,1470,5,5,3986.34875,6.024362,47.238022
1,Annecy,103.9475,400.0,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.1775,6.128885,45.899235
2,Colmar,100.18125,395.875,1967.945,0.549,63.225,16.0,light rain,40,1470,5,5,3974.00125,7.357964,48.077752
3,Strasbourg,99.06875,397.25,1967.66,0.9315,65.7,32.0,light rain,40,1470,5,5,3973.97875,7.750713,48.584614
4,Dijon,92.6775,415.875,1954.4,0.46975,65.25,17.0,light rain,40,1470,5,5,3972.9525,5.04147,47.321581


# Send to s3

In [32]:
# Merge API scraping of the weather (only the top5 cities) and hotels for those cities
df_top5cities_weather = pd.read_csv('5cities.csv')
df_merged = pd.merge(df_booking_scrap, df_top5cities_weather, on='city', how='left')

# Into csv file
df_merged.to_csv('5cities_hotel.csv', index=False)
df_merged

NameError: name 'df_booking_scrap' is not defined

In [33]:
!pip install Boto3



In [1]:
"""
Ce script Python fait appel à l'API Boto3 d'Amazon pour interagir avec le service AWS S3. 
Il implémente les fonctionnalités nécessaires pour charger un fichier sur un bucket S3 spécifique.

Processus détaillé :

1. Il commence par créer une session Boto3 en utilisant les identifiants AWS fournis.
Les identifiants de connexion (access_key et secret_access_key) sont stockés dans un dictionnaire `creds` et sont récupérés pour créer une session.

Example :
creds = {
    "Boto3": {
        "ACCESS_KEY_ID": "<Votre AWS ACCESS KEY ID>",
        "SECRET_ACCESS_KEY": "<Votre AWS SECRET ACCESS KEY>"
    }
}

2. Une fois la session créée, le script crée une instance de la ressource S3 en utilisant cette session.

3. Puis, il se connecte à un bucket S3 spécifique. Le nom du bucket est "kayakchallenge" dans cet exemple.

4. Finalement, il charge un fichier spécifié vers le bucket S3. Le chemin du fichier local et le chemin du fichier dans S3 sont fournis. Ils sont commentés dans ce script, ce qui signifie que cette partie du code ne sera pas exécutée tant qu'elle ne sera pas décommentée.

5. Une confirmation de réussite du chargement est ensuite affichée avec des détails sur le fichier et le bucket.

Attention : Assurez-vous que vos identifiants AWS sont valides et que vous avez les autorisations nécessaires pour accéder au bucket S3 et charger des fichiers. De plus, le fichier spécifié pour le chargement doit exister à l'emplacement spécifié localement.
"""

# Créer une instance de boto3.Session qui se connecte à votre compte AWS
creds = credentials
aws_access_key_id = creds["Boto3"]["ACCESS_KEY_ID"]
aws_secret_access_key = creds["Boto3"]["SECRET_ACCESS_KEY"]


session = boto3.Session(
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key
)

# Créer une variable s3 qui connecte votre session à la ressource S3
s3 = session.resource("s3")

# Créer une variable qui se connectera à votre bucket existant "kayakchallenge"
bucket_kayak = s3.Bucket("kayakchallenge")

# Uploader le fichier vers le bucket S3
#chemin_fichier_local = "5cities_hotel.csv"
#chemin_fichier_s3 = "5cities_hotel.csv"  # Vous pouvez spécifier un chemin différent si nécessaire

#bucket_kayak.upload_file(chemin_fichier_local, chemin_fichier_s3)

#print(f"Le fichier {chemin_fichier_local} a été uploadé avec succès vers {bucket_kayak.name}/{chemin_fichier_s3}")

NameError: name 'credentials' is not defined

# ETL

### Extract

In [16]:
"""
Ce script Python utilise également l'API Boto3 d'Amazon pour interagir avec le service AWS S3. Cette fois, il est configuré pour télécharger un fichier depuis un bucket S3 spécifique.

Processus détaillé :

1. Le script commence par créer un client S3 en utilisant les identifiants AWS.

2. Le chemin du fichier sur S3 et la destination locale où le fichier doit être téléchargé sont spécifiés.

3. Le client S3 est alors utilisé pour télécharger le fichier. La méthode 'download_file' prend trois arguments :
    - Le nom du bucket S3 (dans cet exemple, "bucket_kayak").
    - Le chemin du fichier sur S3 ("5cities_hotel.csv" dans cet exemple).
    - Le chemin de destination locale où le fichier doit être enregistré ("5cities_hotel.csv" ici).

Attention : Assurez-vous que les identifiants de connexion AWS et le nom du bucket sont corrects. Vous devez également avoir les permissions nécessaires pour télécharger des fichiers du bucket. En outre, vérifiez que le fichier spécifié existe bien dans le bucket S3.
"""

# Connect to my s3
s3_client = boto3.client('s3' , aws_access_key_id=aws_access_key_id, aws_secret_access_key=aws_secret_access_key)

# Retrieve file from s3
s3_file_path = '5cities_hotel.csv'
local_destination = '5cities_hotel.csv'
s3_client.download_file("bucket_kayak", "5cities_hotel.csv", "5cities_hotel.csv")

ClientError: An error occurred (404) when calling the HeadObject operation: Not Found

### Transform

In [17]:
# Clean data (drop lines etc)
df_from_s3 = pd.read_csv(local_destination)
df_from_s3

Unnamed: 0,city,hotel_name,hotel_url,hotel_GPS,hotel_score,hotel_description,feels_like,humidity,wind_speed,precipitation,clouds,city_id,main_weather,main_weather_scores,clouds_scores,precipitation_scores,windspeed_scores,final_score,lon,lat
0,Annecy,Séjours & Affaires Annecy Le Pont Neuf,https://www.booking.com/hotel/fr/sejours-affai...,"45.89719347,6.11080974",7.6,L'établissement Séjours & Affaires Annecy Le P...,103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
1,Annecy,Cosy studio just a stone's throw from the old ...,https://www.booking.com/hotel/fr/cosy-studio-j...,"45.89706600,6.11356500",9.0,"Offrant une vue sur la ville, le Cosy studio j...",103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
2,Annecy,Appartement Cosy Proche du Lac,https://www.booking.com/hotel/fr/cosy-appart-a...,"45.90800780,6.14060660",9.4,"Offrant une vue sur la montagne, l'Appartement...",103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
3,Annecy,Ben Nevis charming studio in the heart of the ...,https://www.booking.com/hotel/fr/ben-nevis-cha...,"45.90206380,6.12601720",6.9,"Idéalement situé dans le centre d'Annecy, le B...",103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
4,Strasbourg,Aparthotel Adagio Access Strasbourg Petite France,https://www.booking.com/hotel/fr/adagio-access...,"48.57924766,7.73222588",8.1,"Situé dans le centre-ville, l'Aparthotel Adagi...",99.06875,397.25,1967.66,0.93150,65.700,32.0,light rain,40,1470,5,5,3973.97875,7.750713,48.584614
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,Annecy,Hôtel Catalpa,https://www.booking.com/hotel/fr/au-faisan-dor...,"45.90551449,6.14412814",8.4,"Situé juste à côté des rives du lac d'Annecy, ...",103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
496,Annecy,Cosy studio just a stone's throw from the old ...,https://www.booking.com/hotel/fr/cosy-studio-j...,"45.89706600,6.11356500",9.0,"Offrant une vue sur la ville, le Cosy studio j...",103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
497,Annecy,La Parenthèse - Annecy- Grande Terrasse - Cham...,https://www.booking.com/hotel/fr/la-parenthese...,"45.89717570,6.11326420",9.0,Vous pouvez bénéficier d'une réduction Genius ...,103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235
498,Annecy,Coeur vieille ville,https://www.booking.com/hotel/fr/coeur-vieille...,"45.89819750,6.12514360",8.7,Le Coeur vieille ville est situé dans la vieil...,103.94750,400.00,1972.23,1.09625,62.175,4.0,light rain,40,1470,1,5,3986.17750,6.128885,45.899235


In [18]:
"""
Ce script Python utilise la bibliothèque pandas pour gérer des doublons dans un DataFrame. 

Processus détaillé :

1. Il commence par vérifier les doublons sur la base de deux colonnes : 'city' et 'hotel_name'. Cette étape est réalisée avec la méthode `duplicated()`, qui marque les lignes en double comme True. Ensuite, la méthode `sum()` donne le nombre total de doublons dans le DataFrame. Le résultat est affiché à l'écran.

2. Un sous-ensemble du DataFrame original est ensuite créé en utilisant un filtrage booléen avec la même condition que précédemment. Ce nouveau DataFrame 'duplicates_df' contient toutes les lignes en double du DataFrame original.

3. Ce DataFrame de doublons est ensuite trié en fonction des valeurs des colonnes 'city' et 'hotel_name' pour une meilleure lisibilité. Ces rangées triées ne sont pas affichées dans l'exemple fourni, car la partie pertinente du code est commentée.

4. Finalement, les doublons sont supprimés du DataFrame original avec la méthode `drop_duplicates()`. Cette méthode supprime les lignes en double et garde la première occurrence de chaque duplication. L'argument 'inplace=True' garantit que les modifications sont apportées directement dans le DataFrame original.

Attention : Assurez-vous que les noms de colonne que vous utilisez pour vérifier les doublons existent réellement dans votre DataFrame. En outre, gardez à l'esprit que cette méthode supprime toujours la première occurrence d'un doublon, quels que soient les autres attributs de la ligne.
"""

duplicate_count = df_from_s3.duplicated(subset=['city', 'hotel_name']).sum()
print("Number of duplicates:", duplicate_count)
duplicates_df = df_from_s3[df_from_s3.duplicated(subset=['city', 'hotel_name'], keep=False)]
sorted_duplicates_df = duplicates_df.sort_values(by=['city', 'hotel_name'])
# print("DataFrame with Duplicates:")
# print(sorted_duplicates_df)

df_from_s3.drop_duplicates(subset=['city', 'hotel_name'], keep='first', inplace=True)


Number of duplicates: 336


In [19]:
"""
Ce script Python est utilisé pour nettoyer et préparer les données pour d'autres traitements. Il utilise la bibliothèque pandas pour manipuler le DataFrame.

Processus détaillé :

1. Il commence par supprimer toutes les lignes contenant des valeurs manquantes ou NaN en utilisant la méthode `dropna()`. Cette méthode supprime toute ligne contenant au moins une valeur manquante.

2. Ensuite, la méthode `info()` est appelée pour afficher un résumé concis du DataFrame. Cette méthode fournit des informations importantes comme le nombre de lignes, le nombre de colonnes, le nombre de valeurs non nulles pour chaque colonne et le type de données.

3. Une partie du script, qui est commentée, convertit les valeurs de la colonne 'hotel_score' en flottant en utilisant la méthode `astype()`.

4. Enfin, la colonne 'hotel_GPS' est scindée en deux colonnes distinctes : 'hotel_lat' et 'hotel_lon'. Cela est fait en utilisant la méthode `str.split()`, qui divise chaque valeur de la colonne en deux sur la base du caractère de virgule. La méthode `expand=True` garantit que le résultat est un DataFrame. Ensuite, `astype(float)` convertit les valeurs dans ces nouvelles colonnes en flottant.

Attention : Assurez-vous de bien comprendre les implications de la suppression des lignes avec des valeurs manquantes - vous pourriez perdre des informations importantes. De plus, vérifiez que les opérations de conversion de type sont appropriées pour vos données.
"""

df_from_s3=df_from_s3.dropna()
df_from_s3.info()
# Convert values in hotel_score and hotel_voters in float and integer
#df_from_s3['hotel_score'] = df_from_s3['hotel_score'].astype(float)

# Divide hotel_GPS into 2 columns, convert to float
df_from_s3[['hotel_lat', 'hotel_lon']] = df_from_s3['hotel_GPS'].str.split(',', expand=True).astype(float)

<class 'pandas.core.frame.DataFrame'>
Index: 157 entries, 0 to 491
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   city                  157 non-null    object 
 1   hotel_name            157 non-null    object 
 2   hotel_url             157 non-null    object 
 3   hotel_GPS             157 non-null    object 
 4   hotel_score           157 non-null    object 
 5   hotel_description     157 non-null    object 
 6   feels_like            157 non-null    float64
 7   humidity              157 non-null    float64
 8   wind_speed            157 non-null    float64
 9   precipitation         157 non-null    float64
 10  clouds                157 non-null    float64
 11  city_id               157 non-null    float64
 12  main_weather          157 non-null    object 
 13  main_weather_scores   157 non-null    int64  
 14  clouds_scores         157 non-null    int64  
 15  precipitation_scores  157 no

In [20]:
df_from_s3.sort_values(by='hotel_score',ascending=False)

df_transformed = df_from_s3
print("Number of hotels : ",len(df_transformed))

Number of hotels :  157


In [21]:
df_transformed

Unnamed: 0,city,hotel_name,hotel_url,hotel_GPS,hotel_score,hotel_description,feels_like,humidity,wind_speed,precipitation,...,main_weather,main_weather_scores,clouds_scores,precipitation_scores,windspeed_scores,final_score,lon,lat,hotel_lat,hotel_lon
0,Annecy,Séjours & Affaires Annecy Le Pont Neuf,https://www.booking.com/hotel/fr/sejours-affai...,"45.89719347,6.11080974",7.6,L'établissement Séjours & Affaires Annecy Le P...,103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.897193,6.110810
1,Annecy,Cosy studio just a stone's throw from the old ...,https://www.booking.com/hotel/fr/cosy-studio-j...,"45.89706600,6.11356500",9.0,"Offrant une vue sur la ville, le Cosy studio j...",103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.897066,6.113565
2,Annecy,Appartement Cosy Proche du Lac,https://www.booking.com/hotel/fr/cosy-appart-a...,"45.90800780,6.14060660",9.4,"Offrant une vue sur la montagne, l'Appartement...",103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.908008,6.140607
3,Annecy,Ben Nevis charming studio in the heart of the ...,https://www.booking.com/hotel/fr/ben-nevis-cha...,"45.90206380,6.12601720",6.9,"Idéalement situé dans le centre d'Annecy, le B...",103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.902064,6.126017
4,Strasbourg,Aparthotel Adagio Access Strasbourg Petite France,https://www.booking.com/hotel/fr/adagio-access...,"48.57924766,7.73222588",8.1,"Situé dans le centre-ville, l'Aparthotel Adagi...",99.06875,397.25,1967.66,0.93150,...,light rain,40,1470,5,5,3973.97875,7.750713,48.584614,48.579248,7.732226
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
450,Annecy,Rivage Hôtel & Spa Annecy,https://www.booking.com/hotel/fr/rivage-amp-sp...,"45.90569900,6.15195300",8.9,"Établissement 4 étoiles, le Rivage Hôtel & Spa...",103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.905699,6.151953
451,Annecy,Best Western Plus Hotel Carlton Annecy,https://www.booking.com/hotel/fr/bestwesternca...,"45.90034806,6.12239420",8.4,Le Best Western Carlton Annecy est installé da...,103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.900348,6.122394
459,Annecy,Le Pélican,https://www.booking.com/hotel/fr/le-pelican-an...,"45.89701500,6.13154300",8.8,Vous pouvez bénéficier d'une réduction Genius ...,103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.897015,6.131543
488,Annecy,La Ferme Du Lac,https://www.booking.com/hotel/fr/la-ferme-du-l...,"45.90762530,6.15186990",[],"Located in Annecy, La Ferme Du Lac provides a ...",103.94750,400.00,1972.23,1.09625,...,light rain,40,1470,1,5,3986.17750,6.128885,45.899235,45.907625,6.151870


In [22]:
"""
Ce script Python définit une classe SQLAlchemy, qui mappe un objet Python à une table de base de données SQL appelée "Hotels".

Détails du processus :

1. Il commence par instancier une Base Déclarative, qui sert de base à toutes les classes de modèles déclaratives. Il crée essentiellement le lien entre les classes Python et la base de données SQLite sous-jacente.

2. Ensuite, une classe Python appelée 'Scraping' est définie. Cette classe mappe les objets Python à des lignes dans une table SQL. La table SQL est nommée "Hotels", comme indiqué par l'attribut `__tablename__`.

3. Les attributs de la classe correspondent à des colonnes de la table SQL. Chaque attribut est une instance de la classe Column. Les types de ces attributs sont spécifiés, comme String, Float, Integer, etc.

4. La méthode `__repr__` est surchargée pour fournir une représentation sous forme de chaîne de chaque instance de la classe. Cette représentation est utile pour le débogage et le prototypage. Elle récupère le nom des colonnes et les valeurs correspondantes pour chaque instance, puis les affiche sous forme de paires nom-valeur.

Précautions : Vérifiez que les types de colonnes que vous définissez correspondent à ceux des données réelles. De plus, gardez à l'esprit que ce script suppose que vous utilisez SQLAlchemy avec SQLite. Si vous utilisez une autre bibliothèque ou un autre SGBD, vous aurez peut-être besoin de méthodes différentes pour mapper les objets Python aux tables SQL.
"""

Base = declarative_base()

class Scraping(Base):
    __tablename__ = "Hotels"

    id = Column(Integer, primary_key=True, autoincrement=True)
    city = Column(String)
    hotel_name = Column(String)
    hotel_url = Column(String)
    hotel_score = Column(Float)
    hotel_description = Column(String)
    feels_like = Column(Float)
    humidity = Column(Float)
    wind_speed = Column(Float)
    city_id = Column(Float)
    main_weather = Column(String)
    main_weather_scores = Column(Float)
    final_score = Column(Float)
    lon = Column(Float)
    lat = Column(Float)
    hotel_lat = Column(Float)
    hotel_lon = Column(Float)

    def __repr__(self):
        # return "<User(name='{}', fullname='{}', nickname='{}')>".format(self.name, self.fullname, self.nickname)
        columns = [column.name for column in Scraping.__table__.columns]
        values = [getattr(self, column) for column in columns]
        values_str = ', '.join([f'{column}={value}' for column, value in zip(columns, values)])
        return f"<Scraping({values_str})>"

### Load

In [23]:
"""
Ce script Python utilise SQLAlchemy pour créer une instance de moteur de base de données. Ce moteur est une interface commune pour interagir avec la base de données.

Processus détaillé :

1. Les informations d'identification et les détails de la base de données sont définis, notamment l'utilisateur de la base de données, le mot de passe, l'hôte (ou l'URL de la base de données), le port et le nom de la base de données.

2. Ensuite, la méthode `create_engine()` de SQLAlchemy est utilisée pour créer un moteur de base de données. Le type de base de données et les informations d'identification sont passés à cette méthode sous forme de chaîne de connexion. Dans cet exemple, la chaîne de connexion utilise le dialecte postgresql+psycopg2, ce qui signifie que SQLAlchemy utilisera le pilote Psycopg2 pour les interactions PostgreSQL.

3. Enfin, le moteur nouvellement créé est affiché en imprimant simplement sa représentation.

Attention : Assurez-vous de ne jamais exposer les mots de passe ou autres informations sensibles en clair dans votre code ou dans un environnement public. Les mots de passe et autres données sensibles doivent être gérés de manière sécurisée. Dans cet exemple, même si le mot de passe est visible, cette information est fictive et n'accède à aucune base de données réelle.
"""

# Create a SQLAlchemy engine
from dotenv import load_dotenv
import os

load_dotenv()

db_user = os.getenv("DB_USER")
db_pass = os.getenv("DB_PASS")
db_host = os.getenv("DB_HOST")
db_port = os.getenv("DB_PORT")
db_name = os.getenv("DB_NAME")

engine = create_engine(f"postgresql+psycopg2://{db_user}:{db_pass}@{db_host}:{db_port}/{db_name}")
engine

Engine(postgresql+psycopg2://postgres_kayak:***@kayakdb.c9mem0coqm42.eu-north-1.rds.amazonaws.com:5432/postgres)

In [24]:
Base.metadata.create_all(engine)
# Creates the database schema based on our SQLAlchemy model definition (so the Base instance with the data 
# associated, like the table Hotels)

# In PGadmin, refresh then go to: project-getaround-db/Databases/postgres/Schema/public/Tables/Hotels
# Command QUERY TOOL to code in SQL

In [25]:
# Add all the data from the dataset
df_transformed.to_sql("Hotels", engine, if_exists="replace", index=False)

157

# Pick up best hotels

In [26]:
"""
Ce script Python continue à utiliser SQLAlchemy pour interagir avec la base de données SQL. Ici, une nouvelle session est créée pour permettre les interactions de base de données.

Processus détaillé :

1. Tout comme dans le script précédent, un moteur de base de données SQLAlchemy est créé en utilisant la méthode `create_engine()`, avec la chaîne de connexion appropriée.

2. Ensuite, la méthode `sessionmaker()` est utilisée pour créer une classe de session. La classe de session est l'interface principale pour persister les données à la base de données SQL. L'argument `bind=engine` relie le moteur de base de données à la classe de session.

3. Finalement, une instance de la classe de session est créée. Cette instance de session peut être utilisée pour interroger la base de données et persister les modifications.

Attention : Comme avec le script précédent, assurez-vous de gérer les mots de passe et autres informations sensibles de manière sécurisée. Ne les exposez jamais en clair dans votre code.
"""

# Imagine now we are someone else from the company, querying the created SQL database to find out what are
# 20 best hotels for a 5 days trip in one of the 5top cities.

# The person would first create a new engine and a new session
engine = create_engine(f"postgresql+psycopg2://{db_user}:{db_pass}@{db_host}:{db_port}/{db_name}")
Session = sessionmaker(bind=engine)
session = Session()

In [27]:
"""
Ce script Python utilise SQLAlchemy pour interroger la base de données et pandas pour lire les résultats de la requête SQL et les affiche.

Processus détaillé :

1. Une requête SQL est définie pour compter le nombre distinct de noms d'hôtels par ville dans la table "Hotels" de la base de données.

2. Ensuite, la méthode `read_sql()` de pandas est utilisée pour exécuter cette requête SQL, en utilisant le moteur SQLAlchemy comme connexion à la base de données. Les résultats de la requête sont lus dans un DataFrame pandas.

3. Le DataFrame résultant, qui contient le nombre d'hôtels par ville, est affiché à l'aide de la fonction `display()`.

4. Enfin, une déclaration est imprimée pour indiquer que le nombre d'hôtels pour chaque ville est relativement similaire.

Précautions : Vérifiez que la requête SQL est correctement formulée pour obtenir les résultats souhaités. De plus, comme toujours, assurez-vous de gérer correctement les informations d'identification de la base de données pour des raisons de sécurité.
"""

query = """
SELECT city, COUNT(DISTINCT hotel_name) AS num_hotel_names
FROM public."Hotels"
GROUP BY city
"""

hotels_per_city = pd.read_sql(query, engine)
display(hotels_per_city)

print("On observe qu'il y a environ le même nombre d'hotel pour chaque ville")

Unnamed: 0,city,num_hotel_names
0,Annecy,34
1,Besançon,31
2,Colmar,32
3,Dijon,29
4,Strasbourg,31


There are quite similar number of hotels for each city.


In [28]:
"""
Ce script Python exécute une requête SQL pour trouver les 20 meilleures hôtels, en classant les hôtels par leur score en ordre décroissant. Les résultats sont lus dans un DataFrame pandas.

Processus détaillé :

1. Une requête SQL est définie pour sélectionner les colonnes pertinentes de la table "Hotels". Les hôtels sont triés en ordre décroissant en fonction du score de l'hôtel, et seuls les 20 premiers résultats sont conservés grâce à la clause LIMIT.

2. Ensuite, la méthode `read_sql()` de pandas est utilisée pour exécuter cette requête SQL, en utilisant le moteur SQLAlchemy comme connexion à la base de données. Les résultats de la requête sont lus dans un DataFrame pandas.

3. Le DataFrame résultant est affiché à l'aide de la fonction `display()` pour visualiser facilement les 20 meilleurs hôtels.

Précautions : Assurez-vous que la requête SQL est correctement formulée pour obtenir les résultats souhaités. Aussi, comme toujours, assurez-vous de gérer correctement les informations d'identification de la base de données pour des raisons de sécurité.
"""

query = """
SELECT city, hotel_name, hotel_score, main_weather_scores, hotel_lat, hotel_lon
FROM public."Hotels"
ORDER BY hotel_score DESC
LIMIT 20
"""

# We need quotes for hotel_GPS because of the capital letters creating problem

top20_hotels = pd.read_sql(query, engine)
display(top20_hotels)

Unnamed: 0,city,hotel_name,hotel_score,main_weather_scores,hotel_lat,hotel_lon
0,Colmar,Commanderie Cottage Colmar,9.5,40,48.074747,7.357002
1,Annecy,Appartement Cosy Proche du Lac,9.4,40,45.908008,6.140607
2,Colmar,Saint Germain,9.3,40,48.081366,7.359934
3,Colmar,Petite Venise,9.2,40,48.073166,7.357313
4,Colmar,Le Rohan,9.1,40,48.077913,7.354742
5,Colmar,Au Bonheur des Anges Appartement duplex,9.1,40,48.073889,7.356363
6,Colmar,La Provence Suites,9.1,40,48.078181,7.354441
7,Annecy,Le Balcon de la Vieille Ville Annecy,9.1,40,45.898362,6.124655
8,Dijon,"Appartement Insolite, Place WilsonSPA, Sauna",9.0,40,47.316099,5.04162
9,Annecy,La Parenthèse - Annecy- Grande Terrasse - Cham...,9.0,40,45.897176,6.113264


In [35]:
"""
Ce script Python génère une carte interactive pour visualiser les emplacements des 20 meilleurs hôtels.

Processus détaillé :

1. La colonne 'hotel_score' du DataFrame 'top20_hotels' est convertie en numérique. Cela est nécessaire pour l'utiliser en tant que taille de point dans le graphique à venir. Toute erreur lors de la conversion est ignorée grâce à l'argument `errors='coerce'`.

2. Ensuite, la fonction `scatter_mapbox()` de la bibliothèque Plotly Express est utilisée pour créer une carte interactive. Les latitudes et longitudes des hôtels sont utilisées comme coordonnées des points sur la carte, le score de l'hôtel est utilisé pour la taille des points, et la ville pour la couleur des points.

3. Les informations supplémentaires concernant le nom de l'hôtel, la ville, le score de l'hôtel et le score du temps principal sont affichées lorsque vous passez la souris sur un point sur la carte.

4. La carte est affichée en utilisant la méthode `show()`. De plus, la carte est également enregistrée en tant que fichier HTML interactif, ce qui permet de la partager et de l'ouvrir facilement dans un navigateur web.

Précautions : Assurez-vous que les données sont nettoyées et préparées correctement pour produire des visualisations précises et informatives. Prenez également garde à ne pas divulguer d'informations potentiellement sensibles ou personnelles lors de la création de ces visualisations.
"""

top20_hotels['hotel_score'] = pd.to_numeric(top20_hotels['hotel_score'], errors='coerce')
fig = px.scatter_mapbox(
    top20_hotels, 
    title="Top 20 hotels for our trip", 
    lat="hotel_lat", 
    lon="hotel_lon", 
    zoom=5, 
    mapbox_style="open-street-map",
    size="hotel_score",
    color = 'city',
    hover_name= 'hotel_name',
    hover_data = ['city', 'hotel_score','main_weather_scores'],

)


fig.show()
fig.write_html("top_20_hotels_interactive.html")

In [36]:
# Close the session
session.close()