In [1]:
# Importation des librairies
import requests
import pandas as pd
from datetime import datetime, timedelta, date

import plotly.express as px

import scrapy
from scrapy.crawler import CrawlerProcess
import os
import logging
import urllib

import boto3

#### PART 1. Obtenir les coordonnées geographiques des viles

In [2]:
# liste donnée des villes
cities = ["Mont Saint Michel",
"St Malo",
"Bayeux",
"Le Havre",
"Rouen",
"Paris",
"Amiens",
"Lille",
"Strasbourg",
"Chateau du Haut Koenigsbourg",
"Colmar",
"Eguisheim",
"Besancon",
"Dijon",
"Annecy",
"Grenoble",
"Lyon",
"Gorges du Verdon",
"Bormes les Mimosas",
"Cassis",
"Marseille",
"Aix en Provence",
"Avignon",
"Uzes",
"Nimes",
"Aigues Mortes",
"Saintes Maries de la mer",
"Collioure",
"Carcassonne",
"Ariege",
"Toulouse",
"Montauban",
"Biarritz",
"Bayonne",
"La Rochelle"]

In [3]:
def city_gps(city_name):
    """
    création d'une fonction afin de récupérer au format json les informations sur une ville, à partir de son nom passée en paramètre
    utlisation de l'API du site nominatim avec des critères en paramètre (format de sortie + nom ville + pays)
    utilisation d'un try/except au cas ou certaines noms dans la liste renvois une erreur. Dans ce cas nous passons l'erreur et affectons une valeur vide aux données recherchées
    Args:
        city_name : liste des villes
    Returns:
        Latitude et longitude pour chaque ville sous forme d'un tuple
    """
    url_nominatim = "https://nominatim.openstreetmap.org/search"
    criteria_nominatim = {"format":"json", "city":city_name, "country":"France"}
    r = requests.get(url_nominatim, params=criteria_nominatim)
    r.json()
    try :
        city_lon = r.json()[0]["lon"]
        city_lat = r.json()[0]["lat"]
    except :
        city_lon = ""
        city_lat = ""
    return city_lon, city_lat

In [4]:
city_gps("Marseille")[0]

'5.3699525'

In [5]:
#création d'un dataframe à partir du nom
dataset_cities = pd.DataFrame({"City":cities})

# ajout de deux colonnes avec les coordonnées gps (latitude & longitude)
dataset_cities["Latitude"] = dataset_cities["City"].apply(lambda x: city_gps(x)[1])
dataset_cities["Longitude"] = dataset_cities["City"].apply(lambda x: city_gps(x)[0])

In [6]:
# verification du résultat
dataset_cities

Unnamed: 0,City,Latitude,Longitude
0,Mont Saint Michel,48.6359541,-1.511459954959514
1,St Malo,48.649518,-2.0260409
2,Bayeux,49.2764624,-0.7024738
3,Le Havre,49.4938975,0.1079732
4,Rouen,49.4404591,1.0939658
5,Paris,48.8588897,2.3200410217200766
6,Amiens,49.8941708,2.2956951
7,Lille,50.6365654,3.0635282
8,Strasbourg,48.584614,7.7507127
9,Chateau du Haut Koenigsbourg,48.2495226,7.3454923


In [7]:
#ajout d'un id pour chaque ville, insertion de la colonne en 1ère position avec la méthode "insert" car sinon l'ajout se fait en fin de dataframe
# cet id sera utile par la suite
dataset_cities.insert(0, "id", [i for i in range(1,36)])

In [8]:
# vérification des résultats
dataset_cities

Unnamed: 0,id,City,Latitude,Longitude
0,1,Mont Saint Michel,48.6359541,-1.511459954959514
1,2,St Malo,48.649518,-2.0260409
2,3,Bayeux,49.2764624,-0.7024738
3,4,Le Havre,49.4938975,0.1079732
4,5,Rouen,49.4404591,1.0939658
5,6,Paris,48.8588897,2.3200410217200766
6,7,Amiens,49.8941708,2.2956951
7,8,Lille,50.6365654,3.0635282
8,9,Strasbourg,48.584614,7.7507127
9,10,Chateau du Haut Koenigsbourg,48.2495226,7.3454923


#### PART 2. Obtenir les données météologiques concernant les villes

Le site openweathermap renvoi à partir de coordonnées GPS un jeu de données trés etoffés qui comprend des données courantes, et des prévisions par minutes, heures, et jours.
Nous avons fait le choix de ne garder que les données concernant les prévisions journalières, qui sont sur 7 jours.
Les données journalières étant également nombreuses, nous n'avons également retenu que certaines d'entre elles :
- le date du jour en question
- la temperature (en degré celsius)
- le taux d'humidité (e n%)
- la vitesse du vent (en m/seconde)
- la pluie (en mm par jour)

In [9]:
def read_credentials(file_path):
    """
    function qui permet d'aller chercher les codes d'accès à openweahermap dans un fichier txt situé au même emplacement que le script
    Args:
        file_path (string): chemin d'accès et nom du fichier
    Returns:
        a dictionary with key(s) and value(s) for credential(s)
    """
    credentials = {}
    with open(file_path, 'r') as file:
        for line in file:
            key, value = line.strip().split('=')
            credentials[key] = value
    return credentials

# Specify the path to your credentials file
credentials_path = "access.txt"

# Read credentials from the file
credentials = read_credentials(credentials_path)

# Access individual credentials
app_id = credentials["app_id"]

In [10]:
def city_weather(lat, lon, day, app_id):
    """
    création d'une fonction qui renvoie des infos clés sur la météo prévisionnelle.
    la fonction à trois paramètres : les coordonnées gps (latitude/longitude) et le jour pour lequel nous souhaitons les données
    utlisation de l'API du site openweathermap (owm) avec des critères passés en paramètres : la clé de l'API, les coordonnées GPS, l'exclusion de certaines données (exclude) et le choix des unités (units)
    a noter également deux points :
    i) nous avons transformé la date qui n'est pas au bon format
    ii) et nous avons utilisé un try/except pour gérer l'absence de la donnée sur la pluie liée au fait qu'il ne pleut pas. Dans ce cas nous afffectons la valeur 0

    Args:
        lat (float): latitude d'une ville
        lon (float): longitude d'une ville
        day (int): jour

    Returns:
        liste comprenant la date du jour, la température, l'humidité, le vent et la pluie
    """
    # app_id = "1d7498fefc66d74c38e726701b5fd131"
    url_owm = "https://api.openweathermap.org/data/3.0/onecall?"
    criteria_owm = {"lat":lat, "lon":lon, "appid":app_id, "exclude":"current,minutely,hourly", "units":"metric"}
    data_forecast = requests.get(url_owm, params = criteria_owm).json()
    day_date = data_forecast["daily"][day]["dt"]
    day_date = datetime.fromtimestamp(day_date).strftime("%x")
    day_temp = data_forecast["daily"][day]["temp"]["day"]
    day_humidity = data_forecast["daily"][day]["humidity"]
    day_wind = data_forecast["daily"][day]["wind_speed"]
    try :
        day_rain = data_forecast["daily"][day]["rain"]
    except :
        day_rain=0
    return [day_date, day_temp, day_humidity, day_wind, day_rain]

In [11]:
# création d'un dataframe destiné à contenir les prévisions météo à partir des coordonnées gps
# les colonnes correspondent aux données météorologiques prévisionnelles
# les lignes correspondent aux villes et aux jours (donc plusieurs lignes pour une même ville)
dataset_forecast = pd.DataFrame(columns = ["id", "Date", "Temperature", "Humidity", "Wind", "Rain"])
dataset_forecast

Unnamed: 0,id,Date,Temperature,Humidity,Wind,Rain


In [12]:
# itération sur les villes (35 villes) et les prévisions journalières (7 jours) pour compléter le dataset
# nous aurions pu remplacer les chiffres par une valeur variable en fonction des résultats précédent (len par exemple)
# nous utilisons la fonction city_weather créée précédemment
# nous créons un dataframe temporaire pour y affecter les données renvoyées par la fonction
# nous concaténons ce dataframe temporaire au dataframe principal
for city in range(len(dataset_cities)):
    for i in range(7):
        response = city_weather(dataset_cities["Latitude"][city], dataset_cities["Longitude"][city], i, app_id)
        dataset_forecast_bis = pd.DataFrame({"id":city+1, "Date":response[0], "Temperature":response[1], "Humidity":response[2], "Wind":response[3], "Rain":response[4]}, index=[i+7*city])
        dataset_forecast = pd.concat([dataset_forecast, dataset_forecast_bis], ignore_index=True)

  dataset_forecast = pd.concat([dataset_forecast, dataset_forecast_bis], ignore_index=True)


In [13]:
# la taille du dataframe permet de confirmer les résultats. nous avons 245 lignes soit 35 villes x 7 jours
dataset_forecast.shape

(245, 6)

In [14]:
# nous avons bien également 7 lignes pour le même id (ville)
dataset_forecast.head(40)

Unnamed: 0,id,Date,Temperature,Humidity,Wind,Rain
0,1,01/21/24,10.55,91,15.35,0.7
1,1,01/22/24,10.66,76,15.19,5.13
2,1,01/23/24,12.61,94,9.9,0.11
3,1,01/24/24,12.22,90,8.41,0.84
4,1,01/25/24,13.29,87,6.22,0.62
5,1,01/26/24,9.56,81,6.89,0.72
6,1,01/27/24,7.54,73,5.38,0.0
7,2,01/21/24,10.37,91,17.7,0.43
8,2,01/22/24,10.63,75,18.13,3.21
9,2,01/23/24,13.22,92,11.41,0.0


In [15]:
# nous vérifions également le format des données
dataset_forecast.dtypes

id              object
Date            object
Temperature    float64
Humidity        object
Wind           float64
Rain           float64
dtype: object

In [16]:
# certains formats ne sont pas adaptés au type de données, ou dans un format qui prend de la place
# conversion des colonnes numériques avec la fonction pandas to_numeric avec en paramètre downcast ce que l'on souhaite (float)
# conversion de la colonne date avec la fonction pandas to_datetime
dataset_forecast[["Humidity", "Rain", "Temperature", "Wind"]] = dataset_forecast[["Humidity", "Rain", "Temperature", "Wind"]].apply(pd.to_numeric, downcast="float")
dataset_forecast["Date"] = dataset_forecast["Date"].apply(pd.to_datetime)

#verification du résultat
dataset_forecast.dtypes

id                     object
Date           datetime64[ns]
Temperature           float32
Humidity              float32
Wind                  float32
Rain                  float32
dtype: object

Nous avons à ce stade trop de données pour être capable de faire un choix sur une destination.
Nous allons pour chaque critère calculer une valeur unique sur l'ensemble de la période de prévision, pour chaque id (ville).
Nous avons retenu la médiane, plus robuste que la moyenne.

Nous considérerons donc pour la suite du travail que les donnée ssont justes.

In [17]:
# utlisation de la fonction groupby() à partir de l'id. le paramètre as_index permet de garder l'id comme une colonne sinon il passerait en index
# les chiffres sont arrondis
median_forecast = dataset_forecast.groupby(["id"], as_index=False)[["Temperature", "Humidity", "Wind", "Rain"]].median().round(1)
median_forecast

Unnamed: 0,id,Temperature,Humidity,Wind,Rain
0,1,10.7,87.0,8.4,0.7
1,2,10.6,88.0,9.9,0.4
2,3,10.0,82.0,10.8,0.3
3,4,9.5,88.0,11.1,0.7
4,5,10.4,87.0,8.8,0.4
5,6,10.8,76.0,6.6,0.6
6,7,9.1,82.0,9.6,0.9
7,8,7.6,77.0,10.3,0.4
8,9,7.7,76.0,5.8,0.4
9,10,6.1,83.0,4.0,0.7


Maintenant que nous avons pour chaque ville (id) une valeur unique par paramètre, nous allons rajouter à notre dataframe initiale les colonnes concernant la météo previsionnelle

In [18]:
# utilisation de la fonction merge() pour fusionner les 2 dataframes en jointant sur la colonne commune "id"
dataset_cities = dataset_cities.merge(median_forecast, on=["id"])
dataset_cities

Unnamed: 0,id,City,Latitude,Longitude,Temperature,Humidity,Wind,Rain
0,1,Mont Saint Michel,48.6359541,-1.511459954959514,10.7,87.0,8.4,0.7
1,2,St Malo,48.649518,-2.0260409,10.6,88.0,9.9,0.4
2,3,Bayeux,49.2764624,-0.7024738,10.0,82.0,10.8,0.3
3,4,Le Havre,49.4938975,0.1079732,9.5,88.0,11.1,0.7
4,5,Rouen,49.4404591,1.0939658,10.4,87.0,8.8,0.4
5,6,Paris,48.8588897,2.3200410217200766,10.8,76.0,6.6,0.6
6,7,Amiens,49.8941708,2.2956951,9.1,82.0,9.6,0.9
7,8,Lille,50.6365654,3.0635282,7.6,77.0,10.3,0.4
8,9,Strasbourg,48.584614,7.7507127,7.7,76.0,5.8,0.4
9,10,Chateau du Haut Koenigsbourg,48.2495226,7.3454923,6.1,83.0,4.0,0.7


In [19]:
# sauvgarde du résultat sous forme de fichier csv, sans les index
dataset_cities.to_csv("dataset_cities.csv", index=False)

Selon nos critères (arbitraire pour les besoins de l'exercice), les destinations les plus intéressantes seront celles avec :
- une quantité de pluie = 0
- une température moyenne supérieure à 10 degrés
- une humidité inférieure ou égale à 50%
- un vent au maximum de 5 m/sec

In [20]:
dataset_cities_results= dataset_cities[(dataset_cities.Rain == 0) & (dataset_cities.Humidity <= 50) & (dataset_cities.Wind <= 5) & (dataset_cities.Temperature > 10)]
dataset_cities_results

Unnamed: 0,id,City,Latitude,Longitude,Temperature,Humidity,Wind,Rain
17,18,Gorges du Verdon,43.7496562,6.3285616,11.5,43.0,4.6,0.0
27,28,Collioure,42.52505,3.0831554,19.200001,48.0,3.7,0.0


In [21]:
# sauvegarde liste des villes sélectionnées
dataset_cities_results.to_csv("dataset_cities_results.csv", index=False)

In [22]:
# conversion des données Latitude/Longitude en nb décimal pour pouvoir être utilisées dans la carte
dataset_cities_results["Latitude"]=dataset_cities_results.loc[:,"Latitude"].astype(float, errors="raise")
dataset_cities_results["Longitude"]=dataset_cities_results.loc[:,"Longitude"].astype(float, errors="raise")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_cities_results["Latitude"]=dataset_cities_results.loc[:,"Latitude"].astype(float, errors="raise")
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_cities_results["Longitude"]=dataset_cities_results.loc[:,"Longitude"].astype(float, errors="raise")


In [23]:
# création du graphe
cities_results = px.scatter_mapbox(
    dataset_cities_results,
    title = "Localisation des villes à privilégier pour vos vacances",
    lon="Longitude",
    lat="Latitude",
    color="Temperature",
    mapbox_style="open-street-map",
    text="City",
    zoom=5,
)
cities_results.update_layout(width=1000,height = 900, margin={"r":0,"t":50,"l":0,"b":0}, title_x = 0.5, title_y = 0.98)
cities_results.update_traces(marker={'size': 15}) # permet de definir une taille fixe pour les points sur la carte
cities_results.show()

#### PART 3. Obtenir une liste d'hotels disponibles pour les destinations retenues à partir de booking.com

In [24]:
class booking_spider(scrapy.Spider):
    name = "booking"
    base_lien = []

    def start_requests(self):
        checkin_date = date.today() + timedelta(days=1)
        checkout_date = checkin_date + timedelta(days=1)    
        for city in dataset_cities_results["City"] :
            id = dataset_cities_results.loc[dataset_cities_results.City==city,"id"].values[0]
            parameters_booking = {"ss":city, "no_rooms":"1", "checkin":checkin_date, "checkout":checkout_date, "group_adults":"2", "group_children":"0"}
            final_url =f'{"https://www.booking.com/searchresults.fr.html?"}{urllib.parse.urlencode(parameters_booking)}'
            yield scrapy.Request(url=final_url, callback=self.parse, cb_kwargs={"id" : id})

    def parse(self, response, id):
        links = response.xpath('//h3[@class="aab71f8e4e"]/a/@href').getall()
        for lien in links :
            lien = str(lien).split("?")[0]
            self.base_lien.append(lien)
            yield scrapy.Request(url=lien, callback=self.parse_detail, cb_kwargs={"id" : id})

    def parse_detail(self, response, id) :
        yield {
            'id' : id,
            'Name' : response.xpath('//h2[@class="d2fee87262 pp-header__title"]/text()').get(),
            'rating' : response.xpath('//div[@class="a3b8729ab1 d86cee9b25"]/text()').get(),
            'gps' : response.xpath('//a[@id="hotel_address"]/@data-atlas-latlng').get(""),
            'url' : response.request.url,
            'Comment' : response.xpath('//p[@class="a53cbfa6de b3efd73f69"]/text()').get()
        }
            
filename = "booking.csv"

if filename in os.listdir("C:/Users/SD\Desktop/Cours/Jedha/Fullstack_Datascience/4 - Data_Collection_and_Management/5 - Projet/"):
        os.remove("C:/Users/SD\Desktop/Cours/Jedha/Fullstack_Datascience/4 - Data_Collection_and_Management/5 - Projet/" + filename)

process = CrawlerProcess(settings = {
    'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0',
    'LOG_LEVEL': logging.INFO,
    'FEED_EXPORT_ENCODING' : "utf-8", # résoud le pb de caractères
    "FEEDS": {filename : {"format": "csv"},
    }
})

process.crawl(booking_spider)
process.start()

2024-01-21 11:40:48 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: scrapybot)
2024-01-21 11:40:48 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.7 (tags/v3.11.7:fa7a6f2, Dec  4 2023, 19:24:49) [MSC v.1937 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2024-01-21 11:40:48 [scrapy.addons] INFO: Enabled addons:
[]

'2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.




2024-01-21 11:40:48 [scrapy.extensions.telnet] INFO: Telnet Password: 8af8850a659040a9
2024-01-21 11:40:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2024-01-21 11:40:48 [scrapy.crawler] INFO: Overridden settings:
{'FEED_EXPORT_ENCODING': 'utf-8',
 'LOG_LEVEL': 20,
 'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) '
               'Gecko/20100101 Firefox/114.0'}
2024-01-21 11:40:48 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirec

In [25]:
# chargement du dataset comprenant les hotels
dataset_hotels = pd.read_csv("booking.csv")

In [26]:
dataset_hotels["id"].value_counts()

id
18    25
28    25
Name: count, dtype: int64

In [27]:
# converson de la colonne "rating" au bon format, en remplaçant les virgules par des points
dataset_hotels["rating"] = dataset_hotels["rating"].str.replace(",",".").astype(dtype="float", errors="raise")

In [28]:
# création de deux colonnes latitude et longitude afin de permettre la visualisaiton sur une carte
dataset_hotels["latitude"] = dataset_hotels["gps"].apply(lambda x : x.split(",")[0]).astype(dtype="float", errors="raise")
dataset_hotels["longitude"] = dataset_hotels["gps"].apply(lambda x : x.split(",")[1]).astype(dtype="float", errors="raise")

In [29]:
# création du graphe
hotels_results = px.scatter_mapbox(
    dataset_hotels,
    title = "Localisation des hôtels dans les villes à privilégier pour vos vacances",
    lon="longitude",
    lat="latitude",
    color="rating",
    mapbox_style="open-street-map",
    text="Name",
    zoom=5,
)
hotels_results.update_layout(width=1000,height = 900, margin={"r":0,"t":50,"l":0,"b":0}, title_x = 0.5, title_y = 0.98)
hotels_results.update_traces(marker={'size': 15}) # permet de definir une taille fixe pour les points sur la carte
hotels_results.show()

In [30]:
# sauvegarde liste des hotels nettoyée
dataset_hotels.to_csv("dataset_hotels.csv", index=False)

In [31]:
def read_credentials(file_path):
    """
    function qui permet d'aller chercher les codes d'accès à AWS dans un fichier txt situé au même emplacement que le script
    Args:
        file_path (string): chemin d'accès et nom du fichier
    Returns:
        a dictionary with key(s) and value(s) for credential(s)
    """
    credentials = {}
    with open(file_path, 'r') as file:
        for line in file:
            key, value = line.strip().split('=')
            credentials[key] = value
    return credentials

# Specify the path to your credentials file
credentials_path = "access.txt"

# Read credentials from the file
credentials = read_credentials(credentials_path)

# Access individual credentials
access_key = credentials["access_key"]
secret_key = credentials["secret_key"]

In [32]:
# sauvegarde des fichiers sur S3
session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key)

# créer une session "ressource"
s3 = session.resource("s3")

# connection a un bucket existant sur AWS-S3
bucket = s3.Bucket("myprojet-kayak") 

# mettre les fichiers dans le bucket créé sur S3
bucket.upload_file("dataset_cities.csv","dataset_cities.csv")
bucket.upload_file("booking.json","booking.json")
bucket.upload_file("dataset_hotels.csv","dataset_hotels.csv")

#### PART 4. RDS

In [33]:
# !pip install psycopg2-binary

In [34]:
# Importation librairie
from sqlalchemy import create_engine, text, Column, Integer, String, Float, URL, select
from sqlalchemy.orm import declarative_base, sessionmaker
from sqlalchemy.sql import text
import psycopg2

In [35]:
# chemin et nom du fichier où se trouve les données d'accès
credentials_path = "rds.txt"

# utlisation de la fonction read_credentials
credentials = read_credentials(credentials_path)

In [36]:
# engine = create_engine(f"postgresql+psycopg2://kayak_user:Bonjour01@database-kayak-project.chrp9zc9w8wd.eu-west-3.rds.amazonaws.com:5432/postgres", echo=True)

In [37]:
# Creation d'une connection à RDS
url_rds = URL.create(
    "postgresql+psycopg2",
    username=credentials["username"],
    password=credentials["mdp"],
    host=credentials["hostname"],
    port = credentials["port"],
    database= "postgres"
)
engine = create_engine(url_rds, echo=True)

In [38]:
# instanciation d'une base declarative qui sera utlisée ensuite
Base = declarative_base()

In [39]:
# création d'une première table qui va accueillir les données concernant les villes 

class User(Base):
    __tablename__ = "data_cities"
    __table_args__ = {'extend_existing': True}

    # chaque paramètre correspond à une colonne dans la table, avec le format de la donnée
    id = Column(Integer, primary_key=True)
    City = Column(String)
    Latitude = Column(Float)
    Longitude = Column(Float)
    Temperature = Column(Float)
    Humidity = Column(Float)
    Wind = Column(Float)
    Rain = Column(Float)

    def __repr__(self):
        return "<User(City='{}', Latitude='{}', Longitude='{}', Temperature='{}', Humidity='{}', Wind='{}', Rain='{}')>".format(self.City, self.Latitude, self.Longitude, self.Temperature, self.Humidity, self.Wind, self.Rain)

In [40]:
# Creation de la 1ère table
Base.metadata.create_all(engine)

2024-01-21 11:41:11,487 INFO sqlalchemy.engine.Engine select pg_catalog.version()


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: select pg_catalog.version()


2024-01-21 11:41:11,495 INFO sqlalchemy.engine.Engine [raw sql] {}


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: [raw sql] {}


2024-01-21 11:41:11,585 INFO sqlalchemy.engine.Engine select current_schema()


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: select current_schema()


2024-01-21 11:41:11,586 INFO sqlalchemy.engine.Engine [raw sql] {}


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: [raw sql] {}


2024-01-21 11:41:11,672 INFO sqlalchemy.engine.Engine show standard_conforming_strings


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: show standard_conforming_strings


2024-01-21 11:41:11,677 INFO sqlalchemy.engine.Engine [raw sql] {}


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: [raw sql] {}


2024-01-21 11:41:11,766 INFO sqlalchemy.engine.Engine BEGIN (implicit)


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: BEGIN (implicit)


2024-01-21 11:41:11,789 INFO sqlalchemy.engine.Engine SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:11,793 INFO sqlalchemy.engine.Engine [generated in 0.00456s] {'table_name': 'data_cities', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: [generated in 0.00456s] {'table_name': 'data_cities', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:11,883 INFO sqlalchemy.engine.Engine 
CREATE TABLE data_cities (
	id SERIAL NOT NULL, 
	"City" VARCHAR, 
	"Latitude" FLOAT, 
	"Longitude" FLOAT, 
	"Temperature" FLOAT, 
	"Humidity" FLOAT, 
	"Wind" FLOAT, 
	"Rain" FLOAT, 
	PRIMARY KEY (id)
)




2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: 
CREATE TABLE data_cities (
	id SERIAL NOT NULL, 
	"City" VARCHAR, 
	"Latitude" FLOAT, 
	"Longitude" FLOAT, 
	"Temperature" FLOAT, 
	"Humidity" FLOAT, 
	"Wind" FLOAT, 
	"Rain" FLOAT, 
	PRIMARY KEY (id)
)




2024-01-21 11:41:11,887 INFO sqlalchemy.engine.Engine [no key 0.00336s] {}


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: [no key 0.00336s] {}


2024-01-21 11:41:11,944 INFO sqlalchemy.engine.Engine COMMIT


2024-01-21 11:41:11 [sqlalchemy.engine.Engine] INFO: COMMIT


In [41]:
# Insertion de notre dataframe sur les villes dans la table créée auparavant, en y ajoutant les données
dataset_cities.to_sql("data_cities", engine, if_exists="append", index=False)

2024-01-21 11:41:12,008 INFO sqlalchemy.engine.Engine BEGIN (implicit)


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: BEGIN (implicit)


2024-01-21 11:41:12,013 INFO sqlalchemy.engine.Engine SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:12,016 INFO sqlalchemy.engine.Engine [cached since 0.2283s ago] {'table_name': 'data_cities', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [cached since 0.2283s ago] {'table_name': 'data_cities', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:12,107 INFO sqlalchemy.engine.Engine INSERT INTO data_cities (id, "City", "Latitude", "Longitude", "Temperature", "Humidity", "Wind", "Rain") VALUES (%(id__0)s, %(City__0)s, %(Latitude__0)s, %(Longitude__0)s, %(Temperature__0)s, %(Humidity__0)s, %(Wind__0)s, %(Rain__0)s), (%(id__1)s, %( ... 4300 characters truncated ... atitude__34)s, %(Longitude__34)s, %(Temperature__34)s, %(Humidity__34)s, %(Wind__34)s, %(Rain__34)s)


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: INSERT INTO data_cities (id, "City", "Latitude", "Longitude", "Temperature", "Humidity", "Wind", "Rain") VALUES (%(id__0)s, %(City__0)s, %(Latitude__0)s, %(Longitude__0)s, %(Temperature__0)s, %(Humidity__0)s, %(Wind__0)s, %(Rain__0)s), (%(id__1)s, %( ... 4300 characters truncated ... atitude__34)s, %(Longitude__34)s, %(Temperature__34)s, %(Humidity__34)s, %(Wind__34)s, %(Rain__34)s)


2024-01-21 11:41:12,110 INFO sqlalchemy.engine.Engine [generated in 0.00068s (insertmanyvalues) 1/1 (unordered)] {'Temperature__0': 10.699999809265137, 'Wind__0': 8.399999618530273, 'Latitude__0': '48.6359541', 'City__0': 'Mont Saint Michel', 'Humidity__0': 87.0, 'Rain__0': 0.699999988079071, 'Longitude__0': '-1.511459954959514', 'id__0': 1, 'Temperature__1': 10.600000381469727, 'Wind__1': 9.899999618530273, 'Latitude__1': '48.649518', 'City__1': 'St Malo', 'Humidity__1': 88.0, 'Rain__1': 0.4000000059604645, 'Longitude__1': '-2.0260409', 'id__1': 2, 'Temperature__2': 10.0, 'Wind__2': 10.800000190734863, 'Latitude__2': '49.2764624', 'City__2': 'Bayeux', 'Humidity__2': 82.0, 'Rain__2': 0.30000001192092896, 'Longitude__2': '-0.7024738', 'id__2': 3, 'Temperature__3': 9.5, 'Wind__3': 11.100000381469727, 'Latitude__3': '49.4938975', 'City__3': 'Le Havre', 'Humidity__3': 88.0, 'Rain__3': 0.699999988079071, 'Longitude__3': '0.1079732', 'id__3': 4, 'Temperature__4': 10.399999618530273, 'Wind__4

2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [generated in 0.00068s (insertmanyvalues) 1/1 (unordered)] {'Temperature__0': 10.699999809265137, 'Wind__0': 8.399999618530273, 'Latitude__0': '48.6359541', 'City__0': 'Mont Saint Michel', 'Humidity__0': 87.0, 'Rain__0': 0.699999988079071, 'Longitude__0': '-1.511459954959514', 'id__0': 1, 'Temperature__1': 10.600000381469727, 'Wind__1': 9.899999618530273, 'Latitude__1': '48.649518', 'City__1': 'St Malo', 'Humidity__1': 88.0, 'Rain__1': 0.4000000059604645, 'Longitude__1': '-2.0260409', 'id__1': 2, 'Temperature__2': 10.0, 'Wind__2': 10.800000190734863, 'Latitude__2': '49.2764624', 'City__2': 'Bayeux', 'Humidity__2': 82.0, 'Rain__2': 0.30000001192092896, 'Longitude__2': '-0.7024738', 'id__2': 3, 'Temperature__3': 9.5, 'Wind__3': 11.100000381469727, 'Latitude__3': '49.4938975', 'City__3': 'Le Havre', 'Humidity__3': 88.0, 'Rain__3': 0.699999988079071, 'Longitude__3': '0.1079732', 'id__3': 4, 'Temperature__4': 10.399999618530273, 'Wind__4'

2024-01-21 11:41:12,158 INFO sqlalchemy.engine.Engine COMMIT


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: COMMIT


35

In [42]:
conn = engine.connect()

In [43]:
# conn.rollback()

In [44]:
statement = text("SELECT * FROM data_cities")
result = conn.execute(statement)
result.fetchall()

2024-01-21 11:41:12,251 INFO sqlalchemy.engine.Engine BEGIN (implicit)


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: BEGIN (implicit)


2024-01-21 11:41:12,253 INFO sqlalchemy.engine.Engine SELECT * FROM data_cities


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: SELECT * FROM data_cities


2024-01-21 11:41:12,256 INFO sqlalchemy.engine.Engine [generated in 0.00530s] {}


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [generated in 0.00530s] {}


[(1, 'Mont Saint Michel', 48.6359541, -1.511459954959514, 10.699999809265137, 87.0, 8.399999618530273, 0.699999988079071),
 (2, 'St Malo', 48.649518, -2.0260409, 10.600000381469727, 88.0, 9.899999618530273, 0.4000000059604645),
 (3, 'Bayeux', 49.2764624, -0.7024738, 10.0, 82.0, 10.800000190734863, 0.30000001192092896),
 (4, 'Le Havre', 49.4938975, 0.1079732, 9.5, 88.0, 11.100000381469727, 0.699999988079071),
 (5, 'Rouen', 49.4404591, 1.0939658, 10.399999618530273, 87.0, 8.800000190734863, 0.4000000059604645),
 (6, 'Paris', 48.8588897, 2.3200410217200766, 10.800000190734863, 76.0, 6.599999904632568, 0.6000000238418579),
 (7, 'Amiens', 49.8941708, 2.2956951, 9.100000381469727, 82.0, 9.600000381469727, 0.8999999761581421),
 (8, 'Lille', 50.6365654, 3.0635282, 7.599999904632568, 77.0, 10.300000190734863, 0.4000000059604645),
 (9, 'Strasbourg', 48.584614, 7.7507127, 7.699999809265137, 76.0, 5.800000190734863, 0.4000000059604645),
 (10, 'Chateau du Haut Koenigsbourg', 48.2495226, 7.3454923, 

In [None]:
dataset_hotels = dataset_hotels.drop("gps", axis=1)

In [46]:
# création d'une deuxième table qui va accueillir les données concernant hotels

class User(Base):
    __tablename__ = "data_hotels"
    __table_args__ = {'extend_existing': True}

    # chaque paramètre correspond à une colonne dans la table, avec le format de la donnée
    id = Column(Integer, primary_key=True) # permettra de faire la jointure avec la table cities
    Name = Column(String)
    Rating = Column(Float)
    Url = Column(String)
    Comment = Column(String)
    Latitude = Column(Float)
    Longitude = Column(Float)

    def __repr__(self):
        return "<User(Name='{}', Rating='{}', Url='{}', Comment='{}', Latitude='{}', Longitude='{}')>".format(self.Name, self.Rating, self.Url, self.Comment, self.Latitude, self.Longitude)


This declarative base already contains a class with the same class name and module name as __main__.User, and will be replaced in the string-lookup table.




In [47]:
# Insertion de notre dataframe sur les hôtels dans la table créée auparavant, en y ajoutant les données
dataset_hotels.to_sql("data_hotels", engine, if_exists="append", index=False)

2024-01-21 11:41:12,773 INFO sqlalchemy.engine.Engine BEGIN (implicit)


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: BEGIN (implicit)


2024-01-21 11:41:12,787 INFO sqlalchemy.engine.Engine SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s


2024-01-21 11:41:12,796 INFO sqlalchemy.engine.Engine [cached since 1.008s ago] {'table_name': 'data_hotels', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [cached since 1.008s ago] {'table_name': 'data_hotels', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}


2024-01-21 11:41:12,892 INFO sqlalchemy.engine.Engine 
CREATE TABLE data_hotels (
	id BIGINT, 
	"Name" TEXT, 
	rating FLOAT(53), 
	url TEXT, 
	"Comment" TEXT, 
	latitude FLOAT(53), 
	longitude FLOAT(53)
)




2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: 
CREATE TABLE data_hotels (
	id BIGINT, 
	"Name" TEXT, 
	rating FLOAT(53), 
	url TEXT, 
	"Comment" TEXT, 
	latitude FLOAT(53), 
	longitude FLOAT(53)
)




2024-01-21 11:41:12,894 INFO sqlalchemy.engine.Engine [no key 0.00193s] {}


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [no key 0.00193s] {}


2024-01-21 11:41:12,945 INFO sqlalchemy.engine.Engine INSERT INTO data_hotels (id, "Name", rating, url, "Comment", latitude, longitude) VALUES (%(id__0)s, %(Name__0)s, %(rating__0)s, %(url__0)s, %(Comment__0)s, %(latitude__0)s, %(longitude__0)s), (%(id__1)s, %(Name__1)s, %(rating__1)s, %(url__1)s, %(Com ... 5217 characters truncated ... )s, %(Name__49)s, %(rating__49)s, %(url__49)s, %(Comment__49)s, %(latitude__49)s, %(longitude__49)s)


2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: INSERT INTO data_hotels (id, "Name", rating, url, "Comment", latitude, longitude) VALUES (%(id__0)s, %(Name__0)s, %(rating__0)s, %(url__0)s, %(Comment__0)s, %(latitude__0)s, %(longitude__0)s), (%(id__1)s, %(Name__1)s, %(rating__1)s, %(url__1)s, %(Com ... 5217 characters truncated ... )s, %(Name__49)s, %(rating__49)s, %(url__49)s, %(Comment__49)s, %(latitude__49)s, %(longitude__49)s)


2024-01-21 11:41:12,947 INFO sqlalchemy.engine.Engine [generated in 0.00034s (insertmanyvalues) 1/1 (unordered)] {'url__0': 'https://www.booking.com/hotel/fr/residence-des-bastides.fr.html', 'rating__0': 8.5, 'latitude__0': 43.759574, 'Comment__0': "Situé à Gréoux-les-Bains, à moins de 23 km du golf du Luberon, Le bohème chic! Il offre une vue sur le jardin. Cet établissement non-fumeurs se trouv ... (233 characters truncated) ... ent dispose également d'un balcon qui fait office de coin repas extérieur.\n\nL'aéroport de Marseille-Provence, le plus proche, est implanté à 91 km.", 'id__0': 18, 'longitude__0': 5.894692, 'Name__0': 'Le bohème chic !', 'url__1': 'https://www.booking.com/hotel/fr/studio-st-victor-castellane.fr.html', 'rating__1': 8.5, 'latitude__1': 43.84749987, 'Comment__1': "Le Studio Centre ville Castellane est situé à Castellane. Cet établissement non-fumeurs se trouve à 19 km du parcours de golf du château de Taulane.\ ... (216 characters truncated) ... inge de lit son

2024-01-21 11:41:12 [sqlalchemy.engine.Engine] INFO: [generated in 0.00034s (insertmanyvalues) 1/1 (unordered)] {'url__0': 'https://www.booking.com/hotel/fr/residence-des-bastides.fr.html', 'rating__0': 8.5, 'latitude__0': 43.759574, 'Comment__0': "Situé à Gréoux-les-Bains, à moins de 23 km du golf du Luberon, Le bohème chic! Il offre une vue sur le jardin. Cet établissement non-fumeurs se trouv ... (233 characters truncated) ... ent dispose également d'un balcon qui fait office de coin repas extérieur.\n\nL'aéroport de Marseille-Provence, le plus proche, est implanté à 91 km.", 'id__0': 18, 'longitude__0': 5.894692, 'Name__0': 'Le bohème chic !', 'url__1': 'https://www.booking.com/hotel/fr/studio-st-victor-castellane.fr.html', 'rating__1': 8.5, 'latitude__1': 43.84749987, 'Comment__1': "Le Studio Centre ville Castellane est situé à Castellane. Cet établissement non-fumeurs se trouve à 19 km du parcours de golf du château de Taulane.\ ... (216 characters truncated) ... inge de lit sont

2024-01-21 11:41:13,090 INFO sqlalchemy.engine.Engine COMMIT


2024-01-21 11:41:13 [sqlalchemy.engine.Engine] INFO: COMMIT


50

In [48]:
statement = text("SELECT * FROM data_hotels")
result = conn.execute(statement)
result.fetchall()

2024-01-21 11:41:13,187 INFO sqlalchemy.engine.Engine SELECT * FROM data_hotels


2024-01-21 11:41:13 [sqlalchemy.engine.Engine] INFO: SELECT * FROM data_hotels


2024-01-21 11:41:13,192 INFO sqlalchemy.engine.Engine [generated in 0.00421s] {}


2024-01-21 11:41:13 [sqlalchemy.engine.Engine] INFO: [generated in 0.00421s] {}


[(18, 'Le bohème chic !', 8.5, 'https://www.booking.com/hotel/fr/residence-des-bastides.fr.html', "Situé à Gréoux-les-Bains, à moins de 23 km du golf du Luberon, Le bohème chic! Il offre une vue sur le jardin. Cet établissement non-fumeurs se trouv ... (233 characters truncated) ... ent dispose également d'un balcon qui fait office de coin repas extérieur.\n\nL'aéroport de Marseille-Provence, le plus proche, est implanté à 91 km.", 43.759574, 5.894692),
 (18, 'Studio Centre ville Castellane', 8.5, 'https://www.booking.com/hotel/fr/studio-st-victor-castellane.fr.html', "Le Studio Centre ville Castellane est situé à Castellane. Cet établissement non-fumeurs se trouve à 19 km du parcours de golf du château de Taulane.\ ... (216 characters truncated) ... inge de lit sont fournis. L'établissement offre une vue paisible sur la rue.\n\nL'aéroport de Nice-Côte d'Azur, le plus proche, est implanté à 84 km.", 43.84749987, 6.51235218),
 (18, 'La Loge du château ! "climatisé"', 8.6, 'https://www.b

#### PART 5. Pour aller plus loin

Avec plus de temps, nous aurions souhaiter notamment :
- mieux documenter les fonctions (descriptif des variables, objectif de la fonction)
- nettoyer les données scrapées du site booking.com, et les présenter sous un format plus adaptées
- filtrer le nombre d'hôtels renvoyés afin d'en limiter le nombre, à partir d'un ou plusieurs critères (par ex top 5 rating ou prix)
- approfondir le travail concernant la création de base de données avec RDS
- créer un dashboard avec streamlit par exemple afin de présenter l'ensemble du travail