In [2]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import os
import plotly.express as px
import plotly.io as pio
pio.renderers.default = "notebook"

import boto3
from sqlalchemy import create_engine, text

# Infos Villes

In [12]:
selected_cities = ["Mont Saint Michel", "St Malo", "Bayeux", "Le Havre", "Rouen", "Paris", "Amiens", "Lille", "Strasbourg", "Chateau du Haut Koenigsbourg", "Colmar", "Eguisheim", "Besancon", "Dijon", "Annecy", "Grenoble", "Lyon", "Aups", "Bormes les Mimosas", "Cassis", "Marseille", "Aix en Provence", "Avignon", "Uzes", "Nimes", "Aigues Mortes", "Saintes Maries de la mer", "Collioure", "Carcassonne", "Foix", "Toulouse", "Montauban", "Biarritz", "Bayonne", "La Rochelle"]


On récupère les coordonnées des villes depuis d'Openstreetmap

In [3]:
coord_cities_list = {}
cities_infos_list = []

for city in selected_cities:
    url = f'https://nominatim.openstreetmap.org/search?q={city}&format=json'
    data = requests.get(url).json()
    lon = float(data[0]['lon'])
    lat = float(data[0]['lat'])
    coord_cities_list[city.lower()] = {'lon': '%.2f' % lon, 'lat': '%.2f' % lat}
    
    cities_infos_list.append({
        'city': city,
        'longitude': '%.2f' % lon,
        'latitude': '%.2f' % lat,
    })

# On convertit la liste en DataFrame
cities_infos = pd.DataFrame(cities_infos_list)


In [4]:
cities_infos.sample(5)

Unnamed: 0,city,longitude,latitude
18,Bormes les Mimosas,6.34,43.15
23,Uzes,4.42,44.01
27,Collioure,3.08,42.53
7,Lille,3.06,50.64
19,Cassis,5.54,43.21


In [5]:
# On sauvegarde le fichier des coordonées des villes

cities_infos.to_csv('files/cities_infos.csv', index=False)

# Données Météo

In [45]:
# Chargement de l'API key et définition de l'URL de l'API
api_key = os.environ.get('api_key')
cities_infos = pd.read_csv('files/cities_infos.csv')
url_weather = "https://api.openweathermap.org/data/3.0/onecall?lat={}&lon={}&exclude=current,minutely,hourly&units=metric&appid={}"


# fonction pour récupérer les données météo d'une ville spécifique
def fetch_weather_data(city, lat, lon):
    
    response = requests.get(url_weather.format(lat, lon, api_key))
    data = response.json()['daily']

    # Extraction des données de température, météo, couverture nuageuse et pluie
    temperatures = [day['temp']['day'] for day in data]
    weather = [day['weather'][0]['main'] for day in data]
    cloudiness = [day['clouds'] for day in data]
    predicted_rain = sum(day.get('pop', 0) * day.get('rain', 0) for day in data)

 

    # Retour des données pour la ville courante
    return {
        'cities': city,
        'latitude': lat,
        'longitude': lon,
        'main_weather_7days': pd.Series(weather).mode()[0],
        'rain_amount_7days': int(predicted_rain),
        'temp_7days': int(pd.Series(temperatures).mean()),
        'clouds_7days': int(pd.Series(cloudiness).mean())
    }

# Appel fonction fetch_weather_data à chaque ligne du dataframe cities_infos
weather_data = pd.DataFrame(
    fetch_weather_data(row['city'], row['latitude'], row['longitude']) 
    for _, row in cities_infos.iterrows()
)

# Calcul de la qualité météo en se basant sur les températures, la couverture nuageuse et la pluie
weather_data['quality'] = round((weather_data['temp_7days']*2) - (weather_data['clouds_7days']/4) - (weather_data['rain_amount_7days']*2), 2)

# Tri des données météo par qualité décroissante
weather_data = weather_data.sort_values(by=['quality'], ascending=False).reset_index(drop=True)

# Affichage des données météo
display(weather_data)


Unnamed: 0,cities,latitude,longitude,main_weather_7days,rain_amount_7days,temp_7days,clouds_7days,quality
0,Bormes les Mimosas,43.15,6.34,Clear,0,28,19,51.25
1,Aups,43.63,6.23,Clouds,1,29,23,50.25
2,Cassis,43.21,5.54,Clear,2,27,19,45.25
3,Marseille,43.3,5.37,Clear,3,27,20,43.0
4,Nimes,43.84,4.36,Clear,5,30,38,40.5
5,Aix en Provence,43.53,5.45,Clear,6,29,26,39.5
6,Collioure,42.53,3.08,Rain,5,27,29,36.75
7,Avignon,43.95,4.81,Clear,8,30,37,34.75
8,Aigues Mortes,43.57,4.19,Clouds,6,27,36,33.0
9,Uzes,44.01,4.42,Clear,9,30,36,33.0


In [46]:
# On sauvegarde les données meteorologiques des villes

weather_data.to_csv('files/cities_weather_data.csv', index=False)

# Infos Hotels

In [150]:

weather_data = pd.read_csv('files/cities_weather_data.csv')

# Initialiser l'agent utilisateur pour les requêtes
agent = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}

# Construire les URL de recherche pour chaque ville du dataset météo
search_urls = ['https://www.booking.com/searchresults.fr.html?ss='+city+'&nflt=review_score%3D60' for city in weather_data['cities']]

# Récupérer les URL des hôtels (25 premiers sur la page de recherche de Booking) pour chaque URL de recherche
hotels_urls = []
for url in search_urls:
    page = requests.get(url, headers=agent)
    soup = BeautifulSoup(page.content, "html.parser")
    hotels_urls += [a['href'].split('?')[0] for a in soup.find_all('a',{"class": "e13098a59f"}, href=True)]

# Classe pour scraper les informations des hôtels
class BookingHotelInfo:
    def __init__(self):
        self.hotel_list = []
        self.hotel_data = {"name": "Empty", "address": "Empty", "description": "Empty",
                           "score": "Empty", "url": "Empty", "bonus": "Empty", "latlon": "Empty"}

    def get_hotel_data(self, url):
        session_object = requests.Session()
        page = session_object.get(url, headers=agent)
        soup = BeautifulSoup(page.content, "lxml")

        # Extraire les informations de l'hôtel
        for attribute, selector in zip(["name", "address", "description", "score", "bonus", "latlon"],
                                       ["h2.pp-header__title", "span.hp_address_subtitle", "div.hp_desc_main_content",
                                        "a.hp_review_score", "div.hp_desc_important_facilities", "a.show_map"]):
            try:
                self.hotel_data[attribute] = soup.select_one(selector).text.strip() if attribute != "latlon" else soup.select_one(selector).get('data-atlas-latlng')
            except:
                pass

        self.hotel_data["url"] = url
        self.hotel_list.append(self.hotel_data)

# Récupérer les données des hôtels pour chaque URL d'hôtel
hotels_list = []
for url in hotels_urls:
    hotel = BookingHotelInfo()
    hotel.get_hotel_data(url)
    hotels_list.append(hotel.hotel_list[:])

# Créer un nouveau dataframe avec les informations des hôtels
booking_data = weather_data.copy()
booking_data = booking_data.loc[weather_data.index.repeat(25)]
booking_data = booking_data.drop(['latitude','longitude','main_weather_7days','rain_amount_7days','temp_7days','clouds_7days','quality'],axis=1)
booking_data['raw_data'] = hotels_list

booking_data['raw_data'] = booking_data['raw_data'].apply(pd.Series)
hotel_data = booking_data.raw_data.apply(pd.Series)
booking_data = pd.concat([booking_data, hotel_data],axis=1).drop('raw_data', axis=1).reset_index()

# Nettoyage des données textuelles
for col, pattern, replacement in zip(["description", "score", "bonus"],
                                     ["\n", "\xa0", "\n"],
                                     ["", "", " "]):
    booking_data[col] = booking_data[col].str.replace(pattern, replacement)

# Extraire la latitude et la longitude à partir des coordonnées et supprimer la colonne 'latlon'
booking_data[['latitude', 'longitude']] = booking_data['latlon'].str.split(',', expand=True)
booking_data = booking_data.drop('latlon',axis=1)

# Convertir les types de données
booking_data[['latitude','longitude']] = booking_data[['latitude','longitude']].astype(float)

# On va utiliser une expression régulière pour extraire le score
booking_data['score'] = booking_data['score'].str.extract('(\d+[\.,]?\d*)', expand=False).str.replace(',', '.').astype(float)


In [184]:
# On sauvegarde les données sur les differents hotels

booking_data.to_csv('files/booking_data.csv', index=False)

In [185]:
booking_data.sample(5)

Unnamed: 0,index,cities,name,address,description,score,url,bonus,latitude,longitude
329,13,Saintes Maries de la mer,Thalacap Camargue,"Avenue du Dr Cambon, 13460 Les Saintes-Maries-...",Le Thalacap Camargue est situé en face de la p...,7.7,https://www.booking.com/hotel/fr/thalacap-cama...,Empty,43.453491,4.435451
71,2,Cassis,"AQUARIUS IN CASSIS, Chambres d'Hôtes","22 Impasse des Brayes, 13260 Cassis, France","Situé à Cassis, à 1,2 km de Bestouan, l'AQUARI...",9.4,https://www.booking.com/hotel/fr/aquarius-in-c...,Empty,43.222355,5.534539
263,10,Carcassonne,Hôtel Montmorency & Spa,"2 Rue Camille Saint Saens, 11000 Carcassonne, ...",Vous pouvez bénéficier d'une réduction Genius ...,8.3,https://www.booking.com/hotel/fr/montmorency.f...,Empty,43.207066,2.367087
776,31,Strasbourg,très joli T2 tout neuf en ville avec parking,"appartement numéro 4 23 Rue Vauban, 67000 Stra...",Le très joli T2 tout neuf en ville avec parkin...,6.0,https://www.booking.com/hotel/fr/tres-joli-t2-...,Empty,48.580934,7.773012
804,32,Rouen,Hôtel Céline - Hôtel de la Gare,"26 rue De Campulley, 76000 Rouen, France",L'Hôtel Céline - Hôtel de la Gare se trouve da...,8.0,https://www.booking.com/hotel/fr/hotel-celine....,Empty,49.449034,1.090211


# Stockage avec AWS S3

In [3]:
# On cree un bucket s3 Amazon

ACCESS_KEY_ID = os.environ.get('aws_access_key_id')
SECRET_ACCESS_KEY = os.environ.get('aws_secret_access_key')

bucketname = 'galus-fotso-files'

In [7]:
session = boto3.Session(
    aws_access_key_id= ACCESS_KEY_ID,
    aws_secret_access_key= SECRET_ACCESS_KEY
)

s3 = session.client("s3")

bucket = s3.create_bucket(Bucket=bucketname, ACL='public-read-write', CreateBucketConfiguration={'LocationConstraint': 'eu-west-3'})


In [10]:
# Chargement des fichiers

s3.Bucket(bucketname).upload_file('files/booking_data.csv','booking_data.csv')
s3.Bucket(bucketname).upload_file('files/cities_weather_data.csv','cities_weather_data.csv')

In [11]:
# Telechargement d'un dataset pour tester le upload

booking_data = pd.read_csv(f"https://{bucketname}.s3.eu-west-3.amazonaws.com/booking_data.csv")
booking_data.head()

Unnamed: 0,index,cities,name,address,description,score,url,bonus,latitude,longitude
0,0,Bormes les Mimosas,Hôtel Paradis,"62 Impasse du Castellan, 83230 Bormes-les-Mimo...",L'hôtel Paradis occupe un bâtiment datant de 1...,8.2,https://www.booking.com/hotel/fr/paradis.fr.html,Empty,43.144686,6.335125
1,0,Bormes les Mimosas,Hotel La Voile,"165 Avenue Des Girelles - La Favière, 83230 Bo...",L'Hotel La Voile est idéalement situé à seulem...,7.6,https://www.booking.com/hotel/fr/hotel-la-voil...,Empty,43.12549,6.3573
2,0,Bormes les Mimosas,Hotel Restaurant Bellevue,"14 place Gambetta, 83230 Bormes-les-Mimosas, F...",Situé dans le centre-ville de Bormes-les-Mimos...,7.6,https://www.booking.com/hotel/fr/restaurant-be...,Empty,43.151878,6.343136
3,0,Bormes les Mimosas,"Bormes les Mimosas, à 5 min des plages - comme...",Côte d'Azur IV appartement 69 169 Avenue de la...,"Situé à Bormes-les-Mimosas, à 700 mètres de la...",9.0,https://www.booking.com/hotel/fr/bormes-les-mi...,Empty,43.123145,6.352572
4,0,Bormes les Mimosas,"Studio avec Clim, Parking et Balcon - 3 personnes",immeuble 9 - Bâtiment COTE D'AZUR 280 Avenue d...,"Le Studio avec Clim, Parking et Balcon - 3 per...",7.0,https://www.booking.com/hotel/fr/studio-avec-c...,Empty,43.12315,6.353336


Sauvegarde du fichier dans une database RDS

In [12]:
login = open("login.txt", "r").readlines()

In [16]:
# Configuration de RDS

filename = "booking_data.csv"

s3.download_file(bucketname, filename, filename)

data = pd.read_csv(filename)

# Connexion à la base de données MySQL

# engine = create_engine(f"mysql+pymysql://{DBUSER}:{DBPASS}@{DBHOST}:{PORT}/{DBNAME}")
engine = create_engine(f"mysql+pymysql://{login[0].strip()}:{login[1].strip()}@{login[2].strip()}:{login[3].strip()}/{login[4].strip()}")

# Stocker les données dans la base de données
data.to_sql('booking_data', con=engine, index=False, if_exists='replace')

os.remove(filename)



In [17]:
engine

Engine(mysql+pymysql://admin:***@db-jed-project.caguutf4lyyc.eu-west-3.rds.amazonaws.com:3306/dbproject)

In [14]:
weather_data = pd.read_csv('files/cities_weather_data.csv')

In [18]:
# stocker les données météo et de réservation sous forme de tables SQL

weather_data.to_sql('weather', con=engine, if_exists='replace', index=False)
booking_data.to_sql('booking', con=engine, if_exists='replace', index=False)

875

In [19]:
# Obtenir des données météorologiques à partir d'une table SQL

weather_query = text("SELECT * FROM weather WHERE quality > 10 ORDER BY quality DESC LIMIT 5")
weather_selection = pd.read_sql(weather_query, engine)
weather_selection.head()

Unnamed: 0,cities,latitude,longitude,main_weather_7days,rain_amount_7days,temp_7days,clouds_7days,quality
0,Bormes les Mimosas,43.15,6.34,Clear,0,28,19,51.25
1,Aups,43.63,6.23,Clouds,1,29,23,50.25
2,Cassis,43.21,5.54,Clear,2,27,19,45.25
3,Marseille,43.3,5.37,Clear,3,27,20,43.0
4,Nimes,43.84,4.36,Clear,5,30,38,40.5


In [20]:
# choisir les hôtels dont nous avons besoin en fonction de la météo

hotel_query = text("SELECT * FROM booking WHERE cities in ('Bormes les Mimosas','Aups','Cassis','Marseille','Nimes')")
hotel_selection = pd.read_sql(hotel_query, engine)
hotel_selection.head()

Unnamed: 0,index,cities,name,address,description,score,url,bonus,latitude,longitude
0,0,Bormes les Mimosas,Hôtel Paradis,"62 Impasse du Castellan, 83230 Bormes-les-Mimo...",L'hôtel Paradis occupe un bâtiment datant de 1...,8.2,https://www.booking.com/hotel/fr/paradis.fr.html,Empty,43.144686,6.335125
1,0,Bormes les Mimosas,Hotel La Voile,"165 Avenue Des Girelles - La Favière, 83230 Bo...",L'Hotel La Voile est idéalement situé à seulem...,7.6,https://www.booking.com/hotel/fr/hotel-la-voil...,Empty,43.12549,6.3573
2,0,Bormes les Mimosas,Hotel Restaurant Bellevue,"14 place Gambetta, 83230 Bormes-les-Mimosas, F...",Situé dans le centre-ville de Bormes-les-Mimos...,7.6,https://www.booking.com/hotel/fr/restaurant-be...,Empty,43.151878,6.343136
3,0,Bormes les Mimosas,"Bormes les Mimosas, à 5 min des plages - comme...",Côte d'Azur IV appartement 69 169 Avenue de la...,"Situé à Bormes-les-Mimosas, à 700 mètres de la...",9.0,https://www.booking.com/hotel/fr/bormes-les-mi...,Empty,43.123145,6.352572
4,0,Bormes les Mimosas,"Studio avec Clim, Parking et Balcon - 3 personnes",immeuble 9 - Bâtiment COTE D'AZUR 280 Avenue d...,"Le Studio avec Clim, Parking et Balcon - 3 per...",7.0,https://www.booking.com/hotel/fr/studio-avec-c...,Empty,43.12315,6.353336


# Représentation Graphique

In [23]:
fig = px.scatter_mapbox(hotel_selection, lat="latitude", lon="longitude", hover_name = 'name', zoom = 8,
                        hover_data={
        'latitude': False,
        'longitude': False,
        'score': True,
        'cities': True,
        'bonus': True,
        'description': False,
        'address' : False,
        'url' : False,
        'bonus' : False
        }, 
                        color = 'score', color_continuous_scale = px.colors.sequential.Jet, size='score',
                        mapbox_style="carto-positron", width = 1200, height = 800,
                        title='Hôtels les mieux notés dans les villes avec le meilleur temps au cours des 7 prochains jours')
fig.show()

In [22]:
fig = px.scatter_mapbox(weather_selection, lat="latitude", lon="longitude", hover_name = 'cities', zoom = 4.5,
                        hover_data={
        'latitude': False,
        'longitude': False,
        'quality': True,
        'temp_7days': True,
        'rain_amount_7days': True,
        'main_weather_7days': True
        }, 
                        color = 'temp_7days', color_continuous_scale = px.colors.sequential.Rainbow, size='quality',
                        mapbox_style="carto-positron",width = 1200, height = 800,
                        title='Villes avec le meilleur temps en France au cours des 7 prochains jours')
fig.show()

On peut aller plus loin en proposant aux utilsateurs, les avis sur les hotels, les itineraires suggérés, alerte des prix quand ca chute, les activités attractives dans chaque ville.