
# Plan your trip with Kayak 

## Company's description üìá

<a href="https://www.kayak.com" target="_blank">Kayak</a> is a travel search engine that helps user plan their next trip at the best price.

The company was founded in 2004 by Steve Hafner & Paul M. English. After a few rounds of fundraising, Kayak was acquired by <a href="https://www.bookingholdings.com/" target="_blank">Booking Holdings</a> which now holds: 

* <a href="https://booking.com/" target="_blank">Booking.com</a>
* <a href="https://kayak.com/" target="_blank">Kayak</a>
* <a href="https://www.priceline.com/" target="_blank">Priceline</a>
* <a href="https://www.agoda.com/" target="_blank">Agoda</a>
* <a href="https://Rentalcars.com/" target="_blank">RentalCars</a>
* <a href="https://www.opentable.com/" target="_blank">OpenTable</a>

With over \$300 million revenue a year, Kayak operates in almost all countries and all languages to help their users book travels accros the globe. 

## Project üöß

The marketing team needs help on a new project. After doing some user research, the team discovered that **70% of their users who are planning a trip would like to have more information about the destination they are going to**. 

In addition, user research shows that **people tend to be defiant about the information they are reading if they don't know the brand** which produced the content. 

Therefore, Kayak Marketing Team would like to create an application that will recommend where people should plan their next holidays. The application should be based on real data about:

* Weather 
* Hotels in the area 

The application should then be able to recommend the best destinations and hotels based on the above variables at any given time. 

## Goals üéØ

As the project has just started, your team doesn't have any data that can be used to create this application. Therefore, your job will be to: 

* Scrape data from destinations 
* Get weather data from each destination 
* Get hotels' info about each destination
* Store all the information above in a data lake
* Extract, transform and load cleaned data from your datalake to a data warehouse

## Scope of this project üñºÔ∏è

Marketing team wants to focus first on the best cities to travel to in France. According <a href="https://one-week-in.com/35-cities-to-visit-in-france/" target="_blank">One Week In.com</a> here are the top-35 cities to visit in France: 

```python 
["Mont Saint Michel",
"St Malo",
"Bayeux",
"Le Havre",
"Rouen",
"Paris",
"Amiens",
"Lille",
"Strasbourg",
"Chateau du Haut Koenigsbourg",
"Colmar",
"Eguisheim",
"Besancon",
"Dijon",
"Annecy",
"Grenoble",
"Lyon",
"Gorges du Verdon",
"Bormes les Mimosas",
"Cassis",
"Marseille",
"Aix en Provence",
"Avignon",
"Uzes",
"Nimes",
"Aigues Mortes",
"Saintes Maries de la mer",
"Collioure",
"Carcassonne",
"Ariege",
"Toulouse",
"Montauban",
"Biarritz",
"Bayonne",
"La Rochelle"]
```

Your team should focus **only on the above cities for your project**. 


## Helpers ü¶Æ

To help you achieve this project, here are a few tips that should help you

### Get weather data with an API 

*   Use https://nominatim.org/ to get the gps coordinates of all the cities (no subscription required) Documentation : https://nominatim.org/release-docs/develop/api/Search/

*   Use https://openweathermap.org/appid (you have to subscribe to get a free apikey) and https://openweathermap.org/api/one-call-api to get some information about the weather for the 35 cities and put it in a DataFrame

*   Determine the list of cities where the weather will be the nicest within the next 7 days For example, you can use the values of daily.pop and daily.rain to compute the expected volume of rain within the next 7 days... But it's only an example, actually you can have different opinions on a what a nice weather would be like üòé Maybe the most important criterion for you is the temperature or humidity, so feel free to change the rules !

*   Save all the results in a `.csv` file, you will use it later üòâ You can save all the informations that seem important to you ! Don't forget to save the name of the cities, and also to create a column containing a unique identifier (id) of each city (this is important for what's next in the project)

*   Use plotly to display the best destinations on a map

### Scrape Booking.com 

Since BookingHoldings doesn't have aggregated databases, it will be much faster to scrape data directly from booking.com 

You can scrap as many information asyou want, but we suggest that you get at least:

*   hotel name,
*   Url to its booking.com page,
*   Its coordinates: latitude and longitude
*   Score given by the website users
*   Text description of the hotel


### Create your data lake using S3 

Once you managed to build your dataset, you should store into S3 as a csv file. 

### ETL 

Once you uploaded your data onto S3, it will be better for the next data analysis team to extract clean data directly from a Data Warehouse. Therefore, create a SQL Database using AWS RDS, extract your data from S3 and store it in your newly created DB. 

## Deliverable üì¨

To complete this project, your team should deliver:

* A `.csv` file in an S3 bucket containing enriched information about weather and hotels for each french city

* A SQL Database where we should be able to get the same cleaned data from S3 

* Two maps where you should have a Top-5 destinations and a Top-20 hotels in the area. You can use plotly or any other library to do so. It should look something like this: 

![Map](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/Kayak_best_destination_project.png)

----------------------------------------------------------------------------------------------------------------------------------------------------

## LIBRAIRIES

---

In [1]:
#import librairies

#API AND SCRAPPING
import requests
import scrapy
from scrapy.crawler import CrawlerProcess
from bs4 import BeautifulSoup
import json
import re
import logging

#DATA MANIPULATION
import pandas as pd
import numpy as np
import time
import datetime

#VISUALISATION
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio
import folium
from folium import plugins

#STORAGE
from dotenv import load_dotenv
import os
import boto3
from sqlalchemy import create_engine, text
from sqlalchemy.exc import OperationalError


---

## OBTENTION DES COORDONNES GPS

---

Premi√®re √©tape, obtenir les coodonn√©es GPS des villes qui nous int√©resse (via nominatim.org). Cela nous permettra de les places sur notre carte finale mais aussi d'obtenir la m√©t√©o locale.
Concernant la liste, certains endroits ne sont pas des villes √† proprement parler, mais nous verrons !

In [46]:
# Liste des villes √† visiter 
cities_list= [
"Mont Saint Michel",
"St Malo",
"Bayeux",
"Le Havre",
"Rouen",
"Paris",
"Amiens",
"Lille",
"Strasbourg",
"Chateau du Haut Koenigsbourg", # lieu touristique
"Colmar",
"Eguisheim",
"Besancon",
"Dijon",
"Annecy",
"Grenoble",
"Lyon",
"Gorges du Verdon", #zone touristique
"Bormes les Mimosas",
"Cassis",
"Marseille",
"Aix en Provence",
"Avignon",
"Uzes",
"Nimes",
"Aigues Mortes",
"Saintes Maries de la mer",
"Collioure",
"Carcassonne",
"Ariege", # d√©partement 
"Toulouse",
"Montauban",
"Biarritz",
"Bayonne",
"La Rochelle"
]

Cr√©eons une fonction pour r√©cup√©rer les coordonn√©es GPS pour la liste ci-dessus (avec un petit d√©lais pour ne pas surcharger l'API) et les stocker dans un Dataframe

In [None]:
# import des coordonn√©es GPS de la liste des villes
def get_coordinates(cities_list: list[str], delay: float = 0.5) -> pd.DataFrame:
    """
    R√©cup√®re les coordonn√©es GPS pour une liste de villes.
    
    Args:
        cities_list (list[str]): Liste des noms de villes.
        delay (float): Temps d'attente entre deux requ√™tes (en secondes).
    
    Returns:
        pd.DataFrame: DataFrame contenant les coordonn√©es GPS.
    """
    url = "https://nominatim.openstreetmap.org/search"
    headers = {"User-Agent": "UniversityProject/1.0 (contact@example.com)"}
    results = []

    for city in cities_list:
        try:
            response = requests.get(
                url,
                params={"city": city, "format": "json"},
                headers=headers
            )
            response.raise_for_status()
            data = response.json()

            if data:
                results.append({
                    "City": city,
                    "Latitude": data[0].get("lat"),
                    "Longitude": data[0].get("lon")
                })
            else:
                print(f"Aucune donn√©e trouv√©e pour {city}")
        except requests.RequestException as e:
            print(f"Erreur pour {city}: {e}")

        time.sleep(delay)  # Respecter les limites de l'API

    return pd.DataFrame(results)


coordinates_df = get_coordinates(cities_list)

print(coordinates_df)


Les coordonn√©es du Chateau du Haut-Koenigsbourg et des Gorges du Verdon semblent coh√©rentes (elle le sont apr√®s v√©rifiction)..par contre la longitude -55.xx sur l'ari√®ge pas du tout. V√©rifions sur une carte


In [None]:
# Coordonn√©es GPS de la France
latitude = 46.603354
longitude = 1.888334

# Cr√©ation de la carte
map_france = folium.Map(location=[latitude, longitude], zoom_start=6)

# Ajout du marqueur pour la ville "ari√®ge" (en rouge)
for _, row in coordinates_df.iterrows():
    if row["City"] == "Ariege":
        folium.Marker(
            location=[row["Latitude"], row["Longitude"]],
            popup=row["City"],
            icon=folium.Icon(color="red")
        ).add_to(map_france)

# Affichage de la carte
map_france.save("map_france.html") # il faudra effectivement d√©zoomer pour voir le marque rouge
map_france


Rempla√ßons "Ariege" par la pr√©f√©cture du d√©partement : "Foix"

In [None]:
# Supprimer "Ari√®ge"
cities_list.remove("Ariege")
# .. et ajouter "Foix"
cities_list.append("Foix")

In [None]:
# coordonn√©es d√©finitive des villes
coordinates_df = get_coordinates(cities_list)
print(coordinates_df)
coordinates_df.to_csv("src/coordonnees_villes.csv", index=False)

---

# OBTENTION DES INFOS METEOS PAR VILLE

---

## R√©cup√©ration des donn√©es m√©t√©orologiques via OpenWeatherMap API

L'API gratuite d'OpenWeatherMap utilis√©e dans ce projet pr√©sente certaines limitations :
- Fournit uniquement des pr√©visions (pas d'historique)
- Donn√©es par tranches de 3 heures (00:00, 03:00, 06:00, 09:00, 12:00, 15:00, 18:00, 21:00.)
- Pr√©visions sur 5 jours

Pour assurer la coh√©rence des donn√©es :
- S√©lection d'un cr√©neau horaire fixe (16h) pour toutes les villes
- Exclusion des temp√©ratures min/max qui ne sont pertinentes que sur 3h
- Focus sur : temp√©rature moyenne, humidit√©, vitesse du vent et pr√©cipitations

Note : Les pr√©cipitations indiqu√©es correspondent aux pr√©visions sur 3h autour du cr√©neau choisi.

In [None]:
# Charger les variables d'environnement
load_dotenv('.secrets')
API_KEY = os.getenv("OPENWEATHER_API_KEY")

# Charger le DataFrame
df = pd.read_csv('src/coordonnees_villes.csv')

# Fonction pour r√©cup√©rer les donn√©es m√©t√©o

def get_weather(lat, lon):
    url = f"https://api.openweathermap.org/data/2.5/forecast?lat={lat}&lon={lon}&units=metric&appid={API_KEY}"
    try:
        response = requests.get(url)
        response.raise_for_status()
        data = response.json()
        
        weather_data = []
        if 'list' in data:
            for forecast in data['list']:
                if "15:00:00" in forecast['dt_txt']:
                    weather_data.append({
                        'day': len(weather_data) + 1,
                        'temperature': forecast['main']['temp'],
                        'humidity': forecast['main']['humidity'],
                        'wind_speed': forecast['wind']['speed'],
                        'precipitation': forecast.get('rain', {}).get('3h', 0)
                    })
        return weather_data
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors de la r√©cup√©ration des donn√©es m√©t√©o: {e}")
        return None

# Ajouter les colonnes m√©t√©o au DataFrame
for i in range(1, 6):
    df[f'Temperature_Jour_{i}'] = None
    df[f'Humidite_Jour_{i}'] = None
    df[f'Vitesse_Vent_Jour_{i}'] = None
    df[f'Precipitation_Jour_{i}'] = None

for index, row in df.iterrows():
    print(f"R√©cup√©ration donn√©es pour {row['City']}")
    weather_data = get_weather(row['Latitude'], row['Longitude'])
    print(f"Donn√©es re√ßues : {weather_data}")
    if weather_data:
        for day_data in weather_data:
            print(f"Jour {day_data['day']}: {day_data}")
            day = day_data['day']
            df.at[row.name, f'Temperature_Jour_{day}'] = day_data['temperature']
            df.at[row.name, f'Humidite_Jour_{day}'] = day_data['humidity']
            df.at[row.name, f'Vitesse_Vent_Jour_{day}'] = day_data['wind_speed']
            df.at[row.name, f'Precipitation_Jour_{day}'] = day_data['precipitation']

# Enregistrer le DataFrame mis √† jour dans un fichier CSV
df.to_csv('src/previsions_meteo.csv', index=False)

# infos sur les donn√©es
print(f"\nDonn√©es mises √† jour pour {df['Temperature_Jour_1'].count()} villes sur {len(df)}")

---

## SCRAPPING BOOKING.COM

---

Maintenant que nous avons les donn√©es m√©t√©os des 5 prochains jours pour nos 35 villes. R√©cup√©rons une liste d'hotel pour ces villes.

La latitude/longitude n√©cessitent une requ√™te s√©par√©e car :
- Ces donn√©es ne sont pas visibles sur la page de recherche principale
- Elles sont uniquement pr√©sentes dans le code source de la page d√©taill√©e de chaque h√¥tel
- sp√©cifiquement dans une balise <script> au format JSON

BeautifulSoup est utilis√© car :
- Il permet de cibler sp√©cifiquement les balises <script>

En r√©sum√© : deux √©tapes de scraping n√©cessaires pour obtenir toutes les donn√©es, avec BeautifulSoup comme outil optionnel mais qui permet une meilleure organisation du code.

In [None]:
# Fonction pour extraire les coordonn√©es g√©ographiques d'un h√¥tel √† partir de son URL sur Booking.com
def get_lat_lon_from_booking(url):
    response = requests.get(url) # Effectue une requ√™te HTTP pour obtenir le contenu de la page
    if response.status_code != 200:
        print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
        return None, None

    soup = BeautifulSoup(response.text, 'html.parser') # Parse le contenu HTML de la r√©ponse

    script_tags = soup.find_all('script') # Trouve tous les √©l√©ments <script> dans le document HTML
    for script in script_tags:
        if 'latitude' in script.text and 'longitude' in script.text: # Cherche les scripts contenant des donn√©es de latitude et longitude
            lat_lon_match = re.search(r'latitude":([0-9.-]+),"longitude":([0-9.-]+)', script.text) # Extrait les valeurs √† l'aide d'une expression r√©guli√®re
            if lat_lon_match:
                latitude = lat_lon_match.group(1)
                longitude = lat_lon_match.group(2)
                return latitude, longitude

    return None, None

# D√©finition d'un Spider Scrapy pour l'extraction des donn√©es des h√¥tels sur Booking.com
class BookingSpider(scrapy.Spider):
    name = 'booking'
    allowed_domains = ['booking.com']
    start_urls = [ # URLs pour les recherches initiales sur Booking.com
        'https://www.booking.com/searchresults.html?ss=Mont+Saint+Michel',
        'https://www.booking.com/searchresults.html?ss=St+Malo',
        'https://www.booking.com/searchresults.html?ss=Bayeux',
        'https://www.booking.com/searchresults.html?ss=Le+Havre',
        'https://www.booking.com/searchresults.html?ss=Rouen',
        'https://www.booking.com/searchresults.html?ss=Paris',
        'https://www.booking.com/searchresults.html?ss=Amiens',
        'https://www.booking.com/searchresults.html?ss=Lille',
        'https://www.booking.com/searchresults.html?ss=Strasbourg',
        'https://www.booking.com/searchresults.html?ss=Chateau+du+Haut+Koenigsbourg',
        'https://www.booking.com/searchresults.html?ss=Colmar',
        'https://www.booking.com/searchresults.html?ss=Eguisheim',
        'https://www.booking.com/searchresults.html?ss=Besancon',
        'https://www.booking.com/searchresults.html?ss=Dijon',
        'https://www.booking.com/searchresults.html?ss=Annecy',
        'https://www.booking.com/searchresults.html?ss=Grenoble',
        'https://www.booking.com/searchresults.html?ss=Lyon',
        'https://www.booking.com/searchresults.html?ss=Gorges+du+Verdon',
        'https://www.booking.com/searchresults.html?ss=Bormes+les+Mimosas',
        'https://www.booking.com/searchresults.html?ss=Cassis',
        'https://www.booking.com/searchresults.html?ss=Marseille',
        'https://www.booking.com/searchresults.html?ss=Aix+en+Provence',
        'https://www.booking.com/searchresults.html?ss=Avignon',
        'https://www.booking.com/searchresults.html?ss=Uzes',
        'https://www.booking.com/searchresults.html?ss=Nimes',
        'https://www.booking.com/searchresults.html?ss=Aigues+Mortes',
        'https://www.booking.com/searchresults.html?ss=Saintes+Maries+de+la+mer',
        'https://www.booking.com/searchresults.html?ss=Collioure',
        'https://www.booking.com/searchresults.html?ss=Carcassonne',
        'https://www.booking.com/searchresults.html?ss=Foix',
        'https://www.booking.com/searchresults.html?ss=Toulouse',
        'https://www.booking.com/searchresults.html?ss=Montauban',
        'https://www.booking.com/searchresults.html?ss=Biarritz',
        'https://www.booking.com/searchresults.html?ss=Bayonne',
        'https://www.booking.com/searchresults.html?ss=La+Rochelle'
    ]
    # Configuration pour simuler un navigateur et g√©rer la fr√©quence des requ√™tes
    custom_settings = { 
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36',
        'AUTOTHROTTLE_ENABLED': True,
        'HTTPCACHE_ENABLED': True
    }
    # Parse les donn√©es de chaque h√¥tel trouv√©es dans les r√©sultats de recherche
    def parse(self, response):
        city_name = response.url.split('ss=')[-1].replace('+', ' ')

        for hotel in response.xpath("//div[@data-testid='property-card']"):
            hotel_name = hotel.xpath(".//div[@data-testid='title']/text()").get()
            hotel_url = hotel.xpath(".//a[@data-testid='title-link']/@href").get()
            hotel_score = hotel.xpath(".//div[@data-testid='review-score']//div[@class='a3b8729ab1 d86cee9b25']/text()").get()
            hotel_description = hotel.xpath(".//div[@class='abf093bdfe']/text()").get()

            full_hotel_url = response.urljoin(hotel_url) # Construit l'URL compl√®te de la page de l'h√¥tel

            latitude, longitude = get_lat_lon_from_booking(full_hotel_url)  # Obtient les coordonn√©es g√©ographiques de l'h√¥tel

            # Rend les donn√©es extraites disponibles pour le traitement ou la sauvegarde
            yield {
                'City': city_name,
                'Hotel_Name': hotel_name,
                'Hotel_URL': full_hotel_url,
                'Score': hotel_score,
                'Description': hotel_description,
                'Latitude': latitude,
                'Longitude': longitude,
            }
# Configuration et d√©marrage du processus de crawling
process = CrawlerProcess(settings={
    'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/97.0.4692.99 Safari/537.36',
    'FEEDS': {
        'src/hotels.json': {'format': 'json'},
    },
})

process.crawl(BookingSpider)
process.start()

Ici nous voyons comment nous trouvons les xpatch :

Explication d√©taill√©e du code sur le fonctionnement du scraping

1. Importations
```python
import os, re, requests, scrapy
from scrapy.crawler import CrawlerProcess
from bs4 import BeautifulSoup
```
- `os`: G√®re les fichiers et chemins
- `re`: Permet d'utiliser les expressions r√©guli√®res pour chercher des motifs dans du texte
- `requests`: Fait des requ√™tes web (comme un navigateur)
- `scrapy`: Framework sp√©cialis√© pour extraire des donn√©es web
- `BeautifulSoup`: Analyse et navigue dans le code HTML

2. Fonction `get_lat_lon_from_booking`
```python
def get_lat_lon_from_booking(url):
```
Cette fonction extrait les coordonn√©es GPS d'un h√¥tel sur Booking.com :
- Fait une requ√™te √† l'URL de l'h√¥tel
- Cherche dans le code source les balises `<script>`
- Utilise une expression r√©guli√®re pour trouver latitude/longitude
- Retourne ces coordonn√©es ou None si non trouv√©es

3. Classe `BookingSpider`
```python
class BookingSpider(scrapy.Spider):
```
C'est le "robot" qui va parcourir Booking.com :
- `name = 'booking'`: Identifiant du robot
- `allowed_domains`: Limite le robot √† booking.com
- `start_urls`: Liste des pages √† visiter (une par ville)
- `custom_settings`: Configuration pour :
  - Simuler un vrai navigateur
  - Contr√¥ler la vitesse des requ√™tes
  - Mettre en cache les r√©ponses

4. M√©thode `parse`
```python
def parse(self, response):
```
Traite chaque page d'h√¥tel :
- Extrait le nom de la ville de l'URL
- Pour chaque h√¥tel trouv√© :
  - R√©cup√®re nom, URL, score, description
  - Obtient les coordonn√©es GPS
  - Stocke toutes ces informations

5. Configuration finale
```python
process = CrawlerProcess(settings={...})
```
- Configure le processus d'extraction
- D√©finit le fichier de sortie (hotels.json)
- D√©marre le robot

Cette partie du code est donc un "robot" automatis√© qui :
1. Visite Booking.com pour chaque ville
2. R√©cup√®re les informations de chaque h√¥tel
3. Enregistre tout dans un fichier JSON

Il utilise des techniques avanc√©es pour :
- √âviter d'√™tre bloqu√© par Booking.com
- G√©rer les erreurs
- Formater proprement les donn√©es

In [53]:
# transformation du fichier json en .csv
hotels_df = pd.read_json('src/hotels.json')
hotels_df.to_csv('src/hotels.csv', index=False)
hotels_df.head()

Unnamed: 0,City,Hotel_Name,Hotel_URL,Score,Description,Latitude,Longitude
0,Mont Saint Michel,Le Relais Saint Michel,https://www.booking.com/hotel/fr/le-relais-sai...,8.0,Le Relais Saint Michel is an hotel facing the ...,48.617587,-1.510396
1,St Malo,H√¥tel Anne de Bretagne - R√©ouverture 2024 apr√®...,https://www.booking.com/hotel/fr/anne-de-breta...,9.0,H√¥tel Anne de Bretagne - R√©ouverture 2024 apr√®...,48.650641,-2.024754
2,Mont Saint Michel,H√¥tel Vert,https://www.booking.com/hotel/fr/vert.en-gb.ht...,8.0,Hotel Vert offers pastel-coloured rooms with a...,48.6147,-1.509617
3,St Malo,"Le Plongeoir, intra-muros",https://www.booking.com/hotel/fr/le-pongeoir-i...,9.1,Managed by a private host,48.648725,-2.027573
4,Bayeux,B&B Nathalie,https://www.booking.com/hotel/fr/imagine-bayeu...,9.5,Managed by a private host,49.276465,-0.706367


---

# Charger les donn√©es dans un datalake

---

Nous avons maintenant 2 fichiers CSV contenant des pr√©visions m√©t√©os pour les 5 projets jours sur 35 villes.
Et une liste d'hotels par villes.
Transf√©rons ces fichiers dans mon bucket S3 dont j'ai d√©fini le nom dans mon .env. Les cr√©dentials AWS sont elle stock√© dans un .secrets

In [4]:

# Charger .env et .secrets pour des configurations g√©n√©rales
load_dotenv(".env")
load_dotenv(".secrets")

# Acc√©der aux variables d'environnement
BUCKET_NAME = os.getenv("S3_BUCKET")
AWS_KEY = os.getenv("AWS_ACCESS_KEY_ID")
AWS_SECRET = os.getenv("AWS_SECRET_ACCESS_KEY")

# V√©rification des variables d'environnement
if not BUCKET_NAME or not AWS_KEY or not AWS_SECRET:
    raise ValueError("One or more environment variables are missing")

# Cr√©ation du client S3
s3 = boto3.client("s3", 
                  aws_access_key_id=AWS_KEY, 
                  aws_secret_access_key=AWS_SECRET)

# transf√©rer les fichiers dans le bucket
s3.upload_file("src/hotels.csv", BUCKET_NAME, "kayak_project/hotels.csv")
s3.upload_file("src/previsions_meteo.csv", BUCKET_NAME, "kayak_project/previsions_meteo.csv")



---

## DATA WHAREHOUSE ET REQUETES SQL

---

Puisqu'il n'y a pas beaucoup de donn√©e, j'ai fait le choix de travailler sous NEONDB. Cela permet d'avoir une solution gratuite et p√©dagogique.
L'url de la base postgres contenant les id et pass, est int√©gr√© dans le .secret
Il faut maintenant cr√©er les 2 tables "hotels" et "meteo" avant de pouvoir y transf√©rer les infos de mes .CSV

In [5]:
# Charger les variables d'environnement
load_dotenv('.secrets')

# R√©cup√©rer l'URL de la base de donn√©es depuis les variables d'environnement
DATABASE_URL = os.getenv('NEON_DATABASE_URL')

# Cr√©er le moteur de connexion
engine = create_engine(DATABASE_URL)

# D√©finition des requ√™tes SQL de cr√©ation des tables
create_hotels_table = """
CREATE TABLE IF NOT EXISTS hotels (
    id SERIAL PRIMARY KEY,
    "City" VARCHAR(100),
    "Hotel_Name" VARCHAR(200),
    "Hotel_URL" TEXT,
    "Score" DECIMAL(3,1),
    "Description" TEXT,
    "Latitude" DECIMAL(10,8),
    "Longitude" DECIMAL(11,8)
);
"""

create_meteo_table = """
CREATE TABLE IF NOT EXISTS previsions_meteo (
    id SERIAL PRIMARY KEY,
    "City" VARCHAR(100),
    "Latitude" DECIMAL(10,8),
    "Longitude" DECIMAL(11,8),
    "Temperature_Jour_1" DECIMAL(4,1),
    "Humidite_Jour_1" INTEGER,
    "Vitesse_Vent_Jour_1" DECIMAL(5,2),
    "Precipitation_Jour_1" DECIMAL(5,2),
    "Temperature_Jour_2" DECIMAL(4,1),
    "Humidite_Jour_2" INTEGER,
    "Vitesse_Vent_Jour_2" DECIMAL(5,2),
    "Precipitation_Jour_2" DECIMAL(5,2),
    "Temperature_Jour_3" DECIMAL(4,1),
    "Humidite_Jour_3" INTEGER,
    "Vitesse_Vent_Jour_3" DECIMAL(5,2),
    "Precipitation_Jour_3" DECIMAL(5,2),
    "Temperature_Jour_4" DECIMAL(4,1),
    "Humidite_Jour_4" INTEGER,
    "Vitesse_Vent_Jour_4" DECIMAL(5,2),
    "Precipitation_Jour_4" DECIMAL(5,2),
    "Temperature_Jour_5" DECIMAL(4,1),
    "Humidite_Jour_5" INTEGER,
    "Vitesse_Vent_Jour_5" DECIMAL(5,2),
    "Precipitation_Jour_5" DECIMAL(5,2)
);
"""

# Ex√©cution des requ√™tes
with engine.connect() as conn:
    conn.execute(text(create_hotels_table))
    conn.execute(text(create_meteo_table))
    conn.commit()

print("Les tables ont √©t√© cr√©√©es avec succ√®s!")

Les tables ont √©t√© cr√©√©es avec succ√®s!


R√©cup√©rons la derni√®re version des fichiers pour mettre √† jour les 2 tables :

In [56]:
# r√©cup√©rer les fichiers sur le bucket
s3.download_file(BUCKET_NAME, "kayak_project/hotels.csv", "src/hotels.csv")
s3.download_file(BUCKET_NAME, "kayak_project/previsions_meteo.csv", "src/previsions_meteo.csv")


Finissons par transf√©rer les infos des .csv dans nos deux tables :

In [6]:
# Charger les variables d'environnement depuis .secrets
load_dotenv('.secrets')

# R√©cup√©rer l'URL de la base de donn√©es
DATABASE_URL = os.getenv('NEON_DATABASE_URL')
engine = create_engine(DATABASE_URL)

try:
    # Lire les fichiers CSV locaux
    hotels_df = pd.read_csv('src/hotels.csv')
    meteo_df = pd.read_csv('src/previsions_meteo.csv')

    # Cr√©er une nouvelle connexion pour les op√©rations to_sql
    with engine.connect() as conn:
        # D√©marrer une nouvelle transaction
        with conn.begin():
            # Charger les donn√©es dans la base de donn√©es
            hotels_df.to_sql('hotels', conn, if_exists='replace', index=False)
            meteo_df.to_sql('previsions_meteo', conn, if_exists='replace', index=False)
        
    print("Les donn√©es ont √©t√© charg√©es avec succ√®s!")

except Exception as e:
    print(f"Une erreur s'est produite : {e}")
    # La transaction sera automatiquement annul√©e en cas d'erreur

finally:
    # Fermer proprement la connexion
    engine.dispose()

# V√©rifier le nombre de lignes charg√©es
with engine.connect() as conn:
    result_hotels = conn.execute(text("SELECT COUNT(*) FROM hotels")).fetchone()
    result_meteo = conn.execute(text("SELECT COUNT(*) FROM previsions_meteo")).fetchone()
    
print(f"Nombre d'h√¥tels charg√©s : {result_hotels[0]}")
print(f"Nombre de pr√©visions m√©t√©o charg√©es : {result_meteo[0]}")

Les donn√©es ont √©t√© charg√©es avec succ√®s!
Nombre d'h√¥tels charg√©s : 876
Nombre de pr√©visions m√©t√©o charg√©es : 35


Avant la phase de visualisation, une petite requ√™te :

In [7]:
# Requ√™te SQL pour r√©cup√©rer les 3 hotels les mieux not√©s dans les gorges du Verdon
query = """
SELECT "Hotel_Name", "Score"
FROM hotels
WHERE "City" = 'Gorges du Verdon'
ORDER BY "Score" DESC
LIMIT 3
"""

# Ex√©cuter la requ√™te
with engine.connect() as conn:
    result = pd.read_sql_query(query, conn)

# Afficher les r√©sultats
print(result)

                 Hotel_Name  Score
0         Les Ch√™nes Blancs   10.0
1                Coquelicot    9.7
2  Maison de village type 2    9.5


---

## visualisation ##

---

On nous demande de pouvoir visulaiser 5 destinations. Sur les crit√®res

In [8]:
# initier les dataframes
hotels_df = pd.read_csv('src/hotels.csv')
meteo_df = pd.read_csv('src/previsions_meteo.csv')

# Les 5 villes les moins venteuses (bas√© sur la moyenne des vents √† 15h sur 5 jours)
query_meteo_vent = """
SELECT 
   "City",
   ("Vitesse_Vent_Jour_1" + "Vitesse_Vent_Jour_2" + "Vitesse_Vent_Jour_3" + 
    "Vitesse_Vent_Jour_4" + "Vitesse_Vent_Jour_5")/5 as vitesse_moyenne_vent,
   "Latitude", "Longitude"
FROM previsions_meteo
ORDER BY vitesse_moyenne_vent ASC
LIMIT 5;
"""

# Les 5 villes les plus chaudes (bas√© sur la moyenne des temp√©ratures)
query_meteo_chaud = """
SELECT 
   "City",
   ("Temperature_Jour_1" + "Temperature_Jour_2" + "Temperature_Jour_3" + 
    "Temperature_Jour_4" + "Temperature_Jour_5")/5 as temperature_moyenne,
   "Latitude", "Longitude"
FROM previsions_meteo
ORDER BY temperature_moyenne DESC
LIMIT 5;
"""

# Les 5 villes les plus froides (bas√© sur la moyenne des temp√©ratures
query_meteo_froid = """
SELECT 
   "City",
   ("Temperature_Jour_1" + "Temperature_Jour_2" + "Temperature_Jour_3" + 
    "Temperature_Jour_4" + "Temperature_Jour_5")/5 as temperature_moyenne,
   "Latitude", "Longitude"
FROM previsions_meteo
ORDER BY temperature_moyenne ASC
LIMIT 5;
"""

# Les 5 villes ou il pleuvra le moins (bas√© sur la somme des pr√©cipitations ensig√©s sur 5 jours)
query_meteo_sec = """
SELECT 
   "City",
   ("Precipitation_Jour_1" + "Precipitation_Jour_2" + "Precipitation_Jour_3" + 
    "Precipitation_Jour_4" + "Precipitation_Jour_5") as precipitation_totale,
   "Latitude", "Longitude"
FROM previsions_meteo
ORDER BY precipitation_totale ASC
LIMIT 5;
"""

# Ex√©cution
with engine.connect() as conn:
    villes_chaudes = pd.read_sql_query(query_meteo_chaud, conn)
    print("Villes les plus chaudes:")
    print(villes_chaudes)

Villes les plus chaudes:
                City  temperature_moyenne   Latitude  Longitude
0            Bayonne               12.562  43.494514  -1.473666
1           Biarritz               12.476  43.471144  -1.552727
2          Marseille               11.872  43.296174   5.369953
3          Collioure               11.796  42.525050   3.083155
4  Mont Saint Michel               11.440  48.635954  -1.511460


In [9]:
# 20 meilleurs h√¥tels dans les 5 villes les moins venteuses
query_hotels_vent = """
WITH VillesMoinsVenteuses AS (
    SELECT "City", 
           ("Vitesse_Vent_Jour_1" + "Vitesse_Vent_Jour_2" + "Vitesse_Vent_Jour_3" + "Vitesse_Vent_Jour_4" + "Vitesse_Vent_Jour_5")/5 as vitesse_moyenne_vent,
           "Latitude", "Longitude"
    FROM previsions_meteo
    ORDER BY vitesse_moyenne_vent ASC
    LIMIT 5
),
TopHotels AS (
    SELECT 
        v."City",
        v.vitesse_moyenne_vent,
        h."Hotel_Name",
        h."Score",
        h."Hotel_URL",
        h."Latitude",
        h."Longitude",
        ROW_NUMBER() OVER (PARTITION BY v."City" ORDER BY h."Score" DESC) as rang
    FROM VillesMoinsVenteuses v
    JOIN hotels h ON v."City" = h."City"
)
SELECT 
    "City",
    vitesse_moyenne_vent,
    "Hotel_Name",
    "Score",
    "Hotel_URL",
    "Latitude",
    "Longitude"
FROM TopHotels
WHERE rang <= 20
ORDER BY vitesse_moyenne_vent ASC, "Score" DESC;
"""

# 20 meilleurs h√¥tels dans les 5 villes les plus chaudes
query_hotels_chaud = """
WITH VillesChaudes AS (
    SELECT 
        "City",
        ("Temperature_Jour_1" + "Temperature_Jour_2" + "Temperature_Jour_3" + 
         "Temperature_Jour_4" + "Temperature_Jour_5")/5 as temperature_moyenne,
        "Latitude", "Longitude"
    FROM previsions_meteo
    ORDER BY temperature_moyenne DESC
    LIMIT 5
), 
TopHotels AS (
    SELECT 
        v."City",
        v.temperature_moyenne,
        h."Hotel_Name",
        h."Score",
        h."Hotel_URL",
        h."Latitude",
        h."Longitude",
        ROW_NUMBER() OVER (PARTITION BY v."City" ORDER BY h."Score" DESC) as rang
    FROM VillesChaudes v
    JOIN hotels h ON v."City" = h."City"
)
SELECT 
    "City",
    temperature_moyenne,
    "Hotel_Name",
    "Score",
    "Hotel_URL",
    "Latitude",
    "Longitude"
FROM TopHotels 
WHERE rang <= 20 
ORDER BY temperature_moyenne DESC, "Score" DESC;
"""

# 20 meilleurs h√¥tels dans les 5 villes les plus froides
query_hotels_froid = """
WITH VillesFroides AS (
    SELECT 
        "City",
        ("Temperature_Jour_1" + "Temperature_Jour_2" + "Temperature_Jour_3" + 
         "Temperature_Jour_4" + "Temperature_Jour_5")/5 as temperature_moyenne,
        "Latitude", "Longitude"
    FROM previsions_meteo
    ORDER BY temperature_moyenne ASC
    LIMIT 5
), 
TopHotels AS (
    SELECT 
        v."City",
        v.temperature_moyenne,
        h."Hotel_Name",
        h."Score",
        h."Hotel_URL",
        h."Latitude",
        h."Longitude",
        ROW_NUMBER() OVER (PARTITION BY v."City" ORDER BY h."Score" DESC) as rang
    FROM Villesfroides v
    JOIN hotels h ON v."City" = h."City"
)
SELECT 
    "City",
    temperature_moyenne,
    "Hotel_Name",
    "Score",
    "Hotel_URL",
    "Latitude",
    "Longitude"
FROM TopHotels 
WHERE rang <= 20 
ORDER BY temperature_moyenne DESC, "Score" ASC;
"""

# 20 meilleurs h√¥tels dans les 5 villes les moins pluvieuses
query_hotels_sec = """
WITH VillesSeches AS (
    SELECT "City",
           ("Precipitation_Jour_1" + "Precipitation_Jour_2" + "Precipitation_Jour_3" + "Precipitation_Jour_4" + "Precipitation_Jour_5") as precipitation_totale,
           "Latitude", "Longitude"
    FROM previsions_meteo
    ORDER BY precipitation_totale ASC
    LIMIT 5
),
TopHotels AS (
    SELECT 
        v."City",
        v.precipitation_totale,
        h."Hotel_Name",
        h."Score",
        h."Hotel_URL",
        h."Latitude",
        h."Longitude",
        ROW_NUMBER() OVER (PARTITION BY v."City" ORDER BY h."Score" DESC) as rang
    FROM VillesSeches v
    JOIN hotels h ON v."City" = h."City"
)
SELECT 
    "City",
    precipitation_totale,
    "Hotel_Name",
    "Score",
    "Hotel_URL",
    "Latitude",
    "Longitude"
FROM TopHotels
WHERE rang <= 20
ORDER BY precipitation_totale ASC, "Score" DESC;
"""

In [20]:
from folium import plugins
import seaborn as sns
import random

# Fonction pour ex√©cuter une requ√™te SQL avec des tentatives
def execute_query_with_retry(query, max_retries=3, delay=1):
    for attempt in range(max_retries):
        try:
            engine = create_engine(DATABASE_URL)
            with engine.connect() as conn:
                result = pd.read_sql_query(query, conn)
            return result
        except OperationalError as e:
            if attempt == max_retries - 1:
                raise e
            print(f"Tentative {attempt + 1} √©chou√©e, nouvelle tentative dans {delay} secondes...")
            time.sleep(delay)
        finally:
            engine.dispose()

# Fonction pour afficher les r√©sultats des h√¥tels
def afficher_resultats(df, critere):
    print(f"\n=== R√©sultats pour {critere} ===")
    for city in df['City'].unique():
        print(f"\nVille : {city}")
        city_hotels = df[df['City'] == city]
        for _, hotel in city_hotels.iterrows():
            print(f"- {hotel['Hotel_Name']} (Score: {hotel['Score']})")
        print("-" * 50)

# Ex√©cution des requ√™tes avec retry et affichage des r√©sultats
try:
    # Villes les moins venteuses
    hotels_villes_calmes = execute_query_with_retry(query_hotels_vent)
    afficher_resultats(hotels_villes_calmes, "les villes les moins venteuses")
    
    # Villes les plus chaudes
    hotels_villes_chaudes = execute_query_with_retry(query_hotels_chaud)
    afficher_resultats(hotels_villes_chaudes, "les villes les plus chaudes")
    
    # Villes les plus froides
    hotels_villes_froides = execute_query_with_retry(query_hotels_froid)
    afficher_resultats(hotels_villes_froides, "les villes les plus froides")
    
    # Villes les moins pluvieuses
    hotels_villes_seches = execute_query_with_retry(query_hotels_sec)
    afficher_resultats(hotels_villes_seches, "les villes les moins pluvieuses")

except Exception as e:
    print(f"Erreur finale : {e}")

# Stocker les r√©sultats dans des DataFrames pour une utilisation ult√©rieure
resultats = {
    'moins_venteux': hotels_villes_calmes,
    'plus_chaud': hotels_villes_chaudes,
    'plus_froid': hotels_villes_froides,
    'moins_pluvieux': hotels_villes_seches
}

def create_weather_map(resultats):
    # Cr√©er une carte centr√©e sur la France
    m = folium.Map(location=[46.603354, 1.888334], zoom_start=6)
    
    # Cr√©er les groupes principaux pour chaque type de m√©t√©o
    layers = {}
    
    # D√©finir des couleurs avec plus de contraste
    color_scale = {
        1: '#FF0000',    # Rouge vif
        2: '#9400D3',    # Violet profond
        3: '#0000FF',    # Bleu pur
        4: '#006400',    # Vert fonc√©
        5: '#000080'     # Bleu marine
    }
    
    # Opacit√©s diff√©rentes pour distinguer ville principale et h√¥tels
    CITY_OPACITY = 0.9
    HOTEL_OPACITY = 0.6
    
    for weather_type in resultats.keys():
        layers[weather_type] = folium.FeatureGroup(name=f"Villes {weather_type}")
    
    for weather_type, df in resultats.items():
        # Grouper par ville
        cities = df.groupby('City').agg({
            'Latitude': 'first',
            'Longitude': 'first',
            'Score': ['mean', 'count']
        }).reset_index()
        
        cities.columns = ['City', 'Latitude', 'Longitude', 'Score_mean', 'Hotel_count']
        cities = cities.sort_values('Score_mean', ascending=False)
        
        # Ajouter les marqueurs des villes
        for idx, city in cities.iterrows():
            rank = idx + 1
            color = color_scale[min(rank, 5)]
            
            # Liste des h√¥tels pour le popup
            hotels_list = df[df['City'] == city['City']].sort_values('Score', ascending=False)
            hotels_html = "".join([
                f"""
                <tr>
                    <td style='padding:2px'>{hotel['Hotel_Name']}</td>
                    <td style='padding:2px;text-align:right'>{hotel['Score']:.1f}</td>
                </tr>
                """ for _, hotel in hotels_list.iterrows()
            ])
            
            # Popup pour la ville avec style am√©lior√©
            city_popup = folium.Popup(
                f"""
                <div style='width:300px'>
                <h4 style='margin:0;padding:5px;background-color:{color};color:white'>
                    {city['City']} (Rang: {rank})
                </h4>
                <div style='padding:5px'>
                    <b>Score moyen:</b> {city['Score_mean']:.1f}<br>
                    <b>Nombre d'h√¥tels:</b> {city['Hotel_count']}
                </div>
                <div style='max-height:200px;overflow:auto'>
                    <table style='width:100%;border-collapse:collapse'>
                        <tr style='background-color:#f0f0f0'>
                            <th style='text-align:left;padding:5px'>H√¥tel</th>
                            <th style='text-align:right;padding:5px'>Score</th>
                        </tr>
                        {hotels_html}
                    </table>
                </div>
                </div>
                """,
                max_width=300
            )
            
            # Marqueur principal pour la ville
            folium.CircleMarker(
                location=[city['Latitude'], city['Longitude']],
                radius=7,
                popup=city_popup,
                color=color,
                fill=True,
                fill_color=color,
                fill_opacity=CITY_OPACITY,
                weight=2
            ).add_to(layers[weather_type])
            
            # H√¥tels autour
            for _, hotel in hotels_list.iterrows():
                lat_offset = random.uniform(-0.001, 0.001)
                lon_offset = random.uniform(-0.001, 0.001)
                
                folium.CircleMarker(
                    location=[
                        hotel['Latitude'] + lat_offset,
                        hotel['Longitude'] + lon_offset
                    ],
                    radius=3,
                    popup=folium.Popup(
                        f"""
                        <div style='width:200px'>
                        <h4 style='margin:0;padding:5px;background-color:{color};color:white'>
                            {hotel['Hotel_Name']}
                        </h4>
                        <div style='padding:5px'>
                            Score: {hotel['Score']:.1f}<br>
                            <a href="{hotel['Hotel_URL']}" target="_blank">Voir sur Booking</a>
                        </div>
                        </div>
                        """,
                        max_width=300
                    ),
                    color=color,
                    fill=True,
                    fill_color=color,
                    fill_opacity=HOTEL_OPACITY,
                    weight=1
                ).add_to(layers[weather_type])
    
    # Ajouter les couches √† la carte
    for layer in layers.values():
        layer.add_to(m)
    
    # Contr√¥le des couches
    folium.LayerControl(collapsed=False).add_to(m)
    
    # L√©gende avec les nouvelles couleurs
    legend_html = """
    <div style="position: fixed; 
                bottom: 50px; right: 50px; width: 150px;
                border:2px solid grey; z-index:9999; 
                background-color:white;
                padding: 10px;
                font-size: 14px;
                opacity: 0.9;
                ">
    <b>Classement</b><br>
    <i class="fa fa-circle" style="color:#FF0000"></i> 1er<br>
    <i class="fa fa-circle" style="color:#9400D3"></i> 2√®me<br>
    <i class="fa fa-circle" style="color:#0000FF"></i> 3√®me<br>
    <i class="fa fa-circle" style="color:#006400"></i> 4√®me<br>
    <i class="fa fa-circle" style="color:#000080"></i> 5√®me
    </div>
    """
    m.get_root().html.add_child(folium.Element(legend_html))
    
    return m

# Utilisation :
try:
    # Cr√©er la carte avec nos r√©sultats
    carte = create_weather_map(resultats)
    
    # Sauvegarder la carte en HTML
    carte.save('carte_hotels.html')
    print("Carte cr√©√©e avec succ√®s ! Ouvrez carte_hotels.html dans votre navigateur.")
except Exception as e:
    print(f"Erreur lors de la cr√©ation de la carte : {e}")


=== R√©sultats pour les villes les moins venteuses ===

Ville : Foix
- cocoon 52 m2 new, beautiful view castle and mountain (Score: 9.3)
- Studio Le Flore - Petit d√©jeuner inclus 1√®re nuit - AUX 4 LOGIS (Score: 9.3)
- Un second souffle (Score: 9.1)
- l'Arche des Chapeliers (Score: 9.1)
- Lit King Size Tr√©s Cosy Hyper Centre de Foix Calme (Score: 9.0)
- Studio Le Roof - Une vue splendide - Petit d√©jeuner inclus 1√®re nuit - AUX 4 LOGIS (Score: 8.9)
- El√©gant et moderne (Score: 8.9)
- Studio Le Terra - Petit d√©jeuner inclus 1√®re nuit - AUX 4 LOGIS (Score: 8.9)
- La Mirandole (Score: 8.8)
- Ariejoie - Chambre priv√©e dans maison en centre historique (Score: 8.7)
- Le Rep√®re - Focalimmo (centre) (Score: 8.6)
- Joli duplex avec balcon et vue sur place du centre historique ! (Score: 8.6)
- Appartement avec cour plein centre (Score: 8.6)
- Studio cosy rez-de-chauss√©e (Score: 8.6)
- Studio Le City - Petit d√©jeuner inclus 1√®re nuit - AUX 4 LOGIS (Score: 8.5)
- H√¥tel Pyr√®ne (Score: