## PARTIE 4 : Mise à disposition des données

## Import librairies

In [211]:
import json
import os
import pandas as pd
import boto3

## Datalake : AWS S3 bucket

#### Création d'une instance et connexion au compte AWS

In [212]:
# Les clés secrètes ci-dessous ont été cachées
# Pour pouvoir exécuter ce code vous devrez renseigner vos clés AWS

ACCESS_KEY_ID = '---------------------'
SECRET_ACCESS_KEY = '------------------------------------------'

session = boto3.Session(aws_access_key_id=ACCESS_KEY_ID, 
                        aws_secret_access_key=SECRET_ACCESS_KEY,
                        region_name = "eu-west-3"
                        )

#### Création d'une ressource S3

In [213]:
s3 = session.resource('s3')

#### Création d'un bucket

In [214]:
bucket_name = 'bucket-for-kayak-project'
bucket = s3.create_bucket(Bucket = bucket_name, CreateBucketConfiguration = {'LocationConstraint': 'eu-west-3'})

In [215]:
print(bucket)
print(type(bucket))

s3.Bucket(name='bucket-for-kayak-project')
<class 'boto3.resources.factory.s3.Bucket'>


#### Envoi du fichier csv vers le bucket

In [216]:
bucket.upload_file('./src/hotels.csv', 'top_hotels.csv')

#### Vérification des éléments présents dans le bucket

In [217]:
for item in bucket.objects.all():
    print(item.key)

top_hotels.csv


#### Lecture du fichier csv depuis le bucket

In [218]:
from io import StringIO

s3_client = session.client('s3')
s3_object = s3_client.get_object(Bucket=bucket_name, Key='top_hotels.csv')
s3_data = s3_object['Body'].read().decode('utf-8')
data = pd.read_csv(StringIO(s3_data))

In [219]:
data.head()

Unnamed: 0,city_id,hotel_name,description,score,price,url,lat,lon
0,6,Hotel des Vosges,L'Hotel des Vosges vous accueille dans le XXe ...,8.0,102,https://www.booking.com/hotel/fr/des-vosges-pa...,48.867778,2.382908
1,1,Le Héron,"Offrant une vue sur la rue calme, Le Héron est...",8.5,137,https://www.booking.com/hotel/fr/le-heron-huis...,48.610084,-1.456738
2,1,Les Terrasses Poulard,Occupant 2 bâtiments différents au cœur du Mon...,7.4,242,https://www.booking.com/hotel/fr/les-terrasses...,48.635349,-1.510379
3,5,Les Initiés,Installé au cœur du centre historique de Rouen...,7.9,81,https://www.booking.com/hotel/fr/les-inities-r...,49.441976,1.092439
4,6,Ideal Hotel,"Situé à Paris, l'Ideal Hotel propose des héber...",5.3,75,https://www.booking.com/hotel/fr/ideal-paris.f...,48.86761,2.375461


In [220]:
data.shape

(698, 8)

## Datawarehouse : AWS RDS

#### Import librairies

In [221]:
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, Integer, String, MetaData, Float, Text

#### Création d'une base de données SQL

Nous utilisons l'interface AWS RDS pour créer une base de données.

Nous définissons et récupérons les informations de connexion.

In [240]:
# Les identifiants ci-dessous ont été cachés
# Pour pouvoir exécuter ce code vous devrez renseigner vos identifiants

YOUR_HOSTNAME = "---------------------------------------"
YOUR_USERNAME = "postgres"
YOUR_PASSWORD = "password"
PORT = "5432"

#### Connexion à la base de données

In [243]:
engine = create_engine(f"postgresql+psycopg2://{YOUR_USERNAME}:{YOUR_PASSWORD}@{YOUR_HOSTNAME}/postgres", echo=True)

In [245]:
engine

Engine(postgresql+psycopg2://postgres:***@kayak-db.ca16dzxuqxwp.eu-west-3.rds.amazonaws.com/postgres)

In [244]:
conn = engine.connect()

2024-03-12 23:45:38,387 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2024-03-12 23:45:38,388 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-03-12 23:45:38,411 INFO sqlalchemy.engine.Engine select current_schema()
2024-03-12 23:45:38,412 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-03-12 23:45:38,434 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2024-03-12 23:45:38,436 INFO sqlalchemy.engine.Engine [raw sql] {}


#### Création des tables

Notre base de données contiendra 2 tables : 

- Table city : elle regroupe les informations des 35 villes et les données météorologiques ;

- Table hotel : elle regroupe les informations de tous les hôtels ;

- Ces tables seront reliées par la clé *city_id*.

In [246]:
cities = pd.read_csv('./src/top_35_cities_lite.csv')
hotels = pd.read_csv('./src/hotels.csv')

print(cities.shape)
print(hotels.shape)

(35, 11)
(698, 8)


Ajout d'une colonne id pour les hôtels

In [247]:
hotel_id = [i for i in range(1, 699)] 
hotels.insert(loc = 0,
            column = 'id',
            value = hotel_id)

In [248]:
cities.rename(columns={'city_id': 'id', 'city': 'name', 'lat_city': 'lat', 'lon_city': 'lon', 
                       'avg_weather': 'weather', 'avg_temp': 'temperature', 'avg_clouds': 'clouds',
                       'avg_wind': 'wind', 'avg_humidity': 'humidity', 'avg_rain': 'rain', 'avg_pop': 'pop'}, inplace=True)

hotels.rename(columns={'hotel_name': 'name'},  inplace=True)

#### Ajout des données dans les tables

In [249]:
cities.to_sql('city', engine)
hotels.to_sql('hotel', engine)

2024-03-12 23:46:44,817 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-03-12 23:46:44,833 INFO sqlalchemy.engine.Engine SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s
2024-03-12 23:46:44,834 INFO sqlalchemy.engine.Engine [generated in 0.00111s] {'table_name': 'city', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}
2024-03-12 23:46:44,860 INFO sqlalchemy.engine.Engine 
CREATE TABLE city (
	index BIGINT, 
	id BIGINT, 
	name TEXT, 
	lat FLOAT(53), 
	lon FLOAT(53), 
	weather TEXT, 
	temperature FLOAT(53), 
	clouds FLOAT(53), 
	wind FLOAT(53), 
	humi

698

#### Requêtes SQL

Nous effectuons quelques requêtes SQL pour vérifier si les données sont bien enregistrées dans la base de données.

In [281]:
from sqlalchemy.sql import text

# Afficher les meilleurs hôtels et leurs prix pour la ville de Paris

stmt = text("SELECT C.name, H.name, score, price "
            "FROM hotel H "
            "INNER JOIN city C "
            "ON H.city_id = C.id "
            "WHERE C.id = 6 "
            "ORDER BY score DESC")

result = conn.execute(stmt)
result.fetchall()

2024-03-13 00:13:33,125 INFO sqlalchemy.engine.Engine SELECT C.name, H.name, score, price FROM hotel H INNER JOIN city C ON H.city_id = C.id WHERE C.id = 6 ORDER BY score DESC
2024-03-13 00:13:33,127 INFO sqlalchemy.engine.Engine [generated in 0.00128s] {}


[('Paris', 'Motel One Paris-Porte Dorée', 8.7, 139),
 ('Paris', "Sonder L'Edmond Parc Monceau", 8.5, 349),
 ('Paris', 'Hotel Cluny Square', 8.4, 156),
 ('Paris', 'Virgina', 8.3, 131),
 ('Paris', 'Hotel du Pré', 8.3, 159),
 ('Paris', 'Hotel Albe Bastille', 8.2, 150),
 ('Paris', 'Hotel des Vosges', 8.0, 102),
 ('Paris', 'Hotel Luna Park', 7.9, 95),
 ('Paris', 'Hôtel Avenir Jonquière', 7.9, 84),
 ('Paris', 'Hotel Studia', 7.9, 121),
 ('Paris', 'Hotel Esmeralda', 7.7, 182),
 ('Paris', 'The Originals Boutique, Hôtel Maison Montmartre Paris Les Puces', 7.6, 129),
 ('Paris', 'Grand Hôtel du Bel Air', 7.4, 112),
 ('Paris', 'Hotel des Belges', 7.3, 96),
 ('Paris', "Hotel Le Clos d'Alésia", 7.2, 108),
 ('Paris', 'Grand Hôtel De Paris', 7.2, 116),
 ('Paris', 'Résidence de Bourgogne', 6.7, 103),
 ('Paris', 'Hotel De La Poste', 6.0, 66),
 ('Paris', 'Printania Porte de Versailles', 5.7, 87),
 ('Paris', 'Ideal Hotel', 5.3, 75)]

In [266]:
# Afficher les 10 villes où il fait le plus chaud

stmt = text("SELECT name, weather, temperature "
            "FROM city "
            "ORDER BY temperature DESC "
            "LIMIT 10")

result = conn.execute(stmt)
result.fetchall()

2024-03-13 00:08:32,808 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-03-13 00:08:32,809 INFO sqlalchemy.engine.Engine SELECT name, weather, temperature FROM city ORDER BY temperature DESC LIMIT 10
2024-03-13 00:08:32,810 INFO sqlalchemy.engine.Engine [cached since 408s ago] {}


[('Marseille', 'Clouds', 11.24),
 ('Cassis', 'Rain', 11.072),
 ('Saintes Maries de la mer', 'Clouds', 10.652),
 ('Bormes les Mimosas', 'Rain', 10.28),
 ('Aigues Mortes', 'Clouds', 10.157999999999998),
 ('Biarritz', 'Rain', 9.294),
 ('Bayonne', 'Rain', 8.984),
 ('Nimes', 'Clouds', 8.45),
 ('Avignon', 'Clouds', 8.43),
 ('Collioure', 'Clouds', 8.358)]

In [283]:
# Afficher le prix moyen des hôtels

stmt = text("SELECT round(avg(price)) "
            "FROM hotel ")

result = conn.execute(stmt)
result.fetchall()

2024-03-13 00:15:56,333 INFO sqlalchemy.engine.Engine SELECT round(avg(price)) FROM hotel 
2024-03-13 00:15:56,333 INFO sqlalchemy.engine.Engine [generated in 0.00093s] {}


[(Decimal('124'),)]

Note : cette commande est utile en cas d'erreur dans la requête SQL.

In [259]:
conn.rollback()