### 4/ DataWarehousing - Créer la "big" jointure entre fichier des hôtels et fichier météo

On s'est donc placé dans le cas où nos deux fichiers sont stockés, indépendamment, dans le DataLake.
Il s'agit de réaliser une jointure entre les hôtels et les prévision météo pour chaque destination. Nous n'aurons aucune utilité de ce fichier résultat dans le cadre du projet (les maps ont été générées vis-à-vis des destinations indépendamment de la liste des hôtels...) mais on imagine ici qu'il faut mettre ce ''big'' fichier à disposition de d'autres équipes. Par exemple, pour permettre à une équipe de développeurs web de prolonger le travail fait sur la map : on pourrait imaginer que l'utilisateur, après avoir vu la carte de France avec les meilleures destinations météo, puisse cliquer sur la carte et accèder à une seconde carte avec tous les hôtels...

Nous imaginons aussi, pour s'entraîner à la gestion de pipeline type "Big Data", que le fichier pourrait être beaucoup plus volumineux que ce qu'il n'est en réalité (ici, il y a 875 lignes...). Donc nous décidons de faire la jointure via PySpark, dans un environnement qui va se connecter directement au S3 (notre 'DataLake') et à la DB finale sur serveur RDS (notre 'Data Warehouse') et non pas en télégearchant les fichiers du S3 en local, pour faire une jointure avec pandas, par exemple... L'intérêt est donc de préparer une pipeline avec un modèle de calculs parallélisés qui puisse éventuellement accueillir des fichiers beaucoup plus volumineux.


WARNING : Ici il s'agit de la version téléchargée notebook depuis notre environnement DataBricks Cummunity. Il ne fonctionnera pas sans spark. Donc, pour tout test éventuel du notebook ci-dessous, il faut le re-uploder dans votre propre environnement, bien entendu.
Pour des raisons de sécurité, les passwords on été retirés.
Et il est aussi possible que j'ai résilié les services S3 et/ou RDS, pour éviter des facturations excessives d'AWS, donc la connexion à la DataBase va être impossible pour vous.
Il faut dé-commenter ci-dessous d'autres chemins pour le téléchargement du fichier en local.

In [None]:
from pyspark.sql import functions as F

Connexion au S3 d'AWS :

In [None]:
filepath1 = 's3://jess-din-test/hostels_booking.csv'
filepath2 = 's3://jess-din-test/result_cities_with_coord_and_weather.csv'

ACCESS_KEY_ID = "AKIA3S5CIUB4XSZU7ZVM" # jedha student account access key
SECRET_ACCESS_KEY = "***********************************" # student account secret key

hadoop_conf = spark._jsc.hadoopConfiguration() # this will set the Spark framework to interact with your S3 DFS
hadoop_conf.set("fs.s3a.access.key", ACCESS_KEY_ID)
hadoop_conf.set("fs.s3a.secret.key", SECRET_ACCESS_KEY)
hadoop_conf.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")

Code à décommenter pour essayer vous-même en local sur votre environnement (DataBricks ou autre...) :

In [None]:
# --- À décommenter vous-même pour éventuellement télécharger les fichiers en local --- 
#le S3 étant sans doute désactivé (pour les aspects de facturations), merci de préciser votre propre chemin pour le fichier result_cities_with_coord_and_weather-2.csv

#filepath1='...' # fichier hostels_booking.csv

#filepath2='...' # fichier result_cities_with_coord_and_weather.csv

Mon propre code pour faire les essais initiaux (laisser en commentaire) :

In [None]:

# --- Filepaths utilisés en local pour les essais sur DataBricks Community ----
# df_hostels = spark.read.format("csv").option("header", "true").load("dbfs:/FileStore/shared_uploads/jesshuandine@gmail.com/hostels_booking.csv")
# df_weather = spark.read.format("csv").option("header", "true").load("dbfs:/FileStore/shared_uploads/jesshuandine@gmail.com/result_cities_with_coord_and_weather-2.csv")

Stockage des fichiers du S3 en dataframes Spark :

In [None]:
df_hostels = spark.read.format("csv").option("header", "true").load(filepath1)

In [None]:
df_weather = spark.read.format("csv").option("header", "true").load(filepath2)

#### Pré-traitement fichier "Hostels" :

On regarde notre structure :

In [None]:
df_hostels.printSchema()

root
 |-- city: string (nullable = true)
 |-- hostel_name: string (nullable = true)
 |-- hostel_url: string (nullable = true)
 |-- hostel_img: string (nullable = true)
 |-- hostel_alt_img: string (nullable = true)
 |-- hostel_review: string (nullable = true)
 |-- nb_squares: string (nullable = true)
 |-- nb_stars: string (nullable = true)
 |-- hostel_type: string (nullable = true)
 |-- lat_long: string (nullable = true)
 |-- description: string (nullable = true)



Aïe... on a que des strings (encore la conversion csv...). On fait les conversions :

In [None]:
df_hostels=df_hostels.withColumn('hostel_review',df_hostels['hostel_review'].cast("float"))
df_hostels=df_hostels.withColumn('nb_squares',df_hostels['nb_squares'].cast("int"))
df_hostels=df_hostels.withColumn('nb_stars',df_hostels['nb_stars'].cast("int"))

La colonne 'lat_lon' pose également problème, car nous avions récupéré un tupple lors du scrapping, il faut créer deux colonnes différentes, c'est mieux, donc on trouve un moyen de parser le 'string / tupple' 'lat_lon' :

In [None]:
df_hostels = df_hostels.withColumn('lat',F.split('lat_long',",")[0].cast("float")) \
                        .withColumn('lon',F.split('lat_long',",")[1].cast("float")) \
                            .drop('lat_long')



In [None]:
df_hostels.printSchema()

root
 |-- city: string (nullable = true)
 |-- hostel_name: string (nullable = true)
 |-- hostel_url: string (nullable = true)
 |-- hostel_img: string (nullable = true)
 |-- hostel_alt_img: string (nullable = true)
 |-- hostel_review: float (nullable = true)
 |-- nb_squares: integer (nullable = true)
 |-- nb_stars: integer (nullable = true)
 |-- hostel_type: string (nullable = true)
 |-- description: string (nullable = true)
 |-- lat: float (nullable = true)
 |-- lon: float (nullable = true)



Voilà qui est mieux. Petit affichage limité aux 5 premières lignes :

In [None]:
df_hostels.limit(5).display()

#### Pré-traitement fichier "Météo et destinations" :

In [None]:
df_weather.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- city: string (nullable = true)
 |-- lat: string (nullable = true)
 |-- lon: string (nullable = true)
 |-- feels_avg: string (nullable = true)
 |-- temp_avg: string (nullable = true)
 |-- humid_avg: string (nullable = true)
 |-- wind_avg: string (nullable = true)
 |-- cloud_descr_avg: string (nullable = true)
 |-- pop_avg: string (nullable = true)
 |-- date_forecast_start: string (nullable = true)
 |-- date_forecast_end: string (nullable = true)



Tiens, une colonne s'est rajoutée au tout début et ne sert à rien... On la supprime :

In [None]:
df_weather = df_weather.drop('_c0')

On va renommer nos colonnes 'lat' et 'lon' pour éviter les confusions avec l'autres fichiers et des problèmes lors de la jointure. Ici, il s'agissait des lattitudes et longitudes de la ville entière... donc on renomme en 'lat_city' et 'lon_city' (les variables 'lat' et 'lon' tout court seront les lattitudes et longitudes des hôtels de l'autre fichier...)

In [None]:
df_weather = df_weather.withColumnRenamed('lat','lat_city')
df_weather = df_weather.withColumnRenamed('lon','lon_city')

Pareil, on s'est retrouvé qu'avec des strings. On remet toutes les variables numériques météo en float :

In [None]:
for var in ['lat_city','lon_city','feels_avg','temp_avg','humid_avg','wind_avg','pop_avg']:
    df_weather = df_weather.withColumn(var,df_weather[var].cast('float'))

Les dates de prévisions 'start' et 'end' sont aussi des strings. On vérifie ce qu'elles contiennent :

In [None]:
df_weather.select('date_forecast_start').limit(5).show()

+-------------------+
|date_forecast_start|
+-------------------+
|       1664841600.0|
|       1664841600.0|
|       1664841600.0|
|       1664841600.0|
|       1664841600.0|
+-------------------+



Ok, ce sont des timestamps. On peut peut-être les convertir pour une meilleure visibilité pour les autres équipes (ce qui n'empêchera sans doute pas les conversions s'ils ou elles font des import/exports...) :

In [None]:
df_weather = df_weather.withColumn('date_forecast_start',F.from_unixtime(F.col('date_forecast_start').cast('int')))

In [None]:
df_weather = df_weather.withColumn('date_forecast_end',F.from_unixtime(F.col('date_forecast_end').cast('int')))

In [None]:
df_weather.select('date_forecast_start').take(5)

Out[28]: [Row(date_forecast_start='2022-10-04 00:00:00'),
 Row(date_forecast_start='2022-10-04 00:00:00'),
 Row(date_forecast_start='2022-10-04 00:00:00'),
 Row(date_forecast_start='2022-10-04 00:00:00'),
 Row(date_forecast_start='2022-10-04 00:00:00')]

#### Jointure des deux fichiers

Pour finir, on fait donc une jointure à gauche (pour conserver prioritairement à gauche la liste complète des hôtels) :

In [None]:
data_join = df_hostels.join(df_weather, on='city',how="left")

In [None]:
data_join.count()

Out[37]: 879

La jointure est bien faite et conserve le nombre de lignes (le nombre d'hôtels). On peut vérifier les 50 premières lignes pour admirer le résultat :

In [None]:
data_join.limit(50).display()

city,hostel_name,hostel_url,hostel_img,hostel_alt_img,hostel_review,nb_squares,nb_stars,hostel_type,description,lat,lon,lat_city,lon_city,feels_avg,temp_avg,humid_avg,wind_avg,cloud_descr_avg,pop_avg,date_forecast_start,date_forecast_end
Mont Saint Michel,Hôtel Vert,https://www.booking.com/hotel/fr/vert.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=1&hapos=1&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/122592840.jpg?k=1a65c151f06a93e6bc1c22a84fd834e6fe9ef437ecf08ae865dc9c6259c615d6&o=&hp=1,a hotel room with two beds and a green wall at Hôtel Vert in Le Mont Saint Michel,8.0,0,2,Hotel,"Hotel Vert offers pastel-coloured rooms with a private bathroom, TV and free Wi-Fi access. It is located 2 km from the Mont Saint-Michel tidal island on the Normandy Coast.",48.6147,-1.509617,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,Le Lithana,https://www.booking.com/hotel/fr/le-lithana.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=24&hapos=24&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/58487812.jpg?k=c2a91e4e77ae1247e512b6f0a145b98756e3a319e2261490df829d8f24e28333&o=&hp=1,a bedroom with a bed and a door to a balcony at Le Lithana in Pontorson,7.2,0,0,Hotel,"Located in the town centre of Pontorson, this hotel is just 10 km south of the famous Mont St-Michel. It offers a restaurant with a terrace and an interior courtyard. A private parking is at guests' disposal.",48.554096,-1.500629,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,"L'Etape du Mont, Family Hostel",https://www.booking.com/hotel/fr/l-39-etape-mont-saint-michel.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=23&hapos=23&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/358038918.jpg?k=58bdffbc010e5196a049d03579190501f1396c3e6714d59ea459a64f5111e50d&o=&hp=1,"a woman sitting in a room with bunk beds at L'Etape du Mont, Family Hostel in Pontorson",8.9,0,0,Hotel,A continental breakfast is available daily at the hotel.,48.55662,-1.51121,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,"The Originals Boutique, Hôtel Les Quatre Salines, Le Mont Saint-Michel Sud (Inter-Hotel)",https://www.booking.com/hotel/fr/lessalines.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=22&hapos=22&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from_sustainable_property_sr=1&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/104393836.jpg?k=41ef55f01926ce35ebaa4f01b74cd526c02aa717ff5dd5ee996447d04bde4b60&o=&hp=1,"a bedroom with a large bed and a chair at The Originals Boutique, Hôtel Les Quatre Salines, Le Mont Saint-Michel Sud (Inter-Hotel) in Roz-sur-Couesnon",7.7,0,3,Hotel,"The Originals Boutique, Hôtel Les Quatre Salines, Le Mont Saint-Michel Sud is located just a 10-minute drive from Le Mont Saint Michel and a 35-minute drive from Saint Malo.",48.596405,-1.5892035,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,Vacancéole - Les Chambres de la Baie,https://www.booking.com/hotel/fr/vacanceole-les-chambres-de-la-baie.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=21&hapos=21&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/335862416.jpg?k=caaaa2bddb3adf12dc09778887b9d4a71f8601b99b4403587139ef83181289dd&o=&hp=1,a pool in a large room with a wooden floor at Vacancéole - Les Chambres de la Baie in Roz-sur-Couesnon,7.1,0,0,Hotel,The units in the hotel are equipped with a flat-screen TV. At Vacancéole - Les Chambres de la Baie all rooms come with air conditioning and a private bathroom.,48.593575,-1.596291,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,ibis Pontorson Baie Du Mont Saint Michel,https://www.booking.com/hotel/fr/ibis-pontorson-baie-du-mont-saint-michel.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=20&hapos=20&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from_sustainable_property_sr=1&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/206946466.jpg?k=01d8f240006c137eda7629bc297d5686d636457208cf8cc7b533e85bf7e12198&o=&hp=1,a castle on an island in a field of grass at ibis Pontorson Baie Du Mont Saint Michel in Saint-Georges-de-Gréhaigne,8.0,0,3,Hotel,"At the hotel, all rooms include a flat-screen TV with satellite channels and a wardrobe. The rooms come with a private bathroom with a shower and a hair dryer.",48.57155,-1.543127,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,Vacancéole - Le Domaine du Mont - Mont St Michel,https://www.booking.com/hotel/fr/et-residence-club-mmv-le-domaine-du-mont.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=19&hapos=19&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/251470293.jpg?k=12c99ca789fb8b63b68c44fa56d3481682e9a214ef9a81fd756a140f101bfef3&o=&hp=1,an apartment building with a tree in front of it at Vacancéole - Le Domaine du Mont - Mont St Michel in Roz-sur-Couesnon,7.2,0,3,Hotel,"Located just 18 km from Mont Saint Michel in Roz-Sur-Couesnon, Vacancéole Le Domaine du Mont offers a shaded outdoor terrace. Some of the rooms are air conditioned.",48.593525,-1.5963703,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,"Manoir de la Roche Torin, The Originals Relais (Relais du Silence)",https://www.booking.com/hotel/fr/le-manoir-de-la-roche-torin.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=18&hapos=18&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/81443390.jpg?k=f8e0ff90b38b2802900e6066abc518e13c73896444ec4f3b94fb859157d11864&o=&hp=1,"a large house with a gazebo in a yard at Manoir de la Roche Torin, The Originals Relais (Relais du Silence) in Courtils",7.9,0,3,Hotel,"Located in Courtils, Manoir de la Roche Torin, The Originals Relais is 10 km from the Mont-Saint-Michel. It offers free WiFi access, a garden and views of the Mont-Saint-Michel Abbey. The hotel’s restaurant is set in a conservatory.",48.63727,-1.4250618,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,Ermitage - Mont-Saint-Michel,https://www.booking.com/hotel/fr/ermitage-mont-saint-michel-beauvoir.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=17&hapos=17&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from_sustainable_property_sr=1&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/332939987.jpg?k=85e4663b83486e055a080a6fca2a1c1faaac44788749e3b328d957a669bdbded&o=&hp=1,Gallery image of Ermitage - Mont-Saint-Michel in Beauvoir,8.4,0,5,Hotel,"Situated in Beauvoir, 5.4 km from Mont Saint Michel Abbey, Ermitage - Mont-Saint-Michel features accommodation with a restaurant, free private parking, a bar and a shared lounge. This 5-star hotel offers room service and a concierge service. The property offers bike hire and features a garden and terrace.",48.59449,-1.511429,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00
Mont Saint Michel,Le Beauvoir,https://www.booking.com/hotel/fr/le-beauvoir-beauvoir.en-gb.html?label=gen173nr-1FCAEoggI46AdIM1gEaE2IAQGYAQm4AQrIAQXYAQHoAQH4AQmIAgGoAgO4ApC13ZkGwAIB0gIkZjhmYTYwOTgtN2I4NS00YWEyLWI3ZDMtMTM0YzZjYTFjZGMw2AIG4AIB&sid=a2e2509c61915611e95d9401930c4e32&aid=304142&ucfs=1&arphpl=1&group_adults=2&req_adults=2&no_rooms=1&group_children=0&req_children=0&hpos=16&hapos=16&sr_order=popularity&nflt=ht_id%3D204&srpvid=ee519492ab9801dc&srepoch=1664572070&from=searchresults#hotelTmpl,https://cf.bstatic.com/xdata/images/hotel/max1024x768/214715455.jpg?k=3d7c53a3798847500f620f18b34308b142950e3f6737485ff21577b21bb2ad40&o=&hp=1,a restaurant with tables and chairs and a purple door at Le Beauvoir in Beauvoir,7.6,0,2,Hotel,Le Beauvoir is located just 4 kilometres from Mont Saint Michel and a 20-minute drive from Cancale. It offers free private parking and a restaurant.,48.597713,-1.5130985,48.635956,-1.51146,18.0,18.366667,66.666664,3.43,scattered clouds,0.0,2022-10-04 00:00:00,2022-10-08 21:00:00


In [None]:
#import pyspark
#from pyspark.sql import SparkSession
#from pyspark.sql import Row
#spark = SparkSession.builder.appName("Python Spark SQL basic example").config("spark.jars", "postgresql-42.2.14.jar").getOrCreate()

#### Ecriture du fichier final dans la BD RS de AWS

In [None]:
DBHOST = 'jdbc:postgresql://kayak-1.can6eobhisjb.eu-west-3.rds.amazonaws.com/'
DBUSER = "postgres"
DBPASS = "**************"
DBNAME = "postgres"
PORT = "5432"

In [None]:
data_join.write.format("jdbc")\
    .option("url", (DBHOST + DBNAME)) \
    .option("driver", "org.postgresql.Driver").option("dbtable", "Hostels_and_Meteo") \
    .option("user", DBUSER).option("password", DBPASS).save()

Dans le dernier jupyter notebook, on vérifiera que la table 'Hostels_and_Meteo' base de données à bien été créée et permet les requêtes.