# KAYAK

## Entreprise : 

- Kayak est une très grande entreprise internationale, fondée en 2004 et a été racheté par Booking Hodings.  
- Son activité : consiste à rechercher via leur site, les meilleurs voyages au meilleur prix.
- Ses partenaires sont : Booking.com, Kayak, Ligne de prix, Agoda, Location de voiture et Table ouverte

## Problématique : 

Après avoir effectué des recherches sur les utilisateurs, l'équipe a découvert que 70 % de leurs utilisateurs qui planifient un voyage : 
- aimeraient avoir plus d'informations sur la destination vers laquelle ils se rendent
- ont tendance à se méfier des informations qu'ils lisent, s'ils ne connaissent pas la marque qui a produit le contenuet

Kayak Marketing Team souhaite créer une application, qui recommandera aux gens où planifier leurs prochaines vacances, mais ne dispose d'aucunes données sur les hôtels et le temps à venir. 

## Objectifs : 

- Collecter les données des destinations (35 plus belles villes de France)

- Obtenir des données météorologiques des destinations
    - Les coordonnées latitudes et longitudes + 1 visualisation
    - La météo des 7 prochains jours + 1 visualisation
    
    
- Prendre les informations des hôtels sur chaque destination

- Stocker toutes les informations ci-dessus dans un lac de données (S3)

- Envoyer les données sur RDS et PGadmin pour faire une requête (processus ETL) 

#### 1) Collecter les 35 plus belles villes de France

In [102]:
!pip install bs4

Processing /home/jovyan/.cache/pip/wheels/75/78/21/68b124549c9bdc94f822c02fb9aa3578a669843f9767776bca/bs4-0.0.1-py3-none-any.whl
Installing collected packages: bs4
Successfully installed bs4-0.0.1


In [103]:
import requests
from bs4 import BeautifulSoup 

liste_ville = []

html_content = requests.get('https://one-week-in.com/35-cities-to-visit-in-france/%27').text

soup = BeautifulSoup(html_content, 'html.parser')

for x in range(6,41):
    liste_ville.append(soup.select("div.entry-content a")[x].get_text())
liste_ville

['Mont Saint Michel',
 'St Malo',
 'Bayeux',
 'Le Havre',
 'Rouen',
 'Paris',
 'Amiens',
 'Lille',
 'Strasbourg',
 'Chateau du Haut Koenigsbourg',
 'Colmar',
 'Eguisheim',
 'Besancon',
 'Dijon',
 'Annecy',
 'Grenoble',
 'Lyon',
 'Verdon Gorge',
 'Bormes les Mimosas',
 'Cassis',
 'Marseille',
 'Aix en Provence',
 'Avignon',
 'Uzès',
 'Nímes',
 'Aigues Mortes',
 'Saintes Maries de la mer',
 'Collioure',
 'Carcassonne',
 'Ariege',
 'Toulouse',
 'Montauban',
 'Biarritz',
 'Bayonne',
 'La Rochelle']

In [104]:
import pandas as pd

In [105]:
city = pd.DataFrame(data = liste_ville)

In [106]:
city.head()

Unnamed: 0,0
0,Mont Saint Michel
1,St Malo
2,Bayeux
3,Le Havre
4,Rouen


In [107]:
city.rename(columns={0: 'city_name'}, inplace=True)

In [108]:
city['Id_city']=city.index

In [109]:
city.head()

Unnamed: 0,city_name,Id_city
0,Mont Saint Michel,0
1,St Malo,1
2,Bayeux,2
3,Le Havre,3
4,Rouen,4


#### 2) Obtenez des données météo (méthode API)

##### A) les coordonnées GPS de toutes les villes

In [110]:
import requests

In [114]:
#Test pour vérifier si la méthode API fonctionne bien
parametre = {'q' : 'Bayeux',
            'country' : 'France',
            'format' : 'json'}
r = requests.get('https://nominatim.openstreetmap.org/search?', parametre)

In [112]:
r  #Response [200] confirme que le téléchargement a été bien fait

<Response [200]>

In [113]:
r.json()[0]   #On n'a sortie le 1er élément de Bayeux ! NB : certains nom de ville peuvent apparaitre dans le monde entier

{'place_id': 281962470,
 'licence': 'Data © OpenStreetMap contributors, ODbL 1.0. https://osm.org/copyright',
 'osm_type': 'relation',
 'osm_id': 145776,
 'boundingbox': ['49.2608124', '49.2934736', '-0.7275671', '-0.6757378'],
 'lat': '49.2764624',
 'lon': '-0.7024738',
 'display_name': 'Bayeux, Calvados, Normandie, France métropolitaine, 14400, France',
 'class': 'boundary',
 'type': 'administrative',
 'importance': 0.6827003853621927,
 'icon': 'https://nominatim.openstreetmap.org/ui/mapicons//poi_boundary_administrative.p.20.png'}

In [12]:
import time

In [16]:
lat = []
lon = []
error_req = []



for i in range(0,35) :
    
    
    try : 
        
        print('iteration number  {}........'.format(i))
        parametre = {'q' : liste_ville[i],
                'country' : 'France',
                'format' : 'json'}
        r = requests.get('https://nominatim.openstreetmap.org/search?', parametre)
        lon.append(r.json()[0]['lon'])
        lat.append(r.json()[0]['lat'])
        time.sleep(1)
        print('Done')
       
        
        
    except:
        print("didnt worked on the  follwing request {}".format(i))
        print(liste_ville[i])
        error_req.append(i)
        continue

print('--------------------------------------')
print('Number of correct request scrapped {}:'.format(len(lat)))
print('Number of incorrect request scrapped {}:'.format(len(error_req))) 

iteration number  0........
didnt worked on the  follwing request 0
Mont Saint Michel
iteration number  1........
Done
iteration number  2........
didnt worked on the  follwing request 2
Bayeux
iteration number  3........
Done
iteration number  4........
Done
iteration number  5........
Done
iteration number  6........
didnt worked on the  follwing request 6
Amiens
iteration number  7........
Done
iteration number  8........
didnt worked on the  follwing request 8
Strasbourg
iteration number  9........
didnt worked on the  follwing request 9
Chateau du Haut Koenigsbourg
iteration number  10........
Done
iteration number  11........
Done
iteration number  12........
Done
iteration number  13........
Done
iteration number  14........
Done
iteration number  15........
Done
iteration number  16........
didnt worked on the  follwing request 16
Lyon
iteration number  17........
didnt worked on the  follwing request 17
Verdon Gorge
iteration number  18........
didnt worked on the  follwing re

In [17]:
len(lat)

23

In [18]:
lon

['-96.9538228',
 '0.1079732',
 '1.0939658',
 '2.3200410217200766',
 '3.0635282',
 '7.3579641',
 '7.3079618',
 '25.5080179',
 '5.0414701',
 '6.1288847',
 '5.7357819',
 '5.3699525',
 '4.8059012',
 '4.4196718',
 '4.3600687',
 '4.1912837',
 '4.4287172',
 '2.3491069',
 '1.4442469',
 '1.3549991',
 '-1.552726590666314',
 '-1.475099',
 '-1.1520434']

In [19]:
city['latitude'] = lat
city['longitude'] = lon

ValueError: Length of values (23) does not match length of index (35)

In [20]:
city.head()

Unnamed: 0,0
0,Mont Saint Michel
1,St Malo
2,Bayeux
3,Le Havre
4,Rouen


##### B) Obtenir des informations sur la météo des 35 villes

In [21]:
import requests

In [24]:
import numpy as np

In [22]:
Cle_API = 'b69c7ca9a95827be8065dc4ba3523157' #On n'a besoin de notre clé API pour utiliser les services API du site 

In [25]:
forcast_meteo = []

#ETAPE 1 : 

for i in range(0,35) :                                        #On itère sur les listes lat et lon des 35 villes 
    parametre = {'lat' : lat[i],
                 'lon' : lon[i],
                 'exclude' : ['current','minutely','hourly'],  #Pour exclude : on veut seulement les données de Daily (7 prochain jours)
                 'unit' : 'metric',
                 'appid' : Cle_API}
    r = requests.get('https://api.openweathermap.org/data/2.5/onecall', parametre)
    forcast_meteo.append(r.json()['daily'])                   #On ajoute les données dans la variable forcast_meteo
    
    
    
    
#ETAPE 2 :   

    list_temp = []
    temp_mean = []
    
    for t in range (0,7) :                                     #On itère sur les 7 jours en précisant qu'on veut le temps maximum. 
        list_temp.append(r.json()['daily'][t]['temp']['max'])  
    avg = np.mean(list_temp)                                   #On veut calculer la moyenne du temps maximum des 7 jours 
    temp_mean.append(avg)                                      #Cette moyenne sera stockée dans la variable temp_mean 

IndexError: list index out of range

##### NB : il y a eu un problème avec l'API... Mais heuresement avant on a pu récupérer toutes les données sur un fichier City_vdiff.csv

In [27]:
#Pour contrôler si on a bien 35 temp_mean, en référence au 35 villes, mais ce n'est pas le cas...
len(temp_mean)

23

In [28]:
#Permet de voir le 1er élément (1er jour) de la requête.json format "Daily" :  
r.json()['daily'][0]

{'dt': 1635159600,
 'sunrise': 1635143724,
 'sunset': 1635181300,
 'moonrise': 1635191040,
 'moonset': 1635161100,
 'moon_phase': 0.65,
 'temp': {'day': 289.79,
  'min': 287.61,
  'max': 289.79,
  'night': 287.9,
  'eve': 288.22,
  'morn': 287.8},
 'feels_like': {'day': 289.52, 'night': 287.78, 'eve': 288.11, 'morn': 287.67},
 'pressure': 1021,
 'humidity': 77,
 'dew_point': 285.69,
 'wind_speed': 5.13,
 'wind_deg': 208,
 'wind_gust': 7.01,
 'weather': [{'id': 501,
   'main': 'Rain',
   'description': 'moderate rain',
   'icon': '10d'}],
 'clouds': 82,
 'pop': 0.87,
 'rain': 5.15,
 'uvi': 2}

In [30]:
# Méthode 1 ajouter une colonne temp_mean avec la variable "temp_mean" 
city['temp_mean'] = temp_mean
#problème : la conversion de la temperature ne fonctionnait pas donc on a procédé autrement 

ValueError: Length of values (23) does not match length of index (35)

In [29]:
#Faire une fonction, pour convertir la temperature : 
def temperature(x) :
    temperature_C = x - 273.15
    return temperature_C

In [None]:
#Appliquer la fonction sur la colonne "temp_mean" pour avoir les degrés
city['temp_mean'] = city['temp_mean'].apply(lambda x: temperature(x))

In [None]:
city.head() 

In [None]:
#créer un fichier CSV du dataframe City
city.to_csv('city.csv')

#### C) Visualisation de la température par ville et déterminer les 5 meilleurs destinations : 

In [None]:
#Avant les problèmes d'API, j'ai du convertir les colonnes Longitude, latitude et temp_mean en float 
# city['longitude']=pd.to_numeric(city['longitude']).astype(float)
# city['latitude']=pd.to_numeric(city['latitude']).astype(float) 
# city['temp_mean']=pd.to_numeric(city['temp_mean']).astype(float)
#Mais plus besoin de ces instructions 

In [3]:
!pip install plotly==4.8.1

Collecting plotly==4.8.1
  Using cached plotly-4.8.1-py2.py3-none-any.whl (11.5 MB)
Processing /home/jovyan/.cache/pip/wheels/c4/a7/48/0a434133f6d56e878ca511c0e6c38326907c0792f67b476e56/retrying-1.3.3-py3-none-any.whl
Installing collected packages: retrying, plotly
Successfully installed plotly-4.8.1 retrying-1.3.3


In [4]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.io as pio

pio.renderers.default = "iframe_connected" 

In [5]:
#On a utilisé le fichier csv, pour faire la visualisation sans dépendre des boucles précédantes
city_new = pd.read_csv("city_vdiff.csv")    

In [6]:
city_new.head()

Unnamed: 0.1,Unnamed: 0,city_name,latitude,longitude,temp_mean,Id_city
0,0,Mont Saint Michel,48.635954,-1.51146,15.978571,0
1,1,St Malo,48.649518,-2.026041,15.958571,1
2,2,Bayeux,49.276462,-0.702474,15.592857,2
3,3,Le Havre,49.493897,0.107973,15.532857,3
4,4,Rouen,49.440459,1.093966,15.642857,4


In [8]:
city_new.dtypes

Unnamed: 0      int64
city_name      object
latitude      float64
longitude     float64
temp_mean     float64
Id_city         int64
dtype: object

In [9]:
#En utilisant le fichier city_vdiff.csv, mes colonnes latitude, longitude et temp_mean étaient déjà en type float : 

fig = px.scatter_mapbox(data_frame = city_new, lat ="latitude", lon ="longitude", color = "temp_mean", size="temp_mean", 
                        category_orders = [city_new["temp_mean"]>18], text ="city_name",
                        mapbox_style = "carto-positron", zoom = 4, title = "La température des 35 villes")

fig.show()

In [10]:
#Pour connaitre les 5 villes qui ont le meilleurs temps :
city_new.sort_values(by=['temp_mean'], ascending=False)

Unnamed: 0.1,Unnamed: 0,city_name,latitude,longitude,temp_mean,Id_city
15,15,Grenoble,45.18756,5.735782,19.648571,15
28,28,Carcassonne,43.213036,2.349107,19.591429,28
20,20,Marseille,43.296174,5.369953,19.422857,20
22,22,Avignon,43.949249,4.805901,19.39,22
30,30,Toulouse,43.604462,1.444247,19.39,30
31,31,Montauban,44.017584,1.354999,19.342857,31
19,19,Cassis,43.214036,5.539632,19.281429,19
33,33,Bayonne,43.493338,-1.475099,19.25,33
24,24,Nímes,43.837425,4.360069,19.235714,24
27,27,Collioure,42.52505,3.083155,19.215714,27


Conclusion : 
les 5 meilleurs distanitation où il fait le plus chaud sont : Grenoble, Carcassonne, Marseille, Avignon, Toulouse. 

#### 3) Collecter des données sur les différents hotels des 35 villes

In [14]:
!pip install plotly==4.8.1

Collecting plotly==4.8.1
  Using cached plotly-4.8.1-py2.py3-none-any.whl (11.5 MB)
Processing /home/jovyan/.cache/pip/wheels/c4/a7/48/0a434133f6d56e878ca511c0e6c38326907c0792f67b476e56/retrying-1.3.3-py3-none-any.whl
Installing collected packages: retrying, plotly
Successfully installed plotly-4.8.1 retrying-1.3.3


In [15]:
import glob
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.io as pio

pio.renderers.default = "iframe_connected" 

In [16]:
frame = pd.DataFrame()

hotel_files = glob.glob('*.json') #ouvrir les fichiers
for hotel_file in hotel_files : #fichier par fichier
    
    df = pd.read_json(hotel_file) #les charger
#    df['name'] = df['name'].str.replace('\n', '')
#    df['description'] = df['description'].str.replace('\n', '') #retirer les mauvais caractères
    
#    city_name = hotel_file[9:-5] #enlever les caractères dans le nom du fichier
    
#    df['city'] = city_name #rajouter le nom de la ville
#    df.to_json(f'{city_name}.json')
    df[['Lon','Lat']] = df.coords.str.split(",",expand=True)
    
    df.drop(['name', 'description','url'], inplace= True, axis = 1)
    frame = frame.append(df)

In [5]:
combined_csv = frame.to_csv('combined.csv')  #Convertir la dataset Combined_csv en fichier.csv

In [17]:
combined_csv = pd.read_csv("combined.csv")

In [18]:
combined_csv.dtypes

Unnamed: 0      int64
coords         object
score          object
city           object
Lon           float64
Lat           float64
dtype: object

In [19]:
#Pour faire la visualisation, on a du modifier la colonne "Score"

#Remplacer la virgule par un point pour la colonne score : 
combined_csv["score"] = [float(str(i).replace(",", ".")) for i in combined_csv["score"]]

#Dans score on remplace les vides par 0 : 
combined_csv["score"] = combined_csv["score"].replace(np.nan, 0, regex=True)

In [21]:
combined_csv.dtypes

Unnamed: 0      int64
coords         object
score         float64
city           object
Lon           float64
Lat           float64
dtype: object

#### C) Visualisation des scores d'hotels, sur les 35 villes et déterminer les 20 meilleurs hotels : 

In [22]:
fig = px.scatter_mapbox(data_frame= combined_csv, lat ="Lat", lon ="Lon", color = "score", size="score", text ="city",
                             mapbox_style = "carto-positron", zoom = 4, title = "Les hotels")

fig.show()

In [23]:
#Pour connaitre les 20 hôtels qui ont le meilleurs temps :
sorted_combined = combined_csv.sort_values(by=['score'], ascending=False)
sorted_combined.head(20)

Unnamed: 0.1,Unnamed: 0,coords,score,city,Lon,Lat
13045,962,"6.154631822754,43.079708817915",10.0,BormeslesMimosas,6.154632,43.079709
12594,511,"6.453817982662,43.157055672982",10.0,BormeslesMimosas,6.453818,43.157056
5862,310,"4.80613598525,43.951758690621",10.0,Avignon,4.806136,43.951759
13781,315,"-1.506585571152,48.501609183259",10.0,MontSaintMichel,-1.506586,48.501609
6223,226,"7.455302811045,48.259913128814",10.0,ChateauduHautKoenigsbourg,7.455303,48.259913
9817,906,"4.62305343507228,43.6765219894539",10.0,SaintesMariesdelamer,4.623053,43.676522
5494,942,"6.773577,43.618298",10.0,GorgesduVerdon,6.773577,43.618298
959,104,"1.62969466264345,43.0680593529173",10.0,Ariege,1.629695,43.068059
5882,330,"4.8012291,43.9483394",10.0,Avignon,4.801229,43.948339
12049,308,"5.042916150961,47.3230035184",10.0,Dijon,5.042916,47.323004


#### 4) Envoyer les fichiers City et Booking dans un bucket S3

In [51]:
!pip install Boto3



In [52]:
#Je connecte le notebook à mon bucket s3 : 
import boto3

s3 = boto3.resource(
    service_name='s3',
    region_name='eu-west-3',
    aws_access_key_id='XXX',
    aws_secret_access_key='XXX')

In [53]:
# Je télécharge les fichiers.CSV vers le bucket s3 : 
s3.Bucket('bucketkichon120997').upload_file(Filename='city.csv', Key='city.csv')
s3.Bucket('bucketkichon120997').upload_file(Filename='combined.csv', Key='combined.csv')

#### 5) Faire une requête des meilleurs hotels à Grenoble (processus ETL)

In [54]:
!pip install psycopg2-binary



In [61]:
#On créé une connexion entre l'instance RDS et PGadmin : 

from sqlalchemy import create_engine
dbuser = 'postgres'
dbpass = 'XXX'
dbhost = 'p2-kayak.chwshwkekobd.eu-west-3.rds.amazonaws.com'  
dbname = 'postgres'

engine = create_engine( f'postgresql+psycopg2://{dbuser}:{dbpass}@{dbhost}/{dbname}',echo=True)
engine

Engine(postgresql+psycopg2://postgres:***@p2-kayak.chwshwkekobd.eu-west-3.rds.amazonaws.com/postgres)

In [62]:
#convertir le dataframe City_new en SQL
city_new.to_sql('35_top_cities',engine)

2021-10-27 16:33:21,112 INFO sqlalchemy.engine.base.Engine select version()
2021-10-27 16:33:21,113 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:33:21,125 INFO sqlalchemy.engine.base.Engine select current_schema()
2021-10-27 16:33:21,126 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:33:21,138 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS VARCHAR(60)) AS anon_1
2021-10-27 16:33:21,139 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:33:21,145 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS VARCHAR(60)) AS anon_1
2021-10-27 16:33:21,146 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:33:21,152 INFO sqlalchemy.engine.base.Engine show standard_conforming_strings
2021-10-27 16:33:21,153 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:33:21,164 INFO sqlalchemy.engine.base.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
20

In [63]:
#ouvrir Combined.csv : 
hotel = pd.read_csv('combined.csv')

In [66]:
#Convertir le fichier en SQL : 
hotel.to_sql('hostel2', con=engine, index=False, if_exists='append')

2021-10-27 16:35:21,978 INFO sqlalchemy.engine.base.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
2021-10-27 16:35:21,980 INFO sqlalchemy.engine.base.Engine {'name': 'hostel2'}
2021-10-27 16:35:21,998 INFO sqlalchemy.engine.base.Engine 
CREATE TABLE hostel2 (
	"Unnamed: 0" BIGINT, 
	coords TEXT, 
	score TEXT, 
	city TEXT, 
	"Lon" FLOAT(53), 
	"Lat" FLOAT(53)
)


2021-10-27 16:35:22,000 INFO sqlalchemy.engine.base.Engine {}
2021-10-27 16:35:22,018 INFO sqlalchemy.engine.base.Engine COMMIT
2021-10-27 16:35:22,031 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2021-10-27 16:35:22,249 INFO sqlalchemy.engine.base.Engine INSERT INTO hostel2 ("Unnamed: 0", coords, score, city, "Lon", "Lat") VALUES (%(Unnamed: 0)s, %(coords)s, %(score)s, %(city)s, %(Lon)s, %(Lat)s)
2021-10-27 16:35:22,250 INFO sqlalchemy.engine.base.Engine ({'Unnamed: 0': 0, 'coords': '-0.646487474441528,49.2542420864123',

In [99]:
#faire la requête pour identifier les meilleurs hotels de Grenoble (une des plus belles villes française et il fait le plus chaud) : 

from sqlalchemy.sql import text
import pandas as pd 


# Create a statement 
stmt = text("SELECT city, score FROM hostel2 WHERE city='Grenoble' ORDER BY score ASC")  #A noter : un petit problème avec le mode ascendant et descendant 

#Afficher la requête 
df = pd.read_sql(    
        stmt,        
        engine       
    )

df.head()

2021-10-27 17:19:02,071 INFO sqlalchemy.engine.base.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
2021-10-27 17:19:02,073 INFO sqlalchemy.engine.base.Engine {'name': "SELECT city, score FROM hostel2 WHERE city='Grenoble' ORDER BY score ASC"}
2021-10-27 17:19:02,091 INFO sqlalchemy.engine.base.OptionEngine SELECT city, score FROM hostel2 WHERE city='Grenoble' ORDER BY score ASC
2021-10-27 17:19:02,092 INFO sqlalchemy.engine.base.OptionEngine {}


Unnamed: 0,city,score
0,Grenoble,35
1,Grenoble,48
2,Grenoble,51
3,Grenoble,59
4,Grenoble,60
