In [33]:
import pandas as pd
import numpy as np
import googlemaps

# Restaurant inspections data set

In [3]:
inspections_file = "./data/inspections-restaurants"
inspections = pd.read_csv(inspections_file + ".csv", delimiter=";")

In [4]:
inspections.head(5)

Unnamed: 0,Nom,Enseigne,Raison sociale,SIRET,Classe atelier,Adresse,Code postal,Localité,Code commune,Libellé commune,...,Note globale,Fermeture,MED,Coordonnées géographiques,Libellé établissement,Date extraction,Note,Evaluation,departement,est_75_ou_84
0,THESTEACKFRITES,CAFE DES ABATTOIRS,THESTEACKFRITES,79157517800029,Restauration commerciale rapide - Cuisine,10 RUE GOMBOUST,75001,PARIS 1,75101,PARIS 1ER,...,C,0,0,"48.867387155, 2.332735426",SAS THESTEACKFRITES,2015-01-07,note D,20,75,oui
1,UMAMI,UMAMI,UMAMI,80041038300023,Restauration commerciale traditionnelle - Cuisine,7 RUE DU VINGT NEUF JUILLET,75001,PARIS 1,75101,PARIS 1ER,...,C,0,0,"48.863195893, 2.336133862",UMAMI SAS,2015-01-07,note D,20,75,oui
2,S&H,L'AVANT PREMIERE,S&H,80320458500019,Restauration commerciale traditionnelle - Cuisine,9 RUE DES PETITS CHAMPS,75001,PARIS 1,75101,PARIS 1ER,...,B,0,0,"48.866272815, 2.338753853",SAS S&H,2015-01-07,note B,10,75,oui
3,SOCIETE DE GERANCE DES FRANCS BOURGEOI,DONATO,SOCIETE DE GERANCE DES FRANCS BOURGEOI,80497595100018,Restauration commerciale traditionnelle - Cuisine,12 RUE COQUILLIERE,75001,PARIS,75101,PARIS 1ER,...,C,0,0,"48.863546941, 2.343246508",SGFB,2015-01-07,note D,20,75,oui
4,BERTHELOT JEAN MARC,BISTROT CAPUCINES,BERTHELOT JEAN MARC,40845066600016,Restauration commerciale traditionnelle - Cuisine,22 RUE DES CAPUCINES,75002,PARIS 2,75102,PARIS 2EME,...,C,0,0,"48.869444864, 2.328647621",BERTHELOT JEAN-MARC,2015-01-07,note D,20,75,oui


In [5]:
inspections.columns

Index(['Nom', 'Enseigne', 'Raison sociale', 'SIRET', 'Classe atelier',
       'Adresse', 'Code postal', 'Localité', 'Code commune', 'Libellé commune',
       'Date inspection', 'Note globale', 'Fermeture', 'MED',
       'Coordonnées géographiques', 'Libellé établissement', 'Date extraction',
       'Note', 'Evaluation', 'departement', 'est_75_ou_84'],
      dtype='object')

In [6]:
inspections["Localité"].unique()

array(['PARIS 1', 'PARIS', 'PARIS 2', 'PARIS 3', 'PARIS 4', 'PARIS 5',
       'PARIS 6', 'PARIS 7', 'PARIS 8', 'PARIS 9', 'PARIS 10', 'PARIS 11',
       'PARIS 12', 'PARIS 17', 'PARIS 13', 'PARIS 14', 'PARIS 15',
       'PARIS 18', 'PARIS 19', 'PARIS 20', 'AVIGNON', 'CAVAILLON',
       'MONTFAVET'], dtype=object)

In [7]:
# Only keeep Paris data
inspections = inspections[inspections["Localité"].str.contains("PARIS")]
inspections["Localité"].unique()

array(['PARIS 1', 'PARIS', 'PARIS 2', 'PARIS 3', 'PARIS 4', 'PARIS 5',
       'PARIS 6', 'PARIS 7', 'PARIS 8', 'PARIS 9', 'PARIS 10', 'PARIS 11',
       'PARIS 12', 'PARIS 17', 'PARIS 13', 'PARIS 14', 'PARIS 15',
       'PARIS 18', 'PARIS 19', 'PARIS 20'], dtype=object)

In [8]:
inspections.shape

(843, 21)

In [9]:
# Keep relevant data
keep_col = ['Nom', 'SIRET', 'Adresse', 'Code postal', 'Localité', 
            'Date inspection', 'Note globale', 'Fermeture',  'Note', 'Evaluation',
            'Coordonnées géographiques', 'Date extraction']
inspections = inspections[keep_col]

In [10]:
inspections.head(5)

Unnamed: 0,Nom,SIRET,Adresse,Code postal,Localité,Date inspection,Note globale,Fermeture,Note,Evaluation,Coordonnées géographiques,Date extraction
0,THESTEACKFRITES,79157517800029,10 RUE GOMBOUST,75001,PARIS 1,2015-06-22,C,0,note D,20,"48.867387155, 2.332735426",2015-01-07
1,UMAMI,80041038300023,7 RUE DU VINGT NEUF JUILLET,75001,PARIS 1,2015-04-28,C,0,note D,20,"48.863195893, 2.336133862",2015-01-07
2,S&H,80320458500019,9 RUE DES PETITS CHAMPS,75001,PARIS 1,2015-04-24,B,0,note B,10,"48.866272815, 2.338753853",2015-01-07
3,SOCIETE DE GERANCE DES FRANCS BOURGEOI,80497595100018,12 RUE COQUILLIERE,75001,PARIS,2015-04-07,C,0,note D,20,"48.863546941, 2.343246508",2015-01-07
4,BERTHELOT JEAN MARC,40845066600016,22 RUE DES CAPUCINES,75002,PARIS 2,2015-05-07,C,0,note D,20,"48.869444864, 2.328647621",2015-01-07


In [67]:
# Make the restaurant name lowercase
inspections["Nom"] = inspections["Nom"].str.lower()

In [69]:
inspections.to_csv(inspections_file + "_pp.csv", index=False)

# Reviews data set

In [24]:
reviews_file = "./data/base_DFG_1k"
reviews = pd.read_csv(reviews_file + ".csv")

In [25]:
reviews.head(5)

Unnamed: 0,Adresse,Code Postal,Commentaire,Date du commentaire,Note,Origine,Resto,Ville,Id,Date
0,63 AV MOZART,75016,Un accueil hyper chaleureux! Les gérants sont ...,30/04/2016,5,TripAdvisor,macis cafe,Paris,0,20160430.0
1,63 AV MOZART,75016,"Nous cherchions à déjeuner, seul bémol, l'heur...",21/04/2016,4,TripAdvisor,macis cafe,Paris,1,20160421.0
2,63 AV MOZART,75016,Des plats réalisés à partir de produits frais ...,10/02/2016,3,TripAdvisor,macis cafe,Paris,2,20160210.0
3,90 Rue des Orteaux,75020,Restaurant Sushi plutot correct dans l ensembl...,27/02/2016,3,TripAdvisor,sushi tomi,Paris,3,20160227.0
4,90 Rue des Orteaux,75020,Déçue de ma dernière visite car impossible de ...,17/01/2016,3,TripAdvisor,sushi tomi,Paris,4,20160117.0


In [26]:
reviews["Ville"].unique()

array(['Paris'], dtype=object)

In [27]:
# Unique restaurant names in the data set
unique_restaurants = reviews["Resto"].unique()
# Number of restaurant in the data set
np.size(unique_restaurants)

95

In [28]:
# Add latitude and longitude columns
reviews["latitude"] = 0
reviews["longitude"] = 0

In [29]:
reviews.head(5)

Unnamed: 0,Adresse,Code Postal,Commentaire,Date du commentaire,Note,Origine,Resto,Ville,Id,Date,latitude,longitude
0,63 AV MOZART,75016,Un accueil hyper chaleureux! Les gérants sont ...,30/04/2016,5,TripAdvisor,macis cafe,Paris,0,20160430.0,0,0
1,63 AV MOZART,75016,"Nous cherchions à déjeuner, seul bémol, l'heur...",21/04/2016,4,TripAdvisor,macis cafe,Paris,1,20160421.0,0,0
2,63 AV MOZART,75016,Des plats réalisés à partir de produits frais ...,10/02/2016,3,TripAdvisor,macis cafe,Paris,2,20160210.0,0,0
3,90 Rue des Orteaux,75020,Restaurant Sushi plutot correct dans l ensembl...,27/02/2016,3,TripAdvisor,sushi tomi,Paris,3,20160227.0,0,0
4,90 Rue des Orteaux,75020,Déçue de ma dernière visite car impossible de ...,17/01/2016,3,TripAdvisor,sushi tomi,Paris,4,20160117.0,0,0


In [61]:
idx = 0
gmaps = googlemaps.Client(key='AIzaSyBiM5WGsHE0DI4eJGluhWQYPgi5m68xAe8')
for (adresse, cp), grp in reviews.groupby(["Adresse", "Code Postal"]):
    query = adresse + ", " + cp + ", " + "Paris, France"
    if (idx < 1):
        print(query)
    # Geocoding an address
    #geocode_result = gmaps.geocode(query)
    #reviews.loc[(reviews["Adresse"]==adresse) & (reviews["Code Postal"]==cp),["latitude"]] = geocode_result[0]['geometry']['location']['lat']
    #reviews.loc[(reviews["Adresse"]==adresse) & (reviews["Code Postal"]==cp),["longitude"]] = geocode_result[0]['geometry']['location']['lng']
    idx += 1

1 Rue Du Bac, 75007, Paris, France


In [62]:
reviews.head(5)

Unnamed: 0,Adresse,Code Postal,Commentaire,Date du commentaire,Note,Origine,Resto,Ville,Id,Date,latitude,longitude
0,63 AV MOZART,75016,Un accueil hyper chaleureux! Les gérants sont ...,30/04/2016,5,TripAdvisor,macis cafe,Paris,0,20160430.0,48.854056,2.269267
1,63 AV MOZART,75016,"Nous cherchions à déjeuner, seul bémol, l'heur...",21/04/2016,4,TripAdvisor,macis cafe,Paris,1,20160421.0,48.854056,2.269267
2,63 AV MOZART,75016,Des plats réalisés à partir de produits frais ...,10/02/2016,3,TripAdvisor,macis cafe,Paris,2,20160210.0,48.854056,2.269267
3,90 Rue des Orteaux,75020,Restaurant Sushi plutot correct dans l ensembl...,27/02/2016,3,TripAdvisor,sushi tomi,Paris,3,20160227.0,48.855704,2.407683
4,90 Rue des Orteaux,75020,Déçue de ma dernière visite car impossible de ...,17/01/2016,3,TripAdvisor,sushi tomi,Paris,4,20160117.0,48.855704,2.407683


In [65]:
reviews.to_csv(reviews_file + "_pp.csv", index=False)