In [1]:
pip install requests pandas googlemaps


Collecting googlemaps
  Downloading googlemaps-4.10.0.tar.gz (33 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: googlemaps
  Building wheel for googlemaps (setup.py): started
  Building wheel for googlemaps (setup.py): finished with status 'done'
  Created wheel for googlemaps: filename=googlemaps-4.10.0-py3-none-any.whl size=40750 sha256=476da80ec2a07c05ce4dae464bbecb43a6dc155bdd543dcaf4bc9fac0bc88aaa
  Stored in directory: c:\users\imtinen\appdata\local\pip\cache\wheels\18\8a\74\69684f55a6b3e396f2b8e129f98b576cb02d6bebe66a0c3999
Successfully built googlemaps
Installing collected packages: googlemaps
Successfully installed googlemaps-4.10.0
Note: you may need to restart the kernel to use updated packages.


### Récupération des données via l'API Google Reviews et sauvegarde dans un fichier CSV

In [2]:
import googlemaps
import pandas as pd

# Clé API Google
GOOGLE_API_KEY = "AIzaSyDzfPOKrbCBcOyZ3Wb8BSB-g8oL07GtKp4"

# Initialisation du client Google Maps
gmaps = googlemaps.Client(key=GOOGLE_API_KEY)

# Fonction pour rechercher des lieux automatiquement
def search_places(keyword, location, radius=1000):
    """
    Recherche les lieux correspondant à un mot-clé autour d'une localisation.
    """
    try:
        response = gmaps.places(query=keyword, location=location, radius=radius)
        places = response.get("results", [])
        
        # Extraire les place_id et noms des lieux
        data = [{"place_id": place["place_id"], "name": place["name"]} for place in places]
        return data
    except Exception as e:
        print(f"Erreur lors de la recherche des lieux : {e}")
        return []

# Fonction pour récupérer les avis d'un lieu
def get_reviews(place_id):
    """
    Récupère les avis clients pour un lieu donné via son place_id.
    """
    try:
        response = gmaps.place(place_id=place_id, fields=["name", "reviews"])
        result = response.get("result", {})
        reviews = result.get("reviews", [])
        
        # Structurer les données des avis
        data = []
        for review in reviews:
            data.append({
                "place_name": result.get("name"),
                "author_name": review.get("author_name"),
                "rating": review.get("rating"),
                "text": review.get("text"),
                "time": review.get("relative_time_description"),
                "platform": "Google Places"
            })
        return data
    except Exception as e:
        print(f"Erreur pour le Place ID {place_id}: {e}")
        return []

# Combiner recherche et extraction des avis
def collect_all_reviews(keyword, location, radius=1000):
    """
    Combine la recherche de lieux et l'extraction des avis pour créer un dataset complet.
    """
    print(f"Recherche de lieux pour le mot-clé : {keyword}")
    places = search_places(keyword, location, radius)
    
    all_reviews = []
    for place in places:
        print(f"Extraction des avis pour le lieu : {place['name']} (ID : {place['place_id']})")
        reviews = get_reviews(place["place_id"])
        all_reviews.extend(reviews)
    
    return pd.DataFrame(all_reviews)

# Sauvegarder les avis dans un fichier CSV
if __name__ == "__main__":
    # Paramètres : Mot-clé et localisation
    keyword = "restaurants"  # Exemple : "restaurants", "hôtels", "cafés", etc.
    location = "48.8566,2.3522"  # Latitude,Longitude de Paris
    radius = 2000  # Rayon en mètres pour la recherche

    # Collecter les avis
    reviews_data = collect_all_reviews(keyword, location, radius)
    
    # Sauvegarder dans un fichier CSV
    reviews_data.to_csv("automatic_customer_reviews.csv", index=False)
    print("Les avis ont été sauvegardés dans automatic_customer_reviews.csv")


Recherche de lieux pour le mot-clé : restaurants
Extraction des avis pour le lieu : Tata Burger (ID : ChIJSyqG5Bxu5kcR-Kv3J7NhEM8)
Extraction des avis pour le lieu : Il Gigolo (ID : ChIJLTho7uBx5kcRqaEK1xNGqww)
Extraction des avis pour le lieu : Chez Elie (ID : ChIJF6G0-UZv5kcRh__tWSz43Mw)
Extraction des avis pour le lieu : La Réserve Du Terroir - Restaurant Paris 4 (ID : ChIJkxq-0GRv5kcR5q-bLdl_5lY)
Extraction des avis pour le lieu : Le Marais Restaurant Paris (ID : ChIJ0Y7Uk_lv5kcRxQMuMKFtVmc)
Extraction des avis pour le lieu : TAJ MAHAL PARIS (ID : ChIJ_T21jRxu5kcRGDEfSetzhz4)
Extraction des avis pour le lieu : Pacha Restaurant (ID : ChIJ444opuVx5kcRJ3GbqvN_wVk)
Extraction des avis pour le lieu : Old Shalimar (ID : ChIJib-jIHVv5kcRWIZhh2JoYLc)
Extraction des avis pour le lieu : Il Seguito (ID : ChIJs5M4xv9t5kcRh7l_fBR7xBg)
Extraction des avis pour le lieu : Burger & Fries (ID : ChIJxdLBut5x5kcRg_IL_HlMWiM)
Extraction des avis pour le lieu : Monsieur Poirot (ID : ChIJI5NCuvht5kcREyDY

### Automatisation de collecte et sauvegarde dans une base de données sql LiTE

In [3]:
import googlemaps
import pandas as pd
import sqlite3
import time

# Clé API Google
GOOGLE_API_KEY = "AIzaSyDzfPOKrbCBcOyZ3Wb8BSB-g8oL07GtKp4"

# Initialisation du client Google Maps
gmaps = googlemaps.Client(key=GOOGLE_API_KEY)

# Base de données SQLite
DB_NAME = "customer_reviews.db"

# Créer ou connecter à la base de données
def init_db():
    conn = sqlite3.connect(DB_NAME)
    cursor = conn.cursor()
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS reviews (
            place_id TEXT,
            place_name TEXT,
            author_name TEXT,
            rating INTEGER,
            text TEXT,
            time TEXT,
            platform TEXT,
            UNIQUE(place_id, author_name, text)
        )
    """)
    conn.commit()
    return conn

# Recherche des lieux
def search_places(keyword, location, radius=1000):
    try:
        response = gmaps.places(query=keyword, location=location, radius=radius)
        places = response.get("results", [])
        return [{"place_id": place["place_id"], "name": place["name"]} for place in places]
    except Exception as e:
        print(f"Erreur lors de la recherche des lieux : {e}")
        return []

# Récupération des avis
def get_reviews(place_id):
    try:
        response = gmaps.place(place_id=place_id, fields=["name", "reviews"])
        result = response.get("result", {})
        reviews = result.get("reviews", [])
        data = []
        for review in reviews:
            data.append({
                "place_id": place_id,
                "place_name": result.get("name"),
                "author_name": review.get("author_name"),
                "rating": review.get("rating"),
                "text": review.get("text"),
                "time": review.get("relative_time_description"),
                "platform": "Google Places"
            })
        return data
    except Exception as e:
        print(f"Erreur pour le Place ID {place_id}: {e}")
        return []

# Sauvegarder les avis dans la base de données
def save_reviews_to_db(conn, reviews):
    cursor = conn.cursor()
    for review in reviews:
        try:
            cursor.execute("""
                INSERT OR IGNORE INTO reviews (place_id, place_name, author_name, rating, text, time, platform)
                VALUES (:place_id, :place_name, :author_name, :rating, :text, :time, :platform)
            """, review)
        except Exception as e:
            print(f"Erreur lors de l'insertion dans la base de données : {e}")
    conn.commit()

# Automatisation pour plusieurs mots-clés et localisations
def automate_collection(keywords, locations, radius=1000):
    conn = init_db()
    for location in locations:
        for keyword in keywords:
            print(f"Recherche de lieux pour le mot-clé '{keyword}' à la localisation {location}")
            places = search_places(keyword, location, radius)
            for place in places:
                print(f"Extraction des avis pour le lieu : {place['name']} (ID : {place['place_id']})")
                reviews = get_reviews(place["place_id"])
                save_reviews_to_db(conn, reviews)
            time.sleep(1)  # Délai pour respecter les quotas de l'API
    conn.close()

# Exécution principale
if __name__ == "__main__":
    keywords = ["restaurants", "cafés", "hôtels"]  # Mots-clés pour les recherches
    locations = ["48.8566,2.3522", "40.7128,-74.0060", "51.5074,-0.1278"]  # Paris, New York, Londres
    radius = 2000  # Rayon en mètres
    automate_collection(keywords, locations, radius)


Recherche de lieux pour le mot-clé 'restaurants' à la localisation 48.8566,2.3522
Extraction des avis pour le lieu : Tata Burger (ID : ChIJSyqG5Bxu5kcR-Kv3J7NhEM8)
Extraction des avis pour le lieu : Chez Elie (ID : ChIJF6G0-UZv5kcRh__tWSz43Mw)
Extraction des avis pour le lieu : Le Marais Restaurant Paris (ID : ChIJ0Y7Uk_lv5kcRxQMuMKFtVmc)
Extraction des avis pour le lieu : Restaurant Chez Bartolo (ID : ChIJH_Et6dlx5kcRscBDytssnCo)
Extraction des avis pour le lieu : La Réserve Du Terroir - Restaurant Paris 4 (ID : ChIJkxq-0GRv5kcR5q-bLdl_5lY)
Extraction des avis pour le lieu : Les Foodies (ID : ChIJNdCdIR1u5kcROYd7acb5_SE)
Extraction des avis pour le lieu : Monsieur Poirot (ID : ChIJI5NCuvht5kcREyDYFaUtzSo)
Extraction des avis pour le lieu : Chouchou (ID : ChIJHwzjqZJv5kcRCir2RjPAaKE)
Extraction des avis pour le lieu : Les Piétons (ID : ChIJGeEAWRxu5kcRSLaSzbkpG-s)
Extraction des avis pour le lieu : Burger & Fries (ID : ChIJxdLBut5x5kcRg_IL_HlMWiM)
Extraction des avis pour le lieu : Caf

Extraction des avis pour le lieu : Dunkin' (ID : ChIJWwJ_siBawokReaMNUXNEqnc)
Extraction des avis pour le lieu : The Coppola Cafe (ID : ChIJURYbNaZZwokRmn6eJrWBk8U)
Extraction des avis pour le lieu : Pause Cafe (ID : ChIJxwwfGoJZwokRdkYwAaTplOg)
Extraction des avis pour le lieu : NewsBar Café (ID : ChIJ_____49MwokRvQ8K9_f-8q8)
Extraction des avis pour le lieu : Élysée's (ID : ChIJm-zibyVZwokRvW1l7gzdtJo)
Extraction des avis pour le lieu : Fellini Cucina (ID : ChIJ-wdgG0hZwokRCMFcDSA7EX4)
Extraction des avis pour le lieu : Pret A Manger (ID : ChIJq_fSEwBZwokRDaRGChzAIRY)
Extraction des avis pour le lieu : Starbucks (ID : ChIJx5ZUKkZawokRg0arzgfLbEY)
Extraction des avis pour le lieu : JOE & THE JUICE (ID : ChIJ12d50I1ZwokRjxbsl4bticU)
Extraction des avis pour le lieu : Benvenuto Cafe (ID : ChIJYQETKB5awokRuT9t2AwszRM)
Extraction des avis pour le lieu : Starbucks (ID : ChIJwTC7A55ZwokRPNX9g7ngbaI)
Recherche de lieux pour le mot-clé 'hôtels' à la localisation 40.7128,-74.0060
Extraction de

Extraction des avis pour le lieu : Premier Inn London Blackfriars (Fleet Street) hotel (ID : ChIJ24SRYq0EdkgRAksghbg1UM8)
Extraction des avis pour le lieu : Strand Palace (ID : ChIJa7MYyssEdkgRW0GxGFyDvWw)
Extraction des avis pour le lieu : Holiday Inn London - Regent's Park, an IHG Hotel (ID : ChIJmaVHONYadkgRenRoEUraCx8)
Extraction des avis pour le lieu : Z Hotels (ID : ChIJO5olhdEEdkgRJF0dAtgtpVQ)
Extraction des avis pour le lieu : ibis London Blackfriars (ID : ChIJoZQE7K8EdkgRjn5kWhQvmn0)
Extraction des avis pour le lieu : Premier Inn London Waterloo (Westminster Bridge) hotel (ID : ChIJ_75-fbgEdkgRp4ql6Rq76ao)
Extraction des avis pour le lieu : The Westminster London, Curio Collection by Hilton (ID : ChIJq6pqMugEdkgRdsnILe7rIEE)


### Accés aux données collectées

In [4]:
import sqlite3
import pandas as pd

# Charger les données depuis la base SQLite
conn = sqlite3.connect("customer_reviews.db")
query = "SELECT * FROM reviews"
df = pd.read_sql_query(query, conn)

# Afficher les données
print(df.head())

# Exporter en CSV si nécessaire
df.to_csv("collected_reviews.csv", index=False)
print("Les données ont été exportées dans collected_reviews.csv")


                      place_id   place_name      author_name  rating  \
0  ChIJSyqG5Bxu5kcR-Kv3J7NhEM8  Tata Burger  Raymond Raffety       5   
1  ChIJSyqG5Bxu5kcR-Kv3J7NhEM8  Tata Burger           Josh C       5   
2  ChIJSyqG5Bxu5kcR-Kv3J7NhEM8  Tata Burger  Nicholas Evrard       3   
3  ChIJSyqG5Bxu5kcR-Kv3J7NhEM8  Tata Burger      Jola Sophia       1   
4  ChIJSyqG5Bxu5kcR-Kv3J7NhEM8  Tata Burger     Jakob Jensen       4   

                                                text          time  \
0  This was a fun place! If you are easily offend...  4 months ago   
1  The burgers are delicious, they have good vari...  5 months ago   
2  Good place to have a burger, fun and easy. Tho...  3 months ago   
3  We went shopping in the town and waited 1 hour...   2 weeks ago   
4  I had the big burger and it tasted really grea...    a week ago   

        platform  
0  Google Places  
1  Google Places  
2  Google Places  
3  Google Places  
4  Google Places  
Les données ont été exportées da

## Prétraitement des données

### Chargement des données 

In [3]:
import pandas as pd
import json

# Charger le fichier CSV
csv_data = pd.read_csv("collected_reviews.csv")


# Lire le fichier JSON ligne par ligne pour gérer les gros fichiers
data = []
try:
    with open("yelp_academic_dataset_review.json", "r", encoding="utf-8") as file:
        for line in file:
            # Charger chaque ligne JSON
            data.append(json.loads(line.strip()))
except UnicodeDecodeError as e:
    print(f"Erreur de décodage : {e}")

# Convertir les données JSON en DataFrame
json_df = pd.DataFrame(data)

# Afficher un aperçu des données
print(json_df.head())

# Sauvegarder les données en CSV pour vérification (optionnel)
json_df.to_csv("yelp_reviews_cleaned.csv", index=False)
print("Fichier CSV généré : yelp_reviews_cleaned.csv")

# Fusionner les deux DataFrames (si besoin, selon les colonnes communes ou concaténation)
data = pd.concat([csv_data, json_df], ignore_index=True)

# Vérifiez les données combinées
print(data.head())


                review_id                 user_id             business_id  \
0  KU_O5udG6zpxOg-VcAEodg  mh_-eMZ6K5RLWhZyISBhwA  XQfwVwDr-v0ZS3_CbbE5Xw   
1  BiTunyQ73aT9WBnpR9DZGw  OyoGAe7OKpv6SyGZT5g77Q  7ATYjTIgM3jUlt4UM3IypQ   
2  saUsX_uimxRlCVr67Z4Jig  8g_iMtfSiwikVnbP2etR0A  YjUWPpI6HXG530lwP-fb2A   
3  AqPFMleE6RsU23_auESxiA  _7bHUi9Uuf5__HHc_Q8guQ  kxX2SOes4o-D3ZQBkiMRfA   
4  Sx8TMOWLNuJBWer-0pcmoA  bcjbaE6dDog4jkNY91ncLQ  e4Vwtrqf-wpJfwesgvdgxQ   

   stars  useful  funny  cool  \
0    3.0       0      0     0   
1    5.0       1      0     1   
2    3.0       0      0     0   
3    5.0       1      0     1   
4    4.0       1      0     1   

                                                text                 date  
0  If you decide to eat here, just be aware it is...  2018-07-07 22:09:11  
1  I've taken a lot of spin classes over the year...  2012-01-03 15:28:18  
2  Family diner. Had the buffet. Eclectic assortm...  2014-02-05 20:30:30  
3  Wow!  Yummy, different,  delici

### Nettoyage 

In [None]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import nltk

# Télécharger les ressources nécessaires pour nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Charger les données nettoyées
df = pd.read_csv("yelp_reviews_cleaned.csv")

# Garder uniquement les colonnes nécessaires
df = df[['text', 'stars']]

# Supprimer les lignes vides
df = df.dropna()

# Nettoyer les textes
def clean_text(text):
    # Supprimer les URLs
    text = re.sub(r"http\S+|www\S+|https\S+", '', text, flags=re.MULTILINE)
    # Supprimer les caractères spéciaux
    text = re.sub(r'\@\w+|\#', '', text)
    # Garder uniquement les lettres et les espaces
    text = re.sub(r"[^a-zA-Z\s]", '', text)
    # Convertir en minuscules
    text = text.lower()
    return text

df['cleaned_text'] = df['text'].apply(clean_text)



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Imtinen\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Imtinen\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Imtinen\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### tokenisation 

In [None]:
# Tokenisation
df['tokens'] = df['cleaned_text'].apply(word_tokenize)

# Supprimer les stop words (mots inutiles comme "le", "et")
stop_words = set(stopwords.words('english'))
df['tokens'] = df['tokens'].apply(lambda tokens: [word for word in tokens if word not in stop_words])




###  Lemmatisation

In [None]:
# Lemmatisation
lemmatizer = WordNetLemmatizer()
df['tokens'] = df['tokens'].apply(lambda tokens: [lemmatizer.lemmatize(word) for word in tokens])

# Sauvegarder les données nettoyées
df.to_csv("yelp_reviews_preprocessed.csv", index=False)
print("Données nettoyées et sauvegardées dans 'yelp_reviews_preprocessed.csv'")