# Importation et inspection des données

In [16]:
import pandas as pd
from db.models import get_restaurants_with_reviews_and_users
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

# Connexion à la base de données
engine = create_engine('sqlite:///restaurant_reviews.db')
Session = sessionmaker(bind=engine)
session = Session()

# Extraction des données
avis_restaurants_data = get_restaurants_with_reviews_and_users(session)

# Transformation en DataFrame
# Chaque avis correspondra à une ligne dans le DataFrame
data = []
for restaurant in avis_restaurants_data:
    for review in restaurant['reviews']:
        data.append({
            'restaurant': restaurant['restaurant'],
            'restaurant_address': restaurant['restaurant_address'],
            'title': review['title'],
            'user_profile': review['user_profile'],
            'date_review': review['date_review'],
            'rating': review['rating'],
            'type_visit': review['type_visit'],
            'num_contributions': review['num_contributions'],
            'review': review['review']
        })

# Création du DataFrame
avis_restaurants = pd.DataFrame(data)

# Affichage du DataFrame
print(avis_restaurants.head())


              restaurant                                 restaurant_address  \
0  Le Bouchon des Filles  20 Rue Sergent-Blandan Parking Sathonay, 69001...   
1  Le Bouchon des Filles  20 Rue Sergent-Blandan Parking Sathonay, 69001...   
2  Le Bouchon des Filles  20 Rue Sergent-Blandan Parking Sathonay, 69001...   
3  Le Bouchon des Filles  20 Rue Sergent-Blandan Parking Sathonay, 69001...   
4  Le Bouchon des Filles  20 Rue Sergent-Blandan Parking Sathonay, 69001...   

                                               title     user_profile  \
0                                  Très belle soirée           SetC77   
1  Vive la bonne cuisine dans une ambiance conviv...   H3293ZGsylviel   
2                                          Sans plus  marieno_lleb739   
3                                      Bon et joyeux          Vymsbmm   
4  Bon restaurant et endroit pour se retrouver en...       Youliic974   

  date_review  rating type_visit  num_contributions  \
0  2024-12-16     5.0    friend

In [17]:
#import pandas as pd
# Charger les données
#avis_restaurants = pd.read_csv('D:/M2 SISE/Text Mining ou NLP/Projet/nlp_text_mining/Data/avis_restaurants.csv', sep=';') 

# Aperçu des données
#print(avis_restaurants.head())

In [18]:
print(avis_restaurants.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3030 entries, 0 to 3029
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   restaurant          3030 non-null   object 
 1   restaurant_address  3030 non-null   object 
 2   title               3030 non-null   object 
 3   user_profile        3030 non-null   object 
 4   date_review         3030 non-null   object 
 5   rating              3030 non-null   float64
 6   type_visit          3030 non-null   object 
 7   num_contributions   3030 non-null   int64  
 8   review              3030 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 213.2+ KB
None


In [19]:
avis_restaurants

Unnamed: 0,restaurant,restaurant_address,title,user_profile,date_review,rating,type_visit,num_contributions,review
0,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Très belle soirée,SetC77,2024-12-16,5.0,friends,67,"Trop bon moment!! \nAccueil, plats, ambiance t..."
1,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Vive la bonne cuisine dans une ambiance conviv...,H3293ZGsylviel,2024-11-26,5.0,friends,2,"Toujours aussi goûteux !\nL'ambiance, la bonne..."
2,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Sans plus,marieno_lleb739,2024-11-23,3.0,friends,96,Les serveurs et serveuses sont sympas. Mais l’...
3,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Bon et joyeux,Vymsbmm,2024-11-14,5.0,friends,225,Une excellente soirée dans ce petit restaurant...
4,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Bon restaurant et endroit pour se retrouver en...,Youliic974,2024-11-01,4.0,friends,38,Un super moment entre amis.\nLes plats étaient...
...,...,...,...,...,...,...,...,...,...
3025,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Bel endroit avec une nourriture moyenne,lizziem808,2024-12-13,4.0,solo,1,"C'est un bel endroit avec un bon service, mais..."
3026,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Doit améliorer le service,tlowry2021,2024-11-02,3.0,couples,5,cet endroit promettait beaucoup d'après les co...
3027,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Endroit intéressant pour le dîner,777AMR,2024-10-20,4.0,friends,7,Endroit intéressant avec de la bonne nourritur...
3028,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Pas la nourriture ou le service de qualité pou...,lisamareeh2016,2024-10-19,2.0,family,3,Mes filles et moi avons commandé le steak medi...


In [20]:
#nombre de restaurants
print(avis_restaurants['restaurant'].nunique())

4


In [7]:
#Nombre de ligne de mon dataframe
print(avis_restaurants.shape)

(3030, 9)


# Nettoyage des avis

Inclure des étapes pour retirer les caractères inutiles, convertir en minuscules, supprimer les stopwords, etc.

In [8]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [9]:
def nettoyer_avis(avis):
    # Retirer les caractères spéciaux et convertir en minuscules
    avis = avis.lower()
    avis = re.sub(r'[^\w\s]', '', avis)
    
    # retirer les chiffres
    avis = re.sub(r'[0-9]', '', avis)
    
    # Tokenisation
    tokens = word_tokenize(avis)
    
    # lematisation
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    
    # Retirer les stopwords
    tokens = [word for word in tokens if word not in stopwords.words('french')]
    
    # retirer les termes de moins de 3 caractères
    tokens = [word for word in tokens if len(word) > 2]
    
    return ' '.join(tokens)

In [10]:
# Appliquer le nettoyage à la colonne 'review'
avis_restaurants['review_cleaned'] = avis_restaurants['review'].apply(nettoyer_avis)
print(avis_restaurants[['review', 'review_cleaned']].head())

KeyboardInterrupt: 

# Création de représentations textuelles

Transforme les avis en vecteurs numériques pour les modèles.

## Bag of Words

In [201]:
from sklearn.feature_extraction.text import CountVectorizer

# Vectorisation BoW
vectorizer = CountVectorizer(max_features=500)  # Limiter à 500 mots les plus fréquents
X_bow = vectorizer.fit_transform(avis_restaurants['review_cleaned'])
print(X_bow.toarray())


[[0 0 1 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


## TF-IDF

In [202]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Vectorisation TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=500)
X_tfidf = tfidf_vectorizer.fit_transform(avis_restaurants['review_cleaned'])
print(X_tfidf.toarray())

[[0.         0.         0.19454357 ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]


# Préparation pour l'analyse temporelle

In [203]:
avis_restaurants['date_review']

0       2024-12-16
1       2024-11-26
2       2024-11-23
3       2024-11-14
4       2024-11-01
           ...    
3025    2024-12-13
3026    2024-11-02
3027    2024-10-20
3028    2024-10-19
3029    2024-10-09
Name: date_review, Length: 3030, dtype: object

In [204]:
# Vérification et conversion des types
avis_restaurants['date_review'] = avis_restaurants['date_review'].astype(str)

# Suppression des espaces et nettoyage des chaînes
avis_restaurants['date_review'] = avis_restaurants['date_review'].str.strip()
avis_restaurants['date_review'] = avis_restaurants['date_review'].str.replace(r'\s+', ' ', regex=True)

# Vérification des premières lignes pour s'assurer que les dates sont correctement nettoyées
print(avis_restaurants[['date_review']].head(10))

  date_review
0  2024-12-16
1  2024-11-26
2  2024-11-23
3  2024-11-14
4  2024-11-01
5  2024-10-12
6  2024-09-04
7  2024-08-16
8  2024-07-24
9  2024-06-16


In [205]:
mois_fr_en = {
    'janvier': 'January', 'février': 'February', 'mars': 'March', 'avril': 'April',
    'mai': 'May', 'juin': 'June', 'juillet': 'July', 'août': 'August',
    'septembre': 'September', 'octobre': 'October', 'novembre': 'November', 'décembre': 'December'
}

for fr, en in mois_fr_en.items():
    avis_restaurants['date_review'] = avis_restaurants['date_review'].str.replace(fr, en, regex=False)


In [206]:
avis_restaurants['date_review'] = pd.to_datetime(
    avis_restaurants['date_review'], errors='coerce', infer_datetime_format=True
)
avis_restaurants['date_review'] = avis_restaurants['date_review'].dt.strftime('%d %B %Y')


  avis_restaurants['date_review'] = pd.to_datetime(


In [207]:
avis_restaurants['date_review']

0       16 December 2024
1       26 November 2024
2       23 November 2024
3       14 November 2024
4       01 November 2024
              ...       
3025    13 December 2024
3026    02 November 2024
3027     20 October 2024
3028     19 October 2024
3029     09 October 2024
Name: date_review, Length: 3030, dtype: object

In [208]:
avis_restaurants['date_review'] = pd.to_datetime(
    avis_restaurants['date_review'], errors='coerce', dayfirst=True
)

In [209]:
# Extraire l'année et le mois pour une analyse temporelle
avis_restaurants['year'] = avis_restaurants['date_review'].dt.year
avis_restaurants['month'] = avis_restaurants['date_review'].dt.month
avis_restaurants['day'] = avis_restaurants['date_review'].dt.day

print(avis_restaurants[['date_review', 'year', 'month','day' ]].head())

  date_review  year  month  day
0  2024-12-16  2024     12   16
1  2024-11-26  2024     11   26
2  2024-11-23  2024     11   23
3  2024-11-14  2024     11   14
4  2024-11-01  2024     11    1


# Sauvegarder le dataset nettoyé

In [210]:
avis_restaurants.to_csv('D:/M2 SISE/Text Mining ou NLP/Projet/nlp_text_mining/Data/avis_restaurants_cleaned.csv', index=False)

In [211]:
avis_restaurants_cleaned = pd.read_csv('D:/M2 SISE/Text Mining ou NLP/Projet/nlp_text_mining/Data/avis_restaurants_cleaned.csv') 

In [212]:
avis_restaurants_cleaned

Unnamed: 0,restaurant,restaurant_address,title,user_profile,date_review,rating,type_visit,num_contributions,review,review_cleaned,year,month,day
0,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Très belle soirée,SetC77,2024-12-16,5.0,friends,67,"Trop bon moment!! \nAccueil, plats, ambiance t...",trop bon moment accueil plat ambiance tout pas...,2024,12,16
1,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Vive la bonne cuisine dans une ambiance conviv...,H3293ZGsylviel,2024-11-26,5.0,friends,2,"Toujours aussi goûteux !\nL'ambiance, la bonne...",toujours aussi goûteux lambiance bonne humeur ...,2024,11,26
2,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Sans plus,marieno_lleb739,2024-11-23,3.0,friends,96,Les serveurs et serveuses sont sympas. Mais l’...,serveurs serveuses sympas longlet nest tendre ...,2024,11,23
3,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Bon et joyeux,Vymsbmm,2024-11-14,5.0,friends,225,Une excellente soirée dans ce petit restaurant...,excellente soirée petit restaurant peu lécart ...,2024,11,14
4,Le Bouchon des Filles,"20 Rue Sergent-Blandan Parking Sathonay, 69001...",Bon restaurant et endroit pour se retrouver en...,Youliic974,2024-11-01,4.0,friends,38,Un super moment entre amis.\nLes plats étaient...,super moment entre amis plat très délicieux co...,2024,11,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3025,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Bel endroit avec une nourriture moyenne,lizziem808,2024-12-13,4.0,solo,1,"C'est un bel endroit avec un bon service, mais...",cest bel endroit bon service nourriture nétait...,2024,12,13
3026,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Doit améliorer le service,tlowry2021,2024-11-02,3.0,couples,5,cet endroit promettait beaucoup d'après les co...,cet endroit promettait beaucoup daprès comment...,2024,11,2
3027,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Endroit intéressant pour le dîner,777AMR,2024-10-20,4.0,friends,7,Endroit intéressant avec de la bonne nourritur...,endroit intéressant bonne nourriture service a...,2024,10,20
3028,Le Grand Réfectoire,"3 Cour Saint Henri Grand Hôtel Dieu, 69002 Lyo...",Pas la nourriture ou le service de qualité pou...,lisamareeh2016,2024-10-19,2.0,family,3,Mes filles et moi avons commandé le steak medi...,fille avon commandé steak medium demandé haric...,2024,10,19
