# Analyse des avis des utilisateurs sur Spotify à partir d’un dataset Kaggle ou en scrappant directement sur google play. 


## Data cleaning and preprocessing

In [67]:
import pandas as pd 
import re

#Load dataset 
data = pd.read_csv("scrapped_reviews.csv", delimiter=';')

#Remove the empty rows
data_cleaned = data.dropna(subset=['content']).drop_duplicates(subset=['content'])


# Clean the Review column
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)  # Remove special characters and punctuation
    text = re.sub(r'\s+', ' ', text)  # Replace multiple spaces with a single space
    return text.strip().lower()  # Trim spaces and convert to lowercase

data_cleaned['content'] = data_cleaned['content'].apply(clean_text)

# Remove duplicate rows
data_cleaned = data_cleaned.drop_duplicates(subset=['content'])

#Remove time and reply
data_cleaned = data_cleaned.drop(columns=['reviewId', 'userName','userImage', 'reviewCreatedVersion', 'repliedAt'])

#Sort by like numbers and keep only first 1000 rows 
top_1000_data = data_cleaned.sort_values(by='thumbsUpCount', ascending=False).iloc[:1000]


In [69]:
top_1000_data.isnull().sum()

content             0
score               0
thumbsUpCount       0
at                  0
replyContent     1000
appVersion          0
dtype: int64

In [71]:
data_cleaned2 = top_1000_data.drop(columns=['replyContent'])
data_cleaned2.isnull().sum()

content          0
score            0
thumbsUpCount    0
at               0
appVersion       0
dtype: int64

In [73]:
data_cleaned2.dtypes

content          object
score             int64
thumbsUpCount     int64
at               object
appVersion       object
dtype: object

In [75]:
data_cleaned2['at'] = pd.to_datetime(data_cleaned2['at'])
data_cleaned2['at'] = data_cleaned2['at'].dt.strftime('%d/%m/%Y')
data_cleaned2

Unnamed: 0,content,score,thumbsUpCount,at,appVersion
607,très bonne application le vert et le noir rend...,5,2953,09/10/2024,8.9.78.513
1616,une appli tout simplement génialeil y a plein ...,5,2344,27/05/2024,8.9.42.575
3519,absolument rien à redire depuis le tout début ...,5,2048,03/10/2023,8.8.74.652
2029,excellente appli on a tous les titres quon veu...,4,1603,16/07/2022,8.7.48.1058
8520,ayant souscrit à un abonnement premium je trou...,5,1483,31/05/2019,8.5.8.567
...,...,...,...,...,...
6498,abonnement famille 6 comptes pour 15 comme la ...,5,86,13/03/2020,8.5.48.1049
4994,super application et il y a de délicates atten...,5,86,22/02/2020,8.5.46.859
6670,complètement nul on peut créer des playlist ma...,1,86,27/01/2021,8.5.94.839
3019,mais cest quoi le problème en fait plus vous f...,1,86,29/07/2020,8.5.68.904


In [77]:
data_cleaned2.tail(15)

Unnamed: 0,content,score,thumbsUpCount,at,appVersion
3225,on va être honnête jen ai vraiment assez des p...,2,86,22/01/2024,8.9.6.458
9225,bug bug encore et toujours vous mexpliquez a q...,1,86,03/02/2019,8.4.91.861
4911,lappli est incompréhensible je ne peut ecouter...,1,86,16/08/2022,8.7.54.403
4339,depuis quelques jours impossible découter de l...,1,86,01/10/2020,8.5.78.909
8074,fuyez sans payer on ne peut même pas choisir l...,1,86,12/03/2021,8.6.8.1094
4016,réponse du service client si lapplicationne fo...,4,86,07/10/2022,8.7.72.546
7851,depuis 2 semaines je rencontre des problèmes a...,5,86,25/07/2023,8.8.50.466
2864,horrible la mise a jour cest du vrai nimporte ...,1,86,28/01/2024,8.9.8.545
3152,le mode aléatoire est pourri cest toujours les...,1,86,27/10/2024,8.9.86.551
4821,etant abonnée au compte premimum famille depui...,2,86,18/08/2022,8.7.56.421


In [79]:
output_file_path = 'top_1000_cleaned_reviews.csv' 
data_cleaned2.to_csv(output_file_path, index=False,sep=';',encoding='utf-8-sig')