<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Preprocessing,-exploration-and-export-of-app-reviews" data-toc-modified-id="Preprocessing,-exploration-and-export-of-app-reviews-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Preprocessing, exploration and export of app reviews</a></span><ul class="toc-item"><li><span><a href="#Load-data" data-toc-modified-id="Load-data-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Load data</a></span></li><li><span><a href="#Dates" data-toc-modified-id="Dates-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Dates</a></span></li><li><span><a href="#Detect-language" data-toc-modified-id="Detect-language-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Detect language</a></span></li><li><span><a href="#Sort-data" data-toc-modified-id="Sort-data-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Sort data</a></span></li><li><span><a href="#Select-data-for-export" data-toc-modified-id="Select-data-for-export-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Select data for export</a></span></li><li><span><a href="#Export-data" data-toc-modified-id="Export-data-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>Export data</a></span></li></ul></li></ul></div>

# Preprocessing, exploration and export of app reviews

In [1]:
import pandas as pd
from langdetect import detect
import warnings
warnings.filterwarnings('ignore')
import os

## Load data

In [2]:
path = os.getcwd()
filename ='amazon_reviews.json' 

In [3]:
df = pd.read_json(path+"/../data/0_scraped_data/"+filename)

In [4]:
df.head()

Unnamed: 0,rating,date,day,month,year,review_title,review_text,username,verified
0,5,26 avril 2020,26,avril,2020,Très bien !,Premier achat de tondeuse cheveux. Bonne tenue...,Sarkar0104,Achat vérifié
1,5,17 mai 2020,17,mai,2020,"Beau produit, complet, n'accroche pas et la co...",Formidable car il était temps après 2 mois de ...,Bobspace,Achat vérifié
2,5,1 mai 2020,1,mai,2020,Très bien,"Parfait pour couper les cheuveux, la boite est...",Girardet,Achat vérifié
3,5,3 juin 2020,3,juin,2020,Efficace et rapide,Une coupe rapide et sans effort. Elle est préc...,Lm,Achat vérifié
4,5,26 juin 2020,26,juin,2020,HATTEKER Tondeuse Cheveux Professionnelle,Salut à tous j’utilise cette espace commentair...,Jasur,Achat vérifié


In [5]:
df.columns

Index(['rating', 'date', 'day', 'month', 'year', 'review_title', 'review_text',
       'username', 'verified'],
      dtype='object')

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   rating        17 non-null     int64 
 1   date          17 non-null     object
 2   day           17 non-null     int64 
 3   month         17 non-null     object
 4   year          17 non-null     int64 
 5   review_title  17 non-null     object
 6   review_text   17 non-null     object
 7   username      17 non-null     object
 8   verified      17 non-null     object
dtypes: int64(3), object(6)
memory usage: 1.3+ KB


## Dates

In [7]:
month_dict = {'janvier':1, 'février':2, 'mars':3, 'avril':4, 'mai': 5, 'juin':6,
             'juillet':7, 'août': 8, 'septembre':9, 'octobre': 10, 'novembre': 11, 'décembre':12}

In [8]:
df['month2'] = df['month'].map(month_dict)

In [9]:
df.head()

Unnamed: 0,rating,date,day,month,year,review_title,review_text,username,verified,month2
0,5,26 avril 2020,26,avril,2020,Très bien !,Premier achat de tondeuse cheveux. Bonne tenue...,Sarkar0104,Achat vérifié,4
1,5,17 mai 2020,17,mai,2020,"Beau produit, complet, n'accroche pas et la co...",Formidable car il était temps après 2 mois de ...,Bobspace,Achat vérifié,5
2,5,1 mai 2020,1,mai,2020,Très bien,"Parfait pour couper les cheuveux, la boite est...",Girardet,Achat vérifié,5
3,5,3 juin 2020,3,juin,2020,Efficace et rapide,Une coupe rapide et sans effort. Elle est préc...,Lm,Achat vérifié,6
4,5,26 juin 2020,26,juin,2020,HATTEKER Tondeuse Cheveux Professionnelle,Salut à tous j’utilise cette espace commentair...,Jasur,Achat vérifié,6


In [10]:
df['date2'] = pd.to_datetime(dict(year = df['year'], month = df['month2'], day = df['day']))

In [11]:
df.head()

Unnamed: 0,rating,date,day,month,year,review_title,review_text,username,verified,month2,date2
0,5,26 avril 2020,26,avril,2020,Très bien !,Premier achat de tondeuse cheveux. Bonne tenue...,Sarkar0104,Achat vérifié,4,2020-04-26
1,5,17 mai 2020,17,mai,2020,"Beau produit, complet, n'accroche pas et la co...",Formidable car il était temps après 2 mois de ...,Bobspace,Achat vérifié,5,2020-05-17
2,5,1 mai 2020,1,mai,2020,Très bien,"Parfait pour couper les cheuveux, la boite est...",Girardet,Achat vérifié,5,2020-05-01
3,5,3 juin 2020,3,juin,2020,Efficace et rapide,Une coupe rapide et sans effort. Elle est préc...,Lm,Achat vérifié,6,2020-06-03
4,5,26 juin 2020,26,juin,2020,HATTEKER Tondeuse Cheveux Professionnelle,Salut à tous j’utilise cette espace commentair...,Jasur,Achat vérifié,6,2020-06-26


## Detect language

In [12]:
# Define a function to identify language and catch exceptions
def lang_detect(text):
    # use deterministic approach for language detection
    from langdetect import DetectorFactory
    DetectorFactory.seed = 0
    try:
        return detect(text)
    except:
        return "language not detected"

In [13]:
# Detect the language used in the reviews
df['lang-r'] = df['review_text'].apply(lang_detect)

In [14]:
# What are the detected languages?
df['lang-r'].unique()

array(['fr', 'ca'], dtype=object)

In [15]:
# What is the distribution of the detected languages?
df['lang-r'].value_counts()

fr    16
ca     1
Name: lang-r, dtype: int64

## Sort data

In [16]:
df.sort_values(by=['rating','date2'], inplace = True, ascending = False)

In [17]:
df

Unnamed: 0,rating,date,day,month,year,review_title,review_text,username,verified,month2,date2,lang-r
8,5,27 juin 2020,27,juin,2020,Bon produit et bonne qualité,"Sitôt reçue, sitôt utilisée ! Impressionnante ...",FX,Achat vérifié,6,2020-06-27,fr
4,5,26 juin 2020,26,juin,2020,HATTEKER Tondeuse Cheveux Professionnelle,Salut à tous j’utilise cette espace commentair...,Jasur,Achat vérifié,6,2020-06-26,fr
11,5,17 juin 2020,17,juin,2020,Superbe tondeuse,"La tondeuse est superbe, beau design, pleins d...",Mickael,Achat vérifié,6,2020-06-17,fr
12,5,16 juin 2020,16,juin,2020,Super !!!,Mon mari est vraiment super content de sa fête...,sabrina kovacs,Achat vérifié,6,2020-06-16,fr
3,5,3 juin 2020,3,juin,2020,Efficace et rapide,Une coupe rapide et sans effort. Elle est préc...,Lm,Achat vérifié,6,2020-06-03,fr
7,5,28 mai 2020,28,mai,2020,Super,"Pour le prix tiptop, silencieuse, la batterie ...",Famille U,Achat vérifié,5,2020-05-28,fr
15,5,26 mai 2020,26,mai,2020,excellent produit et excellent prix,coupe tres bien,Amir,Achat vérifié,5,2020-05-26,fr
6,5,22 mai 2020,22,mai,2020,Bien pour l'instant,"1ere utilisation aujourd'hui, et honnêtement ...",David,Achat vérifié,5,2020-05-22,fr
14,5,22 mai 2020,22,mai,2020,Qualité pro,Produit au top. Du pro. Ultra complet pour le ...,Client d'Amazon,Achat vérifié,5,2020-05-22,fr
9,5,18 mai 2020,18,mai,2020,Précise,Très bien merci,Rémy de JONGHE,Achat vérifié,5,2020-05-18,ca


## Select data for export

In [18]:
selected_col = ['rating','date2','review_title','review_text', 'username', 'verified']

In [19]:
dfout = df[selected_col]

In [20]:
# rename date column
dfout.rename(columns = {'date2':'date'}, inplace = True)

In [21]:
dfout

Unnamed: 0,rating,date,review_title,review_text,username,verified
8,5,2020-06-27,Bon produit et bonne qualité,"Sitôt reçue, sitôt utilisée ! Impressionnante ...",FX,Achat vérifié
4,5,2020-06-26,HATTEKER Tondeuse Cheveux Professionnelle,Salut à tous j’utilise cette espace commentair...,Jasur,Achat vérifié
11,5,2020-06-17,Superbe tondeuse,"La tondeuse est superbe, beau design, pleins d...",Mickael,Achat vérifié
12,5,2020-06-16,Super !!!,Mon mari est vraiment super content de sa fête...,sabrina kovacs,Achat vérifié
3,5,2020-06-03,Efficace et rapide,Une coupe rapide et sans effort. Elle est préc...,Lm,Achat vérifié
7,5,2020-05-28,Super,"Pour le prix tiptop, silencieuse, la batterie ...",Famille U,Achat vérifié
15,5,2020-05-26,excellent produit et excellent prix,coupe tres bien,Amir,Achat vérifié
6,5,2020-05-22,Bien pour l'instant,"1ere utilisation aujourd'hui, et honnêtement ...",David,Achat vérifié
14,5,2020-05-22,Qualité pro,Produit au top. Du pro. Ultra complet pour le ...,Client d'Amazon,Achat vérifié
9,5,2020-05-18,Précise,Très bien merci,Rémy de JONGHE,Achat vérifié


## Export data

In [22]:
# export to csv
dfout.to_csv(path+"/../data/1_preprocessed_data/"+'amazon_reviews.csv', encoding='utf-8-sig', sep =';')