### Universidad del Valle de Guatemala
### Master in Applied Data Science
### Text Mining & Natural Language Processing
### César Guerra, carnet: 12593

In [1]:
#Importando librerias necesarias para realizar analisis exploratorio
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer, PorterStemmer
from collections import Counter
import re

#Cargando los datos y validando su carga
df_ta = pd.read_csv('../data/raw/results.csv')
df_ta.head()

[nltk_data] Downloading package wordnet to /Users/cesar/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Unnamed: 0,rating,review
0,50,What an experience. The hotel is centrally loc...
1,50,This hotel takes you back in time the best way...
2,50,Fantastic hotel in the heart of Antigua! The l...
3,50,We had a dinner at this restaurant and had a g...
4,50,Loved every moment at this gorgeous hotel from...


In [2]:
#Validando el tipo de datos para cada columna
df_ta.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19269 entries, 0 to 19268
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   rating  19269 non-null  int64 
 1   review  19269 non-null  object
dtypes: int64(1), object(1)
memory usage: 301.2+ KB


In [3]:
#Creando columna que contiene la cantidad de palabras por review
df_ta["nwords"] = [len(re.split('\W+',r)) for r in df_ta["review"]]
df_ta.head()

Unnamed: 0,rating,review,nwords
0,50,What an experience. The hotel is centrally loc...,55
1,50,This hotel takes you back in time the best way...,46
2,50,Fantastic hotel in the heart of Antigua! The l...,142
3,50,We had a dinner at this restaurant and had a g...,46
4,50,Loved every moment at this gorgeous hotel from...,40


In [4]:
#Creando columna que contiene el tamaño del vocabulario de cada review utilizando palabras
df_ta["nvocwords"] = [len(Counter(
    re.split('\W+',r.lower())
)) for r in df_ta["review"]]
df_ta.head()

Unnamed: 0,rating,review,nwords,nvocwords
0,50,What an experience. The hotel is centrally loc...,55,42
1,50,This hotel takes you back in time the best way...,46,38
2,50,Fantastic hotel in the heart of Antigua! The l...,142,88
3,50,We had a dinner at this restaurant and had a g...,46,38
4,50,Loved every moment at this gorgeous hotel from...,40,35


In [5]:
#Creando columna que contiene el tamaño del vocabulario de cada review utilizando lemas
wl = WordNetLemmatizer()
df_ta["nvoclemm"] = [len(Counter(
    [wl.lemmatize(l) for l in re.split('\W+',r.lower())]
)) for r in df_ta["review"]]
df_ta.head()

Unnamed: 0,rating,review,nwords,nvocwords,nvoclemm
0,50,What an experience. The hotel is centrally loc...,55,42,42
1,50,This hotel takes you back in time the best way...,46,38,38
2,50,Fantastic hotel in the heart of Antigua! The l...,142,88,88
3,50,We had a dinner at this restaurant and had a g...,46,38,38
4,50,Loved every moment at this gorgeous hotel from...,40,35,35


In [None]:
#Creando columna que contiene el tamaño del vocabulario de cada review utilizando temas
ps = PorterStemmer()
df_ta["nvocstem"] = [len(Counter(
    [ps.stem(t) for t in re.split('\W+',r.lower())]
)) for r in df_ta["review"]]
df_ta.head()

In [None]:
#Resumen estadistico de las variables para todos los reviews
df_ta.describe()

In [None]:
#Resumen estadistico de las variables para reviews con rating de 1 estrella
df_ta[df_ta["rating"] == 10].describe()

In [None]:
#Resumen estadistico de las variables para reviews con rating de 2 estrellas
df_ta[df_ta["rating"] == 20].describe()

In [None]:
#Resumen estadistico de las variables para reviews con rating de 3 estrellas
df_ta[df_ta["rating"] == 30].describe()

In [None]:
#Resumen estadistico de las variables para reviews con rating de 4 estrellas
df_ta[df_ta["rating"] == 40].describe()

In [None]:
#Resumen estadistico de las variables para reviews con rating de 5 estrellas
df_ta[df_ta["rating"] == 50].describe()

In [None]:
#Grafico de barras de frecuencia por rating
pd.crosstab(df_ta["rating"], columns='cantidad',colnames=['b']).plot.bar(legend=None)
plt.title("Frecuencia por ratings")
plt.ylabel("Frecuencia")
plt.show()

In [None]:
#Creando canvas para crear histogramas
fig, axs = plt.subplots(2, 2,figsize=(20,10))

#Histograma de cantidad de palabras por review
axs[0, 0].set_xlabel("Cantidad de palabras por review")
axs[0, 0].set_ylabel("Frecuencia")
axs[0, 0].set_title("Histograma de cantidad de palabras por review")
axs[0, 0].hist(df_ta["nwords"])

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0, 1].set_xlabel("Tamaño del vocabulario")
axs[0, 1].set_ylabel("Frecuencia")
axs[0, 1].set_title("Histograma del tamaño del vocabulario (usando palabras) por review")
axs[0, 1].hist(df_ta["nvocwords"])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1, 0].set_xlabel("Tamaño del vocabulario")
axs[1, 0].set_ylabel("Frecuencia")
axs[1, 0].set_title("Histograma del tamaño del vocabulario (usando lemas) por review")
axs[1, 0].hist(df_ta["nvoclemm"])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[1, 1].set_xlabel("Tamaño del vocabulario")
axs[1, 1].set_ylabel("Frecuencia")
axs[1, 1].set_title("Histograma del tamaño del vocabulario (usando temas) por review")
axs[1, 1].hist(df_ta["nvocstem"])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Creando canvas para histogramas con datos que tienen rating 10
fig, axs = plt.subplots(1, 3,figsize=(30,5))
fig.suptitle('Reviews de 1 estrella', fontsize=16)

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0].set_xlabel("Tamaño de vocabulario")
axs[0].set_ylabel("Frecuencia")
axs[0].set_title("Histograma de tamaño del vocabulario (usando palabras)")
axs[0].hist(df_ta["nvocwords"][df_ta["rating"] == 10])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1].set_xlabel("Tamaño de vocabulario")
axs[1].set_ylabel("Frecuencia")
axs[1].set_title("Histograma de tamaño del vocabulario (usando lemas)")
axs[1].hist(df_ta["nvoclemm"][df_ta["rating"] == 10])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[2].set_xlabel("Tamaño de vocabulario")
axs[2].set_ylabel("Frecuencia")
axs[2].set_title("Histograma de tamaño del vocabulario (usando temas)")
axs[2].hist(df_ta["nvocstem"][df_ta["rating"] == 10])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Creando canvas para histogramas con datos que tienen rating 20
fig, axs = plt.subplots(1, 3,figsize=(30,5))
fig.suptitle('Reviews de 2 estrellas', fontsize=16)

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0].set_xlabel("Tamaño de vocabulario")
axs[0].set_ylabel("Frecuencia")
axs[0].set_title("Histograma de tamaño del vocabulario (usando palabras)")
axs[0].hist(df_ta["nvocwords"][df_ta["rating"] == 20])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1].set_xlabel("Tamaño de vocabulario")
axs[1].set_ylabel("Frecuencia")
axs[1].set_title("Histograma de tamaño del vocabulario (usando lemas)")
axs[1].hist(df_ta["nvoclemm"][df_ta["rating"] == 20])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[2].set_xlabel("Tamaño de vocabulario")
axs[2].set_ylabel("Frecuencia")
axs[2].set_title("Histograma de tamaño del vocabulario (usando temas)")
axs[2].hist(df_ta["nvocstem"][df_ta["rating"] == 20])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Creando canvas para histogramas con datos que tienen rating 30
fig, axs = plt.subplots(1, 3,figsize=(30,5))
fig.suptitle('Reviews de 3 estrellas', fontsize=16)

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0].set_xlabel("Tamaño de vocabulario")
axs[0].set_ylabel("Frecuencia")
axs[0].set_title("Histograma de tamaño del vocabulario (usando palabras)")
axs[0].hist(df_ta["nvocwords"][df_ta["rating"] == 30])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1].set_xlabel("Tamaño de vocabulario")
axs[1].set_ylabel("Frecuencia")
axs[1].set_title("Histograma de tamaño del vocabulario (usando lemas)")
axs[1].hist(df_ta["nvoclemm"][df_ta["rating"] == 30])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[2].set_xlabel("Tamaño de vocabulario")
axs[2].set_ylabel("Frecuencia")
axs[2].set_title("Histograma de tamaño del vocabulario (usando temas)")
axs[2].hist(df_ta["nvocstem"][df_ta["rating"] == 30])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Creando canvas para histogramas con datos que tienen rating 40
fig, axs = plt.subplots(1, 3,figsize=(30,5))
fig.suptitle('Reviews de 4 estrellas', fontsize=16)

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0].set_xlabel("Tamaño de vocabulario")
axs[0].set_ylabel("Frecuencia")
axs[0].set_title("Histograma de tamaño del vocabulario (usando palabras)")
axs[0].hist(df_ta["nvocwords"][df_ta["rating"] == 40])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1].set_xlabel("Tamaño de vocabulario")
axs[1].set_ylabel("Frecuencia")
axs[1].set_title("Histograma de tamaño del vocabulario (usando lemas)")
axs[1].hist(df_ta["nvoclemm"][df_ta["rating"] == 40])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[2].set_xlabel("Tamaño de vocabulario")
axs[2].set_ylabel("Frecuencia")
axs[2].set_title("Histograma de tamaño del vocabulario (usando temas)")
axs[2].hist(df_ta["nvocstem"][df_ta["rating"] == 40])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Creando canvas para histogramas con datos que tienen rating 50
fig, axs = plt.subplots(1, 3,figsize=(30,5))
fig.suptitle('Reviews de 5 estrellas', fontsize=16)

#Histograma de tamaño de vocabulario de cada review utilizando palabras
axs[0].set_xlabel("Tamaño de vocabulario")
axs[0].set_ylabel("Frecuencia")
axs[0].set_title("Histograma de tamaño del vocabulario (usando palabras)")
axs[0].hist(df_ta["nvocwords"][df_ta["rating"] == 50])

#Histograma de tamaño de vocabulario de cada review utilizando lemas
axs[1].set_xlabel("Tamaño de vocabulario")
axs[1].set_ylabel("Frecuencia")
axs[1].set_title("Histograma de tamaño del vocabulario (usando lemas)")
axs[1].hist(df_ta["nvoclemm"][df_ta["rating"] == 50])

#Histograma de tamaño de vocabulario de cada review utilizando temas
axs[2].set_xlabel("Tamaño de vocabulario")
axs[2].set_ylabel("Frecuencia")
axs[2].set_title("Histograma de tamaño del vocabulario (usando temas)")
axs[2].hist(df_ta["nvocstem"][df_ta["rating"] == 50])

plt.tight_layout(pad=4.0)
plt.show()

In [None]:
#Implementacion bag of words con palabras, lemas y temas para cada rating
texto10 = ''.join(df_ta["review"][df_ta["rating"] == 10])
texto20 = ''.join(df_ta["review"][df_ta["rating"] == 20])
texto30 = ''.join(df_ta["review"][df_ta["rating"] == 30])
texto40 = ''.join(df_ta["review"][df_ta["rating"] == 40])
texto50 = ''.join(df_ta["review"][df_ta["rating"] == 50])

#Palabras
tokensWords10 = re.split('\W+',texto10.lower())
tokensWords20 = re.split('\W+',texto20.lower())
tokensWords30 = re.split('\W+',texto30.lower())
tokensWords40 = re.split('\W+',texto40.lower())
tokensWords50 = re.split('\W+',texto50.lower())

#Lemas
tokensLemm10 = [ps.stem(t) for t in tokensWords10.copy()]
tokensLemm20 = [ps.stem(t) for t in tokensWords20.copy()]
tokensLemm30 = [ps.stem(t) for t in tokensWords30.copy()]
tokensLemm40 = [ps.stem(t) for t in tokensWords40.copy()]
tokensLemm50 = [ps.stem(t) for t in tokensWords50.copy()]

#Temas
tokensStem10 = [wl.lemmatize(l) for l in tokensWords10.copy()]
tokensStem20 = [wl.lemmatize(l) for l in tokensWords20.copy()]
tokensStem30 = [wl.lemmatize(l) for l in tokensWords30.copy()]
tokensStem40 = [wl.lemmatize(l) for l in tokensWords40.copy()]
tokensStem50 = [wl.lemmatize(l) for l in tokensWords50.copy()]

In [None]:
#Bag of words de palabras para rating de 1 estrella
counterWords10 = Counter(tokensWords10)
counterWords10.most_common()

In [None]:
#Bag of words de palabras para rating de 2 estrellas
counterWords20 = Counter(tokensWords20)
counterWords20.most_common()

In [None]:
#Bag of words de palabras para rating de 3 estrellas
counterWords30 = Counter(tokensWords30)
counterWords30.most_common()

In [None]:
#Bag of words de palabras para rating de 4 estrellas
counterWords40 = Counter(tokensWords40)
counterWords40.most_common()

In [None]:
#Bag of words de palabras para rating de 5 estrellas
counterWords50 = Counter(tokensWords50)
counterWords50.most_common()

In [None]:
#Bag of words de lemas para rating de 1 estrella
counterLemm10 = Counter(tokensLemm10)
counterLemm10.most_common()

In [None]:
#Bag of words de lemas para rating de 2 estrellas
counterLemm20 = Counter(tokensLemm20)
counterLemm20.most_common()

In [None]:
#Bag of words de lemas para rating de 3 estrellas
counterLemm30 = Counter(tokensLemm30)
counterLemm30.most_common()

In [None]:
#Bag of words de lemas para rating de 4 estrellas
counterLemm40 = Counter(tokensLemm40)
counterLemm40.most_common()

In [None]:
#Bag of words de lemas para rating de 5 estrellas
counterLemm50 = Counter(tokensLemm50)
counterLemm50.most_common()

In [None]:
#Bag of words de temas para rating de 1 estrella
counterStem10 = Counter(tokensStem10)
counterStem10.most_common()

In [None]:
#Bag of words de temas para rating de 2 estrellas
counterStem20 = Counter(tokensStem20)
counterStem20.most_common()

In [None]:
#Bag of words de temas para rating de 3 estrellas
counterStem30 = Counter(tokensStem30)
counterStem30.most_common()

In [None]:
#Bag of words de temas para rating de 4 estrellas
counterStem40 = Counter(tokensStem40)
counterStem40.most_common()

In [None]:
#Bag of words de temas para rating de 5 estrellas
counterStem50 = Counter(tokensStem50)
counterStem50.most_common()

A partir de este análisis exploratorio, se recomienda realizar lo siguiente:

1. Extraer más datos de los reviews. Por ejemplo: la cantidad de votos útiles que tiene cada review, la cantidad de contribuciones que ha hecho el usuario, el lugar de origen de donde es la persona que realiza el review y la fecha que se realizó el review. Estos datos podrían ayudar a determinar el valor que aporta cada review y podrían categorizar más los datos de forma que puedan haber diferentes modelos dependiendo del continente, país, regiones, etc.
<br><br>
2. Determinar de alguna forma el idioma en el que se realizó cada review ya que cada uno de estos tiene su forma de hacer lematización y stemming.