In [3]:
import os
import json
import gzip
import pandas as pd
import numpy as np
from urllib.request import urlopen
! pip install -r requirements.txt

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting jellyfish
  Downloading jellyfish-0.9.0.tar.gz (132 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.6/132.6 KB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting num2words
  Downloading num2words-0.5.12-py3-none-any.whl (125 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m125.2/125.2 KB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
Collecting plotly_express
  Downloading plotly_express-0.4.1-py2.py3-none-any.whl (2.9 kB)
Collecting pyDAWG
  Downloading pyDAWG-1.0.1.tar.gz (28 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyLDAvis
  Downloading pyLDAvis-3.4.0-py3-none-any.whl (2.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m55.4 MB/s[0m eta [36m0:00:00[0m
Collecting sklearn_crfsuite
  Downloading sklearn_crfsuit

## 2. Preprocesado

En esta etapa, se realiza el preprocesado de las reseñas para adecuar el formato de las mismas a uno más adecuado para su procesamiento posterior.

### Limpieza de texto

En primer lugar, se realiza una limpieza básica de las reseñas para eliminar caracteres no alfabéticos y convertir el texto a minúsculas.

In [9]:
# Cargamos el dataset preprocesado
reduced_filtered_data = pd.read_csv('reduced_filtered_data.csv')
reduced_filtered_data['reviewText'] = reduced_filtered_data['reviewText'].astype(str)


In [10]:
import re
import string

def clean_text(text):
    # Remove non-alphabetic characters
    text = re.sub(r'[^a-zA-Z]', ' ', text)

    # Convert to lowercase
    text = text.lower()

    return text

# Copiamos en un nuevo dataframe
data_lower = reduced_filtered_data.copy()

# Aplicamos la función de limpieza a los reviews
data_lower['reviewText'] = data_lower['reviewText'].apply(clean_text)

In [11]:
# Guardamos este dataset en un fichero csv
data_lower.to_csv('data_lower.csv', index=False)


In [14]:
# Cargamos el dataset preprocesado
data_lower = pd.read_csv('data_lower.csv')
data_lower['reviewText'] = data_lower['reviewText'].astype(str)
data_lower.shape

(26531, 13)

### Tokenización
A continuación, se tokenizan las reseñas utilizando la función word_tokenize de la librería nltk.

In [15]:
import nltk
nltk.download('punkt')

from nltk.tokenize import word_tokenize

def tokenize_text(text):
    # Tokenizamos usando word_tokenize
    tokens = word_tokenize(text)

    return tokens

# Aplicamos la función a la columna 'review' del dataset
data_lower['reviewText'] = data_lower['reviewText'].apply(tokenize_text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Eliminación de stopwords

Finalmente, se eliminan las palabras vacías (stopwords) de las reseñas utilizando la lista de stopwords de la librería nltk.

In [16]:
nltk.download('stopwords')

from nltk.corpus import stopwords

def remove_stopwords(tokens):
    # removemos stopword de la lista de tokens
    stopwords_list = stopwords.words('english')
    filtered_tokens = [token for token in tokens if token not in stopwords_list]

    return filtered_tokens

# Aplicamos remove_stopwords a la columna review del dataset
data_lower['reviewText'] = data_lower['reviewText'].apply(remove_stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [17]:
# Guardamos este dataset en un fichero csv
data_lower.to_csv('data_lower_preprocesado.csv', index=False)