# Módulo 2: Preprocesado del Texto

En esta etapa, nos dedicaremos a preprocesar el texto. Haremos todas las modificaciones pertinentes para que pueda ser estudiado más a profundidad por modelos de Machine Learning. Ahora crearemos una función que se encargará de realizar este preprocesado.

In [None]:
# En primer lugar, hacemos los imports necesarios
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Descargamos los paquetes necesarios
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

# Creamos la función que se encargará de realizar el preprocesado del texto
def preprocess(text, listaStopWords):

  # Paso 1: Convertimos todo el texto a minúscula
  text = text.lower()

  # Paso 2: Eliminar signos de puntuación y caracteres no alfabéticos
  text = re.sub('[%s]' % re.escape(string.punctuation), '', text)
  text = re.sub(r'[^a-zA-Z]', ' ', text)

  # Paso 3: Tokenización de palabras
  tokens = nltk.word_tokenize(text)

  # Paso 4: Lematización
  lemmatizer = WordNetLemmatizer()
  tokens = [lemmatizer.lemmatize(token) for token in tokens]

  # Eliminación de las stopwords
  sw = stopwords.words('english')
  sw.extend(listaStopWords)
  conjuntoSW = set(sw)
  tokens = [token for token in tokens if token not in conjuntoSW]

  # Unión de los tokens en un texto
  textoProcesado = ' '.join(tokens)

  # Devuelta del texto preprocesado
  return textoProcesado

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


Una vez teniendo nuestra función, encargada de preprocesar el texto, crearemos una función que se encargará de aplicarla a cada uno de nuestros reviews.

In [None]:
# Creamos la función
def ReviewsAplication(reviews, listaStopWords):

  # Inicializamos una lista vacía que contendrá nuestros reviews procesados
  reviewsProcesados = []

  # Creamos el bucle "for" que se encargará de aplicar nuestra función anterior a cada review y añadirlo a la lista
  for texto in reviews:
    texto = preprocess(texto, listaStopWords)
    reviewsProcesados.append(texto)

  # Devuelta la lista de reviews procesados
  return reviewsProcesados

Ya teniendo estas funciones, podemos importar el DataFrame que elaboramos en la parte de Descarga y exploración del corpus para que pueda ser debidamente preparado para la parte de Machine Learning.

In [None]:
# Hacemos los imports necesarios
import pandas as pd

# Importamos el csv con el dfcorpus
dfcorpus = pd.read_csv('./MusicalInstruments.csv')

# Nos aseguramos que el importe se ha realizado correctamente
dfcorpus.head()

Unnamed: 0,overall,reviewText
0,1,It's good for beginners
1,1,I recommend this starter Ukulele kit. I has e...
2,1,G'daughter received this for Christmas present...
3,0,"According to my order history, I bought this t..."
4,0,Please pay attention better than I did to the ...


Viendo que la importación ha ocurrido sin ningún problema, podemos aplicar el preprocesamiento a nuestro corpus con las funciones creadas anteriormente.

In [None]:
# Primero, seleccionamos nuestras stopwords basándonos en los resultados dados por el wordcloud
listaStopWords = ['string', 'time', 'guitar', 'play', 'one', 'need', 'work', 'sound', 'pedal', 'got', 'will', 'price', 'mic']

# Creamos una nueva variable compuesta de los reviews del corpus ya procesados
corpusProcesado = ReviewsAplication(dfcorpus['reviewText'], listaStopWords)

Ahora crearemos un nuevo dfcorpus donde el campo reviewText contendrá los reviews procesados.

In [None]:
# Creamos una copia del dfcorpus antes del preprocesamiento
dfcorpusProcesado = dfcorpus.copy()

# Sustituimos la información del campo reviewText por la misma información pero ya preprocesada
dfcorpusProcesado['reviewText'] = corpusProcesado

# Mostramos una parte del DataFrame para asegurarnos que los cambios han ocurrido correctamente
dfcorpusProcesado.head()

Unnamed: 0,overall,reviewText
0,1,good beginner
1,1,recommend starter ukulele kit ha everything le...
2,1,gdaughter received christmas present last year...
3,0,according order history bought kit towards end...
4,0,please pay attention better review poor qualit...


### Conclusiones del Preprocesado.

Ahora tenemos un DataFrame con informaciones más relevantes para nuestro Supervised Sentiment Analysis. Con este corpus libre de signos de puntuación, caracteres no alfabéticos, stopwords y con cada palabra totalmente en minúscula, podemos sentirnos cómodos para pasar a la etapa de modelado.

In [None]:
# Guardo el DataFrame en un archivo csv para poder utilizarlo en partes posteriores
dfcorpusProcesado.to_csv('MusicalInstrumentsPreprocesado.csv', index=False)