# NLP - Natural Language Processing (Procesamiento de Lenguaje Natural)

En este notebook se hará el procesamiento de lenguaje natural (NLP) en los comentarios de los datasets de entrenamiento y prueba. Se utilizará la librería `nltk` para realizar el procesamiento de los comentarios.

Lo que se hará es:
- Convertir los comentarios a minúsculas
- Tokenizar los comentarios
- Eliminar contenido que hace ruido -> URLs, menciones, hashtags, etc.
- Eliminar las palabras vacías (stopwords)
- Lematizar las palabras
- Eliminar los signos de puntuación
- Eliminar los números
- Eliminar los emojis
- Eliminar los espacios en blanco

Luego una vez ya queden los tokens limpios, se entrenará un Word2Vec para obtener los vectores de palabras de los comentarios. (Promedio de los vectores de palabras de cada comentario)

In [51]:
# Instalación de librerías
%pip install -r '../requirements.txt'

Note: you may need to restart the kernel to use updated packages.


In [52]:
# Importación de librerías
import pandas as pd

In [53]:
# Carga de datos

In [54]:
# Definición de clase para el preprocesamiento de datos

class Preprocesamiento:
  stopwords = []

  def __init__(self):
    pass

  def preprocesar_texto(self, texto: str) -> list[str]:
    nuevo_texto = self.pasar_a_minusculas(texto)
    tokens = self.tokenizar_texto(nuevo_texto)

    return tokens

  # Paso 1: Convertir el texto a minúsculas
  def pasar_a_minusculas(self, texto: str) -> str:
    return texto.lower()

  # Paso 2: Tokenizar el texto
  # Ejemplo: "Hola, ¿cómo estás?" -> ["Hola,", "¿cómo", "estás?"]
  def tokenizar_texto(self, texto: str) -> list[str]:
    texto_tokenizado = texto.split(' ')
    texto_tokenizado = self.limpiar_tokens(texto_tokenizado)
    texto_tokenizado_limpio = self.eliminar_ruido(texto_tokenizado)
    return texto_tokenizado_limpio

  # Paso 3: Eliminar ruido como URLs, menciones y hashtags
  # Ejemplo: ["Hola,"@sebastian, "http://www.google.com", "#InteligenciaArtificial", "¿cómo", "estás?"] -> ["Hola,", "¿cómo", "estás?"]
  def eliminar_ruido(self, tokens: list[str]) -> list[str]:
    # Eliminar URLs
    lista_limpia = []
    for token in tokens:
      if not token.startswith('http'):
        lista_limpia.append(token)
    # Eliminar Hashtags
    lista_limpia = [token for token in lista_limpia if not token.startswith('#')]
    # Eliminar menciones
    lista_limpia = [token for token in lista_limpia if not token.startswith('@')]
    return lista_limpia

  # Paso 4: Eliminar stopwords
  def eliminar_stopwords(self, tokens: list[str]) -> list[str]:
    tokens_limpio = [token for token in tokens if token not in self.stopwords]
    return

  # Helper 1: Limpiar tokens
  # Ejemplo: ["Hola,", "", "¿cómo", "estás?"] -> ["Hola,", "¿cómo", "estás?"]
  def limpiar_tokens(self, tokens: list[str]) -> list[str]:
    tokens_limpio = [token for token in tokens if token != '']
    return tokens_limpio

In [55]:
# Preprocesamiento de datos
preprocesamiento = Preprocesamiento()
comment = '¡Odioooooooooooooo el League of Legends porque  es  un  juego muy tóxico y la comunidad es muy mala! 😝 el link para descargarlo es https://www.leagueoflegends.com'
comment_preprocesado = preprocesamiento.preprocesar_texto(comment)
print(f'Comentario original: {comment}')
print(f'Comentario preprocesado: {comment_preprocesado}')

Comentario original: ¡Odioooooooooooooo el League of Legends porque  es  un  juego muy tóxico y la comunidad es muy mala! 😝 el link para descargarlo es https://www.leagueoflegends.com
Comentario preprocesado: ['¡odioooooooooooooo', 'el', 'league', 'of', 'legends', 'porque', 'es', 'un', 'juego', 'muy', 'tóxico', 'y', 'la', 'comunidad', 'es', 'muy', 'mala!', '😝', 'el', 'link', 'para', 'descargarlo', 'es']
