# Práctica de NLP & Searching

# **2. Etapa de preprocesado de texto**


Esta sección se centra en la preparación de los datos textuales para su posterior análisis, especialmente para el análisis de sentimientos. Esta etapa crucial, denominada preprocesamiento, tiene como objetivo limpiar y normalizar los datos textuales para mejorar el rendimiento de los modelos de aprendizaje automático. En esta parte, aplicaremos diferentes técnicas de preprocesamiento a las reseñas de productos de la categoría "Digital Music", utilizando la biblioteca NLTK y el lenguaje de programación Python.

In [20]:
import pandas as pd

# Assuming your data is in 'Digital_Music.jsonl'
corpus_hcpc = pd.read_json('Digital_Music.jsonl', lines=True)

Este código prepara los datos textuales para el análisis de sentimientos limpiando y normalizando el texto de las reseñas de productos.

En resumen:

El código importa las librerías necesarias (pandas, nltk, re).
Descarga los recursos de NLTK para el procesamiento del lenguaje natural.
Carga los datos de las reseñas en un DataFrame de pandas.
Define funciones para limpiar y normalizar el texto (eliminación de palabras vacías, puntuación y lematización).
Combina los títulos y los textos de las reseñas.
Aplica las funciones de preprocesamiento para crear una nueva columna con el texto limpio, listo para el análisis de sentimientos.

In [21]:
import pandas as pd
import nltk
import re

# Descarga de los datos necesarios de NLTK
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('wordnet') # Para la lematización

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Carga de los datos
corpus_hcpc = pd.read_json('Digital_Music.jsonl', lines=True)

# Definición de las funciones de preprocesamiento
def eliminar_stopwords(tokens, idioma='english'):
    stop_words = set(stopwords.words(idioma))
    return [token for token in tokens if token not in stop_words]

def eliminar_puntuacion(texto):
    return re.sub(r'[^\w\s]', '', texto)

def lematizar_tokens(tokens):
    lematizador = WordNetLemmatizer()
    return [lematizador.lemmatize(token) for token in tokens]

def preprocesar_texto(texto):
    """Preprocesa el texto de una reseña."""
    texto = texto.lower()  # Convertir a minúsculas
    texto = eliminar_puntuacion(texto)  # Eliminar puntuación
    tokens = word_tokenize(texto)  # Tokenizar
    tokens = eliminar_stopwords(tokens)  # Eliminar stopwords
    tokens = lematizar_tokens(tokens)  # Lematizar
    texto_preprocesado = " ".join(tokens)  # Reconstruir el texto
    return texto_preprocesado

# Creación de la columna 'texto_titulo' y aplicación del preprocesamiento
if 'texto_titulo' not in corpus_hcpc.columns:
    corpus_hcpc["texto_titulo"] = corpus_hcpc["title"] + " " + corpus_hcpc["text"]

corpus_hcpc['texto_preprocesado'] = corpus_hcpc['texto_titulo'].apply(preprocesar_texto)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


En conclusión se ha realizado un preprocesamiento completo de los datos textuales de las reseñas de productos. Utilizando técnicas como la eliminación de stopwords, la eliminación de puntuación y la lematización, hemos limpiado y normalizado el texto, haciéndolo más adecuado para el análisis de sentimientos. La modularidad del código se ha garantizado mediante el uso de funciones anidadas, lo que facilita su comprensión y mantenimiento. Los datos preprocesados ahora se almacenan en una nueva columna del DataFrame corpus_hcpc, listos para ser utilizados en la siguiente etapa del análisis. Este preprocesamiento es fundamental para mejorar la calidad y la fiabilidad de los resultados del análisis de sentimientos.

Puntos clave a recordar:

Objetivo: Preparar los datos textuales para el análisis de sentimientos.
Técnicas utilizadas: Eliminación de stopwords, eliminación de puntuación, lematización.
Modularidad: Funciones anidadas para una mejor organización del código.
Resultado: Datos textuales limpios y normalizados, almacenados en una nueva columna del DataFrame.
Importancia: Mejora la calidad y la fiabilidad del análisis de sentimientos.