In [None]:
# %% [markdown]
# # FASE 2: Preprocesamiento y Limpieza de Texto
# ## Juanes - Procesamiento NLP

# %%
# Instalación de dependencias
import sys
import os
sys.path.append('../scripts')

# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from preprocessing import TextPreprocessor

# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Cargar datos crudos
# %%
df = pd.read_csv("../data/comentarios.csv")
df.head()

# Mostrar información básica del dataset
# %%
df.info()
df.describe(include='all')

# Distribución de puntuaciones
# %%
plt.figure(figsize=(6,4))
sns.countplot(x="puntuacion", data=df)
plt.title("Distribución de puntuaciones")
plt.show()


# Ejemplo de texto_comentario_comentarios antes del procesamiento
# %%
df["comentario"].iloc[0]

# Inicializar preprocesador
# %%
preprocessor = TextPreprocessor(language="spanish")

# Procesar una reseña de ejemplo para ver el pipeline
# %%
texto_ejemplo = df["comentario"].iloc[0]
resultado = preprocessor.process(texto_ejemplo)

resultado

# Procesar todo el dataset
# %%
df["tokens_limpios"] = df["comentario"].apply(preprocessor.process)
df["texto_limpio"] = df["tokens_limpios"].apply(lambda x: " ".join(x))

# Calcular métricas adicionales
# %%
df["longitud_original"] = df["comentario"].astype(str).apply(len)
df["longitud_limpia"] = df["texto_limpio"].apply(len)
df["num_palabras"] = df["tokens_limpios"].apply(len)

df["densidad_lexica"] = df["num_palabras"] / df["longitud_original"]

# Guardar dataset procesado
# %%
df.to_csv("../data/comentarios_procesados.csv", index=False)

# Análisis de las métricas calculadas
# %%
df[["longitud_original", "longitud_limpia", "num_palabras", "densidad_lexica"]].describe()

# Estadísticas de longitud

# Visualización de métricas

# 1. Distribución de longitud de texto_comentario_comentarios originales

# 2. Distribución de longitud de texto_comentario_comentarios limpios

# 3. Distribución de número de palabras

# 4. Densidad léxica por puntuación

# 5. Relación entre longitud y puntuación

# 6. Distribución de densidad léxica

# Análisis de stopwords eliminadas

# Contar frecuencia de palabras antes y después de eliminar stopwords

# Combinar todos los texto_comentario_comentarios

# Contar frecuencias

# Mostrar las palabras más comunes antes de eliminar stopwords

# Preparar datos para la siguiente fase

# Crear dataset optimizado para análisis

# Guardar dataset para análisis

# Resumen del preprocesamiento


: 