# 7. Micro-Laboratorio (Ejercicio Práctico)

**Consigna:**

Dado el siguiente conjunto de frases (reviews de películas):
1.  Definir una función `preprocesar_nltk(texto)` que:
    *   Limpie el texto (minúsculas, números, puntuación).
    *   Tokenice.
    *   Quite stopwords (usando la lista de NLTK).
    *   Aplique Stemming (con `SnowballStemmer`).
    *   Devuelva la lista de stems.
2.  Definir una función `preprocesar_spacy(texto)` que:
    *   Limpie el texto (minúsculas, números, puntuación - cuidado con no quitar espacios necesarios para spaCy).
    *   Procese el texto con `nlp()`.
    *   Devuelva la lista de lemas de los tokens que no sean stopwords (`token.is_stop`) y sean alfabéticos (`token.is_alpha`).
3.  Aplicar ambas funciones a cada frase del dataset `reviews`.
4.  Imprimir los resultados de ambas funciones para cada frase, uno debajo del otro, para poder comparar.
5.  **Observar:** ¿Qué diferencias notables encuentran? ¿En qué casos un método parece funcionar "mejor" que el otro?

In [None]:
# Dataset para el ejercicio
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

## Punto 1 - preprocesar_nltk(texto)

In [None]:
# Importamos las librerías necesarias
import nltk  # Biblioteca principal para procesamiento de lenguaje natural
from nltk.tokenize import word_tokenize  # Para dividir el texto en palabras (tokens)
from nltk.corpus import stopwords  # Para obtener listas de palabras vacías (stopwords)
from nltk.stem import SnowballStemmer  # Para reducir palabras a su raíz (stemming)
import string  # Para manejar caracteres de puntuación
import re  # Para expresiones regulares (eliminar números, etc.)
import pandas as pd  # ¡Importamos pandas! Así podremos usar pd.DataFrame
# Importamos la visualización de IPython para mostrar DataFrames de forma bonita
from IPython.display import display

In [None]:
# Descargamos los recursos necesarios de NLTK (solo necesario la primera vez)
nltk.download('punkt')  # Datos para tokenización
nltk.download('stopwords')  # Listas de stopwords en diferentes idiomas

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# Definimos nuestra función de preprocesamiento (igual que antes)
def preprocesar_nltk(texto):
    """
    Función que realiza el preprocesamiento completo de un texto para análisis NLP.
    Transforma el texto en una lista de stems (raíces de palabras) limpios y normalizados.

    Pasos del procesamiento:
    1. Limpieza: convertir a minúsculas, quitar números y puntuación
    2. Tokenización: dividir el texto en palabras individuales
    3. Filtrado: eliminar palabras vacías (stopwords)
    4. Stemming: reducir palabras a su raíz o forma base

    Args:
        texto (str): Texto a procesar

    Returns:
        list: Lista de stems resultantes
    """
    # 1. Limpieza
    texto = texto.lower()  # Minúsculas
    texto = re.sub(r'\d+', '', texto)  # Eliminar números
    texto = texto.translate(str.maketrans('', '', string.punctuation))  # Sin puntuación

    # 2. Tokenización
    tokens = word_tokenize(texto, language='spanish')

    # 3. Eliminar stopwords
    # Ya cargamos las stopwords de NLTK antes, las usamos directamente
    tokens = [word for word in tokens if word not in stopwords.words('spanish')] # Usamos stopwords.words('spanish') directamente aquí

    # 4. Stemming
    # Creamos el stemmer si no existe (o lo creamos dentro si no está definida globalmente)
    stemmer = SnowballStemmer('spanish')
    stems = [stemmer.stem(token) for token in tokens]

    return stems

# Dataset proporcionado
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

# Procesamos todas las reviews
reviews_procesadas = [preprocesar_nltk(review) for review in reviews]

# Creamos un DataFrame para visualizar mejor los resultados
# Ahora que importamos pandas, pd está definido
df = pd.DataFrame({
    'Review Original': reviews,
    'Review Procesada': [' '.join(review) for review in reviews_procesadas],
    'Tokens Procesados': reviews_procesadas
})

# Mostramos los resultados
print("Resultados del Procesamiento:")
display(df) # Usamos display de IPython para una mejor visualización en notebooks

# Análisis adicional: frecuencia de palabras
from collections import Counter

# Unimos todos los tokens
todos_tokens = [token for review in reviews_procesadas for token in review]

# Contamos frecuencia
frecuencia = Counter(todos_tokens)

print("\nPalabras más frecuentes:")
print(frecuencia.most_common(10))

Resultados del Procesamiento:


Unnamed: 0,Review Original,Review Procesada,Tokens Procesados
0,Una película emocionante con actuaciones brill...,pelicul emocion actuacion brillant ¡me encant,"[pelicul, emocion, actuacion, brillant, ¡me, e..."
1,Muy aburrida y lenta. El guión era predecible ...,aburr lent guion predec actor convenc,"[aburr, lent, guion, predec, actor, convenc]"
2,"Los efectos especiales fueron impresionantes, ...",efect especial impresion histori dej des,"[efect, especial, impresion, histori, dej, des]"
3,¡Qué gran comedia! Me reí sin parar durante to...,¡qu gran comedi rei par tod pelicul,"[¡qu, gran, comedi, rei, par, tod, pelicul]"
4,Un documental necesario que aborda temas impor...,documental necesari abord tem import profund s...,"[documental, necesari, abord, tem, import, pro..."



Palabras más frecuentes:
[('pelicul', 2), ('emocion', 1), ('actuacion', 1), ('brillant', 1), ('¡me', 1), ('encant', 1), ('aburr', 1), ('lent', 1), ('guion', 1), ('predec', 1)]


In [None]:
# Análisis de sentimiento básico (ejemplo)
vocabulario_positivo = ['encant', 'emocion', 'brillant', 'impresion', 'comedi', 'ris', 'necesari', 'import', 'sensibil']
vocabulario_negativo = ['aburrid', 'lent', 'predecibl', 'dej', 'desear']

def analizar_sentimiento(tokens):
    positivos = sum(1 for token in tokens if token in vocabulario_positivo)
    negativos = sum(1 for token in tokens if token in vocabulario_negativo)
    return 'Positivo' if positivos > negativos else 'Negativo' if negativos > positivos else 'Neutral'

df['Sentimiento'] = [analizar_sentimiento(review) for review in reviews_procesadas]
display(df[['Review Original', 'Sentimiento']])

Unnamed: 0,Review Original,Sentimiento
0,Una película emocionante con actuaciones brill...,Positivo
1,Muy aburrida y lenta. El guión era predecible ...,Negativo
2,"Los efectos especiales fueron impresionantes, ...",Neutral
3,¡Qué gran comedia! Me reí sin parar durante to...,Positivo
4,Un documental necesario que aborda temas impor...,Positivo


## Punto 2 - preprocesar_spacy(texto)

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Traceback (most recent call last):
  File "<frozen runpy>", line 189, in _run_module_as_main
  File "<frozen runpy>", line 148, in _get_module_details
  File "<frozen runpy>", line 112, in _get_module_details
  File "/usr/local/lib/python3.11/dist-packages/spacy/__init__.py", line 6, in <module>
  File "/usr/local/lib/python3.11/dist-packages/spacy/errors.py", line 3, in <module>
  File "/usr/local/lib/python3.11/dist-packages/spacy/compat.py", line 4, in <module>
    from thinc.util import copy_array
  File "/usr/local/lib/python3.11/dist-packages/thinc/__init__.py", line 5, in <module>
    from .config import registry
  File "/usr/local/lib/python3.11/dist-packages/thinc/config.py", line 5, in <module>
    from .types import Decorator
  File "/usr/local/lib/python3.11/dist-packages/thinc/types.py", line 27, in <module>
    from .compat import cupy, has_cupy
  File "/usr/local/lib/python3.11/dist-packages/thinc/compat.py", line 35, in <module>
    import torch
  File "/usr/local/lib/p

In [None]:
# Importación de librerías necesarias
import spacy  # Biblioteca principal para procesamiento de lenguaje natural
import re  # Para operaciones con expresiones regulares
import string  # Para manejar caracteres especiales y puntuación
import pandas as pd  # Para manejar datos en formato de tablas

# Cargamos el modelo de idioma español de spaCy
# nlp es ahora un objeto que contiene todo el pipeline de procesamiento
nlp = spacy.load("es_core_news_sm")

def preprocesar_spacy(texto):
    """
    Función completa de preprocesamiento de texto usando spaCy.
    Transforma un texto crudo en una lista de lemas relevantes.

    Pasos principales:
    1. Limpieza del texto (normalización)
    2. Procesamiento lingüístico con spaCy
    3. Filtrado y extracción de lemas

    Args:
        texto (str): Texto crudo de entrada (ej. review de película)

    Returns:
        list: Lista de lemas (palabras base) relevantes
    """

    # ----------------------------------------------------------
    # 1. ETAPA DE LIMPIEZA Y NORMALIZACIÓN DEL TEXTO
    # ----------------------------------------------------------

    # Convertimos todo el texto a minúsculas para uniformidad
    # IMPORTANTE: Preservamos los espacios entre palabras
    texto = texto.lower()

    # Eliminamos números usando expresiones regulares
    # Los reemplazamos con un espacio para no unir palabras accidentalmente
    texto = re.sub(r'\d+', ' ', texto)

    # Creamos un traductor para eliminar signos de puntuación
    # EXCEPCIÓN: Conservamos el espacio si estaba en la puntuación
    # string.punctuation contiene: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    # Eliminamos todo excepto el espacio si estuviera
    caracteres_a_eliminar = string.punctuation.replace(' ', '')
    translator = str.maketrans('', '', caracteres_a_eliminar)
    texto = texto.translate(translator)

    # Normalizamos espacios: eliminamos múltiples espacios y dejamos uno solo
    # split() sin argumentos divide por cualquier espacio en blanco
    # join() luego une con un solo espacio entre palabras
    texto = ' '.join(texto.split())

    # ----------------------------------------------------------
    # 2. PROCESAMIENTO LINGÜÍSTICO CON SPACY
    # ----------------------------------------------------------

    # Pasamos el texto por el pipeline completo de spaCy
    # Esto incluye: tokenización, tagging gramatical, lematización, etc.
    doc = nlp(texto)

    # ----------------------------------------------------------
    # 3. FILTRADO Y EXTRACCIÓN DE LEMAS RELEVANTES
    # ----------------------------------------------------------

    # Creamos la lista final de lemas con comprensión de listas
    lemas = [
        token.lemma_  # Obtenemos la forma base de la palabra
        for token in doc  # Por cada token en el documento procesado
        if not token.is_stop  # Solo si NO es una stopword (palabra vacía)
        and token.is_alpha  # Solo si es puramente alfabético (no números o símbolos)
        and len(token.lemma_) > 2  # Opcional: ignoramos lemas muy cortos
    ]

    return lemas

# Dataset de ejemplo con reviews de películas
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

# ----------------------------------------------------------
# PROCESAMIENTO DEL DATASET COMPLETO Y VISUALIZACIÓN
# ----------------------------------------------------------

# Aplicamos nuestra función a cada review en el dataset
# Usamos comprensión de listas para eficiencia
reviews_procesadas = [preprocesar_spacy(review) for review in reviews]

# Creamos un DataFrame para visualización ordenada
df_resultados = pd.DataFrame({
    'Texto Original': reviews,  # Columna con texto original
    'Lemas': [' '.join(lemas) for lemas in reviews_procesadas],  # Lemas unidos en string
    'Lista Lemas': reviews_procesadas  # Lista completa de lemas
})

# Configuración para mostrar DataFrames completos en el notebook
pd.set_option('display.max_colwidth', None)

print("\nRESULTADOS DEL PROCESAMIENTO CON SPACY:")
display(df_resultados)

# ----------------------------------------------------------
# ANÁLISIS ADICIONAL: FRECUENCIA DE LEMAS
# ----------------------------------------------------------

from collections import Counter  # Para contar frecuencia de elementos

# Unimos todos los lemas de todas las reviews
todos_lemas = [lemma for sublist in reviews_procesadas for lemma in sublist]

# Contamos la frecuencia de cada lema
frecuencia_lemas = Counter(todos_lemas)

print("\nTOP 10 LEMAS MÁS FRECUENTES:")
print(frecuencia_lemas.most_common(10))



RESULTADOS DEL PROCESAMIENTO CON SPACY:


Unnamed: 0,Texto Original,Lemas,Lista Lemas
0,Una película emocionante con actuaciones brillantes. ¡Me encantó!,emocionante actuación brillante encantar,"[emocionante, actuación, brillante, encantar]"
1,Muy aburrida y lenta. El guión era predecible y los actores no convencían.,aburrido lento guión predecible actor convencer,"[aburrido, lento, guión, predecible, actor, convencer]"
2,"Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",efecto especial impresionante historia dejar desear,"[efecto, especial, impresionante, historia, dejar, desear]"
3,¡Qué gran comedia! Me reí sin parar durante toda la película.,comedia reí parar,"[comedia, reí, parar]"
4,Un documental necesario que aborda temas importantes con profundidad y sensibilidad.,documental necesario abordar tema importante profundidad sensibilidad,"[documental, necesario, abordar, tema, importante, profundidad, sensibilidad]"



TOP 10 LEMAS MÁS FRECUENTES:
[('emocionante', 1), ('actuación', 1), ('brillante', 1), ('encantar', 1), ('aburrido', 1), ('lento', 1), ('guión', 1), ('predecible', 1), ('actor', 1), ('convencer', 1)]


## Punto 3 - Spacy y NLTK

In [None]:
import spacy
import re
import string

# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

def preprocesar_spacy(texto):
    """
    Procesa un texto con spaCy realizando:
    1. Limpieza (minúsculas, números, puntuación preservando espacios)
    2. Procesamiento con pipeline de spaCy
    3. Filtrado de tokens (stopwords, alfabéticos)
    4. Lematización

    Args:
        texto (str): Texto a procesar

    Returns:
        list: Lista de lemas filtrados
    """

    ## 1. LIMPIEZA DEL TEXTO ##

    # Convertir a minúsculas preservando espacios
    texto = texto.lower()

    # Eliminar números (pero preservar espacios alrededor)
    texto = re.sub(r'\d+', ' ', texto)

    # Eliminar puntuación excepto espacios
    # Creamos una tabla de traducción que mantiene espacios
    translator = str.maketrans('', '', string.punctuation.replace(' ', ''))
    texto = texto.translate(translator)

    # Eliminar múltiples espacios en blanco
    texto = ' '.join(texto.split())


    ## 2. PROCESAMIENTO CON SPACY ##
    doc = nlp(texto)


    ## 3. FILTRADO Y LEMATIZACIÓN ##
    lemas = [
        token.lemma_ for token in doc
        if not token.is_stop  # No es stopword
        and token.is_alpha  # Es token alfabético
        and len(token.lemma_) > 2  # Opcional: filtrar lemas muy cortos
    ]

    return lemas

# Procesamos todas las reviews del dataset
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

# Aplicamos la función a cada review
reviews_procesadas_spacy = [preprocesar_spacy(review) for review in reviews]

# Creamos un DataFrame para visualizar los resultados
import pandas as pd

df_spacy = pd.DataFrame({
    'Review Original': reviews,
    'Lemas spaCy': [' '.join(lemas) for lemas in reviews_procesadas_spacy],
    'Lista Lemas': reviews_procesadas_spacy
})

# Mostramos los resultados
print("Resultados del procesamiento con spaCy:")
display(df_spacy)

# Comparación con el método NLTK anterior
print("\nComparación de métodos (spaCy vs NLTK):")
df_comparacion = pd.DataFrame({
    'Original': reviews,
    'spaCy (Lemas)': [' '.join(preprocesar_spacy(review)) for review in reviews],
    'NLTK (Stems)': [' '.join(preprocesar_nltk(review)) for review in reviews]
})
display(df_comparacion)

Resultados del procesamiento con spaCy:


Unnamed: 0,Review Original,Lemas spaCy,Lista Lemas
0,Una película emocionante con actuaciones brill...,película emocionante actuación brillante encantar,"[película, emocionante, actuación, brillante, ..."
1,Muy aburrida y lenta. El guión era predecible ...,aburrido lento guión predecible actor convencer,"[aburrido, lento, guión, predecible, actor, co..."
2,"Los efectos especiales fueron impresionantes, ...",efecto especial impresionante historia dejar d...,"[efecto, especial, impresionante, historia, de..."
3,¡Qué gran comedia! Me reí sin parar durante to...,comedia reí parar película,"[comedia, reí, parar, película]"
4,Un documental necesario que aborda temas impor...,documental necesario abordar tema importante p...,"[documental, necesario, abordar, tema, importa..."



Comparación de métodos (spaCy vs NLTK):


Unnamed: 0,Original,spaCy (Lemas),NLTK (Stems)
0,Una película emocionante con actuaciones brill...,película emocionante actuación brillante encantar,pelicul emocion actuacion brillant ¡me encant
1,Muy aburrida y lenta. El guión era predecible ...,aburrido lento guión predecible actor convencer,aburr lent guion predec actor convenc
2,"Los efectos especiales fueron impresionantes, ...",efecto especial impresionante historia dejar d...,efect especial impresion histori dej des
3,¡Qué gran comedia! Me reí sin parar durante to...,comedia reí parar película,¡qu gran comedi rei par tod pelicul
4,Un documental necesario que aborda temas impor...,documental necesario abordar tema importante p...,documental necesari abord tem import profund s...


1- Limpieza del Texto:

* Convertimos a minúsculas preservando espacios

* Eliminamos números reemplazándolos por un espacio (no queremos unir palabras)

* Eliminamos puntuación pero preservamos espacios

* Normalizamos espacios múltiples


2- Procesamiento con spaCy:

* Usamos nlp() que aplica todo el pipeline (tokenización, POS tagging, lematización, etc.)

* spaCy automáticamente maneja casos especiales como contracciones

3- Filtrado y Lematización:

* Conservamos solo tokens que:

1 - No son stopwords (token.is_stop)

2 - Son alfabéticos (token.is_alpha)

* Obtenemos el lema de cada token con token.lemma_

* Opcional: filtramos lemas muy cortos (útil para eliminar artículos residuales)

** Diferencias clave con NLTK **
* Lemas vs Stems:

1- spaCy usa lematización (palabras base según diccionario)

2 - NLTK usa stemming (corte algorítmico)

* Calidad de resultados:

spaCy generalmente da mejores resultados gracias a su modelo estadístico

Ejemplo: "convencían" → "convencer" (spaCy) vs "convenc" (NLTK)

* Eficiencia:

1 - spaCy es más rápido para textos largos

2 - NLTK puede ser más ligero para tareas simples

# 8. Brainstorming

Ahora que conocemos estas técnicas, pensemos:

**¿Cómo podemos preprocesar el texto de manera que se eviten sesgos y discriminaciones?**

*   ¿Qué pasa si la lista de `stopwords` que usamos (sea de NLTK o spaCy) quita palabras importantes para un grupo minoritario o en un contexto específico (ej: jerga, términos culturales)?
*   ¿Los stemmers o lematizadores funcionan igual de bien con diferentes dialectos del español o con lenguaje inclusivo? (Probablemente no, los modelos estándar están entrenados en textos más "formales").
*   Si quitamos nombres propios o entidades, ¿podríamos estar eliminando información crucial sobre representación?
*   Al elegir agresividad (stemming) vs. precisión (lematización), ¿podríamos afectar diferencialmente el análisis de textos de distintos grupos?
*   ¿Qué responsabilidad tenemos al elegir y aplicar estas técnicas? ¿Deberíamos documentar siempre nuestras decisiones de preprocesamiento?

**(Discusión en grupo)**

In [11]:
from spacy.lang.es.stop_words import STOP_WORDS

# Añadir stopwords personalizadas
STOP_WORDS.update(["película", "film", "cine"])

# Quitar palabras que no son stopwords
STOP_WORDS.discard("necesario")

In [None]:
# Más eficiente para muchos textos
docs = list(nlp.pipe(reviews))

In [None]:
# Filtrar por tipo gramatical
lemas = [token.lemma_ for token in doc
         if not token.is_stop
         and token.is_alpha
         and token.pos_ in ['NOUN', 'ADJ']]  # Solo sustantivos y adjetivos

In [13]:
# Dataset para el ejercicio
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

In [16]:
# Asegurarse de que el modelo de spaCy esté descargado
# Esto solo necesita ejecutarse una vez por entorno si el modelo no está presente.
# Si el error persiste, puede haber un problema con los permisos o la instalación.
# Es buena práctica incluir el comando de descarga antes de cargar el modelo si no estás seguro de que está instalado.
# El -q es para que la salida sea más silenciosa en el notebook.
!python -m spacy download es_core_news_sm -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m49.2 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [17]:
# Importamos spaCy y el modelo de español
import spacy
from spacy.lang.es.stop_words import STOP_WORDS

# Cargamos el modelo de lenguaje en español
nlp = spacy.load("es_core_news_sm")

# Dataset de reseñas
reviews = [
    "Una película emocionante con actuaciones brillantes. ¡Me encantó!",
    "Muy aburrida y lenta. El guión era predecible y los actores no convencían.",
    "Los efectos especiales fueron impresionantes, pero la historia dejaba mucho que desear.",
    "¡Qué gran comedia! Me reí sin parar durante toda la película.",
    "Un documental necesario que aborda temas importantes con profundidad y sensibilidad."
]

# Personalizamos la lista de stopwords
STOP_WORDS.update(["película", "film", "cine"])  # Añadimos palabras que se repiten mucho
STOP_WORDS.discard("necesario")  # Quitamos una palabra que puede ser clave en algunas reseñas

# Procesamos los textos más rápido con pipe
docs = list(nlp.pipe(reviews))

# Extraemos solo lemas que no son stopwords, que son palabras y que son sustantivos o adjetivos
preprocessed_reviews = [
    [token.lemma_ for token in doc
     if not token.is_stop and token.is_alpha and token.pos_ in ['NOUN', 'ADJ']]
    for doc in docs
]

# Mostramos los resultados
for i, tokens in enumerate(preprocessed_reviews):
    print(f"Reseña {i+1}: {tokens}")


Reseña 1: ['emocionante', 'actuación', 'brillante']
Reseña 2: ['aburrido', 'lento', 'guión', 'predecible', 'actor']
Reseña 3: ['efecto', 'especial', 'impresionante', 'historia']
Reseña 4: ['comedia']
Reseña 5: ['documental', 'necesario', 'tema', 'importante', 'profundidad', 'sensibilidad']


* **Stopwords**: Si eliminamos palabras sin revisar, podríamos borrar jergas o términos importantes para grupos minoritarios.

* **Stemming/Lematización**: No reconocen bien dialectos ni lenguaje inclusivo. Eso puede excluir o deformar significados.

* **Entidades**: Si quitamos nombres (personas, lugares), perdemos contexto sobre representación y diversidad.

* **Decisiones conscientes**: Cada paso de preprocesamiento puede reforzar o mitigar sesgos → ¡documentar es clave!

* **Responsabilidad**: Como analistas, debemos revisar y adaptar herramientas, no usarlas "por defecto".