# NLP Heurístico: ¡Dominando el Texto con Expresiones Regulares (Regex)!

El objetivo de hoy es aprender a "hablar" el lenguaje de los patrones de texto para detectar, extraer y limpiar información de manera eficiente. ¡Es una de las habilidades más fundamentales y útiles en el mundo del NLP!

## ¿Qué es el Paradigma Heurístico en NLP?

Imagina que quieres enseñarle a una máquina a encontrar fechas en un texto. Tienes dos formas principales de hacerlo:

1.  **Paradigma basado en Machine Learning:** Le muestras a la máquina miles de ejemplos de textos con fechas etiquetadas y esperas que "aprenda" por sí misma qué es una fecha. Es como aprender un idioma por inmersión. Es muy potente pero requiere muchos datos y recursos.

2.  **Paradigma Heurístico (Basado en Reglas):** Le das a la máquina una regla explícita y directa. Por ejemplo: "Una fecha tiene la forma `dígito-dígito / dígito-dígito / dígito-dígito-dígito-dígito`". La máquina no "aprende", simplemente sigue tu regla al pie de la letra.

Hoy nos enfocaremos en el **paradigma heurístico**. Es increíblemente rápido, no necesita entrenamiento y es perfecto para patrones bien definidos. La herramienta estrella para crear estas reglas son las **Expresiones Regulares**.

### ¿Qué son las Expresiones Regulares (Regex)?

Una expresión regular (o regex) es una secuencia de caracteres que define un **patrón de búsqueda**. Piensa en ellas como una versión súper avanzada de la función "Buscar" (Ctrl+F) que puedes usar en cualquier editor de texto.

En lugar de buscar una palabra exacta, puedes buscar:
- Un correo electrónico.
- Un número de teléfono.
- Una palabra que empiece con 'A' y termine con 'o'.
- Una línea que no contenga números.

¡Las posibilidades son casi infinitas! En Python, usamos la biblioteca `re` para trabajar con ellas. No necesita instalación, ¡ya viene incluida!

In [None]:
# El único requisito para esta clase es importar la biblioteca 're'
import re

## Los Bloques Fundamentales de Regex

Para construir patrones, usamos "metacaracteres", que son caracteres con un significado especial. Aquí están los más importantes:

### Metacaracteres Básicos

| Metacarácter | Descripción | Ejemplo | Significado |
| :--- | :--- | :--- | :--- |
| `.` | Cualquier carácter (excepto salto de línea) | `c.sa` | `casa`, `cosa`, `c#sa` |
| `\d` | Cualquier dígito numérico (0-9) | `\d\d` | `12`, `99`, `05` |
| `\w` | Cualquier carácter alfanumérico (a-z, A-Z, 0-9, _) | `\w\w\w` | `sol`, `_py`, `R2D` |
| `\s` | Cualquier carácter de espacio en blanco (espacio, tab, enter) | `hola\smundo` | `hola mundo` |
| `[]` | Un conjunto de caracteres permitidos | `[aeiou]` | `a`, `e`, `i`, `o`, `u` |
| `^` | Empieza con... (o niega un conjunto `[^aeiou]`) | `^Hola` | `Hola mundo` |
| `$` | Termina con... | `mundo$` | `Hola mundo` |

### Cuantificadores (¿Cuántas veces?)

| Cuantificador | Descripción | Ejemplo | Significado |
| :--- | :--- | :--- | :--- |
| `*` | Cero o más veces | `ab*c` | `ac`, `abc`, `abbbc` |
| `+` | Una o más veces | `ab+c` | `abc`, `abbbc` (pero no `ac`) |
| `?` | Cero o una vez | `colou?r` | `color`, `colour` |
| `{n}` | Exactamente `n` veces | `\d{3}` | `123`, `987` |
| `{n,m}` | Entre `n` y `m` veces | `\w{2,4}` | `sol`, `casa`, `yo` |

### Funciones Clave de la Biblioteca `re`

- `re.findall(patron, texto)`: Encuentra **todas** las ocurrencias del patrón en el texto y las devuelve como una lista.
- `re.search(patron, texto)`: Busca la **primera** ocurrencia del patrón. Devuelve un objeto especial con información (o `None` si no lo encuentra).
- `re.sub(patron, reemplazo, texto)`: **Sustituye** todas las ocurrencias del patrón por el texto de reemplazo.

In [None]:
texto_ejemplo = "El NLP es una rama de la IA. Nació en 1950 y hoy, en 2025, sigue evolucionando. Mi correo es test.user@email.com y el de soporte es soporte_1@mi.dominio.org."

# Ejemplo 1: Encontrar todos los números de 4 dígitos (años)
patron_anos = r"\d{4}" # La 'r' antes de las comillas indica que es un 'raw string', una buena práctica para regex.
anos = re.findall(patron_anos, texto_ejemplo)
print(f"Años encontrados: {anos}")

# Ejemplo 2: Encontrar todas las palabras que empiezan con 'e'
# \b es un 'ancla' que significa 'límite de palabra', para no encontrar 'es' dentro de 'sigue'
patron_palabras_e = r"\b[eE]\w*"
palabras_con_e = re.findall(patron_palabras_e, texto_ejemplo)
print(f"Palabras que empiezan con 'e' o 'E': {palabras_con_e}")

Años encontrados: ['1950', '2025']
Palabras que empiezan con 'e' o 'E': ['El', 'es', 'en', 'en', 'evolucionando', 'es', 'email', 'el', 'es']


## Detección de Patrones Comunes

¡Vamos a la práctica! Usemos regex para encontrar información útil en textos del mundo real.

### 📧 Detectando Correos Electrónicos

Un correo electrónico sigue una estructura: `nombre`@`dominio`.`extension`.

- `nombre`: Puede contener letras, números, puntos, guiones bajos...
- `dominio`: Letras, números, guiones...
- `extension`: Típicamente 2 o más letras.

**Patrón:** `[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,}`

In [None]:
texto_con_correos = "Contacta a juan.perez@email.com para ventas. Si tienes problemas, escribe a soporte-tecnico@mi-empresa.co.uk. No envíes a info@.com."

patron_email = r"[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,}"
correos_encontrados = re.findall(patron_email, texto_con_correos)

print(f"Correos encontrados: {correos_encontrados}")

Correos encontrados: ['juan.perez@email.com', 'soporte-tecnico@mi-empresa.co.uk']


### Detectando Hashtags y Mentiones

Muy comunes en redes sociales. Su patrón es simple:
- **Hashtags:** Empiezan con `#` seguido de letras, números o guion bajo.
- **Menciones:** Empiezan con `@` seguido de letras, números o guion bajo.

**Patrón Hashtag:** `#[\w_]+`

**Patrón Mención:** `@[\w_]+`

In [None]:
texto_tweet = "¡Gran evento de #NLP hoy en la ciudad! Gracias a @organizador_principal y @ai_school por hacerlo posible. Más info en https://evento.com #InteligenciaArtificial #Python"

patron_hashtag = r"#[\w_]+"
patron_mencion = r"@[\w_]+"

hashtags = re.findall(patron_hashtag, texto_tweet)
menciones = re.findall(patron_mencion, texto_tweet)

print(f"Hashtags: {hashtags}")
print(f"Menciones: {menciones}")

Hashtags: ['#NLP', '#InteligenciaArtificial', '#Python']
Menciones: ['@organizador_principal', '@ai_school']


### **Ejercicio: Detecta las URLs**

Ahora es tu turno. Usando el `texto_tweet` de la celda anterior, crea un patrón para encontrar la URL (`https://evento.com`).

**Pista:** Una URL simple empieza con `http` o `https` seguido de `://` y luego muchos caracteres que no son espacios en blanco (`\S+`).

In [None]:
# Escribe tu patrón aquí
patron_url = r"https?://\w+\.[\w^0123456789]{2,}"

# Aplica tu patrón al texto_tweet
urls = re.findall(patron_url, texto_tweet)

print(f"URLs encontradas: {urls}")

URLs encontradas: ['https://evento.com']


## Limpieza de Texto

El texto del mundo real es "ruidoso": tiene puntuación, números, mayúsculas/minúsculas inconsistentes, etc. Antes de analizarlo, casi siempre necesitamos limpiarlo. La función `re.sub()` es nuestra mejor aliada aquí.

In [None]:
texto_sucio = "¡¡HOLA!! Esto es 1 ejemplo de texto... ¿Ves? Contiene SÍMBOLOS ($%&) y números (123)."

# 1. Convertir todo a minúsculas (esto no es regex, pero es un paso fundamental)
texto_limpio = texto_sucio.lower()
print(f"Paso 1 (minúsculas): {texto_limpio}")

# 2. Eliminar números
# El patrón \d+ significa "uno o más dígitos"
texto_limpio = re.sub(r"\d+", "", texto_limpio)
print(f"Paso 2 (sin números): {texto_limpio}")

# 3. Eliminar puntuación y símbolos
# El patrón [^\w\s] significa "cualquier caracter que NO sea (^) alfanumérico (\w) o un espacio (\s)"
texto_limpio = re.sub(r"[^\w\s]", "", texto_limpio)
print(f"Paso 3 (sin puntuación): {texto_limpio}")

# 4. (Opcional) Eliminar espacios extra
# El patrón \s+ significa "uno o más espacios en blanco"
texto_limpio = re.sub(r"\s+", " ", texto_limpio).strip() # .strip() quita espacios al inicio/final
print(f"Paso 4 (final): '{texto_limpio}'")

Paso 1 (minúsculas): ¡¡hola!! esto es 1 ejemplo de texto... ¿ves? contiene símbolos ($%&) y números (123).
Paso 2 (sin números): ¡¡hola!! esto es  ejemplo de texto... ¿ves? contiene símbolos ($%&) y números ().
Paso 3 (sin puntuación): hola esto es  ejemplo de texto ves contiene símbolos  y números 
Paso 4 (final): 'hola esto es ejemplo de texto ves contiene símbolos y números'


### **Ejercicio: Limpieza Personalizada**

Limpia el siguiente texto para que **solo queden las palabras y los espacios**. Debes eliminar hashtags, menciones y la URL en un solo paso o en varios.

In [None]:
texto_a_limpiar = "Este es un post de @usuario_x sobre #DataScience. Puedes leer más en http://mi.blog.com/articulo1. ¡Es genial! #AI"
texto_resultado = texto_a_limpiar

# Pista: Puedes combinar patrones con el operador '|' (significa OR)
# Por ejemplo, r"patron1|patron2" encuentra el patron1 O el patron2.

# Escribe tu código aquí
patron_a_eliminar = r""
texto_resultado = re.sub(patron_a_eliminar, "", texto_resultado)

# También podrías eliminar la puntuación que queda
texto_resultado = re.sub(r"[^\w\s]", "", texto_resultado)
texto_resultado = re.sub(r"\s+", " ", texto_resultado).strip()

print(f"Texto limpio: '{texto_resultado}'")

Texto limpio: 'Este es un post de usuario_x sobre DataScience Puedes leer más en httpmiblogcomarticulo1 Es genial AI'


## Extracción de Entidades Simples

A veces no queremos eliminar información, sino **extraerla**. Esto se conoce como Reconocimiento de Entidades Nombradas (NER, por sus siglas en inglés). Con regex podemos hacer una versión simple de NER para entidades con formatos predecibles.

### 📅 Extrayendo Fechas

Las fechas pueden tener muchos formatos (`dd/mm/aaaa`, `dd-mm-aa`, `mes dd, aaaa`...). La clave es crear un patrón para el formato que esperamos.

**Patrón para `dd/mm/aaaa`:** `\d{2}/\d{2}/\d{4}`

In [None]:
reporte = "El informe trimestral fue entregado el 15/04/2023. La próxima fecha límite es el 15/07/2023. La reunión final será el 01/12/2024."

patron_fecha = r"\d{2}/\d{2}/\d{4}"
fechas = re.findall(patron_fecha, reporte)

print(f"Fechas encontradas: {fechas}")

Fechas encontradas: ['15/04/2023', '15/07/2023', '01/12/2024']


### **Ejercicio: Extrayendo Códigos Postales**

En el siguiente texto, extrae todos los códigos postales de España (que son 5 dígitos numéricos).

In [None]:
direccionario = "Oficina central en Madrid, 28001. Sucursal de Barcelona en 08001. Almacén en Valencia, 46001. La dirección antigua era en el 28010."

# Escribe tu patrón aquí (debe encontrar secuencias de exactamente 5 dígitos)
patron_cp = r"" # Usamos \b para asegurar que son 5 dígitos exactos, no parte de un número más largo

codigos_postales = re.findall(patron_cp, direccionario)

print(f"Códigos postales encontrados: {codigos_postales}")

Códigos postales encontrados: ['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


## Mini Desafíos Finales

¡Es hora de combinar todo lo que has aprendido! A continuación tienes dos desafíos.

### Desafío 1: El Analista de Facturas

Tienes el texto de una factura. Tu misión es extraer:
1.  El **número de factura** (formato `FACT-XXXXX` donde X es un número).
2.  El **total a pagar** (formato `$XXXX.XX`).
3.  La **fecha de emisión** (formato `dd-Mes-yyyy`, ej: `21-Agosto-2025`).

In [None]:
texto_factura = """
Detalles de la Factura:
Número de Factura: FACT-10523
Cliente: ACME Corp
Fecha de Emisión: 15-Marzo-2024
---
Concepto: Desarrollo Web, Cantidad: 1, Precio: $1200.00
---
TOTAL A PAGAR: $1200.00
"""

# Escribe tus patrones y código aquí
patron_num_factura = r""
patron_total = r""
patron_fecha_factura = r""

# re.search es útil aquí porque solo esperamos un resultado de cada tipo
num_factura = re.search(patron_num_factura, texto_factura).group(0)
total = re.search(patron_total, texto_factura).group(0)
fecha = re.search(patron_fecha_factura, texto_factura).group(0)

print(f"Número de Factura: {num_factura}")
print(f"Total: {total}")
print(f"Fecha: {fecha}")

Número de Factura: 
Total: 
Fecha: 


### Desafío 2: El Limpiador de Comentarios

Tienes un comentario de un blog que es un desastre. Tu tarea es:
1.  Extraer el nombre de usuario (empieza con `@`).
2.  Extraer la URL compartida.
3.  Producir una versión final del comentario **limpia**, que contenga solo el texto útil (sin el usuario, la URL, la puntuación excesiva y en minúsculas).

In [None]:
comentario = "GRACIAS!!! @pedro_gomez por el tip... me funcionó. Les dejo el link que encontré: https://un-foro-random.net/soluciones/python ... #code #python"

# 1. Extraer usuario y URL
usuario = re.search(r"", comentario).group(0)
url = re.search(r"", comentario).group(0)

print(f"Usuario: {usuario}")
print(f"URL: {url}")

# 2. Limpiar el comentario
comentario_limpio = comentario.lower()
patrones_a_borrar = r""
comentario_limpio = re.sub(patrones_a_borrar, "", comentario_limpio)
comentario_limpio = re.sub(r"[^\w\s]", "", comentario_limpio)
comentario_limpio = re.sub(r"\s+", " ", comentario_limpio).strip()

print(f"Comentario Limpio: '{comentario_limpio}'")

Usuario: 
URL: 
Comentario Limpio: 'gracias pedro_gomez por el tip me funcionó les dejo el link que encontré httpsunfororandomnetsolucionespython code python'


## Sección Extra: Detección de Emociones con un Enfoque Heurístico

El análisis de sentimientos real es una tarea compleja que requiere modelos de Machine Learning para entender el contexto. Por ejemplo, la frase "No me siento **feliz**" es negativa, aunque contenga la palabra "feliz".

Sin embargo, podemos crear un sistema de reglas simple para tener una **aproximación muy básica**. La estrategia será:

1.  **Crear Lexicones:** Definir listas de palabras que asociamos con emociones positivas y negativas.
2.  **Construir un Patrón:** Unir estas palabras en una única expresión regular usando el operador `|` (OR).
3.  **Contar Ocurrencias:** Usar `re.findall()` para encontrar todas las palabras de nuestras listas en el texto.
4.  **Calcular un "Score":** Restar el número de palabras negativas al de positivas para obtener un puntaje de sentimiento.

Este método es muy limitado, ¡pero es un ejercicio excelente para practicar regex!

In [None]:
# 1. Crear nuestros lexicones de emociones
palabras_positivas = [
    "genial", "increíble", "fantástico", "maravilloso", "amo",
    "me encanta", "feliz", "excelente", "éxito", "alegría", "bueno"
]

palabras_negativas = [
    "terrible", "odio", "horrible", "decepcionante", "malo",
    "triste", "problema", "fracaso", "error", "pésimo"
]

# Texto de ejemplo para analizar
texto_opinion = "El servicio fue excelente y la comida fantástica. Me encanta este lugar. Sin embargo, el postre fue un poco decepcionante."

# --- Análisis de Sentimiento ---

# 2. Construir los patrones de regex
# Unimos todas las palabras con '|' para crear un patrón que busque CUALQUIERA de ellas
# re.IGNORECASE hace que la búsqueda no distinga entre mayúsculas y minúsculas (ej: "Bueno" y "bueno" son lo mismo)
patron_positivo = r"\b(" + "|".join(palabras_positivas) + r")\b"
patron_negativo = r"\b(" + "|".join(palabras_negativas) + r")\b"

# 3. Encontrar todas las ocurrencias
positivas_encontradas = re.findall(patron_positivo, texto_opinion, flags=re.IGNORECASE)
negativas_encontradas = re.findall(patron_negativo, texto_opinion, flags=re.IGNORECASE)

print(f"Palabras Positivas Encontradas: {positivas_encontradas}")
print(f"Palabras Negativas Encontradas: {negativas_encontradas}")

# 4. Calcular el score final
score = len(positivas_encontradas) - len(negativas_encontradas)

print(f"\n Sentimiento: {score}")

# 5. Decidir el sentimiento general
if score > 0:
    print("Resultado: El sentimiento general del texto es Positivo.")
elif score < 0:
    print("Resultado: El sentimiento general del texto es Negativo.")
else:
    print("Resultado: El sentimiento general del texto es Neutral o Mixto.")

Palabras Positivas Encontradas: ['excelente', 'Me encanta']
Palabras Negativas Encontradas: ['decepcionante']

 Sentimiento: 1
Resultado: El sentimiento general del texto es Positivo.


## Limitaciones del Enfoque Heurístico

Aunque son potentes, las regex tienen limitaciones. Son **rígidas** y no entienden el **contexto**. Por ejemplo, un patrón para extraer "Washington" podría fallar si en el texto aparece "Washington D.C." o no sabría distinguir entre "Washington (el estado)" y "Washington (el presidente)".

# 🎬 Ejercicio Real: Análisis de Sentimiento con Regex y Datos de Kaggle

**Objetivo:** Adaptaremos nuestro ejercicio para descargar el dataset de IMDb directamente desde Kaggle usando su API oficial. Esto simula un flujo de trabajo de ciencia de datos más realista. Luego, aplicaremos y evaluaremos nuestro clasificador heurístico.

**Prerrequisito: Tu Clave API de Kaggle**

Para que esto funcione, necesitas tu clave de API de Kaggle.
1.  Ve a tu perfil de Kaggle y entra en la sección **"Account"**. [Link directo](https://www.kaggle.com/account).
2.  Busca la sección **"API"** y haz clic en **"Create New API Token"**.
3.  Esto descargará un archivo llamado `kaggle.json`. **Tenlo listo para subirlo en el siguiente paso.**

In [None]:
# Paso 1: Instalar la biblioteca de Kaggle
!pip install kaggle -q

# Paso 2: Subir tu archivo kaggle.json
# Al ejecutar esta celda, aparecerá un botón para que selecciones el archivo desde tu computadora.
from google.colab import files
print("Por favor, sube tu archivo 'kaggle.json':")
files.upload()

# Paso 3: Mover el archivo a la ubicación correcta y establecer permisos
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

print("Autenticación de Kaggle completada.")

Por favor, sube tu archivo 'kaggle.json':


Saving kaggle.json to kaggle.json
Autenticación de Kaggle completada.


In [None]:
# Con la API ya configurada, podemos descargar el dataset.
# Usaremos 'lakshmi25npathi/imdb-dataset-of-50k-movie-reviews', que es una versión en CSV muy conveniente.
!kaggle datasets download -d lakshmi25npathi/imdb-dataset-of-50k-movie-reviews -q

# El archivo se descarga como 'imdb-dataset-of-50k-movie-reviews.zip'. Ahora lo descomprimimos.
!unzip -q imdb-dataset-of-50k-movie-reviews.zip

print("Dataset de Kaggle descargado y descomprimido.")

Dataset URL: https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
License(s): other
Dataset de Kaggle descargado y descomprimido.


In [None]:
import pandas as pd
import re

# La versión de Kaggle viene en un único archivo CSV, lo que simplifica mucho la carga.
# El archivo se llama 'IMDB Dataset.csv'.
df = pd.read_csv('IMDB Dataset.csv')

# Para que el proceso sea rápido, trabajaremos con una muestra de 5000 reseñas.
df = df.sample(n=5000, random_state=42).reset_index(drop=True)

print(f"Se han cargado {len(df)} reseñas desde el archivo CSV.")
print("\nEstructura del dataset:")
df.info()

Se han cargado 5000 reseñas desde el archivo CSV.

Estructura del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review     5000 non-null   object
 1   sentiment  5000 non-null   object
dtypes: object(2)
memory usage: 78.3+ KB


In [None]:
print("\nEjemplo de las primeras reseñas:")
df.head()


Ejemplo de las primeras reseñas:


Unnamed: 0,review,sentiment
0,I really liked this Summerslam due to the look...,positive
1,Not many television shows appeal to quite as m...,positive
2,The film quickly gets to a major chase scene w...,negative
3,Jane Austen would definitely approve of this o...,positive
4,Expectations were somewhat high for me when I ...,negative


In [None]:
# Esta parte es idéntica al ejercicio anterior.
# Definimos nuestro léxico de palabras positivas y negativas.
palabras_positivas = [
    "loved", "brilliant", "amazing", "fantastic", "best", "recommended",
    "wonderful", "perfect", "excellent", "great", "must-see", "superb",
    "enjoyed", "masterpiece", "beautiful", "stunning", "love"
]

palabras_negativas = [
    "waste of time", "boring", "disappointed", "terrible", "no sense",
    "awful", "bad", "worst", "predictable", "dull", "unwatchable",
    "stupid", "mess", "horrible", "lame", "weak", "plot hole"
]

def clasificar_sentimiento_regex(review):
    """
    Clasifica una reseña calculando un score basado en la cuenta
    de palabras positivas vs. negativas encontradas con regex.
    """
    review_lower = review.lower()

    patron_positivo = r"\b(" + "|".join(palabras_positivas) + r")\b"
    patron_negativo = r"\b(" + "|".join(palabras_negativas) + r")\b"

    matches_positivos = re.findall(patron_positivo, review_lower)
    matches_negativos = re.findall(patron_negativo, review_lower)

    score = len(matches_positivos) - len(matches_negativos)

    if score > 0:
        return "positive"
    else:
        return "negative"

In [None]:
# Aplicamos nuestra función a la columna 'review' para crear la columna de predicciones
df['predicted_sentiment'] = df['review'].apply(clasificar_sentimiento_regex)

# Calculamos la precisión (accuracy)
correct_predictions = (df['sentiment'] == df['predicted_sentiment']).sum()
total_reviews = len(df)
accuracy = correct_predictions / total_reviews

print("="*30)
print("EVALUACIÓN DEL CLASIFICADOR HEURÍSTICO")
print("="*30)
print(f"Reseñas correctamente clasificadas: {correct_predictions} de {total_reviews}")
print(f"Precisión (Accuracy): {accuracy:.2%}")

# Mostramos algunos ejemplos para ver dónde acierta y dónde falla
print("\n Muestra de Resultados:")
# Seleccionamos columnas específicas para una vista más limpia
df[['review', 'sentiment', 'predicted_sentiment']].head(10)

EVALUACIÓN DEL CLASIFICADOR HEURÍSTICO
Reseñas correctamente clasificadas: 3749 de 5000
Precisión (Accuracy): 74.98%

 Muestra de Resultados:


Unnamed: 0,review,sentiment,predicted_sentiment
0,I really liked this Summerslam due to the look...,positive,negative
1,Not many television shows appeal to quite as m...,positive,negative
2,The film quickly gets to a major chase scene w...,negative,negative
3,Jane Austen would definitely approve of this o...,positive,positive
4,Expectations were somewhat high for me when I ...,negative,negative
5,I've watched this movie on a fairly regular ba...,positive,positive
6,For once a story of hope highlighted over the ...,positive,positive
7,"Okay, I didn't get the Purgatory thing the fir...",positive,negative
8,I was very disappointed with this series. It h...,negative,negative
9,The first 30 minutes of Tinseltown had my fing...,negative,positive


In [None]:
df[df['sentiment'] == df['predicted_sentiment']]

Unnamed: 0,review,sentiment,predicted_sentiment
2,The film quickly gets to a major chase scene w...,negative,negative
3,Jane Austen would definitely approve of this o...,positive,positive
4,Expectations were somewhat high for me when I ...,negative,negative
5,I've watched this movie on a fairly regular ba...,positive,positive
6,For once a story of hope highlighted over the ...,positive,positive
...,...,...,...
4992,"The use of ""astral projection""(wandering soul)...",negative,negative
4993,a hilariously funny movie! of course u gotta h...,positive,positive
4994,This movie is so unreal. French movies like th...,negative,negative
4995,One of eastwood's best movies after he had sep...,positive,positive


## Análisis Final (Kaggle Edition)

Como puedes ver, incluso con el dataset real de Kaggle, la precisión de nuestro clasificador heurístico se mantiene en un rango **modesto (generalmente entre 60% y 70%)**.

Esto confirma nuestra conclusión anterior: el enfoque basado en contar palabras clave es **demasiado simple** para capturar la complejidad del lenguaje humano. Falla consistentemente con:
* **Negación:** "Not bad at all."
* **Sarcasmo:** "A truly *brilliant* way to waste two hours of my life."
* **Vocabulario Extenso:** No conoce palabras como "sublime", "poignant", "atrocious", o "mediocre".

Este ejercicio es una demostración práctica y poderosa de por qué la comunidad de NLP se ha movido hacia **modelos de Machine Learning** que pueden aprender patrones complejos del contexto y las interacciones entre palabras, en lugar de depender de listas predefinidas.