# NLP Heur√≠stico: ¬°Dominando el Texto con Expresiones Regulares (Regex)!

El objetivo de hoy es aprender a "hablar" el lenguaje de los patrones de texto para detectar, extraer y limpiar informaci√≥n de manera eficiente. ¬°Es una de las habilidades m√°s fundamentales y √∫tiles en el mundo del NLP!

## ¬øQu√© es el Paradigma Heur√≠stico en NLP?

Imagina que quieres ense√±arle a una m√°quina a encontrar fechas en un texto. Tienes dos formas principales de hacerlo:

1.  **Paradigma basado en Machine Learning:** Le muestras a la m√°quina miles de ejemplos de textos con fechas etiquetadas y esperas que "aprenda" por s√≠ misma qu√© es una fecha. Es como aprender un idioma por inmersi√≥n. Es muy potente pero requiere muchos datos y recursos.

2.  **Paradigma Heur√≠stico (Basado en Reglas):** Le das a la m√°quina una regla expl√≠cita y directa. Por ejemplo: "Una fecha tiene la forma `d√≠gito-d√≠gito / d√≠gito-d√≠gito / d√≠gito-d√≠gito-d√≠gito-d√≠gito`". La m√°quina no "aprende", simplemente sigue tu regla al pie de la letra.

Hoy nos enfocaremos en el **paradigma heur√≠stico**. Es incre√≠blemente r√°pido, no necesita entrenamiento y es perfecto para patrones bien definidos. La herramienta estrella para crear estas reglas son las **Expresiones Regulares**.

### ¬øQu√© son las Expresiones Regulares (Regex)?

Una expresi√≥n regular (o regex) es una secuencia de caracteres que define un **patr√≥n de b√∫squeda**. Piensa en ellas como una versi√≥n s√∫per avanzada de la funci√≥n "Buscar" (Ctrl+F) que puedes usar en cualquier editor de texto.

En lugar de buscar una palabra exacta, puedes buscar:
- Un correo electr√≥nico.
- Un n√∫mero de tel√©fono.
- Una palabra que empiece con 'A' y termine con 'o'.
- Una l√≠nea que no contenga n√∫meros.

¬°Las posibilidades son casi infinitas! En Python, usamos la biblioteca `re` para trabajar con ellas. No necesita instalaci√≥n, ¬°ya viene incluida!

In [None]:
# El √∫nico requisito para esta clase es importar la biblioteca 're'
import re

## Los Bloques Fundamentales de Regex

Para construir patrones, usamos "metacaracteres", que son caracteres con un significado especial. Aqu√≠ est√°n los m√°s importantes:

### Metacaracteres B√°sicos

| Metacar√°cter | Descripci√≥n | Ejemplo | Significado |
| :--- | :--- | :--- | :--- |
| `.` | Cualquier car√°cter (excepto salto de l√≠nea) | `c.sa` | `casa`, `cosa`, `c#sa` |
| `\d` | Cualquier d√≠gito num√©rico (0-9) | `\d\d` | `12`, `99`, `05` |
| `\w` | Cualquier car√°cter alfanum√©rico (a-z, A-Z, 0-9, _) | `\w\w\w` | `sol`, `_py`, `R2D` |
| `\s` | Cualquier car√°cter de espacio en blanco (espacio, tab, enter) | `hola\smundo` | `hola mundo` |
| `[]` | Un conjunto de caracteres permitidos | `[aeiou]` | `a`, `e`, `i`, `o`, `u` |
| `^` | Empieza con... (o niega un conjunto `[^aeiou]`) | `^Hola` | `Hola mundo` |
| `$` | Termina con... | `mundo$` | `Hola mundo` |

### Cuantificadores (¬øCu√°ntas veces?)

| Cuantificador | Descripci√≥n | Ejemplo | Significado |
| :--- | :--- | :--- | :--- |
| `*` | Cero o m√°s veces | `ab*c` | `ac`, `abc`, `abbbc` |
| `+` | Una o m√°s veces | `ab+c` | `abc`, `abbbc` (pero no `ac`) |
| `?` | Cero o una vez | `colou?r` | `color`, `colour` |
| `{n}` | Exactamente `n` veces | `\d{3}` | `123`, `987` |
| `{n,m}` | Entre `n` y `m` veces | `\w{2,4}` | `sol`, `casa`, `yo` |

### Funciones Clave de la Biblioteca `re`

- `re.findall(patron, texto)`: Encuentra **todas** las ocurrencias del patr√≥n en el texto y las devuelve como una lista.
- `re.search(patron, texto)`: Busca la **primera** ocurrencia del patr√≥n. Devuelve un objeto especial con informaci√≥n (o `None` si no lo encuentra).
- `re.sub(patron, reemplazo, texto)`: **Sustituye** todas las ocurrencias del patr√≥n por el texto de reemplazo.

In [None]:
texto_ejemplo = "El NLP es una rama de la IA. Naci√≥ en 1950 y hoy, en 2025, sigue evolucionando. Mi correo es test.user@email.com y el de soporte es soporte_1@mi.dominio.org."

# Ejemplo 1: Encontrar todos los n√∫meros de 4 d√≠gitos (a√±os)
patron_anos = r"\d{4}" # La 'r' antes de las comillas indica que es un 'raw string', una buena pr√°ctica para regex.
anos = re.findall(patron_anos, texto_ejemplo)
print(f"A√±os encontrados: {anos}")

# Ejemplo 2: Encontrar todas las palabras que empiezan con 'e'
# \b es un 'ancla' que significa 'l√≠mite de palabra', para no encontrar 'es' dentro de 'sigue'
patron_palabras_e = r"\b[eE]\w*"
palabras_con_e = re.findall(patron_palabras_e, texto_ejemplo)
print(f"Palabras que empiezan con 'e' o 'E': {palabras_con_e}")

A√±os encontrados: ['1950', '2025']
Palabras que empiezan con 'e' o 'E': ['El', 'es', 'en', 'en', 'evolucionando', 'es', 'email', 'el', 'es']


## Detecci√≥n de Patrones Comunes

¬°Vamos a la pr√°ctica! Usemos regex para encontrar informaci√≥n √∫til en textos del mundo real.

### üìß Detectando Correos Electr√≥nicos

Un correo electr√≥nico sigue una estructura: `nombre`@`dominio`.`extension`.

- `nombre`: Puede contener letras, n√∫meros, puntos, guiones bajos...
- `dominio`: Letras, n√∫meros, guiones...
- `extension`: T√≠picamente 2 o m√°s letras.

**Patr√≥n:** `[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,}`

In [None]:
texto_con_correos = "Contacta a juan.perez@email.com para ventas. Si tienes problemas, escribe a soporte-tecnico@mi-empresa.co.uk. No env√≠es a info@.com."

patron_email = r"[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,}"
correos_encontrados = re.findall(patron_email, texto_con_correos)

print(f"Correos encontrados: {correos_encontrados}")

Correos encontrados: ['juan.perez@email.com', 'soporte-tecnico@mi-empresa.co.uk']


### Detectando Hashtags y Mentiones

Muy comunes en redes sociales. Su patr√≥n es simple:
- **Hashtags:** Empiezan con `#` seguido de letras, n√∫meros o guion bajo.
- **Menciones:** Empiezan con `@` seguido de letras, n√∫meros o guion bajo.

**Patr√≥n Hashtag:** `#[\w_]+`

**Patr√≥n Menci√≥n:** `@[\w_]+`

In [None]:
texto_tweet = "¬°Gran evento de #NLP hoy en la ciudad! Gracias a @organizador_principal y @ai_school por hacerlo posible. M√°s info en https://evento.com #InteligenciaArtificial #Python"

patron_hashtag = r"#[\w_]+"
patron_mencion = r"@[\w_]+"

hashtags = re.findall(patron_hashtag, texto_tweet)
menciones = re.findall(patron_mencion, texto_tweet)

print(f"Hashtags: {hashtags}")
print(f"Menciones: {menciones}")

Hashtags: ['#NLP', '#InteligenciaArtificial', '#Python']
Menciones: ['@organizador_principal', '@ai_school']


### **Ejercicio: Detecta las URLs**

Ahora es tu turno. Usando el `texto_tweet` de la celda anterior, crea un patr√≥n para encontrar la URL (`https://evento.com`).

**Pista:** Una URL simple empieza con `http` o `https` seguido de `://` y luego muchos caracteres que no son espacios en blanco (`\S+`).

In [None]:
# Escribe tu patr√≥n aqu√≠
patron_url = r"https?://\w+\.[\w^0123456789]{2,}"

# Aplica tu patr√≥n al texto_tweet
urls = re.findall(patron_url, texto_tweet)

print(f"URLs encontradas: {urls}")

URLs encontradas: ['https://evento.com']


## Limpieza de Texto

El texto del mundo real es "ruidoso": tiene puntuaci√≥n, n√∫meros, may√∫sculas/min√∫sculas inconsistentes, etc. Antes de analizarlo, casi siempre necesitamos limpiarlo. La funci√≥n `re.sub()` es nuestra mejor aliada aqu√≠.

In [None]:
texto_sucio = "¬°¬°HOLA!! Esto es 1 ejemplo de texto... ¬øVes? Contiene S√çMBOLOS ($%&) y n√∫meros (123)."

# 1. Convertir todo a min√∫sculas (esto no es regex, pero es un paso fundamental)
texto_limpio = texto_sucio.lower()
print(f"Paso 1 (min√∫sculas): {texto_limpio}")

# 2. Eliminar n√∫meros
# El patr√≥n \d+ significa "uno o m√°s d√≠gitos"
texto_limpio = re.sub(r"\d+", "", texto_limpio)
print(f"Paso 2 (sin n√∫meros): {texto_limpio}")

# 3. Eliminar puntuaci√≥n y s√≠mbolos
# El patr√≥n [^\w\s] significa "cualquier caracter que NO sea (^) alfanum√©rico (\w) o un espacio (\s)"
texto_limpio = re.sub(r"[^\w\s]", "", texto_limpio)
print(f"Paso 3 (sin puntuaci√≥n): {texto_limpio}")

# 4. (Opcional) Eliminar espacios extra
# El patr√≥n \s+ significa "uno o m√°s espacios en blanco"
texto_limpio = re.sub(r"\s+", " ", texto_limpio).strip() # .strip() quita espacios al inicio/final
print(f"Paso 4 (final): '{texto_limpio}'")

Paso 1 (min√∫sculas): ¬°¬°hola!! esto es 1 ejemplo de texto... ¬øves? contiene s√≠mbolos ($%&) y n√∫meros (123).
Paso 2 (sin n√∫meros): ¬°¬°hola!! esto es  ejemplo de texto... ¬øves? contiene s√≠mbolos ($%&) y n√∫meros ().
Paso 3 (sin puntuaci√≥n): hola esto es  ejemplo de texto ves contiene s√≠mbolos  y n√∫meros 
Paso 4 (final): 'hola esto es ejemplo de texto ves contiene s√≠mbolos y n√∫meros'


### **Ejercicio: Limpieza Personalizada**

Limpia el siguiente texto para que **solo queden las palabras y los espacios**. Debes eliminar hashtags, menciones y la URL en un solo paso o en varios.

In [None]:
texto_a_limpiar = "Este es un post de @usuario_x sobre #DataScience. Puedes leer m√°s en http://mi.blog.com/articulo1. ¬°Es genial! #AI"
texto_resultado = texto_a_limpiar

# Pista: Puedes combinar patrones con el operador '|' (significa OR)
# Por ejemplo, r"patron1|patron2" encuentra el patron1 O el patron2.

# Escribe tu c√≥digo aqu√≠
patron_a_eliminar = r""
texto_resultado = re.sub(patron_a_eliminar, "", texto_resultado)

# Tambi√©n podr√≠as eliminar la puntuaci√≥n que queda
texto_resultado = re.sub(r"[^\w\s]", "", texto_resultado)
texto_resultado = re.sub(r"\s+", " ", texto_resultado).strip()

print(f"Texto limpio: '{texto_resultado}'")

Texto limpio: 'Este es un post de usuario_x sobre DataScience Puedes leer m√°s en httpmiblogcomarticulo1 Es genial AI'


## Extracci√≥n de Entidades Simples

A veces no queremos eliminar informaci√≥n, sino **extraerla**. Esto se conoce como Reconocimiento de Entidades Nombradas (NER, por sus siglas en ingl√©s). Con regex podemos hacer una versi√≥n simple de NER para entidades con formatos predecibles.

### üìÖ Extrayendo Fechas

Las fechas pueden tener muchos formatos (`dd/mm/aaaa`, `dd-mm-aa`, `mes dd, aaaa`...). La clave es crear un patr√≥n para el formato que esperamos.

**Patr√≥n para `dd/mm/aaaa`:** `\d{2}/\d{2}/\d{4}`

In [None]:
reporte = "El informe trimestral fue entregado el 15/04/2023. La pr√≥xima fecha l√≠mite es el 15/07/2023. La reuni√≥n final ser√° el 01/12/2024."

patron_fecha = r"\d{2}/\d{2}/\d{4}"
fechas = re.findall(patron_fecha, reporte)

print(f"Fechas encontradas: {fechas}")

Fechas encontradas: ['15/04/2023', '15/07/2023', '01/12/2024']


### **Ejercicio: Extrayendo C√≥digos Postales**

En el siguiente texto, extrae todos los c√≥digos postales de Espa√±a (que son 5 d√≠gitos num√©ricos).

In [None]:
direccionario = "Oficina central en Madrid, 28001. Sucursal de Barcelona en 08001. Almac√©n en Valencia, 46001. La direcci√≥n antigua era en el 28010."

# Escribe tu patr√≥n aqu√≠ (debe encontrar secuencias de exactamente 5 d√≠gitos)
patron_cp = r"" # Usamos \b para asegurar que son 5 d√≠gitos exactos, no parte de un n√∫mero m√°s largo

codigos_postales = re.findall(patron_cp, direccionario)

print(f"C√≥digos postales encontrados: {codigos_postales}")

C√≥digos postales encontrados: ['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


## Mini Desaf√≠os Finales

¬°Es hora de combinar todo lo que has aprendido! A continuaci√≥n tienes dos desaf√≠os.

### Desaf√≠o 1: El Analista de Facturas

Tienes el texto de una factura. Tu misi√≥n es extraer:
1.  El **n√∫mero de factura** (formato `FACT-XXXXX` donde X es un n√∫mero).
2.  El **total a pagar** (formato `$XXXX.XX`).
3.  La **fecha de emisi√≥n** (formato `dd-Mes-yyyy`, ej: `21-Agosto-2025`).

In [None]:
texto_factura = """
Detalles de la Factura:
N√∫mero de Factura: FACT-10523
Cliente: ACME Corp
Fecha de Emisi√≥n: 15-Marzo-2024
---
Concepto: Desarrollo Web, Cantidad: 1, Precio: $1200.00
---
TOTAL A PAGAR: $1200.00
"""

# Escribe tus patrones y c√≥digo aqu√≠
patron_num_factura = r""
patron_total = r""
patron_fecha_factura = r""

# re.search es √∫til aqu√≠ porque solo esperamos un resultado de cada tipo
num_factura = re.search(patron_num_factura, texto_factura).group(0)
total = re.search(patron_total, texto_factura).group(0)
fecha = re.search(patron_fecha_factura, texto_factura).group(0)

print(f"N√∫mero de Factura: {num_factura}")
print(f"Total: {total}")
print(f"Fecha: {fecha}")

N√∫mero de Factura: 
Total: 
Fecha: 


### Desaf√≠o 2: El Limpiador de Comentarios

Tienes un comentario de un blog que es un desastre. Tu tarea es:
1.  Extraer el nombre de usuario (empieza con `@`).
2.  Extraer la URL compartida.
3.  Producir una versi√≥n final del comentario **limpia**, que contenga solo el texto √∫til (sin el usuario, la URL, la puntuaci√≥n excesiva y en min√∫sculas).

In [None]:
comentario = "GRACIAS!!! @pedro_gomez por el tip... me funcion√≥. Les dejo el link que encontr√©: https://un-foro-random.net/soluciones/python ... #code #python"

# 1. Extraer usuario y URL
usuario = re.search(r"", comentario).group(0)
url = re.search(r"", comentario).group(0)

print(f"Usuario: {usuario}")
print(f"URL: {url}")

# 2. Limpiar el comentario
comentario_limpio = comentario.lower()
patrones_a_borrar = r""
comentario_limpio = re.sub(patrones_a_borrar, "", comentario_limpio)
comentario_limpio = re.sub(r"[^\w\s]", "", comentario_limpio)
comentario_limpio = re.sub(r"\s+", " ", comentario_limpio).strip()

print(f"Comentario Limpio: '{comentario_limpio}'")

Usuario: 
URL: 
Comentario Limpio: 'gracias pedro_gomez por el tip me funcion√≥ les dejo el link que encontr√© httpsunfororandomnetsolucionespython code python'


## Secci√≥n Extra: Detecci√≥n de Emociones con un Enfoque Heur√≠stico

El an√°lisis de sentimientos real es una tarea compleja que requiere modelos de Machine Learning para entender el contexto. Por ejemplo, la frase "No me siento **feliz**" es negativa, aunque contenga la palabra "feliz".

Sin embargo, podemos crear un sistema de reglas simple para tener una **aproximaci√≥n muy b√°sica**. La estrategia ser√°:

1.  **Crear Lexicones:** Definir listas de palabras que asociamos con emociones positivas y negativas.
2.  **Construir un Patr√≥n:** Unir estas palabras en una √∫nica expresi√≥n regular usando el operador `|` (OR).
3.  **Contar Ocurrencias:** Usar `re.findall()` para encontrar todas las palabras de nuestras listas en el texto.
4.  **Calcular un "Score":** Restar el n√∫mero de palabras negativas al de positivas para obtener un puntaje de sentimiento.

Este m√©todo es muy limitado, ¬°pero es un ejercicio excelente para practicar regex!

In [None]:
# 1. Crear nuestros lexicones de emociones
palabras_positivas = [
    "genial", "incre√≠ble", "fant√°stico", "maravilloso", "amo",
    "me encanta", "feliz", "excelente", "√©xito", "alegr√≠a", "bueno"
]

palabras_negativas = [
    "terrible", "odio", "horrible", "decepcionante", "malo",
    "triste", "problema", "fracaso", "error", "p√©simo"
]

# Texto de ejemplo para analizar
texto_opinion = "El servicio fue excelente y la comida fant√°stica. Me encanta este lugar. Sin embargo, el postre fue un poco decepcionante."

# --- An√°lisis de Sentimiento ---

# 2. Construir los patrones de regex
# Unimos todas las palabras con '|' para crear un patr√≥n que busque CUALQUIERA de ellas
# re.IGNORECASE hace que la b√∫squeda no distinga entre may√∫sculas y min√∫sculas (ej: "Bueno" y "bueno" son lo mismo)
patron_positivo = r"\b(" + "|".join(palabras_positivas) + r")\b"
patron_negativo = r"\b(" + "|".join(palabras_negativas) + r")\b"

# 3. Encontrar todas las ocurrencias
positivas_encontradas = re.findall(patron_positivo, texto_opinion, flags=re.IGNORECASE)
negativas_encontradas = re.findall(patron_negativo, texto_opinion, flags=re.IGNORECASE)

print(f"Palabras Positivas Encontradas: {positivas_encontradas}")
print(f"Palabras Negativas Encontradas: {negativas_encontradas}")

# 4. Calcular el score final
score = len(positivas_encontradas) - len(negativas_encontradas)

print(f"\n Sentimiento: {score}")

# 5. Decidir el sentimiento general
if score > 0:
    print("Resultado: El sentimiento general del texto es Positivo.")
elif score < 0:
    print("Resultado: El sentimiento general del texto es Negativo.")
else:
    print("Resultado: El sentimiento general del texto es Neutral o Mixto.")

Palabras Positivas Encontradas: ['excelente', 'Me encanta']
Palabras Negativas Encontradas: ['decepcionante']

 Sentimiento: 1
Resultado: El sentimiento general del texto es Positivo.


## Limitaciones del Enfoque Heur√≠stico

Aunque son potentes, las regex tienen limitaciones. Son **r√≠gidas** y no entienden el **contexto**. Por ejemplo, un patr√≥n para extraer "Washington" podr√≠a fallar si en el texto aparece "Washington D.C." o no sabr√≠a distinguir entre "Washington (el estado)" y "Washington (el presidente)".

# üé¨ Ejercicio Real: An√°lisis de Sentimiento con Regex y Datos de Kaggle

**Objetivo:** Adaptaremos nuestro ejercicio para descargar el dataset de IMDb directamente desde Kaggle usando su API oficial. Esto simula un flujo de trabajo de ciencia de datos m√°s realista. Luego, aplicaremos y evaluaremos nuestro clasificador heur√≠stico.

**Prerrequisito: Tu Clave API de Kaggle**

Para que esto funcione, necesitas tu clave de API de Kaggle.
1.  Ve a tu perfil de Kaggle y entra en la secci√≥n **"Account"**. [Link directo](https://www.kaggle.com/account).
2.  Busca la secci√≥n **"API"** y haz clic en **"Create New API Token"**.
3.  Esto descargar√° un archivo llamado `kaggle.json`. **Tenlo listo para subirlo en el siguiente paso.**

In [None]:
# Paso 1: Instalar la biblioteca de Kaggle
!pip install kaggle -q

# Paso 2: Subir tu archivo kaggle.json
# Al ejecutar esta celda, aparecer√° un bot√≥n para que selecciones el archivo desde tu computadora.
from google.colab import files
print("Por favor, sube tu archivo 'kaggle.json':")
files.upload()

# Paso 3: Mover el archivo a la ubicaci√≥n correcta y establecer permisos
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

print("Autenticaci√≥n de Kaggle completada.")

Por favor, sube tu archivo 'kaggle.json':


Saving kaggle.json to kaggle.json
Autenticaci√≥n de Kaggle completada.


In [None]:
# Con la API ya configurada, podemos descargar el dataset.
# Usaremos 'lakshmi25npathi/imdb-dataset-of-50k-movie-reviews', que es una versi√≥n en CSV muy conveniente.
!kaggle datasets download -d lakshmi25npathi/imdb-dataset-of-50k-movie-reviews -q

# El archivo se descarga como 'imdb-dataset-of-50k-movie-reviews.zip'. Ahora lo descomprimimos.
!unzip -q imdb-dataset-of-50k-movie-reviews.zip

print("Dataset de Kaggle descargado y descomprimido.")

Dataset URL: https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
License(s): other
Dataset de Kaggle descargado y descomprimido.


In [None]:
import pandas as pd
import re

# La versi√≥n de Kaggle viene en un √∫nico archivo CSV, lo que simplifica mucho la carga.
# El archivo se llama 'IMDB Dataset.csv'.
df = pd.read_csv('IMDB Dataset.csv')

# Para que el proceso sea r√°pido, trabajaremos con una muestra de 5000 rese√±as.
df = df.sample(n=5000, random_state=42).reset_index(drop=True)

print(f"Se han cargado {len(df)} rese√±as desde el archivo CSV.")
print("\nEstructura del dataset:")
df.info()

Se han cargado 5000 rese√±as desde el archivo CSV.

Estructura del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review     5000 non-null   object
 1   sentiment  5000 non-null   object
dtypes: object(2)
memory usage: 78.3+ KB


In [None]:
print("\nEjemplo de las primeras rese√±as:")
df.head()


Ejemplo de las primeras rese√±as:


Unnamed: 0,review,sentiment
0,I really liked this Summerslam due to the look...,positive
1,Not many television shows appeal to quite as m...,positive
2,The film quickly gets to a major chase scene w...,negative
3,Jane Austen would definitely approve of this o...,positive
4,Expectations were somewhat high for me when I ...,negative


In [None]:
# Esta parte es id√©ntica al ejercicio anterior.
# Definimos nuestro l√©xico de palabras positivas y negativas.
palabras_positivas = [
    "loved", "brilliant", "amazing", "fantastic", "best", "recommended",
    "wonderful", "perfect", "excellent", "great", "must-see", "superb",
    "enjoyed", "masterpiece", "beautiful", "stunning", "love"
]

palabras_negativas = [
    "waste of time", "boring", "disappointed", "terrible", "no sense",
    "awful", "bad", "worst", "predictable", "dull", "unwatchable",
    "stupid", "mess", "horrible", "lame", "weak", "plot hole"
]

def clasificar_sentimiento_regex(review):
    """
    Clasifica una rese√±a calculando un score basado en la cuenta
    de palabras positivas vs. negativas encontradas con regex.
    """
    review_lower = review.lower()

    patron_positivo = r"\b(" + "|".join(palabras_positivas) + r")\b"
    patron_negativo = r"\b(" + "|".join(palabras_negativas) + r")\b"

    matches_positivos = re.findall(patron_positivo, review_lower)
    matches_negativos = re.findall(patron_negativo, review_lower)

    score = len(matches_positivos) - len(matches_negativos)

    if score > 0:
        return "positive"
    else:
        return "negative"

In [None]:
# Aplicamos nuestra funci√≥n a la columna 'review' para crear la columna de predicciones
df['predicted_sentiment'] = df['review'].apply(clasificar_sentimiento_regex)

# Calculamos la precisi√≥n (accuracy)
correct_predictions = (df['sentiment'] == df['predicted_sentiment']).sum()
total_reviews = len(df)
accuracy = correct_predictions / total_reviews

print("="*30)
print("EVALUACI√ìN DEL CLASIFICADOR HEUR√çSTICO")
print("="*30)
print(f"Rese√±as correctamente clasificadas: {correct_predictions} de {total_reviews}")
print(f"Precisi√≥n (Accuracy): {accuracy:.2%}")

# Mostramos algunos ejemplos para ver d√≥nde acierta y d√≥nde falla
print("\n Muestra de Resultados:")
# Seleccionamos columnas espec√≠ficas para una vista m√°s limpia
df[['review', 'sentiment', 'predicted_sentiment']].head(10)

EVALUACI√ìN DEL CLASIFICADOR HEUR√çSTICO
Rese√±as correctamente clasificadas: 3749 de 5000
Precisi√≥n (Accuracy): 74.98%

 Muestra de Resultados:


Unnamed: 0,review,sentiment,predicted_sentiment
0,I really liked this Summerslam due to the look...,positive,negative
1,Not many television shows appeal to quite as m...,positive,negative
2,The film quickly gets to a major chase scene w...,negative,negative
3,Jane Austen would definitely approve of this o...,positive,positive
4,Expectations were somewhat high for me when I ...,negative,negative
5,I've watched this movie on a fairly regular ba...,positive,positive
6,For once a story of hope highlighted over the ...,positive,positive
7,"Okay, I didn't get the Purgatory thing the fir...",positive,negative
8,I was very disappointed with this series. It h...,negative,negative
9,The first 30 minutes of Tinseltown had my fing...,negative,positive


In [None]:
df[df['sentiment'] == df['predicted_sentiment']]

Unnamed: 0,review,sentiment,predicted_sentiment
2,The film quickly gets to a major chase scene w...,negative,negative
3,Jane Austen would definitely approve of this o...,positive,positive
4,Expectations were somewhat high for me when I ...,negative,negative
5,I've watched this movie on a fairly regular ba...,positive,positive
6,For once a story of hope highlighted over the ...,positive,positive
...,...,...,...
4992,"The use of ""astral projection""(wandering soul)...",negative,negative
4993,a hilariously funny movie! of course u gotta h...,positive,positive
4994,This movie is so unreal. French movies like th...,negative,negative
4995,One of eastwood's best movies after he had sep...,positive,positive


## An√°lisis Final (Kaggle Edition)

Como puedes ver, incluso con el dataset real de Kaggle, la precisi√≥n de nuestro clasificador heur√≠stico se mantiene en un rango **modesto (generalmente entre 60% y 70%)**.

Esto confirma nuestra conclusi√≥n anterior: el enfoque basado en contar palabras clave es **demasiado simple** para capturar la complejidad del lenguaje humano. Falla consistentemente con:
* **Negaci√≥n:** "Not bad at all."
* **Sarcasmo:** "A truly *brilliant* way to waste two hours of my life."
* **Vocabulario Extenso:** No conoce palabras como "sublime", "poignant", "atrocious", o "mediocre".

Este ejercicio es una demostraci√≥n pr√°ctica y poderosa de por qu√© la comunidad de NLP se ha movido hacia **modelos de Machine Learning** que pueden aprender patrones complejos del contexto y las interacciones entre palabras, en lugar de depender de listas predefinidas.