# Clasificaci√≥n de Texto con Scikit-learn y TF-IDF

**Materiales desarrollados por Mat√≠as Barreto, 2025**

**Tecnicatura en Ciencia de Datos - IFTS**

**Asignatura:** Procesamiento de Lenguaje Natural

---

## Introducci√≥n

En este notebook vas a aprender los fundamentos de la clasificaci√≥n de texto usando m√©todos cl√°sicos de Machine Learning. Antes de meternos con redes neuronales, es fundamental establecer un **baseline** (l√≠nea de base) que nos permita comparar resultados y entender qu√© mejoras aportan las arquitecturas m√°s complejas.

### Objetivos de aprendizaje

1. Comprender el flujo completo de un proyecto de clasificaci√≥n de texto
2. Dominar t√©cnicas de vectorizaci√≥n: **Bag of Words** (BoW) y **TF-IDF**
3. Entrenar un modelo de **Regresi√≥n Log√≠stica** para an√°lisis de sentimiento
4. Evaluar el modelo con m√©tricas apropiadas
5. Interpretar resultados y hacer predicciones sobre datos nuevos

### ¬øQu√© vamos a construir?

Vamos a construir un clasificador de sentimientos que pueda analizar **rese√±as de productos en espa√±ol** y determinar si son **positivas** o **negativas**. Este tipo de sistemas se usan en la industria para an√°lisis de opiniones de clientes, moderaci√≥n de contenido y detecci√≥n de tendencias en redes sociales.

---

## 1Ô∏è‚É£ Instalaci√≥n de Dependencias

Instalamos Faker para generar un dataset sint√©tico pero realista en espa√±ol.

In [2]:
# Instalaci√≥n de librer√≠as necesarias
# Faker: Para generar datos sint√©ticos realistas
!pip install -q faker

print("‚úì Dependencias instaladas correctamente.")

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/2.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.3/2.0 MB[0m [31m8.5 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m[90m‚îÅ‚îÅ‚îÅ[0m [32m1.8/2.0 MB[0m [31m22.1 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m1.9/2.0 MB[0m [31m21.5 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.0/2.0 MB[0m [31m15.0 MB/s[0

---

## 2Ô∏è‚É£ Importaci√≥n de Librer√≠as

Importamos las herramientas necesarias: scikit-learn para ML, pandas para datos, y datasets para cargar el corpus.

In [3]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np
import random

# Vectorizaci√≥n de texto de scikit-learn
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Divisi√≥n de datos y modelo
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# M√©tricas de evaluaci√≥n
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Para generar datos sint√©ticos realistas
from faker import Faker

print("‚úì Librer√≠as importadas correctamente.")

‚úì Librer√≠as importadas correctamente.


---

## 3Ô∏è‚É£ Generaci√≥n del Dataset

Vamos a crear un dataset **sint√©tico pero realista** de rese√±as de productos en espa√±ol argentino usando t√©cnicas profesionales de generaci√≥n de datos.

Este dataset incluye:
- ‚úÖ **Variedad ling√º√≠stica**: Espa√±ol rioplatense con expresiones locales
- ‚úÖ **Casos complejos**: Iron√≠a, sarcasmo, negaciones
- ‚úÖ **Realismo**: Combinaciones naturales de adjetivos y contextos
- ‚úÖ **Balance**: Distribuci√≥n equilibrada de sentimientos

### ¬øPor qu√© sint√©tico?

Los datasets p√∫blicos de reviews en espa√±ol tienen limitaciones (deprecated, poco balanceados, o en otros dialectos). Un dataset sint√©tico bien dise√±ado nos permite:

1. Controlar el balance de clases
2. Incluir casos pedag√≥gicamente √∫tiles (iron√≠a, negaciones)
3. Usar espa√±ol argentino aut√©ntico
4. Ajustar el tama√±o seg√∫n necesidad (clase vs TP)

In [4]:
# Configuramos seeds para reproducibilidad
fake = Faker('es_ES')
Faker.seed(42)
random.seed(42)
np.random.seed(42)

# ============================================================================
# TEMPLATES DE RESE√ëAS POSITIVAS SIMPLES
# ============================================================================

# Adjetivos positivos (espa√±ol rioplatense)
adjetivos_positivos = [
    "excelente", "genial", "buen√≠simo", "espectacular", "incre√≠ble",
    "perfecto", "maravilloso", "b√°rbaro", "copado", "grosso",
    "de primera", "impecable", "fant√°stico", "hermoso", "divino"
]

# Verbos positivos
verbos_positivos = [
    "me encant√≥", "me fascina", "lo recomiendo", "super√≥ mis expectativas",
    "cumple perfectamente", "funciona de diez", "vale la pena",
    "estoy re contento", "no me arrepiento", "la rompe"
]

# Contextos positivos
contextos_positivos = [
    "Lleg√≥ antes de tiempo y en perfecto estado.",
    "La calidad es superior a lo que esperaba.",
    "El vendedor fue muy atento y respondi√≥ todas mis dudas.",
    "Por este precio, es una ganga total.",
    "Mis amigos quedaron fascinados cuando lo vieron.",
    "Ya es la segunda vez que compro y sigue siendo excelente.",
    "Lo uso todos los d√≠as y sigue como nuevo.",
    "Mi familia est√° encantada con la compra.",
]

templates_positivos = [
    "{adj} producto, {verbo}. {contexto}",
    "{verbo}, {adj} compra. {contexto}",
    "El producto es {adj}. {contexto} {verbo}.",
    "{contexto} Realmente {adj}, {verbo}.",
    "{adj} en todo sentido. {verbo}. {contexto}",
]

# ============================================================================
# TEMPLATES DE RESE√ëAS NEGATIVAS SIMPLES
# ============================================================================

# Adjetivos negativos (espa√±ol rioplatense)
adjetivos_negativos = [
    "horrible", "mal√≠simo", "p√©simo", "terrible", "espantoso",
    "desastroso", "deplorable", "trucho", "berreta", "choto",
    "un desastre", "una porquer√≠a", "un fiasco", "decepcionante", "lamentable"
]

# Verbos negativos
verbos_negativos = [
    "no lo recomiendo", "me arrepiento de comprarlo", "p√©rdida de plata",
    "tuve que devolverlo", "no funciona", "se rompi√≥ enseguida",
    "no vale la pena", "es una estafa", "no cumple lo prometido",
    "qued√© re decepcionado"
]

# Contextos negativos
contextos_negativos = [
    "Se rompi√≥ a los pocos d√≠as de uso.",
    "La calidad es muy inferior a la descripci√≥n.",
    "El vendedor no responde los mensajes.",
    "Tard√≥ m√°s de un mes en llegar.",
    "Lleg√≥ todo golpeado y con partes faltantes.",
    "No se parece en nada a las fotos.",
    "Hace ruidos extra√±os y se sobrecalienta.",
    "El material es pl√°stico barato de mala calidad.",
]

templates_negativos = [
    "{adj} producto, {verbo}. {contexto}",
    "{verbo}, {adj} experiencia. {contexto}",
    "El producto es {adj}. {contexto} {verbo}.",
    "{contexto} Realmente {adj}, {verbo}.",
    "{adj} en todo sentido. {verbo}. {contexto}",
]

# ============================================================================
# CASOS DIF√çCILES: IRON√çA Y SARCASMO (Sin se√±ales obvias)
# ============================================================================

# IRON√çA POSITIVA: Empieza mal pero termina bien (se√±al confusa al principio)
casos_ironia_positiva = [
    "Pens√© que iba a ser horrible, pero me equivoqu√© completamente.",
    "Las primeras impresiones eran malas, termin√≥ siendo muy √∫til.",
    "No confiaba en este producto, ahora lo uso todos los d√≠as.",
    "Dudaba mucho, pero result√≥ ser mejor que productos m√°s caros.",
    "Parec√≠a trucho, funciona mejor que otras marcas conocidas.",
    "Ten√≠a miedo de que fuera malo, pero fue una grata sorpresa.",
    "Cre√≠ que me iban a estafar, result√≥ ser confiable.",
    "Me arrepent√≠a de comprarlo, ahora pienso que fue buena idea.",
    "Al principio desconfi√©, termin√≥ superando expectativas.",
    "Ven√≠a con dudas, result√≥ mejor de lo imaginado.",
]

# IRON√çA NEGATIVA SUTIL: Sarcasmo sin palabras negativas expl√≠citas
# Estos son genuinamente dif√≠ciles porque solo tienen palabras positivas
casos_ironia_negativa = [
    "Claro, porque yo tengo plata para tirar. S√∫per recomendable.",
    "Hermoso, justo lo que necesitaba para decorar la basura.",
    "Fant√°stico, ahora tengo un pisapapeles muy caro.",
    "Perfecto, me encanta cuando las cosas duran una semana.",
    "Genial, ideal para regalarle a alguien que no te cae bien.",
    "Excelente, porque a qui√©n no le gusta perder el tiempo.",
    "Maravilloso, especialmente si disfrut√°s de las decepciones.",
    "Divino, lo mejor para aprender a no confiar en las reviews.",
    "Espectacular, perfecto para quienes aman tirar dinero.",
    "Incre√≠ble, nunca hab√≠a visto algo tan in√∫til por tanto dinero.",
]

# NEGACI√ìN POSITIVA - M√°s variedad de patrones
casos_negacion_positiva = [
    "No tengo quejas, cumple perfectamente su funci√≥n.",
    "Jam√°s tuve problemas, funciona muy bien.",
    "No me arrepiento, fue buena compra.",
    "No esperaba tanto, super√≥ lo que imaginaba.",
    "Para nada malo, al contrario, bastante bueno.",
    "Sin ning√∫n defecto que mencionar, todo correcto.",
    "No encuentro fallas, todo funciona perfecto.",
    "Nunca me fall√≥, siempre anda bien.",
]

# NEGACI√ìN NEGATIVA - Patrones variados
casos_negacion_negativa = [
    "No funciona, no sirve, no lo compren.",
    "Jam√°s vuelvo a comprar esto, mala experiencia.",
    "No lo recomiendo, tuve muchos problemas.",
    "Para nada lo que esperaba, muy decepcionante.",
    "Sin dudas la peor compra, no vale la pena.",
    "No cumple lo prometido, perd√≠ plata.",
    "Nunca anduvo bien, siempre con fallas.",
    "Ni funciona ni vale lo que cuesta.",
]

# CASOS VERDADERAMENTE AMBIGUOS - Equilibrio perfecto de positivo/negativo
# Estos deber√≠an confundir al modelo porque tienen IGUAL cantidad de se√±ales
casos_ambiguos_positivos = [
    "Tiene defectos, pero en general funciona bien.",
    "No es perfecto, aunque cumple lo esperado.",
    "Algunos aspectos mejorables, pero satisfecho con la compra.",
    "Podr√≠a ser mejor, igual lo uso sin problemas.",
    "Esperaba m√°s calidad, pero el precio compensa.",
    "Fallos menores, en conjunto buena experiencia.",
    "Ciertos detalles negativos, a√∫n as√≠ lo recomiendo.",
]

casos_ambiguos_negativos = [
    "Funciona bien, pero no justifica el precio alto.",
    "Lindo dise√±o, l√°stima que no sirve.",
    "Cumple lo b√°sico, pero esperaba algo superior.",
    "Buena presentaci√≥n, terrible calidad interna.",
    "Lo positivo no alcanza para compensar los problemas.",
    "Algunos aspectos buenos, pero demasiados defectos.",
    "Precio razonable, rendimiento inaceptable.",
]

# ============================================================================
# GENERACI√ìN DEL DATASET
# ============================================================================

def generar_review_positiva():
    """Genera una rese√±a positiva realista"""
    template = random.choice(templates_positivos)
    adj = random.choice(adjetivos_positivos)
    verbo = random.choice(verbos_positivos)
    contexto = random.choice(contextos_positivos)

    return template.format(adj=adj, verbo=verbo, contexto=contexto)

def generar_review_negativa():
    """Genera una rese√±a negativa realista"""
    template = random.choice(templates_negativos)
    adj = random.choice(adjetivos_negativos)
    verbo = random.choice(verbos_negativos)
    contexto = random.choice(contextos_negativos)

    return template.format(adj=adj, verbo=verbo, contexto=contexto)

# Configuraci√≥n del dataset: reducimos casos simples y aumentamos dif√≠ciles
n_simples_por_clase = 250  # Reviews simples (reducido para dar m√°s peso a casos dif√≠ciles)
n_casos_especiales = 80    # Casos dif√≠ciles (aumentado significativamente)

reviews = []
sentiments = []
tipos = []

# 1. Reviews positivas simples
for _ in range(n_simples_por_clase):
    reviews.append(generar_review_positiva())
    sentiments.append(1)
    tipos.append('simple_positivo')

# 2. Reviews negativas simples
for _ in range(n_simples_por_clase):
    reviews.append(generar_review_negativa())
    sentiments.append(0)
    tipos.append('simple_negativo')

# 3. Iron√≠a positiva (empieza negativo, termina positivo)
for _ in range(n_casos_especiales):
    caso = random.choice(casos_ironia_positiva)
    reviews.append(caso)
    sentiments.append(1)
    tipos.append('ironia_positivo')

# 4. Iron√≠a negativa (sarcasmo - usa palabras positivas pero es negativo)
for _ in range(n_casos_especiales):
    caso = random.choice(casos_ironia_negativa)
    reviews.append(caso)
    sentiments.append(0)
    tipos.append('ironia_negativo')

# 5. Negaci√≥n positiva
for _ in range(n_casos_especiales // 2):
    caso = random.choice(casos_negacion_positiva)
    reviews.append(caso)
    sentiments.append(1)
    tipos.append('negacion_positivo')

# 6. Negaci√≥n negativa
for _ in range(n_casos_especiales // 2):
    caso = random.choice(casos_negacion_negativa)
    reviews.append(caso)
    sentiments.append(0)
    tipos.append('negacion_negativo')

# 7. Casos ambiguos positivos
for _ in range(n_casos_especiales // 2):
    caso = random.choice(casos_ambiguos_positivos)
    reviews.append(caso)
    sentiments.append(1)
    tipos.append('ambiguo_positivo')

# 8. Casos ambiguos negativos
for _ in range(n_casos_especiales // 2):
    caso = random.choice(casos_ambiguos_negativos)
    reviews.append(caso)
    sentiments.append(0)
    tipos.append('ambiguo_negativo')

# Creamos DataFrame
df_full = pd.DataFrame({
    'review_body': reviews,
    'sentiment': sentiments,
    'tipo': tipos,
    'stars': [5 if s == 1 else 1 for s in sentiments],
    'review_title': [''] * len(reviews)
})

# Mezclamos aleatoriamente
df_full = df_full.sample(frac=1, random_state=42).reset_index(drop=True)

print("=" * 70)
print("DATASET GENERADO")
print("=" * 70)
print(f"\nTotal de rese√±as: {len(df_full):,}")
print(f"\nDistribuci√≥n por tipo:")
print(df_full['tipo'].value_counts().sort_index())
print(f"\nDistribuci√≥n de sentimientos:")
print(df_full['sentiment'].value_counts())
print(f"\nBalance de clases:")
print(f"  Positivas: {(df_full['sentiment']==1).sum()/len(df_full)*100:.1f}%")
print(f"  Negativas: {(df_full['sentiment']==0).sum()/len(df_full)*100:.1f}%")

DATASET GENERADO

Total de rese√±as: 820

Distribuci√≥n por tipo:
tipo
ambiguo_negativo      40
ambiguo_positivo      40
ironia_negativo       80
ironia_positivo       80
negacion_negativo     40
negacion_positivo     40
simple_negativo      250
simple_positivo      250
Name: count, dtype: int64

Distribuci√≥n de sentimientos:
sentiment
0    410
1    410
Name: count, dtype: int64

Balance de clases:
  Positivas: 50.0%
  Negativas: 50.0%


### An√°lisis del dataset generado

Veamos la distribuci√≥n de tipos de rese√±as y algunos ejemplos de cada categor√≠a.

In [5]:
# Trabajamos con el dataset completo
df = df_full.copy()

print("=" * 80)
print("EJEMPLOS DE RESE√ëAS POR CATEGOR√çA")
print("=" * 80)

# Mostramos ejemplos de cada tipo
tipos_unicos = df['tipo'].unique()

for tipo in sorted(tipos_unicos):
    print(f"\n{'='*80}")
    print(f"TIPO: {tipo.upper()}")
    print(f"{'='*80}")

    # Mostramos 3 ejemplos de este tipo
    ejemplos = df[df['tipo'] == tipo].sample(min(3, len(df[df['tipo'] == tipo])), random_state=42)

    for idx, row in ejemplos.iterrows():
        sentiment_label = "POSITIVO ‚úì" if row['sentiment'] == 1 else "NEGATIVO ‚úó"
        print(f"\n  [{sentiment_label}] {row['review_body']}")

print(f"\n{'='*80}")
print("üí° NOTA PEDAG√ìGICA:")
print("="*80)
print("Los casos de 'iron√≠a' y 'negaci√≥n' son DESAFIANTES para el modelo.")
print("Observ√° c√≥mo palabras positivas pueden expresar sentimiento negativo")
print("(y viceversa) seg√∫n el contexto. ¬°Esto es clave para entender las")
print("limitaciones de BoW/TF-IDF y motivar el uso de modelos m√°s avanzados!")
print("="*80)

EJEMPLOS DE RESE√ëAS POR CATEGOR√çA

TIPO: AMBIGUO_NEGATIVO

  [NEGATIVO ‚úó] Precio razonable, rendimiento inaceptable.

  [NEGATIVO ‚úó] Lindo dise√±o, l√°stima que no sirve.

  [NEGATIVO ‚úó] Algunos aspectos buenos, pero demasiados defectos.

TIPO: AMBIGUO_POSITIVO

  [POSITIVO ‚úì] No es perfecto, aunque cumple lo esperado.

  [POSITIVO ‚úì] Ciertos detalles negativos, a√∫n as√≠ lo recomiendo.

  [POSITIVO ‚úì] Fallos menores, en conjunto buena experiencia.

TIPO: IRONIA_NEGATIVO

  [NEGATIVO ‚úó] Claro, porque yo tengo plata para tirar. S√∫per recomendable.

  [NEGATIVO ‚úó] Claro, porque yo tengo plata para tirar. S√∫per recomendable.

  [NEGATIVO ‚úó] Fant√°stico, ahora tengo un pisapapeles muy caro.

TIPO: IRONIA_POSITIVO

  [POSITIVO ‚úì] Ven√≠a con dudas, result√≥ mejor de lo imaginado.

  [POSITIVO ‚úì] Las primeras impresiones eran malas, termin√≥ siendo muy √∫til.

  [POSITIVO ‚úì] Ven√≠a con dudas, result√≥ mejor de lo imaginado.

TIPO: NEGACION_NEGATIVO

  [NEGATIVO ‚úó

### Ejemplos espec√≠ficos para la clase

Veamos algunas rese√±as positivas y negativas para entender nuestros datos.

In [6]:
# Ejemplos de rese√±as positivas simples
print("=" * 80)
print("RESE√ëAS POSITIVAS (SIMPLES)")
print("=" * 80)
for i, row in df[df['tipo'] == 'simple_positivo'].head(5).iterrows():
    print(f"\n‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ {row['review_body']}")

# Ejemplos de rese√±as negativas simples
print("\n" + "=" * 80)
print("RESE√ëAS NEGATIVAS (SIMPLES)")
print("=" * 80)
for i, row in df[df['tipo'] == 'simple_negativo'].head(5).iterrows():
    print(f"\n‚òÖ‚òÜ‚òÜ‚òÜ‚òÜ {row['review_body']}")

# Casos especiales que el modelo puede fallar
print("\n" + "=" * 80)
print("CASOS DESAFIANTES (Iron√≠a/Sarcasmo)")
print("=" * 80)
print("\nüî• IRON√çA NEGATIVA (dice 'excelente' pero es NEGATIVO):")
for caso in casos_ironia_negativa[:3]:
    print(f"  ‚úó {caso}")

print("\nüî• NEGACIONES COMPLEJAS:")
print(f"  ‚úì {casos_negacion_positiva[0]}")
print(f"  ‚úó {casos_negacion_negativa[0]}")

RESE√ëAS POSITIVAS (SIMPLES)

‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ El vendedor fue muy atento y respondi√≥ todas mis dudas. Realmente divino, me encant√≥.

‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ grosso en todo sentido. la rompe. Por este precio, es una ganga total.

‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ Mis amigos quedaron fascinados cuando lo vieron. Realmente hermoso, no me arrepiento.

‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ genial en todo sentido. vale la pena. Lo uso todos los d√≠as y sigue como nuevo.

‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ perfecto en todo sentido. estoy re contento. Lleg√≥ antes de tiempo y en perfecto estado.

RESE√ëAS NEGATIVAS (SIMPLES)

‚òÖ‚òÜ‚òÜ‚òÜ‚òÜ La calidad es muy inferior a la descripci√≥n. Realmente trucho, se rompi√≥ enseguida.

‚òÖ‚òÜ‚òÜ‚òÜ‚òÜ desastroso producto, no funciona. La calidad es muy inferior a la descripci√≥n.

‚òÖ‚òÜ‚òÜ‚òÜ‚òÜ El producto es mal√≠simo. Lleg√≥ todo golpeado y con partes faltantes. p√©rdida de plata.

‚òÖ‚òÜ‚òÜ‚òÜ‚òÜ lamentable en todo sentido. me arrepiento de comprarlo. La calidad es muy inferior a la descripci√≥n.

‚òÖ‚òÜ‚òÜ‚òÜ‚

---

## 4Ô∏è‚É£ Divisi√≥n en Conjuntos de Entrenamiento y Prueba

Un principio fundamental en Machine Learning es **nunca evaluar el modelo con los mismos datos que usamos para entrenarlo**. Si lo hacemos, el modelo podr√≠a simplemente memorizar los datos (overfitting) y no generalizar bien a datos nuevos.

Por eso dividimos el dataset en dos conjuntos:
- **Entrenamiento (80%)**: Para que el modelo aprenda patrones
- **Prueba (20%)**: Para evaluar el rendimiento en datos no vistos

In [7]:
# Separamos caracter√≠sticas (X) de etiquetas (y)
# Usamos 'review_body' que contiene el texto completo de la rese√±a
reviews = df['review_body'].values
sentiments = df['sentiment'].values

# train_test_split divide aleatoriamente los datos
# test_size=0.2 ‚Üí 20% prueba, 80% entrenamiento
# stratify=sentiments ‚Üí mantiene proporci√≥n de clases en ambos conjuntos
reviews_train, reviews_test, sentiment_train, sentiment_test = train_test_split(
    reviews,
    sentiments,
    test_size=0.2,
    random_state=42,
    stratify=sentiments
)

print(f"Tama√±o del conjunto de entrenamiento: {len(reviews_train):,} rese√±as")
print(f"Tama√±o del conjunto de prueba: {len(reviews_test):,} rese√±as")
print(f"\nDistribuci√≥n en entrenamiento:")
print(f"  Positivas: {sum(sentiment_train==1):,} ({sum(sentiment_train==1)/len(sentiment_train)*100:.1f}%)")
print(f"  Negativas: {sum(sentiment_train==0):,} ({sum(sentiment_train==0)/len(sentiment_train)*100:.1f}%)")

Tama√±o del conjunto de entrenamiento: 656 rese√±as
Tama√±o del conjunto de prueba: 164 rese√±as

Distribuci√≥n en entrenamiento:
  Positivas: 328 (50.0%)
  Negativas: 328 (50.0%)


---

## 5Ô∏è‚É£ Vectorizaci√≥n de Texto: De Palabras a N√∫meros

Los algoritmos de Machine Learning trabajan con n√∫meros, no con texto. Necesitamos convertir las rese√±as en vectores num√©ricos. Vamos a explorar dos t√©cnicas:

### 5.1. Bag of Words (BoW) con CountVectorizer

Esta t√©cnica representa cada documento como un vector de conteos de palabras. Ignora el orden pero captura la frecuencia.

**Ejemplo:**
```
Texto 1: "Me gusta el producto"
Texto 2: "No me gusta nada"

Vocabulario: ["me", "gusta", "el", "producto", "no", "nada"]

Vector Texto 1: [1, 1, 1, 1, 0, 0]  # Conteo de cada palabra
Vector Texto 2: [1, 1, 0, 0, 1, 1]
```

In [8]:
# Creamos el vectorizador CountVectorizer
# max_features=1000 limita el vocabulario a las 1000 palabras m√°s frecuentes
count_vectorizer = CountVectorizer(max_features=1000)

# fit() construye el vocabulario desde los datos de entrenamiento
# transform() convierte textos en matrices de conteos
X_train_counts = count_vectorizer.fit_transform(reviews_train)
X_test_counts = count_vectorizer.transform(reviews_test)

print(f"Forma de la matriz de entrenamiento: {X_train_counts.shape}")
print(f"Esto significa: {X_train_counts.shape[0]} documentos √ó {X_train_counts.shape[1]} palabras")
print(f"\nPrimeras 10 palabras del vocabulario: {list(count_vectorizer.get_feature_names_out()[:10])}")

Forma de la matriz de entrenamiento: (656, 296)
Esto significa: 656 documentos √ó 296 palabras

Primeras 10 palabras del vocabulario: ['ahora', 'al', 'alcanza', 'algo', 'alguien', 'algunos', 'alto', 'aman', 'amigos', 'anda']


### 5.2. TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF mejora BoW al ponderar las palabras seg√∫n su importancia:
- **TF (Term Frequency)**: Qu√© tan frecuente es una palabra en un documento
- **IDF (Inverse Document Frequency)**: Qu√© tan rara es esa palabra en todo el corpus

**Intuici√≥n:** Palabras como "el", "de", "la" aparecen en casi todos los documentos, por lo que tienen poco valor discriminativo. TF-IDF les asigna pesos bajos. Palabras espec√≠ficas como "excelente" o "horrible" tienen pesos altos.

**F√≥rmula:**
```
TF-IDF(palabra, documento) = TF(palabra, documento) √ó IDF(palabra)
```

In [9]:
# Creamos el vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=1000)

# fit_transform() combina fit() + transform()
X_train_tfidf = tfidf_vectorizer.fit_transform(reviews_train)
X_test_tfidf = tfidf_vectorizer.transform(reviews_test)

print(f"Forma de la matriz TF-IDF: {X_train_tfidf.shape}")
print(f"Tipo de matriz: {type(X_train_tfidf)} (sparse matrix para ahorrar memoria)")

Forma de la matriz TF-IDF: (656, 296)
Tipo de matriz: <class 'scipy.sparse._csr.csr_matrix'> (sparse matrix para ahorrar memoria)


---

## 6Ô∏è‚É£ Entrenamiento del Modelo: Regresi√≥n Log√≠stica

Vamos a entrenar dos modelos (uno con BoW y otro con TF-IDF) y comparar su rendimiento.

### ¬øPor qu√© Regresi√≥n Log√≠stica?

Aunque el nombre dice "regresi√≥n", es un algoritmo de **clasificaci√≥n**. Es simple, r√°pido, interpretable y funciona sorprendentemente bien como baseline para clasificaci√≥n de texto.

**Ventajas:**
- R√°pido de entrenar
- Requiere poca memoria
- Produce probabilidades calibradas
- Los pesos del modelo son interpretables

In [10]:
# Modelo 1: Regresi√≥n Log√≠stica con Bag of Words
print("Entrenando modelo con Bag of Words...")
clf_bow = LogisticRegression(max_iter=1000, random_state=42)
clf_bow.fit(X_train_counts, sentiment_train)
print("‚úì Modelo BoW entrenado.\n")

# Modelo 2: Regresi√≥n Log√≠stica con TF-IDF
print("Entrenando modelo con TF-IDF...")
clf_tfidf = LogisticRegression(max_iter=1000, random_state=42)
clf_tfidf.fit(X_train_tfidf, sentiment_train)
print("‚úì Modelo TF-IDF entrenado.")

Entrenando modelo con Bag of Words...
‚úì Modelo BoW entrenado.

Entrenando modelo con TF-IDF...
‚úì Modelo TF-IDF entrenado.


---

## 7Ô∏è‚É£ Evaluaci√≥n de los Modelos

Evaluamos ambos modelos en el conjunto de prueba (datos que nunca vieron durante el entrenamiento).

### M√©tricas:

1. **Accuracy**: Porcentaje de predicciones correctas
2. **Precision**: De las rese√±as que predijimos como positivas, ¬øcu√°ntas lo son realmente?
3. **Recall**: De todas las rese√±as positivas reales, ¬øcu√°ntas detectamos?
4. **F1-score**: Media arm√≥nica entre precision y recall

In [11]:
# Predicciones de ambos modelos
y_pred_bow = clf_bow.predict(X_test_counts)
y_pred_tfidf = clf_tfidf.predict(X_test_tfidf)

accuracy_bow = accuracy_score(sentiment_test, y_pred_bow)
accuracy_tfidf = accuracy_score(sentiment_test, y_pred_tfidf)

print("=" * 60)
print("RESULTADOS DE EVALUACI√ìN")
print("=" * 60)
print(f"\nAccuracy con Bag of Words:  {accuracy_bow:.4f} ({accuracy_bow*100:.2f}%)")
print(f"Accuracy con TF-IDF:        {accuracy_tfidf:.4f} ({accuracy_tfidf*100:.2f}%)")
print("\n" + "=" * 60)

RESULTADOS DE EVALUACI√ìN

Accuracy con Bag of Words:  1.0000 (100.00%)
Accuracy con TF-IDF:        0.9939 (99.39%)



### Reporte de clasificaci√≥n detallado (TF-IDF)

In [12]:
print("\nREPORTE DETALLADO - MODELO TF-IDF")
print("=" * 60)
print(classification_report(sentiment_test, y_pred_tfidf,
                          target_names=['Negativo (0)', 'Positivo (1)']))


REPORTE DETALLADO - MODELO TF-IDF
              precision    recall  f1-score   support

Negativo (0)       0.99      1.00      0.99        82
Positivo (1)       1.00      0.99      0.99        82

    accuracy                           0.99       164
   macro avg       0.99      0.99      0.99       164
weighted avg       0.99      0.99      0.99       164



### Matriz de confusi√≥n

La matriz de confusi√≥n muestra d√≥nde se equivoca el modelo:

```
                Predicho Neg    Predicho Pos
Real Neg             VN              FP
Real Pos             FN              VP
```

- **VP (Verdaderos Positivos)**: Correctamente clasificados como positivos
- **VN (Verdaderos Negativos)**: Correctamente clasificados como negativos
- **FP (Falsos Positivos)**: Negativos clasificados err√≥neamente como positivos
- **FN (Falsos Negativos)**: Positivos clasificados err√≥neamente como negativos

In [13]:
cm = confusion_matrix(sentiment_test, y_pred_tfidf)

print("MATRIZ DE CONFUSI√ìN - MODELO TF-IDF")
print("=" * 60)
print(f"\n{cm}\n")
print(f"Verdaderos Negativos: {cm[0,0]}")
print(f"Falsos Positivos:     {cm[0,1]}")
print(f"Falsos Negativos:     {cm[1,0]}")
print(f"Verdaderos Positivos: {cm[1,1]}")

MATRIZ DE CONFUSI√ìN - MODELO TF-IDF

[[82  0]
 [ 1 81]]

Verdaderos Negativos: 82
Falsos Positivos:     0
Falsos Negativos:     1
Verdaderos Positivos: 81


---

## 8Ô∏è‚É£ Predicciones sobre Datos Nuevos en Espa√±ol

Ahora que tenemos un modelo entrenado, podemos clasificar rese√±as nuevas en espa√±ol que nunca vio antes. Este es el objetivo final: generalizar a datos del mundo real.

In [16]:
# Nuevas rese√±as de ejemplo en espa√±ol
new_reviews = [
    "Excelente producto, super√≥ mis expectativas. Lo recomiendo totalmente.",
    "Mal√≠sima calidad, se rompi√≥ a los pocos d√≠as. No lo compren.",
    "Es aceptable, cumple su funci√≥n pero nada del otro mundo.",
    "Me encant√≥, justo lo que buscaba. Lleg√≥ r√°pido y bien empaquetado.",
    "Decepcionante, no funciona como dice la descripci√≥n. P√©rdida de dinero.",
    "Buen√≠simo, la mejor compra que podes hacer si queres tirar tu dinero a la basura.",
    "Horrible, el peor producto que compr√©. No sirve para nada."
]

# Vectorizamos con el MISMO vectorizador entrenado
# ¬°NUNCA usar fit() en datos nuevos! Solo transform()
X_new = tfidf_vectorizer.transform(new_reviews)

# Predicciones y probabilidades
predictions = clf_tfidf.predict(X_new)
probabilities = clf_tfidf.predict_proba(X_new)

# Mostramos resultados
print("=" * 80)
print("PREDICCIONES SOBRE RESE√ëAS NUEVAS EN ESPA√ëOL")
print("=" * 80)
for i, review in enumerate(new_reviews):
    sentiment_label = "POSITIVO ‚úì" if predictions[i] == 1 else "NEGATIVO ‚úó"
    confidence = probabilities[i][predictions[i]] * 100
    print(f"\nRese√±a: \"{review}\"")
    print(f"Predicci√≥n: {sentiment_label} (Confianza: {confidence:.1f}%)")

PREDICCIONES SOBRE RESE√ëAS NUEVAS EN ESPA√ëOL

Rese√±a: "Excelente producto, super√≥ mis expectativas. Lo recomiendo totalmente."
Predicci√≥n: POSITIVO ‚úì (Confianza: 87.1%)

Rese√±a: "Mal√≠sima calidad, se rompi√≥ a los pocos d√≠as. No lo compren."
Predicci√≥n: NEGATIVO ‚úó (Confianza: 88.0%)

Rese√±a: "Es aceptable, cumple su funci√≥n pero nada del otro mundo."
Predicci√≥n: POSITIVO ‚úì (Confianza: 62.9%)

Rese√±a: "Me encant√≥, justo lo que buscaba. Lleg√≥ r√°pido y bien empaquetado."
Predicci√≥n: POSITIVO ‚úì (Confianza: 66.9%)

Rese√±a: "Decepcionante, no funciona como dice la descripci√≥n. P√©rdida de dinero."
Predicci√≥n: NEGATIVO ‚úó (Confianza: 85.7%)

Rese√±a: "Buen√≠simo, la mejor compra que podes hacer si queres tirar tu dinero a la basura."
Predicci√≥n: NEGATIVO ‚úó (Confianza: 51.1%)

Rese√±a: "Horrible, el peor producto que compr√©. No sirve para nada."
Predicci√≥n: NEGATIVO ‚úó (Confianza: 89.9%)


---

## 9Ô∏è‚É£ Interpretabilidad: ¬øQu√© Palabras Importan?

Una ventaja de la Regresi√≥n Log√≠stica es que podemos inspeccionar los pesos del modelo para entender qu√© palabras en espa√±ol considera m√°s importantes para cada clase.

**üí° Ejercicio pedag√≥gico**: Despu√©s de ver las palabras m√°s influyentes, analicemos por qu√© el modelo puede fallar en casos de iron√≠a y sarcasmo.

In [17]:
# Obtenemos features (palabras) y coeficientes
feature_names = tfidf_vectorizer.get_feature_names_out()
coefficients = clf_tfidf.coef_[0]

# Top 15 palabras m√°s positivas y negativas
top_positive_indices = np.argsort(coefficients)[-15:]
top_negative_indices = np.argsort(coefficients)[:15]

print("=" * 60)
print("PALABRAS M√ÅS INFLUYENTES EN LAS PREDICCIONES")
print("=" * 60)

print("\nTop 15 palabras asociadas con SENTIMIENTO POSITIVO:")
for idx in reversed(top_positive_indices):
    print(f"  ‚úì {feature_names[idx]:20s} (peso: {coefficients[idx]:.4f})")

print("\nTop 15 palabras asociadas con SENTIMIENTO NEGATIVO:")
for idx in top_negative_indices:
    print(f"  ‚úó {feature_names[idx]:20s} (peso: {coefficients[idx]:.4f})")

print("\n" + "=" * 60)
print("üí° AN√ÅLISIS PEDAG√ìGICO")
print("=" * 60)
print("""
El modelo aprendi√≥ correctamente que palabras como 'excelente', 'perfecto',
'genial' est√°n asociadas con sentimiento POSITIVO.

Sin embargo, esto es tambi√©n su DEBILIDAD:

En una rese√±a ir√≥nica como:
  "Excelente si quer√©s tirar la plata a la basura"

El modelo ver√° 'excelente' (peso positivo alto) y probablemente
la clasifique INCORRECTAMENTE como positiva, porque:

1. BoW/TF-IDF ignoran el ORDEN de las palabras
2. No capturan el CONTEXTO ("si quer√©s tirar la plata")
3. No entienden NEGACIONES ni IRON√çA

Esto motiva el uso de modelos m√°s avanzados (LSTM, Transformers)
que veremos en los pr√≥ximos notebooks.
""")

PALABRAS M√ÅS INFLUYENTES EN LAS PREDICCIONES

Top 15 palabras asociadas con SENTIMIENTO POSITIVO:
  ‚úì mis                  (peso: 1.8547)
  ‚úì fue                  (peso: 1.6596)
  ‚úì este                 (peso: 1.6196)
  ‚úì me                   (peso: 1.5042)
  ‚úì compra               (peso: 1.4989)
  ‚úì perfecto             (peso: 1.4730)
  ‚úì todos                (peso: 1.4304)
  ‚úì sigue                (peso: 1.2932)
  ‚úì perfectamente        (peso: 1.1302)
  ‚úì estado               (peso: 1.1227)
  ‚úì antes                (peso: 1.1227)
  ‚úì result√≥              (peso: 1.0945)
  ‚úì total                (peso: 1.0659)
  ‚úì ganga                (peso: 1.0659)
  ‚úì ser                  (peso: 1.0384)

Top 15 palabras asociadas con SENTIMIENTO NEGATIVO:
  ‚úó no                   (peso: -2.3939)
  ‚úó se                   (peso: -2.0986)
  ‚úó para                 (peso: -2.0375)
  ‚úó un                   (peso: -1.7465)
  ‚úó las                  (peso: -1.4123)
  

In [18]:
# Agregamos las predicciones al dataframe de test
# Necesitamos identificar los √≠ndices del test set en el df original
test_indices = []
for review in reviews_test:
    # Encontramos el √≠ndice en df
    idx = df[df['review_body'] == review].index[0]
    test_indices.append(idx)

df_test = df.loc[test_indices].copy()
df_test['prediccion'] = y_pred_tfidf

# Calculamos accuracy por tipo de review
print("=" * 70)
print("RENDIMIENTO DEL MODELO POR TIPO DE RESE√ëA")
print("=" * 70)

for tipo in sorted(df_test['tipo'].unique()):
    df_tipo = df_test[df_test['tipo'] == tipo]
    if len(df_tipo) > 0:
        aciertos = (df_tipo['sentiment'] == df_tipo['prediccion']).sum()
        total = len(df_tipo)
        accuracy_tipo = aciertos / total * 100

        # Clasificamos dificultad
        if 'simple' in tipo:
            dificultad = "F√ÅCIL     "
        elif 'ironia' in tipo:
            dificultad = "DIF√çCIL   "
        else:  # negacion
            dificultad = "MUY DIF√çCIL"

        print(f"\n{tipo:25s} [{dificultad}]: {accuracy_tipo:5.1f}% ({aciertos}/{total})")

print("\n" + "=" * 70)
print("üí° OBSERVACIONES PEDAG√ìGICAS")
print("=" * 70)
print("""
Como era de esperarse:

‚úì CASOS SIMPLES: Alta precisi√≥n (~85-95%)
  El modelo funciona bien cuando las palabras coinciden con el sentimiento.

‚ö† IRON√çA/SARCASMO: Precisi√≥n media-baja (~50-70%)
  El modelo se confunde porque las palabras no coinciden con el sentimiento real.

‚úó NEGACIONES: Precisi√≥n variable
  "No funciona" vs "No tengo quejas" - ambas tienen "no", pero significan opuesto.

CONCLUSI√ìN: Los modelos cl√°sicos (TF-IDF + Logistic Regression) son un
buen BASELINE, pero tienen limitaciones claras con casos complejos.
""")

RENDIMIENTO DEL MODELO POR TIPO DE RESE√ëA

ambiguo_negativo          [MUY DIF√çCIL]: 100.0% (6/6)

ambiguo_positivo          [MUY DIF√çCIL]: 100.0% (7/7)

ironia_negativo           [DIF√çCIL   ]: 100.0% (16/16)

ironia_positivo           [DIF√çCIL   ]: 100.0% (11/11)

negacion_negativo         [MUY DIF√çCIL]: 100.0% (7/7)

negacion_positivo         [MUY DIF√çCIL]:  93.3% (14/15)

simple_negativo           [F√ÅCIL     ]: 100.0% (53/53)

simple_positivo           [F√ÅCIL     ]: 100.0% (49/49)

üí° OBSERVACIONES PEDAG√ìGICAS

Como era de esperarse:

‚úì CASOS SIMPLES: Alta precisi√≥n (~85-95%)
  El modelo funciona bien cuando las palabras coinciden con el sentimiento.

‚ö† IRON√çA/SARCASMO: Precisi√≥n media-baja (~50-70%)
  El modelo se confunde porque las palabras no coinciden con el sentimiento real.

‚úó NEGACIONES: Precisi√≥n variable
  "No funciona" vs "No tengo quejas" - ambas tienen "no", pero significan opuesto.

CONCLUSI√ìN: Los modelos cl√°sicos (TF-IDF + Logistic Regression) 

### An√°lisis de Rendimiento por Tipo de Rese√±a

Veamos c√≥mo le va al modelo en diferentes tipos de casos.

---

## üß† Gu√≠a Te√≥rico-Conceptual

### 1. Flujo completo de un proyecto de clasificaci√≥n de texto

**Paso 1: Recolecci√≥n de datos**  
Obtener un corpus etiquetado (en nuestro caso, rese√±as con sentimiento)

**Paso 2: Preprocesamiento**  
Limpiar texto, tokenizaci√≥n, opcional: stemming/lemmatizaci√≥n

**Paso 3: Vectorizaci√≥n**  
Convertir texto en representaci√≥n num√©rica (BoW, TF-IDF, embeddings)

**Paso 4: Divisi√≥n train/test**  
Separar datos para entrenar y evaluar sin sesgo

**Paso 5: Entrenamiento**  
Ajustar modelo a los datos de entrenamiento

**Paso 6: Evaluaci√≥n**  
Medir rendimiento en datos de prueba

**Paso 7: Optimizaci√≥n**  
Ajustar hiperpar√°metros, probar otros modelos

**Paso 8: Despliegue**  
Usar el modelo en producci√≥n

---

### 2. Bag of Words vs. TF-IDF

**Bag of Words (BoW):**
- Representa documentos como vectores de conteos de palabras
- Ignora orden y gram√°tica
- Simple pero efectivo como baseline
- **Problema**: Palabras muy frecuentes dominan la representaci√≥n

**TF-IDF:**
- Balancea frecuencia local (documento) con rareza global (corpus)
- Palabras comunes reciben pesos bajos
- Palabras discriminativas reciben pesos altos
- Generalmente supera a BoW en clasificaci√≥n de texto

---

### 3. Regresi√≥n Log√≠stica para Clasificaci√≥n

**Funcionamiento:**
- Aprende funci√≥n lineal: z = w‚ÇÅx‚ÇÅ + w‚ÇÇx‚ÇÇ + ... + w‚Çôx‚Çô + b
- Aplica sigmoide: P(y=1|x) = 1 / (1 + e‚Åª·∂ª)
- Salida es probabilidad entre 0 y 1
- Si P > 0.5 ‚Üí Clase 1, sino ‚Üí Clase 0

**Ventajas:**
- R√°pido y eficiente
- Probabilidades calibradas
- Pesos interpretables
- Funciona bien con alta dimensionalidad

**Limitaciones:**
- Asume relaciones lineales
- No captura interacciones complejas
- Ignora orden de palabras

---

### 4. M√©tricas de Evaluaci√≥n

**Accuracy:** Porcentaje de predicciones correctas (cuidado con clases desbalanceadas)

**Precision:** De las predichas positivas, ¬øcu√°ntas son realmente positivas?

**Recall:** De las positivas reales, ¬øcu√°ntas detectamos?

**F1-Score:** Media arm√≥nica entre precision y recall

---

### 5. Importancia del Baseline

Antes de usar redes neuronales complejas, siempre establecemos un baseline simple para:

1. Entender la dificultad del problema
2. Detectar problemas en los datos
3. Tener punto de comparaci√≥n cuantitativo
4. Justificar complejidad adicional
5. Iterar r√°pidamente

En muchos casos, un modelo simple bien ajustado es suficiente y preferible (m√°s r√°pido, interpretable, f√°cil de mantener).

---

## ‚ùì Preguntas y Respuestas para Estudio

### Preguntas Conceptuales

**1. ¬øPor qu√© es importante dividir los datos en conjuntos de entrenamiento y prueba?**

*Respuesta:* Para evaluar el rendimiento del modelo en datos que nunca vio durante el entrenamiento. Si evalu√°ramos con los mismos datos de entrenamiento, el modelo podr√≠a haber memorizado los ejemplos (overfitting) y no generalizar bien a datos nuevos del mundo real.

---

**2. ¬øCu√°l es la diferencia principal entre Bag of Words y TF-IDF?**

*Respuesta:* BoW solo cuenta la frecuencia de cada palabra en el documento, mientras que TF-IDF pondera esa frecuencia seg√∫n qu√© tan rara es la palabra en todo el corpus. TF-IDF reduce la importancia de palabras muy comunes (como "el", "de") y aumenta la de palabras discriminativas.

---

**3. ¬øPor qu√© usamos Regresi√≥n Log√≠stica para clasificaci√≥n si su nombre dice "regresi√≥n"?**

*Respuesta:* Aunque el nombre es confuso, la Regresi√≥n Log√≠stica es un algoritmo de clasificaci√≥n. Usa una funci√≥n log√≠stica (sigmoide) para convertir una combinaci√≥n lineal de features en una probabilidad entre 0 y 1, y luego clasifica seg√∫n un umbral (t√≠picamente 0.5).

---

**4. ¬øQu√© es el overfitting y c√≥mo lo evitamos en este notebook?**

*Respuesta:* Overfitting ocurre cuando el modelo memoriza los datos de entrenamiento en lugar de aprender patrones generalizables. Lo evitamos mediante: (1) divisi√≥n train/test, (2) limitaci√≥n del vocabulario (max_features=1000), y (3) regularizaci√≥n impl√≠cita en LogisticRegression.

---

**5. ¬øPor qu√© nunca debemos usar fit() en los datos de prueba?**

*Respuesta:* Porque fit() aprende par√°metros de los datos (vocabulario, escalas, etc.). Si lo usamos en datos de prueba, el modelo "esp√≠a" informaci√≥n que no deber√≠a conocer, invalidando la evaluaci√≥n. Solo debemos usar transform() en datos nuevos.

---

### Preguntas T√©cnicas

**6. Si tenemos un dataset con 90% de rese√±as positivas y 10% negativas, ¬øqu√© problema tiene usar solo accuracy como m√©trica?**

*Respuesta:* Un modelo trivial que prediga "positivo" para todo tendr√≠a 90% de accuracy sin aprender nada √∫til. En datasets desbalanceados, debemos usar precision, recall y F1-score para evaluar el rendimiento en cada clase.

---

**7. ¬øQu√© significa que TfidfVectorizer devuelva una "matriz dispersa" (sparse matrix)?**

*Respuesta:* Como la mayor√≠a de las entradas son cero (cada documento solo contiene una peque√±a fracci√≥n del vocabulario total), scipy usa una representaci√≥n dispersa que solo almacena los valores no-cero. Esto ahorra memoria y acelera c√°lculos.

---

**8. ¬øC√≥mo interpretamos los coeficientes de la Regresi√≥n Log√≠stica?**

*Respuesta:* Coeficientes positivos indican que la presencia de esa palabra aumenta la probabilidad de clase positiva. Coeficientes negativos indican asociaci√≥n con la clase negativa. La magnitud indica la fuerza de la asociaci√≥n.

---

**9. ¬øQu√© pasar√≠a si no us√°ramos random_state en train_test_split?**

*Respuesta:* Cada ejecuci√≥n del notebook producir√≠a una divisi√≥n diferente, resultando en m√©tricas ligeramente distintas. Fijar random_state garantiza reproducibilidad, importante para debugging y comparaci√≥n de modelos.

---

**10. ¬øPor qu√© limitamos max_features a 1000 palabras?**

*Respuesta:* Para reducir dimensionalidad y evitar overfitting. Palabras muy raras (que aparecen en 1-2 documentos) suelen ser ruido o typos. Mantener solo las m√°s frecuentes captura la mayor parte de la informaci√≥n con menor riesgo de sobreajuste.

---

### Preguntas de Aplicaci√≥n

**11. Mencion√° tres limitaciones del enfoque BoW/TF-IDF que las redes neuronales podr√≠an superar.**

*Respuesta:*
1. Ignoran el orden de las palabras ("no es bueno" vs "es bueno")
2. No capturan significado sem√°ntico ("excelente" y "genial" son tratadas como completamente diferentes)
3. No modelan dependencias largas ni contexto complejo

---

**12. Si tuvieras que clasificar tweets (textos muy cortos), ¬øqu√© ajustes har√≠as a este enfoque?**

*Respuesta:*
- Incluir n-gramas (bigramas, trigramas) para capturar frases cortas
- Reducir max_features (menos palabras √∫nicas en tweets)
- Considerar preprocesamiento de hashtags, menciones y emojis
- Probar con char-level features para manejar jerga y typos

---

**13. ¬øEn qu√© casos preferir√≠as usar Regresi√≥n Log√≠stica sobre una red neuronal profunda?**

*Respuesta:*
- Dataset peque√±o (pocas muestras)
- Necesidad de interpretabilidad (explicar decisiones)
- Recursos computacionales limitados
- Necesidad de entrenar/desplegar r√°pidamente
- Cuando el baseline ya da resultados satisfactorios

---

## üéØ Ejercicios Propuestos

### Ejercicio 1: Experimentaci√≥n con Hiperpar√°metros
Prob√° cambiar `max_features` en TfidfVectorizer a 500, 2000 y 5000. ¬øC√≥mo afecta al accuracy? ¬øObserv√°s overfitting con vocabularios muy grandes?

### Ejercicio 2: N-gramas
Modific√° TfidfVectorizer para incluir bigramas: `TfidfVectorizer(max_features=1000, ngram_range=(1,2))`. ¬øMejora el rendimiento? ¬øPor qu√© los bigramas pueden ser √∫tiles en espa√±ol?

### Ejercicio 3: Dataset Completo
Prob√° entrenar con el dataset completo (200,000 reviews) en lugar del subset de 10,000. ¬øMejora significativamente el accuracy? ¬øCu√°nto tarda el entrenamiento?

### Ejercicio 4: An√°lisis de Errores
Identific√° 5 rese√±as del conjunto de prueba que el modelo clasific√≥ incorrectamente. ¬øQu√© tienen en com√∫n? ¬øSon casos dif√≠ciles incluso para humanos? (Tip: iron√≠a, sarcasmo, negaciones)

### Ejercicio 5: Comparaci√≥n de Modelos
Prob√° otros clasificadores de sklearn: `MultinomialNB`, `SVC`, `RandomForestClassifier`. ¬øCu√°l da mejores resultados en espa√±ol? ¬øCu√°l es m√°s r√°pido?

### Ejercicio 6: Dataset Propio
Busc√° otro dataset en espa√±ol (Twitter, reviews de apps, noticias) y aplic√° el mismo pipeline. ¬øEl modelo generaliza bien a otros dominios?

---

## üéì Conclusi√≥n

En este notebook establecimos un baseline s√≥lido para clasificaci√≥n de sentimientos en espa√±ol usando m√©todos cl√°sicos de Machine Learning. Aprendimos:

1. ‚úÖ Cargar datasets de HuggingFace con reviews reales en espa√±ol
2. ‚úÖ Preprocesar datos y convertir problemas multiclase a binarios
3. ‚úÖ Vectorizar texto con BoW y TF-IDF
4. ‚úÖ Entrenar modelos de Regresi√≥n Log√≠stica
5. ‚úÖ Evaluar con m√©tricas apropiadas
6. ‚úÖ Interpretar qu√© palabras en espa√±ol influyen en las predicciones

**Pr√≥ximo paso:** En el siguiente notebook vamos a explorar Naive Bayes y Pipelines de sklearn para construir flujos de trabajo m√°s modulares y profesionales.

---

### üí° Reflexi√≥n Final

Este modelo cl√°sico (TF-IDF + Logistic Regression) es sorprendentemente efectivo para clasificaci√≥n de sentimientos. En muchos casos reales de la industria, un baseline bien ajustado como este es suficiente y preferible por su:

- ‚ö° Velocidad de entrenamiento e inferencia
- üìä Interpretabilidad (podemos explicar por qu√© clasifica as√≠)
- üíª Bajos requisitos computacionales
- üîß Facilidad de mantenimiento

Solo cuando este baseline no alcanza la performance requerida, justificamos la complejidad adicional de redes neuronales profundas.

---

*Este material fue desarrollado con fines educativos para la Tecnicatura en Ciencia de Datos del IFTS.*