# Aplicaciones Pr√°cticas de NLP con Transformers

## Gu√≠a de Ejercicios Progresivos

---

## Introducci√≥n

En este cuaderno vas a trabajar con aplicaciones reales de Procesamiento de Lenguaje Natural (NLP) utilizando modelos Transformer preentrenados. Cada ejercicio representa un caso de uso concreto que se implementa en empresas y organizaciones de Argentina y el mundo.

Los ejercicios est√°n organizados de manera progresiva:

1. **Nivel B√°sico:** Moderaci√≥n autom√°tica de comentarios en redes sociales
2. **Nivel Intermedio:** Extracci√≥n de informaci√≥n de curr√≠culums (RRHH)
3. **Nivel Avanzado:** Chatbot de soporte t√©cnico con respuestas autom√°ticas
4. **Desaf√≠o Aut√≥nomo:** An√°lisis integral de rese√±as de restaurantes

### ¬øQu√© vas a aprender?

- A usar modelos preentrenados de Hugging Face para tareas reales
- A comprender c√≥mo funcionan los pipelines de NLP en la pr√°ctica
- A modificar y experimentar con c√≥digo para resolver problemas concretos
- A evaluar la calidad de las predicciones de los modelos
- A trabajar de manera aut√≥noma en un problema real completo

### Requisitos previos

- Conocimientos b√°sicos de Python
- Familiaridad con conceptos de Machine Learning
- Haber visto los cuadernos introductorios sobre clasificaci√≥n de sentimientos

---

## Instalaci√≥n de dependencias

Ejecut√° la siguiente celda para instalar las librer√≠as necesarias:

In [None]:
# Instalaci√≥n de librer√≠as (ejecutar solo una vez)
!pip install transformers torch pandas -q

---

## Ejercicio 1: Moderaci√≥n de Comentarios en Redes Sociales

### Contexto del problema

Imaginate que trabaj√°s en el equipo de redes sociales de una empresa argentina de delivery de comida. Recib√≠s cientos de comentarios diarios en Instagram y Facebook. Necesit√°s un sistema que identifique autom√°ticamente los comentarios negativos o cr√≠ticos para que el equipo de atenci√≥n al cliente pueda responderlos con prioridad.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Redes sociales de empresas (PedidosYa, Rappi, Mercado Libre)
- Plataformas de e-commerce
- Servicios de atenci√≥n al cliente automatizada

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de an√°lisis de sentimientos en espa√±ol
2. Analizar comentarios reales de clientes
3. Clasificarlos autom√°ticamente (positivo, negativo, neutral)
4. Identificar cu√°les requieren atenci√≥n urgente

---

### Paso 1: Importar librer√≠as y cargar el modelo

In [3]:
from transformers import pipeline
import pandas as pd

# Cargamos un modelo de an√°lisis de sentimientos espec√≠fico para espa√±ol
# Este modelo fue entrenado con datos de redes sociales en espa√±ol

try:
    clasificador = pipeline(
        "text-classification",
        model="finiteautomata/beto-sentiment-analysis"
    )
    print("‚úÖ Modelo BETO cargado correctamente")
except Exception as e:
    print(f"‚ùå Error con el modelo BETO: {e}")
    print("üîÑ Probando modelo alternativo RoBERTuito...")
    # Modelo alternativo si falla
    clasificador = pipeline(
        "text-classification",
        model="pysentimiento/robertuito-sentiment-analysis"
    )
    print("‚úÖ Modelo alternativo BETO cargado correctamente")

Device set to use cuda:0


‚úÖ Modelo BETO cargado correctamente


### Paso 2: Definir comentarios de ejemplo

Ac√° tenemos comentarios t√≠picos que podr√≠a recibir una empresa de delivery:

In [4]:
comentarios = [
    "La comida lleg√≥ rapid√≠simo y estaba caliente. El repartidor re amable, excelente servicio!",
    "Tardaron DOS HORAS para traer una pizza fr√≠a. P√©simo, no pido m√°s ac√°.",
    "Todo bien, lleg√≥ en tiempo y forma. Nada para destacar.",
    "Me encanta este servicio, siempre cumplen. Los re banco!",
    "Se equivocaron con mi pedido OTRA VEZ. Ya es la tercera vez que pasa, un desastre total."
]

### Paso 3: Analizar los comentarios

In [5]:
# Procesamos todos los comentarios
resultados = clasificador(comentarios)

# Creamos un DataFrame para visualizar mejor los resultados
df_resultados = pd.DataFrame({
    'Comentario': comentarios,
    'Sentimiento': [r['label'] for r in resultados],
    'Confianza': [round(r['score'], 3) for r in resultados]
})

df_resultados

Unnamed: 0,Comentario,Sentimiento,Confianza
0,La comida lleg√≥ rapid√≠simo y estaba caliente. ...,POS,0.998
1,Tardaron DOS HORAS para traer una pizza fr√≠a. ...,NEG,0.999
2,"Todo bien, lleg√≥ en tiempo y forma. Nada para ...",POS,0.997
3,"Me encanta este servicio, siempre cumplen. Los...",POS,0.999
4,Se equivocaron con mi pedido OTRA VEZ. Ya es l...,NEG,0.999


### Paso 4: Identificar comentarios que requieren atenci√≥n urgente

In [6]:
# Filtramos solo los comentarios negativos
comentarios_urgentes = df_resultados[df_resultados['Sentimiento'] == 'NEG']

print("COMENTARIOS QUE REQUIEREN ATENCI√ìN URGENTE:")
print("="*60)
for idx, fila in comentarios_urgentes.iterrows():
    print(f"\n[{idx+1}] {fila['Comentario']}")
    print(f"    Confianza: {fila['Confianza']*100:.1f}%")

COMENTARIOS QUE REQUIEREN ATENCI√ìN URGENTE:

[2] Tardaron DOS HORAS para traer una pizza fr√≠a. P√©simo, no pido m√°s ac√°.
    Confianza: 99.9%

[5] Se equivocaron con mi pedido OTRA VEZ. Ya es la tercera vez que pasa, un desastre total.
    Confianza: 99.9%


### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Agreg√° 3 comentarios nuevos** a la lista (pueden ser inventados o reales)
2. **Ejecut√° nuevamente** las celdas de an√°lisis
3. **Respond√©:**
   - ¬øEl modelo clasific√≥ correctamente tus comentarios?
   No, clasific√≥ mal 2 de 3 comentarios.
   Comentario 1 (positivo) : lo clasific√≥ como NEGATIVO.
   Comentario 3 (ir√≥nico/negativo) : lo clasific√≥ como POSITIVO

   - ¬øHubo alg√∫n comentario que esperabas que clasifique diferente?
   Esperaba que el primero fuera POSITIVO era un elogio, sin ironia y compuesto palabras como "recomiendo" y "riquisima". En cambio, el de ironia me esperaba un mal resultado.

   - ¬øQu√© pasa si escrib√≠s un comentario con iron√≠a? (prob√° con algo como "Genial, 3 horas esperando, lo mejor!")
   Lo clasifica de manera incorrecta por lo que me hace concluir que efectivamente no interpret√≥ la ironia. Entiende "excelente innovacion" como positivo en un contexto negativo, y con un porcentaje muy alto de confianza, 99%.

Escrib√≠ tus comentarios nuevos en la siguiente celda:

In [7]:
# TUS COMENTARIOS AC√Å
mis_comentarios = [
    "La hamburguesa estaba riquisima y llego caliente, como tiene que ser. Recomiendo.",
    "El pedido lleg√≥ correcto pero el envoltorio estaba un poco roto, nada grave",
    "Ped√≠ sushi y lleg√≥ todo mezclado sin salsa ni palitos, todo tenia el mismo gusto, excelente innovacion!"
]

# Analizamos
mis_resultados = clasificador(mis_comentarios)

# Mostramos
df_mis_resultados = pd.DataFrame({
    'Comentario': mis_comentarios,
    'Sentimiento': [r['label'] for r in mis_resultados],
    'Confianza': [round(r['score'], 3) for r in mis_resultados]
})

df_mis_resultados

Unnamed: 0,Comentario,Sentimiento,Confianza
0,La hamburguesa estaba riquisima y llego calien...,NEG,0.624
1,El pedido lleg√≥ correcto pero el envoltorio es...,NEU,0.993
2,Ped√≠ sushi y lleg√≥ todo mezclado sin salsa ni ...,POS,0.999


---

## Ejercicio 2: Extracci√≥n Autom√°tica de Informaci√≥n de CVs

### Contexto del problema

Trabaj√°s en el √°rea de Recursos Humanos de una consultora argentina. Recib√≠s decenas de CVs por d√≠a y necesit√°s extraer r√°pidamente informaci√≥n clave: nombres de candidatos, empresas donde trabajaron, universidades, ciudades, y tecnolog√≠as que manejan.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Plataformas de empleo (LinkedIn, Bumeran, Computrabajo)
- Sistemas de ATS (Applicant Tracking Systems)
- Automatizaci√≥n de procesos de RRHH

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de Reconocimiento de Entidades Nombradas (NER)
2. Procesar un fragmento de CV
3. Extraer autom√°ticamente: personas, organizaciones, ubicaciones
4. Organizar la informaci√≥n de manera estructurada

---

### Paso 1: Cargar el modelo de NER

In [8]:
# Cargamos un modelo de NER espec√≠fico para espa√±ol
# Este modelo fue entrenado para reconocer personas, organizaciones y lugares
extractor_ner = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    aggregation_strategy="simple"  # Agrupa tokens de la misma entidad
)

print("Modelo NER cargado correctamente.")

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Modelo NER cargado correctamente.


### Paso 2: Definir un fragmento de CV

Este es un ejemplo t√≠pico de c√≥mo un candidato describe su experiencia:

In [12]:
cv_texto = """Mar√≠a Fern√°ndez es una desarrolladora full-stack con 5 a√±os de experiencia.
Estudi√≥ Ingenier√≠a en Sistemas en la Universidad de Buenos Aires (UBA) y se gradu√≥ en 2018.
Trabaj√≥ como desarrolladora backend en Mercado Libre durante 3 a√±os, donde lider√≥ la migraci√≥n
de sistemas legacy a microservicios. Posteriormente se uni√≥ a Globant como tech lead,
coordinando equipos distribuidos entre Buenos Aires y C√≥rdoba. Tiene experiencia en Python,
Java, Docker y Kubernetes. Actualmente reside en Palermo, Ciudad de Buenos Aires."""

print("CV a procesar:")
print(cv_texto)

CV a procesar:
MStefania Ver√≥nica Jimenez es Contadora P√∫blica graduada en la Universidad de Buenos Aires (UBA) en 2020. 
Cuenta con m√°s de 8 a√±os de experiencia en el sector bancario, especializ√°ndose en gesti√≥n de riesgos, cumplimiento normativo 
y an√°lisis financiero.  Se desempe√±o en el √°rea de Business Risk Control Management en HSBC Bank Argentina, donde lidero procesos de evaluaci√≥n y control de riesgos de proveedores, colaborando con las √°reas de Finanzas, 
Legales y Tecnolog√≠a. Anteriormente trabaj√≥ como analista senior de Customer Due Diligence, y previamente en atenci√≥n al cliente 
en HSBC y American Express. Posee conocimientos en SQL, Python y Excel, adem√°s de estar en formaci√≥n en Ciencia de Datos 
e Inteligencia Artificial. Se destaca por su perfil anal√≠tico, capacidad resolutiva y orientaci√≥n a la mejora continua. 
Reside Palermo en la Ciudad Aut√≥noma de Buenos Aires.


### Paso 3: Extraer entidades del CV

In [10]:
# Procesamos el texto del CV
entidades = extractor_ner(cv_texto)

# Creamos un DataFrame para visualizar mejor
df_entidades = pd.DataFrame(entidades)

# Mostramos solo las columnas relevantes
df_entidades[['entity_group', 'word', 'score']].round(3)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,entity_group,word,score
0,PER,Mar√≠a Fern√°ndez,1.0
1,MISC,Ingenier√≠a en Sistemas,0.998
2,ORG,Universidad de Buenos Aires,0.998
3,ORG,UBA,0.983
4,MISC,Mercado Libre,0.789
5,ORG,Glo,1.0
6,ORG,##bant,0.821
7,LOC,Buenos Aires,1.0
8,LOC,C√≥rdoba,1.0
9,MISC,Py,0.999


### Paso 4: Organizar la informaci√≥n por categor√≠a

Ahora vamos a separar las entidades por tipo para que sea m√°s f√°cil revisarlas:

In [11]:
# Diccionario para organizar por tipo de entidad
info_extraida = {
    'PER': [],  # Personas
    'ORG': [],  # Organizaciones
    'LOC': []   # Ubicaciones
}

# Clasificamos cada entidad
for entidad in entidades:
    tipo = entidad['entity_group']
    palabra = entidad['word']
    if tipo in info_extraida:
        info_extraida[tipo].append(palabra)

# Mostramos la informaci√≥n organizada
print("INFORMACI√ìN EXTRA√çDA DEL CV")
print("="*60)
print(f"\nCANDIDATO/A: {', '.join(info_extraida['PER'])}")
print(f"\nEMPRESAS/INSTITUCIONES: {', '.join(info_extraida['ORG'])}")
print(f"\nUBICACIONES: {', '.join(info_extraida['LOC'])}")

INFORMACI√ìN EXTRA√çDA DEL CV

CANDIDATO/A: Mar√≠a Fern√°ndez

EMPRESAS/INSTITUCIONES: Universidad de Buenos Aires, UBA, Glo, ##bant

UBICACIONES: Buenos Aires, C√≥rdoba, Palermo, Ciudad de Buenos Aires


### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Escrib√≠ un fragmento de CV ficticio** (o us√° el tuyo si quer√©s) con:
   - Nombre de la persona
   - Al menos 2 empresas o instituciones educativas
   - Al menos 2 ubicaciones (ciudades, barrios, pa√≠ses)

2. **Ejecut√° el an√°lisis** y verific√° qu√© entidades detect√≥ el modelo

3. **Respond√©:**
   - ¬øEl modelo identific√≥ correctamente todas las entidades?
   - ¬øHubo alguna entidad que no detect√≥? ¬øPor qu√© cre√©s que pas√≥?
   - ¬øDetect√≥ alguna entidad incorrectamente?

El modelo reconocio las entidades, en un principio pens√© que no detectar a "Youtube" como organizacion era incorrecto pero en realidad el modelo est√° en lo correcto porque es una plataforma. Luego, le agregue a "Google" como la compa√±ia due√±a, y efectivamente lo detecto como organizacion.

Escrib√≠ tu CV ficticio en la siguiente celda:

In [21]:
# TU CV FICTICIO AC√Å
mi_cv = """Axel Jimenez es un creador de contenido argentino especializado en videojuegos.
Estudi√≥ la orientaci√≥n en Administraci√≥n en la Escuela Secundaria N¬∞14 de Buenos Aires,
donde descubri√≥ su inter√©s por la gesti√≥n de proyectos y el trabajo en equipo.
Actualmente se dedica de forma profesional a su canal de YouTube propiedad de Google, donde produce videos y transmisiones en vivo
centrados en juegos como Roblox, GTA V, Minecraft y Fortnite.
Con m√°s de 2 millones suscriptores, se destaca por su estilo cercano, su sentido del humor y su capacidad para crear comunidades activas.
Adem√°s, colabora con otros streamers y participa en eventos gaming en l√≠nea.
Reside en la Ciudad Aut√≥noma de Buenos Aires."""

# Procesamos
mis_entidades = extractor_ner(mi_cv)

# Mostramos
df_mis_entidades = pd.DataFrame(mis_entidades)
print("Entidades detectadas:")
print(df_mis_entidades[['entity_group', 'word', 'score']].round(3))

# Organizamos
mi_info = {'PER': [], 'ORG': [], 'LOC': []}
for e in mis_entidades:
    if e['entity_group'] in mi_info:
        mi_info[e['entity_group']].append(e['word'])

print("\n" + "="*60)
print(f"CANDIDATO/A: {', '.join(mi_info['PER'])}")
print(f"EMPRESAS/INSTITUCIONES: {', '.join(mi_info['ORG'])}")
print(f"UBICACIONES: {', '.join(mi_info['LOC'])}")

Entidades detectadas:
   entity_group                             word  score
0           PER                     Axel Jimenez  0.855
1          MISC                   Administraci√≥n  0.999
2           ORG          Escuela Secundaria N¬∞14  0.994
3           LOC                     Buenos Aires  0.977
4          MISC                          YouTube  0.999
5           ORG                           Google  1.000
6          MISC                           Roblox  0.973
7          MISC                            GTA V  0.999
8          MISC                              Min  0.999
9          MISC                         ##ecraft  0.969
10         MISC                         Fortnite  0.994
11          LOC  Ciudad Aut√≥noma de Buenos Aires  0.997

CANDIDATO/A: Axel Jimenez
EMPRESAS/INSTITUCIONES: Escuela Secundaria N¬∞14, Google
UBICACIONES: Buenos Aires, Ciudad Aut√≥noma de Buenos Aires


---

## Ejercicio 3: Chatbot de Soporte T√©cnico Autom√°tico

### Contexto del problema

Trabaj√°s en una empresa que vende electrodom√©sticos online. Los clientes suelen hacer preguntas frecuentes sobre garant√≠as, env√≠os y devoluciones. Quer√©s automatizar las respuestas a estas consultas usando un sistema de Question Answering (QA) que pueda responder bas√°ndose en la informaci√≥n de tus pol√≠ticas.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Chatbots de atenci√≥n al cliente (WhatsApp, web)
- Sistemas de FAQ autom√°ticas
- Asistentes virtuales corporativos

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de Question Answering en espa√±ol
2. Definir un contexto (pol√≠ticas de la empresa)
3. Hacer preguntas sobre ese contexto
4. Generar respuestas autom√°ticas

---

### Paso 1: Cargar los modelos necesarios

In [23]:
try:
    # Intentamos con el modelo Question Answering
    qa_modelo = pipeline(
        "question-answering",
        model="PlanTL-GOB-ES/roberta-base-bne-sqac"
    )
    print("‚úÖ Modelo QA cargado correctamente")
except Exception as e:
    print(f"‚ùå Error con el modelo QA: {e}")
    print("üîÑ Probando modelo alternativo...")
    # Modelo alternativo m√°s estable
    qa_modelo = pipeline(
        "question-answering",
        model="mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es"
    )
    print("‚úÖ Modelo alternativo QA cargado correctamente")

‚ùå Error con el modelo QA: PlanTL-GOB-ES/roberta-base-bne-sqac is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `hf auth login` or by passing `token=<your_token>`
üîÑ Probando modelo alternativo...


config.json:   0%|          | 0.00/465 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


‚úÖ Modelo alternativo QA cargado correctamente


### Paso 2: Definir el contexto (pol√≠ticas de la empresa)

Este es el documento que el chatbot va a usar para responder preguntas:

In [32]:
politicas_empresa = """POL√çTICAS DE GARANT√çA Y DEVOLUCIONES - ELECTROHOGAR S.A.

GARANT√çA: Todos nuestros productos tienen garant√≠a oficial de 12 meses contra defectos
de f√°brica. La garant√≠a comienza a contar desde la fecha de recepci√≥n del producto.
Para hacer v√°lida la garant√≠a, el cliente debe presentar la factura de compra original
y el producto no debe tener da√±os f√≠sicos causados por mal uso.

ENV√çOS: Realizamos env√≠os a todo el pa√≠s. En Capital Federal y Gran Buenos Aires,
el env√≠o demora entre 24 y 48 horas h√°biles. Para el interior del pa√≠s, el tiempo
de entrega es de 3 a 7 d√≠as h√°biles. El env√≠o es gratuito para compras superiores
a $50.000. Para montos menores, se cobra un adicional de $2.500.

DEVOLUCIONES: El cliente tiene 10 d√≠as corridos desde la recepci√≥n del producto para
solicitar una devoluci√≥n si el art√≠culo no cumple con sus expectativas. El producto
debe estar sin usar, en su empaque original y con todos sus accesorios. El cliente
debe hacerse cargo del costo de env√≠o de devoluci√≥n. Una vez recibido y verificado
el producto, reintegramos el 100% del dinero en un plazo de 15 d√≠as h√°biles.
"""

print("Contexto cargado:")
print(politicas_empresa)

Contexto cargado:
POL√çTICAS DE GARANT√çA Y DEVOLUCIONES - ELECTROHOGAR S.A.

GARANT√çA: Todos nuestros productos tienen garant√≠a oficial de 12 meses contra defectos
de f√°brica. La garant√≠a comienza a contar desde la fecha de recepci√≥n del producto.
Para hacer v√°lida la garant√≠a, el cliente debe presentar la factura de compra original
y el producto no debe tener da√±os f√≠sicos causados por mal uso.

ENV√çOS: Realizamos env√≠os a todo el pa√≠s. En Capital Federal y Gran Buenos Aires,
el env√≠o demora entre 24 y 48 horas h√°biles. Para el interior del pa√≠s, el tiempo
de entrega es de 3 a 7 d√≠as h√°biles. El env√≠o es gratuito para compras superiores
a $50.000. Para montos menores, se cobra un adicional de $2.500.

DEVOLUCIONES: El cliente tiene 10 d√≠as corridos desde la recepci√≥n del producto para
solicitar una devoluci√≥n si el art√≠culo no cumple con sus expectativas. El producto
debe estar sin usar, en su empaque original y con todos sus accesorios. El cliente
debe hacerse 

### Paso 3: Hacer preguntas al sistema

In [33]:
# Definimos preguntas t√≠picas de clientes
preguntas = [
    "¬øCu√°nto dura la garant√≠a?",
    "¬øCu√°nto tarda el env√≠o a Capital Federal?",
    "¬øCu√°ntos d√≠as tengo para devolver un producto?",
    "¬øQu√© necesito para hacer v√°lida la garant√≠a?",
    "¬øEl env√≠o es gratis?"
]

# Procesamos cada pregunta
print("RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT")
print("="*60)

for pregunta in preguntas:
    respuesta = qa_modelo(question=pregunta, context=politicas_empresa)
    print(f"\nPREGUNTA: {pregunta}")
    print(f"RESPUESTA: {respuesta['answer']}")
    print(f"Confianza: {respuesta['score']*100:.1f}%")
    print("-"*60)

RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT

PREGUNTA: ¬øCu√°nto dura la garant√≠a?
RESPUESTA: 12 meses
Confianza: 11.2%
------------------------------------------------------------

PREGUNTA: ¬øCu√°nto tarda el env√≠o a Capital Federal?
RESPUESTA: entre 24 y 48 horas h√°biles
Confianza: 36.1%
------------------------------------------------------------

PREGUNTA: ¬øCu√°ntos d√≠as tengo para devolver un producto?
RESPUESTA: 10 d√≠as
Confianza: 36.1%
------------------------------------------------------------

PREGUNTA: ¬øQu√© necesito para hacer v√°lida la garant√≠a?
RESPUESTA: presentar la factura de compra original
Confianza: 28.7%
------------------------------------------------------------

PREGUNTA: ¬øEl env√≠o es gratis?
RESPUESTA: El env√≠o es gratuito para compras superiores
a $50.000
Confianza: 26.5%
------------------------------------------------------------


### Paso 4: Crear una funci√≥n interactiva de chatbot

Vamos a crear una funci√≥n que simule un chatbot completo:

In [34]:
def chatbot_soporte(pregunta, contexto=politicas_empresa):
    """
    Funci√≥n que simula un chatbot de soporte t√©cnico.

    Args:
        pregunta (str): La pregunta del cliente
        contexto (str): El documento con las pol√≠ticas de la empresa

    Returns:
        str: Respuesta formateada para el cliente
    """
    resultado = qa_modelo(question=pregunta, context=contexto)

    # Formateamos la respuesta de manera amigable
    confianza = resultado['score']

    if confianza > 0.5:
        respuesta = f"""Hola! Te respondo tu consulta:

{resultado['answer']}

¬øTe fue √∫til esta informaci√≥n? Si necesit√°s m√°s detalles, no dudes en consultarnos."""
    else:
        respuesta = """Hola! No encontr√© una respuesta clara a tu consulta en nuestras
pol√≠ticas. Te recomiendo que te comuniques con nuestro equipo de atenci√≥n al cliente
al 0800-XXX-XXXX para que puedan ayudarte mejor."""

    return respuesta

# Probamos la funci√≥n
print(chatbot_soporte("¬øPuedo devolver un producto despu√©s de 2 semanas?"))

Hola! No encontr√© una respuesta clara a tu consulta en nuestras
pol√≠ticas. Te recomiendo que te comuniques con nuestro equipo de atenci√≥n al cliente
al 0800-XXX-XXXX para que puedan ayudarte mejor.


### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Escrib√≠ 3 preguntas nuevas** que un cliente podr√≠a hacer sobre las pol√≠ticas
2. **Prob√° el chatbot** con esas preguntas
3. **Modific√° el contexto** (politicas_empresa) agregando informaci√≥n nueva, por ejemplo:
   - Formas de pago aceptadas
   - Horarios de atenci√≥n
   - Informaci√≥n sobre instalaci√≥n de productos
4. **Respond√©:**
   - ¬øLas respuestas fueron precisas?
   - ¬øHubo alguna pregunta que el modelo no pudo responder bien?
   - ¬øQu√© pasa si hac√©s una pregunta sobre algo que NO est√° en el contexto?

Us√° las siguientes celdas para experimentar:

In [42]:
# Definimos preguntas t√≠picas de clientes
mis_preguntas = [
    "¬øQu√© pasa si el producto viene con da√±os?",
    "¬øPuedo cambiar un producto por otro?",
    "¬øHacen env√≠os los fines de semana?",
    "¬øQue pasa si lo roban en el camino?",
    "¬øQue pasa si por culpa del electrodomestico salta la termica?"
]

# Procesamos cada pregunta
print("RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT")
print("="*60)

for pregunta in mis_preguntas:
    respuesta = qa_modelo(question=pregunta, context=politicas_empresa)
    print(f"\nPREGUNTA: {pregunta}")
    print(f"RESPUESTA: {respuesta['answer']}")
    print(f"Confianza: {respuesta['score']*100:.1f}%")
    print("-"*60)

RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT

PREGUNTA: ¬øQu√© pasa si el producto viene con da√±os?
RESPUESTA: El producto
debe estar sin usar
Confianza: 2.8%
------------------------------------------------------------

PREGUNTA: ¬øPuedo cambiar un producto por otro?
RESPUESTA: El cliente
debe hacerse cargo del costo de env√≠o de devoluci√≥n
Confianza: 4.6%
------------------------------------------------------------

PREGUNTA: ¬øHacen env√≠os los fines de semana?
RESPUESTA: Realizamos env√≠os a todo el pa√≠s
Confianza: 0.1%
------------------------------------------------------------

PREGUNTA: ¬øQue pasa si lo roban en el camino?
RESPUESTA: El producto
debe estar sin usar
Confianza: 6.2%
------------------------------------------------------------

PREGUNTA: ¬øQue pasa si por culpa del electrodomestico salta la termica?
RESPUESTA: da√±os f√≠sicos
Confianza: 0.4%
------------------------------------------------------------


In [48]:
# MODIFIC√Å EL CONTEXTO AC√Å (agreg√° informaci√≥n nueva)
mi_contexto_ampliado = """POL√çTICAS DE GARANT√çA Y DEVOLUCIONES - ELECTROHOGAR S.A.

GARANT√çA: Todos nuestros productos tienen garant√≠a oficial de 12 meses contra defectos
de f√°brica. La garant√≠a comienza a contar desde la fecha de recepci√≥n del producto.
Para hacer v√°lida la garant√≠a, el cliente debe presentar la factura de compra original
y el producto no debe tener da√±os f√≠sicos causados por mal uso.

FORMAS DE PAGO: Aceptamos tarjetas de cr√©dito (hasta 12 cuotas), d√©bito, transferencia
bancaria y efectivo. Los pagos con tarjeta tienen un recargo del 5% para cubrir costos
de procesamiento. Tambi√©n aceptamos Mercado Pago y PayPal.

HORARIOS DE ATENCI√ìN: Nuestro call center atiende de lunes a viernes de 8:00 a 20:00 hs
y s√°bados de 9:00 a 13:00 hs. Los env√≠os se realizan de lunes a viernes.

INSTALACI√ìN: Ofrecemos servicio de instalaci√≥n gratuita para productos mayores a $80.000.
Para productos menores, el costo de instalaci√≥n es de $3.500. La instalaci√≥n incluye
colocaci√≥n y prueba de funcionamiento.

RETIRO EN LOCAL: Los clientes pueden retirar sus compras en nuestro local de
Av. Corrientes 1234, CABA. El horario de retiro es de lunes a viernes de 9:00 a 18:00 hs.

ENV√çOS: Realizamos env√≠os a todo el pa√≠s. En Capital Federal y Gran Buenos Aires,
el env√≠o demora entre 24 y 48 horas h√°biles. Para el interior del pa√≠s, el tiempo
de entrega es de 3 a 7 d√≠as h√°biles. El env√≠o es gratuito para compras superiores
a $50.000. Para montos menores, se cobra un adicional de $2.500.

DEVOLUCIONES: El cliente tiene 10 d√≠as corridos desde la recepci√≥n del producto para
solicitar una devoluci√≥n si el art√≠culo no cumple con sus expectativas. El producto
debe estar sin usar, en su empaque original y con todos sus accesorios. El cliente
debe hacerse cargo del costo de env√≠o de devoluci√≥n. Una vez recibido y verificado
el producto, reintegramos el 100% del dinero en un plazo de 15 d√≠as h√°biles.
"""

print("üìù CONTEXTO AMPLIADO CARGADO:")
print("Probando con informaci√≥n nueva...")

preguntas_nuevas = [
    "¬øCu√°les son los horarios de atenci√≥n?",
    "¬øOfrecen servicio de instalaci√≥n?",
    "¬øAceptan tarjetas de cr√©dito?",
    "¬øPuedo retirar el producto en el local?",
    "¬øQu√© m√©todos de pago aceptan?",
    "¬øCu√°nto tarda el env√≠o a Gran Buenos Aires?",
    "¬øCu√°nto dura la garant√≠a?",
    "¬øPuedo devolver un producto despu√©s de 2 semanas?",
    "¬øQue pasa si le roban al repartidor?",
    "¬øPuedo viajar a otro pais de vacaciones?",
    "¬øQue pasa si me deja mi pareja?"
]

# Procesamos cada pregunta
print("RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT")
print("="*60)

for pregunta in preguntas_nuevas:
    respuesta = qa_modelo(question=pregunta, context=mi_contexto_ampliado)
    print(f"\nPREGUNTA: {pregunta}")
    print(f"RESPUESTA: {respuesta['answer']}")
    print(f"Confianza: {respuesta['score']*100:.1f}%")
    print("-"*60)

üìù CONTEXTO AMPLIADO CARGADO:
Probando con informaci√≥n nueva...
RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT

PREGUNTA: ¬øCu√°les son los horarios de atenci√≥n?
RESPUESTA: 9:00 a 18:00 hs
Confianza: 13.6%
------------------------------------------------------------

PREGUNTA: ¬øOfrecen servicio de instalaci√≥n?
RESPUESTA: instalaci√≥n gratuita para productos mayores a $80.000
Confianza: 10.8%
------------------------------------------------------------

PREGUNTA: ¬øAceptan tarjetas de cr√©dito?
RESPUESTA: Aceptamos tarjetas de cr√©dito (hasta 12 cuotas)
Confianza: 11.3%
------------------------------------------------------------

PREGUNTA: ¬øPuedo retirar el producto en el local?
RESPUESTA: Av. Corrientes 1234, CABA
Confianza: 7.3%
------------------------------------------------------------

PREGUNTA: ¬øQu√© m√©todos de pago aceptan?
RESPUESTA: tarjetas de cr√©dito
Confianza: 7.2%
------------------------------------------------------------

PREGUNTA: ¬øCu√°nto tarda el env√≠o a Gran Bueno

El contenido fue correcto pero incompleto en algunas preguntas como que metodos de pago aceptan que es general y en el texto hay varios metodos detallados, ademas nos muestra una baja confianza (7-14%) no reflejando la precisi√≥n del contenido. El modelo extrae fragmentos exactos del contexto, como un copy paste y no responde bien a s√≠ntesis de informaci√≥n.
Hice dos preguntas fuera de contexto, cuando le pregunte si puedo viajar a otro pais, me dijo "para el interior del pais" pero devolviendolo con baja confianza. Y el siguiente caso lo hizo con confianza 0%.

---

## Ejercicio 4: Desaf√≠o Aut√≥nomo - An√°lisis de Rese√±as de Restaurantes

### Contexto del problema

Sos el encargado de marketing digital de una cadena de restaurantes porte√±a. Quer√©s implementar un sistema inteligente que procese autom√°ticamente las rese√±as que los clientes dejan en Google Maps y redes sociales para:

1. Identificar si la rese√±a es positiva, negativa o neutral
2. Extraer informaci√≥n clave: nombres de platos mencionados, ubicaciones de las sucursales, nombres de empleados destacados
3. Responder autom√°ticamente a preguntas frecuentes bas√°ndose en el men√∫ y pol√≠ticas del restaurante

### Aplicaci√≥n real

Este tipo de sistemas combinados se usan en:
- Gesti√≥n de reputaci√≥n online para cadenas de restaurantes
- An√°lisis de feedback de clientes en hoteler√≠a y turismo
- Sistemas de CRM (Customer Relationship Management) inteligentes
- Plataformas de delivery con an√°lisis de satisfacci√≥n del cliente

---

### Tu tarea

**Este ejercicio lo ten√©s que resolver completamente solo**, aplicando todo lo que aprendiste en los ejercicios anteriores. No hay c√≥digo de ejemplo, solo las instrucciones.

### Parte 1: An√°lisis de sentimiento de rese√±as (30%)

1. Cre√° una lista con al menos 5 rese√±as ficticias de clientes sobre un restaurante argentino (pod√©s inventarlas o buscar reales)
2. Carg√° un modelo de an√°lisis de sentimientos en espa√±ol (busc√° en Hugging Face)
3. Clasific√° cada rese√±a y mostr√° los resultados en un DataFrame
4. Identific√° cu√°ntas rese√±as son positivas, negativas y neutrales (si el modelo lo soporta)

**Pistas:**
- Us√° `pipeline("text-classification", model=...)`
- Record√° importar `pandas` para crear el DataFrame
- Modelos sugeridos: `finiteautomata/beto-sentiment-analysis` o `pysentimiento/robertuito-sentiment-analysis`

---

### Parte 2: Extracci√≥n de informaci√≥n (40%)

1. Tom√° 2 de las rese√±as que creaste (las m√°s largas y detalladas)
2. Carg√° un modelo de NER en espa√±ol
3. Extra√© todas las entidades nombradas de esas rese√±as
4. Organiz√° la informaci√≥n en categor√≠as (personas, lugares, organizaciones)
5. Bonus: ¬øSe mencionan nombres de platos? (Nota: el modelo podr√≠a no detectarlos como entidades, reflexion√° sobre por qu√©)

**Pistas:**
- Us√° `pipeline("ner", model=..., aggregation_strategy="simple")`
- Modelo sugerido: `mrm8488/bert-spanish-cased-finetuned-ner`
- Record√° iterar sobre los resultados para organizarlos por tipo

---

### Parte 3: Sistema de preguntas y respuestas (30%)

1. Escrib√≠ un texto con informaci√≥n del restaurante (men√∫, horarios, ubicaci√≥n, pol√≠ticas de reservas, precios promedio, etc.). M√≠nimo 4-5 oraciones.
2. Carg√° un modelo de Question Answering en espa√±ol
3. Formul√° al menos 4 preguntas que un cliente podr√≠a hacer
4. Gener√° respuestas autom√°ticas usando el modelo
5. Mostr√° cada pregunta con su respuesta y el nivel de confianza del modelo

**Pistas:**
- Us√° `pipeline("question-answering", model=...)`
- Modelo sugerido: `PlanTL-GOB-ES/roberta-base-bne-sqac`
- La funci√≥n necesita dos par√°metros: `question=` y `context=`

---

### Bonus (opcional): Integraci√≥n completa

Si terminaste las tres partes, intent√° crear una funci√≥n que:
1. Reciba una rese√±a de cliente como input
2. Analice el sentimiento
3. Extraiga entidades mencionadas
4. Genere un resumen estructurado

Por ejemplo:
```
RESE√ëA: "Fui ayer a la sucursal de Palermo y el mozo Juan me atendi√≥ b√°rbaro..."

AN√ÅLISIS:
- Sentimiento: POSITIVO (95% confianza)
- Empleado mencionado: Juan
- Sucursal: Palermo
- Recomendaci√≥n: Enviar agradecimiento personalizado
```

---

### Criterios de evaluaci√≥n

Evalu√° tu propio trabajo considerando:

1. **Funcionalidad (50%):** ¬øEl c√≥digo funciona sin errores? ¬øCompletaste las tres partes?
2. **Calidad de datos (20%):** ¬øLas rese√±as y preguntas son realistas? ¬øEl contexto tiene informaci√≥n √∫til?
3. **Presentaci√≥n (20%):** ¬øLos resultados se muestran de forma clara? ¬øUsaste DataFrames o print statements organizados?
4. **Reflexi√≥n cr√≠tica (10%):** ¬øAnalizaste la calidad de las predicciones? ¬øIdentificaste limitaciones?

---

### Espacio para tu soluci√≥n

Us√° las celdas siguientes para resolver el desaf√≠o. Pod√©s crear todas las celdas que necesites.


In [63]:
# Cargamos un modelo de an√°lisis de sentimientos espec√≠fico para espa√±ol
clasificador = pipeline(
    "text-classification",
    model="finiteautomata/beto-sentiment-analysis"
)

print("Modelo de sentimientos cargado correctamente.")


# Cre√° una lista con al menos 5 rese√±as ficticias
resenas = [
    "La parrilla del lugar es increoble, las carne en el punto justo y el servicio muy bueno tambien. Voy a traer a mis amigos a comer aca, a Juan le va a copar",
    "Ped√≠ una milanesa y lleg√≥ fr√≠a, el pure parecia de paquete. Mi esposa Gimena casi me hace dormir afuera por llevarla ahi",
    "El ambiente es lindo, agradable pero las porciones muy chiquitas para lo que se paga.",
    "La atenci√≥n del mozo Mario fue espectacular, todo lo que recomendo fue en 10. No se encuentra seguido atencion tan buena",
    "Todo estaba salado, el paro cardiaco me miro de cerca",
    "Aguante morirse de sed porque el mozo no venia nunca a molestarnos",
    "Mega divertido esperar afuera al rayo del sol por mas de dos horas"
]

print("Rese√±as a analizar:")
for i, resena in enumerate(resenas, 1):
    print(f"{i}. {resena}")

# Analizamos las rese√±as
resultados = clasificador(resenas)

# Creamos un DataFrame para visualizar mejor los resultados
df_resultados = pd.DataFrame({
    'Rese√±a': resenas,
    'Sentimiento': [r['label'] for r in resultados],
    'Confianza': [round(r['score'], 3) for r in resultados]
})

print("\nResultados del an√°lisis de sentimientos:")
print(df_resultados)

# Identificamos cu√°ntas rese√±as son positivas, negativas y neutrales
positivas = df_resultados[df_resultados['Sentimiento'] == 'POS']
negativas = df_resultados[df_resultados['Sentimiento'] == 'NEG']
neutrales = df_resultados[df_resultados['Sentimiento'] == 'NEU']

print(f"\nResumen: {len(positivas)} positivas, {len(negativas)} negativas, {len(neutrales)} neutrales")


Device set to use cuda:0


Modelo de sentimientos cargado correctamente.
Rese√±as a analizar:
1. La parrilla del lugar es increoble, las carne en el punto justo y el servicio muy bueno tambien. Voy a traer a mis amigos a comer aca, a Juan le va a copar
2. Ped√≠ una milanesa y lleg√≥ fr√≠a, el pure parecia de paquete. Mi esposa Gimena casi me hace dormir afuera por llevarla ahi
3. El ambiente es lindo, agradable pero las porciones muy chiquitas para lo que se paga.
4. La atenci√≥n del mozo Mario fue espectacular, todo lo que recomendo fue en 10. No se encuentra seguido atencion tan buena
5. Todo estaba salado, el paro cardiaco me miro de cerca
6. Aguante morirse de sed porque el mozo no venia nunca a molestarnos
7. Mega divertido esperar afuera al rayo del sol por mas de dos horas

Resultados del an√°lisis de sentimientos:
                                              Rese√±a Sentimiento  Confianza
0  La parrilla del lugar es increoble, las carne ...         POS      0.999
1  Ped√≠ una milanesa y lleg√≥ fr√≠a, el

In [73]:
# PARTE 2: EXTRACCI√ìN DE INFORMACI√ìN (NER)
# Escrib√≠ tu c√≥digo ac√°

extractor_ner = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    aggregation_strategy="simple"  # Agrupa tokens de la misma entidad
)

print("Modelo NER cargado correctamente.")

resenas_ner = [
    "La parrilla del lugar es increoble, las carne en el punto justo y el servicio muy bueno tambien. Voy a traer a mis amigos a comer aca, a Juan le va a copar",
    "Ped√≠ una milanesa y lleg√≥ fr√≠a, el pure parecia de paquete. Mi esposa Gimena casi me hace dormir afuera por llevarla ahi",
]

print("Rese√±as para an√°lisis NER:")
for i, resena in enumerate(resenas_ner, 1):
    print(f"{i}. {resena}")

# Procesamos el texto de las rese√±as
entidades = extractor_ner(resenas_ner[0] + " " + resenas_ner[1])

# Creamos un DataFrame para visualizar mejor
df_entidades = pd.DataFrame(entidades)

# Mostramos solo las columnas relevantes
print("\nEntidades detectadas:")
df_entidades[['entity_group', 'word', 'score']].round(3)


Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Modelo NER cargado correctamente.
Rese√±as para an√°lisis NER:
1. La parrilla del lugar es increoble, las carne en el punto justo y el servicio muy bueno tambien. Voy a traer a mis amigos a comer aca, a Juan le va a copar
2. Ped√≠ una milanesa y lleg√≥ fr√≠a, el pure parecia de paquete. Mi esposa Gimena casi me hace dormir afuera por llevarla ahi

Entidades detectadas:


Unnamed: 0,entity_group,word,score
0,PER,Juan,0.995
1,PER,Gimena,0.802


In [62]:
# PARTE 3: QUESTION ANSWERING - CORREGIDO
# Escrib√≠ tu c√≥digo ac√°

from transformers import pipeline

print("Cargando modelo de Question Answering...")

# Usamos el modelo que S√ç funciona para espa√±ol
try:
    qa_modelo = pipeline(
        "question-answering",
        model="mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es"
    )
    print("‚úÖ Modelo QA cargado correctamente")
except Exception as e:
    print(f"‚ùå Error con el modelo QA: {e}")
    print("üîÑ Cargando modelo alternativo...")
    qa_modelo = pipeline(
        "question-answering",
        model="dccuchile/bert-base-spanish-wwm-uncased"
    )
    print("‚úÖ Modelo QA alternativo cargado")

# Escrib√≠ un texto con informaci√≥n del restaurante
info_restaurante = """
El restaurante 'El Buen Sabor' est√° en Palermo, Buenos Aires.
Abre de martes a domingo de 12:00 a 16:00 y de 20:00 a 00:00 horas.
El men√∫ incluye parrilla, empanadas, pizzas y pastas.
Los precios son: entrada $12000, plato principal $15000, postre $8000.
Las reservas se hacen por tel√©fono al 11-1234-5678.
El estacionamiento es gratis para clientes.
"""

print("\nInformaci√≥n del restaurante:")
print(info_restaurante)

# Formul√° preguntas simples y directas
preguntas = [
    "¬øCu√°les son los horarios?",
    "¬øQu√© comida sirven?",
    "¬øCu√°nto cuesta un plato principal?",
    "¬øC√≥mo hago una reserva?",
    "¬øHay estacionamiento?"
]

# Gener√° respuestas autom√°ticas
print("\n" + "="*60)
print("RESPUESTAS AUTOM√ÅTICAS DEL SISTEMA")
print("="*60)

for pregunta in preguntas:
    try:
        respuesta = qa_modelo(question=pregunta, context=info_restaurante)
        print(f"\n‚ùì PREGUNTA: {pregunta}")
        print(f"‚úÖ RESPUESTA: {respuesta['answer']}")
        print(f"üìä CONFIANZA: {respuesta['score']*100:.1f}%")
        print("-" * 50)
    except Exception as e:
        print(f"\n‚ùì PREGUNTA: {pregunta}")
        print(f"‚ùå ERROR: {e}")
        print("-" * 50)

Cargando modelo de Question Answering...


Some weights of the model checkpoint at mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0


‚úÖ Modelo QA cargado correctamente

Informaci√≥n del restaurante:

El restaurante 'El Buen Sabor' est√° en Palermo, Buenos Aires.
Abre de martes a domingo de 12:00 a 16:00 y de 20:00 a 00:00 horas.
El men√∫ incluye parrilla, empanadas, pizzas y pastas.
Los precios son: entrada $12000, plato principal $15000, postre $8000.
Las reservas se hacen por tel√©fono al 11-1234-5678.
El estacionamiento es gratis para clientes.


RESPUESTAS AUTOM√ÅTICAS DEL SISTEMA

‚ùì PREGUNTA: ¬øCu√°les son los horarios?
‚úÖ RESPUESTA: 20:00 a 00:00 horas
üìä CONFIANZA: 6.0%
--------------------------------------------------

‚ùì PREGUNTA: ¬øQu√© comida sirven?
‚úÖ RESPUESTA: parrilla, empanadas, pizzas y pastas
üìä CONFIANZA: 51.9%
--------------------------------------------------

‚ùì PREGUNTA: ¬øCu√°nto cuesta un plato principal?
‚úÖ RESPUESTA: $12000
üìä CONFIANZA: 29.0%
--------------------------------------------------

‚ùì PREGUNTA: ¬øC√≥mo hago una reserva?
‚úÖ RESPUESTA: tel√©fono al 11-1234-5678

In [None]:
# BONUS (OPCIONAL): INTEGRACI√ìN COMPLETA
# Escrib√≠ tu c√≥digo ac√° si quer√©s hacer el bonus



### Reflexi√≥n personal

Despu√©s de completar el ejercicio, respond√© estas preguntas:

1. **¬øQu√© fue lo m√°s dif√≠cil del ejercicio?**
   - (Escrib√≠ tu respuesta ac√°)

2. **¬øEncontraste alguna limitaci√≥n en los modelos?**
   - (Escrib√≠ tu respuesta ac√°)

3. **¬øC√≥mo podr√≠as mejorar este sistema para un caso real?**
   - (Escrib√≠ tu respuesta ac√°)

4. **¬øQu√© otras aplicaciones se te ocurren para estas t√©cnicas en el contexto argentino?**
   - (Escrib√≠ tu respuesta ac√°)

---

---

## Reflexiones Finales del Curso

Completaste los cuatro ejercicios de NLP con Transformers, incluyendo un desaf√≠o aut√≥nomo. Vamos a reflexionar sobre lo aprendido:

### Ejercicio 1 - Moderaci√≥n de Comentarios
- **Aprendiste:** A clasificar texto usando modelos de an√°lisis de sentimientos
- **Aplicaci√≥n:** Moderaci√≥n autom√°tica de redes sociales, priorizaci√≥n de tickets de soporte
- **Limitaciones:** Los modelos pueden tener problemas con iron√≠a, sarcasmo o lenguaje muy coloquial

### Ejercicio 2 - Extracci√≥n de CVs
- **Aprendiste:** A extraer entidades nombradas (personas, organizaciones, lugares) de texto
- **Aplicaci√≥n:** Automatizaci√≥n de RRHH, an√°lisis de documentos, extracci√≥n de informaci√≥n estructurada
- **Limitaciones:** Algunos modelos pueden confundir entidades o no detectar nombres poco comunes

### Ejercicio 3 - Chatbot de Soporte
- **Aprendiste:** A usar Question Answering para responder preguntas basadas en un contexto
- **Aplicaci√≥n:** Chatbots, asistentes virtuales, sistemas de FAQ autom√°ticas
- **Limitaciones:** El modelo solo puede responder sobre informaci√≥n presente en el contexto

### Ejercicio 4 - Desaf√≠o Aut√≥nomo
- **Aprendiste:** A combinar m√∫ltiples t√©cnicas de NLP para resolver un problema real completo
- **Aplicaci√≥n:** Sistemas integrados de an√°lisis de feedback, gesti√≥n de reputaci√≥n online
- **Habilidad clave:** Autonom√≠a para investigar, implementar y evaluar soluciones de NLP

### Pr√≥ximos pasos sugeridos

1. **Explor√° m√°s modelos** en [Hugging Face Hub](https://huggingface.co/models)
2. **Combin√° t√©cnicas:** Por ejemplo, us√° clasificaci√≥n de sentimientos + QA para un chatbot m√°s inteligente
3. **Experiment√° con otros idiomas** o dialectos regionales
4. **Investig√° fine-tuning:** Aprend√© a ajustar modelos con tus propios datos
5. **Desarroll√° un proyecto propio:** Eleg√≠ un problema real que te interese y aplic√° estas t√©cnicas

---

## Glosario T√©cnico

### Conceptos fundamentales

**Transformer**  
Arquitectura de red neuronal basada en mecanismos de atenci√≥n que revolucion√≥ el NLP en 2017. Permite procesar secuencias de texto completas simult√°neamente en lugar de palabra por palabra.

**Pipeline**  
Interfaz de alto nivel en Hugging Face que encapsula todo el proceso de preprocesamiento, inferencia y postprocesamiento de un modelo. Facilita el uso de modelos preentrenados con pocas l√≠neas de c√≥digo.

**Modelo preentrenado**  
Modelo de machine learning que fue entrenado previamente con grandes cantidades de datos. Puede usarse directamente o ajustarse (fine-tuning) para tareas espec√≠ficas.

**Tokenizaci√≥n**  
Proceso de dividir texto en unidades m√°s peque√±as (tokens) que el modelo puede procesar. Puede ser a nivel de palabras, subpalabras o caracteres.

### Tareas de NLP

**Text Classification (Clasificaci√≥n de texto)**  
Tarea de asignar una o m√°s etiquetas a un texto. Incluye an√°lisis de sentimientos, detecci√≥n de spam, clasificaci√≥n de temas, etc.

**Sentiment Analysis (An√°lisis de sentimientos)**  
Subtipo de clasificaci√≥n que identifica la polaridad emocional de un texto (positivo, negativo, neutral). Se usa en redes sociales, rese√±as de productos, atenci√≥n al cliente.

**Named Entity Recognition - NER (Reconocimiento de entidades nombradas)**  
Tarea de identificar y clasificar nombres propios en texto: personas (PER), organizaciones (ORG), ubicaciones (LOC), fechas, cantidades monetarias, etc.

**Question Answering - QA (Respuesta a preguntas)**  
Tarea de responder preguntas en lenguaje natural bas√°ndose en un contexto dado. El modelo extrae la respuesta directamente del texto proporcionado.

**Text Generation (Generaci√≥n de texto)**  
Tarea de crear texto nuevo de manera coherente a partir de un prompt inicial. Incluye completado de texto, escritura creativa, chatbots conversacionales.

**Summarization (Resumen autom√°tico)**  
Tarea de condensar un texto largo en una versi√≥n m√°s corta manteniendo la informaci√≥n m√°s importante.

**Translation (Traducci√≥n autom√°tica)**  
Tarea de traducir texto de un idioma a otro usando modelos de secuencia a secuencia.

### Componentes t√©cnicos

**Embedding (Representaci√≥n vectorial)**  
Representaci√≥n num√©rica de palabras o tokens como vectores en un espacio multidimensional. Palabras con significados similares tienen embeddings cercanos.

**Attention (Atenci√≥n)**  
Mecanismo que permite al modelo enfocarse en diferentes partes del input al procesar cada elemento. Es el componente clave de la arquitectura Transformer.

**Fine-tuning (Ajuste fino)**  
Proceso de tomar un modelo preentrenado y entrenarlo adicionalmente con datos espec√≠ficos de tu dominio para mejorar su desempe√±o en tu tarea particular.

**Inference (Inferencia)**  
Proceso de usar un modelo ya entrenado para hacer predicciones sobre datos nuevos. No implica entrenamiento, solo aplicaci√≥n del modelo.

**Score / Confidence (Puntuaci√≥n / Confianza)**  
Valor num√©rico (generalmente entre 0 y 1) que indica qu√© tan seguro est√° el modelo de su predicci√≥n. Valores m√°s altos indican mayor confianza.

### Modelos mencionados

**BETO**  
Versi√≥n de BERT (Bidirectional Encoder Representations from Transformers) entrenada espec√≠ficamente con texto en espa√±ol. Usado en an√°lisis de sentimientos y otras tareas de clasificaci√≥n.

**RoBERTa**  
Variante optimizada de BERT con mejoras en el proceso de preentrenamiento. Usado para m√∫ltiples tareas de NLP en espa√±ol.

**BERT (Bidirectional Encoder Representations from Transformers)**  
Modelo Transformer que lee texto bidireccionalmente (izquierda a derecha y derecha a izquierda simult√°neamente) para comprender mejor el contexto.

**GPT (Generative Pre-trained Transformer)**  
Familia de modelos dise√±ados espec√≠ficamente para generaci√≥n de texto. Leen texto de izquierda a derecha y predicen la siguiente palabra.

### Plataformas y librer√≠as

**Hugging Face**  
Plataforma y empresa que desarrolla herramientas de NLP de c√≥digo abierto. Su librer√≠a Transformers es el est√°ndar de facto para trabajar con modelos de lenguaje.

**Hugging Face Hub**  
Repositorio online con miles de modelos preentrenados, datasets y demos interactivas. Permite compartir y descargar modelos f√°cilmente.

**PyTorch / TensorFlow**  
Frameworks de deep learning usados como backend por la librer√≠a Transformers. PyTorch es m√°s com√∫n en investigaci√≥n, TensorFlow en producci√≥n.

### M√©tricas y evaluaci√≥n

**Label (Etiqueta)**  
Categor√≠a asignada por el modelo a un texto. En an√°lisis de sentimientos: POS (positivo), NEG (negativo), NEU (neutral).

**Aggregation strategy (Estrategia de agregaci√≥n)**  
En NER, m√©todo para combinar tokens que pertenecen a la misma entidad. Por ejemplo, "Buenos" y "Aires" se agrupan en una sola entidad "Buenos Aires".

**Context (Contexto)**  
En QA, el documento o p√°rrafo que contiene la informaci√≥n necesaria para responder la pregunta. El modelo busca la respuesta dentro de este contexto.

---

## Recursos adicionales

- **Documentaci√≥n oficial de Transformers:** https://huggingface.co/docs/transformers
- **Modelos en espa√±ol:** https://huggingface.co/models?language=es
- **Curso gratuito de Hugging Face:** https://huggingface.co/course
- **Comunidad en espa√±ol:** https://huggingface.co/spaces

---

*Este cuaderno fue dise√±ado con fines educativos para estudiantes de NLP en Argentina.*