# Trabajo Pr√°ctico - Procesamiento del Lenguaje Natural con Transformers

**Alumno:** Carmen Rodr√≠guez

**Materia:** T√©cnicas del Procesamiento del Procesamiento del Habla  

**Fecha:** Octubre 2025


# Aplicaciones Pr√°cticas de NLP con Transformers

## Gu√≠a de Ejercicios Progresivos

---

## Introducci√≥n

En este cuaderno vas a trabajar con aplicaciones reales de Procesamiento de Lenguaje Natural (NLP) utilizando modelos Transformer preentrenados. Cada ejercicio representa un caso de uso concreto que se implementa en empresas y organizaciones de Argentina y el mundo.

Los ejercicios est√°n organizados de manera progresiva:

1. **Nivel B√°sico:** Moderaci√≥n autom√°tica de comentarios en redes sociales
2. **Nivel Intermedio:** Extracci√≥n de informaci√≥n de curr√≠culums (RRHH)
3. **Nivel Avanzado:** Chatbot de soporte t√©cnico con respuestas autom√°ticas
4. **Desaf√≠o Aut√≥nomo:** An√°lisis integral de rese√±as de restaurantes

### ¬øQu√© vas a aprender?

- A usar modelos preentrenados de Hugging Face para tareas reales
- A comprender c√≥mo funcionan los pipelines de NLP en la pr√°ctica
- A modificar y experimentar con c√≥digo para resolver problemas concretos
- A evaluar la calidad de las predicciones de los modelos
- A trabajar de manera aut√≥noma en un problema real completo

### Requisitos previos

- Conocimientos b√°sicos de Python
- Familiaridad con conceptos de Machine Learning
- Haber visto los cuadernos introductorios sobre clasificaci√≥n de sentimientos

---

## Instalaci√≥n de dependencias

Ejecut√° la siguiente celda para instalar las librer√≠as necesarias:

In [1]:
# Instalaci√≥n de librer√≠as (ejecutar solo una vez)
!pip install transformers torch pandas -q

---

## Ejercicio 1: Moderaci√≥n de Comentarios en Redes Sociales

### Contexto del problema

Imaginate que trabaj√°s en el equipo de redes sociales de una empresa argentina de delivery de comida. Recib√≠s cientos de comentarios diarios en Instagram y Facebook. Necesit√°s un sistema que identifique autom√°ticamente los comentarios negativos o cr√≠ticos para que el equipo de atenci√≥n al cliente pueda responderlos con prioridad.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Redes sociales de empresas (PedidosYa, Rappi, Mercado Libre)
- Plataformas de e-commerce
- Servicios de atenci√≥n al cliente automatizada

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de an√°lisis de sentimientos en espa√±ol
2. Analizar comentarios reales de clientes
3. Clasificarlos autom√°ticamente (positivo, negativo, neutral)
4. Identificar cu√°les requieren atenci√≥n urgente

---

### Paso 1: Importar librer√≠as y cargar el modelo

In [2]:
# Importamos el pipeline de Hugging Face permite cargar modelos preentrenados
from transformers import pipeline
# Importamos pandas para organizar los resultados en tablas
import pandas as pd

# Cargamos un modelo de an√°lisis de sentimientos en espa√±ol
# Este modelo fue entrenado por "Finite Automata" sobre datos de redes sociales en espa√±ol
# Devuelve una etiqueta (POS, NEG o NEU) y un nivel de confianza
clasificador = pipeline(
    "text-classification",
    model="finiteautomata/beto-sentiment-analysis"
)

print("Modelo cargado correctamente.")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/528 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


Modelo cargado correctamente.


üß™ ¬øQu√© hace este modelo?

Est√° basado en BETO (el BERT entrenado en espa√±ol).

Fue ajustado ("fine-tuned") para analizar comentarios reales de redes sociales.

Clasifica textos en tres clases:

POS: Positivo

NEG: Negativo

NEU: Neutral

### Paso 2: Definir comentarios de ejemplo

Ac√° tenemos comentarios t√≠picos que podr√≠a recibir una empresa de delivery:

Incluimos ejemplos positivos, negativos y neutrales para probar el modelo

In [4]:
comentarios = [
    "La comida lleg√≥ rapid√≠simo y estaba caliente. El repartidor re amable, excelente servicio!",
    "Tardaron DOS HORAS para traer una pizza fr√≠a. P√©simo, no pido m√°s ac√°.",
    "Todo bien, lleg√≥ en tiempo y forma. Nada para destacar.",
    "Me encanta este servicio, siempre cumplen. Los re banco!",
    "Se equivocaron con mi pedido OTRA VEZ. Ya es la tercera vez que pasa, un desastre total.",

    # Positivos (expl√≠citos)
    "Excelente atenci√≥n y lleg√≥ todo calentito üòã",
    "¬°Sos lo m√°s PedidosYa! Siempre me salvan ‚ù§Ô∏è",
    "De diez, el chico s√∫per respetuoso y lleg√≥ rapid√≠simo.",

    # Negativos (expl√≠citos)
    "Una verg√ºenza, ped√≠ a las 8 y lleg√≥ a las 10:30. Nunca m√°s.",
    "Ped√≠ empanadas y me trajeron sushi, no entiendo nada.",
    "¬°Un desastre! Encima no atienden el tel√©fono.",

    # Ambiguos o sarc√°sticos
    "Genial, como siempre me traen lo que NO ped√≠ üòí",
    "No tardaron tanto esta vez, solo 1 hora y media üëè",
    "Al menos lleg√≥... algo es algo.",

    # Neutrales o dif√≠ciles de clasificar
    "Lleg√≥ dentro del horario estimado.",
    "Comida normal. Nada wow, nada malo.",
    "No s√© si fue suerte o mejoraron el servicio.",

    # Jerga / lenguaje coloquial argentino
    "Zaf√≥, pero podr√≠an meterle m√°s onda al packaging.",
    "Est√° joya, me re ceb√≥ la atenci√≥n del chab√≥n.",
    "Pint√≥ pedir y la clavaron justo. Bien ah√≠.",

    # Emojis / escritura informal
    "üò°üò°üò° tardaron much√≠simo otra vez",
    "üòç la comida, 10/10 como siempre!!",
    "no s√©... ü§∑üèª‚Äç‚ôÄÔ∏è vino bien, pero no me mat√≥ tampoco"
]

### Paso 3: Analizar los comentarios

In [6]:
# Procesamos todos los comentarios
resultados = clasificador(comentarios)

# Creamos un DataFrame para visualizar mejor los resultados
df_resultados = pd.DataFrame({
    'Comentario': comentarios,
    'Sentimiento': [r['label'] for r in resultados],
    'Confianza': [round(r['score'], 3) for r in resultados]
})
df_resultados




Unnamed: 0,Comentario,Sentimiento,Confianza
0,La comida lleg√≥ rapid√≠simo y estaba caliente. ...,POS,0.998
1,Tardaron DOS HORAS para traer una pizza fr√≠a. ...,NEG,0.999
2,"Todo bien, lleg√≥ en tiempo y forma. Nada para ...",POS,0.997
3,"Me encanta este servicio, siempre cumplen. Los...",POS,0.999
4,Se equivocaron con mi pedido OTRA VEZ. Ya es l...,NEG,0.999
5,Excelente atenci√≥n y lleg√≥ todo calentito üòã,NEU,0.539
6,¬°Sos lo m√°s PedidosYa! Siempre me salvan ‚ù§Ô∏è,POS,0.999
7,"De diez, el chico s√∫per respetuoso y lleg√≥ rap...",POS,0.984
8,"Una verg√ºenza, ped√≠ a las 8 y lleg√≥ a las 10:3...",NEG,0.999
9,"Ped√≠ empanadas y me trajeron sushi, no entiend...",NEG,0.93


### Paso 4: Identificar comentarios que requieren atenci√≥n urgente

In [8]:

# Mostramos los resultados ordenados por tipo de sentimiento
df_resultados.sort_values(by='Sentimiento', ascending=False).reset_index(drop=True)


# Filtramos solo los comentarios negativos
comentarios_urgentes = df_resultados[df_resultados['Sentimiento'] == 'NEG']

print("COMENTARIOS QUE REQUIEREN ATENCI√ìN URGENTE:")
print("="*60)
for idx, fila in comentarios_urgentes.iterrows():
    print(f"\n[{idx+1}] {fila['Comentario']}")
    print(f"    Confianza: {fila['Confianza']*100:.1f}%")

COMENTARIOS QUE REQUIEREN ATENCI√ìN URGENTE:

[2] Tardaron DOS HORAS para traer una pizza fr√≠a. P√©simo, no pido m√°s ac√°.
    Confianza: 99.9%

[5] Se equivocaron con mi pedido OTRA VEZ. Ya es la tercera vez que pasa, un desastre total.
    Confianza: 99.9%

[9] Una verg√ºenza, ped√≠ a las 8 y lleg√≥ a las 10:30. Nunca m√°s.
    Confianza: 99.9%

[10] Ped√≠ empanadas y me trajeron sushi, no entiendo nada.
    Confianza: 93.0%

[11] ¬°Un desastre! Encima no atienden el tel√©fono.
    Confianza: 99.9%

[19] Est√° joya, me re ceb√≥ la atenci√≥n del chab√≥n.
    Confianza: 93.0%

[21] üò°üò°üò° tardaron much√≠simo otra vez
    Confianza: 99.9%


In [12]:
# Agregamos una columna que indique si el comentario necesita atenci√≥n
# Si el sentimiento es NEGATIVO => requiere atenci√≥n prioritaria
df_resultados['Atenci√≥n urgente'] = df_resultados['Sentimiento'].apply(lambda s: '‚úÖ' if s == 'NEG' else '')

#df_resultados

df_resultados.sort_values(by='Sentimiento', ascending=True).reset_index(drop=True)

Unnamed: 0,Comentario,Sentimiento,Confianza,Atenci√≥n urgente
0,Tardaron DOS HORAS para traer una pizza fr√≠a. ...,NEG,0.999,‚úÖ
1,üò°üò°üò° tardaron much√≠simo otra vez,NEG,0.999,‚úÖ
2,Se equivocaron con mi pedido OTRA VEZ. Ya es l...,NEG,0.999,‚úÖ
3,"Est√° joya, me re ceb√≥ la atenci√≥n del chab√≥n.",NEG,0.93,‚úÖ
4,"Una verg√ºenza, ped√≠ a las 8 y lleg√≥ a las 10:3...",NEG,0.999,‚úÖ
5,"Ped√≠ empanadas y me trajeron sushi, no entiend...",NEG,0.93,‚úÖ
6,¬°Un desastre! Encima no atienden el tel√©fono.,NEG,0.999,‚úÖ
7,"no s√©... ü§∑üèª‚Äç‚ôÄÔ∏è vino bien, pero no me mat√≥ tampoco",NEU,0.997,
8,Pint√≥ pedir y la clavaron justo. Bien ah√≠.,NEU,0.994,
9,Excelente atenci√≥n y lleg√≥ todo calentito üòã,NEU,0.539,


### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Agreg√° 3 comentarios nuevos** a la lista (pueden ser inventados o reales)
2. **Ejecut√° nuevamente** las celdas de an√°lisis
3. **Respond√©:**
   - ¬øEl modelo clasific√≥ correctamente tus comentarios?
   - ¬øHubo alg√∫n comentario que esperabas que clasifique diferente?
   - ¬øQu√© pasa si escrib√≠s un comentario con iron√≠a? (prob√° con algo como "Genial, 3 horas esperando, lo mejor!")

Escrib√≠ tus comentarios nuevos en la siguiente celda:

In [14]:
# TUS COMENTARIOS AC√Å
mis_comentarios = [
    "¬°Incre√≠ble atenci√≥n! Lleg√≥ justo a tiempo y estaba todo perfecto. ‚ú®",     # POSITIVO CLARO
    "Genial, 3 horas esperando, lo mejor que me pas√≥ hoy üôÉ",                  # SARCASMO / NEGATIVO
    "No fue tan malo como la otra vez, pero tampoco excelente.",              # NEUTRO / AMBIGUO
]



# Analizamos
mis_resultados = clasificador(mis_comentarios)

# Mostramos
df_mis_resultados = pd.DataFrame({
    'Comentario': mis_comentarios,
    'Sentimiento': [r['label'] for r in mis_resultados],
    'Confianza': [round(r['score'], 3) for r in mis_resultados]
})

df_mis_resultados


### Reflexi√≥n sobre el an√°lisis

#Prob√© con un comentario sarc√°stico ("Genial, 3 horas esperando, lo mejor que me pas√≥ hoy üôÉ") y el modelo lo clasific√≥ como POSITIVO con 99.6% de confianza.
#Esto indica que el modelo no detecta sarcasmo, lo cual es esperable, ya que los modelos preentrenados generalmente necesitan m√°s ejemplos expl√≠citos de iron√≠a para poder aprender este tipo de lenguaje.

#El resto de los comentarios fueron correctamente clasificados en funci√≥n de sus palabras clave.
#Podr√≠a mejorarse el desempe√±o con:
#- M√°s datos de entrenamiento con sarcasmo
#- An√°lisis de emojis o puntuaci√≥n
#- Modelos con mayor capacidad de comprensi√≥n contextual


Unnamed: 0,Comentario,Sentimiento,Confianza
0,¬°Incre√≠ble atenci√≥n! Lleg√≥ justo a tiempo y es...,POS,0.998
1,"Genial, 3 horas esperando, lo mejor que me pas...",POS,0.996
2,"No fue tan malo como la otra vez, pero tampoco...",POS,0.958


---

## Ejercicio 2: Extracci√≥n Autom√°tica de Informaci√≥n de CVs

### Contexto del problema

Trabaj√°s en el √°rea de Recursos Humanos de una consultora argentina. Recib√≠s decenas de CVs por d√≠a y necesit√°s extraer r√°pidamente informaci√≥n clave: nombres de candidatos, empresas donde trabajaron, universidades, ciudades, y tecnolog√≠as que manejan.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Plataformas de empleo (LinkedIn, Bumeran, Computrabajo)
- Sistemas de ATS (Applicant Tracking Systems)
- Automatizaci√≥n de procesos de RRHH

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de Reconocimiento de Entidades Nombradas (NER)
2. Procesar un fragmento de CV
3. Extraer autom√°ticamente: personas, organizaciones, ubicaciones
4. Organizar la informaci√≥n de manera estructurada

---

### Paso 1: Cargar el modelo de NER

In [15]:
# Importamos el pipeline de Hugging Face, en este caso no es necesaria porque lo hicimos con anterioridad
#from transformers import pipeline


# Cargamos un modelo de NER (Reconocimiento de Entidades Nombradas) espec√≠fico para espa√±ol
# Este modelo fue entrenado para reconocer personas, organizaciones y lugares (fine-tuneado para tareas en espa√±ol como CVs, noticias, etc.)

extractor_ner = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    aggregation_strategy="simple"  # Agrupa tokens de la misma entidad
)

print("Modelo NER cargado correctamente.")

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


Modelo NER cargado correctamente.


¬øQu√© es NER (Named Entity Recognition)?

Es una t√©cnica de NLP que permite identificar y clasificar autom√°ticamente entidades nombradas en texto, como:

PER: Personas

ORG: Organizaciones

LOC: Localizaciones (ciudades, pa√≠ses)

MISC: Otros (tecnolog√≠as, fechas, etc.)

### Paso 2: Definir un fragmento de CV

Este es un ejemplo t√≠pico de c√≥mo un candidato describe su experiencia:

In [16]:
cv_texto = """Mar√≠a Fern√°ndez es una desarrolladora full-stack con 5 a√±os de experiencia.
Estudi√≥ Ingenier√≠a en Sistemas en la Universidad de Buenos Aires (UBA) y se gradu√≥ en 2018.
Trabaj√≥ como desarrolladora backend en Mercado Libre durante 3 a√±os, donde lider√≥ la migraci√≥n
de sistemas legacy a microservicios. Posteriormente se uni√≥ a Globant como tech lead,
coordinando equipos distribuidos entre Buenos Aires y C√≥rdoba. Tiene experiencia en Python,
Java, Docker y Kubernetes. Actualmente reside en Palermo, Ciudad de Buenos Aires."""

print("CV a procesar:")
print(cv_texto)

CV a procesar:
Mar√≠a Fern√°ndez es una desarrolladora full-stack con 5 a√±os de experiencia.
Estudi√≥ Ingenier√≠a en Sistemas en la Universidad de Buenos Aires (UBA) y se gradu√≥ en 2018.
Trabaj√≥ como desarrolladora backend en Mercado Libre durante 3 a√±os, donde lider√≥ la migraci√≥n
de sistemas legacy a microservicios. Posteriormente se uni√≥ a Globant como tech lead,
coordinando equipos distribuidos entre Buenos Aires y C√≥rdoba. Tiene experiencia en Python,
Java, Docker y Kubernetes. Actualmente reside en Palermo, Ciudad de Buenos Aires.


### Paso 3: Extraer entidades del CV

In [17]:
# Procesamos el texto del CV
entidades = extractor_ner(cv_texto)

# Creamos un DataFrame para visualizar mejor
df_entidades = pd.DataFrame(entidades)

# Mostramos solo las columnas relevantes
df_entidades[['entity_group', 'word', 'score']].round(3)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,entity_group,word,score
0,PER,Mar√≠a Fern√°ndez,1.0
1,MISC,Ingenier√≠a en Sistemas,0.998
2,ORG,Universidad de Buenos Aires,0.998
3,ORG,UBA,0.983
4,MISC,Mercado Libre,0.789
5,ORG,Glo,1.0
6,ORG,##bant,0.821
7,LOC,Buenos Aires,1.0
8,LOC,C√≥rdoba,1.0
9,MISC,Py,0.999


### Paso 4: Organizar la informaci√≥n por categor√≠a

Ahora vamos a separar las entidades por tipo para que sea m√°s f√°cil revisarlas:

In [21]:
# Diccionario para organizar por tipo de entidad
info_extraida = {
    'PER': [],  # Personas
    'ORG': [],  # Organizaciones
    'LOC': []   # Ubicaciones
}

# Clasificamos cada entidad
for entidad in entidades:
    tipo = entidad['entity_group']
    palabra = entidad['word']
    if tipo in info_extraida:
        info_extraida[tipo].append(palabra)


# Mostramos la informaci√≥n de forma estructurada
print("üìÑ INFORMACI√ìN EXTRA√çDA DEL CV")
print("="*60)
print(f"\nüë§ CANDIDATO/A: {', '.join(info_extraida['PER'])}")
print(f"\nüè¢ EMPRESAS/INSTITUCIONES: {', '.join(info_extraida['ORG'])}")
print(f"\nüìç UBICACIONES: {', '.join(info_extraida['LOC'])}")
#me hace una divisi√≥n rara en Globant

üìÑ INFORMACI√ìN EXTRA√çDA DEL CV

üë§ CANDIDATO/A: Mar√≠a Fern√°ndez

üè¢ EMPRESAS/INSTITUCIONES: Universidad de Buenos Aires, UBA, Glo, ##bant

üìç UBICACIONES: Buenos Aires, C√≥rdoba, Palermo, Ciudad de Buenos Aires


### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Escrib√≠ un fragmento de CV ficticio** (o us√° el tuyo si quer√©s) con:
   - Nombre de la persona
   - Al menos 2 empresas o instituciones educativas
   - Al menos 2 ubicaciones (ciudades, barrios, pa√≠ses)

2. **Ejecut√° el an√°lisis** y verific√° qu√© entidades detect√≥ el modelo

3. **Respond√©:**
   - ¬øEl modelo identific√≥ correctamente todas las entidades?
   - ¬øHubo alguna entidad que no detect√≥? ¬øPor qu√© cre√©s que pas√≥?
   - ¬øDetect√≥ alguna entidad incorrectamente?

Escrib√≠ tu CV ficticio en la siguiente celda:

In [25]:
# TU CV FICTICIO AC√Å
mi_cv = """QA Engineer Carmen Rodr√≠guez con experiencia en desarrollo de casos de uso, ejecuci√≥n de casos de prueba y monitoreo de resultados. Habilidades en pruebas de frontend, base de datos, aplicaciones m√≥viles, servicios web y API en entornos √°giles.
Experiencia en planificaci√≥n de proyectos de diversas empresas como PDVSA, Accenture y NGL Nit√∫ en pa√≠ses como Venezuela, Argentina y 100$ remoto, coordinaci√≥n de tareas entre equipos multidisciplinarios y facilitaci√≥n de ceremonias Scrum. Destrezas en an√°lisis, resoluci√≥n de problemas, comunicaci√≥n y trabajo en equipo.
Experto en creaci√≥n y mantenimiento de documentos de prueba para garantizar la calidad del software. Mis puntos fuertes CliftonStrengths 34 son aprendiz, individualizado, realizado, positivo y sociable."""

# Procesamos
mis_entidades = extractor_ner(mi_cv)

# Mostramos
df_mis_entidades = pd.DataFrame(mis_entidades)
print("Entidades detectadas:")
print(df_mis_entidades[['entity_group', 'word', 'score']].round(3))

# Organizamos
mi_info = {'PER': [], 'ORG': [], 'LOC': []}
for e in mis_entidades:
    if e['entity_group'] in mi_info:
        mi_info[e['entity_group']].append(e['word'])

print("\n" + "="*60)
print(f"CANDIDATO/A: {', '.join(mi_info['PER'])}")
print(f"EMPRESAS/INSTITUCIONES: {', '.join(mi_info['ORG'])}")
print(f"UBICACIONES: {', '.join(mi_info['LOC'])}")

Entidades detectadas:
   entity_group                 word  score
0          MISC                   QA  0.863
1           ORG               Engine  0.549
2          MISC                 ##er  0.746
3           PER     Carmen Rodr√≠guez  0.947
4          MISC                   AP  0.998
5          MISC                  ##I  0.754
6           ORG                   PD  1.000
7           ORG                ##VSA  0.968
8           ORG                   Ac  1.000
9           ORG            ##centure  0.744
10          ORG                    N  1.000
11          ORG            ##GL Nit√∫  0.995
12          LOC            Venezuela  1.000
13          LOC            Argentina  1.000
14         MISC                Scrum  0.928
15         MISC  CliftonStrengths 34  0.928

CANDIDATO/A: Carmen Rodr√≠guez
EMPRESAS/INSTITUCIONES: Engine, PD, ##VSA, Ac, ##centure, N, ##GL Nit√∫
UBICACIONES: Venezuela, Argentina


---

## Ejercicio 3: Chatbot de Soporte T√©cnico Autom√°tico

### Contexto del problema

Trabaj√°s en una empresa que vende electrodom√©sticos online. Los clientes suelen hacer preguntas frecuentes sobre garant√≠as, env√≠os y devoluciones. Quer√©s automatizar las respuestas a estas consultas usando un sistema de Question Answering (QA) que pueda responder bas√°ndose en la informaci√≥n de tus pol√≠ticas.

### Aplicaci√≥n real

Este tipo de sistemas se usan en:
- Chatbots de atenci√≥n al cliente (WhatsApp, web)
- Sistemas de FAQ autom√°ticas
- Asistentes virtuales corporativos

### ¬øQu√© vamos a hacer?

1. Cargar un modelo de Question Answering en espa√±ol
2. Definir un contexto (pol√≠ticas de la empresa)
3. Hacer preguntas sobre ese contexto
4. Generar respuestas autom√°ticas

---

### Paso 1: Cargar los modelos necesarios

In [29]:
from transformers import pipeline

# Modelo multiling√ºe para QA (funciona en espa√±ol)
qa_modelo = pipeline(
    "question-answering",
    model="deepset/xlm-roberta-base-squad2"
)

print("‚úÖ Modelo de QA cargado correctamente.")


config.json:   0%|          | 0.00/605 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu


‚úÖ Modelo de QA cargado correctamente.


### Paso 2: Definir el contexto (pol√≠ticas de la empresa)

Este es el documento que el chatbot va a usar para responder preguntas:

In [30]:
politicas_empresa = """POL√çTICAS DE GARANT√çA Y DEVOLUCIONES - ELECTROHOGAR S.A.

GARANT√çA: Todos nuestros productos tienen garant√≠a oficial de 12 meses contra defectos
de f√°brica. La garant√≠a comienza a contar desde la fecha de recepci√≥n del producto.
Para hacer v√°lida la garant√≠a, el cliente debe presentar la factura de compra original
y el producto no debe tener da√±os f√≠sicos causados por mal uso.

ENV√çOS: Realizamos env√≠os a todo el pa√≠s. En Capital Federal y Gran Buenos Aires,
el env√≠o demora entre 24 y 48 horas h√°biles. Para el interior del pa√≠s, el tiempo
de entrega es de 3 a 7 d√≠as h√°biles. El env√≠o es gratuito para compras superiores
a $50.000. Para montos menores, se cobra un adicional de $2.500.

DEVOLUCIONES: El cliente tiene 10 d√≠as corridos desde la recepci√≥n del producto para
solicitar una devoluci√≥n si el art√≠culo no cumple con sus expectativas. El producto
debe estar sin usar, en su empaque original y con todos sus accesorios. El cliente
debe hacerse cargo del costo de env√≠o de devoluci√≥n. Una vez recibido y verificado
el producto, reintegramos el 100% del dinero en un plazo de 15 d√≠as h√°biles.
"""

print("Contexto cargado:")
print(politicas_empresa)

Contexto cargado:
POL√çTICAS DE GARANT√çA Y DEVOLUCIONES - ELECTROHOGAR S.A.

GARANT√çA: Todos nuestros productos tienen garant√≠a oficial de 12 meses contra defectos
de f√°brica. La garant√≠a comienza a contar desde la fecha de recepci√≥n del producto.
Para hacer v√°lida la garant√≠a, el cliente debe presentar la factura de compra original
y el producto no debe tener da√±os f√≠sicos causados por mal uso.

ENV√çOS: Realizamos env√≠os a todo el pa√≠s. En Capital Federal y Gran Buenos Aires,
el env√≠o demora entre 24 y 48 horas h√°biles. Para el interior del pa√≠s, el tiempo
de entrega es de 3 a 7 d√≠as h√°biles. El env√≠o es gratuito para compras superiores
a $50.000. Para montos menores, se cobra un adicional de $2.500.

DEVOLUCIONES: El cliente tiene 10 d√≠as corridos desde la recepci√≥n del producto para
solicitar una devoluci√≥n si el art√≠culo no cumple con sus expectativas. El producto
debe estar sin usar, en su empaque original y con todos sus accesorios. El cliente
debe hacerse 

### Paso 3: Hacer preguntas al sistema

In [47]:
# Definimos preguntas t√≠picas de clientes
preguntas = [
    "¬øCu√°nto dura la garant√≠a?",
    "¬øCu√°nto tarda el env√≠o a Capital Federal?",
    "¬øCu√°ntos d√≠as tengo para devolver un producto?",
    "¬øQu√© necesito para hacer v√°lida la garant√≠a?",
    "¬øEl env√≠o es gratis?",
    "¬øCu√°l es el plazo para hacer una devoluci√≥n?"

]

# Procesamos cada pregunta
print("RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT")
print("="*60)

for pregunta in preguntas:
    respuesta = qa_modelo(question=pregunta, context=politicas_empresa)
    print(f"\nPREGUNTA: {pregunta}")
    print(f"RESPUESTA: {respuesta['answer']}")
    print(f"Confianza: {respuesta['score']*100:.1f}%")
    print("-"*60)

RESPUESTAS AUTOM√ÅTICAS DEL CHATBOT

PREGUNTA: ¬øCu√°nto dura la garant√≠a?
RESPUESTA:  12 meses
Confianza: 42.0%
------------------------------------------------------------

PREGUNTA: ¬øCu√°nto tarda el env√≠o a Capital Federal?
RESPUESTA:  24 y 48 horas h√°biles.
Confianza: 48.3%
------------------------------------------------------------

PREGUNTA: ¬øCu√°ntos d√≠as tengo para devolver un producto?
RESPUESTA:  10 d√≠as
Confianza: 7.2%
------------------------------------------------------------

PREGUNTA: ¬øQu√© necesito para hacer v√°lida la garant√≠a?
RESPUESTA:  presentar la factura de compra original
Confianza: 19.4%
------------------------------------------------------------

PREGUNTA: ¬øEl env√≠o es gratis?
RESPUESTA:  para compras superiores
a $50.000.
Confianza: 21.4%
------------------------------------------------------------

PREGUNTA: ¬øCu√°l es el plazo para hacer una devoluci√≥n?
RESPUESTA:  10 d√≠as corridos
Confianza: 19.8%
-----------------------------------------

### Paso 4: Crear una funci√≥n interactiva de chatbot

Vamos a crear una funci√≥n que simule un chatbot completo:

In [59]:
def chatbot_soporte(pregunta, contexto=politicas_empresa):
    """
    Funci√≥n extendida con depuraci√≥n: muestra respuesta y confianza.
    """
    resultado = qa_modelo(question=pregunta, context=contexto)

    print("üìç Pregunta:", pregunta)
    print("üìå Respuesta:", resultado['answer'])
    print("ü§ñ Confianza:", round(resultado['score'], 3))

    # Retorno normal si quer√©s seguir us√°ndola como chatbot
    if resultado['score'] > 0.25:
        return f"üí¨ {resultado['answer']}"
    else:
        return "‚ö†Ô∏è No encontr√© una respuesta clara."


In [60]:
chatbot_soporte("¬øEn cu√°nto tiempo puedo devolver un producto si no me gusta?")


üìç Pregunta: ¬øEn cu√°nto tiempo puedo devolver un producto si no me gusta?
üìå Respuesta:  10 d√≠as corridos
ü§ñ Confianza: 0.283


'üí¨  10 d√≠as corridos'

### Actividad pr√°ctica

Ahora es tu turno. Realiz√° las siguientes tareas:

1. **Escrib√≠ 3 preguntas nuevas** que un cliente podr√≠a hacer sobre las pol√≠ticas
2. **Prob√° el chatbot** con esas preguntas
3. **Modific√° el contexto** (politicas_empresa) agregando informaci√≥n nueva, por ejemplo:
   - Formas de pago aceptadas
   - Horarios de atenci√≥n
   - Informaci√≥n sobre instalaci√≥n de productos
4. **Respond√©:**
   - ¬øLas respuestas fueron precisas?
   - ¬øHubo alguna pregunta que el modelo no pudo responder bien?
   - ¬øQu√© pasa si hac√©s una pregunta sobre algo que NO est√° en el contexto?

Us√° las siguientes celdas para experimentar:

In [66]:
# MODIFIC√Å EL CONTEXTO AC√Å (agreg√° informaci√≥n nueva)
mi_contexto_ampliado = """
Todos nuestros productos tienen una garant√≠a de 12 meses desde la fecha de compra.
Si el producto presenta fallas t√©cnicas dentro de ese per√≠odo, el cliente puede solicitar la reparaci√≥n sin costo adicional.

Los env√≠os se realizan a todo el pa√≠s en un plazo de 3 a 7 d√≠as h√°biles.
En caso de demoras, el cliente puede consultar el estado del env√≠o en nuestro sitio web usando su n√∫mero de pedido.

Para devolver un producto, el cliente tiene hasta 10 d√≠as corridos desde la recepci√≥n del pedido.
El producto debe estar en su empaque original y sin signos de uso.
La devoluci√≥n se realiza sin cargo si el producto lleg√≥ da√±ado o incorrecto.

Aceptamos pagos con tarjeta de cr√©dito, d√©bito, transferencia bancaria y billeteras virtuales como Mercado Pago.

Nuestro horario de atenci√≥n al cliente es de lunes a viernes, de 9 a 18 hs.

La instalaci√≥n de productos como aires acondicionados o cocinas est√° incluida en el precio si el cliente reside en Ciudad de Buenos Aires o Gran Buenos Aires.
"""

# Prob√° con una pregunta sobre la informaci√≥n nueva que agregaste
print(chatbot_soporte("¬øcua√©l es el horario de atenci√≥n?", contexto=mi_contexto_ampliado))
print(chatbot_soporte("¬øcua√©l es el plazo de env√≠os?", contexto=mi_contexto_ampliado))
print(chatbot_soporte("¬øAceptan tarjeta?", contexto=mi_contexto_ampliado))

üìç Pregunta: ¬øcua√©l es el horario de atenci√≥n?
üìå Respuesta:  lunes a viernes,
ü§ñ Confianza: 0.421
üí¨  lunes a viernes,
üìç Pregunta: ¬øcua√©l es el plazo de env√≠os?
üìå Respuesta:  3 a 7 d√≠as h√°biles.
ü§ñ Confianza: 0.595
üí¨  3 a 7 d√≠as h√°biles.
üìç Pregunta: ¬øAceptan tarjeta?
üìå Respuesta:  pagos con tarjeta de cr√©dito,
ü§ñ Confianza: 0.116
‚ö†Ô∏è No encontr√© una respuesta clara.


In [74]:
# TUS PREGUNTAS AC√Å
mis_preguntas = [
"¬øCu√°l es el tiempo de entrega?",
"¬øHacen instalaciones en C√≥rdoba?"
]

# Probamos el chatbot con tus preguntas
for pregunta in mis_preguntas:
    print("\n" + "="*60)
    print(chatbot_soporte(pregunta))


üìç Pregunta: ¬øCu√°l es el tiempo de entrega?
üìå Respuesta:  3 a 7 d√≠as h√°biles.
ü§ñ Confianza: 0.507
üí¨  3 a 7 d√≠as h√°biles.

üìç Pregunta: ¬øHacen instalaciones en C√≥rdoba?
üìå Respuesta:  Realizamos env√≠os a todo el pa√≠s.
ü§ñ Confianza: 0.0
‚ö†Ô∏è No encontr√© una respuesta clara.


In [75]:
# Probamos el chatbot con tus preguntas
for pregunta in mis_preguntas:
    print("\n" + "="*60)
    print(f"üí¨ Cliente pregunta: {pregunta}")
    print(chatbot_soporte(pregunta, contexto=politicas_empresa))



üí¨ Cliente pregunta: ¬øCu√°l es el tiempo de entrega?
üìç Pregunta: ¬øCu√°l es el tiempo de entrega?
üìå Respuesta:  3 a 7 d√≠as h√°biles.
ü§ñ Confianza: 0.507
üí¨  3 a 7 d√≠as h√°biles.

üí¨ Cliente pregunta: ¬øHacen instalaciones en C√≥rdoba?
üìç Pregunta: ¬øHacen instalaciones en C√≥rdoba?
üìå Respuesta:  Realizamos env√≠os a todo el pa√≠s.
ü§ñ Confianza: 0.0
‚ö†Ô∏è No encontr√© una respuesta clara.


---

## Ejercicio 4: Desaf√≠o Aut√≥nomo - An√°lisis de Rese√±as de Restaurantes

### Contexto del problema

Sos el encargado de marketing digital de una cadena de restaurantes porte√±a. Quer√©s implementar un sistema inteligente que procese autom√°ticamente las rese√±as que los clientes dejan en Google Maps y redes sociales para:

1. Identificar si la rese√±a es positiva, negativa o neutral
2. Extraer informaci√≥n clave: nombres de platos mencionados, ubicaciones de las sucursales, nombres de empleados destacados
3. Responder autom√°ticamente a preguntas frecuentes bas√°ndose en el men√∫ y pol√≠ticas del restaurante

### Aplicaci√≥n real

Este tipo de sistemas combinados se usan en:
- Gesti√≥n de reputaci√≥n online para cadenas de restaurantes
- An√°lisis de feedback de clientes en hoteler√≠a y turismo
- Sistemas de CRM (Customer Relationship Management) inteligentes
- Plataformas de delivery con an√°lisis de satisfacci√≥n del cliente

---

### Tu tarea

**Este ejercicio lo ten√©s que resolver completamente solo**, aplicando todo lo que aprendiste en los ejercicios anteriores. No hay c√≥digo de ejemplo, solo las instrucciones.

### Parte 1: An√°lisis de sentimiento de rese√±as (30%)

1. Cre√° una lista con al menos 5 rese√±as ficticias de clientes sobre un restaurante argentino (pod√©s inventarlas o buscar reales)
2. Carg√° un modelo de an√°lisis de sentimientos en espa√±ol (busc√° en Hugging Face)
3. Clasific√° cada rese√±a y mostr√° los resultados en un DataFrame
4. Identific√° cu√°ntas rese√±as son positivas, negativas y neutrales (si el modelo lo soporta)

**Pistas:**
- Us√° `pipeline("text-classification", model=...)`
- Record√° importar `pandas` para crear el DataFrame
- Modelos sugeridos: `finiteautomata/beto-sentiment-analysis` o `pysentimiento/robertuito-sentiment-analysis`

---

### Parte 2: Extracci√≥n de informaci√≥n (40%)

1. Tom√° 2 de las rese√±as que creaste (las m√°s largas y detalladas)
2. Carg√° un modelo de NER en espa√±ol
3. Extra√© todas las entidades nombradas de esas rese√±as
4. Organiz√° la informaci√≥n en categor√≠as (personas, lugares, organizaciones)
5. Bonus: ¬øSe mencionan nombres de platos? (Nota: el modelo podr√≠a no detectarlos como entidades, reflexion√° sobre por qu√©)

**Pistas:**
- Us√° `pipeline("ner", model=..., aggregation_strategy="simple")`
- Modelo sugerido: `mrm8488/bert-spanish-cased-finetuned-ner`
- Record√° iterar sobre los resultados para organizarlos por tipo

---

### Parte 3: Sistema de preguntas y respuestas (30%)

1. Escrib√≠ un texto con informaci√≥n del restaurante (men√∫, horarios, ubicaci√≥n, pol√≠ticas de reservas, precios promedio, etc.). M√≠nimo 4-5 oraciones.
2. Carg√° un modelo de Question Answering en espa√±ol
3. Formul√° al menos 4 preguntas que un cliente podr√≠a hacer
4. Gener√° respuestas autom√°ticas usando el modelo
5. Mostr√° cada pregunta con su respuesta y el nivel de confianza del modelo

**Pistas:**
- Us√° `pipeline("question-answering", model=...)`
- Modelo sugerido: `PlanTL-GOB-ES/roberta-base-bne-sqac`
- La funci√≥n necesita dos par√°metros: `question=` y `context=`

---

### Bonus (opcional): Integraci√≥n completa

Si terminaste las tres partes, intent√° crear una funci√≥n que:
1. Reciba una rese√±a de cliente como input
2. Analice el sentimiento
3. Extraiga entidades mencionadas
4. Genere un resumen estructurado

Por ejemplo:
```
RESE√ëA: "Fui ayer a la sucursal de Palermo y el mozo Juan me atendi√≥ b√°rbaro..."

AN√ÅLISIS:
- Sentimiento: POSITIVO (95% confianza)
- Empleado mencionado: Juan
- Sucursal: Palermo
- Recomendaci√≥n: Enviar agradecimiento personalizado
```

---

### Criterios de evaluaci√≥n

Evalu√° tu propio trabajo considerando:

1. **Funcionalidad (50%):** ¬øEl c√≥digo funciona sin errores? ¬øCompletaste las tres partes?
2. **Calidad de datos (20%):** ¬øLas rese√±as y preguntas son realistas? ¬øEl contexto tiene informaci√≥n √∫til?
3. **Presentaci√≥n (20%):** ¬øLos resultados se muestran de forma clara? ¬øUsaste DataFrames o print statements organizados?
4. **Reflexi√≥n cr√≠tica (10%):** ¬øAnalizaste la calidad de las predicciones? ¬øIdentificaste limitaciones?

---

### Espacio para tu soluci√≥n

Us√° las celdas siguientes para resolver el desaf√≠o. Pod√©s crear todas las celdas que necesites.


In [76]:
# PARTE 1: AN√ÅLISIS DE SENTIMIENTO

from transformers import pipeline
import pandas as pd

# Cargamos un modelo preentrenado para an√°lisis de sentimientos en espa√±ol
clasificador_sentimientos = pipeline(
    "text-classification",
    model="finiteautomata/beto-sentiment-analysis"
)

print("‚úÖ Modelo de an√°lisis de sentimientos cargado correctamente.")




Device set to use cpu


‚úÖ Modelo de an√°lisis de sentimientos cargado correctamente.


In [77]:
rese√±as = [
    "La milanesa napolitana estaba espectacular, y la atenci√≥n de Sof√≠a fue impecable. Volver√≠a mil veces.",
    "Muy caro para la calidad de comida que ofrecen. El bife lleg√≥ fr√≠o y tardaron 50 minutos.",
    "Normal. Nada sobresaliente. Ped√≠ una empanada y una coca, todo ok pero sin emoci√≥n.",
    "El mozo Juan nos hizo pasar una noche incre√≠ble. Probamos el ojo de bife y el flan casero: una delicia.",
    "El lugar es lindo, pero el servicio fue lento y nos trajeron mal el pedido. No s√© si volver√≠a."
]


In [78]:
# Clasificamos cada rese√±a
resultados = clasificador_sentimientos(rese√±as)

# Convertimos a DataFrame
df_resultados = pd.DataFrame({
    "Rese√±a": rese√±as,
    "Sentimiento": [r["label"] for r in resultados],
    "Confianza": [round(r["score"], 3) for r in resultados]
})

# Mostramos los resultados
print(df_resultados)

# Contamos cu√°ntas hay de cada tipo
conteo = df_resultados["Sentimiento"].value_counts()
print("\nConteo de sentimientos:")
print(conteo)


                                              Rese√±a Sentimiento  Confianza
0  La milanesa napolitana estaba espectacular, y ...         POS      0.998
1  Muy caro para la calidad de comida que ofrecen...         NEG      0.999
2  Normal. Nada sobresaliente. Ped√≠ una empanada ...         NEG      0.974
3  El mozo Juan nos hizo pasar una noche incre√≠bl...         POS      0.999
4  El lugar es lindo, pero el servicio fue lento ...         NEU      0.894

Conteo de sentimientos:
Sentimiento
POS    2
NEG    2
NEU    1
Name: count, dtype: int64


In [79]:
# PARTE 2: EXTRACCI√ìN DE INFORMACI√ìN (NER)

from transformers import pipeline
import pandas as pd

# Cargamos el modelo NER en espa√±ol
extractor_ner = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    aggregation_strategy="simple"
)

print("‚úÖ Modelo NER cargado correctamente.")



Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


‚úÖ Modelo NER cargado correctamente.


In [92]:
rese√±a_1 = "La milanesa napolitana estaba espectacular, y la atenci√≥n de Marilyn fue impecable. Volver√≠a mil veces a McDonald's ubicada en Lecher√≠a."
rese√±a_2 = "El mozo Juan nos hizo pasar una noche incre√≠ble. Probamos el ojo de bife y el flan casero en la sucursal de la Pnera Rosa en Recoleta."

# Juntamos en una lista
rese√±as_largas = [rese√±a_1, rese√±a_2]


In [93]:
# Procesamos cada rese√±a
for idx, texto in enumerate(rese√±as_largas, start=1):
    print(f"\nüîç Procesando Rese√±a {idx}:")
    entidades = extractor_ner(texto)

    # Organizar por tipo
    info_extraida = {'PER': [], 'ORG': [], 'LOC': []}

    for entidad in entidades:
        tipo = entidad["entity_group"]
        palabra = entidad["word"]
        if tipo in info_extraida:
            info_extraida[tipo].append(palabra)

    # Mostrar resultado
    print("="*50)
    print(f"üë§ Personas: {', '.join(info_extraida['PER']) or '‚Äî'}")
    print(f"üè¢ Organizaciones: {', '.join(info_extraida['ORG']) or '‚Äî'}")
    print(f"üìç Ubicaciones: {', '.join(info_extraida['LOC']) or '‚Äî'}")
    print("="*50)



üîç Procesando Rese√±a 1:
üë§ Personas: Marilyn
üè¢ Organizaciones: ##onald ' s
üìç Ubicaciones: Lecher√≠a

üîç Procesando Rese√±a 2:
üë§ Personas: Juan
üè¢ Organizaciones: Pnera Rosa
üìç Ubicaciones: Recoleta


In [94]:
# PARTE 3: QUESTION ANSWERING
qa_modelo = pipeline(
    "question-answering",
    model="deepset/xlm-roberta-base-squad2"
)

print("‚úÖ Modelo de QA cargado correctamente.")




Device set to use cpu


‚úÖ Modelo de QA cargado correctamente.


In [95]:
contexto_restaurante = """
Nuestro restaurante "La Parrilla Porte√±a" ofrece una experiencia aut√©ntica de comida argentina.
Estamos ubicados en Palermo, Buenos Aires, y abrimos todos los d√≠as de 12:00 a 23:00 hs.
No se requiere reserva previa, pero recomendamos hacerla los fines de semana.
Aceptamos pagos en efectivo, tarjetas de cr√©dito, d√©bito y Mercado Pago.
El men√∫ incluye carnes a la parrilla como bife de chorizo, vac√≠o y entra√±a,
as√≠ como empanadas, provoleta, papas fritas, ensaladas y flan con dulce de leche.
El precio promedio por persona es de $12.000. Ofrecemos men√∫ vegetariano y para cel√≠acos.
"""
print("üìù Contexto cargado.")


üìù Contexto cargado.


In [96]:
preguntas_clientes = [
    "¬øD√≥nde est√° ubicado el restaurante?",
    "¬øCu√°l es el horario de atenci√≥n?",
    "¬øTienen opciones para cel√≠acos?",
    "¬øCu√°nto cuesta comer por persona?",
    "¬øQu√© platos tienen en el men√∫?",
    "¬øPuedo pagar con Mercado Pago?"
]


In [97]:
for pregunta in preguntas_clientes:
    resultado = qa_modelo(question=pregunta, context=contexto_restaurante)
    confianza = round(resultado['score'], 3)

    print("\n" + "="*60)
    print(f"üìå Pregunta: {pregunta}")
    print(f"üß† Respuesta: {resultado['answer']}")
    print(f"‚úÖ Confianza: {confianza}")



üìå Pregunta: ¬øD√≥nde est√° ubicado el restaurante?
üß† Respuesta:  Palermo, Buenos Aires,
‚úÖ Confianza: 0.896

üìå Pregunta: ¬øCu√°l es el horario de atenci√≥n?
üß† Respuesta:  12:00 a 23:00 hs.
‚úÖ Confianza: 0.669

üìå Pregunta: ¬øTienen opciones para cel√≠acos?
üß† Respuesta:  Ofrecemos men√∫ vegetariano
‚úÖ Confianza: 0.254

üìå Pregunta: ¬øCu√°nto cuesta comer por persona?
üß† Respuesta:  $12.000.
‚úÖ Confianza: 0.87

üìå Pregunta: ¬øQu√© platos tienen en el men√∫?
üß† Respuesta:  bife de chorizo, vac√≠o y entra√±a,
‚úÖ Confianza: 0.053

üìå Pregunta: ¬øPuedo pagar con Mercado Pago?
üß† Respuesta: 
Aceptamos pagos en efectivo,
‚úÖ Confianza: 0.217


In [98]:
# BONUS (OPCIONAL): INTEGRACI√ìN COMPLETA
from transformers import pipeline

# An√°lisis de sentimiento
sentiment_model = pipeline(
    "text-classification",
    model="finiteautomata/beto-sentiment-analysis"
)

# Extracci√≥n de entidades
ner_model = pipeline(
    "ner",
    model="mrm8488/bert-spanish-cased-finetuned-ner",
    aggregation_strategy="simple"
)




Device set to use cpu
Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


In [99]:
def analizar_rese√±a_completa(rese√±a):
    # 1. An√°lisis de sentimiento
    resultado_sentimiento = sentiment_model(rese√±a)[0]
    sentimiento = resultado_sentimiento['label']
    confianza_sent = round(resultado_sentimiento['score'], 3)

    # 2. Extracci√≥n de entidades
    entidades = ner_model(rese√±a)
    entidades_extraidas = {'PER': [], 'LOC': [], 'ORG': []}

    for e in entidades:
        if e['entity_group'] in entidades_extraidas:
            entidades_extraidas[e['entity_group']].append(e['word'])

    # 3. Resumen estructurado
    print("="*60)
    print("üîç AN√ÅLISIS DE RESE√ëA")
    print(f"üìå Rese√±a original: {rese√±a}")
    print(f"üß† Sentimiento: {sentimiento} ({confianza_sent*100}%)")

    print(f"üë§ Empleados mencionados: {', '.join(entidades_extraidas['PER']) or 'Ninguno'}")
    print(f"üìç Sucursal o ubicaci√≥n: {', '.join(entidades_extraidas['LOC']) or 'No detectada'}")
    print(f"üè¢ Organizaci√≥n: {', '.join(entidades_extraidas['ORG']) or 'No detectada'}")

    # 4. Recomendaci√≥n simple
    if sentimiento == "POS":
        print("‚úÖ Recomendaci√≥n: Enviar agradecimiento personalizado.")
    elif sentimiento == "NEG":
        print("‚ö†Ô∏è Recomendaci√≥n: Escalar al equipo de atenci√≥n al cliente.")
    else:
        print("üü° Recomendaci√≥n: Monitorear, pero no requiere acci√≥n inmediata.")
    print("="*60)


In [100]:
rese√±a_test = "Fui a la sucursal de Recoleta y el mozo Pablo fue muy amable. Ped√≠ vac√≠o con papas y un flan que estaba riqu√≠simo."
analizar_rese√±a_completa(rese√±a_test)


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


üîç AN√ÅLISIS DE RESE√ëA
üìå Rese√±a original: Fui a la sucursal de Recoleta y el mozo Pablo fue muy amable. Ped√≠ vac√≠o con papas y un flan que estaba riqu√≠simo.
üß† Sentimiento: POS (99.8%)
üë§ Empleados mencionados: Pablo
üìç Sucursal o ubicaci√≥n: Recoleta
üè¢ Organizaci√≥n: No detectada
‚úÖ Recomendaci√≥n: Enviar agradecimiento personalizado.


AN√ÅLISIS DE ERRORES, DIFICULTADES Y AJUSTES HECHOS



Problemas con el Chatbot (QA)

S√≠ntoma: El modelo no encontraba respuestas claras aunque la informaci√≥n estuviera presente.

Motivo probable:

El modelo deepset/xlm-roberta-base-squad2 tiene un umbral por defecto que puede ser demasiado alto para ciertos textos.

Tambi√©n es sensible a c√≥mo est√° redactada la pregunta y c√≥mo se organiza el contexto.

‚úîÔ∏è Qu√© hice?:

Bajar el umbral de score de 0.5 a 0.3 o 0.25.

Reformular preguntas para alinearlas mejor al texto.

Ampliar el contexto agregando formas de pago, horarios, etc.

NER con platos o nombres propios espec√≠ficos

Los modelos preentrenados de NER no est√°n entrenados para detectar:

Platos de comida (milanesa napolitana, flan con dulce de leche)

Nombres inventados o informales (Panera Rosa)

‚úîÔ∏è Qu√© hice?

Segmentar las entidades por tipo (PER, ORG, LOC), y analic√© las limitaciones del modelo.

Sarcasmo o ambig√ºedad en an√°lisis de sentimiento

El modelo clasific√≥ un mensaje sarc√°stico como positivo.

Esto es esperado: los modelos no entienden sarcasmo a menos que sean espec√≠ficamente fine-tuneados para eso.


### Reflexi√≥n personal

Despu√©s de completar el ejercicio, respond√© estas preguntas:

1. **¬øQu√© fue lo m√°s dif√≠cil del ejercicio?**
Lograr que el chatbot comprendiera mis preguntas correctamente. Tuve que ajustar (bajar) el umbral de confianza, reformular preguntas, y modificar el contexto para lograr que el modelo diera respuestas acertadas.

2. **¬øEncontraste alguna limitaci√≥n en los modelos?**
S√≠. Algunos ejemplos:
-No detectan sarcasmo en an√°lisis de sentimientos.
-No reconocen nombres de platos o ubicaciones inventadas si no est√°n en sus datos de entrenamiento.
-En QA, si la redacci√≥n del contexto no es precisa o est√° en otro formato, no detectan la respuesta.

3. **¬øC√≥mo podr√≠as mejorar este sistema para un caso real?**
-Entrenando modelos con ejemplos del dominio espec√≠fico (fine-tuning).
-Agregando una capa de reglas o diccionarios personalizados.
-Usando embeddings y b√∫squeda sem√°ntica (retrieval) antes de aplicar QA.
-Incorporando modelos que manejen iron√≠a o lenguaje coloquial argentino.

4. **¬øQu√© otras aplicaciones se te ocurren para estas t√©cnicas en el contexto argentino?**
-Chatbots para atenci√≥n ciudadana (AFIP, ANSES, PAMI).
-Chatbots educativos para adolescentes, por ejemplo en el √°rea financiera
-Clasificaci√≥n de reclamos de usuarios en empresas de servicios p√∫blicos.
-Monitoreo de redes sociales para campa√±as pol√≠ticas.
-Automatizaci√≥n de an√°lisis de encuestas de satisfacci√≥n.

---

---

## Reflexiones Finales del Curso

Completaste los cuatro ejercicios de NLP con Transformers, incluyendo un desaf√≠o aut√≥nomo. Vamos a reflexionar sobre lo aprendido:

### Ejercicio 1 - Moderaci√≥n de Comentarios
- **Aprendiste:** A clasificar texto usando modelos de an√°lisis de sentimientos
- **Aplicaci√≥n:** Moderaci√≥n autom√°tica de redes sociales, priorizaci√≥n de tickets de soporte
- **Limitaciones:** Los modelos pueden tener problemas con iron√≠a, sarcasmo o lenguaje muy coloquial

### Ejercicio 2 - Extracci√≥n de CVs
- **Aprendiste:** A extraer entidades nombradas (personas, organizaciones, lugares) de texto
- **Aplicaci√≥n:** Automatizaci√≥n de RRHH, an√°lisis de documentos, extracci√≥n de informaci√≥n estructurada
- **Limitaciones:** Algunos modelos pueden confundir entidades o no detectar nombres poco comunes

### Ejercicio 3 - Chatbot de Soporte
- **Aprendiste:** A usar Question Answering para responder preguntas basadas en un contexto
- **Aplicaci√≥n:** Chatbots, asistentes virtuales, sistemas de FAQ autom√°ticas
- **Limitaciones:** El modelo solo puede responder sobre informaci√≥n presente en el contexto

### Ejercicio 4 - Desaf√≠o Aut√≥nomo
- **Aprendiste:** A combinar m√∫ltiples t√©cnicas de NLP para resolver un problema real completo
- **Aplicaci√≥n:** Sistemas integrados de an√°lisis de feedback, gesti√≥n de reputaci√≥n online
- **Habilidad clave:** Autonom√≠a para investigar, implementar y evaluar soluciones de NLP

### Pr√≥ximos pasos sugeridos

1. **Explor√° m√°s modelos** en [Hugging Face Hub](https://huggingface.co/models)
2. **Combin√° t√©cnicas:** Por ejemplo, us√° clasificaci√≥n de sentimientos + QA para un chatbot m√°s inteligente
3. **Experiment√° con otros idiomas** o dialectos regionales
4. **Investig√° fine-tuning:** Aprend√© a ajustar modelos con tus propios datos
5. **Desarroll√° un proyecto propio:** Eleg√≠ un problema real que te interese y aplic√° estas t√©cnicas

---

## Glosario T√©cnico

### Conceptos fundamentales

**Transformer**  
Arquitectura de red neuronal basada en mecanismos de atenci√≥n que revolucion√≥ el NLP en 2017. Permite procesar secuencias de texto completas simult√°neamente en lugar de palabra por palabra.

**Pipeline**  
Interfaz de alto nivel en Hugging Face que encapsula todo el proceso de preprocesamiento, inferencia y postprocesamiento de un modelo. Facilita el uso de modelos preentrenados con pocas l√≠neas de c√≥digo.

**Modelo preentrenado**  
Modelo de machine learning que fue entrenado previamente con grandes cantidades de datos. Puede usarse directamente o ajustarse (fine-tuning) para tareas espec√≠ficas.

**Tokenizaci√≥n**  
Proceso de dividir texto en unidades m√°s peque√±as (tokens) que el modelo puede procesar. Puede ser a nivel de palabras, subpalabras o caracteres.

### Tareas de NLP

**Text Classification (Clasificaci√≥n de texto)**  
Tarea de asignar una o m√°s etiquetas a un texto. Incluye an√°lisis de sentimientos, detecci√≥n de spam, clasificaci√≥n de temas, etc.

**Sentiment Analysis (An√°lisis de sentimientos)**  
Subtipo de clasificaci√≥n que identifica la polaridad emocional de un texto (positivo, negativo, neutral). Se usa en redes sociales, rese√±as de productos, atenci√≥n al cliente.

**Named Entity Recognition - NER (Reconocimiento de entidades nombradas)**  
Tarea de identificar y clasificar nombres propios en texto: personas (PER), organizaciones (ORG), ubicaciones (LOC), fechas, cantidades monetarias, etc.

**Question Answering - QA (Respuesta a preguntas)**  
Tarea de responder preguntas en lenguaje natural bas√°ndose en un contexto dado. El modelo extrae la respuesta directamente del texto proporcionado.

**Text Generation (Generaci√≥n de texto)**  
Tarea de crear texto nuevo de manera coherente a partir de un prompt inicial. Incluye completado de texto, escritura creativa, chatbots conversacionales.

**Summarization (Resumen autom√°tico)**  
Tarea de condensar un texto largo en una versi√≥n m√°s corta manteniendo la informaci√≥n m√°s importante.

**Translation (Traducci√≥n autom√°tica)**  
Tarea de traducir texto de un idioma a otro usando modelos de secuencia a secuencia.

### Componentes t√©cnicos

**Embedding (Representaci√≥n vectorial)**  
Representaci√≥n num√©rica de palabras o tokens como vectores en un espacio multidimensional. Palabras con significados similares tienen embeddings cercanos.

**Attention (Atenci√≥n)**  
Mecanismo que permite al modelo enfocarse en diferentes partes del input al procesar cada elemento. Es el componente clave de la arquitectura Transformer.

**Fine-tuning (Ajuste fino)**  
Proceso de tomar un modelo preentrenado y entrenarlo adicionalmente con datos espec√≠ficos de tu dominio para mejorar su desempe√±o en tu tarea particular.

**Inference (Inferencia)**  
Proceso de usar un modelo ya entrenado para hacer predicciones sobre datos nuevos. No implica entrenamiento, solo aplicaci√≥n del modelo.

**Score / Confidence (Puntuaci√≥n / Confianza)**  
Valor num√©rico (generalmente entre 0 y 1) que indica qu√© tan seguro est√° el modelo de su predicci√≥n. Valores m√°s altos indican mayor confianza.

### Modelos mencionados

**BETO**  
Versi√≥n de BERT (Bidirectional Encoder Representations from Transformers) entrenada espec√≠ficamente con texto en espa√±ol. Usado en an√°lisis de sentimientos y otras tareas de clasificaci√≥n.

**RoBERTa**  
Variante optimizada de BERT con mejoras en el proceso de preentrenamiento. Usado para m√∫ltiples tareas de NLP en espa√±ol.

**BERT (Bidirectional Encoder Representations from Transformers)**  
Modelo Transformer que lee texto bidireccionalmente (izquierda a derecha y derecha a izquierda simult√°neamente) para comprender mejor el contexto.

**GPT (Generative Pre-trained Transformer)**  
Familia de modelos dise√±ados espec√≠ficamente para generaci√≥n de texto. Leen texto de izquierda a derecha y predicen la siguiente palabra.

### Plataformas y librer√≠as

**Hugging Face**  
Plataforma y empresa que desarrolla herramientas de NLP de c√≥digo abierto. Su librer√≠a Transformers es el est√°ndar de facto para trabajar con modelos de lenguaje.

**Hugging Face Hub**  
Repositorio online con miles de modelos preentrenados, datasets y demos interactivas. Permite compartir y descargar modelos f√°cilmente.

**PyTorch / TensorFlow**  
Frameworks de deep learning usados como backend por la librer√≠a Transformers. PyTorch es m√°s com√∫n en investigaci√≥n, TensorFlow en producci√≥n.

### M√©tricas y evaluaci√≥n

**Label (Etiqueta)**  
Categor√≠a asignada por el modelo a un texto. En an√°lisis de sentimientos: POS (positivo), NEG (negativo), NEU (neutral).

**Aggregation strategy (Estrategia de agregaci√≥n)**  
En NER, m√©todo para combinar tokens que pertenecen a la misma entidad. Por ejemplo, "Buenos" y "Aires" se agrupan en una sola entidad "Buenos Aires".

**Context (Contexto)**  
En QA, el documento o p√°rrafo que contiene la informaci√≥n necesaria para responder la pregunta. El modelo busca la respuesta dentro de este contexto.

---

## Recursos adicionales

- **Documentaci√≥n oficial de Transformers:** https://huggingface.co/docs/transformers
- **Modelos en espa√±ol:** https://huggingface.co/models?language=es
- **Curso gratuito de Hugging Face:** https://huggingface.co/course
- **Comunidad en espa√±ol:** https://huggingface.co/spaces

---

*Este cuaderno fue dise√±ado con fines educativos para estudiantes de NLP en Argentina.*