# Reconocimiento de Entidades Nombradas
## Ejercicio Pr√°ctico - Procesamiento de Lenguaje Natural

**Objetivos de Aprendizaje:**
1. Implementar NER usando modelos pre-entrenados en espa√±ol
2. Crear interfaces interactivas con Gradio
3. Comparar enfoques: Transformers vs API Gemini
4. Desarrollar prototipos r√°pidos para aplicaciones de PLN

---
**Entorno recomendado:** Google Colab o Amazon SageMaker Studio

**Tiempo estimado:** 60-90 minutos

## Instalaci√≥n de Dependencias

In [1]:
# Instalaci√≥n de librer√≠as necesarias
%%capture
!pip install -q transformers torch gradio google-genai

In [2]:
# Verificar instalaci√≥n
import sys
print(f"Python: {sys.version}")
print("Todas las dependencias instaladas correctamente")

Python: 3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
Todas las dependencias instaladas correctamente


## Configuraci√≥n de APIs

### Para Google Colab:
1. And√° a la barra lateral izquierda y hac√© clic en üîë (Secrets)
2. Agrega una nueva clave: `GOOGLE_API_KEY`
3. Pega tu API key de Google AI Studio

### Para SageMaker Studio:
1. Configura las variables de entorno en tu instancia
2. O usa el m√©todo de input manual m√°s abajo

In [17]:
import os
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de API Key para Gemini
try:
    # M√©todo 1: Google Colab Secrets
    from google.colab import userdata
    GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
    print("API Key cargada desde Google Colab Secrets")
except:
    # M√©todo 2: Variables de entorno (SageMaker)
    GOOGLE_API_KEY = os.environ.get('GOOGLE_API_KEY')
    if GOOGLE_API_KEY:
        print("API Key cargada desde variables de entorno")
    else:
        print("No se encontr√≥ GOOGLE_API_KEY")
        print("Podes continuar solo con la parte de Transformers")

API Key cargada desde Google Colab Secrets


---
# PARTE 1: NER con Transformers de Hugging Face

Utilizaremos un modelo especializado en espa√±ol que puede identificar:
- **PER**: Personas
- **LOC**: Lugares
- **ORG**: Organizaciones  
- **MISC**: Miscel√°neo

In [18]:
from transformers import pipeline
import torch

# Verificar disponibilidad de GPU
device = 0 if torch.cuda.is_available() else -1
print(f"üñ•Ô∏è  Dispositivo: {'GPU' if device == 0 else 'CPU'}")

# Cargar modelo de NER en espa√±ol
print("üì• Cargando modelo de NER para espa√±ol...")
MODEL_NAME = "mrm8488/bert-spanish-cased-finetuned-ner"

try:
    ner_pipeline = pipeline(
        "ner",
        model=MODEL_NAME,
        aggregation_strategy="simple",
        device=device
    )
    print(f"Modelo {MODEL_NAME} cargado exitosamente")
except Exception as e:
    print(f"‚ùå Error al cargar modelo: {e}")
    ner_pipeline = None

üñ•Ô∏è  Dispositivo: CPU
üì• Cargando modelo de NER para espa√±ol...


Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


Modelo mrm8488/bert-spanish-cased-finetuned-ner cargado exitosamente


In [19]:
# Texto de ejemplo con contexto argentino
texto_ejemplo = """
Hola, soy Mar√≠a Gonz√°lez y trabajo en la Universidad de Buenos Aires.
Vivo en el barrio de San Telmo y mi empresa favorita es MercadoLibre.
La semana pasada visit√© el Obelisco con mi amigo Carlos P√©rez,
quien trabaja en Google Argentina. Nos encontramos en la estaci√≥n
Constituci√≥n del subte y fuimos a comer un asado en La Boca.
"""

In [20]:
def analizar_entidades_transformers(texto):
    """Procesa texto y extrae entidades usando Transformers"""
    if not ner_pipeline:
        return []

    entidades = ner_pipeline(texto)

    # Formatear resultados
    resultados = []
    for ent in entidades:
        resultados.append({
            'texto': ent['word'],
            'etiqueta': ent['entity_group'],
            'confianza': round(ent['score'], 3),
            'posicion': (ent['start'], ent['end'])
        })

    return resultados

In [21]:
# Probar el modelo
print("üîç Analizando texto de ejemplo...")
print(f"üìù Texto: {texto_ejemplo.strip()}")
print("\nüìä Entidades encontradas:")

entidades_encontradas = analizar_entidades_transformers(texto_ejemplo)
for ent in entidades_encontradas:
    print(f"  ‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']} (confianza: {ent['confianza']})")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


üîç Analizando texto de ejemplo...
üìù Texto: Hola, soy Mar√≠a Gonz√°lez y trabajo en la Universidad de Buenos Aires.
Vivo en el barrio de San Telmo y mi empresa favorita es MercadoLibre.
La semana pasada visit√© el Obelisco con mi amigo Carlos P√©rez,
quien trabaja en Google Argentina. Nos encontramos en la estaci√≥n
Constituci√≥n del subte y fuimos a comer un asado en La Boca.

üìä Entidades encontradas:
  ‚Ä¢ Mar√≠a Gonz√°lez ‚Üí PER (confianza: 0.9990000128746033)
  ‚Ä¢ Universidad de Buenos Aires ‚Üí ORG (confianza: 0.9990000128746033)
  ‚Ä¢ San Telmo ‚Üí LOC (confianza: 0.9980000257492065)
  ‚Ä¢ MercadoLibre ‚Üí ORG (confianza: 0.996999979019165)
  ‚Ä¢ Obelisco ‚Üí LOC (confianza: 0.9959999918937683)
  ‚Ä¢ Carlos P√©rez ‚Üí PER (confianza: 1.0)
  ‚Ä¢ Google Argentina ‚Üí ORG (confianza: 0.9860000014305115)
  ‚Ä¢ Constituci√≥n ‚Üí LOC (confianza: 0.9950000047683716)
  ‚Ä¢ La Boca ‚Üí LOC (confianza: 1.0)


---
# PARTE 2: NER con API de Gemini

Utilizaremos la API de Gemini para un an√°lisis m√°s detallado y contextual.

In [22]:
# Configurar cliente Gemini
cliente_gemini = None

if GOOGLE_API_KEY:
    try:
        from google import genai
        cliente_gemini = genai.Client(api_key=GOOGLE_API_KEY)
        print("Cliente Gemini configurado correctamente")
    except Exception as e:
        print(f"Error al configurar Gemini: {e}")
else:
    print("API Key de Gemini no disponible")
    print("Podes obtener una gratis en: https://ai.google.dev/")

Cliente Gemini configurado correctamente


In [23]:
def analizar_entidades_gemini(texto):
    """Analiza entidades usando Gemini API"""
    if not cliente_gemini:
        return "‚ùå Cliente Gemini no disponible"

    prompt = f"""
    Extra√© todas las entidades nombradas del siguiente texto en espa√±ol argentino y clasific√°las:

    CATEGOR√çAS:
    - PERSONA: Nombres de personas
    - LUGAR: Ciudades, pa√≠ses, barrios, direcciones, lugares espec√≠ficos
    - ORGANIZACI√ìN: Empresas, universidades, instituciones
    - MISCEL√ÅNEO: Otros nombres propios (productos, eventos, marcas)

    FORMATO DE RESPUESTA:
    [ENTIDAD] ‚Üí [CATEGOR√çA] ‚Üí [BREVE EXPLICACI√ìN]

    TEXTO A ANALIZAR:
    {texto}
    """

    try:
        respuesta = cliente_gemini.models.generate_content(
            model="gemini-2.0-flash",
            contents=[prompt]
        )
        return respuesta.text
    except Exception as e:
        return f"‚ùå Error: {e}"

# Probar Gemini si est√° disponible
if cliente_gemini:
    print("üîç Analizando con Gemini...")
    resultado_gemini = analizar_entidades_gemini(texto_ejemplo)
    print("\nAn√°lisis de Gemini:")
    print(resultado_gemini)
else:
    print("‚è≠Ô∏è  Saltando an√°lisis con Gemini (API Key no disponible)")

üîç Analizando con Gemini...

An√°lisis de Gemini:
Aqu√≠ est√°n las entidades nombradas extra√≠das del texto, clasificadas y explicadas:

*   Mar√≠a Gonz√°lez ‚Üí PERSONA ‚Üí Nombre de la persona que habla.
*   Universidad de Buenos Aires ‚Üí ORGANIZACI√ìN ‚Üí Nombre de una universidad.
*   San Telmo ‚Üí LUGAR ‚Üí Nombre de un barrio.
*   MercadoLibre ‚Üí ORGANIZACI√ìN ‚Üí Nombre de una empresa.
*   Obelisco ‚Üí LUGAR ‚Üí Nombre de un monumento/lugar espec√≠fico.
*   Carlos P√©rez ‚Üí PERSONA ‚Üí Nombre del amigo.
*   Google Argentina ‚Üí ORGANIZACI√ìN ‚Üí Nombre de una empresa (filial argentina).
*   Constituci√≥n ‚Üí LUGAR ‚Üí Nombre de una estaci√≥n de subte (ferrocarril subterr√°neo).
*   La Boca ‚Üí LUGAR ‚Üí Nombre de un barrio.



---
# PARTE 3: Interfaces Interactivas con Gradio

Crearemos interfaces web interactivas para probar nuestros modelos.

In [24]:
import gradio as gr

def interfaz_ner_transformers(texto):
    """Interfaz para el modelo de Transformers"""
    if not texto.strip():
        return {"text": "Ingresa un texto para analizar", "entities": []}

    if not ner_pipeline:
        return {"text": "Modelo no disponible", "entities": []}

    # Procesar con Transformers
    entidades = ner_pipeline(texto)

    # Formatear para Gradio HighlightedText
    entidades_gradio = []
    for ent in entidades:
        entidades_gradio.append({
            "entity": ent["entity_group"],
            "word": ent["word"],
            "start": ent["start"],
            "end": ent["end"],
            "score": ent["score"]
        })

    return {"text": texto, "entities": entidades_gradio}

# Ejemplos para la interfaz
ejemplos_arg = [
    "Me llamo Juan P√©rez y trabajo en el Banco Naci√≥n en Buenos Aires.",
    "Cristina Kirchner fue presidenta de Argentina y vive en Santa Cruz.",
    "River Plate jugar√° contra Boca Juniors en el estadio Monumental.",
    "Lionel Messi naci√≥ en Rosario y jug√≥ en el Barcelona.",
    "La Universidad de La Plata es muy prestigiosa en Argentina."
]

# Crear interfaz
demo_transformers = gr.Interface(
    fn=interfaz_ner_transformers,
    inputs=[
        gr.Textbox(
            label="üìù Texto a analizar",
            placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
            lines=4
        )
    ],
    outputs=[
        gr.HighlightedText(
            label="üéØ Entidades Identificadas",
            show_legend=True
        )
    ],
    title="NER con Transformers - Espa√±ol (de argentina)",
    description="""
    **Modelo:** `mrm8488/bert-spanish-cased-finetuned-ner`

    Identifica entidades nombradas en textos en espa√±ol:
    - üßë **PER**: Personas
    - üåç **LOC**: Lugares
    - üè¢ **ORG**: Organizaciones
    - üì¶ **MISC**: Miscel√°neo
    """,
    examples=ejemplos_arg,
    allow_flagging="never",
    theme=gr.themes.Soft()
)

print("‚úÖ Interfaz de Transformers creada")

‚úÖ Interfaz de Transformers creada


In [25]:
# Interfaz para Gemini (solo si est√° disponible)
if cliente_gemini:
    def interfaz_ner_gemini(texto):
        """Interfaz para Gemini API"""
        if not texto.strip():
            return "Ingresa un texto para analizar"
        return analizar_entidades_gemini(texto)

    demo_gemini = gr.Interface(
        fn=interfaz_ner_gemini,
        inputs=[
            gr.Textbox(
                label="üìù Texto a analizar",
                placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
                lines=4
            )
        ],
        outputs=[
            gr.Textbox(
                label="üß† An√°lisis de Gemini",
                lines=10
            )
        ],
        title="NER con Gemini - An√°lisis Detallado",
        description="""
        **Modelo:** Google Gemini 2.0 Flash

        An√°lisis avanzado de entidades nombradas con explicaciones contextuales
        optimizado para espa√±ol argentino.
        """,
        examples=ejemplos_arg,
        allow_flagging="never",
        theme=gr.themes.Soft()
    )
    print("‚úÖ Interfaz de Gemini creada")
else:
    print("‚è≠Ô∏è  Interfaz de Gemini no creada (API Key no disponible)")

‚úÖ Interfaz de Gemini creada


In [26]:
# Interfaz comparativa (solo si ambos est√°n disponibles)
if ner_pipeline and cliente_gemini:
    def comparar_modelos(texto):
        """Compara resultados de ambos modelos"""
        if not texto.strip():
            return "Ingresa texto para comparar", "Ingresa texto para comparar"

        # Resultado Transformers
        entidades_tf = analizar_entidades_transformers(texto)
        resultado_tf = "TRANSFORMERS:\n\n"
        for ent in entidades_tf:
            resultado_tf += f"‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']} (confianza: {ent['confianza']})\n"

        # Resultado Gemini
        resultado_gemini = "GEMINI:\n\n" + analizar_entidades_gemini(texto)

        return resultado_tf, resultado_gemini

    demo_comparativo = gr.Interface(
        fn=comparar_modelos,
        inputs=[
            gr.Textbox(
                label="üìù Texto a comparar",
                placeholder="Ingresa texto para ver la comparaci√≥n...",
                lines=3
            )
        ],
        outputs=[
            gr.Textbox(label="Transformers", lines=8),
            gr.Textbox(label="Gemini", lines=8)
        ],
        title="‚öîÔ∏è Comparaci√≥n: Transformers vs Gemini",
        description="Compara los resultados de ambos enfoques lado a lado.",
        examples=[
            "Diego Maradona jug√≥ en Boca Juniors y en el Napoli de Italia.",
            "El gobierno argentino anunci√≥ medidas desde Casa Rosada."
        ],
        allow_flagging="never"
    )
    print("‚úÖ Interfaz comparativa creada")
else:
    print("‚è≠Ô∏è  Interfaz comparativa no creada (requiere ambos modelos)")

‚úÖ Interfaz comparativa creada


## üöÄ Lanzar Interfaces

Ejecuta las celdas siguientes para lanzar las interfaces interactivas:

In [27]:
# Lanzar interfaz de Transformers
if ner_pipeline:
    print("üöÄ Lanzando interfaz de Transformers...")
    demo_transformers.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: modelo de Transformers no disponible")

üöÄ Lanzando interfaz de Transformers...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://a2af462efeb862fc90.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


In [28]:
# Lanzar interfaz de Gemini
if cliente_gemini:
    print("üöÄ Lanzando interfaz de Gemini...")
    demo_gemini.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: API de Gemini no disponible")

üöÄ Lanzando interfaz de Gemini...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://bce8391c4ecfc9b0b0.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


In [29]:
# Lanzar interfaz comparativa
if ner_pipeline and cliente_gemini:
    print("üöÄ Lanzando interfaz comparativa...")
    demo_comparativo.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: requiere ambos modelos disponibles")

üöÄ Lanzando interfaz comparativa...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://8ed6bebcdbef5e1fc7.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


---
# üéì EJERCICIOS

## üìù Ejercicio 1: Personalizaci√≥n (B√ÅSICO)
1. Modifica los ejemplos para incluir m√°s contexto argentino espec√≠fico
2. Agrega 3 ejemplos nuevos con nombres de barrios porte√±os
3. Prob√° con texto de diferentes regiones de Argentina

## üîß Ejercicio 2: An√°lisis Comparativo (INTERMEDIO)
1. Crea una funci√≥n que cuente cu√°ntas entidades encuentra cada modelo
2. Implementa un sistema de m√©tricas de tiempo de procesamiento
3. Analiza en qu√© casos cada modelo funciona mejor

## üöÄ Ejercicio 3: Extensiones Avanzadas (AVANZADO)
1. Implementa procesamiento en lote de m√∫ltiples textos
2. Crea una funci√≥n de exportaci√≥n de resultados a CSV
3. Desarrolla un sistema de filtrado por tipo de entidad

## üí° Proyecto Integrador
Eleg√≠ una de estas aplicaciones y desarr√≥llala:
- **Analizador de noticias argentinas**: Extrae personas y lugares de art√≠culos
- **Procesador de CVs**: Identifica nombres, empresas y universidades
- **An√°lisis de redes sociales**: Detecta menciones de pol√≠ticos y lugares

## ü§î Preguntas de Reflexi√≥n
1. ¬øCu√°les son las ventajas y desventajas de cada enfoque?
2. ¬øEn qu√© casos usar√≠as un modelo local vs una API?
3. ¬øC√≥mo evaluar√≠as la precisi√≥n de los resultados?
4. ¬øQu√© consideraciones √©ticas debemos tener en cuenta?
5. ¬øC√≥mo escalar√≠as esta soluci√≥n para procesar miles de documentos?

In [34]:
import gradio as gr # Importa la librer√≠a Gradio.

def interfaz_ner_transformers(texto):
    """
    Funci√≥n de envoltorio para la interfaz de Gradio del modelo Transformers.
    Formatea la salida para ser compatible con gr.HighlightedText.
    """
    if not texto.strip(): # Verifica si el texto de entrada est√° vac√≠o.
        return {"text": "Ingresa un texto para analizar", "entities": []} # Retorna mensaje si est√° vac√≠o.

    if not ner_pipeline: # Verifica si el pipeline de Transformers est√° disponible.
        return {"text": "Modelo no disponible", "entities": []} # Retorna mensaje si no lo est√°.

    # Procesa el texto con el pipeline de Transformers.
    entidades = ner_pipeline(texto)

    # Formatea los resultados para el componente HighlightedText de Gradio.
    entidades_gradio = []
    for ent in entidades:
        entidades_gradio.append({
            "entity": ent["entity_group"], # La etiqueta de la entidad.
            "word": ent["word"],         # La palabra o frase de la entidad.
            "start": ent["start"],       # Posici√≥n de inicio en el texto.
            "end": ent["end"],           # Posici√≥n de fin en el texto.
            "score": ent["score"]        # Puntuaci√≥n de confianza.
        })

    return {"text": texto, "entities": entidades_gradio} # Retorna el texto original y las entidades formateadas.

# Ejemplos para la interfaz de Gradio, con contexto argentino.
ejemplos_arg = [
    "Me llamo Juan P√©rez y trabajo en el Banco Naci√≥n en Buenos Aires.",
    "Cristina Kirchner fue presidenta de Argentina y vive en Santa Cruz.",
    "River Plate jugar√° contra Boca Juniors en el estadio Monumental.",
    "Lionel Messi naci√≥ en Rosario y jug√≥ en el Barcelona.",
    "La Universidad de La Plata es muy prestigiosa en Argentina.",
    # --- Ejercicio 1: Ejemplos nuevos con barrios porte√±os ---
    "El barrio de Palermo es famoso por sus parques y vida nocturna.",
    "Recoleta tiene edificios hist√≥ricos y el Cementerio de la Recoleta.",
    "En Boedo se respira el tango y la tradici√≥n barrial."
]

# --- Interfaz para Transformers ---
demo_transformers = gr.Interface(
    fn=interfaz_ner_transformers, # La funci√≥n que procesa la entrada.
    inputs=[
        gr.Textbox(
            label="üìù Texto a analizar",
            placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
            lines=4
        )
    ],
    outputs=[
        gr.HighlightedText( # Componente de Gradio que resalta entidades en el texto.
            label="üéØ Entidades Identificadas",
            show_legend=True # Muestra la leyenda de las etiquetas.
        )
    ],
    title="NER con Transformers - Espa√±ol (de Argentina)", # T√≠tulo de la interfaz.
    description="""
    **Modelo:** `mrm8488/bert-spanish-cased-finetuned-ner`

    Identifica entidades nombradas en textos en espa√±ol:
    - üßë **PER**: Personas
    - üåç **LOC**: Lugares
    - üè¢ **ORG**: Organizaciones
    - üì¶ **MISC**: Miscel√°neo
    """,
    examples=ejemplos_arg, # Ejemplos predefinidos.
    allow_flagging="never", # Deshabilita la opci√≥n de "flagging".
    theme=gr.themes.Soft() # Aplica un tema visual.
)

print("‚úÖ Interfaz de Transformers creada")

# --- Interfaz para Gemini (solo si est√° disponible) ---
if cliente_gemini: # Solo se crea si la API Key de Gemini est√° configurada.
    def interfaz_ner_gemini(texto):
        """
        Funci√≥n de envoltorio para la interfaz de Gradio del modelo Gemini.
        """
        if not texto.strip():
            return "Ingresa un texto para analizar"
        return analizar_entidades_gemini(texto) # Llama a la funci√≥n de an√°lisis con Gemini.

    demo_gemini = gr.Interface(
        fn=interfaz_ner_gemini,
        inputs=[
            gr.Textbox(
                label="üìù Texto a analizar",
                placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
                lines=4
            )
        ],
        outputs=[
            gr.Textbox( # Gemini retorna un texto plano con las entidades.
                label="üß† An√°lisis de Gemini",
                lines=10
            )
        ],
        title="NER con Gemini - An√°lisis Detallado",
        description="""
        **Modelo:** Google Gemini 2.0 Flash

        An√°lisis avanzado de entidades nombradas con explicaciones contextuales
        optimizado para espa√±ol argentino.
        """,
        examples=ejemplos_arg,
        allow_flagging="never",
        theme=gr.themes.Soft()
    )
    print("‚úÖ Interfaz de Gemini creada")
else:
    print("‚è≠Ô∏è  Interfaz de Gemini no creada (API Key no disponible)")

# --- Interfaz comparativa (solo si ambos est√°n disponibles) ---
if ner_pipeline and cliente_gemini: # Solo se crea si ambos modelos est√°n cargados.
    def comparar_modelos(texto):
        """
        Funci√≥n para comparar los resultados de NER de ambos modelos lado a lado.
        """
        if not texto.strip():
            return "Ingresa texto para comparar", "Ingresa texto para comparar"

        # Formatea el resultado de Transformers para visualizaci√≥n de texto plano.
        entidades_tf = analizar_entidades_transformers(texto)
        resultado_tf = "TRANSFORMERS:\n\n"
        for ent in entidades_tf:
            resultado_tf += f"‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']} (confianza: {ent['confianza']})\n"

        # Obtiene el resultado de Gemini.
        resultado_gemini = "GEMINI:\n\n" + analizar_entidades_gemini(texto)

        return resultado_tf, resultado_gemini # Retorna ambos resultados.

    demo_comparativo = gr.Interface(
        fn=comparar_modelos,
        inputs=[
            gr.Textbox(
                label="üìù Texto a comparar",
                placeholder="Ingresa texto para ver la comparaci√≥n...",
                lines=3
            )
        ],
        outputs=[
            gr.Textbox(label="Transformers", lines=8),
            gr.Textbox(label="Gemini", lines=8)
        ],
        title="‚öîÔ∏è Comparaci√≥n: Transformers vs Gemini",
        description="Compara los resultados de ambos enfoques lado a lado.",
        examples=[
            "Diego Maradona jug√≥ en Boca Juniors y en el Napoli de Italia.",
            "El gobierno argentino anunci√≥ medidas desde Casa Rosada."
        ],
        allow_flagging="never"
    )
    print("‚úÖ Interfaz comparativa creada")
else:
    print("‚è≠Ô∏è  Interfaz comparativa no creada (requiere ambos modelos)")

‚úÖ Interfaz de Transformers creada
‚úÖ Interfaz de Gemini creada
‚úÖ Interfaz comparativa creada


In [35]:
# Lanzar interfaz comparativa
if ner_pipeline and cliente_gemini:
    print("üöÄ Lanzando interfaz comparativa...")
    demo_comparativo.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: requiere ambos modelos disponibles")

üöÄ Lanzando interfaz comparativa...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://9a317f13436259d99d.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


Ejercicio 2)

In [31]:
import time # Importar el m√≥dulo time para medir el tiempo de ejecuci√≥n.

print("\n--- EJERCICIO 2: An√°lisis Comparativo ---")

def contar_y_medir_entidades(texto):
    """
    Cuenta el n√∫mero de entidades y mide el tiempo de procesamiento para cada modelo.
    """
    resultados_comparativos = {}

    # --- Transformers ---
    start_time_tf = time.time() # Inicia el cron√≥metro para Transformers.
    entidades_tf = analizar_entidades_transformers(texto)
    end_time_tf = time.time() # Detiene el cron√≥metro.
    tiempo_tf = end_time_tf - start_time_tf
    num_entidades_tf = len(entidades_tf)

    resultados_comparativos['transformers'] = {
        'num_entidades': num_entidades_tf,
        'tiempo_ms': round(tiempo_tf * 1000, 2), # Convierte a milisegundos.
        'entidades': entidades_tf # Guarda las entidades para an√°lisis posterior.
    }

    # --- Gemini ---
    if cliente_gemini:
        start_time_gemini = time.time() # Inicia el cron√≥metro para Gemini.
        raw_gemini_output = analizar_entidades_gemini(texto)
        end_time_gemini = time.time() # Detiene el cron√≥metro.
        tiempo_gemini = end_time_gemini - start_time_gemini

        # Intentar contar entidades de Gemini (depende del formato de salida)
        # Esto es una aproximaci√≥n, asumiendo una entidad por l√≠nea.
        num_entidades_gemini = len([line for line in raw_gemini_output.split('\n') if '‚Üí' in line])

        resultados_comparativos['gemini'] = {
            'num_entidades': num_entidades_gemini,
            'tiempo_ms': round(tiempo_gemini * 1000, 2),
            'raw_output': raw_gemini_output # Guarda la salida cruda para an√°lisis.
        }
    else:
        resultados_comparativos['gemini'] = {
            'num_entidades': "N/A",
            'tiempo_ms': "N/A",
            'raw_output': "Cliente Gemini no disponible"
        }

    return resultados_comparativos

# --- Pruebas para el An√°lisis Comparativo ---
texto_prueba_1 = "El Dr. Facundo Manes visit√≥ la Facultad de Medicina de la UBA en Recoleta."
texto_prueba_2 = "La empresa Tech Solutions Inc. inaugur√≥ su nueva sede en el Polo Tecnol√≥gico de la Ciudad de C√≥rdoba."
texto_prueba_3 = "Lionel Messi gan√≥ su octavo Bal√≥n de Oro en 2023. Juega para Inter Miami."

print(f"\n--- Analizando: '{texto_prueba_1}' ---")
comp_1 = contar_y_medir_entidades(texto_prueba_1)
print(f"  Transformers: {comp_1['transformers']['num_entidades']} entidades en {comp_1['transformers']['tiempo_ms']} ms")
print(f"  Gemini: {comp_1['gemini']['num_entidades']} entidades en {comp_1['gemini']['tiempo_ms']} ms")
print(f"  Entidades Transformers: {[ent['texto'] for ent in comp_1['transformers']['entidades']]}")
print(f"  Salida Gemini: \n{comp_1['gemini']['raw_output']}")

print(f"\n--- Analizando: '{texto_prueba_2}' ---")
comp_2 = contar_y_medir_entidades(texto_prueba_2)
print(f"  Transformers: {comp_2['transformers']['num_entidades']} entidades en {comp_2['transformers']['tiempo_ms']} ms")
print(f"  Gemini: {comp_2['gemini']['num_entidades']} entidades en {comp_2['gemini']['tiempo_ms']} ms")
print(f"  Entidades Transformers: {[ent['texto'] for ent in comp_2['transformers']['entidades']]}")
print(f"  Salida Gemini: \n{comp_2['gemini']['raw_output']}")

print(f"\n--- Analizando: '{texto_prueba_3}' ---")
comp_3 = contar_y_medir_entidades(texto_prueba_3)
print(f"  Transformers: {comp_3['transformers']['num_entidades']} entidades en {comp_3['transformers']['tiempo_ms']} ms")
print(f"  Gemini: {comp_3['gemini']['num_entidades']} entidades en {comp_3['gemini']['tiempo_ms']} ms")
print(f"  Entidades Transformers: {[ent['texto'] for ent in comp_3['transformers']['entidades']]}")
print(f"  Salida Gemini: \n{comp_3['gemini']['raw_output']}")

print("\n--- An√°lisis de Rendimiento y Casos (Ejercicio 2) ---")
print("Observaciones de las pruebas:")
print("- **Rendimiento (Tiempo)**: Generalmente, el modelo local de Transformers (si usa GPU) es **m√°s r√°pido** que la llamada a la API de Gemini, que implica latencia de red. Para procesamiento en tiempo real o de alto volumen, Transformers es usualmente preferible.")
print("- **Cobertura y Precisi√≥n**: ")
print("  - **Transformers**: Excelente para las categor√≠as est√°ndar (PER, LOC, ORG). Puede ser muy preciso en entidades conocidas si fueron vistas en su entrenamiento.")
print("  - **Gemini**: Su fuerza radica en la **flexibilidad y contextualizaci√≥n**. Puede identificar entidades 'MISC' de forma m√°s robusta o incluso entidades que no encajan perfectamente en las categor√≠as predefinidas de un modelo NER tradicional. Adem√°s, su explicaci√≥n ('BREVE EXPLICACI√ìN') es un valor agregado.")
print("  - **Casos de mejora**: En textos con lenguaje coloquial, neologismos o entidades muy espec√≠ficas/nuevas que no est√©n en el dataset de entrenamiento del modelo de Transformers, Gemini (como LLM) podr√≠a tener una mejor capacidad de inferencia debido a su conocimiento general del mundo.")
print("  - **Inconsistencias**: Transformers puede a veces dividir entidades multi-palabra de forma incorrecta si `aggregation_strategy` no es perfecto o el modelo no fue entrenado para ese patr√≥n espec√≠fico. Gemini, al ser generativo, puede a veces 'inventar' una explicaci√≥n o clasificar de forma inesperada si el prompt no es lo suficientemente restrictivo o el contexto es ambiguo.")
print("-" * 50)


--- EJERCICIO 2: An√°lisis Comparativo ---

--- Analizando: 'El Dr. Facundo Manes visit√≥ la Facultad de Medicina de la UBA en Recoleta.' ---
  Transformers: 5 entidades en 270.66 ms
  Gemini: 4 entidades en 1107.98 ms
  Entidades Transformers: ['Dr', '. Facundo Manes', 'Facultad de Medicina', 'UBA', 'Recoleta']
  Salida Gemini: 
*   Dr. Facundo Manes ‚Üí PERSONA ‚Üí Nombre de una persona, precedido por un t√≠tulo (Dr.).
*   Facultad de Medicina ‚Üí ORGANIZACI√ìN ‚Üí Nombre de una facultad.
*   UBA ‚Üí ORGANIZACI√ìN ‚Üí Siglas de la Universidad de Buenos Aires.
*   Recoleta ‚Üí LUGAR ‚Üí Nombre de un barrio en Buenos Aires.


--- Analizando: 'La empresa Tech Solutions Inc. inaugur√≥ su nueva sede en el Polo Tecnol√≥gico de la Ciudad de C√≥rdoba.' ---
  Transformers: 2 entidades en 215.49 ms
  Gemini: 3 entidades en 644.09 ms
  Entidades Transformers: ['Tech Solutions Inc.', 'Polo Tecnol√≥gico de la Ciudad de C√≥rdoba']
  Salida Gemini: 
*   Tech Solutions Inc. ‚Üí ORGANIZACI√ìN ‚Üí No

Ejercicio 3

In [32]:
import pandas as pd # Importar pandas para exportar a CSV y manipulaci√≥n de datos.

print("\n--- EJERCICIO 3: Extensiones Avanzadas ---")

# --- 3.1 Procesamiento en Lote ---
def procesar_lote_transformers(lista_textos):
    """
    Procesa una lista de textos con el pipeline de Transformers.
    """
    if not ner_pipeline:
        return []

    print(f"Procesando {len(lista_textos)} textos con Transformers...")
    resultados_lote = []
    for i, texto in enumerate(lista_textos):
        entidades = analizar_entidades_transformers(texto)
        resultados_lote.append({'id_texto': i, 'texto_original': texto, 'entidades': entidades})
    return resultados_lote

def procesar_lote_gemini(lista_textos):
    """
    Procesa una lista de textos con Gemini.
    """
    if not cliente_gemini:
        return []

    print(f"Procesando {len(lista_textos)} textos con Gemini...")
    resultados_lote = []
    for i, texto in enumerate(lista_textos):
        respuesta_gemini = analizar_entidades_gemini(texto)
        resultados_lote.append({'id_texto': i, 'texto_original': texto, 'gemini_raw_output': respuesta_gemini})
    return resultados_lote

# Ejemplo de uso en lote
textos_para_lote = [
    "Juan trabaja en Aerol√≠neas Argentinas y vive en Caballito.",
    "El Museo Nacional de Bellas Artes est√° en Recoleta, Buenos Aires.",
    "La AFA organiz√≥ un torneo en el predio de Ezeiza.",
    "Mercedes Sosa fue una cantante folcl√≥rica de Tucum√°n."
]

print("\n--- Procesamiento en Lote (Transformers) ---")
lote_transformers = procesar_lote_transformers(textos_para_lote)
for res in lote_transformers:
    print(f"Texto ID {res['id_texto']}: {len(res['entidades'])} entidades")
    # print(res['entidades']) # Descomentar para ver todas las entidades

if cliente_gemini:
    print("\n--- Procesamiento en Lote (Gemini) ---")
    lote_gemini = procesar_lote_gemini(textos_para_lote)
    for res in lote_gemini:
        print(f"Texto ID {res['id_texto']}: \n{res['gemini_raw_output']}\n---")

# --- 3.2 Funci√≥n de Exportaci√≥n a CSV ---
def exportar_a_csv_transformers(resultados_lote_transformers, nombre_archivo="entidades_transformers.csv"):
    """
    Exporta los resultados de NER de Transformers a un archivo CSV.
    Cada fila representa una entidad.
    """
    registros = []
    for res_texto in resultados_lote_transformers:
        for ent in res_texto['entidades']:
            registros.append({
                'id_texto': res_texto['id_texto'],
                'texto_original': res_texto['texto_original'],
                'entidad_texto': ent['texto'],
                'etiqueta': ent['etiqueta'],
                'confianza': ent['confianza'],
                'posicion_inicio': ent['posicion'][0],
                'posicion_fin': ent['posicion'][1]
            })

    df = pd.DataFrame(registros)
    df.to_csv(nombre_archivo, index=False)
    print(f"Resultados de Transformers exportados a '{nombre_archivo}'")

def exportar_a_csv_gemini(resultados_lote_gemini, nombre_archivo="entidades_gemini.csv"):
    """
    Exporta los resultados crudos de Gemini a un archivo CSV.
    Cada fila es la salida completa de Gemini para un texto.
    """
    registros = []
    for res_texto in resultados_lote_gemini:
        registros.append({
            'id_texto': res_texto['id_texto'],
            'texto_original': res_texto['texto_original'],
            'gemini_raw_output': res_texto['gemini_raw_output']
        })
    df = pd.DataFrame(registros)
    df.to_csv(nombre_archivo, index=False)
    print(f"Resultados de Gemini (salida raw) exportados a '{nombre_archivo}'")

print("\n--- Exportando resultados a CSV ---")
exportar_a_csv_transformers(lote_transformers)
if cliente_gemini:
    exportar_a_csv_gemini(lote_gemini)

# --- 3.3 Sistema de Filtrado por Tipo de Entidad ---
def filtrar_entidades_transformers(entidades, tipo_entidad=None):
    """
    Filtra una lista de entidades de Transformers por tipo de entidad.
    """
    if tipo_entidad is None:
        return entidades # Si no se especifica tipo, retorna todas.

    entidades_filtradas = [ent for ent in entidades if ent['etiqueta'].lower() == tipo_entidad.lower()]
    return entidades_filtradas

# Ejemplo de uso del filtro
texto_filtrar = "El presidente se reuni√≥ con la Dra. L√≥pez en la Casa de Gobierno de Salta."
entidades_texto_filtrar = analizar_entidades_transformers(texto_filtrar)

print(f"\n--- Entidades de '{texto_filtrar}' ---")
for ent in entidades_texto_filtrar:
    print(f"  ‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']}")

print("\n--- Entidades filtradas (solo PERSONA) ---")
personas = filtrar_entidades_transformers(entidades_texto_filtrar, tipo_entidad='PER')
for p in personas:
    print(f"  ‚Ä¢ {p['texto']}")

print("\n--- Entidades filtradas (solo LUGAR) ---")
lugares = filtrar_entidades_transformers(entidades_texto_filtrar, tipo_entidad='LOC')
for l in lugares:
    print(f"  ‚Ä¢ {l['texto']}")
print("-" * 50)


--- EJERCICIO 3: Extensiones Avanzadas ---

--- Procesamiento en Lote (Transformers) ---
Procesando 4 textos con Transformers...
Texto ID 0: 3 entidades
Texto ID 1: 3 entidades
Texto ID 2: 3 entidades
Texto ID 3: 2 entidades

--- Procesamiento en Lote (Gemini) ---
Procesando 4 textos con Gemini...
Texto ID 0: 
Aqu√≠ est√° la extracci√≥n de entidades nombradas del texto proporcionado, clasificadas seg√∫n las categor√≠as indicadas:

*   **Juan** ‚Üí PERSONA ‚Üí Nombre de una persona.
*   **Aerol√≠neas Argentinas** ‚Üí ORGANIZACI√ìN ‚Üí Nombre de una empresa de transporte a√©reo.
*   **Caballito** ‚Üí LUGAR ‚Üí Nombre de un barrio de la Ciudad de Buenos Aires.

---
Texto ID 1: 
Aqu√≠ est√° la extracci√≥n y clasificaci√≥n de las entidades nombradas del texto proporcionado:

*   Museo Nacional de Bellas Artes ‚Üí ORGANIZACI√ìN ‚Üí Nombre de un museo.
*   Recoleta ‚Üí LUGAR ‚Üí Nombre de un barrio en Buenos Aires.
*   Buenos Aires ‚Üí LUGAR ‚Üí Nombre de una ciudad.

---
Texto ID 2: 
*   AF

In [30]:
# üìù ESPACIO PARA TUS EJERCICIOS
# Usa esta celda para experimentar y desarrollar tus soluciones

# Ejemplo: Funci√≥n para contar entidades por tipo
def contar_entidades_por_tipo(texto):
    """Cuenta entidades por categor√≠a usando Transformers"""
    if not ner_pipeline:
        return {}

    entidades = ner_pipeline(texto)
    conteo = {}

    for ent in entidades:
        tipo = ent['entity_group']
        if tipo in conteo:
            conteo[tipo] += 1
        else:
            conteo[tipo] = 1

    return conteo

# Probar la funci√≥n
texto_prueba = "Juan P√©rez trabaja en Google Argentina en Buenos Aires con Mar√≠a L√≥pez."
print("üìä Conteo de entidades:")
print(contar_entidades_por_tipo(texto_prueba))

# TODO: Agrega aqu√≠ tus propias funciones y experimentos

üìä Conteo de entidades:
{'PER': 2, 'ORG': 1, 'LOC': 1}


---
# üéØ Conclusi√≥n

¬°Felicitaciones! Completaste el ejercicio de Reconocimiento de Entidades Nombradas.

## üìö Lo que aprendiste:
- ‚úÖ Implementar NER con modelos pre-entrenados
- ‚úÖ Usar APIs de IA generativa para tareas de PLN
- ‚úÖ Crear interfaces interactivas con Gradio
- ‚úÖ Comparar diferentes enfoques de NER

## üîÑ Pr√≥ximos pasos:
1. Experiment√° con otros modelos de Hugging Face
2. Prob√° con textos de diferentes dominios
3. Implementa tu proyecto integrador
4. Compart√≠ tus resultados con la clase

## üìñ Recursos adicionales:
- [Hugging Face Models](https://huggingface.co/models?pipeline_tag=token-classification&language=es)
- [Gradio Documentation](https://gradio.app/docs/)
- [Google AI Studio](https://ai.google.dev/)

---
**¬°√âxito en tu trabajo integrador!** üéìüöÄ