# Reconocimiento de Entidades Nombradas
## Ejercicio Pr√°ctico - Procesamiento de Lenguaje Natural

**Objetivos de Aprendizaje:**
1. Implementar NER usando modelos pre-entrenados en espa√±ol
2. Crear interfaces interactivas con Gradio
3. Comparar enfoques: Transformers vs API Gemini
4. Desarrollar prototipos r√°pidos para aplicaciones de PLN

---
**Entorno recomendado:** Google Colab o Amazon SageMaker Studio

**Tiempo estimado:** 60-90 minutos

## Instalaci√≥n de Dependencias

In [1]:
# Instalaci√≥n de librer√≠as necesarias
%%capture
!pip install -q transformers torch gradio google-genai

In [2]:
# Verificar instalaci√≥n
import sys
print(f"Python: {sys.version}")
print("Todas las dependencias instaladas correctamente")

Python: 3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
Todas las dependencias instaladas correctamente


## Configuraci√≥n de APIs

### Para Google Colab:
1. And√° a la barra lateral izquierda y hac√© clic en üîë (Secrets)
2. Agrega una nueva clave: `GOOGLE_API_KEY`
3. Pega tu API key de Google AI Studio

### Para SageMaker Studio:
1. Configura las variables de entorno en tu instancia
2. O usa el m√©todo de input manual m√°s abajo

In [17]:
import os
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de API Key para Gemini
try:
    # M√©todo 1: Google Colab Secrets
    from google.colab import userdata
    GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
    print("API Key cargada desde Google Colab Secrets")
except:
    # M√©todo 2: Variables de entorno (SageMaker)
    GOOGLE_API_KEY = os.environ.get('GOOGLE_API_KEY')
    if GOOGLE_API_KEY:
        print("API Key cargada desde variables de entorno")
    else:
        print("No se encontr√≥ GOOGLE_API_KEY")
        print("Podes continuar solo con la parte de Transformers")

API Key cargada desde Google Colab Secrets


---
# PARTE 1: NER con Transformers de Hugging Face

Utilizaremos un modelo especializado en espa√±ol que puede identificar:
- **PER**: Personas
- **LOC**: Lugares
- **ORG**: Organizaciones  
- **MISC**: Miscel√°neo

In [None]:
from transformers import pipeline
import torch

# Verificar disponibilidad de GPU
device = 0 if torch.cuda.is_available() else -1
print(f"üñ•Ô∏è  Dispositivo: {'GPU' if device == 0 else 'CPU'}")

# Cargar modelo de NER en espa√±ol
print("üì• Cargando modelo de NER para espa√±ol...")
MODEL_NAME = "mrm8488/bert-spanish-cased-finetuned-ner"

try:
    ner_pipeline = pipeline(
        "ner",
        model=MODEL_NAME,
        aggregation_strategy="simple",
        device=device
    )
    print(f"Modelo {MODEL_NAME} cargado exitosamente")
except Exception as e:
    print(f"‚ùå Error al cargar modelo: {e}")
    ner_pipeline = None

In [5]:
# Texto de ejemplo con contexto argentino
texto_ejemplo = """
Hola, soy Mar√≠a Gonz√°lez y trabajo en la Universidad de Buenos Aires.
Vivo en el barrio de San Telmo y mi empresa favorita es MercadoLibre.
La semana pasada visit√© el Obelisco con mi amigo Carlos P√©rez,
quien trabaja en Google Argentina. Nos encontramos en la estaci√≥n
Constituci√≥n del subte y fuimos a comer un asado en La Boca.
"""

In [6]:
def analizar_entidades_transformers(texto):
    """Procesa texto y extrae entidades usando Transformers"""
    if not ner_pipeline:
        return []

    entidades = ner_pipeline(texto)

    # Formatear resultados
    resultados = []
    for ent in entidades:
        resultados.append({
            'texto': ent['word'],
            'etiqueta': ent['entity_group'],
            'confianza': round(ent['score'], 3),
            'posicion': (ent['start'], ent['end'])
        })

    return resultados

In [7]:
# Probar el modelo
print("üîç Analizando texto de ejemplo...")
print(f"üìù Texto: {texto_ejemplo.strip()}")
print("\nüìä Entidades encontradas:")

entidades_encontradas = analizar_entidades_transformers(texto_ejemplo)
for ent in entidades_encontradas:
    print(f"  ‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']} (confianza: {ent['confianza']})")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


üîç Analizando texto de ejemplo...
üìù Texto: Hola, soy Mar√≠a Gonz√°lez y trabajo en la Universidad de Buenos Aires.
Vivo en el barrio de San Telmo y mi empresa favorita es MercadoLibre.
La semana pasada visit√© el Obelisco con mi amigo Carlos P√©rez,
quien trabaja en Google Argentina. Nos encontramos en la estaci√≥n
Constituci√≥n del subte y fuimos a comer un asado en La Boca.

üìä Entidades encontradas:
  ‚Ä¢ Mar√≠a Gonz√°lez ‚Üí PER (confianza: 0.9990000128746033)
  ‚Ä¢ Universidad de Buenos Aires ‚Üí ORG (confianza: 0.9990000128746033)
  ‚Ä¢ San Telmo ‚Üí LOC (confianza: 0.9980000257492065)
  ‚Ä¢ MercadoLibre ‚Üí ORG (confianza: 0.996999979019165)
  ‚Ä¢ Obelisco ‚Üí LOC (confianza: 0.9959999918937683)
  ‚Ä¢ Carlos P√©rez ‚Üí PER (confianza: 1.0)
  ‚Ä¢ Google Argentina ‚Üí ORG (confianza: 0.9860000014305115)
  ‚Ä¢ Constituci√≥n ‚Üí LOC (confianza: 0.9950000047683716)
  ‚Ä¢ La Boca ‚Üí LOC (confianza: 1.0)


---
# PARTE 2: NER con API de Gemini

Utilizaremos la API de Gemini para un an√°lisis m√°s detallado y contextual.

In [24]:
# Configurar cliente Gemini
cliente_gemini = None

if GOOGLE_API_KEY:
    try:
        from google import genai
        cliente_gemini = genai.Client(api_key=GOOGLE_API_KEY)
        print("Cliente Gemini configurado correctamente")
    except Exception as e:
        print(f"Error al configurar Gemini: {e}")
else:
    print("API Key de Gemini no disponible")
    print("Podes obtener una gratis en: https://ai.google.dev/")

Cliente Gemini configurado correctamente


In [25]:
def analizar_entidades_gemini(texto):
    """Analiza entidades usando Gemini API"""
    if not cliente_gemini:
        return "‚ùå Cliente Gemini no disponible"

    prompt = f"""
    Extra√© todas las entidades nombradas del siguiente texto en espa√±ol argentino y clasific√°las:

    CATEGOR√çAS:
    - PERSONA: Nombres de personas
    - LUGAR: Ciudades, pa√≠ses, barrios, direcciones, lugares espec√≠ficos
    - ORGANIZACI√ìN: Empresas, universidades, instituciones
    - MISCEL√ÅNEO: Otros nombres propios (productos, eventos, marcas)

    FORMATO DE RESPUESTA:
    [ENTIDAD] ‚Üí [CATEGOR√çA] ‚Üí [BREVE EXPLICACI√ìN]

    TEXTO A ANALIZAR:
    {texto}
    """

    try:
        respuesta = cliente_gemini.models.generate_content(
            model="gemini-2.0-flash",
            contents=[prompt]
        )
        return respuesta.text
    except Exception as e:
        return f"‚ùå Error: {e}"

# Probar Gemini si est√° disponible
if cliente_gemini:
    print("üîç Analizando con Gemini...")
    resultado_gemini = analizar_entidades_gemini(texto_ejemplo)
    print("\nAn√°lisis de Gemini:")
    print(resultado_gemini)
else:
    print("‚è≠Ô∏è  Saltando an√°lisis con Gemini (API Key no disponible)")

üîç Analizando con Gemini...

An√°lisis de Gemini:
*   Mar√≠a Gonz√°lez ‚Üí PERSONA ‚Üí Nombre de la persona que habla.
*   Universidad de Buenos Aires ‚Üí ORGANIZACI√ìN ‚Üí Nombre de la universidad donde trabaja.
*   San Telmo ‚Üí LUGAR ‚Üí Nombre del barrio donde vive.
*   MercadoLibre ‚Üí ORGANIZACI√ìN ‚Üí Empresa favorita de la persona.
*   Obelisco ‚Üí LUGAR ‚Üí Monumento de la Ciudad de Buenos Aires.
*   Carlos P√©rez ‚Üí PERSONA ‚Üí Nombre del amigo de la persona.
*   Google Argentina ‚Üí ORGANIZACI√ìN ‚Üí Filial argentina de la empresa Google.
*   Constituci√≥n ‚Üí LUGAR ‚Üí Nombre de la estaci√≥n de subte.
*   La Boca ‚Üí LUGAR ‚Üí Barrio de la Ciudad de Buenos Aires.



---
# PARTE 3: Interfaces Interactivas con Gradio

Crearemos interfaces web interactivas para probar nuestros modelos.

In [26]:
import gradio as gr

def interfaz_ner_transformers(texto):
    """Interfaz para el modelo de Transformers"""
    if not texto.strip():
        return {"text": "Ingresa un texto para analizar", "entities": []}

    if not ner_pipeline:
        return {"text": "Modelo no disponible", "entities": []}

    # Procesar con Transformers
    entidades = ner_pipeline(texto)

    # Formatear para Gradio HighlightedText
    entidades_gradio = []
    for ent in entidades:
        entidades_gradio.append({
            "entity": ent["entity_group"],
            "word": ent["word"],
            "start": ent["start"],
            "end": ent["end"],
            "score": ent["score"]
        })

    return {"text": texto, "entities": entidades_gradio}

# Ejemplos para la interfaz
ejemplos_arg = [
    "Me llamo Juan P√©rez y trabajo en el Banco Naci√≥n en Buenos Aires.",
    "Cristina Kirchner fue presidenta de Argentina y vive en Santa Cruz.",
    "River Plate jugar√° contra Boca Juniors en el estadio Monumental.",
    "Lionel Messi naci√≥ en Rosario y jug√≥ en el Barcelona.",
    "La Universidad de La Plata es muy prestigiosa en Argentina."
]

# Crear interfaz
demo_transformers = gr.Interface(
    fn=interfaz_ner_transformers,
    inputs=[
        gr.Textbox(
            label="üìù Texto a analizar",
            placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
            lines=4
        )
    ],
    outputs=[
        gr.HighlightedText(
            label="üéØ Entidades Identificadas",
            show_legend=True
        )
    ],
    title="NER con Transformers - Espa√±ol (de argentina)",
    description="""
    **Modelo:** `mrm8488/bert-spanish-cased-finetuned-ner`

    Identifica entidades nombradas en textos en espa√±ol:
    - üßë **PER**: Personas
    - üåç **LOC**: Lugares
    - üè¢ **ORG**: Organizaciones
    - üì¶ **MISC**: Miscel√°neo
    """,
    examples=ejemplos_arg,
    allow_flagging="never",
    theme=gr.themes.Soft()
)

print("‚úÖ Interfaz de Transformers creada")

‚úÖ Interfaz de Transformers creada


In [27]:
# Interfaz para Gemini (solo si est√° disponible)
if cliente_gemini:
    def interfaz_ner_gemini(texto):
        """Interfaz para Gemini API"""
        if not texto.strip():
            return "Ingresa un texto para analizar"
        return analizar_entidades_gemini(texto)

    demo_gemini = gr.Interface(
        fn=interfaz_ner_gemini,
        inputs=[
            gr.Textbox(
                label="üìù Texto a analizar",
                placeholder="Escribe aqu√≠ tu texto en espa√±ol...",
                lines=4
            )
        ],
        outputs=[
            gr.Textbox(
                label="üß† An√°lisis de Gemini",
                lines=10
            )
        ],
        title="NER con Gemini - An√°lisis Detallado",
        description="""
        **Modelo:** Google Gemini 2.0 Flash

        An√°lisis avanzado de entidades nombradas con explicaciones contextuales
        optimizado para espa√±ol argentino.
        """,
        examples=ejemplos_arg,
        allow_flagging="never",
        theme=gr.themes.Soft()
    )
    print("‚úÖ Interfaz de Gemini creada")
else:
    print("‚è≠Ô∏è  Interfaz de Gemini no creada (API Key no disponible)")

‚úÖ Interfaz de Gemini creada


In [28]:
# Interfaz comparativa (solo si ambos est√°n disponibles)
if ner_pipeline and cliente_gemini:
    def comparar_modelos(texto):
        """Compara resultados de ambos modelos"""
        if not texto.strip():
            return "Ingresa texto para comparar", "Ingresa texto para comparar"

        # Resultado Transformers
        entidades_tf = analizar_entidades_transformers(texto)
        resultado_tf = "TRANSFORMERS:\n\n"
        for ent in entidades_tf:
            resultado_tf += f"‚Ä¢ {ent['texto']} ‚Üí {ent['etiqueta']} (confianza: {ent['confianza']})\n"

        # Resultado Gemini
        resultado_gemini = "GEMINI:\n\n" + analizar_entidades_gemini(texto)

        return resultado_tf, resultado_gemini

    demo_comparativo = gr.Interface(
        fn=comparar_modelos,
        inputs=[
            gr.Textbox(
                label="üìù Texto a comparar",
                placeholder="Ingresa texto para ver la comparaci√≥n...",
                lines=3
            )
        ],
        outputs=[
            gr.Textbox(label="Transformers", lines=8),
            gr.Textbox(label="Gemini", lines=8)
        ],
        title="‚öîÔ∏è Comparaci√≥n: Transformers vs Gemini",
        description="Compara los resultados de ambos enfoques lado a lado.",
        examples=[
            "Diego Maradona jug√≥ en Boca Juniors y en el Napoli de Italia.",
            "El gobierno argentino anunci√≥ medidas desde Casa Rosada."
        ],
        allow_flagging="never"
    )
    print("‚úÖ Interfaz comparativa creada")
else:
    print("‚è≠Ô∏è  Interfaz comparativa no creada (requiere ambos modelos)")

‚úÖ Interfaz comparativa creada


## üöÄ Lanzar Interfaces

Ejecuta las celdas siguientes para lanzar las interfaces interactivas:

In [29]:
# Lanzar interfaz de Transformers
if ner_pipeline:
    print("üöÄ Lanzando interfaz de Transformers...")
    demo_transformers.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: modelo de Transformers no disponible")

üöÄ Lanzando interfaz de Transformers...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://8ff6be46dc625d3d35.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


In [30]:
# Lanzar interfaz de Gemini
if cliente_gemini:
    print("üöÄ Lanzando interfaz de Gemini...")
    demo_gemini.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: API de Gemini no disponible")

üöÄ Lanzando interfaz de Gemini...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://9b8c08c2a919dfdafc.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


In [31]:
# Lanzar interfaz comparativa
if ner_pipeline and cliente_gemini:
    print("üöÄ Lanzando interfaz comparativa...")
    demo_comparativo.launch(share=True, height=600)
else:
    print("‚ùå No se puede lanzar: requiere ambos modelos disponibles")

üöÄ Lanzando interfaz comparativa...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://98f71e08552ea80962.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


---
# üéì EJERCICIOS

## üìù Ejercicio 1: Personalizaci√≥n (B√ÅSICO)
1. Modifica los ejemplos para incluir m√°s contexto argentino espec√≠fico
2. Agrega 3 ejemplos nuevos con nombres de barrios porte√±os
3. Prob√° con texto de diferentes regiones de Argentina





## ü§î Preguntas de Reflexi√≥n
1. ¬øCu√°les son las ventajas y desventajas de cada enfoque?
# **Transformers**

**Ventajas:**

*1)Privacidad y Control*: Los datos se procesan localmente (en tu entorno de Colab, aunque el modelo se descarga), lo que es importante si trabajas con informaci√≥n sensible que no puede salir de tu control.

*2)Costo*: Una vez que el modelo est√° descargado, el costo de inferencia es nulo o muy bajo (solo el costo computacional de tu entorno). No pagas por cada llamada a una API.

*3)Personalizaci√≥n*: Aunque usamos un modelo pre-entrenado, podr√≠as afinarlo con tus propios datos si necesitaras identificar entidades espec√≠ficas para tu dominio.

*4)Velocidad*: Para procesamiento por lotes grande, puede ser m√°s r√°pido que enviar y recibir datos de una API remota, especialmente si tienes acceso a GPU.

**Desventajas:**

*1)Configuraci√≥n*: Requiere la instalaci√≥n de librer√≠as (Transformers, PyTorch/TensorFlow) y la descarga del modelo, lo que a√±ade complejidad inicial.

*2)Recursos Computacionales*: Necesitas hardware suficiente (CPU o GPU) para cargar y ejecutar el modelo, especialmente modelos grandes.

*3)Mantenimiento*: Eres responsable de mantener las librer√≠as y el modelo actualizados.

*4)Flexibilidad/Generalidad*: Los modelos pre-entrenados tienen etiquetas fijas (PER, LOC, ORG, MISC en este caso). Si necesitas identificar otros tipos de entidades, tendr√≠as que re-entrenar o usar un modelo diferente.

# **API de Gemini**

**Ventajas:**

*1)Facilidad de Uso*: La integraci√≥n es muy simple (vimos que solo necesitas una API Key y un par de l√≠neas de c√≥digo para hacer la llamada). No necesitas preocuparte por la infraestructura o la descarga de modelos grandes.

*2)Modelos Potentes y Actualizados*: Tienes acceso a modelos de lenguaje de vanguardia que Google mantiene y mejora continuamente.

*3)Flexibilidad (Few-shot/Zero-shot)*: Como viste en el prompt que usamos, puedes instruir a Gemini con lenguaje natural para identificar entidades y dar explicaciones. Esto permite adaptarte a nuevos tipos de entidades o formatos de salida sin necesidad de re-entrenar.

*4)Contexto y Explicaci√≥n*: Gemini puede proporcionar un an√°lisis m√°s contextual y explicaciones sobre la entidad encontrada, algo que un modelo NER cl√°sico no suele hacer por defecto (vimos c√≥mo nos devolvi√≥ "[ENTIDAD] ‚Üí [CATEGOR√çA] ‚Üí [BREVE EXPLICACI√ìN]").

**Desventajas:**

*1)Costo*: Generalmente pagas por uso (por cantidad de tokens procesados o llamadas a la API). Esto puede ser costoso para procesar grandes vol√∫menes de texto.

*2)Latencia*: Hay una latencia asociada a enviar la solicitud a trav√©s de la red y esperar la respuesta.

*3)Privacidad*: La informaci√≥n se env√≠a a trav√©s de internet a un servicio de terceros. Debes asegurarte de cumplir con las pol√≠ticas de uso y privacidad, especialmente si trabajas con datos confidenciales.

*4)Dependencia del Proveedor*: Dependes de la disponibilidad y las condiciones del servicio de la API.


# **2. ¬øEn qu√© casos usar√≠as un modelo local vs una API?**

**Usar Modelo Local (Transformers):**

Cuando la privacidad de los datos es cr√≠tica.
Cuando necesitas procesar grandes vol√∫menes de texto de forma continua y el costo por llamada a la API es prohibitivo.
Cuando requieres baja latencia y el procesamiento debe ser muy r√°pido.
Cuando necesitas control total sobre el modelo y la infraestructura.
Si tienes recursos computacionales (especialmente GPU) disponibles.
Si necesitas afinar el modelo con datos espec√≠ficos de tu dominio.

**Usar API (Gemini):**

Cuando la facilidad de implementaci√≥n y la rapidez para obtener resultados son prioritarias.
Para prototipado r√°pido y experimentaci√≥n con diferentes tareas de PLN.
Cuando necesitas flexibilidad para identificar diferentes tipos de entidades o adaptar el formato de salida f√°cilmente (zero-shot/few-shot learning).
Para an√°lisis que requieren comprensi√≥n contextual o explicaciones detalladas.
Si no tienes acceso a hardware potente para ejecutar modelos grandes localmente.
Para vol√∫menes de procesamiento moderados donde el costo por llamada es aceptable.



# **3. ¬øC√≥mo evaluar√≠as la precisi√≥n de los resultados?**

Evaluar la precisi√≥n de un modelo NER requiere un conjunto de datos de "verdad fundamental" (ground truth), es decir, texto donde las entidades nombradas ya han sido anotadas manualmente por humanos.

**Los pasos t√≠picos ser√≠an:**

1)Crear un conjunto de prueba: Toma un corpus de texto representativo de tu dominio y haz que anotadores humanos identifiquen y etiqueten todas las entidades de inter√©s (PER, LOC, ORG, MISC, etc.).

2)Procesar el conjunto de prueba: Ejecuta el modelo NER (Transformers o Gemini) sobre este mismo texto sin las anotaciones.

3)Comparar resultados: Compara las entidades identificadas por el modelo con las anotaciones humanas. Puedes usar m√©tricas como:

  Precision: De las entidades que el modelo identific√≥, ¬øcu√°ntas son correctas?

  Recall: De todas las entidades reales en el texto, ¬øcu√°ntas identific√≥ el modelo?

  F1-score: Es la media arm√≥nica de Precision y Recall, dando un equilibrio entre ambas. Es la m√©trica m√°s com√∫n para NER.

Tambi√©n podr√≠as evaluar si la categor√≠a asignada es correcta y si los l√≠mites (start/end) de la entidad son precisos.

4)An√°lisis de Errores: Revisa los errores (falsos positivos, falsos negativos, errores de categor√≠a) para entender por qu√© el modelo falla y d√≥nde se puede mejorar.

En el caso de Gemini, como no te da una "confianza" num√©rica por entidad como Transformers, la evaluaci√≥n se basar√≠a m√°s en la comparaci√≥n directa de las entidades y categor√≠as extra√≠das con el ground truth.



# **4. ¬øQu√© consideraciones √©ticas debemos tener en cuenta?**

El uso de NER, especialmente con datos sensibles, conlleva importantes consideraciones √©ticas:

**1)Privacidad**: Procesar nombres de personas (PER) o ubicaciones espec√≠ficas (LOC) puede implicar manejar informaci√≥n personal identificable (PII). Debes asegurarte de cumplir con las regulaciones de protecci√≥n de datos (como GDPR o leyes locales) y anonimizar o pseudonimizar los datos si es necesario.

**2)Sesgos**: Los modelos de lenguaje se entrenan con grandes cantidades de texto y pueden heredar y perpetuar sesgos presentes en esos datos (por ejemplo, asociar ciertos nombres con ciertas ocupaciones o g√©neros de forma estereotipada). Esto puede afectar la precisi√≥n o ser injusto.

**3)Uso Malintencionado**: La capacidad de extraer PII de forma automatizada podr√≠a usarse para vigilancia, creaci√≥n de perfiles no deseados o desinformaci√≥n.

**4)Transparencia y Explicabilidad**: Con modelos m√°s complejos como Gemini, puede ser dif√≠cil entender por qu√© identific√≥ una entidad de cierta manera. La falta de transparencia puede ser un problema en aplicaciones cr√≠ticas.

**5)Responsabilidad**: ¬øQui√©n es responsable si el sistema NER comete un error con consecuencias negativas (por ejemplo, omitir una entidad cr√≠tica en un informe m√©dico)?



# **5. ¬øC√≥mo escalar√≠as esta soluci√≥n para procesar miles de documentos?**

Escalar la soluci√≥n depender√≠a del enfoque elegido:

**Para el enfoque de Transformers (modelo local):**

Procesamiento Distribuido:

Paralelismo: Si tienes muchos documentos, puedes dividirlos y procesarlos en paralelo en m√∫ltiples m√°quinas o n√∫cleos de CPU/GPU.

Frameworks: Usar frameworks de procesamiento distribuido como Apache Spark o Dask para manejar grandes vol√∫menes de datos y coordinar el procesamiento en un cluster.

Hardware: Utilizar m√°quinas con m√°s CPU, m√°s RAM o m√∫ltiples GPU de alto rendimiento.

Optimizaci√≥n del C√≥digo: Asegurarse de que el c√≥digo de procesamiento sea eficiente y aproveche al m√°ximo el hardware disponible (por ejemplo, procesar en lotes (batches) en la GPU).

Despliegue: Desplegar el modelo en un entorno escalable, como un cluster de Kubernetes, un servicio de serverless computing (AWS Lambda, Google Cloud Functions) con provisionamiento adecuado, o una plataforma de MLOps que maneje el escalado autom√°tico basado en la carga.

**Para el enfoque de API (Gemini):**

Aumentar Cuota/L√≠mites: Contactar al proveedor de la API (Google) para aumentar los l√≠mites de llamadas por minuto/hora si tu volumen de procesamiento excede los l√≠mites est√°ndar.

Procesamiento As√≠ncrono: Enviar solicitudes a la API de forma as√≠ncrona (en lugar de esperar cada respuesta antes de enviar la siguiente) para maximizar el rendimiento y reducir el tiempo total.

Procesamiento por Lotes (si la API lo soporta): Algunas APIs permiten enviar m√∫ltiples textos en una sola solicitud, lo que reduce la latencia y el n√∫mero total de llamadas.

Manejo de Errores y Reintentos: Implementar una l√≥gica robusta para manejar errores de red o de la API y reintentar las llamadas fallidas.

Monitoreo de Costos: Implementar monitoreo continuo de los costos de la API para asegurarte de que se mantengan dentro del presupuesto.

En resumen, escalar Transformers implica escalar tu propia infraestructura computacional y optimizar el c√≥digo para el procesamiento local, mientras que escalar con una API implica gestionar el uso de la API, los costos y la comunicaci√≥n eficiente con el servicio remoto.

## üîß Ejercicio 2: An√°lisis Comparativo (INTERMEDIO)
1. Crea una funci√≥n que cuente cu√°ntas entidades encuentra cada modelo
2. Implementa un sistema de m√©tricas de tiempo de procesamiento
3. Analiza en qu√© casos cada modelo funciona mejor

In [16]:
# üìù ESPACIO PARA TUS EJERCICIOS
# Usa esta celda para experimentar y desarrollar tus soluciones

# Ejemplo: Funci√≥n para contar entidades por tipo
def contar_entidades_por_tipo(texto):
    """Cuenta entidades por categor√≠a usando Transformers"""
    if not ner_pipeline:
        return {}

    entidades = ner_pipeline(texto)
    conteo = {}

    for ent in entidades:
        tipo = ent['entity_group']
        if tipo in conteo:
            conteo[tipo] += 1
        else:
            conteo[tipo] = 1

    return conteo

# Probar la funci√≥n
texto_prueba = "Juan P√©rez trabaja en Google Argentina en Buenos Aires con Mar√≠a L√≥pez."
print("üìä Conteo de entidades:")
print(contar_entidades_por_tipo(texto_prueba))

# TODO: Agrega aqu√≠ tus propias funciones y experimentos

üìä Conteo de entidades:
{'PER': 2, 'ORG': 1, 'LOC': 1}


---
# üéØ Conclusi√≥n

¬°Felicitaciones! Completaste el ejercicio de Reconocimiento de Entidades Nombradas.

## üìö Lo que aprendiste:
- ‚úÖ Implementar NER con modelos pre-entrenados
- ‚úÖ Usar APIs de IA generativa para tareas de PLN
- ‚úÖ Crear interfaces interactivas con Gradio
- ‚úÖ Comparar diferentes enfoques de NER

## üîÑ Pr√≥ximos pasos:
1. Experiment√° con otros modelos de Hugging Face
2. Prob√° con textos de diferentes dominios
3. Implementa tu proyecto integrador
4. Compart√≠ tus resultados con la clase

## üìñ Recursos adicionales:
- [Hugging Face Models](https://huggingface.co/models?pipeline_tag=token-classification&language=es)
- [Gradio Documentation](https://gradio.app/docs/)
- [Google AI Studio](https://ai.google.dev/)

---
**¬°√âxito en tu trabajo integrador!** üéìüöÄ