## Taller 1: Uso de LLMs y APIs gratuitas en Python
Javier Vera Zúñiga

### Objetivo

En este taller aprenderás a utilizar modelos de lenguaje (LLMs) mediante APIs gratuitas en Python, aplicándolo a un corpus de documentos históricos transcritos del siglo XIX con Transkribus.

🔧 Instalación de librerías necesarias

Ejecuta esta celda para instalar las dependencias necesarias:

In [7]:
!pip install requests pandas langchain transformers

^C


📂 Carga y visualización del corpus histórico

In [None]:
import pandas as pd

# Cargar dataset (Ejemplo: CSV con documentos históricos transcritos con Transkribus)
url = 'https://raw.githubusercontent.com/.../documentos_historicos.csv'  # Enlace al dataset en GitHub
corpus = pd.read_csv(url)

# Mostrar primeras filas del dataset
corpus.head()

🔥 Usando una API gratuita para interactuar con un LLM

Aquí usamos la API gratuita de Hugging Face para generar resúmenes de documentos históricos.

In [None]:
import requests

API_URL = "https://api-inference.huggingface.co/models/facebook/bart-large-cnn"
HEADERS = {"Authorization": "Bearer tu_api_key_aqui"}  # Reemplaza con tu clave gratuita de Hugging Face

def obtener_resumen(texto):
    payload = {"inputs": texto}
    response = requests.post(API_URL, headers=HEADERS, json=payload)
    return response.json()[0]["summary_text"]

# Prueba con un documento del corpus
texto_ejemplo = corpus["contenido"][0]  # Selecciona un documento del corpus
print(obtener_resumen(texto_ejemplo))

🔍 Extracción de metadatos con LLMs

Podemos extraer información clave de los documentos, como fechas, nombres y lugares, utilizando la API gratuita de Cohere.

In [None]:
API_URL_COHERE = "https://api.cohere.ai/v1/generate"
HEADERS_COHERE = {"Authorization": "Bearer tu_api_key_aqui", "Content-Type": "application/json"}

def extraer_metadatos(texto):
    prompt = f"Extrae entidades de personas, fechas y lugares del siguiente texto:\n{texto}"
    payload = {"model": "command-xlarge-nightly", "prompt": prompt}
    response = requests.post(API_URL_COHERE, headers=HEADERS_COHERE, json=payload)
    return response.json()["generations"][0]["text"]

print(extraer_metadatos(texto_ejemplo))