## 1. Importar Librer√≠as Necesarias

Importamos las bibliotecas necesarias:
- `os`: Para acceder a variables de entorno
- `dotenv`: Para cargar configuraci√≥n desde archivo .env
- `openai`: SDK de Azure OpenAI para Python

In [None]:
import os
from dotenv import load_dotenv
import openai

## 2. Cargar Variables de Entorno

Cargamos las credenciales y configuraci√≥n desde el archivo `.env`:
- `AZURE_OPENAI_ENDPOINT`: URL del servicio de Azure OpenAI
- `AZURE_OPENAI_APIKEY`: Clave de acceso al servicio
- `AZURE_OPENAI_VERSION`: Versi√≥n de la API
- `MODEL`: Nombre del modelo a utilizar

In [None]:
# Cargar variables de entorno desde .env
load_dotenv()

print(f"‚úÖ Configuraci√≥n cargada")
print(f"Modelo a utilizar: {os.getenv('MODEL')}")

## 3. Definir Textos de Prueba

Creamos una lista de textos que contienen fechas en **diferentes formatos**:

### Formatos de fecha incluidos:
- **ISO 8601**: `YYYY-MM-DD` (ej: 2023-04-15)
- **Formato americano**: `MM/DD/YYYY` (ej: 10/15/2023)
- **Formato europeo con guiones**: `DD-MM-YYYY` (ej: 11-01-2023)
- **Texto natural**: "23 de octubre de 2023", "1 de agosto de 2023"
- **Rangos de fechas**: "del 11-01-2023 al 11-05-2023"

Estos textos simulan casos reales de documentos, emails, reportes, etc.

In [None]:
text_list = [
    "La conferencia de tecnolog√≠a se llevar√° a cabo el 2023-04-15 en el centro de convenciones de la ciudad.",
    "La temporada cultural de oto√±o arranca con una serie de eventos imperdibles. El primero ser√° la exposici√≥n de arte moderno que abre sus puertas el 10/15/2023 en el Museo de la Ciudad. A continuaci√≥n, el 23 de octubre de 2023, se presentar√° la aclamada obra de teatro 'Luces de Bohemia' en el Teatro Principal. Finalmente, no te pierdas la feria del libro que se realizar√° del 11-01-2023 al 11-05-2023, donde podr√°s encontrar las √∫ltimas publicaciones y conocer a tus autores favoritos.",
    "El proyecto de desarrollo de software se desglosa en varias fases clave con fechas de entrega espec√≠ficas. La fase de investigaci√≥n debe completarse antes del 2023-05-20. La etapa de dise√±o y prototipado est√° programada para el per√≠odo comprendido entre el 01/06/2023 y el 31/07/2023. La implementaci√≥n del c√≥digo comenzar√° el 1 de agosto de 2023 y se extender√° hasta el 30 de septiembre de 2023. Por √∫ltimo, la fase de pruebas y ajustes se llevar√° a cabo del 10-10-2023 al 10-12-2023, asegurando que el producto final est√© listo para su lanzamiento el 15 de diciembre de 2023.",
    "El vuelo est√° programado para despegar a las 14:30 del 05-06-2023 desde el aeropuerto internacional.",
    "La videoconferencia internacional se iniciar√° a las 09:00 AM GMT del 22 de noviembre de 2023."
]

print(f"üìã Total de textos a procesar: {len(text_list)}")
print(f"\nüìÑ Ejemplo del primer texto:")
print(f"   {text_list[0]}")

## 4. Funci√≥n de Extracci√≥n de Fechas

Esta funci√≥n implementa el **patr√≥n few-shot learning**:

### ¬øQu√© es Few-Shot Learning?
Es una t√©cnica donde proporcionamos al modelo uno o m√°s ejemplos de entrada-salida para guiar su comportamiento.

### Estructura de la funci√≥n:
1. **System Prompt**: Define el rol y comportamiento del asistente
2. **Ejemplo (shot)**: 
   - User: "La reuni√≥n es el 3 de enero de 2024 y la entrega es el 12 de abril de 2024."
   - Assistant: "03/01/2024, 12/04/2024"
3. **Consulta real**: El texto del que queremos extraer fechas

### Formato de salida esperado:
- Todas las fechas en formato `dd/mm/aaaa`
- Separadas por comas
- Sin texto adicional

In [None]:
def extract_dates_from_text(text):
    """
    Extrae todas las fechas de un texto y las normaliza al formato dd/mm/aaaa.
    
    Args:
        text (str): Texto del cual extraer fechas
        
    Returns:
        str: Fechas extra√≠das en formato dd/mm/aaaa, separadas por comas
    """
    # Crear cliente de Azure OpenAI
    openai_client = openai.AzureOpenAI(
        azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
        api_key=os.getenv("AZURE_OPENAI_APIKEY"),
        api_version=os.getenv("AZURE_OPENAI_VERSION")
    )

    # Definir el rol del asistente
    system_prompt = "Eres un asistente que extrae fechas de textos. Responde √∫nicamente con las fechas en formato dd/mm/aaaa"
    
    # Construir el prompt del usuario
    user_prompt = f'''Extrae todas las fechas del siguiente texto: {text}

    Response:
    [
    '''

    # Realizar la llamada al modelo con few-shot learning
    response = openai_client.chat.completions.create(
        model=os.getenv("MODEL"),
        messages=[
            {"role": "system", "content": system_prompt},
            # Few-shot example (ejemplo de entrada-salida)
            {"role": "user", "content": "Extrae todas las fechas del siguiente texto: La reuni√≥n es el 3 de enero de 2024 y la entrega es el 12 de abril de 2024."},
            {"role": "assistant", "content": "03/01/2024, 12/04/2024"},
            # Consulta real
            {"role": "user", "content": user_prompt}
        ]
    )

    return response.choices[0].message.content

print("‚úÖ Funci√≥n extract_dates_from_text() definida")

## 5. Procesar Todos los Textos

Ahora ejecutamos la funci√≥n para cada texto de la lista y mostramos:
- El n√∫mero del texto
- Un fragmento del texto original (primeros 100 caracteres)
- Las fechas extra√≠das y normalizadas

**Nota**: Esto har√° 5 llamadas a la API de Azure OpenAI.

In [None]:
print("\n" + "="*80)
print("EXTRACCI√ìN DE FECHAS")
print("="*80)
print(f"Usando el modelo: {os.getenv('MODEL')}\n")

# Iterar sobre cada texto y extraer fechas
for i, text_with_dates in enumerate(text_list, start=1):
    print(f"\n{'‚îÄ'*80}")
    print(f"üìù TEXTO {i}")
    print(f"{'‚îÄ'*80}")
    
    # Mostrar fragmento del texto original
    preview = text_with_dates[:100] + "..." if len(text_with_dates) > 100 else text_with_dates
    print(f"Original: {preview}")
    
    # Extraer fechas
    print(f"\n‚è≥ Extrayendo fechas...")
    dates = extract_dates_from_text(text_with_dates)
    
    # Mostrar resultado
    print(f"‚úÖ Fechas extra√≠das: {dates}")

print(f"\n{'='*80}")
print("PROCESO COMPLETADO")
print("="*80)

## 6. An√°lisis de Resultados

Veamos qu√© tipos de fechas pudo identificar el modelo:

In [None]:
print("\nüìä AN√ÅLISIS DE FORMATOS PROCESADOS:\n")
print("‚úì Formato ISO (YYYY-MM-DD): 2023-04-15 ‚Üí dd/mm/aaaa")
print("‚úì Formato americano (MM/DD/YYYY): 10/15/2023 ‚Üí dd/mm/aaaa")
print("‚úì Formato europeo (DD-MM-YYYY): 11-01-2023 ‚Üí dd/mm/aaaa")
print("‚úì Texto natural: '23 de octubre de 2023' ‚Üí dd/mm/aaaa")
print("‚úì Texto natural: '1 de agosto de 2023' ‚Üí dd/mm/aaaa")
print("‚úì Con hora: '05-06-2023' (ignora la hora 14:30) ‚Üí dd/mm/aaaa")
print("\nüí° El modelo LLM entiende el contexto y normaliza autom√°ticamente!")

## Conclusi√≥n

Este ejemplo demuestra varios conceptos importantes:

### 1. **Few-Shot Learning**
- Proporcionamos un ejemplo al modelo para guiar su comportamiento
- El modelo aprende el patr√≥n de extracci√≥n y formato deseado
- No necesitamos entrenar un modelo espec√≠fico

### 2. **Normalizaci√≥n de Datos**
- Convertimos fechas de m√∫ltiples formatos a uno est√°ndar
- √ötil para integraci√≥n con bases de datos
- Facilita el procesamiento posterior

### 3. **Procesamiento de Lenguaje Natural**
- El modelo entiende fechas escritas en texto natural
- Reconoce meses en espa√±ol ("octubre", "agosto", "noviembre")
- Maneja diferentes formatos de escritura

### 4. **Extracci√≥n de Informaci√≥n**
- Identificamos datos espec√≠ficos en textos complejos
- Procesamos m√∫ltiples fechas en un mismo texto
- Ignoramos informaci√≥n irrelevante (horas, zonas horarias)

### Aplicaciones Pr√°cticas:

‚úÖ **Procesamiento de documentos**: Extraer fechas importantes de contratos, reportes, etc.

‚úÖ **An√°lisis de emails**: Identificar fechas de reuniones, deadlines, eventos

‚úÖ **Migraci√≥n de datos**: Normalizar fechas antes de importar a bases de datos

‚úÖ **Automatizaci√≥n**: Crear recordatorios o calendarios autom√°ticamente

‚úÖ **Compliance**: Identificar fechas relevantes en documentos legales

### Ventajas vs Expresiones Regulares:

| Aspecto | Regex | LLM |
|---------|-------|-----|
| Formatos variados | ‚ùå Necesita patrones por cada formato | ‚úÖ Entiende m√∫ltiples formatos |
| Texto natural | ‚ùå Muy dif√≠cil | ‚úÖ Natural |
| Contexto | ‚ùå No entiende contexto | ‚úÖ Usa contexto |
| Idiomas | ‚ùå Un patr√≥n por idioma | ‚úÖ Multiling√ºe |
| Mantenimiento | ‚ùå Complejo | ‚úÖ Simple |

### Consideraciones:

‚ö†Ô∏è **Costo**: Cada llamada a la API tiene un costo

‚ö†Ô∏è **Latencia**: M√°s lento que regex para vol√∫menes muy grandes

‚ö†Ô∏è **Validaci√≥n**: Siempre verifica los resultados cr√≠ticos

‚úÖ **Precisi√≥n**: Muy alta con prompts bien dise√±ados