# ü§ñ AWS Bedrock - Generaci√≥n de Descripciones y Clasificaci√≥n

Este notebook implementa la integraci√≥n con AWS Bedrock para:
1. Generar descripciones enriquecidas de clientes
2. Clasificar riesgo crediticio usando IA generativa
3. Crear dataset enriquecido para entrenamiento

In [None]:
# Instalar dependencias si es necesario
# !pip install boto3 pandas numpy python-dotenv

In [None]:
import boto3
import json
import pandas as pd
import numpy as np
import time
from pathlib import Path
import os
from typing import Dict, List
from botocore.exceptions import ClientError
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Configuraci√≥n AWS
AWS_REGION = "us-east-1"
BEDROCK_MODEL_ID = "anthropic.claude-3-haiku-20240307-v1:0"

print(f"üîß Regi√≥n configurada: {AWS_REGION}")
print(f"ü§ñ Modelo Bedrock: {BEDROCK_MODEL_ID}")
print("\n‚ö†Ô∏è  IMPORTANTE: Aseg√∫rate de tener configuradas tus credenciales AWS")
print("   - aws configure")
print("   - Variables de entorno AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY")

In [None]:
# Cargar datos reales del reto
data_path = Path("../data/credir_risk_reto.xlsx")

print(f"üìÇ Cargando datos desde: {data_path}")

if data_path.exists():
    df = pd.read_excel(data_path)
    print(f"‚úÖ Datos cargados exitosamente")
    print(f"üìä Forma del dataset: {df.shape}")
    print(f"üìã Columnas: {list(df.columns)}")
    
    # Guardar como CSV para uso futuro
    csv_path = "../data/credit_risk_reto.csv"
    df.to_csv(csv_path, index=False)
    print(f"üíæ Guardado como CSV: {csv_path}")
    
    # Mostrar muestra
    display(df.head())
else:
    print(f"‚ùå Archivo no encontrado: {data_path}")
    print("Por favor aseg√∫rate de que el archivo est√© en la carpeta data/")

In [None]:
# An√°lisis b√°sico de los datos
print("üîç AN√ÅLISIS DE LOS DATOS REALES")
print("=" * 50)

print(f"Forma del dataset: {df.shape}")
print(f"\nTipos de datos:")
print(df.dtypes)

print(f"\nValores nulos:")
null_counts = df.isnull().sum()
for col, count in null_counts.items():
    if count > 0:
        print(f"‚Ä¢ {col}: {count} ({count/len(df)*100:.1f}%)")

print(f"\nPrimeras 5 filas:")
display(df.head())

In [None]:
# Funci√≥n para inicializar cliente Bedrock
def init_bedrock_client(region_name: str = AWS_REGION):
    """
    Inicializa el cliente de Bedrock
    """
    try:
        client = boto3.client(
            service_name='bedrock-runtime',
            region_name=region_name
        )
        
        # Test b√°sico
        print(f"‚úÖ Cliente Bedrock inicializado en regi√≥n: {region_name}")
        return client
        
    except Exception as e:
        print(f"‚ùå Error al inicializar Bedrock: {e}")
        print("\nüîß Soluciones posibles:")
        print("1. Verificar credenciales AWS: aws configure")
        print("2. Verificar permisos para Bedrock")
        print("3. Verificar que Bedrock est√© disponible en la regi√≥n")
        return None

# Inicializar cliente
bedrock_client = init_bedrock_client()

In [None]:
# Funci√≥n para generar descripci√≥n de cliente
def generate_description(client, customer_data: dict, model_id: str = BEDROCK_MODEL_ID):
    """
    Genera descripci√≥n narrativa de un cliente usando Bedrock
    """
    
    # Crear prompt
    prompt = f"""
Como experto en an√°lisis crediticio, genera una descripci√≥n narrativa y profesional de este cliente bancario.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Crea una descripci√≥n de 2-3 p√°rrafos que incluya:
1. Perfil demogr√°fico y profesional
2. Situaci√≥n financiera y vivienda  
3. Detalles de la solicitud de cr√©dito

La descripci√≥n debe ser objetiva, profesional y √∫til para an√°lisis de riesgo crediticio.

Descripci√≥n:
"""
    
    try:
        # Request body para Claude
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 500,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        # Llamar a Bedrock
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        # Procesar respuesta
        response_body = json.loads(response['body'].read())
        description = response_body['content'][0]['text'].strip()
        
        return description
        
    except Exception as e:
        print(f"‚ùå Error generando descripci√≥n: {e}")
        return f"Error: {str(e)}"

print("‚úÖ Funci√≥n de generaci√≥n de descripciones definida")

In [None]:
# Funci√≥n para clasificar riesgo crediticio
def classify_risk(client, customer_data: dict, description: str, model_id: str = BEDROCK_MODEL_ID):
    """
    Clasifica el riesgo crediticio usando Bedrock
    """
    
    prompt = f"""
Como analista de riesgo crediticio, eval√∫a este cliente y clasif√≠calo.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Descripci√≥n del cliente:
{description}

Clasifica el riesgo crediticio como:
- "good" para bajo riesgo (recomendado aprobar)
- "bad" para alto riesgo (recomendado rechazar)

Responde en el siguiente formato JSON:
{{
    "prediction": "good" o "bad",
    "confidence": n√∫mero entre 0.0 y 1.0,
    "reasoning": "explicaci√≥n breve de la decisi√≥n"
}}

Respuesta:
"""
    
    try:
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 300,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        response_body = json.loads(response['body'].read())
        classification_text = response_body['content'][0]['text'].strip()
        
        # Intentar parsear JSON
        try:
            start_idx = classification_text.find('{')
            end_idx = classification_text.rfind('}') + 1
            
            if start_idx != -1 and end_idx != 0:
                json_text = classification_text[start_idx:end_idx]
                result = json.loads(json_text)
                return result
        except:
            pass
        
        # Fallback: clasificaci√≥n b√°sica
        if 'good' in classification_text.lower():
            return {"prediction": "good", "confidence": 0.6, "reasoning": "Parsed from text"}
        elif 'bad' in classification_text.lower():
            return {"prediction": "bad", "confidence": 0.6, "reasoning": "Parsed from text"}
        else:
            return {"prediction": "unknown", "confidence": 0.0, "reasoning": "Could not parse"}
            
    except Exception as e:
        print(f"‚ùå Error en clasificaci√≥n: {e}")
        return {"prediction": "error", "confidence": 0.0, "reasoning": f"Error: {str(e)}"}

print("‚úÖ Funci√≥n de clasificaci√≥n de riesgo definida")

In [None]:
# Probar con un ejemplo antes de procesar todo el dataset
if bedrock_client and len(df) > 0:
    print("üß™ PRUEBA CON UN REGISTRO")
    print("=" * 30)
    
    # Tomar el primer registro
    sample_row = df.iloc[0]
    sample_data = sample_row.to_dict()
    
    print(f"üìã Datos del cliente de prueba:")
    for key, value in sample_data.items():
        print(f"  {key}: {value}")
    
    print(f"\nü§ñ Generando descripci√≥n con Bedrock...")
    description = generate_description(bedrock_client, sample_data)
    print(f"üìù Descripci√≥n generada:")
    print(description)
    
    print(f"\nüéØ Clasificando riesgo...")
    classification = classify_risk(bedrock_client, sample_data, description)
    print(f"üîç Clasificaci√≥n:")
    print(json.dumps(classification, indent=2, ensure_ascii=False))
    
else:
    print("‚ö†Ô∏è No se puede realizar la prueba:")
    print("‚Ä¢ Cliente Bedrock no inicializado o")
    print("‚Ä¢ Dataset vac√≠o")

In [None]:
# Procesar un lote peque√±o del dataset (primeros 10 registros para prueba)
if bedrock_client and len(df) > 0:
    print("üîÑ PROCESANDO LOTE DE PRUEBA (10 registros)")
    print("=" * 50)
    
    # Tomar solo los primeros 10 registros para prueba
    sample_df = df.head(10).copy()
    
    results = []
    
    for idx, row in sample_df.iterrows():
        print(f"\nüì¶ Procesando registro {idx + 1}/10...")
        
        try:
            customer_data = row.to_dict()
            
            # Generar descripci√≥n
            description = generate_description(bedrock_client, customer_data)
            
            # Clasificar riesgo
            classification = classify_risk(bedrock_client, customer_data, description)
            
            # Agregar resultados
            result = customer_data.copy()
            result['bedrock_description'] = description
            result['bedrock_prediction'] = classification['prediction']
            result['bedrock_confidence'] = classification['confidence']
            result['bedrock_reasoning'] = classification['reasoning']
            
            results.append(result)
            
            print(f"‚úÖ Registro {idx + 1} procesado: {classification['prediction']}")
            
            # Pausa para evitar rate limiting
            time.sleep(2)
            
        except Exception as e:
            print(f"‚ùå Error procesando registro {idx + 1}: {e}")
            result = row.to_dict()
            result['bedrock_description'] = f"Error: {str(e)}"
            result['bedrock_prediction'] = "error"
            result['bedrock_confidence'] = 0.0
            result['bedrock_reasoning'] = f"Error: {str(e)}"
            results.append(result)
    
    # Crear DataFrame con resultados
    enriched_sample = pd.DataFrame(results)
    
    print(f"\n‚úÖ Procesamiento completado")
    print(f"üìä Registros procesados: {len(enriched_sample)}")
    
    # Mostrar resumen
    predictions = enriched_sample['bedrock_prediction'].value_counts()
    print(f"\nüìà Distribuci√≥n de predicciones:")
    for pred, count in predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_sample)*100:.1f}%)")
    
    # Guardar muestra enriquecida
    sample_output = "../data/credit_risk_sample_enriched.csv"
    enriched_sample.to_csv(sample_output, index=False)
    print(f"\nüíæ Muestra enriquecida guardada: {sample_output}")
    
    display(enriched_sample[['bedrock_prediction', 'bedrock_confidence', 'bedrock_description']].head())
    
else:
    print("‚ö†Ô∏è No se puede procesar el lote: Cliente Bedrock no disponible")

## üí∞ Estimaci√≥n de Costos

Para procesar el dataset completo de 1000 registros:

**Claude 3 Haiku:**
- Input: ~500 tokens por request √ó 2000 requests = 1M tokens
- Output: ~300 tokens por request √ó 2000 requests = 600K tokens  
- **Costo estimado: ~$1.50 USD**

**Tiempo estimado:** 1-2 horas (con pausas para rate limiting)

¬øContinuar con el dataset completo?

In [None]:
# OPCIONAL: Procesar dataset completo (solo ejecutar si est√°s seguro)
PROCESS_FULL_DATASET = False  # Cambiar a True para procesar todo

if PROCESS_FULL_DATASET and bedrock_client and len(df) > 0:
    print("üöÄ PROCESANDO DATASET COMPLETO")
    print(f"üìä Total de registros: {len(df)}")
    print("üí∞ Costo estimado: ~$1.50 USD")
    print("‚è±Ô∏è Tiempo estimado: 1-2 horas")
    
    input("\n‚ö†Ô∏è Presiona ENTER para continuar o Ctrl+C para cancelar...")
    
    results_full = []
    batch_size = 10
    
    for i in range(0, len(df), batch_size):
        batch = df.iloc[i:i+batch_size]
        print(f"\nüì¶ Procesando lote {i//batch_size + 1}/{(len(df)-1)//batch_size + 1}")
        
        for idx, row in batch.iterrows():
            try:
                customer_data = row.to_dict()
                
                # Generar descripci√≥n
                description = generate_description(bedrock_client, customer_data)
                
                # Clasificar riesgo
                classification = classify_risk(bedrock_client, customer_data, description)
                
                # Agregar resultados
                result = customer_data.copy()
                result['bedrock_description'] = description
                result['bedrock_prediction'] = classification['prediction']
                result['bedrock_confidence'] = classification['confidence']
                result['bedrock_reasoning'] = classification['reasoning']
                
                results_full.append(result)
                
                if (idx + 1) % 50 == 0:
                    print(f"‚úÖ Procesados {idx + 1} registros")
                
                # Pausa para rate limiting
                time.sleep(1.5)
                
            except Exception as e:
                print(f"‚ùå Error en registro {idx}: {e}")
                result = row.to_dict()
                result['bedrock_description'] = f"Error: {str(e)}"
                result['bedrock_prediction'] = "error"
                result['bedrock_confidence'] = 0.0
                result['bedrock_reasoning'] = f"Error: {str(e)}"
                results_full.append(result)
    
    # Crear DataFrame final
    enriched_full = pd.DataFrame(results_full)
    
    # Guardar dataset enriquecido completo
    output_path = "../data/credit_risk_enriched.csv"
    enriched_full.to_csv(output_path, index=False)
    
    print(f"\nüéâ DATASET COMPLETO PROCESADO")
    print(f"üìä Total registros: {len(enriched_full)}")
    print(f"üíæ Guardado en: {output_path}")
    
    # Estad√≠sticas finales
    final_predictions = enriched_full['bedrock_prediction'].value_counts()
    print(f"\nüìà Distribuci√≥n final:")
    for pred, count in final_predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_full)*100:.1f}%)")
        
else:
    print("‚ÑπÔ∏è Dataset completo NO procesado (PROCESS_FULL_DATASET = False)")
    print("   Para procesar todo, cambiar PROCESS_FULL_DATASET = True")

## üìã Pr√≥ximos Pasos

1. **‚úÖ An√°lisis exploratorio completado**
2. **‚úÖ Integraci√≥n Bedrock funcionando** 
3. **‚úÖ Muestra enriquecida generada**

**Siguientes pasos:**
- Entrenar modelo con SageMaker usando datos enriquecidos
- Crear API para predicciones en tiempo real
- Implementar monitoreo y m√©tricas