# 🤖 AWS Bedrock - Generación de Descripciones y Clasificación

Este notebook implementa la integración con AWS Bedrock para:
1. Generar descripciones enriquecidas de clientes
2. Clasificar riesgo crediticio usando IA generativa
3. Crear dataset enriquecido para entrenamiento

In [None]:
# Instalar dependencias si es necesario
# !pip install boto3 pandas numpy python-dotenv

In [None]:
import boto3
import json
import pandas as pd
import numpy as np
import time
from pathlib import Path
import os
from typing import Dict, List
from botocore.exceptions import ClientError
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

print("✅ Librerías importadas correctamente")

In [None]:
# Configuración AWS
AWS_REGION = "us-east-1"
BEDROCK_MODEL_ID = "anthropic.claude-3-haiku-20240307-v1:0"

print(f"🔧 Región configurada: {AWS_REGION}")
print(f"🤖 Modelo Bedrock: {BEDROCK_MODEL_ID}")
print("\n⚠️  IMPORTANTE: Asegúrate de tener configuradas tus credenciales AWS")
print("   - aws configure")
print("   - Variables de entorno AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY")

In [None]:
# Cargar datos reales del reto
data_path = Path("../data/credir_risk_reto.xlsx")

print(f"📂 Cargando datos desde: {data_path}")

if data_path.exists():
    df = pd.read_excel(data_path)
    print(f"✅ Datos cargados exitosamente")
    print(f"📊 Forma del dataset: {df.shape}")
    print(f"📋 Columnas: {list(df.columns)}")
    
    # Guardar como CSV para uso futuro
    csv_path = "../data/credit_risk_reto.csv"
    df.to_csv(csv_path, index=False)
    print(f"💾 Guardado como CSV: {csv_path}")
    
    # Mostrar muestra
    display(df.head())
else:
    print(f"❌ Archivo no encontrado: {data_path}")
    print("Por favor asegúrate de que el archivo esté en la carpeta data/")

In [None]:
# Análisis básico de los datos
print("🔍 ANÁLISIS DE LOS DATOS REALES")
print("=" * 50)

print(f"Forma del dataset: {df.shape}")
print(f"\nTipos de datos:")
print(df.dtypes)

print(f"\nValores nulos:")
null_counts = df.isnull().sum()
for col, count in null_counts.items():
    if count > 0:
        print(f"• {col}: {count} ({count/len(df)*100:.1f}%)")

print(f"\nPrimeras 5 filas:")
display(df.head())

In [None]:
# Función para inicializar cliente Bedrock
def init_bedrock_client(region_name: str = AWS_REGION):
    """
    Inicializa el cliente de Bedrock
    """
    try:
        client = boto3.client(
            service_name='bedrock-runtime',
            region_name=region_name
        )
        
        # Test básico
        print(f"✅ Cliente Bedrock inicializado en región: {region_name}")
        return client
        
    except Exception as e:
        print(f"❌ Error al inicializar Bedrock: {e}")
        print("\n🔧 Soluciones posibles:")
        print("1. Verificar credenciales AWS: aws configure")
        print("2. Verificar permisos para Bedrock")
        print("3. Verificar que Bedrock esté disponible en la región")
        return None

# Inicializar cliente
bedrock_client = init_bedrock_client()

In [None]:
# Función para generar descripción de cliente
def generate_description(client, customer_data: dict, model_id: str = BEDROCK_MODEL_ID):
    """
    Genera descripción narrativa de un cliente usando Bedrock
    """
    
    # Crear prompt
    prompt = f"""
Como experto en análisis crediticio, genera una descripción narrativa y profesional de este cliente bancario.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Crea una descripción de 2-3 párrafos que incluya:
1. Perfil demográfico y profesional
2. Situación financiera y vivienda  
3. Detalles de la solicitud de crédito

La descripción debe ser objetiva, profesional y útil para análisis de riesgo crediticio.

Descripción:
"""
    
    try:
        # Request body para Claude
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 500,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        # Llamar a Bedrock
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        # Procesar respuesta
        response_body = json.loads(response['body'].read())
        description = response_body['content'][0]['text'].strip()
        
        return description
        
    except Exception as e:
        print(f"❌ Error generando descripción: {e}")
        return f"Error: {str(e)}"

print("✅ Función de generación de descripciones definida")

In [None]:
# Función para clasificar riesgo crediticio
def classify_risk(client, customer_data: dict, description: str, model_id: str = BEDROCK_MODEL_ID):
    """
    Clasifica el riesgo crediticio usando Bedrock
    """
    
    prompt = f"""
Como analista de riesgo crediticio, evalúa este cliente y clasifícalo.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Descripción del cliente:
{description}

Clasifica el riesgo crediticio como:
- "good" para bajo riesgo (recomendado aprobar)
- "bad" para alto riesgo (recomendado rechazar)

Responde en el siguiente formato JSON:
{{
    "prediction": "good" o "bad",
    "confidence": número entre 0.0 y 1.0,
    "reasoning": "explicación breve de la decisión"
}}

Respuesta:
"""
    
    try:
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 300,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        response_body = json.loads(response['body'].read())
        classification_text = response_body['content'][0]['text'].strip()
        
        # Intentar parsear JSON
        try:
            start_idx = classification_text.find('{')
            end_idx = classification_text.rfind('}') + 1
            
            if start_idx != -1 and end_idx != 0:
                json_text = classification_text[start_idx:end_idx]
                result = json.loads(json_text)
                return result
        except:
            pass
        
        # Fallback: clasificación básica
        if 'good' in classification_text.lower():
            return {"prediction": "good", "confidence": 0.6, "reasoning": "Parsed from text"}
        elif 'bad' in classification_text.lower():
            return {"prediction": "bad", "confidence": 0.6, "reasoning": "Parsed from text"}
        else:
            return {"prediction": "unknown", "confidence": 0.0, "reasoning": "Could not parse"}
            
    except Exception as e:
        print(f"❌ Error en clasificación: {e}")
        return {"prediction": "error", "confidence": 0.0, "reasoning": f"Error: {str(e)}"}

print("✅ Función de clasificación de riesgo definida")

In [None]:
# Probar con un ejemplo antes de procesar todo el dataset
if bedrock_client and len(df) > 0:
    print("🧪 PRUEBA CON UN REGISTRO")
    print("=" * 30)
    
    # Tomar el primer registro
    sample_row = df.iloc[0]
    sample_data = sample_row.to_dict()
    
    print(f"📋 Datos del cliente de prueba:")
    for key, value in sample_data.items():
        print(f"  {key}: {value}")
    
    print(f"\n🤖 Generando descripción con Bedrock...")
    description = generate_description(bedrock_client, sample_data)
    print(f"📝 Descripción generada:")
    print(description)
    
    print(f"\n🎯 Clasificando riesgo...")
    classification = classify_risk(bedrock_client, sample_data, description)
    print(f"🔍 Clasificación:")
    print(json.dumps(classification, indent=2, ensure_ascii=False))
    
else:
    print("⚠️ No se puede realizar la prueba:")
    print("• Cliente Bedrock no inicializado o")
    print("• Dataset vacío")

In [None]:
# Procesar un lote pequeño del dataset (primeros 10 registros para prueba)
if bedrock_client and len(df) > 0:
    print("🔄 PROCESANDO LOTE DE PRUEBA (10 registros)")
    print("=" * 50)
    
    # Tomar solo los primeros 10 registros para prueba
    sample_df = df.head(10).copy()
    
    results = []
    
    for idx, row in sample_df.iterrows():
        print(f"\n📦 Procesando registro {idx + 1}/10...")
        
        try:
            customer_data = row.to_dict()
            
            # Generar descripción
            description = generate_description(bedrock_client, customer_data)
            
            # Clasificar riesgo
            classification = classify_risk(bedrock_client, customer_data, description)
            
            # Agregar resultados
            result = customer_data.copy()
            result['bedrock_description'] = description
            result['bedrock_prediction'] = classification['prediction']
            result['bedrock_confidence'] = classification['confidence']
            result['bedrock_reasoning'] = classification['reasoning']
            
            results.append(result)
            
            print(f"✅ Registro {idx + 1} procesado: {classification['prediction']}")
            
            # Pausa para evitar rate limiting
            time.sleep(2)
            
        except Exception as e:
            print(f"❌ Error procesando registro {idx + 1}: {e}")
            result = row.to_dict()
            result['bedrock_description'] = f"Error: {str(e)}"
            result['bedrock_prediction'] = "error"
            result['bedrock_confidence'] = 0.0
            result['bedrock_reasoning'] = f"Error: {str(e)}"
            results.append(result)
    
    # Crear DataFrame con resultados
    enriched_sample = pd.DataFrame(results)
    
    print(f"\n✅ Procesamiento completado")
    print(f"📊 Registros procesados: {len(enriched_sample)}")
    
    # Mostrar resumen
    predictions = enriched_sample['bedrock_prediction'].value_counts()
    print(f"\n📈 Distribución de predicciones:")
    for pred, count in predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_sample)*100:.1f}%)")
    
    # Guardar muestra enriquecida
    sample_output = "../data/credit_risk_sample_enriched.csv"
    enriched_sample.to_csv(sample_output, index=False)
    print(f"\n💾 Muestra enriquecida guardada: {sample_output}")
    
    display(enriched_sample[['bedrock_prediction', 'bedrock_confidence', 'bedrock_description']].head())
    
else:
    print("⚠️ No se puede procesar el lote: Cliente Bedrock no disponible")

## 💰 Estimación de Costos

Para procesar el dataset completo de 1000 registros:

**Claude 3 Haiku:**
- Input: ~500 tokens por request × 2000 requests = 1M tokens
- Output: ~300 tokens por request × 2000 requests = 600K tokens  
- **Costo estimado: ~$1.50 USD**

**Tiempo estimado:** 1-2 horas (con pausas para rate limiting)

¿Continuar con el dataset completo?

In [None]:
# OPCIONAL: Procesar dataset completo (solo ejecutar si estás seguro)
PROCESS_FULL_DATASET = False  # Cambiar a True para procesar todo

if PROCESS_FULL_DATASET and bedrock_client and len(df) > 0:
    print("🚀 PROCESANDO DATASET COMPLETO")
    print(f"📊 Total de registros: {len(df)}")
    print("💰 Costo estimado: ~$1.50 USD")
    print("⏱️ Tiempo estimado: 1-2 horas")
    
    input("\n⚠️ Presiona ENTER para continuar o Ctrl+C para cancelar...")
    
    results_full = []
    batch_size = 10
    
    for i in range(0, len(df), batch_size):
        batch = df.iloc[i:i+batch_size]
        print(f"\n📦 Procesando lote {i//batch_size + 1}/{(len(df)-1)//batch_size + 1}")
        
        for idx, row in batch.iterrows():
            try:
                customer_data = row.to_dict()
                
                # Generar descripción
                description = generate_description(bedrock_client, customer_data)
                
                # Clasificar riesgo
                classification = classify_risk(bedrock_client, customer_data, description)
                
                # Agregar resultados
                result = customer_data.copy()
                result['bedrock_description'] = description
                result['bedrock_prediction'] = classification['prediction']
                result['bedrock_confidence'] = classification['confidence']
                result['bedrock_reasoning'] = classification['reasoning']
                
                results_full.append(result)
                
                if (idx + 1) % 50 == 0:
                    print(f"✅ Procesados {idx + 1} registros")
                
                # Pausa para rate limiting
                time.sleep(1.5)
                
            except Exception as e:
                print(f"❌ Error en registro {idx}: {e}")
                result = row.to_dict()
                result['bedrock_description'] = f"Error: {str(e)}"
                result['bedrock_prediction'] = "error"
                result['bedrock_confidence'] = 0.0
                result['bedrock_reasoning'] = f"Error: {str(e)}"
                results_full.append(result)
    
    # Crear DataFrame final
    enriched_full = pd.DataFrame(results_full)
    
    # Guardar dataset enriquecido completo
    output_path = "../data/credit_risk_enriched.csv"
    enriched_full.to_csv(output_path, index=False)
    
    print(f"\n🎉 DATASET COMPLETO PROCESADO")
    print(f"📊 Total registros: {len(enriched_full)}")
    print(f"💾 Guardado en: {output_path}")
    
    # Estadísticas finales
    final_predictions = enriched_full['bedrock_prediction'].value_counts()
    print(f"\n📈 Distribución final:")
    for pred, count in final_predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_full)*100:.1f}%)")
        
else:
    print("ℹ️ Dataset completo NO procesado (PROCESS_FULL_DATASET = False)")
    print("   Para procesar todo, cambiar PROCESS_FULL_DATASET = True")

## 📋 Próximos Pasos

1. **✅ Análisis exploratorio completado**
2. **✅ Integración Bedrock funcionando** 
3. **✅ Muestra enriquecida generada**

**Siguientes pasos:**
- Entrenar modelo con SageMaker usando datos enriquecidos
- Crear API para predicciones en tiempo real
- Implementar monitoreo y métricas