# ü§ñ AWS Bedrock - IA Generativa para Sistema H√≠brido

Este notebook implementa la integraci√≥n con **AWS Bedrock (Claude 3 Haiku)** como parte de un sistema h√≠brido de detecci√≥n de riesgo crediticio.

## üìä Objetivos (IMPLEMENTADOS):
1. **‚úÖ Generar descripciones enriquecidas** de clientes con IA Generativa
2. **‚úÖ Clasificar riesgo crediticio** usando Claude 3 Haiku  
3. **‚úÖ Crear dataset enriquecido** para entrenamiento ML
4. **‚úÖ Integrar con API h√≠brida** ML + IA Generativa

## üéØ **ROL EN EL SISTEMA FINAL:**
Bedrock funciona como **segundo modelo** en el sistema h√≠brido, proporcionando:
- Explicaciones detalladas del riesgo
- Validaci√≥n cruzada con ML tradicional
- Capacidad de razonamiento avanzado

In [1]:
# Instalar dependencias si es necesario
# !pip install boto3 pandas numpy python-dotenv

In [2]:
import boto3
import json
import pandas as pd
import numpy as np
import time
from pathlib import Path
import os
from typing import Dict, List
from botocore.exceptions import ClientError
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


In [3]:
# Configuraci√≥n AWS
AWS_REGION = "us-east-1"
BEDROCK_MODEL_ID = "anthropic.claude-3-haiku-20240307-v1:0"

print(f"üîß Regi√≥n configurada: {AWS_REGION}")
print(f"ü§ñ Modelo Bedrock: {BEDROCK_MODEL_ID}")
print("\n‚ö†Ô∏è  IMPORTANTE: Aseg√∫rate de tener configuradas tus credenciales AWS")
print("   - aws configure")
print("   - Variables de entorno AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY")

üîß Regi√≥n configurada: us-east-1
ü§ñ Modelo Bedrock: anthropic.claude-3-haiku-20240307-v1:0

‚ö†Ô∏è  IMPORTANTE: Aseg√∫rate de tener configuradas tus credenciales AWS
   - aws configure
   - Variables de entorno AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY


In [4]:
# Cargar datos reales del reto
data_path = Path("../data/credir_risk_reto.xlsx")

print(f"üìÇ Cargando datos desde: {data_path}")

if data_path.exists():
    df = pd.read_excel(data_path)
    print(f"‚úÖ Datos cargados exitosamente")
    print(f"üìä Forma del dataset: {df.shape}")
    print(f"üìã Columnas: {list(df.columns)}")
    
    # Guardar como CSV para uso futuro
    csv_path = "../data/credit_risk_reto.csv"
    df.to_csv(csv_path, index=False)
    print(f"üíæ Guardado como CSV: {csv_path}")
    
    # Mostrar muestra
    display(df.head())
else:
    print(f"‚ùå Archivo no encontrado: {data_path}")
    print("Por favor aseg√∫rate de que el archivo est√© en la carpeta data/")

üìÇ Cargando datos desde: ..\data\credir_risk_reto.xlsx
‚úÖ Datos cargados exitosamente
üìä Forma del dataset: (1000, 9)
üìã Columnas: ['Age', 'Sex', 'Job', 'Housing', 'Saving accounts', 'Checking account', 'Credit amount', 'Duration', 'Purpose']
üíæ Guardado como CSV: ../data/credit_risk_reto.csv


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,67,male,2,own,,little,1169,6,radio/TV
1,22,female,2,own,little,moderate,5951,48,radio/TV
2,49,male,1,own,little,,2096,12,education
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car


In [5]:
# An√°lisis b√°sico de los datos
print("üîç AN√ÅLISIS DE LOS DATOS REALES")
print("=" * 50)

print(f"Forma del dataset: {df.shape}")
print(f"\nTipos de datos:")
print(df.dtypes)

print(f"\nValores nulos:")
null_counts = df.isnull().sum()
for col, count in null_counts.items():
    if count > 0:
        print(f"‚Ä¢ {col}: {count} ({count/len(df)*100:.1f}%)")

print(f"\nPrimeras 5 filas:")
display(df.head())

üîç AN√ÅLISIS DE LOS DATOS REALES
Forma del dataset: (1000, 9)

Tipos de datos:
Age                  int64
Sex                 object
Job                  int64
Housing             object
Saving accounts     object
Checking account    object
Credit amount        int64
Duration             int64
Purpose             object
dtype: object

Valores nulos:
‚Ä¢ Saving accounts: 183 (18.3%)
‚Ä¢ Checking account: 394 (39.4%)

Primeras 5 filas:


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,67,male,2,own,,little,1169,6,radio/TV
1,22,female,2,own,little,moderate,5951,48,radio/TV
2,49,male,1,own,little,,2096,12,education
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car


In [6]:
# Funci√≥n para inicializar cliente Bedrock
def init_bedrock_client(region_name: str = AWS_REGION):
    """
    Inicializa el cliente de Bedrock
    """
    try:
        client = boto3.client(
            service_name='bedrock-runtime',
            region_name=region_name
        )
        
        # Test b√°sico
        print(f"‚úÖ Cliente Bedrock inicializado en regi√≥n: {region_name}")
        return client
        
    except Exception as e:
        print(f"‚ùå Error al inicializar Bedrock: {e}")
        print("\nüîß Soluciones posibles:")
        print("1. Verificar credenciales AWS: aws configure")
        print("2. Verificar permisos para Bedrock")
        print("3. Verificar que Bedrock est√© disponible en la regi√≥n")
        return None

# Inicializar cliente
bedrock_client = init_bedrock_client()

INFO:botocore.credentials:Found credentials in environment variables.


‚úÖ Cliente Bedrock inicializado en regi√≥n: us-east-1


In [7]:
# Funci√≥n para generar descripci√≥n de cliente
def generate_description(client, customer_data: dict, model_id: str = BEDROCK_MODEL_ID):
    """
    Genera descripci√≥n narrativa de un cliente usando Bedrock
    """
    
    # Crear prompt
    prompt = f"""
Como experto en an√°lisis crediticio, genera una descripci√≥n narrativa y profesional de este cliente bancario.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Crea una descripci√≥n de 2-3 p√°rrafos que incluya:
1. Perfil demogr√°fico y profesional
2. Situaci√≥n financiera y vivienda  
3. Detalles de la solicitud de cr√©dito

La descripci√≥n debe ser objetiva, profesional y √∫til para an√°lisis de riesgo crediticio.

Descripci√≥n:
"""
    
    try:
        # Request body para Claude
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 500,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        # Llamar a Bedrock
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        # Procesar respuesta
        response_body = json.loads(response['body'].read())
        description = response_body['content'][0]['text'].strip()
        
        return description
        
    except Exception as e:
        print(f"‚ùå Error generando descripci√≥n: {e}")
        return f"Error: {str(e)}"

print("‚úÖ Funci√≥n de generaci√≥n de descripciones definida")

‚úÖ Funci√≥n de generaci√≥n de descripciones definida


In [8]:
# Funci√≥n para clasificar riesgo crediticio
def classify_risk(client, customer_data: dict, description: str, model_id: str = BEDROCK_MODEL_ID):
    """
    Clasifica el riesgo crediticio usando Bedrock
    """
    
    prompt = f"""
Como analista de riesgo crediticio, eval√∫a este cliente y clasif√≠calo.

Datos del cliente:
{json.dumps(customer_data, indent=2, ensure_ascii=False)}

Descripci√≥n del cliente:
{description}

Clasifica el riesgo crediticio como:
- "good" para bajo riesgo (recomendado aprobar)
- "bad" para alto riesgo (recomendado rechazar)

Responde en el siguiente formato JSON:
{{
    "prediction": "good" o "bad",
    "confidence": n√∫mero entre 0.0 y 1.0,
    "reasoning": "explicaci√≥n breve de la decisi√≥n"
}}

Respuesta:
"""
    
    try:
        request_body = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 300,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ]
        }
        
        response = client.invoke_model(
            modelId=model_id,
            body=json.dumps(request_body),
            contentType='application/json',
            accept='application/json'
        )
        
        response_body = json.loads(response['body'].read())
        classification_text = response_body['content'][0]['text'].strip()
        
        # Intentar parsear JSON
        try:
            start_idx = classification_text.find('{')
            end_idx = classification_text.rfind('}') + 1
            
            if start_idx != -1 and end_idx != 0:
                json_text = classification_text[start_idx:end_idx]
                result = json.loads(json_text)
                return result
        except:
            pass
        
        # Fallback: clasificaci√≥n b√°sica
        if 'good' in classification_text.lower():
            return {"prediction": "good", "confidence": 0.6, "reasoning": "Parsed from text"}
        elif 'bad' in classification_text.lower():
            return {"prediction": "bad", "confidence": 0.6, "reasoning": "Parsed from text"}
        else:
            return {"prediction": "unknown", "confidence": 0.0, "reasoning": "Could not parse"}
            
    except Exception as e:
        print(f"‚ùå Error en clasificaci√≥n: {e}")
        return {"prediction": "error", "confidence": 0.0, "reasoning": f"Error: {str(e)}"}

print("‚úÖ Funci√≥n de clasificaci√≥n de riesgo definida")

‚úÖ Funci√≥n de clasificaci√≥n de riesgo definida


In [9]:
# Probar con un ejemplo antes de procesar todo el dataset
if bedrock_client and len(df) > 0:
    print("üß™ PRUEBA CON UN REGISTRO")
    print("=" * 30)
    
    # Tomar el primer registro
    sample_row = df.iloc[0]
    sample_data = sample_row.to_dict()
    
    print(f"üìã Datos del cliente de prueba:")
    for key, value in sample_data.items():
        print(f"  {key}: {value}")
    
    print(f"\nü§ñ Generando descripci√≥n con Bedrock...")
    description = generate_description(bedrock_client, sample_data)
    print(f"üìù Descripci√≥n generada:")
    print(description)
    
    print(f"\nüéØ Clasificando riesgo...")
    classification = classify_risk(bedrock_client, sample_data, description)
    print(f"üîç Clasificaci√≥n:")
    print(json.dumps(classification, indent=2, ensure_ascii=False))
    
else:
    print("‚ö†Ô∏è No se puede realizar la prueba:")
    print("‚Ä¢ Cliente Bedrock no inicializado o")
    print("‚Ä¢ Dataset vac√≠o")

üß™ PRUEBA CON UN REGISTRO
üìã Datos del cliente de prueba:
  Age: 67
  Sex: male
  Job: 2
  Housing: own
  Saving accounts: nan
  Checking account: little
  Credit amount: 1169
  Duration: 6
  Purpose: radio/TV

ü§ñ Generando descripci√≥n con Bedrock...
üìù Descripci√≥n generada:
Descripci√≥n del cliente bancario:

Este cliente es un hombre de 67 a√±os de edad. Seg√∫n la informaci√≥n proporcionada, su ocupaci√≥n se clasifica como "Job 2", lo que sugiere que se trata de un trabajador con un empleo estable y una trayectoria laboral consolidada. 

En cuanto a su situaci√≥n financiera y vivienda, el cliente es propietario de su propia vivienda, lo cual indica una cierta estabilidad y solvencia. Sin embargo, no se proporciona informaci√≥n sobre sus cuentas de ahorro, por lo que no es posible determinar con precisi√≥n su nivel de ahorros. Por otro lado, se menciona que tiene una "peque√±a" cuenta corriente, lo que podr√≠a implicar que su liquidez a corto plazo es limitada.

En relaci√≥n

In [10]:
# Procesar un lote peque√±o del dataset (primeros 10 registros para prueba)
if bedrock_client and len(df) > 0:
    print("üîÑ PROCESANDO LOTE DE PRUEBA (10 registros)")
    print("=" * 50)
    
    # Tomar solo los primeros 10 registros para prueba
    sample_df = df.head(10).copy()
    
    results = []
    
    for idx, row in sample_df.iterrows():
        print(f"\nüì¶ Procesando registro {idx + 1}/10...")
        
        try:
            customer_data = row.to_dict()
            
            # Generar descripci√≥n
            description = generate_description(bedrock_client, customer_data)
            
            # Clasificar riesgo
            classification = classify_risk(bedrock_client, customer_data, description)
            
            # Agregar resultados
            result = customer_data.copy()
            result['bedrock_description'] = description
            result['bedrock_prediction'] = classification['prediction']
            result['bedrock_confidence'] = classification['confidence']
            result['bedrock_reasoning'] = classification['reasoning']
            
            results.append(result)
            
            print(f"‚úÖ Registro {idx + 1} procesado: {classification['prediction']}")
            
            # Pausa para evitar rate limiting
            time.sleep(2)
            
        except Exception as e:
            print(f"‚ùå Error procesando registro {idx + 1}: {e}")
            result = row.to_dict()
            result['bedrock_description'] = f"Error: {str(e)}"
            result['bedrock_prediction'] = "error"
            result['bedrock_confidence'] = 0.0
            result['bedrock_reasoning'] = f"Error: {str(e)}"
            results.append(result)
    
    # Crear DataFrame con resultados
    enriched_sample = pd.DataFrame(results)
    
    print(f"\n‚úÖ Procesamiento completado")
    print(f"üìä Registros procesados: {len(enriched_sample)}")
    
    # Mostrar resumen
    predictions = enriched_sample['bedrock_prediction'].value_counts()
    print(f"\nüìà Distribuci√≥n de predicciones:")
    for pred, count in predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_sample)*100:.1f}%)")
    
    # Guardar muestra enriquecida
    sample_output = "../data/credit_risk_sample_enriched.csv"
    enriched_sample.to_csv(sample_output, index=False)
    print(f"\nüíæ Muestra enriquecida guardada: {sample_output}")
    
    display(enriched_sample[['bedrock_prediction', 'bedrock_confidence', 'bedrock_description']].head())
    
else:
    print("‚ö†Ô∏è No se puede procesar el lote: Cliente Bedrock no disponible")

üîÑ PROCESANDO LOTE DE PRUEBA (10 registros)

üì¶ Procesando registro 1/10...
‚úÖ Registro 1 procesado: good

üì¶ Procesando registro 2/10...
‚úÖ Registro 2 procesado: good

üì¶ Procesando registro 3/10...
‚úÖ Registro 3 procesado: bad

üì¶ Procesando registro 4/10...
‚úÖ Registro 4 procesado: good

üì¶ Procesando registro 5/10...
‚úÖ Registro 5 procesado: bad

üì¶ Procesando registro 6/10...
‚úÖ Registro 6 procesado: good

üì¶ Procesando registro 7/10...
‚úÖ Registro 7 procesado: good

üì¶ Procesando registro 8/10...
‚úÖ Registro 8 procesado: good

üì¶ Procesando registro 9/10...
‚úÖ Registro 9 procesado: good

üì¶ Procesando registro 10/10...
‚úÖ Registro 10 procesado: good

‚úÖ Procesamiento completado
üìä Registros procesados: 10

üìà Distribuci√≥n de predicciones:
  good: 8 (80.0%)
  bad: 2 (20.0%)

üíæ Muestra enriquecida guardada: ../data/credit_risk_sample_enriched.csv


Unnamed: 0,bedrock_prediction,bedrock_confidence,bedrock_description
0,good,0.7,Descripci√≥n del cliente bancario:\n\nEste clie...
1,good,0.8,Descripci√≥n del cliente bancario:\n\nEste clie...
2,bad,0.7,Descripci√≥n del cliente bancario:\n\nEste clie...
3,good,0.7,Descripci√≥n del cliente bancario:\n\nEste clie...
4,bad,0.7,Descripci√≥n del cliente bancario:\n\nEste clie...


## üí∞ Costos Reales del Proyecto

### üßÆ **Estimaci√≥n Original vs Realidad:**

**Para dataset completo (1000 registros):**
- Input: ~500 tokens √ó 2000 requests = 1M tokens
- Output: ~300 tokens √ó 2000 requests = 600K tokens  
- **Costo estimado: ~$1.50 USD** ‚úÖ

### üéØ **Costos Finales Implementados:**
- **Dataset de prueba (10 registros)**: ~$0.05 USD
- **Sistema en producci√≥n**: ~$0.50 por cada 100 predicciones
- **Desarrollo total**: ~$0.50 USD (solo muestras)

### ‚úÖ **Decisi√≥n Inteligente:**
Se us√≥ **muestra peque√±a** para desarrollo y se cre√≥ **API que llama Bedrock en tiempo real**, optimizando costos y funcionalidad.

In [11]:
# OPCIONAL: Procesar dataset completo (solo ejecutar si est√°s seguro)
PROCESS_FULL_DATASET = False  # Cambiar a True para procesar todo

if PROCESS_FULL_DATASET and bedrock_client and len(df) > 0:
    print("üöÄ PROCESANDO DATASET COMPLETO")
    print(f"üìä Total de registros: {len(df)}")
    print("üí∞ Costo estimado: ~$1.50 USD")
    print("‚è±Ô∏è Tiempo estimado: 1-2 horas")
    
    input("\n‚ö†Ô∏è Presiona ENTER para continuar o Ctrl+C para cancelar...")
    
    results_full = []
    batch_size = 10
    
    for i in range(0, len(df), batch_size):
        batch = df.iloc[i:i+batch_size]
        print(f"\nüì¶ Procesando lote {i//batch_size + 1}/{(len(df)-1)//batch_size + 1}")
        
        for idx, row in batch.iterrows():
            try:
                customer_data = row.to_dict()
                
                # Generar descripci√≥n
                description = generate_description(bedrock_client, customer_data)
                
                # Clasificar riesgo
                classification = classify_risk(bedrock_client, customer_data, description)
                
                # Agregar resultados
                result = customer_data.copy()
                result['bedrock_description'] = description
                result['bedrock_prediction'] = classification['prediction']
                result['bedrock_confidence'] = classification['confidence']
                result['bedrock_reasoning'] = classification['reasoning']
                
                results_full.append(result)
                
                if (idx + 1) % 50 == 0:
                    print(f"‚úÖ Procesados {idx + 1} registros")
                
                # Pausa para rate limiting
                time.sleep(1.5)
                
            except Exception as e:
                print(f"‚ùå Error en registro {idx}: {e}")
                result = row.to_dict()
                result['bedrock_description'] = f"Error: {str(e)}"
                result['bedrock_prediction'] = "error"
                result['bedrock_confidence'] = 0.0
                result['bedrock_reasoning'] = f"Error: {str(e)}"
                results_full.append(result)
    
    # Crear DataFrame final
    enriched_full = pd.DataFrame(results_full)
    
    # Guardar dataset enriquecido completo
    output_path = "../data/credit_risk_enriched.csv"
    enriched_full.to_csv(output_path, index=False)
    
    print(f"\nüéâ DATASET COMPLETO PROCESADO")
    print(f"üìä Total registros: {len(enriched_full)}")
    print(f"üíæ Guardado en: {output_path}")
    
    # Estad√≠sticas finales
    final_predictions = enriched_full['bedrock_prediction'].value_counts()
    print(f"\nüìà Distribuci√≥n final:")
    for pred, count in final_predictions.items():
        print(f"  {pred}: {count} ({count/len(enriched_full)*100:.1f}%)")
        
else:
    print("‚ÑπÔ∏è Dataset completo NO procesado (PROCESS_FULL_DATASET = False)")
    print("   Para procesar todo, cambiar PROCESS_FULL_DATASET = True")

‚ÑπÔ∏è Dataset completo NO procesado (PROCESS_FULL_DATASET = False)
   Para procesar todo, cambiar PROCESS_FULL_DATASET = True


## üéØ Estado del Proyecto y Resultados

### ‚úÖ **COMPLETADO EXITOSAMENTE:**
1. **‚úÖ Integraci√≥n Bedrock funcionando** (Claude 3 Haiku)
2. **‚úÖ Cliente optimizado** en `src/data_generation.py`
3. **‚úÖ Muestra enriquecida generada** para entrenamiento
4. **‚úÖ API h√≠brida implementada** (ML + Bedrock en tiempo real)

### üèóÔ∏è **ARQUITECTURA FINAL IMPLEMENTADA:**
```
üìä Datos ‚Üí ü§ñ Random Forest + üß† Claude 3 Haiku ‚Üí üìà Predicci√≥n H√≠brida
                              ‚Üì
                    üìä Dashboard + Monitoreo
```

### üí∞ **OPTIMIZACI√ìN DE COSTOS LOGRADA:**
- **Entrenamiento ML**: $0 (local, no SageMaker)
- **Bedrock**: Solo en tiempo real (~$0.50/100 predicciones)
- **Total desarrollo**: <$1 USD

### üöÄ **PR√ìXIMO: Usar el Sistema Completo**
```bash
cd scripts
.\restart_api.bat
```
**Dashboard**: http://localhost:8001/dashboard