# üîÑ Notebook 2: Flujo Completo con Anonimizaci√≥n

Este notebook ejecuta el flujo completo:
1. Cargar datos
2. Ejecutar an√°lisis en paralelo
3. Detectar PII
4. Anonimizar autom√°ticamente
5. Generar diagn√≥stico con LLM

## Setup

In [1]:
import pandas as pd
import sys
import json
from pathlib import Path

sys.path.append('..')

from fase3_evaluator.integration import (
    run_parallel_analysis,
    get_analysis_summary
)
from fase3_evaluator.agent import generate_diagnosis
from config import settings

print("‚úÖ Imports exitosos")
print(f"\n‚öôÔ∏è Configuraci√≥n:")
print(f"  - OpenAI Model: {settings.OPENAI_MODEL}")
print(f"  - Max Workers: {settings.MAX_WORKERS}")
print(f"  - API Key configurada: {'S√≠' if settings.OPENAI_API_KEY else 'No'}")

‚úÖ Imports exitosos

‚öôÔ∏è Configuraci√≥n:
  - OpenAI Model: gpt-4o
  - Max Workers: 6
  - API Key configurada: S√≠


## Paso 1: Crear Dataset con PII

Creamos un dataset que incluye informaci√≥n sensible para probar la anonimizaci√≥n

In [2]:
# Dataset con PII para probar anonimizaci√≥n
df_with_pii = pd.DataFrame({
    'id_registro': range(1, 16),
    'nombre_completo': [
        'Juan Garc√≠a L√≥pez', 'Mar√≠a Rodr√≠guez P√©rez', 'Pedro Mart√≠nez S√°nchez',
        'Ana L√≥pez Fern√°ndez', 'Carlos S√°nchez Garc√≠a', 'Laura Fern√°ndez Mart√≠n',
        'Miguel P√©rez L√≥pez', 'Isabel Garc√≠a Rodr√≠guez', 'Antonio L√≥pez Mart√≠nez',
        'Carmen Mart√≠nez Garc√≠a', 'Jos√© Rodr√≠guez L√≥pez', 'Teresa Garc√≠a P√©rez',
        'Francisco L√≥pez S√°nchez', 'Rosa P√©rez Fern√°ndez', 'Manuel S√°nchez Mart√≠n'
    ],
    'fecha_nacimiento': pd.date_range('1960-01-01', periods=15, freq='2Y'),
    'fecha_evento': pd.date_range('2024-01-01', periods=15, freq='2W'),
    'edad': [25, 30, 45, 52, 38, 60, 28, 35, 42, 29, 55, 48, 33, 41, 37],
    'sexo': ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M'],
    'dni': ['12345678A', '23456789B', '34567890C', '45678901D', '56789012E',
            '67890123F', '78901234G', '89012345H', '90123456I', '01234567J',
            '12345678K', '23456789L', '34567890M', '45678901N', '56789012O'],
    'telefono': ['666123456', '677234567', '688345678', None, '600456789',
                 '611567890', '622678901', '633789012', None, '655901234',
                 '666012345', '677123456', '688234567', '699345678', '600456789'],
    'direccion': [
        'Calle Mayor 123, Madrid', 'Avenida Principal 45, Valencia',
        'Plaza Espa√±a 7, Barcelona', 'Calle Real 89, Sevilla',
        'Madrid', 'Valencia', 'Barcelona', 'Calle Nueva 12, Madrid',
        'Sevilla', 'Avenida Central 34, Madrid', 'Valencia',
        'Calle Luna 56, Barcelona', 'Madrid', 'Sevilla', 'Valencia'
    ],
    'metodo': [
        'ahorcamiento', 'intoxicacion', 'arma de fuego', 'ahorcamiento', 'precipitacion',
        'ahorcamiento', 'intoxicacion', None, 'arma de fuego', 'ahorcamiento',
        'intoxicacion', 'ahorcamiento', 'precipitacion', 'intoxicacion', 'ahorcamiento'
    ],
    'municipio': [
        'Madrid', 'Valencia', 'Barcelona', 'Sevilla', 'Madrid',
        'Valencia', 'Barcelona', 'Madrid', 'Sevilla', 'Madrid',
        'Valencia', 'Barcelona', 'Madrid', 'Sevilla', 'Valencia'
    ],
    'tipo_evento': [
        'consumado', 'intento', 'consumado', 'intento', 'consumado',
        'consumado', 'intento', 'intento', 'consumado', 'intento',
        'consumado', 'intento', 'consumado', 'intento', 'consumado'
    ]
})

print(f"Dataset creado: {len(df_with_pii)} registros")
print(f"\n‚ö†Ô∏è Columnas con PII:")
print("  - nombre_completo")
print("  - dni")
print("  - telefono")
print("  - direccion (algunas con direcci√≥n exacta)")

df_with_pii.head()

Dataset creado: 15 registros

‚ö†Ô∏è Columnas con PII:
  - nombre_completo
  - dni
  - telefono
  - direccion (algunas con direcci√≥n exacta)


  'fecha_nacimiento': pd.date_range('1960-01-01', periods=15, freq='2Y'),


Unnamed: 0,id_registro,nombre_completo,fecha_nacimiento,fecha_evento,edad,sexo,dni,telefono,direccion,metodo,municipio,tipo_evento
0,1,Juan Garc√≠a L√≥pez,1960-12-31,2024-01-07,25,M,12345678A,666123456.0,"Calle Mayor 123, Madrid",ahorcamiento,Madrid,consumado
1,2,Mar√≠a Rodr√≠guez P√©rez,1962-12-31,2024-01-21,30,F,23456789B,677234567.0,"Avenida Principal 45, Valencia",intoxicacion,Valencia,intento
2,3,Pedro Mart√≠nez S√°nchez,1964-12-31,2024-02-04,45,M,34567890C,688345678.0,"Plaza Espa√±a 7, Barcelona",arma de fuego,Barcelona,consumado
3,4,Ana L√≥pez Fern√°ndez,1966-12-31,2024-02-18,52,F,45678901D,,"Calle Real 89, Sevilla",ahorcamiento,Sevilla,intento
4,5,Carlos S√°nchez Garc√≠a,1968-12-31,2024-03-03,38,M,56789012E,600456789.0,Madrid,precipitacion,Madrid,consumado


## Paso 2: Ejecutar An√°lisis Completo

Esto ejecuta los 6 analizadores en paralelo + anonimizaci√≥n autom√°tica

In [3]:
# Ejecutar an√°lisis completo
print("üöÄ Ejecutando an√°lisis paralelo...\n")

consolidated_json, df_anonymized, anonymization_report = run_parallel_analysis(
    df_with_pii,
    filename="dataset_con_pii.csv",
    auto_anonymize=True
)

print("\n‚úÖ An√°lisis completado")

INFO:fase3_evaluator.integration.orchestrator:Iniciando an√°lisis paralelo de 'dataset_con_pii.csv' con 15 registros y 12 columnas
INFO:fase3_evaluator.integration.orchestrator:Ejecutando analizadores en paralelo...
INFO:fase3_evaluator.integration.orchestrator:‚úì typology completado
INFO:fase3_evaluator.integration.orchestrator:‚úì geospatial completado
INFO:fase3_evaluator.integration.orchestrator:‚úì semantic completado
INFO:fase3_evaluator.integration.orchestrator:‚úì completeness completado
  detailed_addresses = series[series.str.contains(detailed_pattern, na=False)]
INFO:fase3_evaluator.integration.orchestrator:‚úì anonymization completado
INFO:fase3_evaluator.integration.orchestrator:‚úì ml_readiness completado
INFO:fase3_evaluator.integration.orchestrator:Anonimizaci√≥n completada y validada
INFO:fase3_evaluator.integration.orchestrator:Consolidando resultados...
ml.model_suggestions.0.models
  Input should be a valid string [type=string_type, input_value=['Logistic Regressio

üöÄ Ejecutando an√°lisis paralelo...


‚úÖ An√°lisis completado


## Paso 3: Verificar Anonimizaci√≥n

In [5]:
# Mostrar reporte de anonimizaci√≥n
if anonymization_report:
    print("=" * 60)
    print("REPORTE DE ANONIMIZACI√ìN")
    print("=" * 60)
    print(f"Columnas originales: {anonymization_report['original_columns']}")
    print(f"Columnas anonimizadas: {anonymization_report['anonymized_columns']}")
    print(f"Columnas eliminadas: {anonymization_report['columns_removed']}")
    print(f"Transformaciones aplicadas: {anonymization_report['transformations_applied']}")
    
    print("\nüìã Detalles de transformaciones:")
    for col, transform in anonymization_report['transformation_details'].items():
        print(f"  - {col}: {transform}")
    
    print("\n‚úÖ Validaci√≥n:")
    validation = anonymization_report['validation']
    print(f"  - Seguro: {'S√≠' if validation['is_safe'] else 'No'}")
    print(f"  - Riesgo residual PII: {validation['residual_pii_risk']:.1f}")
    if validation['warnings']:
        print(f"  - Advertencias: {len(validation['warnings'])}")
        for warning in validation['warnings']:
            print(f"    ‚ö†Ô∏è {warning}")
else:
    print("‚ÑπÔ∏è No se detect√≥ PII - no se requiri√≥ anonimizaci√≥n")

REPORTE DE ANONIMIZACI√ìN
Columnas originales: 12
Columnas anonimizadas: 12
Columnas eliminadas: 0
Transformaciones aplicadas: 5

üìã Detalles de transformaciones:
  - id_registro: removed
  - nombre_completo: masked
  - dni: removed
  - telefono: masked_partial
  - direccion: aggregated_to_municipality

‚úÖ Validaci√≥n:
  - Seguro: S√≠
  - Riesgo residual PII: 0.0


## Paso 4: Comparar Datos Originales vs Anonimizados

In [6]:
# Comparaci√≥n lado a lado
print("COMPARACI√ìN: ORIGINAL vs ANONIMIZADO\n")

# Seleccionar columnas que fueron anonimizadas
if anonymization_report:
    pii_cols = list(anonymization_report['transformation_details'].keys())
    
    for col in pii_cols[:3]:  # Primeras 3 columnas
        if col in df_with_pii.columns and col in df_anonymized.columns:
            print(f"\nüìä Columna: {col}")
            print("-" * 40)
            comparison = pd.DataFrame({
                'Original': df_with_pii[col].head(5),
                'Anonimizado': df_anonymized[col].head(5)
            })
            print(comparison)

COMPARACI√ìN: ORIGINAL vs ANONIMIZADO


üìä Columna: id_registro
----------------------------------------
   Original  Anonimizado
0         1          NaN
1         2          NaN
2         3          NaN
3         4          NaN
4         5          NaN

üìä Columna: nombre_completo
----------------------------------------
                 Original Anonimizado
0       Juan Garc√≠a L√≥pez   PERSONA_1
1   Mar√≠a Rodr√≠guez P√©rez   PERSONA_2
2  Pedro Mart√≠nez S√°nchez   PERSONA_3
3     Ana L√≥pez Fern√°ndez   PERSONA_4
4   Carlos S√°nchez Garc√≠a   PERSONA_5

üìä Columna: dni
----------------------------------------
    Original  Anonimizado
0  12345678A          NaN
1  23456789B          NaN
2  34567890C          NaN
3  45678901D          NaN
4  56789012E          NaN


## Paso 5: Resumen Ejecutivo del An√°lisis

In [7]:
# Generar resumen ejecutivo
summary = get_analysis_summary(consolidated_json)

print("=" * 60)
print("RESUMEN EJECUTIVO")
print("=" * 60)

print(f"\nüìä Dataset: {summary['dataset']['rows']} registros, {summary['dataset']['columns']} columnas")

print(f"\nüéØ Scores de Calidad:")
for metric, score in summary['scores'].items():
    emoji = "‚úÖ" if score >= 70 else "‚ö†Ô∏è" if score >= 50 else "‚ùå"
    print(f"  {emoji} {metric.capitalize()}: {score:.1f}/100")

print(f"\nüìà Score General: {summary['overall_score']:.1f}/100")

print(f"\n‚ö†Ô∏è Issues Cr√≠ticos:")
print(f"  - PII detectada: {'S√≠' if summary['critical_issues']['pii_detected'] else 'No'}")
if summary['critical_issues']['pii_detected']:
    print(f"    Nivel de riesgo: {summary['critical_issues']['pii_risk_level']}")
print(f"  - Completitud cr√≠tica: {'S√≠' if summary['critical_issues']['completitud_critica'] else 'No'}")
print(f"  - Riesgos de leakage: {summary['critical_issues']['leakage_risks']}")

print(f"\nüöÄ Capacidades:")
print(f"  - Geocodificable: {'S√≠' if summary['capabilities']['geocodable'] else 'No'}")
print(f"  - ML viable: {'S√≠' if summary['capabilities']['ml_viable'] else 'No'}")
print(f"  - Clustering factible: {'S√≠' if summary['capabilities']['clustering_feasible'] else 'No'}")

RESUMEN EJECUTIVO

üìä Dataset: 15 registros, 12 columnas

üéØ Scores de Calidad:
  ‚úÖ Completitud: 98.3/100
  ‚úÖ Tipologia: 96.7/100
  ‚úÖ Semantica: 100.0/100
  ‚ö†Ô∏è Geoespacial: 50.0/100
  ‚ùå Ml_viabilidad: 20.0/100

üìà Score General: 73.0/100

‚ö†Ô∏è Issues Cr√≠ticos:
  - PII detectada: S√≠
    Nivel de riesgo: critico
  - Completitud cr√≠tica: No
  - Riesgos de leakage: 0

üöÄ Capacidades:
  - Geocodificable: S√≠
  - ML viable: No
  - Clustering factible: No


## Paso 6: Generar Diagn√≥stico con LLM

‚ö†Ô∏è **NOTA**: Esto requiere que tengas configurada tu `OPENAI_API_KEY` en el archivo `.env`

In [8]:
# Verificar si la API key est√° configurada
if not settings.OPENAI_API_KEY:
    print("‚ùå ERROR: OPENAI_API_KEY no est√° configurada")
    print("\nPara configurarla:")
    print("1. Copia .env.example a .env")
    print("2. Edita .env y pega tu API key")
    print("3. Reinicia el kernel del notebook")
else:
    print("ü§ñ Generando diagn√≥stico con OpenAI...\n")
    
    try:
        diagnosis_result = generate_diagnosis(
            consolidated_json,
            df_anonymized,
            include_sample=True
        )
        
        print("=" * 60)
        print("DIAGN√ìSTICO GENERADO POR IA")
        print("=" * 60)
        print(f"\nModelo usado: {diagnosis_result['model_used']}")
        print(f"Tokens utilizados: {diagnosis_result['tokens_used']}")
        print("\n" + "=" * 60 + "\n")
        print(diagnosis_result['diagnosis'])
        
    except Exception as e:
        print(f"‚ùå Error al generar diagn√≥stico: {str(e)}")
        print("\nVerifica:")
        print("1. Que tu API key sea v√°lida")
        print("2. Que tengas cr√©ditos disponibles en OpenAI")
        print("3. Que tengas conexi√≥n a internet")

INFO:fase3_evaluator.agent.interpreter:Generando diagn√≥stico con OpenAI...


ü§ñ Generando diagn√≥stico con OpenAI...



INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:fase3_evaluator.agent.interpreter:Diagn√≥stico generado exitosamente


DIAGN√ìSTICO GENERADO POR IA

Modelo usado: gpt-4o
Tokens utilizados: 7264


## 1. DIAGN√ìSTICO GENERAL
El dataset analizado contiene 15 registros y 12 columnas, con datos que incluyen informaci√≥n personal y eventos relacionados con el suicidio. La calidad general del dataset es excelente en t√©rminos de completitud, con solo un 1.67% de datos faltantes. Sin embargo, se identificaron problemas cr√≠ticos relacionados con la presencia de informaci√≥n personal identificable (PII), lo que representa un riesgo √©tico y legal significativo. Adem√°s, hay inconsistencias en la tipolog√≠a de datos, especialmente en la columna "sexo", que afecta la precisi√≥n de los an√°lisis cuantitativos.

## 2. AN√ÅLISIS QUE S√ç SE PUEDEN REALIZAR
‚úÖ **An√°lisis Descriptivo de Distribuciones**
üìä Aporta informaci√≥n sobre la distribuci√≥n de variables clave como edad, sexo y m√©todo de suicidio.
üéØ Apoya decisiones de prevenci√≥n al identificar grupos demogr√°ficos de mayor riesgo.

‚úÖ **An√°lisis de C

## Paso 7: Guardar Resultados

In [None]:

import numpy as np

def convert_numpy_types(obj):
    """Convierte tipos NumPy a tipos nativos Python para JSON serialization"""
    if isinstance(obj, dict):
        return {key: convert_numpy_types(value) for key, value in obj.items()}
    elif isinstance(obj, list):
        return [convert_numpy_types(item) for item in obj]
    elif isinstance(obj, (np.integer, np.int64, np.int32, np.int16, np.int8)):
        return int(obj)
    elif isinstance(obj, (np.floating, np.float64, np.float32, np.float16)):
        return float(obj)
    elif isinstance(obj, (np.bool_, bool)):
        return bool(obj)
    elif isinstance(obj, np.ndarray):
        return obj.tolist()
    elif pd.isna(obj):
        return None
    else:
        return obj

print("Funcion de conversion cargada")

Funcion de conversion cargada


In [11]:
# Paso 7: Guardar Resultados
import json
from datetime import datetime

output_dir = Path('../data/outputs')
output_dir.mkdir(parents=True, exist_ok=True)

# JSON completo - CONVERTIR ANTES DE GUARDAR
json_path = output_dir / 'analisis_completo.json'
consolidated_json_clean = convert_numpy_types(consolidated_json)
with open(json_path, 'w', encoding='utf-8') as f:
    json.dump(consolidated_json_clean, f, indent=2, ensure_ascii=False)
print(f"JSON guardado en: {json_path}")

# Datos anonimizados
csv_path = output_dir / 'datos_anonimizados_flujo_completo.csv'
df_anonymized.to_csv(csv_path, index=False)
print(f"CSV guardado en: {csv_path}")

# Diagn√≥stico (si existe)
if 'diagnosis_result' in locals() and diagnosis_result:
    md_path = output_dir / 'diagnostico_flujo_completo.md'
    with open(md_path, 'w', encoding='utf-8') as f:
        f.write(f"# Diagnostico Automatico\n")
        f.write(f"Generado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
        f.write(diagnosis_result['diagnosis'])
    print(f"Diagnostico guardado en: {md_path}")

print(f"\nTodos los archivos en: {output_dir.absolute()}")

JSON guardado en: ../data/outputs/analisis_completo.json
CSV guardado en: ../data/outputs/datos_anonimizados_flujo_completo.csv
Diagnostico guardado en: ../data/outputs/diagnostico_flujo_completo.md

Todos los archivos en: /Users/reinerfuentesferrada/ONLINE_DS_THEBRIDGE_Rei/Proyecto ML/cuidar-ia/cuidar_ia_fase3 4/notebooks/../data/outputs


## ¬°Flujo Completado!

Has ejecutado exitosamente:
- ‚úÖ An√°lisis paralelo de 6 dimensiones
- ‚úÖ Detecci√≥n autom√°tica de PII
- ‚úÖ Anonimizaci√≥n autom√°tica
- ‚úÖ Generaci√≥n de diagn√≥stico con IA
- ‚úÖ Exportaci√≥n de resultados

**Pr√≥ximos pasos**:
1. Prueba con tus propios datos reales
2. Ajusta los umbrales en `config/settings.py`
3. Personaliza los prompts del agente
4. Integra con tu flujo de Streamlit