In [43]:
# ============================================
# CARGA Y DIAGNÓSTICO DE DATOS
# ============================================

import pandas as pd
import numpy as np

df = pd.read_csv("data_raw.csv")
print(f"Datos cargados: {len(df)} registros")

# --- MOSTRAR COLUMNAS ORIGINALES ---
print("\n" + "="*70)
print("COLUMNAS ORIGINALES DEL ARCHIVO")
print("="*70)
print("\nColumnas encontradas:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i}. '{col}' (tipo: {df[col].dtype})")

print("\nTotal de columnas:", len(df.columns))

Datos cargados: 1000 registros

COLUMNAS ORIGINALES DEL ARCHIVO

Columnas encontradas:
  1. 'id_paciente' (tipo: int64)
  2. 'nombre' (tipo: object)
  3. 'rut' (tipo: int64)
  4. 'edad' (tipo: int64)
  5. 'sexo' (tipo: object)
  6. 'fecha_registro' (tipo: object)
  7. 'id_medico' (tipo: int64)
  8. 'FamiliarPrimerGradoCC' (tipo: object)
  9. 'FamiliarSegundoGradoCC' (tipo: bool)
  10. 'DiagnosticoPrevioCancer' (tipo: bool)
  11. 'Ejercicio' (tipo: object)
  12. 'Alcohol' (tipo: object)
  13. 'Mamografia' (tipo: bool)
  14. 'Menstruacion' (tipo: object)
  15. 'PrimerHijo' (tipo: object)
  16. 'Riesgo' (tipo: object)

Total de columnas: 16


In [44]:
# ============================================
# ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS
# ============================================

print("ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS")
print("="*70)

# --- PASO 1: Normalizar todos los nombres (quitar espacios, minúsculas) ---
print("\nPaso 1: Normalizando nombres...")
df.columns = df.columns.str.strip().str.lower()

print("Columnas después de normalizar:")
for col in df.columns:
    print(f"  - {col}")

# --- PASO 2: Mapeo de nombres estándar ---
print("\nPaso 2: Aplicando mapeo estándar...")

# Diccionario de mapeo (de nombre original -> nombre estándar)
mapeo_columnas = {
    'edad': 'Edad',
    'sexo': 'Sexo',
    'ejercicio': 'Ejercicio',
    'actividad': 'Ejercicio',  # Por si se llama actividad
    'alcohol': 'Alcohol',
    'menstruacion': 'Menstruacion',
    'menstruación': 'Menstruacion',
    'primerhijo': 'PrimerHijo',
    'primer_hijo': 'PrimerHijo',
    'mamografia': 'Mamografia',
    'mamografía': 'Mamografia',
    'familiarprimergradocc': 'FamiliarPrimerGradoCC',
    'familiar_primer_grado_cc': 'FamiliarPrimerGradoCC',
    'familiarsegundogradocc': 'FamiliarSegundoGradoCC',
    'familiar_segundo_grado_cc': 'FamiliarSegundoGradoCC',
    'diagnosticopreviocancer': 'DiagnosticoPrevioCancer',
    'diagnostico_previo_cancer': 'DiagnosticoPrevioCancer',
    'antecedente_cancer': 'DiagnosticoPrevioCancer'
}

# Aplicar renombres
df.rename(columns=mapeo_columnas, inplace=True)

print("\nColumnas después del mapeo:")
for col in df.columns:
    print(f"  - {col}")

# --- PASO 3: Verificar columnas críticas ---
print("\n" + "="*70)
print("VERIFICACIÓN DE COLUMNAS CRÍTICAS")
print("="*70)

columnas_requeridas = [
    'Edad',
    'Sexo',
    'Ejercicio',
    'Alcohol',
    'Menstruacion',
    'PrimerHijo',
    'Mamografia',
    'FamiliarPrimerGradoCC',
    'FamiliarSegundoGradoCC',
    'DiagnosticoPrevioCancer'
]

columnas_faltantes = []
columnas_encontradas = []

for col in columnas_requeridas:
    if col in df.columns:
        columnas_encontradas.append(col)
        print(f"  {col}")
    else:
        columnas_faltantes.append(col)
        print(f"  {col} (NO ENCONTRADA)")

if columnas_faltantes:
    print(f"\nADVERTENCIA: {len(columnas_faltantes)} columnas faltantes")
    print("  Columnas faltantes:", columnas_faltantes)
else:
    print(f"\nTodas las columnas críticas encontradas ({len(columnas_encontradas)}/10)")

# --- DIAGNÓSTICO DE LA COLUMNA EDAD ---
print("\n" + "="*70)
print("DIAGNÓSTICO DE LA COLUMNA EDAD")
print("="*70)

if 'Edad' in df.columns:
    print(f"\nColumna 'Edad' encontrada")
    print(f"  Tipo de dato: {df['Edad'].dtype}")
    print(f"  Valores únicos: {df['Edad'].nunique()}")
    print(f"  Valores nulos: {df['Edad'].isnull().sum()}")
    
    print(f"\n  Primeros 15 valores únicos:")
    valores_unicos = sorted(df['Edad'].dropna().unique())[:15]
    print(f"  {valores_unicos}")
    
    print(f"\n  Estadísticas:")
    print(df['Edad'].describe())
    
    print(f"\n  Rango: {df['Edad'].min()} - {df['Edad'].max()}")
    
    # Determinar tipo de datos
    valores_unicos_total = df['Edad'].nunique()
    valor_max = df['Edad'].max()
    valor_min = df['Edad'].min()
    
    if valores_unicos_total <= 10 and valor_max <= 10:
        print("\n  TIPO DE DATO: CATEGORIZADO")
        print("     Los valores son 0, 1, 2, 3 (categorías de edad)")
    elif valor_min < 0 or valor_max > 120:
        print("\n  TIPO DE DATO: VALORES ANORMALES DETECTADOS")
        print(f"     Hay edades fuera de rango normal: {valor_min} - {valor_max}")
    else:
        print("\n  IPO DE DATO: EDAD REAL (en años)")
        print("     Los valores representan edad real de las pacientes")
else:
    print("\nERROR: Columna 'Edad' NO encontrada después del mapeo")
    print("\n  Columnas disponibles actualmente:")
    for col in df.columns:
        print(f"    - {col}")

print("\n" + "="*70)
print("ESTANDARIZACIÓN COMPLETADA")
print("="*70)

ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS

Paso 1: Normalizando nombres...
Columnas después de normalizar:
  - id_paciente
  - nombre
  - rut
  - edad
  - sexo
  - fecha_registro
  - id_medico
  - familiarprimergradocc
  - familiarsegundogradocc
  - diagnosticopreviocancer
  - ejercicio
  - alcohol
  - mamografia
  - menstruacion
  - primerhijo
  - riesgo

Paso 2: Aplicando mapeo estándar...

Columnas después del mapeo:
  - id_paciente
  - nombre
  - rut
  - Edad
  - Sexo
  - fecha_registro
  - id_medico
  - FamiliarPrimerGradoCC
  - FamiliarSegundoGradoCC
  - DiagnosticoPrevioCancer
  - Ejercicio
  - Alcohol
  - Mamografia
  - Menstruacion
  - PrimerHijo
  - riesgo

VERIFICACIÓN DE COLUMNAS CRÍTICAS
  Edad
  Sexo
  Ejercicio
  Alcohol
  Menstruacion
  PrimerHijo
  Mamografia
  FamiliarPrimerGradoCC
  FamiliarSegundoGradoCC
  DiagnosticoPrevioCancer

Todas las columnas críticas encontradas (10/10)

DIAGNÓSTICO DE LA COLUMNA EDAD

Columna 'Edad' encontrada
  Tipo de dato: int64
  Valores ú

In [45]:
# ============================================
# FILTRAR SOLO MUJERES
# ============================================

print("FILTRADO DE GÉNERO")
print("="*70)

if 'Sexo' in df.columns:
    print("\nDistribución original de género:")
    print(df['Sexo'].value_counts())
    
    registros_antes = len(df)
    
    # Filtrar solo mujeres (F, f, Femenino, femenino, mujer, M para mujer en español)
    df = df[df['Sexo'].str.upper().isin(['F', 'FEMENINO', 'MUJER'])].copy()
    
    registros_despues = len(df)
    eliminados = registros_antes - registros_despues
    
    print(f"\nRegistros antes: {registros_antes}")
    print(f"Registros después: {registros_despues}")
    print(f"Registros eliminados (hombres u otros): {eliminados}")
    
    # Eliminar columna Sexo (ya no es necesaria)
    df.drop(columns=['Sexo'], inplace=True)
    print("Columna 'Sexo' eliminada (solo mujeres en el dataset)")
else:
    print("Columna 'Sexo' no encontrada, se asume que todos son mujeres")

print("\n" + "="*70)

FILTRADO DE GÉNERO

Distribución original de género:
Sexo
M    501
F    499
Name: count, dtype: int64

Registros antes: 1000
Registros después: 499
Registros eliminados (hombres u otros): 501
Columna 'Sexo' eliminada (solo mujeres en el dataset)



In [46]:
# ============================================
# TRANSFORMACIÓN DE VARIABLES ORDINALES
# ============================================

print("TRANSFORMACIÓN DE VARIABLES ORDINALES")
print("="*70)

# --- MAPEO DE VARIABLES ORDINALES ---
mapeos = {
    'Menstruacion': {
        '<12 años': 2, 
        '12-13 años': 1, 
        '>=14 años': 0,
        '<12 anos': 2,  # Variante sin tilde
        '12-13 anos': 1,
        '>=14 anos': 0
    },
    'PrimerHijo': {
        'No ha tenido hijos': 2, 
        'menor a 30 años': 1, 
        'mayor a 30 años': 0,
        'No hijos': 2,  # Variantes
        'Primer hijo <30': 1,
        'Primer hijo >=30': 0,
        'no ha tenido hijos': 2,
        'sin hijos': 2
    },
    'Ejercicio': {
        'Ninguna': 0, 
        '<3 horas': 1, 
        '3-4 horas': 2, 
        '>4 horas': 3,
        'ninguna': 0,
        'ninguno': 0
    },
    'Alcohol': {
        'Nunca': 0, 
        'Ocasional': 1, 
        'Frecuente': 2, 
        'Diario': 3,
        'nunca': 0,
        'ocasional': 1,
        'frecuente': 2,
        'diario': 3
    }
}

for col, mapping in mapeos.items():
    if col in df.columns:
        # Mostrar valores únicos antes
        print(f"\n{col}:")
        print(f"  Valores originales: {df[col].unique()}")
        
        # Aplicar mapeo
        valores_antes = df[col].notna().sum()
        df[col] = df[col].map(mapping)
        valores_despues = df[col].notna().sum()
        
        valores_no_mapeados = valores_antes - valores_despues
        
        if valores_no_mapeados > 0:
            print(f"  {valores_no_mapeados} valores no pudieron ser mapeados")
        else:
            print(f"  Todos los valores mapeados correctamente")
        
        print(f"  Valores finales: {sorted(df[col].dropna().unique())}")
    else:
        print(f"\n{col}: No encontrada en el dataset")

print("\n" + "="*70)
print("TRANSFORMACIÓN DE ORDINALES COMPLETADA")
print("="*70)

TRANSFORMACIÓN DE VARIABLES ORDINALES

Menstruacion:
  Valores originales: ['Diario' 'Nunca' 'Frecuente']
  499 valores no pudieron ser mapeados
  Valores finales: []

PrimerHijo:
  Valores originales: ['No hijos' 'Primer hijo <30' 'Primer hijo >=30' nan]
  Todos los valores mapeados correctamente
  Valores finales: [0.0, 1.0, 2.0]

Ejercicio:
  Valores originales: ['>4 horas' '<3 horas' 'Ninguna' '3-4 horas']
  Todos los valores mapeados correctamente
  Valores finales: [0, 1, 2, 3]

Alcohol:
  Valores originales: ['Nunca' 'Ocasional' nan 'Diario' 'Frecuente']
  Todos los valores mapeados correctamente
  Valores finales: [0.0, 1.0, 2.0, 3.0]

TRANSFORMACIÓN DE ORDINALES COMPLETADA


In [47]:
# ============================================
# TRANSFORMACIÓN DE VARIABLES BOOLEANAS
# ============================================

print("TRANSFORMACIÓN DE VARIABLES BOOLEANAS")
print("="*70)

booleanas = ['FamiliarPrimerGradoCC', 'FamiliarSegundoGradoCC', 'DiagnosticoPrevioCancer', 'Mamografia']

for col in booleanas:
    if col in df.columns:
        print(f"\n{col}:")
        print(f"  Tipo original: {df[col].dtype}")
        print(f"  Valores únicos originales: {df[col].unique()}")
        
        # Transformar a 1/0
        df[col] = (
            df[col]
            .astype(str)
            .str.strip()
            .str.lower()
            .replace({
                'true': 1, 
                'false': 0, 
                '1': 1, 
                '0': 0,
                '1.0': 1,
                '0.0': 0,
                'sí': 1,
                'si': 1,
                'no': 0,
                'yes': 1,
                'y': 1,
                'n': 0
            })
            .replace('nan', np.nan)
        )
        
        # Convertir a numérico
        df[col] = pd.to_numeric(df[col], errors='coerce')
        
        print(f"  Convertido a numérico (0/1)")
        print(f"  Valores finales: {sorted(df[col].dropna().unique())}")
        print(f"  Valores nulos: {df[col].isnull().sum()}")
    else:
        print(f"\n{col}: No encontrada")

print("\n" + "="*70)
print("TRANSFORMACIÓN DE BOOLEANAS COMPLETADA")
print("="*70)

TRANSFORMACIÓN DE VARIABLES BOOLEANAS

FamiliarPrimerGradoCC:
  Tipo original: object
  Valores únicos originales: [False True nan]
  Convertido a numérico (0/1)
  Valores finales: [0.0, 1.0]
  Valores nulos: 28

FamiliarSegundoGradoCC:
  Tipo original: bool
  Valores únicos originales: [False  True]
  Convertido a numérico (0/1)
  Valores finales: [0, 1]
  Valores nulos: 0

DiagnosticoPrevioCancer:
  Tipo original: bool
  Valores únicos originales: [False  True]
  Convertido a numérico (0/1)
  Valores finales: [0, 1]
  Valores nulos: 0

Mamografia:
  Tipo original: bool
  Valores únicos originales: [False  True]
  Convertido a numérico (0/1)
  Valores finales: [0, 1]
  Valores nulos: 0

TRANSFORMACIÓN DE BOOLEANAS COMPLETADA


In [48]:
# ============================================
# DETECCIÓN Y ELIMINACIÓN DE OUTLIERS EN EDAD
# ============================================

print("DETECCIÓN DE OUTLIERS EN EDAD")
print("="*70)

if 'Edad' not in df.columns:
    print("Columna 'Edad' no encontrada, saltando detección de outliers")
else:
    print("\nESTADÍSTICAS DE EDAD (antes de limpieza):")
    print(df['Edad'].describe())
    print(f"\nRango actual: {df['Edad'].min():.0f} - {df['Edad'].max():.0f} años")
    print(f"Valores únicos: {df['Edad'].nunique()}")
    print(f"Total de registros: {len(df)}")
    
    # Verificar si está categorizada
    if df['Edad'].nunique() <= 10 and df['Edad'].max() <= 10:
        print("\nLa edad parece estar YA CATEGORIZADA (valores 0-10)")
        print("   No se aplicará detección de outliers en datos categóricos")
        print(f"\nTotal de registros mantenidos: {len(df)}")
        
        # Mostrar distribución
        print("\nDISTRIBUCIÓN DE CATEGORÍAS:")
        for val in sorted(df['Edad'].unique()):
            cantidad = (df['Edad'] == val).sum()
            porcentaje = (cantidad / len(df)) * 100
            print(f"  Valor {val}: {cantidad} ({porcentaje:.1f}%)")
    
    else:
        # Edad contiene valores reales - detectar outliers
        print("\nEdad contiene valores REALES (en años)")
        
        # Definir rango clínico válido para cáncer de mama
        edad_min_valida = 18
        edad_max_valida = 100
        
        print(f"\nRango clínico válido definido: {edad_min_valida}-{edad_max_valida} años")
        
        # Detectar outliers
        outliers_extremos = (df['Edad'] < edad_min_valida) | (df['Edad'] > edad_max_valida)
        cantidad_outliers = outliers_extremos.sum()
        
        print(f"Outliers detectados: {cantidad_outliers} ({cantidad_outliers/len(df)*100:.1f}%)")
        
        if cantidad_outliers > 0:
            print("\nEdades outliers encontradas:")
            edades_invalidas = sorted(df[outliers_extremos]['Edad'].unique())
            print(f"  {edades_invalidas}")
            
            # Mostrar ejemplos
            print("\nEjemplos de registros con outliers (primeros 10):")
            display(df[outliers_extremos][['Edad']].head(10))
            
            # Verificar si es seguro eliminarlos
            porcentaje_outliers = (cantidad_outliers / len(df)) * 100
            
            if porcentaje_outliers > 30:
                print(f"\nADVERTENCIA: {porcentaje_outliers:.1f}% de datos son outliers")
                print("   Porcentaje muy alto - Verificar integridad de los datos")
                respuesta = input("\n¿Desea eliminar estos outliers de todas formas? (s/n): ")
                
                if respuesta.lower() != 's':
                    print("   Outliers NO eliminados por decisión del usuario")
                    print(f"Total de registros mantenidos: {len(df)}")
                else:
                    # Eliminar outliers
                    registros_antes = len(df)
                    df = df[~outliers_extremos].copy()
                    registros_despues = len(df)
                    
                    print(f"\nOutliers eliminados: {registros_antes - registros_despues}")
                    print(f"Registros restantes: {registros_despues} ({registros_despues/registros_antes*100:.1f}%)")
            else:
                # Eliminar automáticamente si es menos del 30%
                registros_antes = len(df)
                df = df[~outliers_extremos].copy()
                registros_despues = len(df)
                
                print(f"\nOutliers eliminados: {registros_antes - registros_despues}")
                print(f"Registros restantes: {registros_despues} ({registros_despues/registros_antes*100:.1f}%)")
                
                print("\nESTADÍSTICAS DE EDAD (después de limpieza):")
                print(df['Edad'].describe())
                print(f"Nuevo rango: {df['Edad'].min():.0f} - {df['Edad'].max():.0f} años")
                
                # Visualización
                import matplotlib.pyplot as plt
                
                fig, axes = plt.subplots(1, 2, figsize=(14, 5))
                
                # Histograma
                axes[0].hist(df['Edad'], bins=30, color='skyblue', edgecolor='black', alpha=0.7)
                axes[0].axvline(edad_min_valida, color='red', linestyle='--', label=f'Límite inferior ({edad_min_valida})')
                axes[0].axvline(edad_max_valida, color='red', linestyle='--', label=f'Límite superior ({edad_max_valida})')
                axes[0].set_xlabel('Edad (años)')
                axes[0].set_ylabel('Frecuencia')
                axes[0].set_title('Distribución de Edades (después de limpieza)')
                axes[0].legend()
                axes[0].grid(axis='y', alpha=0.3)
                
                # Boxplot
                axes[1].boxplot(df['Edad'], vert=True, patch_artist=True,
                                boxprops=dict(facecolor='lightblue'),
                                medianprops=dict(color='red', linewidth=2))
                axes[1].set_ylabel('Edad (años)')
                axes[1].set_title('Boxplot de Edades')
                axes[1].grid(axis='y', alpha=0.3)
                
                plt.tight_layout()
                plt.show()
        else:
            print("\nNo se encontraron outliers en el rango de edad")
            print(f"Total de registros mantenidos: {len(df)}")

print("\n" + "="*70)
print("DETECCIÓN DE OUTLIERS COMPLETADA")
print("="*70)

DETECCIÓN DE OUTLIERS EN EDAD

ESTADÍSTICAS DE EDAD (antes de limpieza):
count    499.000000
mean      83.697395
std       40.029690
min       14.000000
25%       47.500000
50%       83.000000
75%      118.000000
max      150.000000
Name: Edad, dtype: float64

Rango actual: 14 - 150 años
Valores únicos: 133
Total de registros: 499

Edad contiene valores REALES (en años)

Rango clínico válido definido: 18-100 años
Outliers detectados: 207 (41.5%)

Edades outliers encontradas:
  [14, 15, 16, 17, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150]

Ejemplos de registros con outliers (primeros 10):


Unnamed: 0,Edad
0,139
3,144
6,121
17,124
25,118
32,127
33,130
36,116
38,108
39,114



ADVERTENCIA: 41.5% de datos son outliers
   Porcentaje muy alto - Verificar integridad de los datos

Outliers eliminados: 207
Registros restantes: 292 (58.5%)

DETECCIÓN DE OUTLIERS COMPLETADA


In [49]:
# ============================================
# CATEGORIZACIÓN DE EDAD
# ============================================

print("CATEGORIZACIÓN DE EDAD EN GRUPOS DE RIESGO")
print("="*70)

if 'Edad' not in df.columns:
    print("Columna 'Edad' no encontrada")
elif df['Edad'].nunique() <= 10 and df['Edad'].max() <= 10:
    print("\nLa edad YA está categorizada")
    print(f"   Valores actuales: {sorted(df['Edad'].unique())}")
    print(f"No se requiere categorización adicional")
else:
    print("\nCategorizando edad en grupos de riesgo...")
    
    def categorizar_edad(edad):
        """
        Categoriza la edad en grupos de riesgo para cáncer de mama:
        0 = < 40 años (Bajo riesgo)
        1 = 40-49 años (Riesgo moderado)
        2 = 50-59 años (Riesgo elevado)
        3 = >= 60 años (Riesgo muy elevado)
        """
        if pd.isnull(edad):
            return np.nan
        elif edad < 40:
            return 0
        elif edad < 50:
            return 1
        elif edad < 60:
            return 2
        else:
            return 3
    
    # Guardar edad original
    df['Edad_Original'] = df['Edad']
    
    # Aplicar categorización
    df['Edad'] = df['Edad'].apply(categorizar_edad)
    
    print("Edad categorizada correctamente")
    
    # Mostrar distribución
    print("\nDISTRIBUCIÓN DE CATEGORÍAS DE EDAD:")
    print("-"*70)
    
    categorias = {
        0: '< 40 años (Bajo riesgo)',
        1: '40-49 años (Riesgo moderado)',
        2: '50-59 años (Riesgo elevado)',
        3: '>= 60 años (Riesgo muy elevado)'
    }
    
    for cat, desc in categorias.items():
        if cat in df['Edad'].values:
            cantidad = (df['Edad'] == cat).sum()
            porcentaje = (cantidad / len(df)) * 100
            print(f"  Categoría {cat} - {desc}: {cantidad} ({porcentaje:.1f}%)")
    
    # Verificar nulos
    nulos = df['Edad'].isnull().sum()
    if nulos > 0:
        print(f"\nAdvertencia: {nulos} valores nulos en Edad")
    else:
        print("\nNo hay valores nulos en Edad categorizada")
    
    # Mostrar ejemplos
    print("\nEJEMPLOS DE CATEGORIZACIÓN:")
    print("-"*70)
    muestra = df[['Edad_Original', 'Edad']].head(10)
    muestra.columns = ['Edad Real', 'Edad Categorizada']
    display(muestra)

print("\n" + "="*70)
print("CATEGORIZACIÓN COMPLETADA")
print("="*70)

CATEGORIZACIÓN DE EDAD EN GRUPOS DE RIESGO

Categorizando edad en grupos de riesgo...
Edad categorizada correctamente

DISTRIBUCIÓN DE CATEGORÍAS DE EDAD:
----------------------------------------------------------------------
  Categoría 0 - < 40 años (Bajo riesgo): 79 (27.1%)
  Categoría 1 - 40-49 años (Riesgo moderado): 35 (12.0%)
  Categoría 2 - 50-59 años (Riesgo elevado): 37 (12.7%)
  Categoría 3 - >= 60 años (Riesgo muy elevado): 141 (48.3%)

No hay valores nulos en Edad categorizada

EJEMPLOS DE CATEGORIZACIÓN:
----------------------------------------------------------------------


Unnamed: 0,Edad Real,Edad Categorizada
1,79,3
7,29,0
12,54,2
18,79,3
20,61,3
21,46,1
28,27,0
30,19,0
44,58,2
45,96,3



CATEGORIZACIÓN COMPLETADA


In [50]:
# ============================================
# GUARDAR DATOS LIMPIOS
# ============================================

print("VERIFICACIÓN FINAL Y GUARDADO")
print("="*70)

# Verificar estado final
print(f"\nTotal de registros: {len(df)}")
print(f"Total de columnas: {len(df.columns)}")

print("\nCOLUMNAS FINALES:")
print("-"*70)
for col in df.columns:
    nulos = df[col].isnull().sum()
    tipo = df[col].dtype
    unicos = df[col].nunique()
    print(f"  {col:30s} | Tipo: {str(tipo):10s} | Únicos: {unicos:4d} | Nulos: {nulos}")

print(f"\nValores nulos totales: {df.isnull().sum().sum()}")

# Guardar
df.to_csv("data_clean.csv", index=False)
print("\nArchivo guardado como 'data_clean.csv'")

print("\n" + "="*70)
print("PREPROCESAMIENTO COMPLETADO EXITOSAMENTE")
print("="*70)

# Mostrar muestra final
print("\nMUESTRA DE DATOS FINALES (primeras 5 filas):")
display(df.head())

VERIFICACIÓN FINAL Y GUARDADO

Total de registros: 292
Total de columnas: 16

COLUMNAS FINALES:
----------------------------------------------------------------------
  id_paciente                    | Tipo: int64      | Únicos:  255 | Nulos: 0
  nombre                         | Tipo: object     | Únicos:  278 | Nulos: 0
  rut                            | Tipo: int64      | Únicos:  292 | Nulos: 0
  Edad                           | Tipo: int64      | Únicos:    4 | Nulos: 0
  fecha_registro                 | Tipo: object     | Únicos:    1 | Nulos: 0
  id_medico                      | Tipo: int64      | Únicos:    1 | Nulos: 0
  FamiliarPrimerGradoCC          | Tipo: float64    | Únicos:    2 | Nulos: 16
  FamiliarSegundoGradoCC         | Tipo: int64      | Únicos:    2 | Nulos: 0
  DiagnosticoPrevioCancer        | Tipo: int64      | Únicos:    2 | Nulos: 0
  Ejercicio                      | Tipo: int64      | Únicos:    4 | Nulos: 0
  Alcohol                        | Tipo: float64    

Unnamed: 0,id_paciente,nombre,rut,Edad,fecha_registro,id_medico,FamiliarPrimerGradoCC,FamiliarSegundoGradoCC,DiagnosticoPrevioCancer,Ejercicio,Alcohol,Mamografia,Menstruacion,PrimerHijo,riesgo,Edad_Original
1,926,Bridie,53581753,3,09/10/2025,1,0.0,1,1,1,1.0,0,,1.0,Alto,79
7,109,Bellina,88983746,0,09/10/2025,1,0.0,0,0,2,2.0,0,,1.0,Alto,29
12,295,Starla,2366096,2,09/10/2025,1,1.0,0,0,2,0.0,0,,,Alto,54
18,976,Celine,90902307,3,09/10/2025,1,1.0,1,1,2,2.0,0,,0.0,Moderado,79
20,735,Pietra,66433625,3,09/10/2025,1,1.0,1,1,1,2.0,1,,1.0,Bajo,61
