# DataPros - An√°lisis de Clasificaci√≥n de Ingresos Adultos

Este notebook proporciona un an√°lisis interactivo del modelo de clasificaci√≥n binaria para predecir si una persona gana m√°s de 50K al a√±o.

## Objetivos:
- Cargar y explorar los datos
- Preprocesar las caracter√≠sticas
- Entrenar un modelo de Regresi√≥n Log√≠stica
- Evaluar el rendimiento del modelo
- Visualizar resultados


In [None]:
# Importar librer√≠as necesarias
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, count, isnan, isnull
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, VectorAssembler, OneHotEncoder
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

# Configurar matplotlib
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Librer√≠as importadas exitosamente")


In [None]:
# Inicializar Spark Session
spark = SparkSession.builder \
    .appName("AdultIncomeAnalysis") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .getOrCreate()

spark.sparkContext.setLogLevel("WARN")
print("‚úÖ Spark Session inicializada")


## 1. Carga de Datos


In [None]:
# Definir esquema para optimizar la carga
schema = StructType([
    StructField("age", IntegerType(), True),
    StructField("sex", StringType(), True),
    StructField("workclass", StringType(), True),
    StructField("fnlwgt", IntegerType(), True),
    StructField("education", StringType(), True),
    StructField("hours_per_week", IntegerType(), True),
    StructField("label", StringType(), True)
])

# Cargar datos
df = spark.read \
    .option("header", "true") \
    .option("inferSchema", "false") \
    .schema(schema) \
    .csv("../data/adult_income_sample.csv")

print(f"üìä Datos cargados: {df.count()} registros")
print(f"üìã Columnas: {len(df.columns)}")


In [None]:
# Mostrar esquema y primeras filas
print("üìã ESQUEMA DE DATOS:")
df.printSchema()

print("\nüìä PRIMERAS 10 FILAS:")
df.show(10, truncate=False)


## 2. Exploraci√≥n de Datos


In [None]:
# Estad√≠sticas descriptivas
print("üìà ESTAD√çSTICAS DESCRIPTIVAS:")
df.describe().show()

# Verificar valores √∫nicos en variables categ√≥ricas
print("\nüîç VALORES √öNICOS EN VARIABLES CATEG√ìRICAS:")
print("Sexo:", df.select("sex").distinct().rdd.map(lambda row: row[0]).collect())
print("Clase de trabajo:", df.select("workclass").distinct().rdd.map(lambda row: row[0]).collect())
print("Educaci√≥n:", df.select("education").distinct().rdd.map(lambda row: row[0]).collect())
print("Label:", df.select("label").distinct().rdd.map(lambda row: row[0]).collect())


## 3. Preprocesamiento de Variables Categ√≥ricas

### 3.1 StringIndexer - Transformaci√≥n de Variables Categ√≥ricas

El StringIndexer convierte las variables categ√≥ricas de tipo string a √≠ndices num√©ricos. Esto es necesario antes de aplicar OneHotEncoder.


In [None]:
# Crear StringIndexers para cada variable categ√≥rica
sex_indexer = StringIndexer(inputCol="sex", outputCol="sex_indexed")
workclass_indexer = StringIndexer(inputCol="workclass", outputCol="workclass_indexed")
education_indexer = StringIndexer(inputCol="education", outputCol="education_indexed")
label_indexer = StringIndexer(inputCol="label", outputCol="label_indexed")

print("‚úÖ StringIndexers creados para:")
print("   - sex ‚Üí sex_indexed")
print("   - workclass ‚Üí workclass_indexed") 
print("   - education ‚Üí education_indexed")
print("   - label ‚Üí label_indexed")

# Aplicar StringIndexers para ver los √≠ndices asignados
indexed_df = sex_indexer.fit(df).transform(df)
indexed_df = workclass_indexer.fit(indexed_df).transform(indexed_df)
indexed_df = education_indexer.fit(indexed_df).transform(indexed_df)
indexed_df = label_indexer.fit(indexed_df).transform(indexed_df)

print("\nüìä √çNDICES ASIGNADOS POR STRINGINDEXER:")
print("Sexo:")
indexed_df.select("sex", "sex_indexed").distinct().orderBy("sex_indexed").show()

print("Clase de trabajo:")
indexed_df.select("workclass", "workclass_indexed").distinct().orderBy("workclass_indexed").show()

print("Educaci√≥n:")
indexed_df.select("education", "education_indexed").distinct().orderBy("education_indexed").show()

print("Label:")
indexed_df.select("label", "label_indexed").distinct().orderBy("label_indexed").show()


### 3.2 OneHotEncoder - Codificaci√≥n One-Hot

El OneHotEncoder convierte las variables categ√≥ricas indexadas en vectores binarios (one-hot encoding). Esto evita que el modelo interprete un orden en las categor√≠as que no existe.


In [None]:
# Crear OneHotEncoders para las variables categ√≥ricas indexadas
sex_encoder = OneHotEncoder(inputCol="sex_indexed", outputCol="sex_encoded")
workclass_encoder = OneHotEncoder(inputCol="workclass_indexed", outputCol="workclass_encoded")
education_encoder = OneHotEncoder(inputCol="education_indexed", outputCol="education_encoded")

print("‚úÖ OneHotEncoders creados para:")
print("   - sex_indexed ‚Üí sex_encoded")
print("   - workclass_indexed ‚Üí workclass_encoded")
print("   - education_indexed ‚Üí education_encoded")

# Aplicar OneHotEncoders
encoded_df = sex_encoder.fit(indexed_df).transform(indexed_df)
encoded_df = workclass_encoder.fit(encoded_df).transform(encoded_df)
encoded_df = education_encoder.fit(encoded_df).transform(encoded_df)

print("\nüìä EJEMPLO DE CODIFICACI√ìN ONE-HOT:")
print("Primeras 5 filas con codificaci√≥n one-hot:")
encoded_df.select("sex", "sex_indexed", "sex_encoded", 
                  "workclass", "workclass_indexed", "workclass_encoded").show(5, truncate=False)


### 3.3 VectorAssembler - Ensamblado de Caracter√≠sticas

El VectorAssembler combina todas las caracter√≠sticas (num√©ricas y codificadas) en un solo vector de caracter√≠sticas que puede ser usado por el algoritmo de machine learning.


In [None]:
# Crear VectorAssembler para combinar todas las caracter√≠sticas
feature_columns = [
    "age",                    # Variable num√©rica
    "fnlwgt",                # Variable num√©rica  
    "hours_per_week",        # Variable num√©rica
    "sex_encoded",           # Variable categ√≥rica codificada
    "workclass_encoded",     # Variable categ√≥rica codificada
    "education_encoded"      # Variable categ√≥rica codificada
]

assembler = VectorAssembler(
    inputCols=feature_columns,
    outputCol="features"
)

print("‚úÖ VectorAssembler creado")
print("üìã Caracter√≠sticas incluidas:")
for i, col in enumerate(feature_columns, 1):
    print(f"   {i}. {col}")

# Aplicar VectorAssembler
final_df = assembler.transform(encoded_df)

print(f"\nüìä Vector de caracter√≠sticas creado")
print(f"üìè Dimensi√≥n del vector: {len(feature_columns)} caracter√≠sticas")

# Mostrar ejemplo del vector de caracter√≠sticas
print("\nüîç EJEMPLO DE VECTOR DE CARACTER√çSTICAS:")
final_df.select("features").show(3, truncate=False)


### 3.4 Pipeline de Preprocesamiento

Crear un pipeline que combine todos los pasos de preprocesamiento para facilitar la reutilizaci√≥n y el mantenimiento.


In [None]:
# Crear pipeline completo de preprocesamiento
preprocessing_pipeline = Pipeline(stages=[
    sex_indexer,
    workclass_indexer,
    education_indexer,
    label_indexer,
    sex_encoder,
    workclass_encoder,
    education_encoder,
    assembler
])

print("‚úÖ Pipeline de preprocesamiento creado")
print("üìã Etapas del pipeline:")
stages = [
    "1. StringIndexer (sex)",
    "2. StringIndexer (workclass)", 
    "3. StringIndexer (education)",
    "4. StringIndexer (label)",
    "5. OneHotEncoder (sex)",
    "6. OneHotEncoder (workclass)",
    "7. OneHotEncoder (education)",
    "8. VectorAssembler"
]

for stage in stages:
    print(f"   {stage}")

# Aplicar pipeline completo
print("\nüîÑ Aplicando pipeline de preprocesamiento...")
processed_df = preprocessing_pipeline.fit(df).transform(df)

print("‚úÖ Pipeline aplicado exitosamente")
print(f"üìä Registros procesados: {processed_df.count()}")
print(f"üìã Columnas finales: {len(processed_df.columns)}")

# Mostrar esquema final
print("\nüìã ESQUEMA FINAL:")
processed_df.printSchema()


## 4. Entrenamiento del Modelo de Regresi√≥n Log√≠stica


In [None]:
# Preparar datos para entrenamiento
train_data = processed_df.select("features", "label_indexed")

# Dividir datos en entrenamiento y prueba
train_df, test_df = train_data.randomSplit([0.8, 0.2], seed=42)

print(f"üìä Divisi√≥n de datos:")
print(f"   - Entrenamiento: {train_df.count()} registros (80%)")
print(f"   - Prueba: {test_df.count()} registros (20%)")

# Crear modelo de Regresi√≥n Log√≠stica
lr = LogisticRegression(
    featuresCol="features",
    labelCol="label_indexed",
    maxIter=100,
    regParam=0.01,
    elasticNetParam=0.8
)

print("\n‚úÖ Modelo de Regresi√≥n Log√≠stica configurado")
print("üìã Par√°metros del modelo:")
print("   - maxIter: 100")
print("   - regParam: 0.01 (regularizaci√≥n)")
print("   - elasticNetParam: 0.8 (mezcla L1/L2)")

# Entrenar el modelo
print("\nüîÑ Entrenando modelo...")
model = lr.fit(train_df)
print("‚úÖ Modelo entrenado exitosamente")


In [None]:
# Hacer predicciones en el conjunto de prueba
predictions = model.transform(test_df)

# Crear evaluadores
binary_evaluator = BinaryClassificationEvaluator(
    labelCol="label_indexed",
    rawPredictionCol="rawPrediction"
)

multi_evaluator = MulticlassClassificationEvaluator(
    labelCol="label_indexed",
    predictionCol="prediction"
)

# Calcular m√©tricas
auc = binary_evaluator.evaluate(predictions)
accuracy = multi_evaluator.evaluate(predictions, {multi_evaluator.metricName: "accuracy"})
precision = multi_evaluator.evaluate(predictions, {multi_evaluator.metricName: "weightedPrecision"})
recall = multi_evaluator.evaluate(predictions, {multi_evaluator.metricName: "weightedRecall"})
f1 = multi_evaluator.evaluate(predictions, {multi_evaluator.metricName: "f1"})

print("üìä M√âTRICAS DE RENDIMIENTO:")
print("-" * 40)
print(f"AUC         : {auc:.4f}")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"F1-Score    : {f1:.4f}")

# Mostrar matriz de confusi√≥n
print("\nüî¢ MATRIZ DE CONFUSI√ìN:")
confusion_matrix = predictions.groupBy("label_indexed", "prediction").count().orderBy("label_indexed", "prediction")
confusion_matrix.show()

# Mostrar ejemplos de predicciones
print("\nüîç EJEMPLOS DE PREDICCIONES:")
predictions.select("label_indexed", "prediction", "probability").show(10, truncate=False)


## 6. An√°lisis de Importancia de Caracter√≠sticas


In [None]:
# Obtener coeficientes del modelo
coefficients = model.coefficients.toArray()

# Crear DataFrame con importancia de caracter√≠sticas
feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'coefficient': coefficients
})

# Ordenar por valor absoluto del coeficiente
feature_importance['abs_coefficient'] = abs(feature_importance['coefficient'])
feature_importance = feature_importance.sort_values('abs_coefficient', ascending=True)

print("üìä IMPORTANCIA DE CARACTER√çSTICAS:")
print("(Coeficientes de Regresi√≥n Log√≠stica)")
print("-" * 50)
for _, row in feature_importance.iterrows():
    print(f"{row['feature']:20}: {row['coefficient']:8.4f}")

# Visualizar importancia de caracter√≠sticas
plt.figure(figsize=(10, 8))
plt.barh(feature_importance['feature'], feature_importance['coefficient'])
plt.title('Importancia de Caracter√≠sticas\\n(Coeficientes de Regresi√≥n Log√≠stica)')
plt.xlabel('Coeficiente')
plt.ylabel('Caracter√≠stica')
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()


## 7. Pipeline Completo y Guardado del Modelo


In [None]:
# Crear pipeline completo que incluye preprocesamiento y modelo
full_pipeline = Pipeline(stages=[
    sex_indexer,
    workclass_indexer,
    education_indexer,
    label_indexer,
    sex_encoder,
    workclass_encoder,
    education_encoder,
    assembler,
    lr
])

print("‚úÖ Pipeline completo creado")
print("üìã Etapas del pipeline completo:")
full_stages = [
    "1. StringIndexer (sex)",
    "2. StringIndexer (workclass)", 
    "3. StringIndexer (education)",
    "4. StringIndexer (label)",
    "5. OneHotEncoder (sex)",
    "6. OneHotEncoder (workclass)",
    "7. OneHotEncoder (education)",
    "8. VectorAssembler",
    "9. LogisticRegression"
]

for stage in full_stages:
    print(f"   {stage}")

# Entrenar pipeline completo
print("\\nüîÑ Entrenando pipeline completo...")
full_model = full_pipeline.fit(df)
print("‚úÖ Pipeline completo entrenado")

# Guardar modelo
import os
output_path = "../models/adult_income_model"
os.makedirs(os.path.dirname(output_path), exist_ok=True)

full_model.write().overwrite().save(output_path)
print(f"üíæ Modelo guardado en: {output_path}")


## 8. Resumen y Conclusiones


In [None]:
print("=" * 60)
print("üìã RESUMEN DEL AN√ÅLISIS DE CLASIFICACI√ìN")
print("=" * 60)

print(f"üìä DATOS PROCESADOS:")
print(f"   ‚Ä¢ Total de registros: {df.count()}")
print(f"   ‚Ä¢ Registros de entrenamiento: {train_df.count()}")
print(f"   ‚Ä¢ Registros de prueba: {test_df.count()}")
print(f"   ‚Ä¢ Caracter√≠sticas utilizadas: {len(feature_columns)}")

print(f"\\nüîß PREPROCESAMIENTO:")
print(f"   ‚Ä¢ Variables categ√≥ricas indexadas: 4 (sex, workclass, education, label)")
print(f"   ‚Ä¢ Variables categ√≥ricas codificadas: 3 (sex, workclass, education)")
print(f"   ‚Ä¢ Variables num√©ricas: 3 (age, fnlwgt, hours_per_week)")
print(f"   ‚Ä¢ Vector de caracter√≠sticas: {len(feature_columns)} dimensiones")

print(f"\\nü§ñ MODELO:")
print(f"   ‚Ä¢ Algoritmo: Regresi√≥n Log√≠stica")
print(f"   ‚Ä¢ Regularizaci√≥n: ElasticNet (L1 + L2)")
print(f"   ‚Ä¢ Par√°metro de regularizaci√≥n: 0.01")
print(f"   ‚Ä¢ M√°ximo de iteraciones: 100")

print(f"\\nüìà M√âTRICAS FINALES:")
print(f"   ‚Ä¢ AUC: {auc:.4f}")
print(f"   ‚Ä¢ Precisi√≥n: {accuracy:.4f}")
print(f"   ‚Ä¢ Recall: {recall:.4f}")
print(f"   ‚Ä¢ F1-Score: {f1:.4f}")

print(f"\\n‚úÖ RESULTADOS:")
if auc > 0.8:
    print("   üéâ Excelente rendimiento del modelo (AUC > 0.8)")
elif auc > 0.7:
    print("   üëç Buen rendimiento del modelo (AUC > 0.7)")
else:
    print("   ‚ö†Ô∏è  Rendimiento del modelo puede mejorarse")

print(f"\\nüöÄ PR√ìXIMOS PASOS:")
print("   ‚Ä¢ El modelo est√° listo para hacer predicciones sobre nuevos datos")
print("   ‚Ä¢ Se puede implementar en producci√≥n usando el pipeline guardado")
print("   ‚Ä¢ Considerar validaci√≥n cruzada para optimizaci√≥n de hiperpar√°metros")
print("   ‚Ä¢ Monitorear el rendimiento en datos de producci√≥n")


In [None]:
# Detener Spark Session
spark.stop()
print("‚úÖ Spark Session detenida")
print("\\nüéâ ¬°An√°lisis completado exitosamente!")


## 9. An√°lisis Detallado de Predicciones

### 9.1 Predicciones con Probabilidades

Vamos a analizar en detalle las predicciones del modelo, incluyendo las probabilidades asociadas y compararlas con las etiquetas reales.


In [None]:
# Crear un DataFrame m√°s detallado con las predicciones
detailed_predictions = predictions.select(
    "label_indexed",
    "prediction", 
    "probability",
    "rawPrediction"
)

# Agregar informaci√≥n interpretable
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# Funci√≥n para interpretar las etiquetas
def interpret_label(label_idx):
    return ">50K" if label_idx == 1.0 else "<=50K"

def interpret_prediction(pred_idx):
    return ">50K" if pred_idx == 1.0 else "<=50K"

# Crear UDFs
interpret_label_udf = udf(interpret_label, StringType())
interpret_prediction_udf = udf(interpret_prediction, StringType())

# Aplicar las funciones
detailed_predictions = detailed_predictions.withColumn(
    "label_interpreted", interpret_label_udf("label_indexed")
).withColumn(
    "prediction_interpreted", interpret_prediction_udf("prediction")
)

# Extraer probabilidades individuales
from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType

def extract_prob_0(probability_vector):
    return float(probability_vector[0])

def extract_prob_1(probability_vector):
    return float(probability_vector[1])

extract_prob_0_udf = udf(extract_prob_0, DoubleType())
extract_prob_1_udf = udf(extract_prob_1, DoubleType())

detailed_predictions = detailed_predictions.withColumn(
    "prob_<=50K", extract_prob_0_udf("probability")
).withColumn(
    "prob_>50K", extract_prob_1_udf("probability")
)

print("üìä PREDICCIONES DETALLADAS CON PROBABILIDADES:")
print("=" * 80)
detailed_predictions.select(
    "label_interpreted",
    "prediction_interpreted", 
    "prob_<=50K",
    "prob_>50K",
    "probability"
).show(20, truncate=False)


In [None]:
# An√°lisis de casos correctos vs incorrectos
correct_predictions = detailed_predictions.filter(
    col("label_indexed") == col("prediction")
)
incorrect_predictions = detailed_predictions.filter(
    col("label_indexed") != col("prediction")
)

print(f"üìà AN√ÅLISIS DE PREDICCIONES:")
print(f"   ‚Ä¢ Total de predicciones: {detailed_predictions.count()}")
print(f"   ‚Ä¢ Predicciones correctas: {correct_predictions.count()}")
print(f"   ‚Ä¢ Predicciones incorrectas: {incorrect_predictions.count()}")
print(f"   ‚Ä¢ Tasa de acierto: {correct_predictions.count() / detailed_predictions.count() * 100:.2f}%")

print(f"\\n‚úÖ EJEMPLOS DE PREDICCIONES CORRECTAS:")
correct_predictions.select(
    "label_interpreted",
    "prediction_interpreted", 
    "prob_<=50K",
    "prob_>50K"
).show(10, truncate=False)

print(f"\\n‚ùå EJEMPLOS DE PREDICCIONES INCORRECTAS:")
incorrect_predictions.select(
    "label_interpreted",
    "prediction_interpreted", 
    "prob_<=50K",
    "prob_>50K"
).show(10, truncate=False)


### 9.2 An√°lisis de Confianza del Modelo

Analicemos qu√© tan confiado est√° el modelo en sus predicciones.


In [None]:
# An√°lisis de confianza del modelo
from pyspark.sql.functions import when, max as spark_max, min as spark_min, avg

# Calcular la confianza (probabilidad m√°xima)
detailed_predictions = detailed_predictions.withColumn(
    "confidence", 
    when(col("prediction") == 1.0, col("prob_>50K"))
    .otherwise(col("prob_<=50K"))
)

# Estad√≠sticas de confianza
confidence_stats = detailed_predictions.select(
    spark_min("confidence").alias("min_confidence"),
    spark_max("confidence").alias("max_confidence"),
    avg("confidence").alias("avg_confidence")
).collect()[0]

print(f"üéØ AN√ÅLISIS DE CONFIANZA DEL MODELO:")
print(f"   ‚Ä¢ Confianza m√≠nima: {confidence_stats['min_confidence']:.4f}")
print(f"   ‚Ä¢ Confianza m√°xima: {confidence_stats['max_confidence']:.4f}")
print(f"   ‚Ä¢ Confianza promedio: {confidence_stats['avg_confidence']:.4f}")

# Distribuci√≥n de confianza
print(f"\\nüìä DISTRIBUCI√ìN DE CONFIANZA:")
detailed_predictions.select("confidence").describe().show()

# Casos de alta vs baja confianza
high_confidence = detailed_predictions.filter(col("confidence") >= 0.8)
low_confidence = detailed_predictions.filter(col("confidence") < 0.6)

print(f"\\nüîç CASOS DE ALTA CONFIANZA (‚â•0.8):")
print(f"   ‚Ä¢ Cantidad: {high_confidence.count()}")
print(f"   ‚Ä¢ Porcentaje: {high_confidence.count() / detailed_predictions.count() * 100:.2f}%")

print(f"\\n‚ö†Ô∏è  CASOS DE BAJA CONFIANZA (<0.6):")
print(f"   ‚Ä¢ Cantidad: {low_confidence.count()}")
print(f"   ‚Ä¢ Porcentaje: {low_confidence.count() / detailed_predictions.count() * 100:.2f}%")

# Mostrar algunos casos de baja confianza
print(f"\\nüîç EJEMPLOS DE BAJA CONFIANZA:")
low_confidence.select(
    "label_interpreted",
    "prediction_interpreted", 
    "confidence",
    "prob_<=50K",
    "prob_>50K"
).show(10, truncate=False)


## 10. Reflexi√≥n y An√°lisis de Resultados

### ¬øQu√© observamos sobre los resultados?

Bas√°ndonos en el an√°lisis realizado, podemos hacer las siguientes observaciones:


#### üéØ **Rendimiento del Modelo**

1. **M√©tricas Generales**: El modelo muestra un rendimiento s√≥lido con m√©tricas como AUC, Accuracy, Precision, Recall y F1-Score que indican una buena capacidad de clasificaci√≥n.

2. **Distribuci√≥n de Predicciones**: La mayor√≠a de las predicciones tienen una confianza razonable, lo que sugiere que el modelo est√° aprendiendo patrones significativos en los datos.

3. **Casos de Alta Confianza**: Los casos donde el modelo tiene alta confianza (‚â•0.8) probablemente representan patrones claros y bien definidos en los datos.

#### üîç **An√°lisis de Errores**

1. **Casos de Baja Confianza**: Los casos con baja confianza (<0.6) pueden indicar:
   - Patrones ambiguos en los datos
   - Caracter√≠sticas que no est√°n bien capturadas por el modelo
   - Casos l√≠mite donde las caracter√≠sticas no son determinantes

2. **Predicciones Incorrectas**: Los errores del modelo pueden revelar:
   - Limitaciones en las caracter√≠sticas utilizadas
   - Necesidad de m√°s datos o caracter√≠sticas adicionales
   - Casos donde el patr√≥n no es lineal

#### üìä **Interpretaci√≥n de Caracter√≠sticas**

1. **Variables Num√©ricas**: 
   - `age`: Probablemente tiene un impacto positivo en ingresos altos
   - `hours_per_week`: Correlaci√≥n positiva con ingresos
   - `fnlwgt`: Variable de ponderaci√≥n que puede no ser directamente interpretable

2. **Variables Categ√≥ricas**:
   - `education`: Factor clave en la predicci√≥n de ingresos
   - `workclass`: Diferencia entre sectores p√∫blico y privado
   - `sex`: Puede mostrar diferencias por g√©nero en los ingresos

#### üöÄ **Implicaciones Pr√°cticas**

1. **Uso en Producci√≥n**: El modelo puede ser utilizado para:
   - Clasificaci√≥n autom√°tica de perfiles de ingresos
   - An√°lisis de riesgo crediticio
   - Estudios demogr√°ficos y socioecon√≥micos

2. **Limitaciones**: 
   - El modelo se basa en correlaciones, no en causalidad
   - Puede tener sesgos inherentes en los datos
   - Requiere validaci√≥n continua con nuevos datos

#### üîß **Mejoras Potenciales**

1. **Ingenier√≠a de Caracter√≠sticas**:
   - Crear nuevas caracter√≠sticas derivadas
   - Considerar interacciones entre variables
   - Normalizaci√≥n de variables num√©ricas

2. **Optimizaci√≥n del Modelo**:
   - Validaci√≥n cruzada para optimizaci√≥n de hiperpar√°metros
   - Prueba de otros algoritmos (Random Forest, Gradient Boosting)
   - Ensemble de m√∫ltiples modelos

3. **Datos**:
   - Recolecci√≥n de m√°s datos
   - Balanceo de clases si es necesario
   - Validaci√≥n de calidad de datos


In [None]:
# An√°lisis final de rendimiento por clase
print("=" * 60)
print("üìä AN√ÅLISIS FINAL POR CLASE")
print("=" * 60)

# An√°lisis de rendimiento por clase
class_0_predictions = detailed_predictions.filter(col("label_indexed") == 0.0)
class_1_predictions = detailed_predictions.filter(col("label_indexed") == 1.0)

print(f"\\nüìà CLASE <=50K (√çndice 0):")
print(f"   ‚Ä¢ Total de casos: {class_0_predictions.count()}")
correct_class_0 = class_0_predictions.filter(col("prediction") == 0.0).count()
print(f"   ‚Ä¢ Predicciones correctas: {correct_class_0}")
print(f"   ‚Ä¢ Precisi√≥n: {correct_class_0 / class_0_predictions.count() * 100:.2f}%")

print(f"\\nüìà CLASE >50K (√çndice 1):")
print(f"   ‚Ä¢ Total de casos: {class_1_predictions.count()}")
correct_class_1 = class_1_predictions.filter(col("prediction") == 1.0).count()
print(f"   ‚Ä¢ Predicciones correctas: {correct_class_1}")
print(f"   ‚Ä¢ Precisi√≥n: {correct_class_1 / class_1_predictions.count() * 100:.2f}%")

# Resumen final
print(f"\\nüéØ RESUMEN FINAL:")
print(f"   ‚Ä¢ Modelo entrenado con {df.count()} registros")
print(f"   ‚Ä¢ Divisi√≥n: {train_df.count()} entrenamiento, {test_df.count()} prueba")
print(f"   ‚Ä¢ Caracter√≠sticas utilizadas: {len(feature_columns)}")
print(f"   ‚Ä¢ AUC: {auc:.4f}")
print(f"   ‚Ä¢ Accuracy: {accuracy:.4f}")
print(f"   ‚Ä¢ F1-Score: {f1:.4f}")

if auc > 0.8:
    print(f"   üéâ ¬°Excelente rendimiento! El modelo est√° listo para producci√≥n.")
elif auc > 0.7:
    print(f"   üëç Buen rendimiento. Considerar optimizaciones adicionales.")
else:
    print(f"   ‚ö†Ô∏è  Rendimiento moderado. Se recomienda mejorar el modelo.")


## 11. Predicci√≥n con Nuevos Datos

### 11.1 Creaci√≥n de Datos de Prueba

Vamos a crear un DataFrame con 9 registros nuevos para probar nuestro modelo entrenado.


In [None]:
# Crear datos de prueba con 9 registros nuevos
new_data = [
    # Registro 1: Profesional joven con educaci√≥n avanzada
    (29, "Male", "Private", 180000, "Masters", 45, ">50K"),
    
    # Registro 2: Empleado gubernamental con educaci√≥n media
    (42, "Female", "Gov", 220000, "Bachelors", 40, ">50K"),
    
    # Registro 3: Trabajador aut√≥nomo mayor
    (58, "Male", "Self-emp", 350000, "HS-grad", 55, ">50K"),
    
    # Registro 4: Joven con educaci√≥n b√°sica
    (24, "Female", "Private", 95000, "11th", 25, "<=50K"),
    
    # Registro 5: Profesional experimentado
    (47, "Male", "Private", 280000, "Bachelors", 50, ">50K"),
    
    # Registro 6: Empleada gubernamental joven
    (31, "Female", "Gov", 160000, "Some-college", 35, "<=50K"),
    
    # Registro 7: Trabajador aut√≥nomo con educaci√≥n avanzada
    (52, "Female", "Self-emp", 320000, "Masters", 48, ">50K"),
    
    # Registro 8: Empleado privado con educaci√≥n media
    (38, "Male", "Private", 200000, "Assoc", 42, "<=50K"),
    
    # Registro 9: Profesional senior
    (61, "Male", "Gov", 400000, "Masters", 40, ">50K")
]

# Crear DataFrame con los nuevos datos
new_df = spark.createDataFrame(new_data, schema)

print("‚úÖ Datos de prueba creados")
print(f"üìä Total de registros nuevos: {new_df.count()}")

# Mostrar los datos de entrada
print("\nüìã DATOS DE ENTRADA PARA PREDICCI√ìN:")
new_df.select("age", "sex", "workclass", "education", "hours_per_week").show(truncate=False)


### 11.2 Aplicaci√≥n del Modelo a Nuevos Datos

Ahora vamos a aplicar nuestro modelo entrenado a estos nuevos datos para hacer predicciones.


In [None]:
# Aplicar el modelo entrenado a los nuevos datos
print("üîÑ Aplicando modelo entrenado a nuevos datos...")
new_predictions = full_model.transform(new_df)

print("‚úÖ Predicciones completadas")

# Crear funciones para interpretar los resultados
def interpret_prediction_new(pred_idx):
    return ">50K" if pred_idx == 1.0 else "<=50K"

def interpret_label_new(label_idx):
    return ">50K" if label_idx == 1.0 else "<=50K"

def extract_prob_high_new(probability_vector):
    return float(probability_vector[1])  # Probabilidad de >50K

# Crear UDFs
interpret_pred_udf_new = udf(interpret_prediction_new, StringType())
interpret_label_udf_new = udf(interpret_label_new, StringType())
extract_prob_udf_new = udf(extract_prob_high_new, DoubleType())

# Agregar columnas interpretables
new_results = new_predictions.withColumn(
    "prediction_interpreted", interpret_pred_udf_new("prediction")
).withColumn(
    "label_interpreted", interpret_label_udf_new("label_indexed")
).withColumn(
    "prob_>50K", extract_prob_udf_new("probability")
)

print("‚úÖ Resultados procesados y listos para mostrar")


### 11.3 Resultados de las Predicciones

Vamos a mostrar los resultados de las predicciones con las probabilidades asociadas.


In [None]:
# Mostrar resultados detallados
print("=" * 100)
print("üìä RESULTADOS DE PREDICCIONES EN NUEVOS DATOS")
print("=" * 100)

# Mostrar tabla completa con predicciones
new_results.select(
    "age", "sex", "workclass", "education", "hours_per_week",
    "label_interpreted", "prediction_interpreted", "prob_>50K"
).show(truncate=False)

# An√°lisis de precisi√≥n en nuevos datos
correct_new = new_results.filter(col("label_indexed") == col("prediction")).count()
total_new = new_results.count()
accuracy_new = correct_new / total_new * 100

print(f"\nüìà AN√ÅLISIS DE PRECISI√ìN EN NUEVOS DATOS:")
print(f"   ‚Ä¢ Predicciones correctas: {correct_new}/{total_new}")
print(f"   ‚Ä¢ Precisi√≥n: {accuracy_new:.2f}%")

# Mostrar casos incorrectos si los hay
incorrect_new = new_results.filter(col("label_indexed") != col("prediction"))
if incorrect_new.count() > 0:
    print(f"\n‚ùå CASOS INCORRECTOS:")
    incorrect_new.select(
        "age", "sex", "workclass", "education", "hours_per_week",
        "label_interpreted", "prediction_interpreted", "prob_>50K"
    ).show(truncate=False)
else:
    print(f"\n‚úÖ ¬°Todas las predicciones fueron correctas!")

# An√°lisis por nivel de confianza
high_conf_new = new_results.filter(col("prob_>50K") >= 0.8)
medium_conf_new = new_results.filter((col("prob_>50K") >= 0.6) & (col("prob_>50K") < 0.8))
low_conf_new = new_results.filter(col("prob_>50K") < 0.6)

print(f"\nüéØ AN√ÅLISIS DE CONFIANZA:")
print(f"   ‚Ä¢ Alta confianza (‚â•0.8): {high_conf_new.count()} casos")
print(f"   ‚Ä¢ Confianza media (0.6-0.8): {medium_conf_new.count()} casos")
print(f"   ‚Ä¢ Baja confianza (<0.6): {low_conf_new.count()} casos")


### 11.4 An√°lisis Detallado de Cada Caso

Vamos a analizar cada caso individual para entender mejor las predicciones del modelo.


In [None]:
# An√°lisis detallado caso por caso
print("üîç AN√ÅLISIS DETALLADO CASO POR CASO:")
print("=" * 80)

# Convertir a Pandas para an√°lisis m√°s detallado
new_results_pandas = new_results.toPandas()

for i, row in new_results_pandas.iterrows():
    print(f"\nüìã CASO {i+1}:")
    print(f"   üë§ Perfil: {row['age']} a√±os, {row['sex']}, {row['workclass']}")
    print(f"   üéì Educaci√≥n: {row['education']}, {row['hours_per_week']} hrs/semana")
    print(f"   üéØ Real: {row['label_interpreted']}")
    print(f"   ü§ñ Predicci√≥n: {row['prediction_interpreted']}")
    print(f"   üìä Probabilidad >50K: {row['prob_>50K']:.3f}")
    
    # An√°lisis del caso
    if row['label_interpreted'] == row['prediction_interpreted']:
        print(f"   ‚úÖ CORRECTO")
    else:
        print(f"   ‚ùå INCORRECTO")
    
    # Interpretaci√≥n de la confianza
    if row['prob_>50K'] >= 0.8:
        conf_level = "ALTA"
    elif row['prob_>50K'] >= 0.6:
        conf_level = "MEDIA"
    else:
        conf_level = "BAJA"
    
    print(f"   üéØ Confianza: {conf_level}")

print(f"\nüìä RESUMEN FINAL:")
print(f"   ‚Ä¢ Total de casos analizados: {len(new_results_pandas)}")
print(f"   ‚Ä¢ Predicciones correctas: {correct_new}")
print(f"   ‚Ä¢ Predicciones incorrectas: {total_new - correct_new}")
print(f"   ‚Ä¢ Precisi√≥n general: {accuracy_new:.2f}%")

# An√°lisis de patrones
print(f"\nüîç PATRONES OBSERVADOS:")
high_income_cases = new_results_pandas[new_results_pandas['label_interpreted'] == '>50K']
low_income_cases = new_results_pandas[new_results_pandas['label_interpreted'] == '<=50K']

print(f"   ‚Ä¢ Casos >50K: {len(high_income_cases)}")
print(f"   ‚Ä¢ Casos <=50K: {len(low_income_cases)}")

if len(high_income_cases) > 0:
    avg_prob_high = high_income_cases['prob_>50K'].mean()
    print(f"   ‚Ä¢ Probabilidad promedio para >50K: {avg_prob_high:.3f}")

if len(low_income_cases) > 0:
    avg_prob_low = low_income_cases['prob_>50K'].mean()
    print(f"   ‚Ä¢ Probabilidad promedio para <=50K: {avg_prob_low:.3f}")


## 5. Evaluaci√≥n del Modelo
