In [12]:
# Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, confusion_matrix
import joblib
import matplotlib.pyplot as plt

In [3]:
# Cargar datos
data = pd.read_csv('data_evaluacion.csv')

In [4]:
# Preprocesamiento
data_dummies = pd.get_dummies(data, drop_first=True)
target_column = '<=50K_>50K'

In [5]:
# Verificar si la columna objetivo existe en los datos preprocesados
if target_column not in data_dummies.columns:
    raise KeyError(f"La columna '{target_column}' no se encuentra en los datos preprocesados.")

X = data_dummies.drop(target_column, axis=1)
y = data_dummies[target_column]

In [6]:
# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [7]:
# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


In [8]:
# Entrenar el modelo
mlp = MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=500, random_state=42)
mlp.fit(X_train_scaled, y_train)


In [20]:
# Evaluar el modelo
print("Red Neuronal")
print("Confusión en entrenamiento:")
print(confusion_matrix(y_train, mlp.predict(X_train_scaled)))
print("Reporte de clasificación en entrenamiento:")
print(classification_report(y_train, mlp.predict(X_train_scaled)))

print("Confusión en prueba:")
print(confusion_matrix(y_test, mlp.predict(X_test_scaled)))
print("Reporte de clasificación en prueba:")
print(classification_report(y_test, mlp.predict(X_test_scaled)))


Red Neuronal
Confusión en entrenamiento:
[[25178   810]
 [ 1091  7109]]
Reporte de clasificación en entrenamiento:
              precision    recall  f1-score   support

       False       0.96      0.97      0.96     25988
        True       0.90      0.87      0.88      8200

    accuracy                           0.94     34188
   macro avg       0.93      0.92      0.92     34188
weighted avg       0.94      0.94      0.94     34188

Confusión en prueba:
[[9923 1243]
 [1337 2150]]
Reporte de clasificación en prueba:
              precision    recall  f1-score   support

       False       0.88      0.89      0.88     11166
        True       0.63      0.62      0.62      3487

    accuracy                           0.82     14653
   macro avg       0.76      0.75      0.75     14653
weighted avg       0.82      0.82      0.82     14653



In [16]:
# Evaluar underfitting y overfitting
def evaluate_model(model, X_train, y_train, X_test, y_test):
    # Evaluar el modelo en el conjunto de entrenamiento
    train_score = model.score(X_train, y_train)
    # Evaluar el modelo en el conjunto de prueba
    test_score = model.score(X_test, y_test)

    print(f"Precisión en el conjunto de entrenamiento: {train_score:.4f}")
    print(f"Precisión en el conjunto de prueba: {test_score:.4f}")


evaluate_model(mlp, X_train_scaled, y_train, X_test_scaled, y_test)

Precisión en el conjunto de entrenamiento: 0.9444
Precisión en el conjunto de prueba: 0.8239
