# Despliegue de Modelo - Evaluación Conjunta

Lo primero que haremos, será el ver que es lo que contiene nuestro dataset

In [1]:
# Importamos nuestras librerías

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
def leer_datos(ruta):
    df = pd.read_csv(ruta,sep=',')
    return df

In [3]:
entrenamiento = leer_datos("data_evaluacion.csv")
entrenamiento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48841 entries, 0 to 48840
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   39             48841 non-null  int64 
 1   State-gov      48841 non-null  object
 2   77516          48841 non-null  int64 
 3   Bachelors      48841 non-null  object
 4   13             48841 non-null  int64 
 5   Never-married  48841 non-null  object
 6   Adm-clerical   48841 non-null  object
 7   Not-in-family  48841 non-null  object
 8   White          48841 non-null  object
 9   Male           48841 non-null  object
 10  2174           48841 non-null  int64 
 11  0              48841 non-null  int64 
 12  40             48841 non-null  int64 
 13  United-States  48841 non-null  object
 14  <=50K          48841 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


Como vemos, nuestro dataset consta de 48841 datos, sin embargo, colocaremos encabezados basados en la información de nuestro dataset, para que nos sea más fácil entender las columnas que estamos manejando.

In [4]:
# Cargamos el archivo CSV de la evaluacion
file_path = 'data_evaluacion.csv'
df = pd.read_csv(file_path, header=None)  # header=None indica que el archivo CSV no tiene encabezado

# Asignamos títulos a las columnas
df.columns = ['Edad', 'ClaseObrera', 'PesoFinal', 'Educacion', 'EducacionNum', 'EstadoMarital', 'Ocupacion', 'EstadoCivil', 'Raza', 'Sexo', 'GananciaCapital'
, 'PerdidaCapital', 'HorasPorSemana', 'Pais', 'Salario']

# Guardamos el DataFrame con los nuevos títulos de columna
df.to_csv('data_evaluacion_encabezados.csv', index=False)

print("Archivo CSV con encabezados guardado con éxito.")

Archivo CSV con encabezados guardado con éxito.


In [5]:
# Volvemos a ver si nuestro nuevo archivo tiene los mismos datos

df = leer_datos("data_evaluacion_encabezados.csv")
df.head()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Edad             48842 non-null  int64 
 1   ClaseObrera      48842 non-null  object
 2   PesoFinal        48842 non-null  int64 
 3   Educacion        48842 non-null  object
 4   EducacionNum     48842 non-null  int64 
 5   EstadoMarital    48842 non-null  object
 6   Ocupacion        48842 non-null  object
 7   EstadoCivil      48842 non-null  object
 8   Raza             48842 non-null  object
 9   Sexo             48842 non-null  object
 10  GananciaCapital  48842 non-null  int64 
 11  PerdidaCapital   48842 non-null  int64 
 12  HorasPorSemana   48842 non-null  int64 
 13  Pais             48842 non-null  object
 14  Salario          48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


In [6]:
# Verificamos si hay valores nulos en las columnas

print(df.isnull().sum())

Edad               0
ClaseObrera        0
PesoFinal          0
Educacion          0
EducacionNum       0
EstadoMarital      0
Ocupacion          0
EstadoCivil        0
Raza               0
Sexo               0
GananciaCapital    0
PerdidaCapital     0
HorasPorSemana     0
Pais               0
Salario            0
dtype: int64


## Limpieza de Datos

In [7]:
# Convertimos variables categóricas a numéricas
le = LabelEncoder()
categorical_columns = ['ClaseObrera', 'Educacion', 'EstadoMarital', 'Ocupacion', 'EstadoCivil', 'Raza', 'Sexo', 'Pais', 'Salario']
for col in categorical_columns:
    df[col] = le.fit_transform(df[col])

# Separamos características y variable objetivo
X = df.drop('Salario', axis=1)
y = df['Salario']

# Dividimos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalamos las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# NORMALIZACION DE CARACTERISTICAS NUMERICAS
scaler = StandardScaler()
numeric_columns = X.select_dtypes(include=[np.number]).columns
X_train_scaled = X_train.copy()
X_test_scaled = X_test.copy()
X_train_scaled[numeric_columns] = scaler.fit_transform(X_train[numeric_columns])
X_test_scaled[numeric_columns] = scaler.transform(X_test[numeric_columns])


## Entrenamiento de RNA


In [18]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Definir el modelo
model = Sequential()
model.add(Dense(64, input_dim=X_train_scaled.shape[1], activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(16, activation='relu'))
model.add(Dense(1, activation='sigmoid'))  # Capa de salida para clasificación binaria

# Compilar el modelo
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
history = model.fit(X_train_scaled, y_train, epochs=100, batch_size=32, validation_split=0.2, verbose=1)

# Evaluar el modelo
test_loss, test_accuracy = model.evaluate(X_test_scaled, y_test)
print(f"Test accuracy: {test_accuracy}")

# Hacer predicciones
y_pred = (model.predict(X_test_scaled) > 0.5).astype("int32")
print(classification_report(y_test, y_pred))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78