In [2]:
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Cargar el archivo
file_path = 'attachments/Conjunto_servidores_p_blicos_20240819.csv'
df = pd.read_csv(file_path, dtype={'Columna_8': str, 'Columna_9': str}, low_memory=False)

df = df[['Meses de Experiencia Público', 'Meses de Experiencia Privado',
         'Nivel Educativo', 'Tipo de Nombramiento', 'Nivel Jerarquico Empleo',
         'Dependencia Empleo Actual', 'Asignación Básica Salarial']]

# Convertir las columnas numéricas y rellenar nulos
df.loc[:, 'Meses de Experiencia Público'] = pd.to_numeric(df['Meses de Experiencia Público'], errors='coerce').fillna(0)
df.loc[:, 'Meses de Experiencia Privado'] = pd.to_numeric(df['Meses de Experiencia Privado'], errors='coerce').fillna(0)

df = df.dropna(subset=['Nivel Educativo', 'Nivel Jerarquico Empleo', 'Dependencia Empleo Actual', 'Asignación Básica Salarial'])

# Convertir la columna 'Asignación Básica Salarial' a valores numéricos y escalarla a millones
df['Asignación Básica Salarial'] = df['Asignación Básica Salarial'].replace({'$': '', ',': ''}, regex=True).astype(float)
df['Asignación Básica Salarial'] = df['Asignación Básica Salarial'] / 1_000_000

# One-Hot Encoding para las columnas categóricas
df = pd.get_dummies(df, columns=['Nivel Educativo', 'Tipo de Nombramiento', 'Nivel Jerarquico Empleo', 'Dependencia Empleo Actual'])

# Definir características (X) y etiqueta (y)
X = df.drop(columns=['Asignación Básica Salarial'])
y = df['Asignación Básica Salarial']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Convertir todas las columnas de X_train y X_test a tipo int
X_train = X_train.astype(int)
X_test = X_test.astype(int)

# Definir el modelo de regresión lineal
model = Sequential()

# Agregar capas Dense con funciones de activación lineales
model.add(Dense(128, input_shape=(X_train.shape[1],), activation='linear'))  # Capa oculta
model.add(Dense(64, activation='linear'))  # Otra capa oculta
model.add(Dense(1, activation='linear'))  # Capa de salida

# Compilar el modelo con diferentes hiperparámetros
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), loss='mae', metrics=["mse"])

# Resumen del modelo
model.summary()

# Entrenar el modelo
history = model.fit(X_train, y_train, epochs=200, batch_size=64, validation_split=0.2, verbose=1)

# Evaluar el modelo en el conjunto de prueba
test_loss, test_mse = model.evaluate(X_test, y_test)

print(f"Loss en el conjunto de prueba: {test_loss}, MSE en el conjunto de prueba: {test_mse}")



  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 5ms/step - loss: 1.1666 - mse: 3.8188 - val_loss: 0.7592 - val_mse: 1.8338
Epoch 2/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - loss: 0.7952 - mse: 1.9416 - val_loss: 0.7848 - val_mse: 1.7718
Epoch 3/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - loss: 0.7663 - mse: 1.8708 - val_loss: 0.7368 - val_mse: 1.6945
Epoch 4/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - loss: 0.7461 - mse: 1.7548 - val_loss: 0.7550 - val_mse: 1.7251
Epoch 5/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - loss: 0.7446 - mse: 1.7910 - val_loss: 0.8743 - val_mse: 2.1252
Epoch 6/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - loss: 0.7475 - mse: 1.7747 - val_loss: 0.7332 - val_mse: 1.6696
Epoch 7/200
[1m1775/1775[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m 