In [3]:
import pickle
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from math import sqrt
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score

In [5]:
# Cargar los datos desde el archivo .pkl
with open('datos/df_normalizado.pkl', 'rb') as file:
    datos_migracion = pickle.load(file)

# Dividir los datos en características (X) y la variable objetivo (y)
X = datos_migracion[['Total Number of Dead and Missing', 'Number of Survivors', 'Number of Females', 'Number of Males', 'Number of Children']]
y = datos_migracion['Year']  # Reemplaza 'variable_objetivo' con el nombre de tu columna objetivo

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalado de características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Definir el modelo de regresión lineal en TensorFlow
model = tf.keras.Sequential([
    tf.keras.layers.Input(shape=(X_train_scaled.shape[1],)),
    tf.keras.layers.Dense(1)  # Una capa densa para la regresión lineal
])

# Compilar el modelo
model.compile(optimizer='adam', loss='mean_squared_error')

# Entrenar el modelo
model.fit(X_train_scaled, y_train, epochs=100, batch_size=32, verbose=0)

# Evaluar el modelo
loss = model.evaluate(X_test_scaled, y_test)
print("Error en el conjunto de prueba:", loss)

# Hacer predicciones en el conjunto de prueba
predicciones = model.predict(X_test_scaled)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, predicciones)
print("Error cuadrático medio:", mse)


Error en el conjunto de prueba: 0.005302903708070517
Error cuadrático medio: 0.005302903665045269


In [6]:
# Error Absoluto Medio(MAE)
'''
    En general, cuanto más bajo sea el valor del MAE, mejor será el rendimiento del modelo.
'''
mae = mean_absolute_error(y_test, predicciones)
print("Mean Absolute Error:", mae)

Mean Absolute Error: 0.02265178372695421


In [7]:
# Calcular el R^2
r2 = r2_score(y_test, predicciones)
print("R^2:", r2)

R^2: 0.0


In [8]:
#Calcular el error cuadrático medio
mse = mean_squared_error(y_test, predicciones)
print("Error cuadrático medio:", mse)

Error cuadrático medio: 0.005302903665045269


In [9]:
# Raiz del error cuadrático medio(RMSE)
rmse = sqrt(mean_squared_error(y_test, predicciones))
print(rmse)

0.0728210386155352


In [10]:
# Calcular el R^2 ajustado para el modelo
n = len(X_test)  # número de observaciones
p = X_test.shape[1]  # número de predictores
r2 = r2_score(y_test, predicciones)
adjusted_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)
print(adjusted_r2)

-0.017006802721088343


In [11]:
# Error porcentual absoluto medio (MAPE)
predicciones = model.predict(X_test_scaled)

# Aplanar las predicciones a un array unidimensional
predicciones = predicciones.flatten()

# Ahora puedes calcular el MAPE
mape = np.mean(np.abs((y_test - predicciones) / y_test)) * 100
print(mape)

inf
