¿Por que seleccionamos como modelo una red neuronal?

*   para poder modelar relaciones complejas entre las variables de entrada y la variable de salida.

*   Las redes neuronales son altamente adaptables y pueden generalizar bien a
nuevos datos si se entrenan correctamente. Esto significa que pueden ser efectivas en la predicción de resultados para nuevos pacientes o en nuevas olas de la pandemia.

*   pueden manejar grandes volúmenes de datos

*   pueden mejorarse continuamente con nuevos datos




1. Cargamos la base de datos con los datos previamente procesados

In [3]:
import pandas as pd
# 1. cargar base de datos y delimitador punto y coma
df = pd.read_csv('/content/data_paises (1).csv', delimiter=',')

In [4]:
df.head(5)

Unnamed: 0,location_key,date,country_code,country_name,new_confirmed,new_deceased,cumulative_vaccine_doses_administered,population,population_male,population_female,...,average_temperature_celsius,relative_humidity,population_largest_city,area_rural_sq_km,area_urban_sq_km,life_expectancy,adult_male_mortality_rate,adult_female_mortality_rate,pollution_mortality_rate,comorbidity_mortality_rate
0,AR,2020-01-01,AR,Argentina,3.0,0.0,0.0,44938712.0,19523766.0,20593330.0,...,23.5,64.426444,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8
1,AR,2020-01-02,AR,Argentina,14.0,0.0,0.0,44938712.0,19523766.0,20593330.0,...,23.6875,65.073967,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8
2,AR,2020-01-03,AR,Argentina,3.0,0.0,0.0,44938712.0,19523766.0,20593330.0,...,25.194444,59.669389,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8
3,AR,2020-01-04,AR,Argentina,7.0,0.0,0.0,44938712.0,19523766.0,20593330.0,...,26.305556,53.485178,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8
4,AR,2020-01-05,AR,Argentina,5.0,0.0,0.0,44938712.0,19523766.0,20593330.0,...,25.888889,57.126165,15057273.0,2690269.0,55032.0,76.52,147.086,79.483,26.6,15.8


Revisando datos faltantes

In [6]:
# Anlaizar datos faltantes
df.isna().sum().sort_values()

location_key                             0
gdp_usd                                  0
gdp_per_capita_usd                       0
latitude                                 0
longitude                                0
area_sq_km                               0
smoking_prevalence                       0
diabetes_prevalence                      0
pollution_mortality_rate                 0
infant_mortality_rate                    0
physicians_per_1000                      0
population_largest_city                  0
area_rural_sq_km                         0
area_urban_sq_km                         0
life_expectancy                          0
adult_male_mortality_rate                0
adult_female_mortality_rate              0
nurses_per_1000                          0
population_age_70_79                     0
population_age_80_and_older              0
population_age_50_59                     0
date                                     0
country_code                             0
country_nam

In [8]:
# seleccionar las variables numericas y categoricas
variables_numericas = df.select_dtypes(include = ['float64', 'int','int32']).columns.to_list()
variables_numericas

variables_categoricas = df.select_dtypes(include = ['object', 'category']).columns.to_list()
variables_categoricas

['location_key', 'date', 'country_code', 'country_name']

Primeros pasos para la preparaciòn del modelo

In [10]:
# Importar el OrdinalEncoder desde sklearn.preprocessing
from sklearn.preprocessing import OrdinalEncoder

# Crear una instancia del OrdinalEncoder
enc = OrdinalEncoder()

# Lista de variables categóricas que deseas transformar
variables_categoricas = ['location_key', 'date', 'country_code', 'country_name', 'new_confirmed', 'new_deceased',
                         'cumulative_vaccine_doses_administered', 'population', 'population_male', 'population_female',
                         'average_temperature_celsius', 'relative_humidity', 'population_largest_city',
                         'area_rural_sq_km', 'area_urban_sq_km', 'life_expectancy', 'adult_male_mortality_rate',
                         'adult_female_mortality_rate', 'pollution_mortality_rate', 'comorbidity_mortality_rate']

# Aplicar el OrdinalEncoder a las variables especificadas
df[variables_categoricas] = enc.fit_transform(df[variables_categoricas])

# Mostrar los tipos de datos y los primeros registros del DataFrame transformado
print(df.dtypes)
print(df.head(3))


location_key                             float64
date                                     float64
country_code                             float64
country_name                             float64
new_confirmed                            float64
new_deceased                             float64
cumulative_vaccine_doses_administered    float64
population                               float64
population_male                          float64
population_female                        float64
population_density                       float64
human_development_index                  float64
population_age_00_09                     float64
population_age_10_19                     float64
population_age_20_29                     float64
population_age_30_39                     float64
population_age_40_49                     float64
population_age_50_59                     float64
population_age_60_69                     float64
population_age_70_79                     float64
population_age_80_an

In [12]:
# Importar train_test_split desde sklearn.model_selection
from sklearn.model_selection import train_test_split

# Variables que podrían estar relacionadas con nuevos contagios
variables_contagios = ['location_key', 'date', 'country_code', 'country_name', 'new_confirmed', 'new_deceased',
                       'cumulative_vaccine_doses_administered', 'population', 'population_male', 'population_female',
                       'average_temperature_celsius', 'relative_humidity', 'population_largest_city',
                       'area_rural_sq_km', 'area_urban_sq_km', 'life_expectancy', 'adult_male_mortality_rate',
                       'adult_female_mortality_rate', 'pollution_mortality_rate', 'comorbidity_mortality_rate']

# Reparto de datos en train y test
x_train, x_test, y_train, y_test = train_test_split(
                                   df[variables_contagios],     # Variables predictoras relacionadas con contagios
                                   df['new_confirmed'],         # Variable a predecir (nuevos contagios)
                                   train_size=0.7,
                                   random_state=123,
                                   shuffle=True)

# Mostrar dimensiones de los conjuntos de entrenamiento y prueba
print(f'Dimensiones de x_train: {x_train.shape}')
print(f'Dimensiones de x_test: {x_test.shape}')


Dimensiones de x_train: (1965, 20)
Dimensiones de x_test: (843, 20)


Nota: Aparecieron nan se imputan.



*   dividimos los datos en conjuntos de entrenamiento y prueba.
*   se escogen variables predictoras



In [14]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer

# Variables que podrían estar relacionadas con nuevos contagios
variables_contagios = ['location_key', 'date', 'country_code', 'country_name', 'new_confirmed', 'new_deceased',
                       'cumulative_vaccine_doses_administered', 'population', 'population_male', 'population_female',
                       'average_temperature_celsius', 'relative_humidity', 'population_largest_city',
                       'area_rural_sq_km', 'area_urban_sq_km', 'life_expectancy', 'adult_male_mortality_rate',
                       'adult_female_mortality_rate', 'pollution_mortality_rate', 'comorbidity_mortality_rate']

# Reparto de datos en train y test
x_train, x_test, y_train, y_test = train_test_split(
                                   df[variables_contagios],     # Variables predictoras relacionadas con contagios
                                   df['new_confirmed'],         # Variable a predecir (nuevos contagios)
                                   train_size=0.7,
                                   random_state=123,
                                   shuffle=True)

# Imputación de valores faltantes en X_train y X_test
imputer = SimpleImputer(strategy='mean')  # Puedes ajustar la estrategia según tus datos
x_train_imputed = imputer.fit_transform(x_train)
x_test_imputed = imputer.transform(x_test)

# Definición de modelos MLPClassifier
modelos = [
    MLPClassifier(hidden_layer_sizes=(5), learning_rate_init=0.01, solver='lbfgs', max_iter=1000, random_state=123),
    MLPClassifier(hidden_layer_sizes=(10), learning_rate_init=0.01, solver='lbfgs', max_iter=1000, random_state=123),
    MLPClassifier(hidden_layer_sizes=(20, 20), learning_rate_init=0.01, solver='lbfgs', max_iter=5000, random_state=123),
    MLPClassifier(hidden_layer_sizes=(50, 50, 50), learning_rate_init=0.01, solver='lbfgs', max_iter=5000, random_state=123)
]

# Entrenamiento de los modelos con datos imputados
for i, modelo in enumerate(modelos, start=1):
    modelo.fit(X=x_train_imputed, y=y_train)
    print(f"Modelo {i} entrenado.")

# Ejemplo de cómo acceder al primer modelo entrenado
primer_modelo_entrenado = modelos[0]


Modelo 1 entrenado.


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Modelo 2 entrenado.
Modelo 3 entrenado.
Modelo 4 entrenado.


In [17]:
# Obtener probabilidades de predicciones y hacer predicciones binarias
predicciones = []
for modelo in modelos:
    proba = modelo.predict_proba(x_test_imputed)
    pred = (proba[:, 1] >= 0.5).astype(int)
    predicciones.append(pred)

# Ejemplo de cómo acceder a las primeras predicciones del primer modelo
primer_modelo_prediccion = predicciones[0][:5]
print("Predicciones del primer modelo:", primer_modelo_prediccion)

Predicciones del primer modelo: [0 0 0 0 0]


El objetivo principal de este código es entrenar modelos de redes neuronales para predecir nuevos contagios de COVID-19 utilizando datos relacionados con variables demográficas, de salud, climáticas y geográficas. Las predicciones binarias obtenidas (0 o 1) muestran si el modelo predice un alto riesgo (1) o bajo riesgo (0) de nuevos contagios para los países o regiones representados en los datos.

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score
import numpy as np
import multiprocessing
import pandas as pd

# Definición de modelos MLPClassifier
modelo_1 = MLPClassifier(hidden_layer_sizes=(5,), learning_rate_init=0.01, solver='lbfgs', max_iter=1000, random_state=123)
modelo_2 = MLPClassifier(hidden_layer_sizes=(10,), learning_rate_init=0.01, solver='lbfgs', max_iter=1000, random_state=123)
modelo_3 = MLPClassifier(hidden_layer_sizes=(20, 20), learning_rate_init=0.01, solver='lbfgs', max_iter=5000, random_state=123)
modelo_4 = MLPClassifier(hidden_layer_sizes=(50, 50, 50), learning_rate_init=0.01, solver='lbfgs', max_iter=5000, random_state=123)

# Espacio de búsqueda de cada hiperparámetro
param_distributions = {
    'hidden_layer_sizes': [(10,), (10, 10), (20, 20)],
    'alpha': np.logspace(-3, 3, 7),
    'learning_rate_init': [0.001, 0.01, 0.1],
}

# Búsqueda por validación cruzada
modelo_cv = RandomizedSearchCV(
            estimator=MLPClassifier(solver='lbfgs', max_iter=2000, random_state=123),
            param_distributions=param_distributions,
            n_iter=50,
            scoring='accuracy',
            n_jobs=multiprocessing.cpu_count() - 1,
            cv=3,
            verbose=0,
            random_state=123,
            return_train_score=True
            )

# Entrenamiento del modelo
modelo_cv.fit(x_train_imputed, y_train)

# Resultados de la búsqueda
resultados = pd.DataFrame(modelo_cv.cv_results_)

# Mejor combinación de hiperparámetros
mejores_parametros = modelo_cv.best_params_
print("Mejores hiperparámetros:", mejores_parametros)

# Mejor puntuación obtenida durante la validación cruzada
mejor_puntuacion = modelo_cv.best_score_
print("Mejor puntuación (accuracy):", mejor_puntuacion)

# Mejor modelo
mejor_modelo = modelo_cv.best_estimator_
print("Mejor modelo:", mejor_modelo)

# Evaluación del mejor modelo en datos de prueba
y_pred = mejor_modelo.predict(x_test_imputed)
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del mejor modelo en datos de prueba: {accuracy:.4f}")

# Obtener probabilidades de predicciones y hacer predicciones binarias para los modelos originales
proba_1 = modelo_1.predict_proba(x_test_imputed)
pred_1 = (proba_1[:, 1] >= 0.5).astype(int)

proba_2 = modelo_2.predict_proba(x_test_imputed)
pred_2 = (proba_2[:, 1] >= 0.5).astype(int)

proba_3 = modelo_3.predict_proba(x_test_imputed)
pred_3 = (proba_3[:, 1] >= 0.5).astype(int)

proba_4 = modelo_4.predict_proba(x_test_imputed)
pred_4 = (proba_4[:, 1] >= 0.5).astype(int)

# Ejemplo de cómo acceder a las primeras predicciones binarias del primer modelo original
print("Predicciones del primer modelo original:", pred_1[:5])


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
ABNORMAL_TERMINATION_IN_LNSRCH.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


In [23]:
# Realizar predicciones con el mejor modelo
#predicciones = mejor_modelo.predict(x_test)
probabilidades = mejor_modelo.predict_proba(x_test)

# Mostrar algunas de las predicciones y probabilidades
#print("Predicciones:", predicciones[:5])
print("Probabilidades:", probabilidades[:5])

# Convertir probabilidades a clases binarias (0 y 1) utilizando un umbral de 0.5
clasificacion = (probabilidades[:, 1] >= 0.5).astype(int)

NameError: name 'mejor_modelo' is not defined

NameError: name 'mejor_modelo' is not defined

In [None]:
probabilidades = mejor_modelo.predict_proba(x_test)
predicciones = (probabilidades[:, 1] >= 0.5).astype(int)
clasificacion = np.where(predicciones<0.5, 0, 1)

In [None]:
# Accuracy de test del modelo
# ==============================================================================
#from sklearn.metrics import accuracy_score
#import statsmodels.api as sm

# Modelo 1
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = pred_1,
            normalize = True
           )
print("")
print(f"El accuracy deL modelo 1 es: {100*accuracy}%")


# Modelo 2
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = pred_2,
            normalize = True
           )
print("")
print(f"El accuracy deL modelo 2 es: {100*accuracy}%")

# Modelo 3
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = pred_3,
            normalize = True
           )
print("")
print(f"El accuracy deL modelo 3 es: {100*accuracy}%")

# Modelo 4
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = pred_4,
            normalize = True
           )
print("")
print(f"El accuracy deL modelo 4 es: {100*accuracy}%")


# Modelo CV
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = clasificacion,
            normalize = True
           )
print("")
print(f"El accuracy deL modelo CV es: {100*accuracy}%")