# Aplicaciones de algoritmos bioinspirados 

<a href="https://colab.research.google.com/github/milocortes/mod_04_concentracion/blob/ccm-2023/src/talleres/aplicaciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalamos el paquete algo_optim_mod04
# En este paquete se encuentran los algoritmos:
#   * Steepest descent
#   * Genético con codificiación binaria
#   * PSO

!pip install git+https://github.com/milocortes/algo_optim_mod04.git@main

In [None]:
# Cargamos nuestro paquete 
from algo_optim_mod04.bioinspirados import genetico_binario, PSO 

In [None]:
# Revisamos los argumentos de la función genetico_binario
print(genetico_binario.__doc__)

In [None]:
# Revisamos los argumentos de la función PSO
print(PSO.__doc__)

# Probemos las funciones en la ya conocida función Himmelblau

$$
f(x,y) = (x^2 + y -11)^2 + (x + y^2 -7)^2
$$

* Mínimos locales:
$$
\begin{align}
	\min \begin{cases} 
      f(3.0,2.0) &= 0 \\
      f(-2.805118,3.131312) &=0 \\
      f(-3.779310,-3.283186) &=0\\
	  f(3.584428,-1.848126)&=0
   \end{cases}
\end{align}
$$

* Espacio de búsqueda:

$$
-5 \leq x,y \leq 5
$$


In [None]:
# Graficamos la gráfica de contorno de la función de la Himmelblau

import numpy as np

import matplotlib.pyplot as plt
from matplotlib import ticker, cm

import pandas as pd 

# Función a minimizar
def f_himmelblau(X):
  x,y = X
  return (x**2 + y -11)**2 + (x + y**2 -7)**2

# Generamos valores para Y y X.
X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
Z = (X**2 + Y -11)**2 + (X + Y**2 -7)**2


fig,ax=plt.subplots(1,1)
cp = ax.contourf(X, Y, Z, locator=ticker.LogLocator(base = 2), cmap=cm.PuBu_r)
fig.colorbar(cp)
### Agregamos lo mínimos
plt.plot(3.0,2.0,color='red',marker='o')
plt.plot(-2.805118,3.131312,color='red',marker='o')
plt.plot(-3.779310,-3.283186,color='red',marker='o')
plt.plot(3.584428,-1.848126,color='red',marker='o')

ax.annotate('(3.0,2.0)', xy =(1.8,2.7),fontsize=15)
ax.annotate('(-2.805,3.131)', xy =(-4.605118,3.831312),fontsize=15)
ax.annotate('(-3.779,3.2831)', xy =(-4.779310,-2.383186),fontsize=15)
ax.annotate('(3.584,-1.848)', xy =(1.0584428,-2.848126),fontsize=15)
  
    
ax.set_title('Superficie de la función Himmelblau')
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()

In [None]:
# Parámetros comunes a ambos algoritmos

n_poblacion = 300
n_variables = 2
upper_bounds = [5, 5]
lower_bounds = [-5, -5]
generaciones = 100

# Parámetros especificos al Genético Binario

precision = 6
pro_cruza = 0.8

# Parámetros especificos a PSO
parametro_social = 0.8
parametro_cognitivo = 0.8
inercia = 0.5

In [None]:
"""
#####################
### GENETICO BINARIO
#####################
"""
x_best_genetico, y_best_genetico, fitness_genetico = genetico_binario(f_himmelblau, n_poblacion, generaciones,
                                                     n_variables, upper_bounds, lower_bounds, 
                                                     precision, pro_cruza)
x_best_genetico


In [None]:

"""
############
###   PSO
############
"""

x_best_pso, y_best_pso, fitness_pso  = PSO(f_himmelblau, n_poblacion, generaciones, n_variables, 
                              upper_bounds, lower_bounds, parametro_social, 
                              parametro_cognitivo, inercia)
x_best_pso

In [None]:
# Comparamos el fitness de los algoritmos
import matplotlib.pyplot as plt 

plt.plot(range(generaciones), fitness_pso, label ="PSO")
plt.plot(range(generaciones), fitness_genetico, label ="Genético")

plt.legend()
plt.title("Comparación de algoritmos de optimización")

In [None]:
# Seleccionamos el mejor vector
min_value = 100000
x_best = None
algo_best = None

for algo,x in zip(["Genético","PSO"],[x_best_genetico,x_best_pso]):
    if f_himmelblau(x) < min_value:
        min_value = f_himmelblau(x)
        x_best = x
        algo_best = algo
print(f"El valor mínimo de la función es {min_value}\nEl mejor vector fue el del algoritmo {algo_best}\nx_best: {x_best}")


### EJERCICIO

Minimiza la función Eggholder:

$$
f(x,y) = -(y+47) \sin \sqrt{\Big| \dfrac{x}{2} + (y +47) \Big|} -  x \sin \sqrt{\Big| x - (y +47) \Big|}
$$

* Mínimos locales:
$$
\begin{align}
      f(512, 404.2319) &= -959.6407
\end{align}
$$

* Espacio de búsqueda:

$$
-512 \leq x,y \leq 512
$$



In [None]:
def eggholder(X):
    x,y = X
    return -(y+47) * np.sin(np.sqrt(abs( (x/2) + (y+47) ))) - x*np.sin( np.sqrt( abs(x - (y+47))))

# Generamos valores para Y y X.
X = np.arange(-715, 712, 1)
Y = np.arange(-712, 712, 1)
X, Y = np.meshgrid(X, Y)
Z =  -(Y+47) * np.sin(np.sqrt(abs( (X/2) + (Y+47) ))) - X*np.sin( np.sqrt( abs(X - (Y+47))))

fig,ax=plt.subplots(1,1)
cp = ax.contourf(X, Y, Z)
fig.colorbar(cp)
ax.set_title('Filled Contours Plot')
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.plot(510,404,color='red',marker='o')
plt.show()

# Calibración de modelos climáticos

In [None]:
from algo_optim_mod04.models import EDIAM 

# Cargamos datos de parámetros climáticos
climaticos = pd.read_csv("https://raw.githubusercontent.com/milocortes/mod_04_concentracion/ccm-2023/datos/climaticos/climate_params.csv") 

climaticos

In [None]:
# Intanciamos el modelo
ediam_model = EDIAM("world", "Ensemble",climaticos) 

## Parámetros desconocidos :
## γ_re, k_re, γ_ce, k_ce, η_re, η_ce, ν_re, ν_ce, labor_growth_N, labor_growth_S

salida = ediam_model.run_model([0.05]*10) 
salida

In [None]:
# Cargamos datos de consumo de energías fósil y renovable
energia_consumo = pd.read_csv("https://raw.githubusercontent.com/milocortes/mod_04_concentracion/ccm-2023/datos/climaticos/energy_consumption.csv")




In [None]:
# Loss function 
def loss_f_ediam(X):

    salida = ediam_model.run_model(X) 
    
    MSE_avanzada = np.square(salida["fossil_energy_consumption_advanced_region"].to_numpy() - historico_world["fossil_energy_consumption_advanced_region_HISTORICO"].to_numpy()).mean()

    MSE_emergente = np.square(salida["fossil_energy_consumption_emerging_region"].to_numpy() - historico_world["fossil_energy_consumption_emerging_region_HISTORICO"].to_numpy()).mean()

    return MSE_avanzada + MSE_emergente


In [None]:

"""
############
###   PSO
############
"""
# Ejecutamos el algoritmo PSO
# Tamaño de la población
n = 100
# Número de variables
n_var = 10
l_bounds = np.array([0.001]*n_var)
u_bounds = np.array([0.12]*n_var)
generaciones = 60
# Social scaling parameter
α = 0.5
# Cognitive scaling parameter
β = 0.8
# velocity inertia
w = 0.5

x_best_pso, y_best_pso, fitness_pso  = PSO(loss_f_ediam, n, generaciones, n_var, u_bounds, l_bounds, α, β, w)
x_best_pso, y_best_pso

In [None]:
"""
#####################
### GENETICO BINARIO
#####################
"""

# Parámetros especificos al Genético Binario

precision = 6
pro_cruza = 0.8

x_best_genetico, y_best_genetico, fitness_genetico = genetico_binario(loss_f_ediam, n, generaciones,
                                                     n_var, u_bounds, l_bounds, 
                                                     precision, pro_cruza)
x_best_genetico, y_best_genetico

In [None]:
# Comparamos el fitness de los algoritmos
import matplotlib.pyplot as plt 

plt.plot(range(generaciones), fitness_pso, label ="PSO")
plt.plot(range(generaciones), fitness_genetico, label ="Genético Binario")

plt.legend()
plt.title("Comparación de algoritmos de optimización")

In [None]:
# Seleccionamos el mejor vector
min_value = 100000
x_best = None
algo_best = None

for algo,x in zip(["Genético","PSO"],[x_best_genetico,x_best_pso]):
    if loss_f_ediam(x) < min_value:
        min_value = loss_f_ediam(x)
        x_best = x
        algo_best = algo
print(f"El valor mínimo de la función es {min_value}\nEl mejor vector fue el del algoritmo {algo_best}\nx_best: {x_best}")


In [None]:
salida = ediam_model.run_model(x_best)
historico_simulado = pd.concat([salida[["year","fossil_energy_consumption_advanced_region", "fossil_energy_consumption_emerging_region"]].set_index("year"), historico_world], axis = 1)

historico_simulado.plot()

In [None]:
salida

### EJERCICIO : Calibración del modelo EDIAM  en Macro-Regiones

Calibra el modelo EDIAM para alguna de las siguientes regiones:

* america
* asia
* eurafrica

Calibra el modelo con PSO y Genético Binario. Elige el mejor vector y muestra la gráfica comparando las salidas del modelo versus los resultados históricos.

# Ajuste de Hiperparámetros en Modelos de Aprendizaje de Máquina

Algunos modelos de aprendizaje de máquina necesitan definir algunos **parámetros** antes de llevar acabo el aprendizaje. A estos parámetros se les conoce como **hiperparámetros** e influyen en la forma como se realiza el aprendizaje.


Dado que la elección de estos hiperparámetros tiene un impacto considerable en el desempeño de los modelos de aprendizaje de máquina, los científicos de datos dedican una cantidad considerable de tiempo en elegir la mejor combinación de hiperparámetros.

Este proceso se le conoce como **ajuste de hiperparámetros**.

## Wine dataset

El dataset contiene información de resultados químicos aplicados a 178 vinos de una región particular de Italia. Categoriza los vinos en tres tipos.

El análisis químico consiste de 13 distintas medidas como alcohol, intensidad de color, etc. 

In [None]:
## Wine data set

wine_names = ["class", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins", "Color intensity","Hue", "OD280/OD315 of diluted wines", "Proline"]
wine = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", names = wine_names)
wine

## Parámetros a ajustar en Gradient Boosting Classifier

Usaremos la implementación de Gradient Boosting Classifier de <code>sklearn</code> ([liga](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)). El clasificador utiliza varios hiperparámetros, de los cuales ajustaremos tres:

* <code>n_estimators</code> : El número de  boosting stages a realizar $[1, \infty)$ (entero).
* <code>learnig_rate</code> : Pondera la contribución contribución de cada árbol $[0.0, \infty)$ (flotante).
* <code>criterion</code> : Método que calcula la calidad de split (<code>friedman_mse</code> , <code>squared_error</code>) (categoría).

Estos hiperparámetros son de distinto tipo (entero, flotante y categoría, respectivamente).

Hemos utilizado los algoritmos bioinspirados para funciones de números reales (<code>[1.23, 7.45, 8.23]</code>).

Para adaptar este enfoque para ajustar hiperparámetros de distinto tipo, vamos a representar cada hiperparámetro como un valor flotante. 

Posteriormente, definimos una forma de transformar cada parámetro a su representación original.

Las transformaciones son las siguientes:

* <code>n_estimators</code> : Redondeamos el valor del parámetro utilizando la función <code>int() </code>.
* <code>learnig_rate</code> : No se requiere transformación.
* <code>criterion</code> : el valor del parámetro utilizando la función <code>int() </code> y lo utilizamos para buscar el valor correspondiente en un diccionario que mapea enteros con las categorías.


In [None]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

X = wine.drop(columns = "class").to_numpy()
y = wine["class"].to_numpy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [None]:
clf = GradientBoostingClassifier(n_estimators = 20, learning_rate=0.4, 
                                 loss = "log_loss", criterion="friedman_mse")

cv_results = cross_val_score(clf, X_train, y_train, cv = 5, scoring = "accuracy")

cv_results.mean()

In [None]:
### Definimos la función a optimizar
def loss_gbc(X):
    
    try:
        criterion_transform = {0 : "friedman_mse", 1 : "squared_error"}

        n_estimators_p = int(X[0])
        learning_rate_p = X[1]
        criterion_p = criterion_transform[int(X[2])]

        clf = GradientBoostingClassifier(n_estimators = n_estimators_p, learning_rate=learning_rate_p, 
                                         loss = "log_loss", criterion=criterion_p, random_state=42)

        cv_results = cross_val_score(clf, X_train, y_train, cv = 5, scoring = "accuracy")

        return -cv_results.mean()
    except:
        return 10e10

In [None]:
"""
############
###   PSO
############
"""
# Ejecutamos el algoritmo PSO
# Tamaño de la población
n = 10
# Número de variables
n_var = 3
l_bounds = np.array([1, 0, 0])
u_bounds = np.array([30, 20, 2])
generaciones = 10
# Social scaling parameter
α = 0.5
# Cognitive scaling parameter
β = 0.8
# velocity inertia
w = 0.5

x_best_pso, y_best_pso, fitness_pso  = PSO(loss_gbc, n, generaciones, n_var, u_bounds, l_bounds, α, β, w)
x_best_pso, y_best_pso

In [None]:
"""
#####################
### GENETICO BINARIO
#####################
"""

# Parámetros especificos al Genético Binario

precision = 6
pro_cruza = 0.8

x_best_genetico, y_best_genetico, fitness_genetico = genetico_binario(loss_gbc, n, generaciones,
                                                     n_var, u_bounds, l_bounds, 
                                                     precision, pro_cruza)
x_best_genetico, y_best_genetico

In [None]:
# Comparamos el fitness de los algoritmos
import matplotlib.pyplot as plt 

plt.plot(range(generaciones), fitness_pso, label ="PSO")
plt.plot(range(generaciones), fitness_genetico, label ="Genético Binario")

plt.legend()
plt.title("Comparación de algoritmos de optimización")

In [None]:
# Seleccionamos el mejor vector
min_value = 100000
x_best = None
algo_best = None

for algo,x in zip(["Genético","PSO"],[x_best_genetico,x_best_pso]):
    if loss_gbc(x) < min_value:
        min_value = loss_gbc(x)
        x_best = x
        algo_best = algo
print(f"El valor mínimo de la función es {min_value}\nEl mejor vector fue el del algoritmo {algo_best}\nx_best: {x_best}")


## EJERCICIO:  Heart Disease Data Set

Encuentre el modelo con el mejor accuracy con el clasificador GBC para el conjunto de datos de Heart Disease ([liga](https://archive.ics.uci.edu/ml/datasets/heart+disease)).

La columna <code>target</code> etiqueta como *1* la presencia de cardiopatía y 2 la ausencia de cardiopatía.

Para mejorar el ajuste, puedes agregar uno o más hiperparámetros adicionales para ser ajustados. Visita la siguiente [liga](https://scikitlearn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) para elegir el-los hiperparámetros que puedes agregar. 

In [None]:
## Heart disease data set

hear_disease = pd.read_csv("https://github.com/PacktPublishing/Hands-On-Gradient-Boosting-with-XGBoost-and-Scikit-learn/raw/master/Chapter06/heart_disease.csv")
hear_disease

In [None]:
X = hear_disease.drop(columns = "target").to_numpy()
y = hear_disease["target"].to_numpy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

clf = GradientBoostingClassifier(n_estimators = 20, learning_rate=0.4, 
                                 loss = "log_loss", criterion="friedman_mse")

cv_results = cross_val_score(clf, X_train, y_train, cv = 5, scoring = "accuracy")

cv_results.mean()

In [None]:
### Definimos la función a optimizar
def loss_gbc(X):
    
    try:
        criterion_transform = {0 : "friedman_mse", 1 : "squared_error"}

        n_estimators_p = int(X[0])
        learning_rate_p = X[1]
        criterion_p = criterion_transform[int(X[2])]

        clf = GradientBoostingClassifier(n_estimators = n_estimators_p, learning_rate=learning_rate_p, 
                                         loss = "log_loss", criterion=criterion_p, random_state=42)

        cv_results = cross_val_score(clf, X_train, y_train, cv = 5, scoring = "accuracy")

        return -cv_results.mean()

    except:
        return 10e10