# CLASE 1.5: APLICACIONES EN LA CONSTRUCCI√ìN DE MODELOS.
---

## Aplicaci√≥n N¬∫1: Modelo de regresi√≥n lineal.

### Conceptos preliminares.
En cualquier carrera de ingenier√≠a, siempre habr√° una asignatura dedicada a la estimaci√≥n de par√°metros. Y entre los contenidos a revisar, siempre estar√° el **modelo de regresi√≥n lineal**, el cual a su vez corresponde a un m√©todo ampliamente utilizado para encontrar una relaci√≥n (de tipo lineal) entre una variable dependiente (o de respuesta) y una o m√°s variables independientes (o explicativas). Dicho modelo es sencillo y poco costoso de computar, y capaz de abordar much√≠simos problemas cotidianos (exceptuando por supuesto a los m√°s complejos). Asimismo, corresponde a la punta de lanza de los algoritmos de aprendizaje (o de *machine learning*), y en su forma m√°s simple (donde s√≥lo disponemos de una variable independiente), puede escribirse como una combinaci√≥n lineal sencilla del tipo $y=\theta_{0} +\theta_{1}x$. Esto es una funci√≥n lineal del par√°metro de entrada $x$, donde $\theta_{0}$ y $\theta_{1}$ son los llamados **par√°metros** del modelo.

De forma m√°s general, un modelo lineal realiza una predicci√≥n simplemente mediante el c√°lculo de una suma ponderada de los atributos de entrada que nos interesan en t√©rminos de los mencionados par√°metros del modelo, m√°s un t√©rmino constante conocido como **par√°metro de sesgo**, que podemos escribir como

<p style="text-align: center;">$\hat{y} =\theta_{0} +{\displaystyle \sum^{N}_{j=1} \theta_{j} x_{j}}$</p>
</p> <p style="text-align: right;">$(5.1)$</p>

Donde,

- $\hat{y}$ es el valor predicho (estimado).
- $n$ es el n√∫mero de variables del modelo.
- $x_{j}$ es el valor de la ùëó-√©sima variable.
- $\theta_{j}$ es el ùëó-√©simo par√°metro del modelo (incluyendo el t√©rmino de sesgo $\theta_{0}$ y los pesos o ponderadores de cada atributo $\theta_{1},...,\theta_{n}$).

En t√©rminos geom√©tricos, la implementaci√≥n de un modelo de regresi√≥n lineal es equivalente al ajuste de una l√≠nea sobre los puntos que representan la correspondencia entre los valores de la(s) variable(a) independiente(s) y la correspondiente variable dependiente. Tal proceso de ajuste se ilustra en el gr√°fico construido en el siguiente bloque de c√≥digo para el caso unidimensional (es decir, cuando queremos ajustar un modelo dependiente de una √∫nica variable).

In [1]:
import numpy as np

In [2]:
# Importamos la funci√≥n tqdm() del m√≥dulo tqdm para crear barras de progreso.
from tqdm import tqdm

In [3]:
# Semilla aleatoria fija.
rng = np.random.default_rng(42)

In [4]:
# Creamos algo de data aleatoria.
X_real = np.linspace(start=0, stop=16, num=50) # Vector de valores independientes observados.
a_real, b_real = -50.1, 2200
Y_real = a_real*X_real + b_real

In [5]:
# Agregamos algo de ruido Gaussiano.
w1 = rng.normal(loc=180, scale=80, size=50)
w2 = rng.normal(loc=140, scale=100, size=50)
Y_noise = Y_real + w1 - w2

In [6]:
import matplotlib.pyplot as plt

In [7]:
%matplotlib notebook

In [8]:
plt.rcParams["figure.dpi"] = 100
plt.style.use("bmh")

In [9]:
fig, ax = plt.subplots(figsize=(10, 5))
ax.scatter(X_real, Y_noise, color="skyblue", marker="x", label="Data observada")
ax.plot(X_real, Y_real, "--b", label="Modelo lineal ajustado")
ax.set_xlabel(r"$X$", fontsize=12, labelpad=10)
ax.set_ylabel(r"$Y$", fontsize=12, labelpad=15, rotation=0)
ax.set_title("Modelo de regresi√≥n lineal", fontsize=14, fontweight="bold", pad=10)
ax.legend(loc="best", frameon=True);

<IPython.core.display.Javascript object>

Ya que mencionamos el nombre (famoso, por cierto) de *‚Äùmachine learning‚Äù*, es bueno que establezcamos algo de contexto y entendamos un poco qu√© queremos decir con dicho nombre. En t√©rminos generales. ‚Äúmachine learning‚Äù hace referencia a una serie de algoritmos que son capaces de aprender patrones a partir de los datos, sin la necesidad de que nosotros intervengamos en dicho proceso de aprendizaje, m√°s que en el setting de ciertos par√°metros inherentes al algoritmo escogido, que llamamos **hiperpar√°metros**. En el modelo de regresi√≥n lineal cl√°sico, un hiperpar√°metro corresponde al valor del par√°metro de sesgo del modelo, debido a que podemos optar siempre por usarlo o no. Otro elemento importante en los algoritmos de machine learning corresponde a la llamada **funci√≥n de costo o de p√©rdida**, que es una funci√≥n que permite mapear el desempe√±o del modelo resultante en t√©rminos de alg√∫n n√∫mero real, que da cuenta de la calidad de dicho modelo.

La funci√≥n de costo es importante en los algoritmos de machine learning, puesto que se trata de una gu√≠a absoluta que controla el ajuste de los par√°metros propios del modelo a fin de lograr el mejor ajuste posible.
Finalmente, es bueno tener en consideraci√≥n que siempre es buena idea particionar nuestro conjunto de datos a utilizar para construir nuestro modelo en tres diferentes subconjuntos, cada uno de los cuales sirve a un prop√≥sito bien determinado:

- **Conjunto de entrenamiento:** Consistente de los datos a utilizar para el ajuste del modelo. El esquema es sencillo: La data es presentada al modelo, y √©ste aprende a partir de dicha data.
- **Conjunto de validaci√≥n:** Data apartada para testear las diferentes combinaciones posibles de hiperpar√°metros que pueden darse en un determinado tipo de algoritmo.
- **Conjunto de prueba:** Data utilizada para evaluar la calidad global del modelo en t√©rminos de su desempe√±o sobre datos nuevos, lo que nos da una idea relativa a su capacidad de generalizar informaci√≥n.

Es importante considerar que estos subconjuntos se muestrean siempre de manera independiente, de manera que los procesos previamente comentados no interfieran entre s√≠.

Como dijimos previamente, a fin de poder estimar la calidad de nuestro modelo, necesitamos de una funci√≥n de costo, la cual nos permitir√° guiar el proceso de ajuste de los par√°metros del mismo. En el caso del modelo de regresi√≥n lineal, es com√∫n utilizar como funci√≥n de costo al **error cuadr√°tico medio (MSE)**, la cual mide las diferencias al cuadrado entre los valores predichos por el modelo y los valores reales de la variable de respuesta. Para un total de $M$ observaciones, consideremos la variable de respuesta $y\in \mathbb{R}^{m}$ y los valores predichos $\hat{y}\in \mathbb{R}^{m}$. El error cuadr√°tico medio del modelo cuyas predicciones se agrupan en el vector $\hat{y}$ se define como

<p style="text-align: center;">$\mathrm{M} \mathrm{S} \mathrm{E} (\mathbf{y}|\hat{\mathbf{y}})  =\displaystyle \frac{1}{M} \sum^{M}_{i=1} ( \hat{y}_{i} -y_{i})^{2}$</p>
</p> <p style="text-align: right;">$(5.2)$</p>

Podemos expandir la Ec. (5.2) reemplazando la estimaci√≥n $\hat{y}$ por el modelo de regresi√≥n lineal establecido en primera instancia, el cual podemos escribir en forma compacta como sigue:

<p style="text-align: center;">$\hat{\mathbf{y} } =\mathbf{\theta }^{\top } \mathbf{X} +b\  ;\  \mathbf{X} =\left( \mathbf{x}_{1} ,...,\mathbf{x}_{N} \right)  =\left( \begin{matrix}x_{11}&x_{12}&\cdots &x_{1N}\\ x_{21}&x_{22}&\cdots &x_{2N}\\ \vdots &\vdots &\ddots &\vdots \\ x_{M1}&x_{M2}&\cdots &x_{MN}\end{matrix} \right)  \in \mathbb{R}^{M\times N}$ </p> 
<p style="text-align: right;">$(5.3)$</p>

Donde,

- $\mathbf{\theta } =(\theta_{1} ,...,\theta_{N})\in \mathbb{R}^{N} $ es el vector que agrupa a todos los par√°metros del modelo (un total de $N$, uno por cada variable).
- $\mathbf{X} =\left\{ x_{ij}\right\}  \in \mathbb{R}^{M\times N}$ es la matriz que agrupa a las $M$ observaciones de las $N$ variables $\mathbf{x}_{1},...,\mathbf{x}_{N}$ (donde cada una es un vector en $\mathbb{R}^{M}$).
- $b=\theta_{0}$ es el par√°metro de sesgo del modelo.

Por lo tanto, reemplazando (5.3) en (5.2), obtenemos la siguiente expresi√≥n para nuestra funci√≥n de costo:

<p style="text-align: center;">$\displaystyle \mathrm{M} \mathrm{S} \mathrm{E} \left( \mathbf{y} |\mathbf{x} ,\mathbf{\theta } \right)  =\frac{1}{M} \sum^{M}_{i=1} \left( y_{i}-\left( \mathbf{\theta }^{\intercal } \mathbf{x}_{i} +b\right)  \right)^{2}$ </p> 
<p style="text-align: right;">$(5.4)$</p>

El problema de ajustar el modelo a nuestra data corresponde, por tanto, a un problema de optimizaci√≥n, puesto que es equivalente a minimizar el valor del error cuadr√°tico medio (MSE), dados los par√°metros escogidos para el modelo y la informaci√≥n de entrada. Para resolver dicho problema, existen varios procedimientos. 

En t√©rminos algebraicos, el problema de minimizaci√≥n de la funci√≥n (5.4) tiene una soluci√≥n cerrada, que corresponde a su vez a la soluci√≥n de un sistema lineal de ecuaciones conocidas como **ecuaciones normales**. Este m√©todo suele ser algo costoso en comparaci√≥n a otros procedimientos iterativos m√°s comunes en computaci√≥n cient√≠fica y que, adem√°s, tienen la ventaja de ser escalables. Uno de estos procedimientos corresponde al **algoritmo de gradiente descendente (GD)**.

El algoritmo de GD utiliza los par√°metros del modelo ($\theta$ y $b$) para, a partir de valores iniciales de tales par√°metros, actualizarlos conforme un procedimiento que depende del c√°lculo de las derivadas de la funci√≥n de costo (el error cuadr√°tico medio) con respecto a tales par√°metros. Tales derivadas se agrupan en una estructura conocida como **gradiente** de la funci√≥n de costo y que, en nuestro ejemplo, es un vector que agrupa a las derivadas parciales de la funci√≥n de costo con respecto a los par√°metros $\theta_{1},...,\theta_{N}$ y $b$, y se calculan como

<p style="text-align: center;">$\displaystyle \frac{\partial }{\partial \mathbf{\theta } } \left( \mathrm{M} \mathrm{S} \mathrm{E} \left( \mathbf{y} |\mathbf{x} ,\mathbf{\theta } \right)  \right)  =-\frac{2}{M} \sum^{M}_{i=1} \left( y_{i}-\left( \mathbf{\theta }^{\intercal } \mathbf{x}_{i} +b\right)  \right)  \mathbf{x}_{i} $ </p> 
<p style="text-align: center;">$\displaystyle \frac{\partial }{\partial b} \left( \mathrm{M} \mathrm{S} \mathrm{E} \left( \mathbf{y} |\mathbf{x} ,\mathbf{\theta } \right)  \right)  =-\frac{2}{M} \sum^{M}_{i=1} \left( y_{i}-\left( \mathbf{\theta }^{\intercal } \mathbf{x}_{i} +b\right)  \right) $ </p>  
<p style="text-align: right;">$(5.5)$</p>

Recordemos, de la asignatura de C√°lculo Diferencial, que el gradiente de una funci√≥n siempre apunta en la direcci√≥n de m√°xima pendiente positiva. En t√©rminos geom√©tricos, esto significa que, si imaginamos que la funci√≥n de costo describe una superficie, el gradiente de dicha funci√≥n en un punto arbitrario apunta siempre en la direcci√≥n de mayor pendiente relativa a ese punto, en direcci√≥n ascendente.

El algoritmo de gradiente descendente utiliza este principio geom√©trico para optimizar funciones de costo mediante un proceso iterativo sencillo, donde siempre, a partir de una posici√≥n determinada en esta superficie (digamos $\mathbf{y}_{k}$), nos movemos en la direcci√≥n de m√°xima pendiente, pero en direcci√≥n descendente (invirtiendo el signo del gradiente). El tama√±o del paso que damos es un factor del gradiente correspondiente, donde dicho factor, denotado como $\alpha$, es llamado **tasa de aprendizaje** del algoritmo. Por lo tanto, el proceso de actualizaci√≥n de par√°metros propio de este algoritmo se escribe como

<p style="text-align: center;">$\displaystyle \begin{array}{lll}\mathbf{\theta }_{k+1} &=&\mathbf{\theta }_{k} -\alpha \displaystyle \frac{\partial }{\partial \mathbf{\theta }_{k} } \left( \mathrm{M} \mathrm{S} \mathrm{E} \left( \mathbf{y} |\mathbf{x} ,\mathbf{\theta }_{k} \right)  \right)  \\ b_{k+1}&=&b_{k}-\alpha \displaystyle \frac{\partial }{\partial b_{k}} \left( \mathrm{M} \mathrm{S} \mathrm{E} \left( \mathbf{y} |\mathbf{x} ,\mathbf{\theta }_{k} \right)  \right)  \end{array} $ </p>  
<p style="text-align: right;">$(5.6)$</p>

Donde $\mathbf{\theta}_{k+1}$ y $b_{k+1}$ son los valores actualizados de los par√°metros del modelo en la iteraci√≥n $k+1$. Por supuesto, el criterio de detenci√≥n natural del algoritmo guarda relaci√≥n con la diferencia relativa entre los par√°metros $\mathbf{\theta}$ y $b$ en iteraciones sucesivas. Dado un valor de **tolerancia** (por ejemplo, de 0.001), si el algoritmo no obtiene un valor actualizado que exceda dicha tolerancia en una cantidad determinada iteraciones (llamada **paciencia** del algoritmo), √©ste se detendr√°. Lo anterior, naturalmente, implica que el algoritmo puede no ser capaz de garantizar la determinaci√≥n de una soluci√≥n √≥ptima global, puesto que una funci√≥n puede tener muchos m√≠nimos locales adem√°s del m√≠nimo global. Afortunadamente, existen ciertas condiciones matem√°ticas que s√≠ garantizan que la soluci√≥n √≥ptima encontrada por este algoritmo sea global, y que guardan relaci√≥n con la funci√≥n de costo propiamente tal (√©sta debe ser convexa), pero que no exploraremos en detalle en estos apuntes.

En la Fig. (5.1) se observa un esquema animado del procedimiento realizado por el algoritmo de gradiente descendente a fin de hallar el m√≠nimo global de una funci√≥n.

<p style="text-align: center;"><img src="figures/fig_5_1.gif" width="1000"></p>
<p style="text-align: center;">Fig. (5.1): Esquema de aplicaci√≥n del algoritmo de gradiente descendente</p>

### Implementaci√≥n en Numpy.
Vamos a construir una implementaci√≥n sencilla del modelo de regresi√≥n lineal, aprovechando el procedimiento iterativo provisto por el algoritmo de gradiente descendente, utilizando para ello todo lo que hemos aprendido en **Numpy** y lo que ya sabemos de Python de nuestras asignaturas anteriores. Intentaremos asegurar que nuestro procedimiento sea escalable. Vale decir, que pueda aplicarse a cualquier tipo de problema que cumpla con la estructura t√≠pica requerida por el modelo de regresi√≥n lineal, y que sea independiente del n√∫mero de variables y/o observaciones, dependiendo √∫nicamente de los hiperpar√°metros que deseemos setear: El n√∫mero de iteraciones, la tolerancia y la tasa de aprendizaje del algoritmo.

Partiremos considerando el hecho de que, en el procedimiento que hemos descrito para el algoritmo de gradiente descendente, hay un total de $N+1$ par√°metros para $N$ variables en el modelo. Por esa raz√≥n, hicimos la diferenciaci√≥n entre las derivadas parciales relativas a los par√°metros que constituyen el vector $\theta$ y el par√°metro de sesgo $b$. Podemos considerar √∫nicamente el vector $\theta$, a√±adiendo el t√©rmino de sesgo al inicio de dicho vector. De esta manera, para poder compatibilizar este vector con la matriz $\mathbf{X}$ a fin de realizar la multiplicaci√≥n $\mathbf{\theta }^{\top } \mathbf{X}$, a√±adimos un vector √∫nicamente con 1s como primera columna de $\mathbf{X}$.

Consideremos, para efectos de crear algo de data, una semilla aleatoria fija:

In [10]:
# Generamos una semilla aleatoria fija, para asegurar la reproducibilidad de nuestros resultados.
rng = np.random.default_rng(7)

Ahora construiremos una funci√≥n para ajustar un modelo de regresi√≥n lineal a un conjunto de $N$ variables agrupadas en un arreglo bidimensional, considerando los hiperpar√°metros de tolerancia, tasa de aprendizaje y n√∫mero de iteraciones como argumentos por defecto:

In [11]:
# Creamos una funci√≥n que replique el algoritmo de gradiente descendente.
def fit_linear_regression(
    X: np.ndarray, 
    y: np.ndarray, 
    iterations: int = 100, 
    tolerance: float = 1e-5, 
    learning_rate: float = 0.5,
    random_state: float = 42,
) -> np.ndarray:
    """
    Una funci√≥n sencilla que permite ajustar un modelo de regresi√≥n lineal a un conjunto
    de datos de dimensi√≥n arbitraria, considerando como m√©todo de ajuste un procedimiento
    iterativo basado en el algoritmo de gradiente descendente, inicializando aleatoriamente
    los par√°metros del modelo.
    
    Par√°metros:
    -----------
    X : Datos de entrada que deseamos ajustar, estructurados como un arreglo bidimensional
        de M observaciones y N variables.
    Y : Datos de salida que deseamos predecir, estructurados como un arreglo unidimensional
        de M observaciones.
    iterations : N√∫mero de iteraciones a probar en el modelo.
    tolerance : Tolerancia del modelo.
    learning_rate : Tasa de aprendizaje del modelo.
    random_state : Semilla aleatoria fija del modelo.
    
    Retorno:
    --------
    Un arreglo de Numpy que contiene el par√°metro de sesgo como primer elemento, y los
    par√°metros del modelo a continuaci√≥n.
    """
    # Semilla aleatoria fija.
    rng = np.random.default_rng(random_state)
    
    # A√±adimos una columna de 1s para considerar dentro de la estructura de datos.
    X = np.concatenate([np.ones((X.shape[0], 1)), X], axis=1)
  
    # Inicializamos los par√°metros del modelo con valores aleatorios.
    weights = rng.random(size=(X.shape[1], 1))
    
    # Aplicamos el algoritmo de gradiente descendente por medio de un loop.
    for i in tqdm(range(iterations), desc="Generando ajuste de par√°metros"):
        # Calculamos los valores predichos usando los par√°metros del modelo.
        y_pred = X @ weights

        # Calculamos el error cuadr√°tico medio (funci√≥n de costo).
        loss = np.mean((y_pred - y) ** 2)

        # Detenemos el algoritmo en caso de que √©ste diverja.
        # (es decir, si el valor de la funci√≥n de costo tiende a infinito).
        if np.isinf(loss):
            break

        # Calculamos el gradiente de la funci√≥n de costo con respecto a los 
        # par√°metros del modelo.
        gradient = 2 * X.T @ (y_pred - y) / X.shape[0]

        # Actualizamos los par√°metros del modelo conforme la tasa de aprendizaje.
        weights -= gradient * learning_rate

        # Chequeamos si hemos alcanzado el valor de la tolerancia.
        if np.linalg.norm(gradient) < tolerance:
            break
  
    # Retornamos los par√°metros encontrados.
    return weights

La funci√≥n anterior define entonces el proceso de ajuste de un modelo de regresi√≥n lineal (potenciado por el algoritmo de gradiente descendente), dado un conjunto de datos de entrada representado por un arreglo bidimensional de $M$ filas (observaciones) y $N$ columnas (variables), y un conjunto de datos de respuesta a las variables de entrada. El c√≥digo adem√°s se detiene en caso de que el algoritmo de gradiente descendente diverja (tienda a $+\infty$ o $-\infty$), o bien, cuando la diferencia entre el valor del error cuadr√°tico medio en iteraciones sucesivas no es mayor que el valor de tolerancia especificado en la funci√≥n. El procedimiento retorna, por tanto, el arreglo `weights`, que est√° conformado por el par√°metro de sesgo y los coeficientes del modelo de regresi√≥n lineal.

A fin de poder separar nuestro conjunto de datos entre conjuntos de entrenamiento y de prueba, seguiremos un procedimiento sencillo. Mezclaremos todos los elementos de nuestro dataset de manera aleatoria, intentando mantener la reproducibilidad de dicha mezcla. Para ello, usaremos la funci√≥n `np.random.shuffle()`, incorporada en una funci√≥n construida para esta implementaci√≥n. Notemos que una simple mezcla de un dataset no considera el orden de los elementos del mismo, lo que puede resultar incorrecto en data relativas a series de tiempo o que no est√© balanceada. Tenemos entonces:

In [12]:
# Creamos una funci√≥n para separar nuestro dataset.
def split_dataset(
    X: np.ndarray,
    y: np.ndarray,
    proportion: float,
    random_state: float,
) -> tuple:
    """
    Una funci√≥n que separa un dataset en un conjunto de entrenamiento y un conjunto
    de prueba, sin considerar el order de los elementos que lo constituyen. Esta
    funci√≥n debe usarse solamente cuando el conjunto de datos con el cual queremos
    trabajar est√° balanceado.
    
    Par√°metros:
    -----------
    X : Datos de entrada que deseamos ajustar, estructurados como un arreglo bidimensional
        de M observaciones y N variables.
    y : Datos de salida que deseamos predecir, estructurados como un arreglo unidimensional
        de M observaciones.
    proportion : Proporci√≥n de datos que ser√°n usados como data de prueba.
    random_state : Semilla aleatoria fija para asegurar la reproducibilidad del procedimiento.
    Retorno:
    --------
    Una tupla de arreglos, conformada por los conjuntos de entrenamiento y de prueba.
    """
    # Semilla aleatoria fija.
    rng = np.random.default_rng(random_state)
    
    # Concatenamos X e y para obtener el dataset completo.
    dataset = np.concatenate([X, y.reshape(-1, 1)], axis=1)
    
    # Generamos la mezcla de todos los valores en el dataset.
    np.random.shuffle(dataset)
    
    # Separamos entonces el dataset entre conjunto de entrenamiento y de prueba.
    train_size = int(len(dataset) * proportion)
    train_set = dataset[:train_size, :]
    test_set = dataset[train_size:, :]
    
    # Extraemos X e y en cada caso.
    X_train, X_test = train_set[:, :-1], test_set[:, :-1]
    y_train, y_test = train_set[:, -1], test_set[:, -1]
    
    # Retornamos los valores correspondientes.
    return X_train, X_test, y_train.reshape(-1, 1), y_test.reshape(-1, 1)

Ya estamos listos para implementar nuestro modelo. Para ello, crearemos algo de data de entrada, usando una semilla aleatoria fija. La variable de respuesta la calcularemos directamente a partir de la data de entrada, usando una relaci√≥n lineal, de manera que conoceremos de antemano los coeficientes a los cuales debemos llegar con nuestro modelo. Sin embargo, a√±adiremos algo de ruido a nuestra variable de respuesta, a fin de dificultad un poco el proceso de ajuste y testear la capacidad de nuestro modelo de llegar a los par√°metros correctos:

In [13]:
# Generamos algo de data aleatoria.
X = rng.random(size=(1000, 2))
y = X @ np.array([[2.5], [0.5]]) + rng.random()

En la Fig. (5.3) se observa la dispersi√≥n entre las variables que se agrupan en el arreglo X y la variable de respuesta y. Notemos que, en el bloque de c√≥digo anterior, hemos definido que $\mathbf{y} =2.5\mathbf{x}_{1} +0.5\mathbf{x}_{2} +\mathrm{r} \mathrm{u} \mathrm{i} \mathrm{d} \mathrm{o}$. Por lo tanto, las variables `X` e `y` s√≠ tienen una relaci√≥n lineal aproximada y un modelo de regresi√≥n lineal debiese retornar los par√°metros $\theta_{1}=2.5$ y $\theta_{2}=0.5$, m√°s un par√°metro de sesgo que debiese ser aproximadamente igual a la media del ruido uniforme a√±adido a `y`.

En la Fig. (5.2) se observa un gr√°fico de todos estos puntos.

<p style="text-align: center;"><img src="figures/fig_5_2.png" width="1000"></p>
<p style="text-align: center;">Fig. (5.2): Conjunto de datos para los cuales ajustaremos un modelo</p>

Separamos nuestra data en conjuntos de entrenamiento y de prueba:

In [14]:
# Separamos en conjunto de entrenamiento y conjunto de prueba.
X_train, X_test, y_train, y_test = split_dataset(X=X, y=y, proportion=0.8, random_state=42)

En la Fig. (5.3) se observa cu√°les datos conforman el conjunto de entrenamiento y de prueba.

<p style="text-align: center;"><img src="figures/fig_5_3.png" width="1000"></p>
<p style="text-align: center;">Fig. (5.3): Conjuntos de entrenamiento y de prueba</p>

Aplicaremos nuestra funci√≥n para ajustar un modelo de regresi√≥n lineal a esta data:

In [15]:
# Ajustamos un modelo de regresi√≥n lineal a esta data.
weights = fit_linear_regression(
    X_train, y_train, iterations=100, tolerance=1e-5, learning_rate=0.5
)

Generando ajuste de par√°metros: 100%|‚ñà‚ñà‚ñà‚ñà| 100/100 [00:00<00:00, 11190.78it/s]


In [16]:
# Par√°metros del modelo.
weights

array([[0.23539028],
       [2.49626453],
       [0.49653651]])

Vemos que nuestro modelo ha estimado que $\hat \theta_{1}=2.49739529$ y $\hat \theta_{2}=0.49809302$, lo que se aproxima bastante al valor real de estos par√°metros. El par√°metro de sesgo estimado por el modelo es $b=0.89489173$.

Para estimar la calidad del modelo, es necesario entender el contexto de aplicaci√≥n del mismo. No entraremos en detalles en este t√≥pico ahora mismo, pero s√≠ podemos decir que una m√©trica de exactitud popular corresponde al coeficiente r-cuadrado, que determina la proporci√≥n de valores de la variable de respuesta que es predicha por la(s) variable(s) independiente(s). Este coeficiente puede calcularse r√°pidamente como

<p style="text-align: center;">$\displaystyle r^{2}=1-\frac{SS_{\mathrm{r} \mathrm{e} \mathrm{s} }}{SS_{\mathrm{t} \mathrm{o} \mathrm{t} }} \  ;\  SS_{\mathrm{r} \mathrm{e} \mathrm{s} }=\sum^{M}_{i=1} \left( y_{i}-\hat{y}_{i} \right)^{2}  \  \wedge \  SS_{\mathrm{t} \mathrm{o} \mathrm{t} }\sum^{M}_{i=1} \left( y_{i}-\bar{y} \right)^{2}$ </p>  
<p style="text-align: right;">$(5.7)$</p>

En las ecuaciones anteriores, $SS_{\mathrm{r} \mathrm{e} \mathrm{s}}$ es una cantidad conocida como suma cuadrada de los residuos del modelo. Corresponde a la suma de los t√©rminos de error que resultan de las diferencias relativas al cuadrado entre los valores reales ($y_{i}$) y los valores predichos por el modelo ($\hat y_{i}$), llamados com√∫nmente residuos del modelo. Por otro lado, $SS_{\mathrm{t} \mathrm{o} \mathrm{t}}$ es la suma total de cuadrados del modelo, consistentes en diferencias relativas de cada valor observado ($y_{i}$) y la media de todos esos valores ($\bar y_{i}$).

La f√≥rmula anterior es f√°cilmente replicable en **Numpy**:

In [17]:
# Una funci√≥n para calcular el r-cuadrado.
def squared_r(y_real: np.ndarray, y_pred: np.ndarray) -> float:
    """
    Una funci√≥n que, dados dos arreglos que representan los valores reales de una variable
    de respuesta y valores predichos para la misma mediante un modelo arbitrario, calcula
    el coeficiente r-cuadrado, a fin de obtener una m√©trica de desempe√±o para la exactitud
    de las predicciones de dicho modelo.
    
    Par√°metros:
    -----------
    y_real : Arreglo de Numpy que representa los valores observados de una variable de respuesta.
    y_pred : Arreglo de Numpy que representa los valores predichos para esta variable de respuesta.
    
    Retorno:
    --------
    N√∫mero flotante que representa el valor del coeficiente r-cuadrado.
    """
    # C√°lculo de la suma de cuadrados de los residuos.
    SS_res = np.sum((y_real - y_pred) ** 2)
    
    # C√°lculo de la suma de cuadrados totales.
    SS_tot = np.sum((y_real - np.mean(y_real)) ** 2)
    
    # C√°lculo del r-cuadrado.
    score = 1 - SS_res / SS_tot
    
    return score

Usamos esta funci√≥n para calcular el coeficiente r-cuadrado:

In [18]:
# Obtenemos predicciones para nuestros datos.
y_train_pred = X_train @ weights[1:] + weights[0]
y_test_pred = X_test @ weights[1:] + weights[0]

# Desempe√±o del modelo en datos de entrenamiento.
r2_train = squared_r(y_train, y_train_pred)
r2_test = squared_r(y_test, y_test_pred)

# Imprimimos en pantalla estos valores.
print(f"R-cuadrado sobre datos de entrenamiento ={r2_train}")
print(f"R-cuadrado sobre datos de prueba ={r2_test}")

R-cuadrado sobre datos de entrenamiento =0.9999960516633213
R-cuadrado sobre datos de prueba =0.9999959894338487


Ambos valores del coeficiente r-cuadrado son muy cercanos a 1 en ambos conjuntos de datos, lo que implica que nuestro modelo, adem√°s de haber hecho un buen ajuste de los datos, es capaz de generalizar esta informaci√≥n sobre los datos de prueba.

No est√° dem√°s decir que, si bien nuestro c√≥digo es perfectamente escalable a cualquier n√∫mero de variables, debemos tener en consideraci√≥n que:

- La data que hemos trabajado merece el apelativo de *data de juguete (o toyset)*, debido a que la hemos generado precisamente para la ocasi√≥n. En el mundo real, los conjuntos de datos a los que nos veremos enfrentados tendr√°n diferentes unidades variable a variable, registros sin data, datos an√≥malos (outliers), entre otras posibles caracter√≠sticas que har√°n de su manipulaci√≥n algo mucho m√°s importante que simplemente construir un modelo. Por lo tanto, no deber√≠amos estar ansiosos de hacer modelos y llegar a resultados tan perfectos *a la primera*.
- En general, los modelos de regresi√≥n lineal son sensibles a las magnitudes de los datos. Por lo tanto, siempre es un buen procedimiento escalar nuestra data antes de proceder a construir modelos que se ajusten a ella. Esto lo podemos hacer mediante procedimientos tales como normalizaci√≥n o estandarizaci√≥n, que ya revisamos al estudiar el concepto de broadcasting.

## Aplicaci√≥n N¬∫2: Modelo de regresi√≥n log√≠stica binaria.

### Conceptos preliminares.
Vamos a finalizar esta secci√≥n comentando uno de los modelos m√°s ingeniosos para la resoluci√≥n de un tipo de problema muy conocido en machine learning conocido como **problema de clasificaci√≥n binaria**. Este problema es similar al problema t√≠pico de regresi√≥n: Disponemos de una serie de variables independientes que constituyen informaci√≥n de entrada para modelar una variable de respuesta determinada, con la diferencia de que dicha variable de respuesta es binaria: Toma √∫nicamente dos valores, t√≠picamente codificados como 1 o 0, los que suelen representar datos de tipo categ√≥rico tales como ‚Äú√©xito‚Äù o ‚Äúfracaso‚Äù, ‚Äúverdadero‚Äù o ‚Äúfalso‚Äù, ‚Äúfallo‚Äù o ‚Äúno fallo‚Äù, u otra combinaci√≥n conveniente para nuestro problema.

Uno de los supuestos subyacentes al modelo de regresi√≥n lineal establece que la variable de respuesta que deseamos estimar tiene una distribuci√≥n normal. Por supuesto, √©ste no es el caso para variables de respuesta binarias, ya que toman √∫nicamente dos valores. Por lo tanto, el modelo de regresi√≥n lineal no es adecuado para resolver este tipo de problemas. Y es aqu√≠ donde se hace patente la necesidad de disponer de alg√∫n modelo que sea capaz de hacer este trabajo. El s√≠mil del modelo de regresi√≥n lineal para problemas de clasificaci√≥n binaria corresponde al llamado **modelo de regresi√≥n log√≠stica binaria (RLB)**.

En la Fig. (5.4) se observa un conjunto de datos en $\mathbb{R}^{2}$ que ilustra un problema de clasificaci√≥n. Todos los puntos de color verde son aquellos tales que $y_{i}=0$, mientras que aquellos de color gris son tales que $y_{i}=1$, para todo $i; 1\leq i\leq M$, donde $M$ es el n√∫mero de observaciones que conforma la data.

<p style="text-align: center;"><img src="figures/fig_5_4.png" width="1000"></p>
<p style="text-align: center;">Fig. (5.4): Problema bidimensional de clasificaci√≥n binaria</p>

Sea pues $\mathbf{X} \in \mathbb{R}^{M\times N}$ una matriz que representa un conjunto de $N$ variables independientes con $M$ observaciones para cada una de ellas. Sea $\mathbf{y} \in \mathbb{R}^{M}$ una variable de respuesta binaria, la cual hemos codificado de tal forma que √©sta puede tomar uno de dos valores, 0 o 1, los que representan convenciones que son inherentes al problema en cuesti√≥n. Consideremos la funci√≥n $\phi :\mathbb{R} \longrightarrow (0,1)$, definida como

$$\displaystyle \phi \left( u\right)  =\frac{1}{1+\exp \left( -u\right)}$$  
<p style="text-align: right;">$(5.8)$</p>

La funci√≥n $\phi$ as√≠ definida se conoce como **funci√≥n log√≠stica o sigmoide**. Esta funci√≥n tiene la particularidad de que su dominio es todo el conjunto $\mathbb{R}$, pero su recorrido es el intervalo $(0, 1)$, siendo sim√©trica con respecto al origen del sistema de coordenadas. De esta manera, la funci√≥n log√≠stica puede interpretarse como una funci√≥n de probabilidad. ¬øY por qu√© nos interesa esto? Porque, en un problema de clasificaci√≥n, estamos interesados en estimar una de dos cosas (o ambos): El valor de $\mathbf{y}$, que representa una clase o etiqueta que caracteriza la informaci√≥n de entrada, o bien, la probabilidad de que $\mathbf{y}=1$, lo que denotamos como $P(\mathbf{y}=1)$.

En la Fig. (5.5) se observa el gr√°fico de la funci√≥n log√≠stica.

<p style="text-align: center;"><img src="figures/fig_5_5.png" width="800"></p>
<p style="text-align: center;">Fig. (5.5): La funci√≥n log√≠stica</p>

En el modelo de regresi√≥n log√≠stica binaria, tambi√©n estamos interesados en estimar un conjunto de par√°metros, que denotamos como $\mathbf{\theta}$, de manera tal que la combinaci√≥n lineal representada por la multiplicaci√≥n $\mathbf{\theta}^{\top} \mathbf{X}$ minimice una funci√≥n de costo determinada, utilizando como base el algoritmo de gradiente descendente. Sin embargo, una de las grandes diferencias con el caso del modelo de regresi√≥n lineal, es que la funci√≥n a estimar corresponde a una transformaci√≥n de la expresi√≥n $\mathbf{\theta}^{\top} \mathbf{X}+b$, conforme la funci√≥n log√≠stica. Es decir,

$$\phi \left( \mathbf{\theta }^{\top } \mathbf{X} +b\right)=\displaystyle \frac{1}{1+\exp \left[ -\left( \mathbf{\theta }^{\top } \mathbf{X} +b\right)  \right]}$$
<p style="text-align: right;">$(5.9)$</p>

Donde $\mathbf{x}\in \mathbb{R}^{M}$ es una observaci√≥n relativa a la matriz $\mathbf{x}$ (es decir, un vector que representa una observaci√≥n para cada una de las variables independientes del problema) y $b$ es el par√°metro de sesgo asociado al modelo.

La otra gran diferencia con respecto al modelo de regresi√≥n lineal corresponde a la funci√≥n de costo a utilizar para el proceso de b√∫squeda de par√°metros mediante el algoritmo de gradiente descendente, y que construiremos a continuaci√≥n: Dados $\mathbf{x}_{i}$ y $y_{i}$, escribimos $p_{i}=p(\mathbf{x}_{i})$ para denotar las probabilidades de que $y_{i}$ sea igual a 1, y $1-p_{i}$ para denotar las probabilidades de que $y_{i}$ sea igual a 0, para $1\leq i\leq M$. Queremos encontrar los valores de $b$ y $\mathbf{\theta}$ que mejor se ajusten a nuestra data en t√©rminos de la distribuci√≥n de probabilidad representada por la funci√≥n log√≠stica (5.9). Por lo cual, el valor de la funci√≥n de costo para la ùëñ-√©sima observaci√≥n ser√°

<p style="text-align: center;">$\mathcal{L} \left( p_{i}\right)  =\displaystyle \begin{cases}-\log \left( p_{i}\right)  &;\  \mathrm{s} \mathrm{i} \  y_{i}=1\\ -\log \left( 1-p_{i}\right)  &;\  \mathrm{s} \mathrm{i} \  y_{i}=0\end{cases}$ </p>  
<p style="text-align: right;">$(5.10)$</p>

El signo negativo obedece al hecho de que los argumentos de los logaritmos son menores que 1, por lo que sus resultados son negativos.

El valor de la funci√≥n de costo puede interpretarse como la ‚Äúsorpresa‚Äù relativa al resultado real $y_{i}$ con respecto a la predicci√≥n $p_{i}$, por lo que es una m√©trica de contenido de informaci√≥n. Notemos que esta funci√≥n de costo siempre tiene un valor igual o mayor que cero, anul√°ndose en caso de que la predicci√≥n $p_{i}$ sea igual al valor real $y_{i}$, y tiende a infinito mientras m√°s incorrecta sea dicha predicci√≥n, lo que implica que √©sta es m√°s *‚Äúsorpresiva‚Äù*. Notemos que, a diferencia de lo que ocurre en el caso de la regresi√≥n lineal, donde un modelo puede tener un valor igual a cero en su funci√≥n de costo en un punto si la funci√≥n predictora pasa por el punto en cuesti√≥n, y un valor global igual a cero si la funci√≥n predictora pasa por todos los puntos observados, en el modelo de regresi√≥n log√≠stica esto no es posible, ya que $y_{i}$ es igual a 0 o 1, pero $0<p_{i}<1$.

Dada la naturaleza binaria de la variable de respuesta, podemos expresar la funci√≥n de costo para una √∫nica instancia como

<p style="text-align: center;">$\displaystyle \mathcal{L} (p_{i})=-y_{i}\log ( p_{i})-(1-y_{i}) \log (1-p_{i})$ </p>  
<p style="text-align: right;">$(5.11)$</p>

Esta expresi√≥n es formalmente conocida como **funci√≥n de entrop√≠a cruzada binaria**. La suma de todos los valores de esta funci√≥n se conoce como funci√≥n de verosimilitud logar√≠tmica (con signo negativo), denotada como $-\mathcal{L}$, y su valor m√≠nimo se alcanza para el mejor valor de los par√°metros $\mathbf{\theta }$ y $b$. Alternativamente, podemos maximizar su valor inverso ($\mathcal{L}$):

<p style="text-align: center;">$\mathcal{L} = \displaystyle \sum_{i:y_{i}=1} \log \left( p_{i}\right)  + \displaystyle \sum_{i:y_{i}=0} \log \left( 1-p_{i}\right) = \displaystyle \sum^{M}_{i=1} \left( y_{i}\log \left( p_{i}\right)  +\left( 1-y_{i}\right)  \log \left( 1-p_{i}\right)  \right)$ </p>  
<p style="text-align: right;">$(5.12)$</p>

Recordemos la funci√≥n log√≠stica: Las probabilidades anteriores pueden expresarse como la salida de una funci√≥n de este tipo, cuyo argumento es la combinaci√≥n lineal $\mathbf{\theta }^{\top } \mathbf{X} +b$. Reemplazando en la ecuaci√≥n anterior, obtenemos la funci√≥n de costo a utilizar por el modelo de regresi√≥n log√≠stica binaria:

<p style="text-align: center;">$\mathcal{L} \left( \mathbf{y} |\mathbf{\theta } ,b\right)  =\displaystyle \sum^{M}_{i=1} \left( y_{i}\log \left[ \phi \left( \mathbf{\theta }^{\top } \mathbf{X} +b\right)  \right]  +\left( 1-y_{i}\right)  \log \left[ 1-\phi \left( \mathbf{\theta }^{\top } \mathbf{X} +b\right)  \right]  \right)$ </p>  
<p style="text-align: right;">$(5.13)$</p>

El procedimiento de minimizaci√≥n de esta funci√≥n de costo por medio del algoritmo de gradiente descendente involucra igualmente calcular las derivadas parciales de $\mathcal{L}$ con respecto a los par√°metros $\mathbf{\theta}$ y $b$. Sin embargo, previo a entrar en detalles en este c√°lculo, notemos que la derivada de la funci√≥n log√≠stica $\phi$ puede calcularse como

<p style="text-align: center;">$\phi^{\prime } \left( u\right)  =\displaystyle \frac{-1}{\left( 1+\exp \left( -u\right)  \right)^{2}  } \left( -1\right)  \left( \exp \left( -u\right)  \right)  =\displaystyle \frac{\exp \left( -u\right)  }{\left( 1+\exp \left( -u\right)  \right)^{2}  } $ </p>  
<p style="text-align: right;">$(5.14)$</p>

Aplicando algo de √°lgebra, obtenemos

<p style="text-align: center;">$\begin{array}{lll}\phi^{\prime } \left( u\right)  =\displaystyle \frac{\exp \left( -u\right)  }{\left( 1+\exp \left( -u\right)  \right)^{2}  } &=&\displaystyle \frac{\exp \left( -u\right)  }{1+\exp \left( -u\right)  } \cdot \displaystyle \frac{1}{1+\exp \left( -u\right)  } \\ &=&\displaystyle \frac{-1+1+\exp \left( -u\right)  }{1+\exp \left( -u\right)  } \cdot \displaystyle \frac{1}{1+\exp \left( -u\right)  } \\ &=&\left( -\displaystyle \frac{1}{1+\exp \left( -u\right)  } +\displaystyle \frac{1+\exp \left( -u\right)  }{1+\exp \left( -u\right)  } \right)  \cdot \displaystyle \frac{1}{1+\exp \left( -u\right)  } \\ &=&\left( -\displaystyle \frac{1}{1+\exp \left( -u\right)  } +1\right)  \cdot \displaystyle \frac{1}{1+\exp \left( -u\right)  } \\ &=&\left( 1-\displaystyle \frac{1}{1+\exp \left( -u\right)  } \right)  \cdot \displaystyle \frac{1}{1+\exp \left( -u\right)  } \\ &=&\left( 1-\phi \left( u\right)  \right)  \phi \left( u\right)  \end{array} $ </p>  
<p style="text-align: right;">$(5.15)$</p>

Por lo tanto, la derivada de la funci√≥n log√≠stica puede expresarse en t√©rminos de la propia funci√≥n log√≠stica. Tomando en consideraci√≥n este importante resultado, podemos calcular r√°pidamente las derivadas parciales de $\mathcal{L}$ como

<p style="text-align: center;">$\begin{array}{lll}\displaystyle \frac{\partial \mathcal{L} }{\partial \theta_{j} } &=&\displaystyle \frac{\partial }{\partial \theta_{j} } \left(\displaystyle \sum^{M}_{i=1} \left( y_{i}\log \left[ \phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right]  +\left( 1-y_{i}\right)  \log \left[ 1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right]  \right)  \right)  \\ &=&\sum^{M}_{i=1} \left[\displaystyle \frac{y_{i}}{\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  } \phi^{\prime } \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \mathbf{x}_{i} +\displaystyle \frac{1-y_{i}}{1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  } \left( -\phi^{\prime } \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  \mathbf{x}_{i} \right]  \\ &=&\displaystyle \sum^{M}_{i=1} \mathbf{x}_{i} \left[ \displaystyle \frac{y_{i}\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \left( 1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  }{\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  } +\displaystyle \frac{\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \left( y_{i}-1\right)  \left( 1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  }{1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  } \right]  \\ &=&\displaystyle \sum^{M}_{i=1} \mathbf{x}_{i} \left[ y_{i}\left( 1-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  +\left( y_{i}-1\right)  \phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right]  \\ &=&\displaystyle \sum^{M}_{i=1} \mathbf{x}_{i} \left( y_{i}+\underbrace{y_{i}\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  -y_{i}\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  }_{=0} -\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  \\ &=&\displaystyle \sum^{M}_{i=1} \mathbf{x}_{i} \left( y_{i}-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  \end{array} $ </p>  
<p style="text-align: right;">$(5.16)$</p>

Siguiendo un procedimiento similar, encontramos que

<p style="text-align: center;">$\displaystyle \frac{\partial \mathcal{L} }{\partial b} =\displaystyle \sum^{M}_{i=1} \left( y_{i}-\phi \left( \mathbf{\theta }^{\top } \mathbf{x}_{i} +b\right)  \right)  $ </p>  
<p style="text-align: right;">$(5.17)$</p>

As√≠ que el procedimiento de ajuste por medio del algoritmo de gradiente descendente puede escribirse de la misma forma que para el caso del modelo de regresi√≥n lineal:

<p style="text-align: center;">$\begin{array}{lll}\mathbf{\theta }_{k+1} &=&\mathbf{\theta }_{k} -\alpha \displaystyle \frac{\partial \mathcal{L} }{\partial \mathbf{\theta }_{k} } \\ b_{k+1}&=&b_{k}-\alpha \displaystyle \frac{\partial \mathcal{L} }{\partial b_{k}} \end{array}$ </p>  
<p style="text-align: right;">$(5.18)$</p>

Y ya estamos listos para construir nuestra implementaci√≥n en **Numpy**.

### Implementaci√≥n en Numpy.
Considerando las soluciones presentadas previamente para el caso de la estimaci√≥n de par√°metros en el modelo de regresi√≥n log√≠stica, construiremos una implementaci√≥n en **Numpy** siguiendo un enfoque lo m√°s similar posible a los c√°lculos simb√≥licos desarrollados con anterioridad.

En primer lugar, definimos la funci√≥n log√≠stica como sigue:

In [19]:
def sigmoid(x: np.ndarray) -> np.ndarray:
    """
    Una funci√≥n para transformar cualquier arreglo unidimensional conforme una funci√≥n
    log√≠stica (sigmoide).
    
    Par√°metros:
    -----------
    x : Arreglo de Numpy unidimensional.
    
    Retorno:
    --------
    Un arreglo de Numpy, tambi√©n unidimensional, con los valores calculados conforme la
    funcion log√≠stica.
    """
    # Calculamos el output de la funci√≥n log√≠stica.
    phi = 1 / (1 + np.exp(-x))
    
    return phi

Luego hacemos lo mismo para el caso de la funci√≥n de costo (log-loss):

In [20]:
def log_loss(y: np.ndarray, y_pred: np.ndarray) -> np.ndarray:
    """
    Una funci√≥n para calcular la entrop√≠a cruzada binaria conforme una clase binaria real
    codificado como y = 1, y un valor de probabilidad P(y = 1) predicho mediante un modelo 
    de clasificaci√≥n binaria (arbitrario).
    
    Par√°metros:
    -----------
    y : Arreglo de Numpy que contiene las clases reales objetivo, binarias, codificadas con
        los valores 1 (√©xito) y 0 (fracaso).
    y_pred : Arreglo de Numpy que contiene las probabilidades P(y = 1) estimadas previamente
             mediante un modelo de clasificaci√≥n binaria.
    
    Retorno:
    --------
    Arreglo de Numpy con los valores de la funci√≥n de costo calculados.
    """
    # Definimos la funci√≥n de costo (entrop√≠a cruzada brinaria).
    log_loss = -np.mean(y * np.log(y_pred) + (1 - y) * np.log(1 - y_pred))
    
    return log_loss

Ahora construiremos una funci√≥n para ajustar un modelo de regresi√≥n lineal a un conjunto de $N$ variables agrupadas en un arreglo bidimensional, considerando los hiperpar√°metros de tolerancia, tasa de aprendizaje y n√∫mero de iteraciones como argumentos por defecto:

In [21]:
def fit_logistic_regression(
    X: np.ndarray, 
    y: np.ndarray, 
    iterarions: int=10000, 
    tolerance: float=1e-5,
    learning_rate: float=0.01, 
) -> np.ndarray:
    """
    Una funci√≥n sencilla que permite ajustar un modelo de regresi√≥n log√≠stica binaria a un 
    conjunto de datos de dimensi√≥n arbitraria, considerando como m√©todo de ajuste un procedimiento
    iterativo basado en el algoritmo de gradiente descendente, inicializando en cero los par√°metros 
    del modelo.
    
    Par√°metros:
    -----------
    X : Datos de entrada que deseamos ajustar, estructurados como un arreglo bidimensional
        de M observaciones y N variables.
    y : Datos de salida que deseamos predecir, estructurados como un arreglo unidimensional
        de M observaciones.
    iterations : N√∫mero de iteraciones a probar en el modelo.
    tolerance : Tolerancia del modelo.
    learning_rate : Tasa de aprendizaje del modelo.
    
    Retorno:
    --------
    Un arreglo de Numpy que contiene el par√°metro de sesgo como primer elemento, y los
    par√°metros del modelo a continuaci√≥n.
    """
    # A√±adimos una columna de 1s a la izquierda de las columnas de X, a fin de incorporar
    # el par√°metro de sesgo al procedimiento de ajuste.
    X = np.hstack((np.ones((X.shape[0], 1)), X))
    
    # Inicializamos los par√°metros del modelo.
    # (en esta oportunidad, los inicializaremos en cero, y no en valores aleatorios).
    theta = np.zeros(X.shape[1])
    
    # Inicializamos el valor de la funci√≥n de costo en un valor arbitrariamente alto.
    cost = float('inf')

    # Implementamos el algoritmo de gradiente descendente.
    for i in tqdm(range(iterarions), desc="Generando ajuste de par√°metros"):
        # Calculamos el producto matricial entre X y theta.
        z = np.dot(X, theta)
 
        # Transformamos el valor anterior en una probabilidad usando la funci√≥n log√≠stica.
        y_pred = sigmoid(z)
        
        # Calculamos el costo conforme la funci√≥n log-loss.
        cost_new = log_loss(y, y_pred).mean()
                  
        # Chequeamos si el algoritmo converge.
        if abs(cost - cost_new) < tolerance:
            break
        
        # Actualizamos el valor de la funci√≥n de costo.
        cost = cost_new
        
        # Calculamos el gradiente de la funci√≥n de costo.
        gradient = np.dot(X.T, (y_pred - y)) / y.size
        
        # Actualizamos los par√°metros del modelo.
        theta -= learning_rate * gradient
    
    return theta

El bloque de c√≥digo anterior nos deber√≠a bastar para ajustar un modelo de regresi√≥n log√≠stica binaria a cualquier conjunto de datos tal que la variable de respuesta correspondiente sea, efectivamente, de tipo binaria.

A fin de poder construir nuestro modelo, vamos a necesitar algunos datos para as√≠ probar nuestro c√≥digo a nivel procedimental. Para ello, haremos uso de la librer√≠a **Scikit-Learn** (cuyo nombre a nivel de m√≥dulo es `sklearn`). Esta librer√≠a es utilizada masivamente por muchos desarrolladores para la construcci√≥n de modelos de machine learning de todo tipo. Puntualmente, nosotros usaremos el subm√≥dulo `sklearn.datasets`, a fin de poder crear un conjunto de datos apto para probar nuestro modelo, usando la funci√≥n `sklearn.datasets.make_blobs()`:

In [22]:
from sklearn.datasets import make_blobs

In [23]:
# Creamos nuestro dataset.
X, y = make_blobs(n_samples=1000, centers=2, n_features=2, center_box=(0, 9), random_state=7)

La funci√≥n `make_blobs()` toma varios argumentos. En nuestro caso, usamos `n_samples` para definir el total de observaciones que constituir√°n nuestro conjunto de datos; `centers` para definir el n√∫mero de centroides respecto de los cuales se acumulan estos datos; y `n_features` para definir el total de variables independientes que conformar√°n este conjunto de datos. Por lo tanto, disponemos de un conjunto compuesto por tres variables, dos independientes (digamos $x_{1}$ y $x_{2}$) y una variable de respuesta binaria (digamos $\mathbf{y}$) que queremos estimar mediante nuestro modelo. Este conjunto de datos es el que se ilustra en la Fig. (5.4), donde los puntos de color gris son aquellos para los cuales $y_{i}=1$ (donde $y_{i}$ es la i-√©sima observaci√≥n sobre la variable de respuesta $\mathbf{y}$, para $1\leq i\leq 1000$), y los puntos de color verde son aquellos para los cuales $y_{i}=0$.

De la misma forma en que los hicimos con nuestro modelo de regresi√≥n lineal, separaremos esta data en conjuntos de entrenamiento (para construir nuestro modelo) y de prueba (para testear su capacidad de generalizar su aprendizaje). Sin embargo, en esta oportunidad, este proceso de separaci√≥n es un tanto diferente. Debido a que y es un arreglo que contiene datos binarios, debemos garantizar que tanto el conjunto de entrenamiento como el de prueba preserven la proporci√≥n de 1s y 0s que existe en el conjunto de datos original:

In [24]:
# Proporci√≥n de 1s sobre los datos totales.
y[y == 1].shape[0] / y.shape[0]

0.5

Es decir, tanto el conjunto de entrenamiento como el conjunto de prueba deben ser tales que la proporci√≥n de 1s y 0s en ellos debe ser aproximadamente igual a un 50%. Notemos que la funci√≥n `make_blobs()` siempre genera conjuntos con esta proporci√≥n por defecto. Este tipo de procedimiento es esencial en el desarrollo de cualquier modelo de clasificaci√≥n, y se conoce como muestreo estratificado.

La funci√≥n de muestreo estratificado se describe a continuaci√≥n:

In [25]:
# Una funci√≥n para construir un muestreo estratificado.
def stratified_split(X, y, test_size=0.2, random_state=42):
    """
    Una funci√≥n que separa un dataset en un conjunto de entrenamiento y un conjunto
    de prueba, considerando un muestreo estratificado.
    
    Par√°metros:
    -----------
    X : Datos de entrada que deseamos ajustar, estructurados como un arreglo bidimensional
        de M observaciones y N variables.
    y : Datos de salida que deseamos predecir, estructurados como un arreglo unidimensional
        de M observaciones. Estos datos son categ√≥ricos.
    test_size : Proporci√≥n de datos que ser√°n usados como data de prueba.
    random_state : Semilla aleatoria fija para asegurar la reproducibilidad del procedimiento.
    
    Retorno:
    --------
    Una tupla de arreglos, conformada por los conjuntos de entrenamiento y de prueba.
    """
    # Determinamos las posiciones asociadas a las observaciones tales que y = 1 e y = 0.
    pos_idx = np.where(y == 1)[0]
    neg_idx = np.where(y == 0)[0]

    # Determinamos el n√∫mero de observaciones para las cuales y = 1 e y = 0.
    n_pos_test = int(test_size * pos_idx.shape[0])
    n_neg_test = int(test_size * neg_idx.shape[0])

    # Generamos una mezcla de las muestras, considerando una semilla aleatoria fija.
    # Esta vez fijamos dicha semilla mediante la funci√≥n np.random.seed().
    np.random.seed(random_state)
    np.random.shuffle(pos_idx)
    np.random.shuffle(neg_idx)

    # Obtenemos las posiciones para nuestros conjuntos de entrenamiento y de prueba.
    pos_idx_train, pos_idx_test = pos_idx[n_pos_test:], pos_idx[:n_pos_test]
    neg_idx_train, neg_idx_test = neg_idx[n_neg_test:], neg_idx[:n_neg_test]
    
    # Combinamos estos conjuntos.
    idx_train = np.concatenate((pos_idx_train, neg_idx_train))
    idx_test = np.concatenate((pos_idx_test, neg_idx_test))

    # Separamos nuestro conjunto de datos entre conjuntos de entrenamiento y de prueba.
    X_train, X_test = X[idx_train], X[idx_test]
    y_train, y_test = y[idx_train], y[idx_test]

    return X_train, X_test, y_train, y_test

Previo a separar nuestro conjunto de datos, debemos enfatizar que, debido a que el modelo de regresi√≥n log√≠stica binaria es un **modelo lineal generalizado** (depende de la combinaci√≥n lineal de los par√°metros y los valores de las variables independientes asociadas a nuestro conjunto de datos), es igualmente sensible a los √≥rdenes de magnitud de las variables que lo constituyen, como ocurre con el modelo de regresi√≥n lineal. Por lo tanto, necesitamos escalar dicho conjunto de datos.

Notemos que este procedimiento no lo hicimos en el caso anterior, al ajustar un modelo de regresi√≥n lineal a un conjunto de datos, debido a que la data la generamos a partir de muestreo uniforme y, por tanto, las variables independientes ya ten√≠an √≥rdenes de magnitud similares.

El escalamiento lo haremos mediante un proceso de estandarizaci√≥n con respecto a los valores m√°ximos y m√≠nimos de las variables independientes. Por lo tanto, construimos una funci√≥n para ello:

In [26]:
# Una funci√≥n para escalar nuestros datos.
def min_max_scaler(X: np.ndarray):
    """
    Una funci√≥n para escalar un conjunto de variables independientes mediante un proceso
    de estandarizaci√≥n de magnitudes con respecto a sus correspondientes valores m√°ximos
    y m√≠nimos.
    
    Par√°metros:
    -----------
    X : Arreglo de Numpy que est√° constituido por las variables independientes que constituyen
        nuestro conjunto de datos.
        Retorno:
    --------
    Un arreglo de Numpy que contiene la data ya escalada.
    """
    return (X - X.mean(axis=0)) / X.std(axis=0)

Definidas las funciones de escalamiento y de muestreo estratificado, procedemos a utilizarlas para escalar y separar nuestro conjunto en datos de entrenamiento y de prueba:

In [27]:
# Escalamiento de nuestra data.
X_scaled = min_max_scaler(X)

# Separaci√≥n de nuestro conjunto de datos.
X_train, X_test, y_train, y_test = stratified_split(X, y)

Vemos que la proporci√≥n de 1s y 0s, efectivamente, se preserva en estos datos:

In [28]:
# Proporci√≥n de 1s sobre los datos de entrenamiento.
y_train[y_train == 1].shape[0] / y_train.shape[0]

0.5

In [29]:
# Proporci√≥n de 1s sobre los datos de prueba.
y_test[y_test == 1].shape[0] / y_test.shape[0]

0.5

Ahora realizamos el proceso de ajuste para construir nuestro modelo sobre los datos de entrenamiento:

In [30]:
# Ajuste de modelo de regresi√≥n log√≠stica binaria.
theta = fit_logistic_regression(X_train, y_train)
theta

Generando ajuste de par√°metros:  21%|‚ñè| 2087/10000 [00:00<00:00, 13547.04it/s]


array([-0.09414777,  2.13983517, -0.70691223])

Vemos que, a partir del procedimiento anterior, el modelo de regresi√≥n log√≠stica binaria que hemos construido tiene por ecuaci√≥n

<p style="text-align: center;">$P\left( y=1\right)  =\displaystyle \frac{1}{1+\exp \left( 0.0914777-2.13983517X_{1}+0.70691223X_{2}\right)}$ </p>  
<p style="text-align: right;">$(5.19)$</p>

S√≥lo resta responder una importante pregunta: ¬øQu√© tan bueno es nuestro modelo? Y para ello, es importante saber qu√© se entiende por buen modelo en un problema de clasificaci√≥n, y los contextos que definen el buen uso de ciertas m√©tricas de desempe√±o para este tipo de modelos.

Una forma gr√°fica de entender el desempe√±o de un modelo de clasificaci√≥n, cuando el n√∫mero de variables independientes es de 3 o menos, es mediante la construcci√≥n de una **frontera de decisi√≥n**. Tal frontera corresponde a la curva que separa las distintas clases que caracterizan a los puntos en cuesti√≥n en un problema de clasificaci√≥n. Para el caso del modelo de regresi√≥n log√≠stica binaria, esta frontera siempre es lineal, y tiene por ecuaci√≥n a $\mathbf{\theta }^{\top } \mathbf{X} +b=0$. Por lo tanto, para el caso del modelo que hemos construido, dicha frontera es una recta que tiene por ecuaci√≥n

<p style="text-align: center;">$0.0941777-2.13983517X_{1}+0.70691223X_{2}=0$ </p>  
<p style="text-align: right;">$(5.20)$</p>

Tal frontera se muestra en el gr√°fico de la Fig. (5.6). Observamos que √©sta es, en efecto, una recta que separa las clases $y_{i}=1$ e $y_{i}=0$ en el conjunto de datos completo. Naturalmente, la calidad de nuestro modelo no es perfecta, puesto que podemos verificar claramente que existen puntos tales que $y_{i}=1$ al lado izquierdo de la frontera de decisi√≥n, donde, idealmente, deber√≠an existir s√≥lo puntos tales que $y_{i}=0$. Tambi√©n existen puntos tales que $y_{i}=0$ a la derecha de la frontera de decisi√≥n, donde, idealmente, s√≥lo deber√≠an existir puntos tales que $y_{i}=1$. Estos puntos mal clasificados son los errores que comete nuestro modelo.

![alt text](https://github.com/rquezadac/udd_data_analytics_lectures/blob/main/seccion_01_numpy/figures/fig_5_6.png?raw=true "Logo Title Text 1")
<p style="text-align: center;">Fig. (5.6): Fontera de decisi√≥n estimada por nuestro modelo</p>

En t√©rminos m√°s formales, sea $Y$ la variable aleatoria que representa los posibles valores que puede tomar la variable de respuesta (lo que implica que $Y=\left\{ 0,1\right\}  $). El modelo estima la probabilidad $P(Y=1)$. Es justo, por tanto, preguntarnos cu√°l es el m√≠nimo valor de la probabilidad $P(Y=1)$ para el cual podemos asumir, con un nivel de confianza razonable, que, efectivamente $Y=1$. Parece justo establecer que ese valor deber√≠a ser $P(Y=1)=0.5$, que denota que es igualmente probable que $Y=1$ o $Y=0$. Dicha probabilidad se conoce, en la pr√°ctica, como valor umbral de clasificaci√≥n (cut-off).

Por lo tanto, podemos escribir

<p style="text-align: center;">$\hat{Y} =\begin{cases}1&;\  \mathrm{s} \mathrm{i} \  P\left( Y=1\right)  >0.5\\ 0&;\  \mathrm{s} \mathrm{i} \  P\left( Y=1\right)  \leq 0.5\end{cases} $ </p>  
<p style="text-align: right;">$(5.21)$</p>

Donde $\hat{Y}$ es la clase estimada por el modelo. Al respecto, podemos definir los siguientes conjuntos relativos a las probabilidades estimadas por el mismo:
- Los verdaderos positivos son aquellos valores tales que $\hat{Y}=Y=1$. Es decir, todas las observaciones clasificadas por el modelo como pertenecientes a la clase positiva ($\hat{Y}=1$) y que, en efecto, pertenecen a la clase positiva ($Y=1$).
- Los verdaderos negativos son aquellos valores tales que $\hat{Y}=Y=0$. Es decir, todas las observaciones clasificadas por el modelo como pertenecientes a la clase negativa ($\hat{Y}=0$) y que, en efecto, pertenecen a la clase negativa ($Y=0$).
- Los falsos positivos son aquellos valores tales que $\hat{Y}=1$ e $Y=0$. Es decir, todas las observaciones clasificadas por el modelo como pertenecientes a la clase positiva ($\hat{Y}=1$), pero que, en realidad, pertenecen a la clase negativa ($Y=0$).
- Los falsos negativos son aquellos valores tales que $\hat{Y}=0$ e $Y=1$. Es decir, todas las observaciones clasificadas por el modelo como pertenecientes a la clase negativa ($\hat{Y}=0$), pero que, en realidad, pertenecen a la clase positiva ($Y=1$).

Los valores anteriormente establecidos pueden establecerse en el cuadro ilustrado en la Tabla (5.1), conocido como matriz de confusi√≥n.

<p style="text-align: center;">Tabla (5.1): Matriz de confusi√≥n para un problema binario </p>

|                      |                   |**CONDICI√ìN REAL** |                    |
|----------------------|-------------------|-------------------|--------------------|
|                      |**Poblaci√≥n total**|$Y=1$              |$Y=0$               |
|**CONDICI√ìN ESTIMADA**|$\hat{Y}=1$        |Vedaderos positivos|Falsos positivos    |
|                      |$\hat{Y}=0$        |Falsos negativos   |Verdaderos negativos|

Vemos pues que disponemos de, por lo menos, dos m√©tricas de desempe√±o importantes en un problema de clasificaci√≥n binaria: Primero, podemos hacer √©nfasis en la fracci√≥n de verdaderos positivos del modelo en relaci√≥n a la cantidad total de observaciones que, efectivamente, pertenecen a la clase positiva. Dicha tasa se conoce como **sensibilidad** del modelo, y nos permite entender su precisi√≥n desde la perspectiva de la clase positiva (es decir, de todas aquellas instancias tales que $Y=1$).

La sensibilidad de un modelo de clasificaci√≥n binaria puede calcularse, por tanto, mediante la f√≥rmula

<p style="text-align: center;">$R=\displaystyle \frac{\overbrace{V_{P}}^{\text{Todas las observaciones tales que} \  \hat{Y} =1} }{\underbrace{V_{P}+F_{N}}_{\text{Todas las observaciones tales que} \  Y=1} } $ </p>  
<p style="text-align: right;">$(5.22)$</p>

Naturalmente, podemos tambi√©n determinar la proporci√≥n de aciertos del modelo en relaci√≥n a las observaciones que pertenecen a la clase negativa (todas las observaciones tales que $Y=0$), usando para ello la fracci√≥n de verdaderos negativos. Este valor se conoce como especificidad del modelo, y permite entender su precisi√≥n desde la perspectiva de la clase negativa. Es posible calcularlo usando la f√≥rmula

<p style="text-align: center;">$S=\displaystyle \frac{\overbrace{V_{N}}^{\text{Todas las observaciones tales que} \  \hat{Y} =0} }{\underbrace{V_{N}+F_{P}}_{\text{Todas las observaciones tales que} \  Y=0} } $ </p>  
<p style="text-align: right;">$(5.23)$</p>

Ambas m√©tricas pueden calcularse r√°pidamente disponiendo ya de la matriz de confusi√≥n. Una implementaci√≥n en **Numpy** de dicha matriz se puede lograr mediante la siguiente funci√≥n:

In [31]:
def confusion_matrix(y_true: np.ndarray, y_pred: np.ndarray) -> np.ndarray:
    """
    Una funci√≥n que permite obtener r√°pidamente la matriz de confusi√≥n, dados un arreglo que
    contiene las clases reales observadas para una variable de respuesta determinada, y un
    arreglo que contiene las clases estimadas por un modelo.
    
    Par√°metros:
    -----------
    y_true : Arreglo de Numpy que contiene las clases observadas.
    y_pred : Arreglo de Numpy que contiene las clases estimadas.
    
    Retorno:
    --------
    Un arreglo de Numpy con la matriz de confusi√≥n calculada.
    """
    # Calculamos los valores asociados a la matriz.
    true_positives = np.sum((y_true == 1) & (y_pred == 1)) # Verdaderos positivos.
    true_negatives = np.sum((y_true == 0) & (y_pred == 0)) # Verdaderos negativos.
    false_positives = np.sum((y_true == 0) & (y_pred == 1)) # Falsos positivos.
    false_negatives = np.sum((y_true == 1) & (y_pred == 0)) # Falsos negativos.
    
    return np.array([
        [true_positives, false_positives], 
        [false_negatives, true_negatives]
    ])

Ya s√≥lo nos resta definir una funci√≥n que permita obtener las clases predichas por nuestro modelo. Una opci√≥n es la siguiente:

In [32]:
# Una funci√≥n para obtener estimaciones mediante nuestro modelo.
def predict(
    X: np.ndarray, 
    theta: np.ndarray, 
    output: str="class"
) -> np.ndarray:
    """
    Una funci√≥n que permite obtener predicciones de nuestro modelo de regresi√≥n log√≠stica
    binaria.
    
    Par√°metros:
    -----------
    X : Arreglo de Numpy que contiene las variables independientes a utilizar para estimar
        la salida del modelo.
    theta : Par√°metros del modelo, previamente estimados (el par√°metro de sesgo siempre es
            el primer elemento de este arreglo).
    output : Tipo de estimaci√≥n. El valor por defecto es 'class', el que retorna la clase
             estimada por el modelo (y_pred = 1 o y_pred = 0). El otro valor es 'proba',
             que retorna la probabilidad de que y_pred = 1.
    
    Retorno:
    --------
    Arreglo de Numpy con las estimaciones ya calculadas.
    """
    # A√±adimos una columna de 1s a la izquierda de las columnas de X, a fin de incorporar
    # el par√°metro de sesgo al procedimiento de c√°lculo.
    X = np.hstack((np.ones((X.shape[0], 1)), X))
    
    # Obtenemos el valor de la combinaci√≥n lineal <X, w>.
    z = np.dot(X, theta)
    
    # Obtenemos la probabilidad estimada por el modelo.
    y_pred = sigmoid(z)
    
    if output == "class":        
        # Determinamos la clase asociada las probabilidades correspondientes.
        y_pred = np.where(y_pred > 0.5, 1, 0)
        return y_pred    
    else:     
        # Retornamos las probabilidades en caso de requerirlas.
        return y_pred

Usamos la funci√≥n anterior, por tanto, para determinar las clases estimadas por el modelo conforme nuestros datos de entrenamiento y de prueba:

In [33]:
# Obtenemos las estimaciones del modelo.
y_train_pred = predict(X_train, theta, output="class")
y_test_pred = predict(X_test, theta, output="class")

De este modo, ahora calculamos las matrices de confusi√≥n para los datos de entrenamiento y de prueba:

In [34]:
# Calculamos la matriz de confusi√≥n asociada a nuestras estimaciones.
cm_train = confusion_matrix(y_train, y_train_pred)
cm_test = confusion_matrix(y_test, y_test_pred)

cm_train # Matriz de confusi√≥n para los datos de entrenamiento.

array([[382,  19],
       [ 18, 381]])

In [35]:
cm_test # Matriz de confusi√≥n para los datos de prueba.

array([[95,  6],
       [ 5, 94]])

Con las matrices de confusi√≥n ya determinadas, es sencillo calcular tanto la sensibilidad como la especificidad para nuestro modelo en ambos conjuntos de datos

In [36]:
# Sensibilidad.
r_train = cm_train[0, 0] / (cm_train[0, 0] + cm_train[1, 0])
r_test = cm_test[0, 0] / (cm_test[0, 0] + cm_test[1, 0])

# Especificidad.
s_train = cm_train[1, 1] / (cm_train[1, 1] + cm_train[0, 1])
s_test = cm_test[1, 1] / (cm_test[1, 1] + cm_test[0, 1])

In [37]:
print(f"Sensibilidad en datos de entrenamiento = {100*np.around(r_train, 4)}%")
print(f"Especificidad en datos de entrenamiento = {100*np.around(s_train, 4)}%")
print(f"Sensibilidad en datos de prueba = {100*np.around(r_test, 4)}%")
print(f"Especificidad en datos de prueba = {100*np.around(s_test, 4)}%")

Sensibilidad en datos de entrenamiento = 95.5%
Especificidad en datos de entrenamiento = 95.25%
Sensibilidad en datos de prueba = 95.0%
Especificidad en datos de prueba = 94.0%


Vemos pues que nuestro modelo tiene un 95% de sensibilidad y un 94% de especificidad en datos de prueba, lo que es realmente muy bueno.

Es muy importante se√±alar que estos valores de rendimiento para un modelo de clasificaci√≥n no son muy comunes. La raz√≥n de haber obtenido tan maravillosos indicadores de calidad para nuestro modelo no estriba en su complejidad, sino en los datos que fueron imputados al mismo. Tales datos provienen de un generador de datasets apto para testear cualquier modelo de clasificaci√≥n, raz√≥n por la cual nuestro conjunto de datos no represent√≥ mayor dificultad para modelarlo m√°s all√° del tiempo que empleamos escribiendo todo nuestro c√≥digo y aprendiendo c√≥mo hacerlo. En el mundo real, esto no ser√° as√≠. Los datos que encontraremos a nivel industrial requerir√°n un tratamiento cuidadoso y muchas extensivo a fin poder disponer de un dataset reducido de la calidad como el que usamos en este √∫ltimo ejemplo. Y nuestro gran desaf√≠o ser√° aprender t√©cnicas que nos permitan manipular los datos para as√≠ desarrollar an√°lisis y/o modelos que no se vean empa√±ados por anomal√≠as en la data que puedan perturbar un resultado determinado.

## Comentarios finales.
Ya aprendimos t√©cnicas muy √∫tiles mediante el uso de la librer√≠a **Numpy** para trabajar con datos. Estos conocimientos nos han llevado, incluso, hasta construir modelos sencillos, pero de gran utilidad, para representar fen√≥menos interesantes, siempre que la data pueda ser trabajada y presentada en el formato adecuado. En la pr√≥xima secci√≥n, a√±adiremos a **Pandas** a nuestra caja de herramientas. **Pandas** es una librer√≠a que tambi√©n se especializa en el manejo de datos, pero esta vez, haciendo uso de estructuras de datos m√°s flexibles y que nos permitir√°n trabajar m√°s c√≥modamente aprovechando r√≥tulos y/o etiquetas tanto para variables como para observaciones.