# Machine Learning

En la era de la tecnología moderna contamos con una gran cantidad de datos, tanto estructurados como no estructurados. Durante la segunda mitad del siglo XX, el aprendizaje automático surgió como una rama de la inteligencia artificial que utiliza algoritmos capaces de aprender de los datos para hacer predicciones. En lugar de que las personas definan manualmente las reglas y modelos a partir del análisis de grandes volúmenes de información, el machine learning permite capturar ese conocimiento de manera más eficiente y mejorar gradualmente el rendimiento de los modelos predictivos para tomar decisiones basadas en datos.


<img src="./img/neurona.png" width="800" />

## Tipos de Machine Learning

<img src="./img/types-of-ml.png" width="800" />

## La definición formal de una neurona artificial

Supongamos que tenemos un clasificador binario. Podemos definir una función de decisión $\sigma(z)$, que tomará una combinación lineal de
ciertos valores de entrada, $x$, y un vector de peso correspondiente, $w$, donde $z$ es el input neto
$$
    z = w_1 x_1 + w_2 x_2 + ... + w_3 x_3
$$

$$
    \mathbf{w} =
    \begin{bmatrix}
    w_{1} \\
    \vdots \\
    w_{m}
    \end{bmatrix}, \quad

    \mathbf{x} =
    \begin{bmatrix}
    x_{1} \\
    \vdots \\
    x_{m}
    \end{bmatrix}
$$

Ahora, si el valor neto de un ejemplo en particular, $x^{(i)}$, es más grande que un determinado límite, $\theta$, entonces predecimos la clase 1 o 0 en otro caso. En el algoritmo del Perceptron, la función de decisión $\sigma$ es una variante de la función escalón

$$
    \sigma(z) =
    \begin{cases}
    1 & \text{if } z \ge \theta \\
    0 & \text{otherwise}
    \end{cases}
$$

Simplificaremos esta implementación en un par de pasos. Primero, moveremos el límite (threshold, $\theta$) a la izquierda de la ecuación

$$
    z \geqslant \theta \\
    z - \theta \geqslant 0
$$

Definimos también la unidad de bias como $b = -\theta$ y hacerlo parte de nuestro input neto

$$
    z = w_1 x_1 + w_2 x_2 + ... + w_3 x_3 + b = \mathbf{w}^T x + b
$$

Entonces

$$
    \sigma(z) =
    \begin{cases}
    1 & \text{if } z \ge 0 \\
    0 & \text{otherwise}
    \end{cases}
$$

<img src="./img/decision-boundary.png" width="800" />

## El perceptrón y la regla de aprendizaje

La idea detrás del perceptrón es simplemente imitar el comportamiento de una neurona logrando que la neurona se dispare o no. El algoritmo del perceptrón se simplifica de la siguiente manera

1. Inicializa los pesos y el bias a 0 o números aleatorios pequeños
2. Para cada ejemplo de entrenamiento, $x^{(i)}$:
    a. Calcula el valor de salida $y^{(i)}$
    b. Actualiza los pesos y el bias

Aquí el valor de salida es la clase predecida por la función escalón y simultaneamente actualizaremos el bias y cada peso, $w_j$ en el vector $\mathbf{w}$, que se puede escribir más formalmente como:

$$
    w_j := w_j + \Delta w_j \\
    b := b + \Delta b
$$

Y para actualizar las "deltas" lo hacemos de la siguiente forma

$$
    \Delta w_j := \eta(y^{(i)} - \hat{y}^{(i)}) x_j^{(i)}  \\
    \Delta b := \eta(y^{(i)} - \hat{y}^{(i)})
$$

| Símbolo             | Significado                                                                 |
|---------------------|------------------------------------------------------------------------------|
| $Δw_j$             | Cambio (ajuste) en el peso `w_j` correspondiente a la característica `j`.    |
| $Δb$               | Cambio en el sesgo (*bias*) del perceptrón.                                  |
| $η$                | Tasa de aprendizaje (*learning rate*), controla el tamaño del ajuste.        |
| $y^{(i)}$            | Etiqueta real de la muestra de entrenamiento `i` (normalmente 0 o 1).        |
| $ŷ^{(i)}$            | Predicción del perceptrón para la muestra `i` (0 o 1).                       |
| $x_j^{(i)}$          | Valor de la característica `j` de la muestra `i`.                            |
| $w_j$              | Peso actual de la característica `j` (se actualiza sumando `Δw_j`).          |
| $b$                | Sesgo actual del perceptrón (se actualiza sumando `Δb`).                     |


<img src="./img/algorithm.png" width="800" />


<img src="./img/linear-or-nonlinear.png" width="800" />

Referencia:

- Raschka, S., Liu, Y. y Mirjalili, V. (2022). Machine Learning with PyTorch and Scikit-Learn
