---

**Universidad de Costa Rica** | Escuela de Ingeniería Eléctrica

*IE0405 - Modelos Probabilísticos de Señales y Sistemas*

### `PyX` - Serie de tutoriales de Python para el análisis de datos


# `PyML` - *Herramientas para aprendizaje automático*

> Python es versátil y popular para análisis de datos y también para procesamiento de algoritmos de aprendizaje automático (**ML**, *Machine Learning*). Existen plataformas bien consolidadas de *machine learning* como **Scikit-learn**, **PyTorch**, **TensorFlow** y **Keras** que complementan o de hecho construyen sobre las herramientas ya conocidas de computación científica y cálculo numérico en Python, como **NumPy** y **SciPy**.

*Fabián Abarca Calderón*

---

## Aprendizaje automático

El estudio del aprendizaje automático y la inteligencia artificial tiene un auge importante en la academia y la industria. La convergencia de datos masivos, la alta disponibilidad de poder computacional y el desarrollo de nuevos algoritmos han creado nuevas posibilidades y expectativas.

### Clasificación del aprendizaje automático

El "aprendizaje automático" comprende una serie de métodos y algoritmos computacionales utilizados para realizar tareas como **predicción**, **agrupamiento** y **clasificación** de nuevos datos a partir del *entrenamiento* previo del algoritmo con una cantidad masiva de ejemplos similares.

Hay tres grandes categorías según su entrenamiento:

- Aprendizaje supervisado (el programa recibe datos etiquetados)
- Aprendizaje no supervisado (el programa recibe datos no etiquetados y debe deducir las relaciones entre ellos)
- Aprendizaje por refuerzo

Esto supone un cambio de paradigma en la programación de soluciones

Un modelo de **regresión** predice valores continuos. Por ejemplo, los modelos de regresión hacen predicciones que responden a preguntas como las siguientes:

- ¿Cuál es el valor de una casa en Guanacaste?
- ¿Cuál es la probabilidad de que un usuario haga clic en este anuncio?

Un modelo de **clasificación** predice valores discretos o variables categóricas. Por ejemplo, los modelos de clasificación hacen predicciones que responden a preguntas como las siguientes:

- ¿Un determinado mensaje de correo electrónico es spam o no es spam?
- ¿Es esta una imagen de un perro, un gato o un hámster?

### Herramientas computacionales para el aprendizaje automático

Existen más de dos docenas de opciones, sin embargo aquí estudiaremos cuatro de las más populares, todas:

- [PyTorch](https://pytorch.org/)
- [TensorFlow](https://www.tensorflow.org/)
- [Keras](https://keras.io/)
- [Scikit-learn](https://scikit-learn.org/stable/)

##### Instalación

[Anaconda](https://www.anaconda.com/products/individual) facilita la instalación de estos *frameworks*. Usualmente solo Scikit-learn viene pre-instalado.

### Sobre este tutorial

Está enfocado en la aplicación de las herramientas y no tanto en la explicación de los algoritmos y teoría del aprendizaje automático.

---
## ML.1. Regresión

La *regresión* es un algoritmo de modelado estadístico para la **predicción** o **inferencia** de los valores de una **variable continua** a partir de su relación con otras variables independientes o *predictores*. La forma más conocida es la regresión lineal.

**Nota**: El nombre "regresión" podría ser confuso al principio y no es clara su relación con "predicción". El origen histórico son los estudios de Francis Galton, quien encontró que, sobre todo en los casos de padres de muy alta o muy baja estatura, generalmente sus hijos no eran tan altos o tan bajos, sino que tenían un "regreso a la media".

La regresión lineal encuentra un valor estimado $\hat{y}$ que depende de ciertas variables independientes $\mathbf{x} = (x_1, \ldots, x_N)$ por medio de una combinación lineal ponderada por los coeficientes $\mathbf{w} = (w_1, \ldots, w_N)$, esto es:

$$
\hat{y}(w, x) = w_0 + w_1 x_1 + \cdots + w_N x_N = \mathbf{w}\mathbf{x}^T
$$

donde $w_0$ también a menudo se representa con $b$ y es el "sesgo" (*bias*) y $w_i$ es la ponderación de la característica $x_i$. 

Para un conjunto dado de datos de muestra, una regresión lineal crea una recta de mejor ajuste a los datos (o *hiperplano*, cuando hay más dimensiones, es decir, más predictores $x$), a partir de la cual se hacen las estimaciones.

<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_ols_0011.png" width=250>

Este "mejor ajuste" es un problema de optimización que tiene varios criterios de solución, según sean las necesidades o características de los datos y el problema a resolver. 

Esto da origen a varios tipos de regresión lineal, según la "función costo" o "función pérdida" con que se ajusta la recta (hiperplano) a los datos:

- Mínimos cuadrados ordinarios
- Arista (*ridge*)
- Lasso
- Elastic-Net
- Ángulo mínimo (**LARS**, *Least-Angle Regression*)
- Búsqueda del ajuste ortogonal (**OMP**, *Orthogonal Matching Pursuit*)
- (Otros)

En general, estos métodos hacen ajustes a la optimización en función de la diferencia entre el valor predicho y el valor real o "pérdida", pero también en función de la magnitud de los parámetros de ponderación, $w_i$. En la siguiente figura se puede apreciar un modelo de pérdidas altas y otro de pérdidas bajas. La magnitud de las pérdidas $\hat{y} - y$ se representa con las flechas.

<img src="https://developers.google.com/machine-learning/crash-course/images/LossSideBySide.png?hl=es-419" width=500>


Esto causa una "penalización" que ajusta la recta y genera mayor o menor sensibilidad a los datos disponibles. El criterio de selección depende de factores como la cantidad de datos, la cantidad de variables independientes, el "ruido" de las mediciones, y otros.

### ML.1.1. Regresión lineal con mínimos cuadrados ordinarios

En el ejemplo más sencillo de regresión lineal, se determinan los parámetros o pesos $w_i$ que satisfacen la siguiente optimización:

$$
\min_w \left\Vert \hat{y} - y \right\Vert^2_2 = \min_w \left\Vert \mathbf{w}\mathbf{x}^T - y \right\Vert^2_2
$$

donde $\left\Vert \cdot \right\Vert_2$ es la norma euclidiana o norma $L^2$. Para un conjunto de parámetrosla la función de costo es el error medio cuadrado (**MSE**, *Mean Square Error*) sobre todas las muestras (o "ejemplos"):

$$
MSE = \frac{1}{N} \sum_{(x,y) \in D} (\hat{y} - y)^2
$$

donde $D$ es el conjunto de datos al que pertenecen $(x,y)$ y $N$ es el número de ejemplos.

Por estar elevado al cuadrado, un efecto es que la función "penaliza" más severamente los valores más alejados de la recta de ajuste.

### Grandiente por descenso

El algoritmo de gradiente por descenso (*gradient descent*) busca un(os) parámetro(s) de mejor ajuste de forma iterativa al "moverse" en la dirección de 

#### Ajuste de hiperparámetros

#### Ejercicio de regresión lineal

Consejos:

- **"Inspección visual"**: término elegante para decir "echarle un vistazo a los datos".

In [4]:
from sklearn import svm
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
regr = svm.SVR()
regr.fit(X, y)
#regr.predict([[1, 1]])

SVR()

---
## ML.2. Clasificación

La clasificación...

## ML.3. Agrupamiento

El agrupamiento o *clustering* es...

---
### Más información

* [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course/) (Google)
* Libro o algo
* Tutorial [w3schools](https://www.w3schools.com/python/)

---
**Universidad de Costa Rica** | Facultad de Ingeniería | Escuela de Ingeniería Eléctrica

&copy; 2021

---