# Introducción al machine learning
---


1. Qué es el ML?
1. Por que usar ML?
1. Tipos de sistemas
1. Tipos de aprendizaje: Online o Batch
1. Cuando no funciona...

Bibliografía recomendada:

[Hands on Machine Learning with SKLearn and Tensorflow - Aurelien Geron](https://www.safaribooksonline.com/library/view/hands-on-machine-learning/9781491962282)

[Jason Brownlee blog](https://machinelearningmastery.com)

## 1. Qué es el ML?
![img/AI.png](img/AI.png)

> Campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados de forma específica
>
> A. Samuel, 1959

> Se dice de un programa que aprende de la experiencia $E$ con respecto a la tarea $T$ y una medida de rendimiento $P$ si el rendimiento $P$ sobre $T$ aumenta con la experiencia $E$
>
>Tom Mitchell, 1997

Podemos entender un algoritmo de ML como un **algoritmo que cambia su estado interno** para encontrar la mejor **función de mapeo** $f$ de las variables de entrada, o predictores $X$ a la variable de salida, u objetivo $y$ predictores $X$ al objetivo $y$.

$y = f(X)$

Permite realizar predicciones, $\hat{y}$, dadas nuevas variables de predicción.



## 2. ¿Por qué usar ML?

![img/spam.jpg](img/spam.jpg)

Imaginemos que queremos construir un filtro de spam.

Una primera opción sería hacer un sistema *ad hoc* que podría consistir en:

* Definición de reglas tipo:

>si contiene en el sujeto "extra inches" o "for free" $\rightarrow$ spam

* Escribir un algoritmo de detección de los patrones encontrados (expresiones regulares, ...) 
* Evaluar el algoritmo e ir refinandolo.

<img src='img/chart_rules.jpg' width=500>

**Pero...**

* Los spammers se pueden adaptar...
* ..las reglas <span style="color:red">cambiar</span>...
* ...<span style="color:red">obligarnos a iterar</span> sobre los distintos pasos del sistema montado...
* ...con la contra de que, aparte de <span style="color:red">consumir mucho tiempo</span>, el sistema se vuelve <span style="color:red">inmantenible</span>.

### Aproximación de ML

Si en vez de intentar definir las reglas a mano cada vez que queramos modificar nuestro sistema de detección de spam utilizamos un clasificador, podemos redefinir el problema como:

* Estudiar el problema desde el punto de vista de que **variables** me afectan a que sea spam, por ejemplo patrones de palabras frecuentes en mails normales o spam ([bag of words](https://en.wikipedia.org/wiki/Bag-of-words_model), [tf-idf](https://en.wikipedia.org/wiki/Tf%E2%80%93idf))

* Entrenar un clasificador sobre las variables seleccionadas: e.g. naive-bayes, logistic regression...
* Evaluar el rendimiento y poner en producción
<img src='img/chart_ml.jpg' width=500>

Los sistemas de ML son buenos para:

1. Problemas que requieren mucho trabajo manual o largas listas de reglas
1. Entornos que evolucionan
1. Conseguir insights en datos complejos


## 3. Tipos de sistemas de ML

A la hora de afrontar un problema, debemos plantearnos primero, si el tipo de problema puede ser resuelto mediante. Si es así, deberemos identificar el tipo de problema y si tenemos los datos adecuados para poder afrontarlo.

Para poder escoger la aproximación correcta al problema, es útil tener en mente una clasificación de alto nivel de los distintos tipos de algoritmos.

Una primera forma de clasificar los algoritmos de ML es en función de como "aprenden". Se pueden dividir mayormente en dos categorías distintas:

1. **Aprendizaje supervisado**
1. **Aprendizaje no supervisado**
1. Aprendizaje semi-supervisado
1. Reinforcement learning

Una segunda forma de clasificar los sistemas de ML es en función de cómo se actualiza el estado interno de los algoritmos, es decir, si pueden "aprender" al vuelo de forma incremental o no.

1. Online learning
1. Batch learning

Finalmente, una tercera categoría es si los algoritmos trabajan comparando nuevas instancias con las ya conocidas o bien detectado patrones para crear un modelo.

1. **Aprendizaje basado en modelos**: Adapta parametros del modelo a los datos y los generaliza a nuevas observaciones. (Regresión lineal: $coste = \theta_0 + \theta_1 \times peso$ )
1. **Aprendizaje basado en instancias**: Requiere una medida de similaridad. Evalúa cuan similar es un punto nuevo a uno de los existentes. (k-nearest neighbours)



### 3.1 Aprendizaje supervisado

Se habla de aprendizaje supervisado cuando se hace referencia a que el modelo construido está basado en unas observaciones sobre las que ya conociamos la respuesta e intentamos averiguar que responderiamos ante una serie de datos nuevos.

De hecho, los algoritmos de aprendizaje supervisado cambian su estado interno minimizando el error que comete al predecir que darían las observaciones sobre lo que realmente sabemos que ha dado. Esta fase es la que de forma común se llama **entreno**.

![img/iris.jpg](img/iris.jpg)

Dentro del aprendizaje supervisado podemos distinguir dos tipos de problema básicos:

1. **Regresión**
1. **Clasificación**

La mejor forma de distinguir entre uno y otro es preguntarse si necesitamos predecir una cantidad o un valor continuo, tipo cuanto vale una casa dado un vecindario y la superficie, o si queremos predecir una clase, tipo dado el valor de una casa y la superficie dime en que vecindario está.

#### 3.1.1 Regresión

El nombre de fue indroducido por Francis Galton cuando estudiaba que los hijos de gente alta tendían a ser bajos, por lo que había una **regresión a la media**.

Entre los algoritmos más usados para realizar regresiones encontramos:

1. Linear Regression and variants ([echale un vistazo a esto](https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/))
    2. Ridge Regression (l2)
    3. Lasso Regression (l1)
    3. Stepwise Regression

2. Regression trees and trees ensembles
3. Supponrt Vector Regressors

#### 3.1.2 Clasificación

Una de las tareas más comunes a realizar. Se trata de encontrar el grupo al que pertenece una observación.

Entre los algoritmos más usados y útiles encontramos:

1. **Logistic Regression**
1. **Regression trees and ensembles**
1. **Support Vector Classifiers**

### 3.2 Aprendizaje no supervisado
Como podrás imaginar, este tipo de tipo de algorirmos vienen condicionados por el hecho de que tenemos datos sin etiquetas.

Dentro de esta categoría podemos encontrar tres otras sub-categorías en función del objetivo que definamos o del problema a cubrir:

1. Segmentación o **clustering**
    1. **k-means** y variantes
    1. **(Hierarchical) Density-Based Spatial Clustering of Applications with Noise: [(H)DBSCAN](http://hdbscan.readthedocs.io/en/latest/)**
    1. Hierarchical clustering
    1. Expectation Maximization (Gaussian mixture models, ...)
      
1. **Reducción de dimensionalidad** / visualización:
    1. **Principal Component Analysis (PCA)**
    1. t-distributed Stochastic Neighbor Embedding **(t-SNE)**
1. Reglas de asociación
    1. ({carbon + carne --> cerveza})
    
### Guías visuales
[fuente](https://machinelearningmastery.com/)

<img src='img/MachineLearningAlgorithms.png'>

## 4. Tipos de aprendizaje

### 4.1 Batch

El sistema no es capaz de aprender de forma incremental y necesitamos todos los datos disponibles durante la fase de entreno. Una vez entrenado, el modelo efectuará las predicciones en base a los datos de entreno. En el caso en el que queramos incorporar nueva información al modelo, no podremos añadirle simplemente los nuevos datos adquiridos, si no que tendremos que entrenar un modelo nuevo y reemplazar el antiguo.

Es el método más sencillo y el más común dado que no es difícil automatizar los procesos de actualización de datos, entreno y publicación.

Por otro lado, al necesitar todos los datos en memoria puede ser caro a nivel computacional.

### 4.2 Online learning

Por otro lado, existen algoritmos que permiten actualizar su estado de forma incremental a medida que nueva información llega.

![img/onlinelearning.png](img/onlinelearning.png)

[src](https://www.safaribooksonline.com/library/view/hands-on-machine-learning/9781491962282/assets/mlst_0113.png)

Este tipo de aproximación es ideal para grandes volumenes de datos o situaciones dónde necesitamos que el modelo se adapte de forma rápida a los cambios o de forma autónoma.

## 5. Cuando no funciona...

Hemos visto que los algoritmos de ML son una herramienta muy útil y que se adaptan a númerosos tipos de entornos. Dado que la principal función es saber elegir que tipo de modelo usar en que situación, hay dos fallos potenciales que son fáciles de cometer:

1. Elegir mal el algoritmo: p.ej. un modelo lineal que sobre simplifique el problema (**underfitting**) o un modelo complejo que se aprenda de "memoría" lo que tenga que hacer y no sepa generalizar a casos nuevos (**overfitting**)

2. Que los datos no sean los apropiados.

Si bien el primer punto merece una sesión entera y hay técnicas o procesos para saber elegir el mejor modelo en cada caso de forma justificada, el segundo punto podemos tratarlo de forma somera.

Los principales problemas de datos que podemos tener son:

1. Que los datos de entreno no representen el total de datos que queremos representar

2. Que los datos sean de poca calidad: outliers, nan's,...

3. Tener características irrelevantes: garbage in, garbage out

Una parte crucial a la hora de crear un modelo es seleccionar las variables adecuadas y/o modificarlas de forma que aporten más información al modelo, lo que se conoce como **Feature engineering**:
1. Feature extraction: Creación de nuevas variables, p.ej. $duration = date_{exit} - date_{start}$ 
1. Feature selection: quitar aquellas que no aportan información reduce el ruído y puede mejorar el algoritmo

### Preguntas:

1. Como le explicarias de forma intuitiva a alguien qué es el machine learning?

1. Si tuvieras que detectar tipos de clientes y tuvieras acceso a la edad, el genero y el tipo de ingresos, que tipo de problema tendrías? Que algoritmos podrías usar?

1. Puedes decir algún ejemplo de problema supervisado?