# Machine Learning: introducción

Hoy la clase va de entender, de razonar, de interiorizar

El aprendizaje de hoy, será para siempre

<img width=500 src="https://miro.medium.com/v2/resize:fit:700/1*x7P7gqjo8k2_bj2rTQWAfg.jpeg">

El Machine Learning (aprendizaje automático) es una disciplina del campo de la Inteligencia Artificial que, a través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos masivos y elaborar predicciones.

## Tipos de Aprendizaje Automático

<img width=800 src="https://www.researchgate.net/publication/354960266/figure/fig1/AS:1075175843983363@1633353305883/The-main-types-of-machine-learning-Main-approaches-include-classification-and.png">

### Supervisado

Los datos están **etiquetados** (se conoce la *verdad* sobre un histórico de observaciones). Al modelo se le presentan datos con su etiqueta, y el modelo infiere patrones para más tarde hacer predicciones.

**SÍ hay una variable objetivo, que queremos aprender a predecir**

Hay fundamentalmente 2 clases de problemas:
  * Regresión: predecimos una variable cuantitativa. Ejemplos:
     * Dadas el número de horas de estudio y de fiesta de un estudiante, predecir qué nota sacará en un exámen
     * Dadas las características de un jugador de basket, predecir su salario.
     * Dada una imagen con una cara, predecir la edad de la persona
  * Clasificación: predecimos una variable cualitativa. Puede ser binaria o multiclase. Ejemplos:
     * Dadas propiedades de un nódulo, predecir si se desarrolla o no cáncer.
     * Dado un cliente, predecir si devuelve o no un préstamo.
     * Dada una imagen, predecir si hay un gato o un perro.
     * Dadas un artículo de prensa, predecir a cuál de entre 5 categorías corresponde.

### No supervisado

Los datos **no** están **etiquetados**. El modelo busca patrones de similaridad entre observaciones. 

**NO hay una variable objetivo a predecir**

Ejemplos:
  * Jugadores similares del FIFA.
  * Compradores del supermercado semejantes.
  * Estaciones de BICIMAD similares.

### Aprendizaje por refuerzo

Los datos se van generando dinámicamente.  
La máquina aprende a optimizar sus acciones en función de las recompensas que obtiene.

Ejemplos:
 - Entrenar un agente para jugar y ganar al Ajedrez
 - Entrenar un agente para jugar y ganar a un videojuego
 - Entrenar un agente para invertir en bolsa

**Ejercicio**: de qué tipo de ML se tratan:
 - dadas varias características de una planta, predecir si es acuática o terrestre
 - dadas celdas de telefonía distribuidas por España, decidir cuáles tienen naturaleza similar
 - dados varios indicadores meteorológicos, predecir la temperatura

## Features

Las **features** son las variables (columnas) presentes en nuestro dataset.  

En el caso del aprendizaje supervisado, diferenciamos entre:
  * target: variable que queremos predecir.
  * predictores: variables utilizadas para predecir.

In [1]:
import pandas as pd

In [27]:
dff = pd.read_csv("./datasets/breast_cancer_bis.csv")

In [28]:
dff.shape

(569, 8)

In [29]:
dff.head()

Unnamed: 0,mean_radius,mean_texture,mean_perimeter,mean_area,mean_smoothness,mean_compactness,mean_concavity,is_cancer
0,17.91,21.02,124.4,994.0,0.123,0.2576,0.3189,1
1,10.26,12.22,65.75,321.6,0.09996,0.07542,0.01923,0
2,14.22,23.12,94.37,609.9,0.1075,0.2413,0.1981,1
3,9.755,28.2,61.68,290.9,0.07984,0.04626,0.01541,0
4,9.738,11.97,61.24,288.5,0.0925,0.04102,0.0,0


## Métricas

En análisis supervisado...

Cómo sabemos si un modelo funciona mejor que otro?

Hemos de comparar la realidad vs las predicciones

Las **métricas de regresión** más utilizadas son:
 - MSE: mean squared error
 - MAE: mean absolute error
 - logMSE: mean squared logarithmic error

**Ejercicio**: qué modelo tiene menor RMSE (root mean square error)?

In [6]:
df = pd.DataFrame({
    'temperatura_real': [25.9, 29.3, 27.0, 25.9, 23.4],
    'pred_modelo_1': [27.8, 29.0, 26.8, 26.7, 23.7],
    'pred_modelo_2': [28.2, 29.6, 28.3, 26.9, 27.9]
})

df

Unnamed: 0,temperatura_real,pred_modelo_1,pred_modelo_2
0,25.9,27.8,28.2
1,29.3,29.0,29.6
2,27.0,26.8,28.3
3,25.9,26.7,26.9
4,23.4,23.7,27.9


In [18]:
mse_1 = ((df.temperatura_real - df.pred_modelo_1) ** 2).mean()
rmse_1 = mse_1 ** 0.5
round(rmse_1, 3)

0.946

In [19]:
mse_2 = ((df.temperatura_real - df.pred_modelo_2) ** 2).mean()
rmse_2 = mse_2 ** 0.5
round(rmse_2, 3)

2.38

Las **métricas de clasificación** más utilizadas son:
 - accuracy: % de aciertos
 - precision
 - recall
 - f_beta

**Ejercicio**: qué modelo tiene mayor accuracy?

In [21]:
df = pd.DataFrame({
    'tipo_planta_real': ['agua', 'tierra', 'agua', 'tierra', 'tierra', 'tierra'],
    'pred_modelo_1': ['agua', 'tierra', 'agua', 'tierra', 'agua', 'tierra'],
    'pred_modelo_2': ['tierra', 'tierra', 'agua', 'agua', 'tierra', 'agua']
})

df

Unnamed: 0,tipo_planta_real,pred_modelo_1,pred_modelo_2
0,agua,agua,tierra
1,tierra,tierra,tierra
2,agua,agua,agua
3,tierra,tierra,agua
4,tierra,agua,tierra
5,tierra,tierra,agua


In [24]:
(df.tipo_planta_real == df.pred_modelo_1).sum()

5

In [25]:
(df.tipo_planta_real == df.pred_modelo_2).sum()

3

## Underfitting y Overfitting 

 * El **underfitting** suele ser la consecuencia de que un modelo sea insuficiente de capturar las relaciones entre las variables. Puede ocurrir cuando se intentan representar relaciones no lineales con un modelo lineal. Los modelos infraajustados suelen tener un rendimiento pobre tanto en el conjunto de entrenamiento como en el de test.

 * El **overfitting** suele tener lugar cuando un modelo tiene una **estructura excesivamente compleja** y aprende tanto las relaciones existentes entre los datos como del ruido. Estos modelos suelen tener una **mala capacidad de generalización**: funcionan _demasiado_ bien en el train pero mal en el test.

## Train / Test split

La división train/test es una técnica para **evaluar el rendimiento** de un algoritmo de aprendizaje automático **supervisado** *sin hacernos trampas a nosotros mismos*

Se utiliza tanto para problemas de clasificación o regresión.

<span style="color:orange">**predictors X**</span>
<span style="color:lightblue">**target y**</span>  

<img width=800 src="https://www.dataquest.io/wp-content/uploads/kaggle_train_test_split.svg" width="500">

In [34]:
df = dff

In [35]:
df.head()

Unnamed: 0,mean_radius,mean_texture,mean_perimeter,mean_area,mean_smoothness,mean_compactness,mean_concavity,is_cancer
0,17.91,21.02,124.4,994.0,0.123,0.2576,0.3189,1
1,10.26,12.22,65.75,321.6,0.09996,0.07542,0.01923,0
2,14.22,23.12,94.37,609.9,0.1075,0.2413,0.1981,1
3,9.755,28.2,61.68,290.9,0.07984,0.04626,0.01541,0
4,9.738,11.97,61.24,288.5,0.0925,0.04102,0.0,0


In [36]:
X = df.drop("is_cancer", axis=1)

In [37]:
y = df.is_cancer

In [38]:
X.head()

Unnamed: 0,mean_radius,mean_texture,mean_perimeter,mean_area,mean_smoothness,mean_compactness,mean_concavity
0,17.91,21.02,124.4,994.0,0.123,0.2576,0.3189
1,10.26,12.22,65.75,321.6,0.09996,0.07542,0.01923
2,14.22,23.12,94.37,609.9,0.1075,0.2413,0.1981
3,9.755,28.2,61.68,290.9,0.07984,0.04626,0.01541
4,9.738,11.97,61.24,288.5,0.0925,0.04102,0.0


In [41]:
y.head()

0    1
1    0
2    1
3    0
4    0
Name: is_cancer, dtype: int64

In [42]:
from sklearn.model_selection import train_test_split

In [43]:
df.shape

(569, 8)

In [44]:
X.shape

(569, 7)

In [45]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [46]:
X_train.shape

(455, 7)

In [47]:
X_test.shape

(114, 7)

In [48]:
y_train.shape

(455,)

In [49]:
y_test.shape

(114,)

El procedimiento consiste en:
 * tomar el conjunto de datos (predictores + target).
 * dividirlo en dos subconjuntos (generalmente 80% y 20%):
   * train: utilizado para entrenar el modelo.
   * test: utilizado para evaluar el rendimiento del modelo (**no** se utiliza para entrenarlo).
 * entrenar el modelo con el conjunto de train.
 * predecir sobre el conjunto de test.
 * evaluar la métrica de rendimiento sobre el test: comparar **real** vs **predicted**
 
El objetivo es estimar el rendimiento futuro del modelo con datos nunca vistos antes.

## Cross-Validation

El train/test split es una buena técnica para evaluar la performance de un modelo.

Aún así, el test score (la métrica evaluada en el test) depende de la *suerte* en la elección del conjunto de test. Existe una técnica más robusta de validación: Cross Validation

La validación cruzada (cross-validation) es una técnica utilizada para **evaluar la performance** de un modelo **sin depender fuertemente** de una partición particular train/test.

 * Se apoya en la técnica del train/test split.
 * Repite la técnica K veces (usualmente K=5)
 * Promedia el test score de las K veces. 

<img width=800 src="http://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png">

Como vemos en la imagen, en el caso K=5:  
**Iterar 5 veces:**      
1. Apartamos 1/5 de muestras (validation fold, también llamado a veces test fold).
2. Entrenamos al modelo con el restante 4/5 de muestras.
3. Medimos el performance (métrica) sobre el validation fold. El resultado es un número real.

El performance será la media aritmética de los 5 folds.