## Inteligencia Artificial para la Ciencia de los Datos
## Máster en Lógica, Computación e Inteligencia Artificial 
## Tema 3: Modelos lineales

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

 ### Ejercicio: Modelos Lineales en scikit-learn

Este ejercicio está tomado parcialmente del libro:

[*Introduction to Machine Learning with Python*](http://shop.oreilly.com/product/0636920030515.do)  
**Andreas C. Müller & Sarah Guido**  
O'Reilly 2017

Github con el material del libro: [Github](https://github.com/amueller/introduction_to_ml_with_python). 

El libro está accesible *online* desde la [Biblioteca de la Universidad de Sevilla](https://fama.us.es), como recurso electrónico.

Antes que nada, cargamos el módulo `mglearn` (recordar que para que funcione la carga, debemos poner la carpeta `mglearn` en cualquiera de las carpetas que usa python para cargar sus módulos).

In [2]:
import mglearn

## Regresión lineal

#### Apartado 1:

Para ilustrar regresión lineal vamos a usar el conjunto de datos sobre el precio de la vivienda en Boston. Para ello usar la función `load_boston` del módulo `datasets` y explorar brevemente los datos (consultar la descripción). 

### Solución:

#### Apartado 2

El módulo `mglearn`nos proporciona un conjunto de datos **extendido** a partir de los datos originales anteriores sobre el precio de la vivienda en Boston. Las 13 características originales se han extendido a 104 (las características adicionales se han obtenido mediante operaciones sobre las originales). Para cargar estos datos extendidos, simplemente hacer: 

```python
X, y = mglearn.datasets.load_extended_boston()
```

Una vez cargados, partir en entrenamiento y prueba, aplicar regresión lineal (`LinearRegression`) y ver el rendimiento sobre ambos conjuntos de datos.

Consultar en el manual la definición precisa del rendimiento que se calcula en el caso de problemas de regresión, calcularlo directamente usando funciones de numpy y compararlo con el calculado por el metodo `score` de scikit-learn. 


### Solución:

#### Apartado 3

Introducir ahora regularización $L_2$ en el modelo de regresión. Para ello usar la clase `Ridge` que introduce en la función de coste un término de _regularización:_ la suma de los cuadrados de los coeficientes ($\sum_i|w_i|^2$)  penaliza el modelo, dependiendo también de un coeficiente que indica el peso de dicha penalización. En scikit-learn, ese coeficiente es _alpha_. Cuanto mayor el coeficiente, más regularización. Por defecto es 1. 

Probar este modelo `Ridge` con el conjunto de datos anterior, para tres valores de $alpha$: 0.1, 1 (el valor por defecto) y 10. Explicar los resultados de rendimiento obtenidos. 

### Solución:

#### Apartado 4

Los modelos aprendidos guardan sus coeficientes (pesos) en el atributo `coef_`. Mostrar un gráfico en el que se compare la magnitud de los pesos aprendidos por cada uno de los cuatro modelos anteriores. Para ello, completar las interrogantes del código python siguiente:

```python
plt.plot(????????????????????) # coeficientes de ridge alfa=1
plt.plot(????????????????????) # coeficientes de ridge alfa=0.1
plt.plot(????????????????????) # coeficientes de ridge alpha=10
plt.plot(????????????????????) # coeficientes de regresión sin regularización

plt.xlabel("Índice del coeficiente")
plt.ylabel("Magnitud del coeficiente")
xlims = plt.xlim()
plt.hlines(0, xlims[0], xlims[1])
plt.xlim(xlims)
plt.ylim(-25, 25)
plt.legend()
```

Interpretar el gráfico obtenido. 

### Solución:

#### Apartado 5

En regresión _lasso_ (con regularización $L_1$) el termino de regularización es la suma de los valores absolutos de los coeficientes ($\sum_i|w_i|$), penalización que también depende de un coeficiente _alpha_ que indica el peso de dicha penalización. Una de las consecuencias más interesantes de usar esta penalización es que algunos de los coeficientes $w_i$ se anulan. 

La clase `Lasso` de scikit learn aplica regularización $L_1$. Aplicar el modelo a los datos anteriores con tres valores distintos de _alpha_, tratando de encontrar un buen rendimiento. en la predicción. Además, en cada caso contar cuántos pesos quedan sin anular, y discutir ese dato en función de la cantidad de regularización usada. Hacer también un gráfico en el que se compare la magnitud de los coeficientes y comentar los resultados.  

### Solución:

## Clasificación con regresión logística

Un conjunto de datos muy usado en scikit learn para probar el comportamiento de modelos de clasificación es el llamado *Breast cancer Wisconsin dataset*. Se trata de una base de datos sobre tumores en cáncer de mama, con 30 caracteríticas y 569 datos.  

#### Apartado 6

La función `load_breast_cancer` del módulo dataset carga este conjunto de datos. Cargar el conjunto de datos, explorando sus componentes y dividiendo en entrenamiento y prueba.

### Solución:

#### Apartado 7

La clase `LogisticRegression` implementa el clasificador de regresión logística con regularización. En este caso el coeficiente de regularización se denomina $C$ (por defecto 1) y *cuanto mayor es, menos regularización*. El tipo de regularización se indica en el parámetro `penalty` (por defecto $L_2$). 

Realizar un estudio similar a lo realizado en la sección anterior:

* Probar con distintos valores del parámetro de regularización $L_2$, justificando los rendimientos obtenidos. 
* Mostrar gráficamente la magnitud de los pesos aprendidos 
* Entender el resultado devuelto por el método `predict_proba`
* Probar con distintos valores del parámetro de regularización $L_1$, viendo los pesos que se anulan y mostrando gráficamente la magnitud de los mismos. 

### Solución: