## Sobreajuste 

* ¿Qué es sobreajustado?
     - Construir un modelo que coincida con los datos de entrenamiento "muy de cerca",que los memorize.

* ¿Cómo ocurre el sobreajuste?
    - Evaluaando un modelo probándolo con los mismos datos que se usaron para entrenarlo.
    - Creando un modelo que es "demasiado complejo"

* ¿Cuál es el impacto del sobreajuste?
    - El modelo funcionará bien en los datos de entrenamiento, pero no se generalizará a datos no conocidos.
    - El modelo tendrá un sesgo bajo, pero una gran varianza.



## Sobreajuste en  modelos lineales

* ¿Cuáles son las características generales de los modelos lineales?

   * Baja complejidad de modelo
   * Alto sesgo, baja varianza
   * No tiende al sobreajuste

Sin embargo, el sobreajuste con modelos lineales ocurre si permite que tengan alta varianza. Aquí hay algunas causas comunes:

* Características irrelevantes

Los modelos lineales pueden sobreajustarse si incluye "características irrelevantes", es decir, características que no están relacionadas con la respuesta. ¿Por qué? 

Porque el modelo aprenderá un coeficiente para cada característica  independientemente de si esa característica tiene la señal o el ruido.

Esto es especialmente un problema cuando `p` (número de características) está cerca de `n` (número de observaciones), porque ese modelo naturalmente tendrá alta varianza.

* Características correlacionadas

Los modelos lineales pueden sobreajustarse si las características incluidas están altamente correlacionadas entre sí. ¿Por qué?

De la documentación de scikit-learn:

    "... las estimaciones de coeficientes para mínimos cuadrados  dependen de la independencia de los términos del modelo. Cuando los términos están correlacionados y las columnas de la matriz  X tienen una dependencia lineal aproximada, la matriz se vuelve casi singular y como resultado, la estimación de mínimos cuadrados se vuelve altamente sensible a errores aleatorios en la respuesta observada, produciendo una gran varianza ".

* Coeficientes grandes

Los modelos lineales pueden sobreajustarse si los coeficientes (después de la estandarización de características) son demasiado grandes. ¿Por qué?

Debido a que cuanto mayor es el valor absoluto del coeficiente, más poder tiene para cambiar la respuesta predicha, lo que resulta en una mayor varianza.

## Regularización de modelos lineales

* La regularización es un método para "restringir" o "regularizar" el tamaño de los coeficientes, "encogiéndolos" hacia cero.
* Reduce la varianza del modelo y, por lo tanto, minimiza el sobreajuste.
* Si el modelo es demasiado complejo, tiende a reducir la varianza más de lo que aumenta el sesgo, lo que da como resultado un modelo que es más probable que generalice nuevos datos.

Para un modelo de regresión lineal normal, estimamos los coeficientes utilizando el criterio de mínimos cuadrados, que minimiza la suma de cuadrados residuales (RSS). 

Para un modelo de regresión lineal regularizado, minimizamos la suma de RSS y un "término de penalización" que penaliza el tamaño del coeficiente.

La regresión de Ridge (o "regularización  L2") minimiza:

$$RSS +\alpha\sum_{j =1}^{p}w_j^2$$

La regresión Lasso (o "regularización  L1") minimiza:

$$RSS +\alpha\sum_{j =1}^{p}\vert w_j\vert$$


* $p$ es el número de características.
* $w_j$ es el coeficiente del modelo.
* $\alpha$ es el parámetro de ajuste.
    - Un pequeño $\alpha $ no impone ninguna penalización en el tamaño del coeficiente, y es equivalente a un modelo de regresión lineal normal.
    - Aumentar el $\alpha $ penaliza los coeficientes y por lo tanto, los reduce.
    
    
Un alfa más grande da como resultado una mayor regularización:

   - La regresión Lasso reduce los coeficientes hasta cero, eliminándolos del modelo.
   - La regresión Ridge reduce los coeficientes hacia cero, pero raramente llegan a cero.
     
     
### Como utilizar la regularización

* ¿Deberían estandarizarse las características?

    - Sí, porque de lo contrario, las características se penalizarían simplemente por su escala.
    - Además, la estandarización evita penalizar el intercepto, lo que no tendría sentido intuitivo.

* ¿Cómo se debe elegir entre regresión Lasso y regresión Ridge?

     - Se prefiere la regresión Lasso si creemos que muchas características son irrelevantes o si preferimos un modelo disperso.
     - Si el rendimiento del modelo es tu principal preocupación, lo mejor es probar ambos.
     - La regresión de ElasticNet es una combinación de la regresión Lasso y regresión Ridge.

## Visualización de la regularización

A continuación se muestra una visualización de lo que sucede cuando se aplica la regularización. La idea general es que se está restringiendo los valores permitidos de los coeficientes a cierta "región". Dentro de esa región, se requiere encontrar los coeficientes que resultan en el mejor modelo.

![](K1.png)

En este diagrama:

* Estamos ajustando un modelo de regresión lineal con dos características, $x_1$ y $x_2$.
* $\hat\beta $ representa el conjunto de dos coeficientes, $\beta_1$ y $\beta_2 $, que minimizan el RSS para el modelo no regularizado.
* La regularización restringe las posiciones permitidas de $\hat\beta $ a la región de restricción verde:
    * Para Lasso, esta región es un diamante porque restringe el valor absoluto de los coeficientes.
    * Para cresta, esta región es un círculo porque restringe el cuadrado de los coeficientes.
   
* El tamaño de la región verde viene determinado por $\alpha $, con un menor $\alpha $ que da como resultado una región más grande:
    * Cuando $\alpha $ es cero, la región verde es infinitamente grande y, por lo tanto, los tamaños de los coeficientes no están limitados.
    * Cuando $\alpha $ aumenta, la región  verde se hace más y más pequeña.

En este caso, $\hat\beta $ no está dentro de la región verde de restricción. Por lo tanto, debemos mover $\hat\beta $ hasta que interseque la región verde, mientras aumentamos el RSS lo menos posible.

Del libro de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani: [An Introduction to
Statistical Learning](http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf):

Las elipses que se centran en $\hat\beta$ representan regiones de RSS constante. En otras palabras, todos los puntos en una elipse dada comparten un valor común del RSS. A medida que las elipsis se expanden lejos de las estimaciones del coeficiente de mínimos cuadrados, el RSS aumenta. Las ecuaciones (6.8) y (6.9) indican que las estimaciones del coeficiente de regresión de Lasso y Ridge están dadas por el primer punto en el que una elipse entra en contacto con la región de restricción.

Como la regresión Ridge tiene una restricción circular sin puntos agudos, esta intersección generalmente no ocurrirá en un eje, por lo que las estimaciones del coeficiente de regresión Ridge serán exclusivamente distintas de cero. Sin embargo, la restricción Lasso tiene esquinas en cada uno de los ejes, por lo que la elipse a menudo intersectará la región de restricción en un eje. 
    
Cuando esto ocurre, uno de los coeficientes será igual a cero. En dimensiones más altas, muchas de las estimaciones de coeficientes pueden ser iguales a cero simultáneamente. En la anterior la intersección se produce en $\beta_1 = 0 $, por lo que el modelo resultante solo incluirá  $\beta_2$.

## Regularizacion con scikit-learn


* Ejemplo: Predecir la tasa de delitos violentos para una comunidad dada la información socioeconómica y de aplicación de la ley, utilizando los datos: [communities.data](http://archive.ics.uci.edu/ml/machine-learning-databases/communities/communities.data).

In [1]:
# Leemos los datos
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
datos_crimen = pd.read_csv('communities.data', header=None, na_values=['?'])
datos_crimen.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,118,119,120,121,122,123,124,125,126,127
0,8,,,Lakewoodcity,1,0.19,0.33,0.02,0.9,0.12,...,0.12,0.26,0.2,0.06,0.04,0.9,0.5,0.32,0.14,0.2
1,53,,,Tukwilacity,1,0.0,0.16,0.12,0.74,0.45,...,0.02,0.12,0.45,,,,,0.0,,0.67
2,24,,,Aberdeentown,1,0.0,0.42,0.49,0.56,0.17,...,0.01,0.21,0.02,,,,,0.0,,0.43
3,34,5.0,81440.0,Willingborotownship,1,0.04,0.77,1.0,0.08,0.12,...,0.02,0.39,0.28,,,,,0.0,,0.12
4,42,95.0,6096.0,Bethlehemtownship,1,0.01,0.55,0.02,0.95,0.09,...,0.04,0.09,0.02,,,,,0.0,,0.03


In [2]:
#Examinamos la variable respuesta
datos_crimen[127].describe()

count    1994.000000
mean        0.237979
std         0.232985
min         0.000000
25%         0.070000
50%         0.150000
75%         0.330000
max         1.000000
Name: 127, dtype: float64

In [3]:
# Removemos la variables categoricas
datos_crimen.drop([0, 1, 2, 3, 4], axis=1, inplace=True)

In [4]:
# Removemos las filas con valores perdidos
datos_crimen.dropna(inplace=True)

In [5]:
# Forma  de los datos
datos_crimen.shape

(319, 123)

In [6]:
# Definimos X e y
X = datos_crimen.drop(127, axis=1)
y = datos_crimen[127]

In [7]:
# Dividimos los datos en conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba= train_test_split(X, y, random_state=1)

### Regresión lineal

In [8]:
# Construimos el modelo de regresión lineal
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_entrenamiento, y_entrenamiento)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [9]:
# Examinamos los coeficientes
print(linreg.coef_)

[-3.66188167e+00  6.98124465e-01 -2.61955467e-01 -2.85270027e-01
 -1.64740837e-01  2.46972333e-01 -1.09290051e+00 -5.96857796e-01
  1.11200239e+00 -7.21968931e-01  4.27346598e+00 -2.28040268e-01
  8.04875769e-01 -2.57934732e-01 -2.63458023e-01 -1.04616958e+00
  6.07784197e-01  7.73552561e-01  5.96468029e-02  6.90215922e-01
  2.16759430e-02 -4.87802949e-01 -5.18858404e-01  1.39478815e-01
 -1.24417942e-01  3.15003821e-01 -1.52633736e-01 -9.65003927e-01
  1.17142163e+00 -3.08546690e-02 -9.29085548e-01  1.24654586e-01
  1.98104506e-01  7.30804821e-01 -1.77337294e-01  8.32927588e-02
  3.46045601e-01  5.01837338e-01  1.57062958e+00 -4.13478807e-01
  1.39350802e+00 -3.49428114e+00  7.09577818e-01 -8.32141352e-01
 -1.39984927e+00  1.02482840e+00  2.13855006e-01 -6.18937325e-01
  5.28954490e-01  7.98294890e-02  5.93688560e-02 -1.68582667e-01
  7.31264051e-01 -1.39635208e+00  2.38507704e-01  5.50621439e-01
 -5.61447867e-01  6.18989764e-01  2.55517024e+00 -3.71769599e+00
  7.09191935e-01  3.82041

In [10]:
# Hacemos predicciones
y_pred = linreg.predict(X_prueba)

In [11]:
# Calculamos RMSE
from sklearn import metrics
import numpy as np
print (np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.2338136764948703


### Regresión Ridge

* Documentación de Ridge:[sklearn.linear_model.Ridge](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html).
* Parámetros
    * alpha: debe ser positivo, creciente para obtener más regularización.
    * normalize: escala las características (sin usar StandardScaler).

In [12]:
# alpha=0 es equivalente a una regresion lineal
from sklearn.linear_model import Ridge
ridgereg = Ridge(alpha=0, normalize=True)
ridgereg.fit(X_entrenamiento, y_entrenamiento)
y_pred = ridgereg.predict(X_prueba)
print(np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.2338136764947959


In [13]:
# Probamos alpha=0.1
ridgereg = Ridge(alpha=0.1, normalize=True)
ridgereg.fit(X_entrenamiento, y_entrenamiento)
y_pred = ridgereg.predict(X_prueba)
print(np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.16427906804924075


In [14]:
# Examinamos los coeficientes
print(ridgereg.coef_)

[-4.00298418e-03  3.51647445e-02  6.03535935e-02 -7.68532502e-02
 -1.76099849e-02  4.53791433e-02  8.81586468e-03 -2.88885814e-02
 -1.92143587e-02  3.36122201e-02  5.71590736e-04 -4.85438136e-02
  5.55725157e-02 -1.15934270e-01 -1.11880845e-01 -3.32742094e-01
 -1.12302031e-02  9.63833243e-02 -8.92057732e-02  8.42691702e-02
 -1.67246717e-02  7.42520308e-03 -1.21294025e-01 -6.70155789e-02
 -1.74250249e-03  1.69446833e-01  3.18217654e-02 -1.00209834e-01
  3.97535644e-02 -1.19173054e-01 -1.04445267e-01 -5.14946676e-03
  1.10071013e-01 -3.22958955e-02 -1.40601627e-01  7.72658029e-02
  9.07962536e-02 -3.78878862e-03  4.61941793e-02  6.30299731e-02
 -3.09236932e-02  1.02883578e-02  9.70425568e-02 -1.28936944e-01
 -1.38268907e-01 -6.37169778e-02 -8.80160419e-02 -4.01991014e-02
  8.11064596e-02 -6.30663975e-02  1.29756859e-01 -6.25210624e-02
  1.60531213e-02 -1.39061824e-01  6.39822353e-02  4.87118744e-02
 -7.68217532e-03 -1.53523412e-03  1.73028280e-02 -1.37258659e-03
 -1.97381922e-02  4.47492

### RidgeCV

Regresión Ridge con validación cruzada incorporada del parámetro `alpha`.
  
  * Documentación de RidgeCV: [sklearn.linear_model.RidgeCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html).
  * alphas: matriz de valores `alpha` (elegidos automáticamente) para probar.
  

In [15]:
rango_alpha = 10.**np.arange(-2, 3)
rango_alpha

array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])

In [16]:
# seleccionamos el mejor alpha con  RidgeCV
from sklearn.linear_model import RidgeCV
ridgeregcv = RidgeCV(alphas=rango_alpha, normalize=True, scoring='neg_mean_squared_error')
ridgeregcv.fit(X_entrenamiento, y_entrenamiento)
ridgeregcv.alpha_

1.0

In [17]:
# El método de predict utiliza el mejor valor alfa
y_pred = ridgeregcv.predict(X_prueba)
print(np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.16312978234269246


### Regresión Lasso

* Documentación de Lasso:[sklearn.linear_model.Lasso](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html).
* Parámetros
    * alpha: debe ser positivo, creciente para obtener más regularización.
    * normalize: escala las características (sin usar StandardScaler).

In [18]:
# Probamos alpha=0.001 y examinamos los coeficientes
from sklearn.linear_model import Lasso
lassoreg = Lasso(alpha=0.001, normalize=True)
lassoreg.fit(X_entrenamiento, y_entrenamiento)
print(lassoreg.coef_)


[ 0.          0.          0.00891952 -0.27423369  0.          0.
  0.         -0.         -0.          0.          0.          0.
 -0.         -0.         -0.         -0.19414627  0.          0.
 -0.         -0.         -0.         -0.         -0.         -0.
 -0.          0.          0.          0.          0.04335664 -0.
  0.         -0.          0.03491474 -0.         -0.06685424  0.
  0.         -0.          0.10575313  0.          0.          0.00890807
  0.         -0.1378172  -0.30954312 -0.         -0.         -0.
 -0.          0.          0.          0.          0.         -0.
  0.          0.          0.          0.          0.          0.
 -0.          0.          0.          0.         -0.          0.
 -0.         -0.          0.          0.05257892 -0.          0.
 -0.         -0.          0.          0.          0.          0.
  0.         -0.         -0.         -0.         -0.         -0.
 -0.         -0.          0.         -0.         -0.          0.
  0.13861081  0. 

In [19]:
# Probamos alpha=0.01 y examinamos los coeficientes
from sklearn.linear_model import Lasso
lassoreg = Lasso(alpha=0.001, normalize=True)
lassoreg.fit(X_entrenamiento, y_entrenamiento)
print(lassoreg.coef_)

[ 0.          0.          0.00891952 -0.27423369  0.          0.
  0.         -0.         -0.          0.          0.          0.
 -0.         -0.         -0.         -0.19414627  0.          0.
 -0.         -0.         -0.         -0.         -0.         -0.
 -0.          0.          0.          0.          0.04335664 -0.
  0.         -0.          0.03491474 -0.         -0.06685424  0.
  0.         -0.          0.10575313  0.          0.          0.00890807
  0.         -0.1378172  -0.30954312 -0.         -0.         -0.
 -0.          0.          0.          0.          0.         -0.
  0.          0.          0.          0.          0.          0.
 -0.          0.          0.          0.         -0.          0.
 -0.         -0.          0.          0.05257892 -0.          0.
 -0.         -0.          0.          0.          0.          0.
  0.         -0.         -0.         -0.         -0.         -0.
 -0.         -0.          0.         -0.         -0.          0.
  0.13861081  0. 

In [20]:
# calculamos RMSE (para alpha=0.01)
y_pred = lassoreg.predict(X_prueba)
print(np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.16003902404387876


### LassoCV

Regresión Lasso con validación cruzada incorporada del parámetro `alpha`.

   * Documentación de LassoCV: [sklearn.linear_model.LassoCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LassoCV.html).
   * n_alphas: número de valores `alpha` (elegidos automáticamente) para probar.
 

In [21]:
# seleccionamos el mejor alpha con LassoCV
from sklearn.linear_model import LassoCV
lassoregcv = LassoCV(n_alphas=100, normalize=True, random_state=1)
lassoregcv.fit(X_entrenamiento, y_entrenamiento)
lassoregcv.alpha_

0.0015161594598125873

In [22]:
# Examinamos los coeficientes
print (lassoregcv.coef_)

[ 0.          0.          0.         -0.28113506  0.          0.
  0.          0.          0.          0.          0.          0.
 -0.         -0.         -0.         -0.15481092  0.          0.
 -0.         -0.         -0.         -0.         -0.         -0.
 -0.          0.         -0.          0.          0.06451487  0.
  0.         -0.          0.         -0.         -0.01920421  0.
  0.         -0.          0.03386202  0.          0.          0.08901243
  0.         -0.08759757 -0.36986917 -0.         -0.         -0.
 -0.          0.          0.          0.          0.         -0.
  0.          0.          0.          0.          0.          0.
 -0.          0.          0.          0.         -0.          0.
  0.         -0.          0.          0.01740599 -0.          0.
 -0.         -0.          0.          0.          0.          0.
  0.         -0.         -0.         -0.         -0.         -0.
 -0.         -0.          0.         -0.         -0.          0.
  0.13471036  0. 

In [23]:
# El método de predict utiliza el mejor valor alpha
y_pred = lassoregcv.predict(X_prueba)
print(np.sqrt(metrics.mean_squared_error(y_prueba, y_pred)))

0.16020955801385134


## Clasificacion regularizada en scikit-learn

Ejemplo: Predecimos el origen del vino utilizando análisis químicos, utilizando el conjunto de datos [wine.data](http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data).

In [24]:
# Leemos los datos
wine_datos = pd.read_csv('wine.data', header=None)
wine_datos.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [25]:
# Examinamos la variable respuesta
wine_datos[0].value_counts()

2    71
1    59
3    48
Name: 0, dtype: int64

In [26]:
# Definimos X e y
X = wine_datos.drop(0, axis=1)
y = wine_datos[0]

In [27]:
# Dividimos los datos en conjuntos de entrenamiento y pruebas
from sklearn.model_selection import train_test_split
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, random_state=1)

In [28]:
# Construimos un modelo de regresión logistica no regularizada
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(C=1e9)
logreg.fit(X_entrenamiento, y_entrenamiento)


LogisticRegression(C=1000000000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [29]:
# Examinamos los coeficientes
print (logreg.coef_)

[[-4.35379897e+00  4.94194975e+00  1.55950755e+01 -2.89427735e+00
   1.17114336e-01 -5.47917164e+00  1.06853125e+01  3.07613430e+00
  -1.17645188e+01 -2.47195005e+00 -1.79676921e+00  7.33195616e+00
   7.12114250e-02]
 [ 4.89341197e+00 -5.01604946e+00 -1.35320878e+01  1.42295423e+00
  -2.16021851e-02  2.88374858e+00  3.83156074e+00  2.01034299e+00
   5.06799881e+00 -6.74534304e+00  3.13553248e+00 -6.57041146e+00
  -4.38874862e-02]
 [-9.70207520e-01  2.08269662e+00  9.41526274e-01  2.38024236e-01
  -2.49596512e-03 -9.80981464e-01 -6.54889431e+00 -4.83302708e-01
  -2.65888441e+00  2.57458634e+00 -1.30417047e+00 -2.34300199e+00
   9.48521538e-03]]


In [30]:
# Generamos probabilidades predichas
y_pred_prob = logreg.predict_proba(X_prueba)
print (y_pred_prob)

[[1.50971841e-10 9.87015798e-09 9.99999990e-01]
 [1.63143584e-17 1.00000000e+00 4.32261192e-10]
 [9.99999906e-01 4.15338921e-10 9.37653501e-08]
 [5.36715916e-09 9.99999871e-01 1.24116464e-07]
 [9.99730855e-01 1.09837026e-18 2.69144834e-04]
 [3.99183542e-15 7.16896209e-06 9.99992831e-01]
 [9.99771966e-01 7.18657100e-05 1.56168423e-04]
 [9.99999720e-01 5.72680165e-21 2.80076725e-07]
 [4.31923122e-18 2.41595574e-11 1.00000000e+00]
 [7.51185987e-17 9.99997008e-01 2.99222559e-06]
 [9.99967664e-01 7.05228153e-11 3.23359700e-05]
 [9.57542568e-01 4.24572033e-02 2.28811210e-07]
 [1.02930696e-20 1.00000000e+00 1.12562132e-10]
 [9.99999998e-01 7.12181208e-12 1.72599671e-09]
 [2.70137864e-09 9.99999997e-01 3.47692139e-10]
 [1.74324923e-15 9.99999959e-01 4.13233441e-08]
 [6.63458456e-30 4.94384777e-01 5.05615223e-01]
 [9.99842229e-01 1.57744353e-04 2.64241826e-08]
 [1.28310266e-14 9.99999930e-01 7.00569025e-08]
 [9.99778349e-01 9.10028885e-19 2.21650519e-04]
 [9.99999731e-01 2.09710723e-13 2.692367

In [31]:
# Calculamos log loss
print (metrics.log_loss(y_prueba, y_pred_prob))

0.3129097759404873


### Regresión logística (regularizada)

* Documentación:[sklearn.linear_model.LogisticRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).
* Paramétros:
    * C: debe ser positivo, disminuir para obtener más regularización.
    * penalty: l1 (lasso) o l2 (ridge).

In [32]:
# Estandarizamos X_entrenamiento y X_prueba
from sklearn.preprocessing import StandardScaler
escalador = StandardScaler()
escalador.fit(X_entrenamiento)
X_entrenamiento_escalado = escalador.transform(X_entrenamiento)
X_prueba_escalado = escalador.transform(X_prueba)

In [33]:
# Probamos C=0.1 con penalidad L1 
logreg = LogisticRegression(C=0.1, penalty='l1')
logreg.fit(X_entrenamiento_escalado, y_entrenamiento)
print(logreg.coef_)

[[ 0.21048422  0.          0.          0.          0.          0.
   0.4871221   0.          0.          0.          0.          0.15337983
   1.47738043]
 [-0.65710356 -0.05626142 -0.11392987  0.          0.          0.
   0.          0.          0.         -0.73831077  0.24391052  0.
  -0.63405367]
 [ 0.          0.          0.          0.          0.          0.
  -0.84166379  0.          0.          0.61528471 -0.49029539 -0.30483384
   0.        ]]


In [34]:
# Generamos probabilidades predichas y calculamos el log loss
y_pred_prob = logreg.predict_proba(X_prueba_escalado)
print(metrics.log_loss(y_prueba, y_pred_prob))

0.3622568220367314


In [35]:
# Probamos C=0.1 con penalidad L2
logreg = LogisticRegression(C=0.1, penalty='l2')
logreg.fit(X_entrenamiento_escalado, y_entrenamiento)
print(logreg.coef_)

[[ 0.59163934  0.06886667  0.33592964 -0.49616684  0.111539    0.21570086
   0.40524509 -0.15526139 -0.02534651  0.05399014  0.14877346  0.42327938
   0.89815007]
 [-0.73545676 -0.32942948 -0.47995296  0.294866   -0.1500246   0.04264373
   0.14500586  0.07250763  0.17409795 -0.70726652  0.4128986   0.09997212
  -0.81284365]
 [ 0.20136567  0.30989025  0.15977925  0.18867218  0.04204443 -0.27108109
  -0.55886639  0.07486943 -0.17471153  0.68266464 -0.52385748 -0.49566967
  -0.02565631]]


In [36]:
# Generamos probabilidades predichas y calculamos el log loss
y_pred_prob = logreg.predict_proba(X_prueba_escalado)
print (metrics.log_loss(y_prueba, y_pred_prob))

0.2445883245394477


### Pipeline y GridSearchCV


In [37]:
# pipeline de StandardScaler ay LogisticRegression
from sklearn.pipeline import make_pipeline
pipe = make_pipeline(StandardScaler(), LogisticRegression())

In [38]:
# grid search para mejores combinaciones C y penalty
from sklearn.model_selection import GridSearchCV
C_range = 10.**np.arange(-2, 3)
penalty_options = ['l1', 'l2']
param_grid = dict(logisticregression__C=C_range, logisticregression__penalty=penalty_options)
grid = GridSearchCV(pipe, param_grid, cv=10, scoring='neg_log_loss')
grid.fit(X, y)

GridSearchCV(cv=10, error_score='raise',
       estimator=Pipeline(memory=None,
     steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('logisticregression', LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))]),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'logisticregression__C': array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02]), 'logisticregression__penalty': ['l1', 'l2']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='neg_log_loss', verbose=0)

In [39]:
# Imprimimos las puntuaciones log loss
grid.cv_results_

{'mean_fit_time': array([0.00253839, 0.00225835, 0.0022366 , 0.00227954, 0.00247707,
        0.00239084, 0.00290232, 0.0024874 , 0.00283737, 0.00263629]),
 'std_fit_time': array([0.00143669, 0.00030521, 0.00025845, 0.00027694, 0.00025478,
        0.00027788, 0.00030715, 0.00024366, 0.00032974, 0.00036669]),
 'mean_score_time': array([0.00096025, 0.00082953, 0.00075326, 0.00073869, 0.00079234,
        0.00074708, 0.00078332, 0.00070109, 0.00067472, 0.00065835]),
 'std_score_time': array([2.97227755e-04, 1.05725027e-04, 8.65992075e-05, 5.60759332e-05,
        1.54123442e-04, 6.63177681e-05, 9.81477092e-05, 1.06496175e-04,
        1.27633640e-04, 7.24167970e-05]),
 'param_logisticregression__C': masked_array(data=[0.01, 0.01, 0.1, 0.1, 1.0, 1.0, 10.0, 10.0, 100.0,
                    100.0],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value='?',
             dtype=object),
 'param_logisticregression__penalty':

In [40]:
# Examinamos el mejor modelo
print (grid.best_score_)
print (grid.best_params_)

-0.058045485199439396
{'logisticregression__C': 10.0, 'logisticregression__penalty': 'l1'}


### Comparación de modelos lineales regularizados con modelos lineales no regularizados

* Ventajas de los modelos lineales regularizados:

    - Mejor desempeño.
    - La regularización L1 realiza la selección automática de características.
    - Útil para problemas de gran dimensión ($p> n$).

* Desventajas de los modelos lineales regularizados:

    - El ajuste es obligatorio
    - Se recomienda escalar características
    - Menos interpretable (debido al escalado de características)