## Regresión logística y la regularización L1

La regularización L1 (también llamada desviaciones mínimas absolutas) es una poderosa herramienta en la ciencia de datos. Mostremos el efecto del parámetro de regularización C en los coeficientes y la precisión del modelo.

In [1]:
# Librerias
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [2]:
# Cargando datos
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Reescribimos la variable donde la categoria no es 2
X = X[y != 2]
y = y[y != 2]

In [3]:
# Vista de caracteristicas
X[0:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [4]:
# Vista de la data objetivo
y


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [5]:
# Dividimos los datos: 30% de estos son del conjunto de prueba
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, test_size=0.3, random_state=0)

Debido a que la penalización de regularización está compuesta por la suma del valor absoluto de los coeficientes, necesitamos escalar los datos para que los coeficientes estén todos en la misma escala.

In [6]:
# Creamos un objeto escalador
sc = StandardScaler()

# Fijamos el escalador a los datos de entrenamiento y transformamos
X_entrenamiento_std = sc.fit_transform(X_entrenamiento)

# Aplicamos el escalador a los datos de prueba
X_prueba_std = sc.transform(X_prueba)

Ejecutamos la regresión logística con una penalización L1.
La utilidad de L1 es que puede llevar los coeficientes de característica a 0, creando un método para la selección de características. En el siguiente código ejecutamos una regresión logística con una penalización L1 cuatro veces, cada vez disminuyendo el valor de C. 

Debemos esperar que C disminuya, para que más coeficientes se conviertan en 0.


In [7]:
C = [10, 1, .1, .001]

for c in C:
    clf = LogisticRegression(penalty='l1', C=c)
    clf.fit(X_entrenamiento, y_entrenamiento)
    print('C:', c)
    print('Coeficiente para cada  caracteristica:', clf.coef_)
    print('Precision de entrenamiento:', clf.score(X_entrenamiento, y_entrenamiento))
    print('Precision de prueba:', clf.score(X_prueba, y_prueba))
    print('')


C: 10
Coeficiente para cada  caracteristica: [[-0.01669188 -3.8502164   4.36910299  0.        ]]
Precision de entrenamiento: 1.0
Precision de prueba: 1.0

C: 1
Coeficiente para cada  caracteristica: [[ 0.         -2.28845282  2.57677378  0.        ]]
Precision de entrenamiento: 1.0
Precision de prueba: 1.0

C: 0.1
Coeficiente para cada  caracteristica: [[ 0.         -0.82312853  0.97172196  0.        ]]
Precision de entrenamiento: 1.0
Precision de prueba: 1.0

C: 0.001
Coeficiente para cada  caracteristica: [[0. 0. 0. 0.]]
Precision de entrenamiento: 0.5
Precision de prueba: 0.5



Observa que a medida que C disminuye los coeficientes del modelo se vuelven más pequeños (por ejemplo, de 4.36276075 cuando C = 10 a 0.0.97175097 cuando C = 0.1), hasta que en C = 0.001 todos los coeficientes son cero. Este es el efecto de la penalización de regularización cada vez más prominente.