## LassoLars 

Una técnica de regresión que combina Lasso (regresión L1) con un enfoque específico de selección de variables llamado Least Angle Regression (LARS). Este enfoque es muy eficiente en términos computacionales y especialmente útil cuando se tiene un número elevado de características y se espera que solo unas pocas sean relevantes para el modelo.

### ¿Qué es LassoLars?

Lasso es una técnica de regresión que utiliza regularización L1, lo que promueve la esparsidad en los coeficientes del modelo. En otras palabras, intenta reducir algunos de los coeficientes a cero, eliminando de forma efectiva las características irrelevantes.

LARS, por su parte, es un algoritmo que sigue una estrategia de avance gradual para seleccionar las características más relevantes. Se basa en una idea similar a la regresión paso a paso o forward selection, pero de manera más eficiente.

Cuando combinamos Lasso con LARS, se obtiene una versión eficiente de Lasso que utiliza el algoritmo LARS para encontrar el conjunto de características más relevante.

### Características:

Selección de características: LassoLars realiza una selección automática de características, lo que ayuda a identificar las más significativas.
Regularización L1: Al igual que el Lasso, promueve la esparsidad y reduce el riesgo de sobreajuste.
Eficiencia: LARS es especialmente eficiente cuando el número de características es mucho mayor que el número de muestras.

Fórmula de la función de coste para Lasso:

$$
 \text{min} \left( \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 \right) 
$$


Donde:
- ${y}$ es el vector de valores observados.
- ${X}$ es la matriz de características.
- ${\beta}$ es el vector de coeficientes.
- ${\lambda}$ es el parámetro de regularización que controla la cantidad de penalización aplicada a los coeficientes.

In [2]:
import plotly.graph_objects as go
from sklearn import datasets
from sklearn.linear_model import LassoLars
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Load the diabetes dataset
diabetes_x,diabetes_y = datasets.load_diabetes(return_X_y=True)
# Split the data into training/testing sets
x_train, x_test, y_train, y_test = train_test_split(diabetes_x, diabetes_y, test_size=20, shuffle=False)
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

(422, 10)
(20, 10)
(422,)
(20,)


In [7]:
# crear modelo de regresion con el conjunto de entrenamiento
regression = LassoLars(alpha=1.0)
regression.fit(x_train,y_train)
regression

In [8]:
# Predecir el conjunto de testeo, solo toma los valores x para predecir los valores de y_test
y_pred = regression.predict(x_test)
print(f"Mean squared error: {mean_squared_error(y_test, y_pred):.2f}")
print(f"""Max {y_test.max()}|Min {y_test.min()}|Mean {y_test.mean()}\nMax {y_pred.max()}|Min {y_pred.min()}|Mean {y_pred.mean()}""")
print(regression.coef_)
print(f"Coeficiente de determinación (R^2): {regression.score(x_test, y_test):.2f}")

Mean squared error: 3037.23
Max 310.0|Min 48.0|Mean 126.2
Max 206.03581991679656|Min 107.3576052858412|Mean 148.43919890750513
[  0.           0.         357.61208063  11.57633572   0.
   0.           0.           0.         305.61848222   0.        ]
Coeficiente de determinación (R^2): 0.37


In [9]:
fig = go.Figure([
    go.Scatter(x=x_train[:,[2]].squeeze(), y=y_train, name='Train', mode='markers'),
    go.Scatter(x=x_test[:,[2]].squeeze(), y=y_test, name='Test', mode='markers'
                ,marker=dict(size=8)),
    go.Scatter(x=x_test[:,[2]].squeeze(), y=y_pred, name='Prediction', mode='markers',
                marker=dict(size=9))
])
fig.update_layout(title='Diabetes dataset', xaxis_title='X', yaxis_title='Y', template='plotly_dark')
fig.show()