# **Regularización**

## ¿Qué es la regularización?

### La regularización se aplica básicamente para evitar la sobreoptimización de modelos. **Para aplicar estos métodos hay que estandarizar SI O SI.**

#### **1. Técnica Ridge**

## **Antes de aplicar la técnica Ridge haremos una regresión lineal de nuestros datos CON ESTANDARIZACIÓN INCLUÍDA.** Esto quiere decir que cogeremos X_train e y_train de la regresión lineal previa en la que ya los hemos estandarizado. Nada de crear nuevos X_train o y_train

**Ridge sirve para reducir todos los coeficientes de una regresión lineal** sin que ninguno de ellos llegue a cero. Esto **es útil para reducir mucho la sobreoptimización (overfitting) sin aumentar la infraoptimización (underfitting).** 

Con este método, el coeficiente (la importancia) de nuestras variables **nunca llegará a cero,** lo que quiere decir que **ninguna variable será eliminada de la predicción.** Tendrán un coeficiente más alto (serán más importantes para predecir) o tendrán un coeficiente más bajo (serán menos importantes para predecir) pero su importancia nunca será 0.

**1. Importamos el objeto Ridge**

In [None]:
from sklearn.linear_model import RidgeCV

**2. Asigna el objeto Ridge a una variable donde alpha es una lista en escala logaritmica**

In [None]:
ridgeR = RidgeCV(alpha=np.logspace(-10, 2, 200))

**3. Entrena el objeto Ridge**

In [None]:
ridgeR.fit(x_train, y_train)

**4. Mira a ver como han quedado los coeficientes para la mejor alpha de todas las que le hemos pasado**

In [None]:
print("Coeficientes:", ridgeR.coef_)
print("Interceptor:", ridgeR.intercept_)

 - También puedes ver que alpha ha seleccionado como la mejor de todas las que le hemos pasado

In [None]:
print(f"Mejor valor de alpha encontrado: {ridgeR.alpha_}")

**5. Si te sirve puedes graficarlos para verlos mejor**

In [None]:
fig, ax = plt.subplots(figsize =(20, 10)) 
  
color =['tab:gray', 'tab:blue', 'tab:orange',  
'tab:green', 'tab:red', 'tab:purple', 'tab:brown',  
'tab:pink', 'tab:gray', 'tab:olive', 'tab:cyan',  
'tab:orange', 'tab:green', 'tab:blue', 'tab:olive'] 
  
ax.bar(ridge_coefficient["Columns"],  
ridge_coefficient['Coefficient Estimate'],  
color = color) 
  
ax.spines['bottom'].set_position('zero') 
ax.set_ylim([-18,4])
  
plt.style.use('ggplot') 
plt.show() 

**6. Si te gustan los coeficientes asignados (o aunque no te gusten), ya puedes sacar predicciones**

In [None]:
y_pred = ridgeR.predict(x_test)

**7. Sacale el error medio cuadratico para ver si esto es basura o vale para algo.** Un error medio cuadrático de, por ejemplo, 10, indica que las predicciones se alejan 10 unidades de media respecto al real. Esto no está bien ni mal. Tienes que saber tú en que unidades trabajas y si esto es mucho o poco, el programa no va a hacer todo por tí.

In [None]:
mean_squared_error_ridge = np.mean((y_pred - y_test)**2) 

**Calculamos $r ^ 2$**

$r^2$ nos indica que tan bien se ajusta nuestro modelo a la recta de regresión. Tendremos un $r^2$ y otro $r^2$ para el test.
    
    Cercano a 1 --> Buena mierda. Aunque a partir de 0.9 puede ser un overfitting de cuidao
    
    Cercano a 0 --> Not good sheit
    
   <img src=https://miro.medium.com/max/1472/0*8rFYfZJfJZpW2cEV.png alt="drawing" style="width:350px;"/>

In [None]:
lm.score(X_train_scal, y_train) * 100 # Entrenamiento
lm.score(X_test_scal, y_test) * 100  # Test