# **Regresión Ridge**
---
Simulación del modelo de regresión Ridge

**Importación de librerias necesarias.**

- ````numpy```` y ```pandas``` para manipulación de datos.

- ```Ridge``` de ```sklearn.linear_model``` para aplicar regresión Ridge.

- ```StandardScaler``` para escalar las variables (muy importante en regularización).

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

In [None]:
# Variables independientes
x1 = [0.56, -1.23, 2.78, -0.45, 1.91, 0.09, -2.10, 1.44, -0.87, 0.32]
x2 = [-1.45, 0.89, -0.32, 2.11, -0.76, 1.54, 0.67, -1.99, 2.30, -0.15]
x3 = [2.34, -0.67, 1.90, -1.12, 0.45, -2.01, 1.76, -0.98, 0.23, -1.65]

# Variable dependiente
y = [1.2, -3.4, 0.8, -2.1, 4.5, -0.6, 3.7, -1.9, 2.5, -4.0]

# Convertimos a DataFrame para facilitar su manipulación
X = pd.DataFrame({'x1': x1, 'x2': x2, 'x3': x3})
y = np.array(y)

## **Escalar las variables independientes**
---
La regularización depende de la magnitud de los coeficientes, por lo tanto es obligatorio escalar las variables para que estén en la misma unidad.

**Supón que tienes:**

$x_1$ en milímetros (valores entre $0$ y $1000$)

$x_2$ en metros (valores entre $0$ y $1$)

Aunque ambas variables sean igual de relevantes, el modelo penalizará más fuertemente a la variable con coeficiente más grande, que probablemente sea la de menor escala. Esto introduce un sesgo artificial en la regularización.

**¿Qué hace el escalado?**

El escalado (por ejemplo, con StandardScaler) transforma cada variable para que:

- Tenga media cero.
- Tenga desviación estándar uno.

Esto garantiza que todas las variables estén en la misma unidad estadística, y que la penalización sobre los coeficientes sea justa y comparable.

In [None]:
normalizar = StandardScaler()
X_norma = normalizar.fit_transform(X)

In [None]:
print(X_norma)

[[ 0.22187363 -1.24773261  1.56581096]
 [-1.03893207  0.4360588  -0.47008147]
 [ 1.78555444 -0.43461966  1.26820542]
 [-0.4895307   1.31393295 -0.77445077]
 [ 1.17276061 -0.75123001  0.28745989]
 [-0.10917591  0.90377864 -1.37642561]
 [-1.6517259   0.27775363  1.17351275]
 [ 0.84171107 -1.63629985 -0.6797581 ]
 [-0.78536221  1.45065106  0.13865713]
 [ 0.05282705 -0.31229294 -1.13293017]]


In [None]:
# Creamos el modelo Ridge con parámetro de regularización alpha

modelo_ridge = Ridge(alpha=1.0)  # Se puede ajustar alpha según el grado de penalización deseado

# Ajustamos el modelo
modelo_ridge.fit(X_norma, y)

## **Resultado esperado**
---
- Los coeficientes estarán regularizados, es decir, más pequeños en magnitud que los de una regresión OLS.

- El modelo será más estable frente a colinealidad.

- Puedes ajustar alpha para observar cómo cambia la penalización.

In [None]:
# Coeficientes estimados
print("Coeficientes Ridge:", modelo_ridge.coef_)

# Intercepto
print("Intercepto:", modelo_ridge.intercept_)

# Calculo de y estimada
y_pred = modelo_ridge.predict(X_norma)

# Evaluación del modelo
from sklearn.metrics import mean_squared_error, r2_score
print("Error cuadrático medio (MSE):", mean_squared_error(y, y_pred))
print("Coeficiente de determinación (R²):", r2_score(y, y_pred))

Coeficientes Ridge: [0.27150957 0.59644331 1.84591585]
Intercepto: 0.06999999999999998
Error cuadrático medio (MSE): 3.984391605078282
Coeficiente de determinación (R²): 0.4902327752871276


In [None]:
modelo = LinearRegression()  # Se puede ajustar alpha según el grado de penalización deseado

# Ajustamos el modelo
modelo.fit(X_norma, y)

print(modelo.coef_)
print(modelo.intercept_)

[0.39851462 0.80927758 2.08213885]
0.06999999999999998


In [None]:
# Predicción de y en función de un nuevo punto (x1,x2,x3)
x1=0.6
x2=-1.5
x3=1.2
nuevo_X = pd.DataFrame({'x1': [x1], 'x2': [x2], 'x3': [x3]})
nuevo_X_scaled = normalizar.transform(nuevo_X)
prediccion = modelo_ridge.predict(nuevo_X_scaled)

# Resultados obtenidos
print("Coeficientes Ridge:", modelo_ridge.coef_)
print("Intercepto:", modelo_ridge.intercept_)
print("Predicción para x1=0.6, x2=-1.5, x3=1.2:", prediccion[0])

Coeficientes Ridge: [0.27150957 0.59644331 1.84591585]
Intercepto: 0.06999999999999998
Predicción para x1=0.6, x2=-1.5, x3=1.2: 0.8392565382538367


# **Regresión lineal múltiple con MCO**



In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression

# Leemos los datos desde archivo CSV
df = pd.read_csv('datos_regre.csv')

# Separamos las variables independientes y dependiente
X = df[['x1', 'x2', 'x3']]
y = df['y'].values

# Normalización de datos
normalizar = StandardScaler()
X_norma = normalizar.fit_transform(X)

# Ajustamos el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_norma, y)

# Iprimimimos resultados
print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)

Coeficientes: [0.39851462 0.80927758 2.08213885]
Intercepto: 0.06999999999999998


In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

x1 = [0.56, -1.23, 2.78, -0.45, 1.91, 0.09, -2.10, 1.44, -0.87, 0.32]
x2 = [-1.45, 0.89, -0.32, 2.11, -0.76, 1.54, 0.67, -1.99, 2.30, -0.15]
x3 = [2.34, -0.67, 1.90, -1.12, 0.45, -2.01, 1.76, -0.98, 0.23, -1.65]
y  = [1.2, -3.4, 0.8, -2.1, 4.5, -0.6, 3.7, -1.9, 2.5, -4.0]

X = pd.DataFrame({'x1': x1, 'x2': x2, 'x3': x3})
y = np.array(y)

modelo = LinearRegression()
modelo.fit(X, y)

print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)

Coeficientes: [0.28069805 0.58233104 1.40830921]
Intercepto: -0.19936076710715045


# **Ejercicio de regresión**
---
Siga todo el procedimiento estudiado para analizar las técnicas de regresión con el siguiente conjunto de datos:

```crim```: ratio de criminalidad per cápita de cada ciudad.

```zn```: Proporción de zonas residenciales con edificaciones de más de 25.000 pies cuadrados.

```indus```: proporción de zona industrializada.

```chas```: Si hay río en la ciudad (= 1 si hay río; 0 no hay).

```nox```: Concentración de óxidos de nitrógeno (partes per 10 millón).

```rm```: promedio de habitaciones por vivienda.

```age```: Proporción de viviendas ocupadas por el propietario construidas antes de 1940.

```dis```: Media ponderada de la distancias a cinco centros de empleo de Boston.

```rad```: Índice de accesibilidad a las autopistas radiales.

```tax```: Tasa de impuesto a la propiedad en unidades de 10,000 dólares.

```ptratio```: ratio de alumnos/profesor por ciudad.

```black```: 1000(Bk - 0.63)^2 donde Bk es la proporción de gente de color por ciudad.

```lstat```: porcentaje de población en condición de pobreza.

```medv```: Valor mediano de las casas ocupadas por el dueño en unidades de 1000 dólares.