# P01 - Regresión

# Predicción y análisis de profit de ventas de bicicletas

* Andre Esteban
* Nicolas Martinez
* Gonzalo Cano

---

## Objetivos

**Objetivos generales:**

El objetivo general de este proyecto es hacer un análisis de los datos de las ventas de una empresa que se dedica a vender bicicletas mediante la aplicación de modelos de regresión y técnicas de regularización, con el fin de identificar qué factores son los más relevantes para las ventas de la empresa y proponer modelos que nos permitan optimizar la toma de decisiones comerciales para la empresa.

**Objetivos Específicos:**

Para poder cumplir el objetivo del proyecto lo que se tendrá que hacer es lo siguiente:

* Analizar el dataset de la empresa, identificando la estructura, que variables tenemos disponibles y la información relevante que aportan las muestras.

* Limpiar y transformar los datos, ajustando las variables necesarias para que puedan usarse adecuadamente en los modelos de regresión.

* Usar y comparar diferentes enfoques de regresión para evaluar el ajuste de los modelos a través de las métricas de desempeño.

* Utilizar métodos de penalización para evaluar el impacto en la predicción y en la significancia de las variables.

* Diseñar un Pipeline que incluya de forma estructurada todos los pasos que se realizaron para hacer el modelo.

* Evaluar los valores estadísticos de los modelos y compararlos para identificar aquel modelo que tenga un mejor balance.

* A partir de los resultados obtenidos concluir sobre la efectividad de los modelos y la relevancia de los factores en las ventas de la empresa.


---
## Marco Téorico

La regresión lineal es una herramienta estadística que predice o estima el valor de una variable, llamada dependiente, en función de una o más variables independientes. Según IBM, busca ajustar una línea recta, o plano, si hay múltiples variables, que minimice la diferencia entre los valores reales y los valores predichos, mediante un método de “mínimos cuadrados”. Con ello genera una fórmula matemática interpretable que explica la relación entre variables. Esta técnica es usada en muchos ámbitos (negocios, ciencias sociales, ambientales) porque permite transformar datos en pronósticos útiles y entender cómo cambian los resultados cuando varían las variables explicativas. (IBM, 2021)

$$ y = b_0 + b_1 x $$

La regresión polinómial es una técnica estadística que extiende la regresión lineal al incluir potencias de la variable independiente x, lo que permite capturar relaciones no lineales con la variable dependiente y. Aunque el modelo describe curvas, sigue siendo lineal en sus parámetros y por ello se considera un caso especial de regresión lineal múltiple. Su objetivo es encontrar la mejor curva de ajuste, generalmente mediante mínimos cuadrados, para explicar fenómenos donde una recta no basta. Además, se aplican pruebas para elegir el grado adecuado del polinomio y se utilizan herramientas como intervalos de confianza, bondad de ajuste y análisis de residuos para validar el modelo. (Conzmr, 2017)

$$ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n $$

La interacción ocurre cuando el efecto de una variable explicativa sobre el resultado depende del nivel de otra variable. En otras palabras, dos o más factores no se suman de forma independiente, sino que se alteran mutuamente. Por ejemplo, el efecto de X sobre Y puede variar si otra variable Z toma distintos valores. En regresión se modela con un término multiplicativo (por ejemplo X*Z) y, si su coeficiente es significativo, eso indica que hay una interacción real entre esos factores. (Camacho, s.f)

La significancia de factores se refiere a la comprobación estadística de si cada variable explicativa tiene un efecto real sobre la variable dependiente. En regresión, esto se hace mediante pruebas t, obteniendo p_values que indican la probabilidad de que ese efecto pueda ser cero por azar. Si el p-value es menor que un nivel de confianza, decimos que el factor es significativo. Esta evaluación ayuda a decidir qué variables quedan en el modelo final. (ChReInvent, s. f.)

La regularización es una técnica para mejorar modelos de regresión evitando que los coeficientes se vuelvan demasiado grandes (lo que puede provocar sobreajuste). 
- Ridge (o regularización L2) agrega un término que penaliza la suma de los cuadrados de los coeficientes. Así los coeficientes grandes se reducen, pero ninguno llega a cero. (IBM, 2023)
- Lasso (o regularización L1) penaliza la suma de los valores absolutos de los coeficientes. Esto puede forzar algunos coeficientes exactamente a cero, lo que equivale a una selección automática de variables. (Amat Rodrigo, 2016)
-  ElasticNet combina ambas penalizaciones (L1 + L2). De esta forma hereda ventajas de Ridge (coeficientes estables frente a correlación) y de Lasso (puede poner coeficientes a cero). Se usa cuando hay muchas variables correlacionadas. (Interactive Chaos, s. f.)

El tema elegido para proyecto se centra en evaluar la relación entre diferentes variables y las ventas de una empresa que se dedica a vender bicicletas mediante modelos de regresión lineal y sus variantes regularizadas (Ridge, Lasso y Elastic Net). El objetivo es identificar qué factores influyen de manera significativa en las ventas y cómo cambia el desempeño del modelo al aplicar distintas técnicas de regularización.

---
## Análisis de dataset

**¿De dónde viene?**

El dataset proviene de la página de internet Kaggle, la cual es una página de internet donde se pueden encontrar muchos datasets para el análisis de datos, este dataset viene de un repositorio que se llama “Company Financials Dataset” creado por Atharva Arya

**¿Qué contiene?**

El dataset contiene datos de ventas y costos simulados de una empresa durante el año 2024, contiene información financiera de ventas de productos incluyendo lo siguiente:

* Segmento de mercado

* País de venta

* Nombre y tipo del producto

* Precio de manufactura y precio de venta

* Unidades vendidas

* Ventas brutas y netas

* Costos de producción

* Utilidades

* Fechas

**¿Qué información dan las muestras?**

Cada fila del dataset es una muestra de transacción de ventas donde se puede ver el comportamiento del producto vendido en un país determinado, segmento y periodo, todo esto nos muestra el nivel de ventas alcanzado, la rentabilidad de cada producto, la relación entre lo vendido, precio, costos y utilidades

**¿Qué se quiere analizar?**

El objetivo es predecir y analizar las ventas de la empresa, entonces se requiere identificar qué factores son los que influyen más en las ventas, evaluar cómo cambian las utilidades según las variaciones en las variables y comparar los diferentes modelos de regresión para ver cuál es el que ofrece la mejor predicción

**¿Qué variables se tienen que transformar para poder usarse en un modelo de regresión?**

Primero se tienen que limpiar las variables numéricas que tienen caracteres especiales para poder convertirlos en valores numéricos y después transformar las variables categóricas, como el segmento de mercado, tipo de producto, país y el nombre del mes, transformarlas en variables dummies para poder hacer la regresión. También se van a tener que escalar o estandarizar los datos para mejorar la comparabilidad de los datos en los modelos.

In [710]:
import pandas as pd

data = pd.read_excel('DataSet_Proyecto.xlsx')
# Quitar espacios extra en los nombres de columnas
data.columns = data.columns.str.strip()
data

Unnamed: 0,Segment,Country,Product,Discount Band,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Date,Month Number,Month Name,Year
0,Government,Canada,Carretera,,1618.5,3,20,32370,0,32370,16185,16185,2014-01-01,1,January,2014
1,Government,Germany,Carretera,,1321.0,3,20,26420,0,26420,13210,13210,2014-01-01,1,January,2014
2,Midmarket,France,Carretera,,2178.0,3,15,32670,0,32670,21780,10890,2014-06-01,6,June,2014
3,Midmarket,Germany,Carretera,,888.0,3,15,13320,0,13320,8880,4440,2014-06-01,6,June,2014
4,Midmarket,Mexico,Carretera,,2470.0,3,15,37050,0,37050,24700,12350,2014-06-01,6,June,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,High,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,2014-03-01,3,March,2014
696,Small Business,Mexico,Amarilla,High,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,2014-10-01,10,October,2014
697,Government,Mexico,Montana,High,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,2014-02-01,2,February,2014
698,Government,Canada,Paseo,High,723.0,10,7,5061,759.15,4301.85,3615,686.85,2014-04-01,4,April,2014


In [711]:
# Quitar columnas irrelevantes para predecir nuestras ventas
data = data.drop(columns=['Discount Band','Date','Month Name'])
data

Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
0,Government,Canada,Carretera,1618.5,3,20,32370,0,32370,16185,16185,1,2014
1,Government,Germany,Carretera,1321.0,3,20,26420,0,26420,13210,13210,1,2014
2,Midmarket,France,Carretera,2178.0,3,15,32670,0,32670,21780,10890,6,2014
3,Midmarket,Germany,Carretera,888.0,3,15,13320,0,13320,8880,4440,6,2014
4,Midmarket,Mexico,Carretera,2470.0,3,15,37050,0,37050,24700,12350,6,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,3,2014
696,Small Business,Mexico,Amarilla,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,10,2014
697,Government,Mexico,Montana,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,2,2014
698,Government,Canada,Paseo,723.0,10,7,5061,759.15,4301.85,3615,686.85,4,2014


In [712]:
# Quitamos las comas y signos de las columnas
cols_a_convertir = ['Units Sold', 'Manufacturing Price', 'Sale Price', 'Gross Sales','Sales','COGS','Profit','Discounts']

# Reemplazamos $ y comas en todas las columnas seleccionadas
data[cols_a_convertir] = data[cols_a_convertir].replace('[\$,]', '', regex=True).astype(float)
data

Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
0,Government,Canada,Carretera,1618.5,3.0,20.0,32370.0,0.00,32370.00,16185.0,16185.00,1,2014
1,Government,Germany,Carretera,1321.0,3.0,20.0,26420.0,0.00,26420.00,13210.0,13210.00,1,2014
2,Midmarket,France,Carretera,2178.0,3.0,15.0,32670.0,0.00,32670.00,21780.0,10890.00,6,2014
3,Midmarket,Germany,Carretera,888.0,3.0,15.0,13320.0,0.00,13320.00,8880.0,4440.00,6,2014
4,Midmarket,Mexico,Carretera,2470.0,3.0,15.0,37050.0,0.00,37050.00,24700.0,12350.00,6,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260.0,300.0,742500.0,111375.00,631125.00,618750.0,12375.00,3,2014
696,Small Business,Mexico,Amarilla,546.0,260.0,300.0,163800.0,24570.00,139230.00,136500.0,2730.00,10,2014
697,Government,Mexico,Montana,1368.0,5.0,7.0,9576.0,1436.40,8139.60,6840.0,1299.60,2,2014
698,Government,Canada,Paseo,723.0,10.0,7.0,5061.0,759.15,4301.85,3615.0,686.85,4,2014


In [713]:
data.describe()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,1608.294286,96.477143,118.428571,182759.4,13150.354671,169609.1,145475.211429,24133.860414,7.9,2013.75
std,867.427859,108.602612,136.775515,254262.3,22962.92876,236726.3,203865.506118,42760.626547,3.377321,0.433322
min,200.0,3.0,7.0,1799.0,0.0,1655.08,918.0,-40617.5,1.0,2013.0
25%,905.0,5.0,12.0,17391.75,800.32,15928.0,7490.0,2805.96,5.75,2013.75
50%,1542.5,10.0,20.0,37980.0,2585.25,35540.2,22506.25,9242.2,9.0,2014.0
75%,2229.125,250.0,300.0,279025.0,15956.3475,261077.5,245607.5,22662.0,10.25,2014.0
max,4492.5,260.0,350.0,1207500.0,149677.5,1159200.0,950625.0,262200.0,12.0,2014.0


In [714]:
# Analizamos si nos conviene convertir la variable de países a una de región
data['Country'].value_counts()

Country
Canada                      140
Germany                     140
France                      140
Mexico                      140
United States of America    140
Name: count, dtype: int64

In [715]:
# Podemos seguir trabajando con países, ya que no hay muchos, no es necesario agruparlos por regiones
# Ahora continuamos con la preparación de nuestros datos, convertimos las variables categóricas Segment, Country, Product a numéricas (dummies)
data = pd.get_dummies(data, columns=['Segment', 'Country', 'Product'], drop_first=True).astype(float)
data.head()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year,...,Segment_Small Business,Country_France,Country_Germany,Country_Mexico,Country_United States of America,Product_ Carretera,Product_ Montana,Product_ Paseo,Product_ VTT,Product_ Velo
0,1618.5,3.0,20.0,32370.0,0.0,32370.0,16185.0,16185.0,1.0,2014.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,1321.0,3.0,20.0,26420.0,0.0,26420.0,13210.0,13210.0,1.0,2014.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,2178.0,3.0,15.0,32670.0,0.0,32670.0,21780.0,10890.0,6.0,2014.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,888.0,3.0,15.0,13320.0,0.0,13320.0,8880.0,4440.0,6.0,2014.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,2470.0,3.0,15.0,37050.0,0.0,37050.0,24700.0,12350.0,6.0,2014.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0


In [716]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 23 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Units Sold                        700 non-null    float64
 1   Manufacturing Price               700 non-null    float64
 2   Sale Price                        700 non-null    float64
 3   Gross Sales                       700 non-null    float64
 4   Discounts                         700 non-null    float64
 5   Sales                             700 non-null    float64
 6   COGS                              700 non-null    float64
 7   Profit                            700 non-null    float64
 8   Month Number                      700 non-null    float64
 9   Year                              700 non-null    float64
 10  Segment_Enterprise                700 non-null    float64
 11  Segment_Government                700 non-null    float64
 12  Segment_

---
## Modelo propuesto
Los 3 modelos distintos para comparar entre ellos serán:

- 1. Lineal Múltiple (relación directa de costos y ventas)
- 2. Polinomial (grado 2)
- 3. Lineal Múltiple usando Precio Efectivo (variale obtenida)

Cada modelo tendrá 4 versiones: sin penalización, Ridge, Lasso, y ElasticNet.

---
### 1. Lineal Múltiple (relación directa de costos y ventas)

### Sin Penalización

In [717]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import statsmodels.api as sm
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

In [718]:
y = data["Sales"]
x = data[["COGS", "Discounts", "Units Sold", "Manufacturing Price"]] 

In [719]:
n = len(data)

In [720]:
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.4, random_state = 137)

#### Escalamiento

In [721]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(x_train)
X_train_scaled = scaler.transform(x_train)
lr = LinearRegression()
lr.fit(X_train_scaled, y_train)

#### Train

In [722]:
y_hat = lr.predict(X_train_scaled)
r2_score(y_train, y_hat)

0.9884871763859922

In [723]:
n = len(X_train_scaled)
unos = np.ones([n,1])
X = np.column_stack([unos,X_train_scaled])
ols = sm.OLS(y_train, X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.988
Model:,OLS,Adj. R-squared:,0.988
Method:,Least Squares,F-statistic:,5903.0
Date:,"Sun, 28 Sep 2025",Prob (F-statistic):,3.5400000000000003e-265
Time:,13:36:34,Log-Likelihood:,-3243.8
No. Observations:,280,AIC:,6498.0
Df Residuals:,275,BIC:,6516.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.777e+05,1568.235,113.343,0.000,1.75e+05,1.81e+05
x1,2.606e+05,2746.076,94.889,0.000,2.55e+05,2.66e+05
x2,-2.51e+04,2690.677,-9.330,0.000,-3.04e+04,-1.98e+04
x3,980.9174,1676.315,0.585,0.559,-2319.123,4280.958
x4,178.3495,1574.536,0.113,0.910,-2921.327,3278.026

0,1,2,3
Omnibus:,20.131,Durbin-Watson:,2.061
Prob(Omnibus):,0.0,Jarque-Bera (JB):,27.713
Skew:,-0.514,Prob(JB):,9.6e-07
Kurtosis:,4.149,Cond. No.,3.3


Los p-values de COGS y Discounts son de 0 por lo que sí influyen en las ventas, COGS alza ventas y descuentos las bajan. Los p-values de Units Sold y Manufacturing Price son grandes por lo que no hay evidencia de que aporten algo extra cuando COGS ya está en el modelo. 

#### Interpretación signos betas

- const: Las ventas cuando las demás variables están en su nivel promedio son de aproximadamente 177,700
- COGS: Si el Cost of Groods Sold sube las ventas incrementan en más de 260,600
- Discounts: Si los descuentos suben las ventas bajan en aproximadamente 25,100
- Units Sold: Cuando las unidades vendidas incrementan las ventas también lo hacen en 980.9174
- Manufacturing Price: Cuando el precio de manufactura incrementa, las ventas lo hacen en 178.3495

#### Test

In [724]:
X_test_scaled = scaler.transform(x_test)
lr = LinearRegression()
lr.fit(X_test_scaled, y_test)

In [725]:
y_hat_test = lr.predict(X_test_scaled)
r2_score(y_test, y_hat_test)

0.9871901733701929

In [726]:
n = len(X_test_scaled)
unos = np.ones([n,1])
X = np.column_stack([unos,X_test_scaled])
ols = sm.OLS(y_test, X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.987
Model:,OLS,Adj. R-squared:,0.987
Method:,Least Squares,F-statistic:,7996.0
Date:,"Sun, 28 Sep 2025",Prob (F-statistic):,0.0
Time:,13:36:34,Log-Likelihood:,-4870.6
No. Observations:,420,AIC:,9751.0
Df Residuals:,415,BIC:,9771.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.752e+05,1306.638,134.068,0.000,1.73e+05,1.78e+05
x1,2.498e+05,2098.769,119.011,0.000,2.46e+05,2.54e+05
x2,-1.838e+04,2016.892,-9.115,0.000,-2.23e+04,-1.44e+04
x3,-1356.0176,1249.710,-1.085,0.279,-3812.568,1100.533
x4,1328.9468,1276.174,1.041,0.298,-1179.625,3837.518

0,1,2,3
Omnibus:,34.864,Durbin-Watson:,1.91
Prob(Omnibus):,0.0,Jarque-Bera (JB):,150.449
Skew:,0.116,Prob(JB):,2.1400000000000002e-33
Kurtosis:,5.923,Cond. No.,2.96


Al igual que el modelo con Train, en el conjunto de Test, COGS y Discounts son claramente significativos (p-values < 0.001) pues COGS empuja ventas hacia arriba y los descuentos las reducen. En cambio, Units Sold y Manufacturing Price no son significativos al tener COGS en el modelo.

#### Interpretación signos Betas

- const: Ventas promedio cuando las demás variables están en su nivel promedio son de aproximadamente 175,200.
- COGS: Si el COGS sube, las ventas aumentan aproximadamente 249,800.
- Discounts: Si los descuentos suben, las ventas bajan aproximadamente 18,400.
- Units Sold: Tiene un efecto pequeño, no vemos cambio claro en ventas (-1356.0176).
- Manufacturing Price: Tiene un efecto pequeño, tampoco hay un cambio claro (1328.9468)

### Ridge

In [727]:
l2 = Ridge(alpha = 0.1)  
l2.fit(x, y)

In [728]:
y_pred = l2.predict(x)

In [729]:
r2_score(y, y_pred)

0.9874531273335674

In [730]:
l2.intercept_

np.float64(2691.4601859490504)

In [731]:
l2.coef_

array([ 1.2315188 , -0.88895857, -0.80363359,  7.71947723])

In [737]:
l2 = Ridge(alpha = 1)  
l2.fit(x, y)
y_pred = l2.predict(x)
r2_score(y, y_pred)

0.9874531273335674

In [738]:
l2.intercept_

np.float64(2691.4602700233227)

In [739]:
l2.coef_

array([ 1.2315188 , -0.88895857, -0.8036336 ,  7.71947639])

In [740]:
l2 = Ridge(alpha = 10)  
l2.fit(x, y)
y_pred = l2.predict(x)
r2_score(y, y_pred)

0.9874531273335674

In [741]:
l2.intercept_

np.float64(2691.461110765231)

In [742]:
l2.coef_

array([ 1.2315188 , -0.88895857, -0.80363364,  7.71946792])

#### Interpretación

Al comparar los modelos de Ridge con distintos valores de alpha, se observa que el desempeño medido con el R2 prácticamente no cambia, lo cual significa que el ajuste del modelo sigue siendo igual de bueno. Lo que sí cambia, aunque de manera muy ligera, son los coeficientes, al aumentar el valor de alpha, los coeficientes se hacen un poco más pequeños y estables, pero sin modificar de forma importante el resultado final. Esto refleja que Ridge introduce un pequeño ajuste para evitar que los coeficientes crezcan demasiado, pero en este caso el efecto es mínimo porque el modelo ya estaba bastante bien ajustado

### Ridge Train

In [743]:
l2 = Ridge(alpha = 0.1)  
l2.fit(X_train_scaled, y_train)

In [744]:
y_pred = l2.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9884866549688349

In [745]:
l2.intercept_

np.float64(177747.69771428572)

In [746]:
l2.coef_

array([ 2.60267435e+05, -2.48556138e+04,  1.01520058e+03,  1.88464176e+02])

In [844]:
l2 = Ridge(alpha = 1)  
l2.fit(X_train_scaled, y_train)

In [750]:
l2.intercept_

np.float64(177747.69771428572)

In [751]:
l2.coef_

array([257561.87060672, -22672.87083967,   1319.04616626,    277.49357921])

In [752]:
l2 = Ridge(alpha = 10)  
l2.fit(X_train_scaled, y_train)
y_pred = l2.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.984726110884884

In [753]:
l2.intercept_

np.float64(177747.69771428572)

In [754]:
l2.coef_

array([234549.35852893,  -4652.18597342,   3959.54073029,   1001.99543288])

#### Interpretación

Con los R2 se puede ver que el valor se mantiene prácticamente igual en los tres casos 0.9884 con alpha = 0.1, 0.9884 con alpha = 1 y 0.9847 con alpha = 10. Esto significa que el cambio en alpha no afecta mucho la capacidad del modelo para explicar las ventas, ya que la explicación de la variabilidad de los datos sigue siendo muy alta. Sin embargo, cuando el alpha sube a 10, el R2 baja un poco, lo que indica que el modelo empieza a perder algo de ajuste en favor de tener coeficientes más pequeños y un modelo más estable.

### Ridge test

In [755]:
l2 = Ridge(alpha = 0.1)
l2.fit(X_test_scaled, y_test)

In [756]:
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871899815353641

In [757]:
l2.intercept_

np.float64(175178.03637198085)

In [758]:
l2.coef_

array([249610.71766933, -18260.96035356,  -1333.54697641,   1334.56429711])

In [760]:
l2 = Ridge(alpha = 1)
l2.fit(X_test_scaled, y_test)
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871713260825816

In [761]:
l2.intercept_

np.float64(175180.61143422438)

In [762]:
l2.coef_

array([248137.45892837, -17165.45499094,  -1133.15470005,   1384.58880036])

In [763]:
l2 = Ridge(alpha = 10)
l2.fit(X_test_scaled, y_test)
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9855956340350267

In [764]:
l2.intercept_

np.float64(175185.7115060192)

In [765]:
l2.coef_

array([234694.66756886,  -7374.03460377,    704.36241025,   1836.96488924])

#### Interpretación

En el modelo Ridge con los datos de prueba, se observa que al usar un alpha pequeño (0.1) los coeficientes son más grandes y el R2 es muy alto (0.9871). Cuando se aumenta el alpha a 1 y luego a 10, los coeficientes se van reduciendo en magnitud, mientras que el R2 apenas baja un poco (de 0.9871 a 0.9859). Esto significa que, aunque el modelo sigue explicando muy bien las ventas, con un mayor alpha los coeficientes quedan más controlados y el riesgo de sobreajuste disminuye

### Lasso

In [855]:
l1 = Lasso(alpha = 0.1)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

0.9874531273335674

In [856]:
l1.intercept_

np.float64(2691.4608302671113)

In [857]:
l1.coef_

array([ 1.2315188 , -0.88895857, -0.8036335 ,  7.71946885])

In [776]:
l1 = Lasso(alpha = 1)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

0.9874531273335658

In [777]:
l1.intercept_

np.float64(2691.466713203292)

In [778]:
l1.coef_

array([ 1.23151881, -0.88895858, -0.80363264,  7.71939255])

In [779]:
l1 = Lasso(alpha = 10)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

0.9874531273334142

In [780]:
l1.intercept_

np.float64(2691.525542546704)

In [781]:
l1.coef_

array([ 1.23151882, -0.88895868, -0.80362403,  7.71862952])

#### Interpretación

En el modelo Lasso, al cambiar el valor de alpha (0.1, 1 y 10) prácticamente no hay un impacto grande en el ajuste del modelo, el R² se mantiene casi igual, 0.987 en todos los casos, y los coeficientes solo tienen variaciones muy pequeñas. Esto pasa porque tu modelo ya está muy bien ajustado y la penalización de Lasso, que normalmente reduce coeficientes hacia cero, apenas tiene efecto

### Lasso Train

In [782]:
l1 = Lasso(alpha = 0.1)
l1.fit(X_train_scaled, y_train)

In [783]:
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9884871763837466

In [784]:
l1.intercept_

np.float64(177747.69771428572)

In [785]:
l1.coef_

array([ 2.60572925e+05, -2.51026947e+04,  9.80834721e+02,  1.78259761e+02])

In [787]:
l1 = Lasso(alpha = 1)
l1.fit(X_train_scaled, y_train)
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.988487176156903

In [788]:
l1.intercept_

np.float64(177747.69771428572)

In [789]:
l1.coef_

array([ 2.60568057e+05, -2.50976495e+04,  9.80100263e+02,  1.77454434e+02])

In [790]:
l1 = Lasso(alpha = 10)
l1.fit(X_train_scaled, y_train)
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9884871539743914

In [791]:
l1.intercept_

np.float64(177747.69771428572)

In [792]:
l1.coef_

array([ 2.60520297e+05, -2.50478991e+04,  9.72635239e+02,  1.69370066e+02])

#### Interpretación

Con un alpha pequeño 0.1, los coeficientes se mantienen más grandes porque el modelo casi no los reduce. A medida que subes a alpha = 1 o 10, el modelo empieza a encoger más los coeficientes, haciéndolos más pequeños en magnitud. Esto significa que el modelo se vuelve más simple porque reduce la importancia de algunas variables. Sin embargo, el R2 se mantiene casi igual (0.988), lo que indica que el ajuste sigue siendo muy bueno y el cambio de alpha no afecta mucho la capacidad de predicción en este caso, pero sí influye en la fuerza con que se penalizan los coeficientes.

### Lasso Test

In [793]:
l1 = Lasso(alpha = 0.1)
l1.fit(X_test_scaled, y_test)

In [794]:
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901733679374

In [795]:
l1.intercept_

np.float64(175177.71845072298)

In [796]:
l1.coef_

array([249775.50741897, -18383.67925253,  -1355.88258514,   1328.86497025])

In [798]:
l1 = Lasso(alpha = 1)
l1.fit(X_test_scaled, y_test)
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901731369351

In [799]:
l1.intercept_

np.float64(175177.6668790574)

In [800]:
l1.coef_

array([249770.85390461, -18379.54340528,  -1354.65113313,   1328.13236101])

In [801]:
l1 = Lasso(alpha = 10)
l1.fit(X_test_scaled, y_test)
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901504223625

In [802]:
l1.intercept_

np.float64(175177.15360333084)

In [803]:
l1.coef_

array([249724.95991578, -18338.625528  ,  -1342.43072656,   1320.78165814])

#### Interpretación

En este caso con Lasso Test, al variar el valor de alpha (0.1, 1 y 10) el modelo prácticamente mantiene el mismo nivel de ajuste (el R2 se queda en 0.987). Lo que cambia un poco son los coeficientes, a medida que sube el alpha, los valores de los betas se van reduciendo ligeramente en magnitud, acercándose más a cero.

### ElasticNet

In [815]:
le = ElasticNet(alpha=0.1)
le.fit(x, y)

In [816]:
y_pred = le.predict(x)

In [817]:
r2_score(y, y_pred)

0.987453127333567

In [818]:
le.intercept_

np.float64(2691.463772977004)

In [819]:
le.coef_

array([ 1.23151881, -0.88895858, -0.8036337 ,  7.71944017])

In [820]:
le = ElasticNet(alpha=1)
le.fit(x, y)
y_pred = le.predict(x)
r2_score(y, y_pred)

0.9874531273335385

In [821]:
le.intercept_

np.float64(2691.496138847957)

In [822]:
le.coef_

array([ 1.23151882, -0.88895864, -0.80363462,  7.71910576])

In [823]:
le = ElasticNet(alpha=10)
le.fit(x, y)
y_pred = le.predict(x)
r2_score(y, y_pred)

0.9874531273306767

In [824]:
le.intercept_

np.float64(2691.8196535649477)

In [825]:
le.coef_

array([ 1.23151897, -0.88895925, -0.80364383,  7.71576305])

#### Interpretación

En el modelo de Elastic Net con diferentes valores de alpha (0.1, 1 y 10), se observa que el R2 se mantiene prácticamente igual (0.987), lo que significa que el ajuste del modelo no cambia mucho en términos de capacidad predictiva. Sin embargo, al aumentar el valor de alpha, los coeficientes se van reduciendo ligeramente en magnitud, lo cual indica que Elastic Net está aplicando más regularización, combinando las ideas de Ridge (reducir coeficientes grandes) y Lasso (forzar coeficientes hacia cero)

### ElasticNet Train

In [826]:
le = ElasticNet(alpha = 0.1)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9819218628037095

In [827]:
le.intercept_

np.float64(177747.69771428572)

In [828]:
le.coef_

array([226187.76623471,   1610.29900415,   4944.35461443,   1247.91236182])

In [829]:
le = ElasticNet(alpha = 1)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.8801636918017546

In [830]:
le.intercept_

np.float64(177747.69771428572)

In [831]:
le.coef_

array([128510.02651953,  51826.37309965,  16326.87967525,   2720.594907  ])

In [832]:
le = ElasticNet(alpha = 10)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.42079696327792715

In [833]:
le.intercept_

np.float64(177747.69771428572)

In [834]:
le.coef_

array([35987.42300894, 25747.36578807, 10649.07508629,   714.14108253])

#### Interpretación

Cuando probamos Elastic Net en el conjunto de entrenamiento, vimos que el valor de alpha cambia mucho el resultado. Con alpha = 0.1, el modelo tuvo un R2 = 0.9819, lo que significa que explica casi el 98% de la variación de las ventas, y los coeficientes quedaron en valores moderados. Al aumentar a alpha = 1, el R2 bajó a 0.8801, y los coeficientes crecieron un poco más. Finalmente, con alpha = 10, el R2 cayó fuertemente a 0.4208, lo que significa que el modelo ya casi no explica bien los datos, y además los coeficientes se inflaron mucho.

### ElasticNet Test

In [835]:
le = Lasso(alpha = 0.1)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901733679374

In [836]:
le.intercept_

np.float64(175177.71845072298)

In [837]:
le.coef_

array([249775.50741897, -18383.67925253,  -1355.88258514,   1328.86497025])

In [838]:
le = Lasso(alpha = 1)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901731369351

In [839]:
le.intercept_

np.float64(175177.6668790574)

In [840]:
le.coef_

array([249770.85390461, -18379.54340528,  -1354.65113313,   1328.13236101])

In [841]:
le = Lasso(alpha = 10)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9871901504223625

In [842]:
le.intercept_

np.float64(175177.15360333084)

In [843]:
le.coef_

array([249724.95991578, -18338.625528  ,  -1342.43072656,   1320.78165814])

#### Interpretación

En el modelo ElasticNet Test, se probaron diferentes valores de alpha (0.1, 1 y 10) y los resultados muestran que el desempeño del modelo, medido con R2, se mantiene prácticamente igual en todos los casos. Esto quiere decir que el ajuste del modelo a los datos de prueba no cambia mucho al variar alpha. Lo que si cambiaron fueron los betas, por ejemplo, con un alpha pequeño los valores de los parámetros son un poco más grandes en magnitud, mientras que al aumentar alpha estos coeficientes se reducen ligeramente y se hacen más pequeños. Aumentar alpha hace que los coeficientes se reduzcan ligeramente en magnitud, pero sin afectar demasiado la capacidad predictiva del modelo.

---
### Bibliografia APA

- IBM. (2021). What Is Linear Regression? Think. https://www.ibm.com/think/topics/linear-regression
- Conzmr. (2017). Regresión Polinomial. Recuperado de https://conzmr.wordpress.com/2017/04/04/regresion-polinomial/
- Camacho, C. (s. f.). Interacción en regresión [PDF]. Universidad de Sevilla. Recuperado de https://personal.us.es/vararey/interaccion1.pdf
- ChReInvent. (s. f.). Valor-p en regresión lineal. Recuperado de https://www.chreinvent.com/recursos/valor-p-en-regresi%C3%B3n-lineal
- IBM. (2023). ¿Qué es regression de ridge? Think. https://www.ibm.com/mx-es/think/topics/ridge-regression
- Amat Rodrigo, J. (2016). Selección de predictores, regularización ridge, lasso, elasticnet y reducción de dimensionalidad. Cienciadedatos.net. Recuperado de https://cienciadedatos.net/documentos/31_seleccion_de_predictores_subset_selection_ridge_lasso_dimension_reduction
- Interactive Chaos. (s. f.). Elastic Net. Recuperado de https://interactivechaos.com/es/manual/tutorial-de-machine-learning/elastic-net