# P01 - Regresión

# Predicción y análisis de profit de ventas de bicicletas

* Andre Esteban
* Nicolas Martinez
* Gonzalo Cano

---

## Objetivos

**Objetivos generales:**

El objetivo general de este proyecto es hacer un análisis de los datos de las ventas de una empresa que se dedica a vender bicicletas mediante la aplicación de modelos de regresión y técnicas de regularización, con el fin de identificar qué factores son los más relevantes para las ventas de la empresa y proponer modelos que nos permitan optimizar la toma de decisiones comerciales para la empresa.

**Objetivos Específicos:**

Para poder cumplir el objetivo del proyecto lo que se tendrá que hacer es lo siguiente:

* Analizar el dataset de la empresa, identificando la estructura, que variables tenemos disponibles y la información relevante que aportan las muestras.

* Limpiar y transformar los datos, ajustando las variables necesarias para que puedan usarse adecuadamente en los modelos de regresión.

* Usar y comparar diferentes enfoques de regresión para evaluar el ajuste de los modelos a través de las métricas de desempeño.

* Utilizar métodos de penalización para evaluar el impacto en la predicción y en la significancia de las variables.

* Diseñar un Pipeline que incluya de forma estructurada todos los pasos que se realizaron para hacer el modelo.

* Evaluar los valores estadísticos de los modelos y compararlos para identificar aquel modelo que tenga un mejor balance.

* A partir de los resultados obtenidos concluir sobre la efectividad de los modelos y la relevancia de los factores en las ventas de la empresa.


---
## Marco Téorico

La regresión lineal es una herramienta estadística que predice o estima el valor de una variable, llamada dependiente, en función de una o más variables independientes. Según IBM, busca ajustar una línea recta, o plano, si hay múltiples variables, que minimice la diferencia entre los valores reales y los valores predichos, mediante un método de “mínimos cuadrados”. Con ello genera una fórmula matemática interpretable que explica la relación entre variables. Esta técnica es usada en muchos ámbitos (negocios, ciencias sociales, ambientales) porque permite transformar datos en pronósticos útiles y entender cómo cambian los resultados cuando varían las variables explicativas. (IBM, 2021)

$$ y = b_0 + b_1 x $$

La regresión polinómial es una técnica estadística que extiende la regresión lineal al incluir potencias de la variable independiente x, lo que permite capturar relaciones no lineales con la variable dependiente y. Aunque el modelo describe curvas, sigue siendo lineal en sus parámetros y por ello se considera un caso especial de regresión lineal múltiple. Su objetivo es encontrar la mejor curva de ajuste, generalmente mediante mínimos cuadrados, para explicar fenómenos donde una recta no basta. Además, se aplican pruebas para elegir el grado adecuado del polinomio y se utilizan herramientas como intervalos de confianza, bondad de ajuste y análisis de residuos para validar el modelo. (Conzmr, 2017)

$$ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + \cdots + \beta_n x^n $$

La interacción ocurre cuando el efecto de una variable explicativa sobre el resultado depende del nivel de otra variable. En otras palabras, dos o más factores no se suman de forma independiente, sino que se alteran mutuamente. Por ejemplo, el efecto de X sobre Y puede variar si otra variable Z toma distintos valores. En regresión se modela con un término multiplicativo (por ejemplo X*Z) y, si su coeficiente es significativo, eso indica que hay una interacción real entre esos factores. (Camacho, s.f)

La significancia de factores se refiere a la comprobación estadística de si cada variable explicativa tiene un efecto real sobre la variable dependiente. En regresión, esto se hace mediante pruebas t, obteniendo p_values que indican la probabilidad de que ese efecto pueda ser cero por azar. Si el p-value es menor que un nivel de confianza, decimos que el factor es significativo. Esta evaluación ayuda a decidir qué variables quedan en el modelo final. (ChReInvent, s. f.)

La regularización es una técnica para mejorar modelos de regresión evitando que los coeficientes se vuelvan demasiado grandes (lo que puede provocar sobreajuste). 
- Ridge (o regularización L2) agrega un término que penaliza la suma de los cuadrados de los coeficientes. Así los coeficientes grandes se reducen, pero ninguno llega a cero. (IBM, 2023)
- Lasso (o regularización L1) penaliza la suma de los valores absolutos de los coeficientes. Esto puede forzar algunos coeficientes exactamente a cero, lo que equivale a una selección automática de variables. (Amat Rodrigo, 2016)
-  ElasticNet combina ambas penalizaciones (L1 + L2). De esta forma hereda ventajas de Ridge (coeficientes estables frente a correlación) y de Lasso (puede poner coeficientes a cero). Se usa cuando hay muchas variables correlacionadas. (Interactive Chaos, s. f.)

El tema elegido para proyecto se centra en evaluar la relación entre diferentes variables y las ventas de una empresa que se dedica a vender bicicletas mediante modelos de regresión lineal y sus variantes regularizadas (Ridge, Lasso y Elastic Net). El objetivo es identificar qué factores influyen de manera significativa en las ventas y cómo cambia el desempeño del modelo al aplicar distintas técnicas de regularización.

---
## Análisis de dataset

**¿De dónde viene?**

El dataset proviene de la página de internet Kaggle, la cual es una página de internet donde se pueden encontrar muchos datasets para el análisis de datos, este dataset viene de un repositorio que se llama “Company Financials Dataset” creado por Atharva Arya

**¿Qué contiene?**

El dataset contiene datos de ventas y costos simulados de una empresa durante el año 2024, contiene información financiera de ventas de productos incluyendo lo siguiente:

* Segmento de mercado

* País de venta

* Nombre y tipo del producto

* Precio de manufactura y precio de venta

* Unidades vendidas

* Ventas brutas y netas

* Costos de producción

* Utilidades

* Fechas

**¿Qué información dan las muestras?**

Cada fila del dataset es una muestra de transacción de ventas donde se puede ver el comportamiento del producto vendido en un país determinado, segmento y periodo, todo esto nos muestra el nivel de ventas alcanzado, la rentabilidad de cada producto, la relación entre lo vendido, precio, costos y utilidades

**¿Qué se quiere analizar?**

El objetivo es predecir y analizar lautilidd (Profit) de la empresa, entonces se requiere identificar qué factores son los que influyen más en las ventas, evaluar cómo cambian las utilidades según las variaciones en las variables y comparar los diferentes modelos de regresión para ver cuál es el que ofrece la mejor predicción

**¿Qué variables se tienen que transformar para poder usarse en un modelo de regresión?**

Primero se tienen que limpiar las variables numéricas que tienen caracteres especiales para poder convertirlos en valores numéricos y después transformar las variables categóricas, como el segmento de mercado, tipo de producto, país y el nombre del mes, transformarlas en variables dummies para poder hacer la regresión. También se van a tener que escalar o estandarizar los datos para mejorar la comparabilidad de los datos en los modelos.

---
## Pipeline
### Dataset

In [135]:
import pandas as pd

data = pd.read_excel('DataSet_Proyecto.xlsx')
# Quitar espacios extra en los nombres de columnas
data.columns = data.columns.str.strip()
data

Unnamed: 0,Segment,Country,Product,Discount Band,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Date,Month Number,Month Name,Year
0,Government,Canada,Carretera,,1618.5,3,20,32370,0,32370,16185,16185,2014-01-01,1,January,2014
1,Government,Germany,Carretera,,1321.0,3,20,26420,0,26420,13210,13210,2014-01-01,1,January,2014
2,Midmarket,France,Carretera,,2178.0,3,15,32670,0,32670,21780,10890,2014-06-01,6,June,2014
3,Midmarket,Germany,Carretera,,888.0,3,15,13320,0,13320,8880,4440,2014-06-01,6,June,2014
4,Midmarket,Mexico,Carretera,,2470.0,3,15,37050,0,37050,24700,12350,2014-06-01,6,June,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,High,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,2014-03-01,3,March,2014
696,Small Business,Mexico,Amarilla,High,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,2014-10-01,10,October,2014
697,Government,Mexico,Montana,High,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,2014-02-01,2,February,2014
698,Government,Canada,Paseo,High,723.0,10,7,5061,759.15,4301.85,3615,686.85,2014-04-01,4,April,2014


### Análisis Exploratorio de Datos (EDA)

In [136]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Segment              700 non-null    object        
 1   Country              700 non-null    object        
 2   Product              700 non-null    object        
 3   Discount Band        700 non-null    object        
 4   Units Sold           700 non-null    float64       
 5   Manufacturing Price  700 non-null    int64         
 6   Sale Price           700 non-null    int64         
 7   Gross Sales          700 non-null    object        
 8   Discounts            700 non-null    object        
 9   Sales                700 non-null    object        
 10  COGS                 700 non-null    object        
 11  Profit               700 non-null    object        
 12  Date                 700 non-null    datetime64[ns]
 13  Month Number         700 non-null  

In [137]:
data.describe()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Date,Month Number,Year
count,700.0,700.0,700.0,700,700.0,700.0
mean,1608.294286,96.477143,118.428571,2014-04-28 21:36:00,7.9,2013.75
min,200.0,3.0,7.0,2013-09-01 00:00:00,1.0,2013.0
25%,905.0,5.0,12.0,2013-12-24 06:00:00,5.75,2013.75
50%,1542.5,10.0,20.0,2014-05-16 12:00:00,9.0,2014.0
75%,2229.125,250.0,300.0,2014-09-08 12:00:00,10.25,2014.0
max,4492.5,260.0,350.0,2014-12-01 00:00:00,12.0,2014.0
std,867.427859,108.602612,136.775515,,3.377321,0.433322


In [138]:
data.isnull().sum()

Segment                0
Country                0
Product                0
Discount Band          0
Units Sold             0
Manufacturing Price    0
Sale Price             0
Gross Sales            0
Discounts              0
Sales                  0
COGS                   0
Profit                 0
Date                   0
Month Number           0
Month Name             0
Year                   0
dtype: int64

In [139]:
data.duplicated().sum()

0

## Feature Engineering

In [140]:
# Quitar columnas irrelevantes para predecir nuestras utilidades
data = data.drop(columns=['Discount Band','Date','Month Name'])
data

Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
0,Government,Canada,Carretera,1618.5,3,20,32370,0,32370,16185,16185,1,2014
1,Government,Germany,Carretera,1321.0,3,20,26420,0,26420,13210,13210,1,2014
2,Midmarket,France,Carretera,2178.0,3,15,32670,0,32670,21780,10890,6,2014
3,Midmarket,Germany,Carretera,888.0,3,15,13320,0,13320,8880,4440,6,2014
4,Midmarket,Mexico,Carretera,2470.0,3,15,37050,0,37050,24700,12350,6,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260,300,"$7,42,500.00","$1,11,375.00","$6,31,125.00","$6,18,750.00",12375,3,2014
696,Small Business,Mexico,Amarilla,546.0,260,300,"$1,63,800.00",24570,"$1,39,230.00","$1,36,500.00",2730,10,2014
697,Government,Mexico,Montana,1368.0,5,7,9576,1436.4,8139.6,6840,1299.6,2,2014
698,Government,Canada,Paseo,723.0,10,7,5061,759.15,4301.85,3615,686.85,4,2014


In [141]:
# Quitamos las comas y signos de las columnas
cols_a_convertir = ['Units Sold', 'Manufacturing Price', 'Sale Price', 'Gross Sales','Sales','COGS','Profit','Discounts']

# Reemplazamos $ y comas en todas las columnas seleccionadas
data[cols_a_convertir] = data[cols_a_convertir].replace('[\$,]', '', regex=True).astype(float)
data

  data[cols_a_convertir] = data[cols_a_convertir].replace('[\$,]', '', regex=True).astype(float)


Unnamed: 0,Segment,Country,Product,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
0,Government,Canada,Carretera,1618.5,3.0,20.0,32370.0,0.00,32370.00,16185.0,16185.00,1,2014
1,Government,Germany,Carretera,1321.0,3.0,20.0,26420.0,0.00,26420.00,13210.0,13210.00,1,2014
2,Midmarket,France,Carretera,2178.0,3.0,15.0,32670.0,0.00,32670.00,21780.0,10890.00,6,2014
3,Midmarket,Germany,Carretera,888.0,3.0,15.0,13320.0,0.00,13320.00,8880.0,4440.00,6,2014
4,Midmarket,Mexico,Carretera,2470.0,3.0,15.0,37050.0,0.00,37050.00,24700.0,12350.00,6,2014
...,...,...,...,...,...,...,...,...,...,...,...,...,...
695,Small Business,France,Amarilla,2475.0,260.0,300.0,742500.0,111375.00,631125.00,618750.0,12375.00,3,2014
696,Small Business,Mexico,Amarilla,546.0,260.0,300.0,163800.0,24570.00,139230.00,136500.0,2730.00,10,2014
697,Government,Mexico,Montana,1368.0,5.0,7.0,9576.0,1436.40,8139.60,6840.0,1299.60,2,2014
698,Government,Canada,Paseo,723.0,10.0,7.0,5061.0,759.15,4301.85,3615.0,686.85,4,2014


In [142]:
data.describe()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,1608.294286,96.477143,118.428571,182759.4,13150.354671,169609.1,145475.211429,24133.860414,7.9,2013.75
std,867.427859,108.602612,136.775515,254262.3,22962.92876,236726.3,203865.506118,42760.626547,3.377321,0.433322
min,200.0,3.0,7.0,1799.0,0.0,1655.08,918.0,-40617.5,1.0,2013.0
25%,905.0,5.0,12.0,17391.75,800.32,15928.0,7490.0,2805.96,5.75,2013.75
50%,1542.5,10.0,20.0,37980.0,2585.25,35540.2,22506.25,9242.2,9.0,2014.0
75%,2229.125,250.0,300.0,279025.0,15956.3475,261077.5,245607.5,22662.0,10.25,2014.0
max,4492.5,260.0,350.0,1207500.0,149677.5,1159200.0,950625.0,262200.0,12.0,2014.0


In [143]:
# Analizamos si nos conviene convertir la variable de países a una de región
data['Country'].value_counts()

Country
Canada                      140
Germany                     140
France                      140
Mexico                      140
United States of America    140
Name: count, dtype: int64

In [144]:
# Podemos seguir trabajando con países, ya que no hay muchos, no es necesario agruparlos por regiones
# Ahora continuamos con la preparación de nuestros datos, convertimos las variables categóricas Segment, Country, Product a numéricas (dummies)
data = pd.get_dummies(data, columns=['Segment', 'Country', 'Product'], drop_first=True).astype(float)
data.head()

Unnamed: 0,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Month Number,Year,...,Segment_Small Business,Country_France,Country_Germany,Country_Mexico,Country_United States of America,Product_ Carretera,Product_ Montana,Product_ Paseo,Product_ VTT,Product_ Velo
0,1618.5,3.0,20.0,32370.0,0.0,32370.0,16185.0,16185.0,1.0,2014.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,1321.0,3.0,20.0,26420.0,0.0,26420.0,13210.0,13210.0,1.0,2014.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,2178.0,3.0,15.0,32670.0,0.0,32670.0,21780.0,10890.0,6.0,2014.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,888.0,3.0,15.0,13320.0,0.0,13320.0,8880.0,4440.0,6.0,2014.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,2470.0,3.0,15.0,37050.0,0.0,37050.0,24700.0,12350.0,6.0,2014.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0


In [145]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 23 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Units Sold                        700 non-null    float64
 1   Manufacturing Price               700 non-null    float64
 2   Sale Price                        700 non-null    float64
 3   Gross Sales                       700 non-null    float64
 4   Discounts                         700 non-null    float64
 5   Sales                             700 non-null    float64
 6   COGS                              700 non-null    float64
 7   Profit                            700 non-null    float64
 8   Month Number                      700 non-null    float64
 9   Year                              700 non-null    float64
 10  Segment_Enterprise                700 non-null    float64
 11  Segment_Government                700 non-null    float64
 12  Segment_

---
## Modelo propuesto
Los 3 modelos distintos para comparar entre ellos serán:

- 1. Lineal Múltiple (relación directa de costos y ventas)
- 2. Polinomial (grado 2)
- 3. Lineal Múltiple usando Precio Efectivo (variale obtenida)

Cada modelo tendrá 4 versiones: sin penalización, Ridge, Lasso, y ElasticNet.

---
### 1. Lineal Múltiple (relación directa de costos y ventas)

### Sin Penalización

In [146]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import statsmodels.api as sm
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

## Creación del modelo (Seleccionar "x" y "y")

In [147]:
y = data["Profit"]
x = data.drop(columns=["Profit"])

In [148]:
n = len(data)

## Cross Validation (Train-Test split)

In [149]:
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.4, random_state = 137)

#### Escalamiento

In [150]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(x_train)
X_train_scaled = scaler.transform(x_train)
lr = LinearRegression()
lr.fit(X_train_scaled, y_train)

#### Train

In [151]:
y_hat = lr.predict(X_train_scaled)
r2_score(y_train, y_hat)

1.0

## Selección del Modelo (Regresión Lineal)

In [152]:
n = len(X_train_scaled)
unos = np.ones([n,1])
X = np.column_stack([unos,X_train_scaled])
ols = sm.OLS(y_train, X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Profit,R-squared:,1.0
Model:,OLS,Adj. R-squared:,1.0
Method:,Least Squares,F-statistic:,3.518e+19
Date:,"Mon, 29 Sep 2025",Prob (F-statistic):,0.0
Time:,13:26:56,Log-Likelihood:,2548.7
No. Observations:,280,AIC:,-5053.0
Df Residuals:,258,BIC:,-4973.0
Df Model:,21,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.617e+04,1.68e-06,1.56e+10,0.000,2.62e+04,2.62e+04
x1,-2.792e-10,2.36e-06,-0.000,1.000,-4.66e-06,4.66e-06
x2,0.0020,8.95e-06,223.026,0.000,0.002,0.002
x3,-4.895e-10,4.41e-06,-0.000,1.000,-8.69e-06,8.69e-06
x4,-0.0118,536.414,-2.2e-05,1.000,-1056.318,1056.294
x5,0.0010,47.471,2.17e-05,1.000,-93.478,93.480
x6,2.424e+05,498.976,485.744,0.000,2.41e+05,2.43e+05
x7,-2.061e+05,3.74e-05,-5.51e+09,0.000,-2.06e+05,-2.06e+05
x8,-9.652e-11,1.88e-06,-5.15e-05,1.000,-3.69e-06,3.69e-06

0,1,2,3
Omnibus:,96.012,Durbin-Watson:,1.864
Prob(Omnibus):,0.0,Jarque-Bera (JB):,210.864
Skew:,1.732,Prob(JB):,1.63e-46
Kurtosis:,5.464,Cond. No.,3330000000000000.0


### Análisis de significancia 

Los p_values muy bajos (cercanos a 0), significa que su efecto es real y sí son importantes para explicar la ganancia. Entre ellas están principalmente COGS y algunos productos, que claramente influyen en cómo se mueve el Profit. En cambio, muchas otras variables tienen p_values muy altos (incluso cercanos a 1), lo que quiere decir que sus efectos podrían deberse al azar y que no aportan nada relevante al modelo, como sucede con varias categorías de país o segmento.

#### Interpretación signos betas

- Constante: Representa el valor base del Profit, que es de aproximadamente 26170, cuando todas las demás variables están en cero, es decir, el punto de partida del modelo.

- Units Sold: Tiene un coeficiente negativo prácticamente nulo (-6.139e-12), lo que indica que aunque cambien las unidades vendidas, no hay un efecto real en el Profit.

- Manufacturing Price: Es positivo pero insignificante (0.0000), por lo que casi no afecta la ganancia.

- Sale Price: Presenta un coeficiente positivo (5.457e-11), aunque tan pequeño que su efecto en el Profit es prácticamente nulo.

- Gross Sales: Tiene un coeficiente positivo de 0.0012, lo que sugiere un aporte muy bajo a la ganancia.

- Discounts: Su coeficiente es de 0.0010, también positivo, pero con una influencia mínima en el Profit.

- COGS: Muestra un valor alto y positivo (224200), lo que significa que está fuertemente relacionado con un aumento en el Profit.

- Profit anterior: Tiene un coeficiente negativo grande (-206100), lo que implica que esta variable reduce de manera importante la ganancia.

- Month Number: Presenta un valor negativo muy pequeño (-1.455e-11), sin efecto relevante en el Profit.

- Year: Su coeficiente es de -2.319e-12, negativo y prácticamente sin importancia.

- Segment_Enterprise: Muestra un coeficiente de -5.366e-11, lo que lo hace irrelevante en la ganancia.

- Segment_Government: Con un valor de -2.285e-11, es negativo y sin peso en el modelo.

- Segment_Midmarket: Tiene un coeficiente de -2.215e-11, también negativo y sin relevancia.

- Segment_Small Business: Su valor es de -4.775e-12, muy pequeño, sin impacto en el Profit.

- Country_France: Tiene un coeficiente de -2.808e-11, prácticamente irrelevante.

- Country_Germany: Presenta un valor de -3.133e-11, negativo y sin peso en la ganancia.

- Country_Mexico: Su coeficiente es positivo (7.583e-11), pero demasiado pequeño para tener efecto real.

- Country_United States of America: Muestra un valor negativo muy pequeño (-7.39e-12), sin importancia en el resultado.

- Product_Carretera: Tiene un coeficiente positivo de 0.0006, que indica un impacto leve en el Profit.

- Product_Montana: Su valor es de 0.0007, también positivo y con un efecto pequeño.

- Product_Paseo: Presenta un coeficiente positivo de 0.0008, un poco más fuerte que los anteriores, con un impacto más claro en la ganancia.

- Product_VTT: Tiene un coeficiente positivo de 2.531e-05, lo que aporta de manera muy moderada al Profit.

- Product_Velo: Su coeficiente es de 0.0004, positivo y con un pequeño efecto en el aumento de la ganancia.

#### Test

In [153]:
X_test_scaled = scaler.transform(x_test)
lr = LinearRegression()
lr.fit(X_test_scaled, y_test)

In [154]:
y_hat_test = lr.predict(X_test_scaled)
r2_score(y_test, y_hat_test)

1.0

In [155]:
n = len(X_test_scaled)
unos = np.ones([n,1])
X = np.column_stack([unos,X_test_scaled])
ols = sm.OLS(y_test, X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Profit,R-squared:,1.0
Model:,OLS,Adj. R-squared:,1.0
Method:,Least Squares,F-statistic:,9.931e+18
Date:,"Mon, 29 Sep 2025",Prob (F-statistic):,0.0
Time:,13:26:56,Log-Likelihood:,3514.8
No. Observations:,420,AIC:,-6986.0
Df Residuals:,398,BIC:,-6897.0
Df Model:,21,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.617e+04,3.03e-06,8.63e+09,0.000,2.62e+04,2.62e+04
x1,-8.345e-11,3.53e-06,-2.36e-05,1.000,-6.94e-06,6.94e-06
x2,-0.0002,3.46e-06,-71.669,0.000,-0.000,-0.000
x3,-2.469e-10,6.96e-06,-3.55e-05,1.000,-1.37e-05,1.37e-05
x4,-0.0127,792.429,-1.61e-05,1.000,-1557.882,1557.856
x5,0.0011,70.127,1.6e-05,1.000,-137.865,137.867
x6,2.424e+05,737.123,328.811,0.000,2.41e+05,2.44e+05
x7,-2.061e+05,5.65e-05,-3.65e+09,0.000,-2.06e+05,-2.06e+05
x8,-4.366e-11,3.36e-06,-1.3e-05,1.000,-6.61e-06,6.61e-06

0,1,2,3
Omnibus:,139.553,Durbin-Watson:,1.769
Prob(Omnibus):,0.0,Jarque-Bera (JB):,315.247
Skew:,1.748,Prob(JB):,3.51e-69
Kurtosis:,5.407,Cond. No.,2410000000000000.0


### Análisis de significancia

En este caso, la mayoría de las variables como las unidades vendidas, el precio de manufactura, las ventas brutas, los descuentos, los costos y hasta los segmentos y países muestran p-values muy altos, lo que significa que no tienen un efecto real sobre el Profit y su influencia podría deberse al azar. En cambio, las variables relacionadas con los productos (Carretera, Montana, Paseo, VTT y Velo) presentan p-values muy bajos, lo que indica que sí son significativas y realmente ayudan a explicar las variaciones en la ganancia.

#### Interpretación signos Betas

- Constante: Representa el valor base del Profit, que es de aproximadamente 26170, cuando todas las demás variables están en cero, es decir, el punto de partida del modelo.

- Units Sold: Tiene un coeficiente positivo muy pequeño (1.887e-11), lo que significa que el número de unidades vendidas prácticamente no tiene un efecto real sobre la ganancia.

- Manufacturing Price: Presenta un valor positivo bajo (0.0021), indicando que un aumento en el precio de fabricación tiene un efecto muy limitado sobre el Profit.

- Sale Price: Su coeficiente es muy pequeño (2.274e-11), por lo que no influye de manera importante en la ganancia.

- Gross Sales: Tiene un coeficiente positivo de 0.0020, lo que sugiere un aporte bajo al Profit.

- Discounts: Su valor es de -0.0004, indicando que los descuentos tienden a reducir levemente la ganancia.

- Sales: Presenta un coeficiente alto y positivo (224200), lo que significa que las ventas son un factor fuertemente asociado al aumento del Profit.

- COGS: Su coeficiente es negativo y grande (-206100), mostrando que los costos de los bienes vendidos reducen fuertemente la ganancia.

- Month Number: Su valor es negativo pero muy pequeño (-1.876e-11), lo que indica que el número de mes no tiene un efecto significativo en el Profit.

- Year: Muestra un coeficiente negativo prácticamente nulo (-9.123e-11), sin influencia real en la ganancia.

- Segment_Enterprise: Tiene un coeficiente positivo pequeño (3.058e-11), lo que implica que pertenecer al segmento Enterprise casi no influye en el Profit.

- Segment_Government: Presenta un valor positivo bajo (8.822e-11), con un efecto prácticamente nulo sobre la ganancia.

- Segment_Midmarket: Su coeficiente es positivo y muy pequeño (5.753e-11), indicando poca o nula relevancia.

- Segment_Small Business: Tiene un coeficiente positivo (4.775e-12) tan pequeño que no influye en el Profit.

- Country_France: Su coeficiente es negativo muy bajo (-2.808e-11), sin importancia en la ganancia.

- Country_Germany: Presenta un valor negativo mínimo (-3.133e-11), también irrelevante.

- Country_Mexico: Tiene un coeficiente positivo (1.012e-11) pero demasiado pequeño para tener efecto real.

- Country_United States of America: Su valor es negativo y casi nulo (-7.753e-11), sin impacto en el Profit.

- Product_Carretera: Presenta un coeficiente positivo de 0.0017, lo que indica un aporte leve al Profit.

- Product_Montana: Tiene un coeficiente de 0.0017, también positivo y con un efecto pequeño en la ganancia.

- Product_Paseo: Su coeficiente es positivo (0.0021), un poco más alto que los anteriores, lo que indica un efecto moderado en el aumento del Profit.

- Product_VTT: Muestra un valor positivo bajo (6.656e-05), con un impacto muy leve en la ganancia.

- Product_Velo: Tiene un coeficiente positivo de 0.0011, que representa un pequeño efecto en el Profit

### Ridge

In [156]:
l2 = Ridge(alpha = 0.1)  
l2.fit(x, y)

In [157]:
y_pred = l2.predict(x)

In [158]:
r2_score(y, y_pred)

1.0

In [159]:
l2.intercept_

-0.00686682137529715

In [160]:
l2.coef_

array([ 7.07411285e-08,  1.90350353e-07,  3.58485626e-07,  3.11945779e-01,
       -3.11945781e-01,  6.88054220e-01, -9.99999998e-01, -7.62326592e-06,
        3.38043284e-06, -5.30837924e-05,  2.48910640e-05,  7.55115086e-05,
       -4.58756640e-05,  2.46950396e-05, -5.68380324e-06, -7.19867924e-06,
        4.74429278e-05,  1.84068981e-05, -2.35664360e-05,  7.71710686e-06,
       -6.05694638e-05, -3.71757700e-07])

In [161]:
l2 = Ridge(alpha = 1)  
l2.fit(x, y)
y_pred = l2.predict(x)
r2_score(y, y_pred)

1.0

In [162]:
l2.intercept_

-0.007445818147971295

In [163]:
l2.coef_

array([ 7.59677454e-08,  2.01890334e-07,  3.80551562e-07,  3.34768597e-01,
       -3.34768600e-01,  6.65231401e-01, -9.99999998e-01, -8.17995884e-06,
        3.66584012e-06, -5.44155900e-05,  2.69570839e-05,  8.04910041e-05,
       -4.66900946e-05,  2.59144655e-05, -6.40659088e-06, -8.04029633e-06,
        5.03053044e-05,  1.94981396e-05, -2.50875091e-05,  8.22205192e-06,
       -6.39405541e-05, -2.18315404e-07])

In [164]:
l2 = Ridge(alpha = 10)  
l2.fit(x, y)
y_pred = l2.predict(x)
r2_score(y, y_pred)

1.0

In [165]:
l2.intercept_

-0.007630474014149513

In [166]:
l2.coef_

array([ 7.60366959e-08,  1.80571470e-07,  3.54829282e-07,  3.33319620e-01,
       -3.33319622e-01,  6.66680378e-01, -9.99999998e-01, -8.13710019e-06,
        3.75937943e-06, -4.11714270e-05,  2.59783265e-05,  7.25721234e-05,
       -3.36913583e-05,  2.13593210e-05, -8.45067457e-06, -1.01005631e-05,
        4.48774479e-05,  1.69990831e-05, -2.31963014e-05,  7.66776342e-06,
       -5.46783730e-05,  1.25634525e-06])

#### Interpretación

La regresión Ridge con diferentes valores de alpha (0.1, 1 y 10), el desempeño del modelo prácticamente no cambió, ya que el R2 se mantuvo en 1, lo que significa que el ajuste sigue siendo perfecto. Lo que sí varió fueron los coeficientes, al aumentar alpha, los betas se fueron reduciendo ligeramente en magnitud. Esto sucede porque Ridge aplica una penalización que encoge los coeficientes para evitar que alguno crezca demasiado y cause sobreajuste. En pocas palabras, al subir alpha no pierdes poder de predicción en este caso porque los datos ya están muy bien ajustados, pero los coeficientes se hacen un poco más pequeños, logrando un modelo más estable y menos sensible al ruido.

### Ridge Train

In [167]:
l2 = Ridge(alpha = 0.1)  
l2.fit(X_train_scaled, y_train)

In [168]:
y_pred = l2.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9979710353907838

In [169]:
l2.intercept_

26173.29235714285

In [170]:
l2.coef_

array([ 5.15948601e+01,  1.65744087e+02,  2.34472208e+03,  9.90267205e+04,
       -1.33699430e+04,  1.07728596e+05, -1.60338185e+05, -1.25230283e+02,
       -5.73833305e+01, -3.78709740e+03, -5.25939362e+02, -5.08809251e+02,
       -3.60397681e+03,  4.62324619e+01, -1.39332815e+02, -2.92033378e+02,
       -3.73768290e+02, -9.91050695e+01, -7.77632860e+01, -8.72916601e+01,
       -5.59167852e+01,  1.31578155e+02])

In [171]:
l2 = Ridge(alpha = 1)  
l2.fit(X_train_scaled, y_train)

In [172]:
l2.intercept_

26173.292357142836

In [173]:
l2.coef_

array([   198.29112078,    573.91843667,   8110.99836436,  45958.76598462,
       -19891.11493851,  51299.38696247, -46878.2112887 ,   -432.8043955 ,
         -201.55176627, -13044.14370837,  -1664.01318231,  -1691.41835001,
       -12373.02684152,    160.85559003,   -474.93238058,  -1006.51384941,
        -1308.35191871,   -334.90402644,   -262.73250256,   -310.28794846,
         -197.62075744,    448.04155754])

In [174]:
l2 = Ridge(alpha = 10)  
l2.fit(X_train_scaled, y_train)
y_pred = l2.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.952941545862401

In [175]:
l2.intercept_

26173.29235714283

In [176]:
l2.coef_

array([   499.97778957,    730.91729462,  10201.07454871,  20357.66100511,
       -20235.99032516,  23810.25802592,   5067.83689989,   -531.45902538,
         -286.22593926, -15723.50319049,   -410.59360598,  -1408.63329467,
       -14465.20615271,    222.03880398,   -491.40406645,  -1213.15992638,
        -1803.12089029,   -339.94719909,   -254.58139042,   -478.81220061,
         -290.01532275,    471.80128787])

#### Interpretación

Cuando entrenamos el modelo Ridge con diferentes valores de alpha, lo que pasa es que los coeficientes cambian bastante, con un alpha pequeño (0.1) el modelo se ajusta casi perfecto a los datos, pero los betas quedan muy grandes y desbalanceados, lo que puede ser señal de sobreajuste, al subir alpha a 1 los coeficientes ya no son tan extremos y se empiezan a acomodar en valores más razonables, manteniendo un R2 muy alto, y cuando alpha llega a 10, los coeficientes se reducen todavía más, lo que hace al modelo más estable y menos dependiente de cada variable, aunque a cambio el R2 baja un poco.

### Ridge test

In [177]:
l2 = Ridge(alpha = 0.1)
l2.fit(X_test_scaled, y_test)

In [178]:
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9988733957668678

In [179]:
l2.intercept_

25959.58925202517

In [180]:
l2.coef_

array([-7.75581724e+01, -2.55361612e+01,  1.29666516e+03,  1.07534270e+05,
       -1.19928337e+04,  1.16743446e+05, -1.78817785e+05,  7.89241014e+00,
       -1.07036787e+02, -2.56778295e+03, -4.48390768e+02, -3.67378463e+02,
       -2.19641248e+03,  7.88981430e+01, -3.41317345e+00,  9.65163202e+01,
       -9.83076398e+01,  8.03475082e+00, -2.22729282e+01,  4.93986667e+01,
       -1.98256742e-01, -2.36901840e+01])

In [181]:
l2 = Ridge(alpha = 1)
l2.fit(X_test_scaled, y_test)
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9748671160591301

In [182]:
l2.intercept_

25160.713313025717

In [183]:
l2.coef_

array([-3.40249807e+02, -1.05591891e+02,  6.10330613e+03,  5.97325358e+04,
       -1.68779986e+04,  6.58199361e+04, -7.74982955e+04,  4.94825548e+01,
       -4.94408935e+02, -1.20178472e+04, -2.00895272e+03, -1.68001342e+03,
       -1.02393642e+04,  3.78363278e+02, -4.43564696e+00,  4.52390354e+02,
       -4.58595778e+02,  3.30578047e+01, -1.11989113e+02,  2.32644117e+02,
       -6.47218849e+00, -1.20907013e+02])

In [184]:
l2 = Ridge(alpha = 10)
l2.fit(X_test_scaled, y_test)
y_pred_test = l2.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9340048663838719

In [185]:
l2.intercept_

24511.66494301642

In [186]:
l2.coef_

array([-1.81366616e+02,  3.03845970e+01,  9.45532444e+03,  2.29958598e+04,
       -1.90252946e+04,  2.65312180e+04, -1.78004138e+03,  2.47647087e+02,
       -6.32315002e+02, -1.76729430e+04, -1.73615910e+03, -1.94929883e+03,
       -1.44970630e+04,  6.78500272e+02,  1.49272827e+02,  6.67170622e+02,
       -6.59788897e+02, -1.41672832e+01, -2.72695818e+02,  3.65436715e+02,
       -7.53074733e+01, -3.09006915e+02])

#### Interpretación

Al aplicar Ridge sobre los datos de prueba, se observa que al usar un valor pequeño de alpha (0.1) el modelo alcanza un ajuste muy alto (R2 = 0.99) y los coeficientes mantienen valores grandes, lo que indica que la regularización es casi nula. Cuando el alpha aumenta a 1, el R2 baja un poco (0.97) y los coeficientes empiezan a reducirse, lo que muestra cómo Ridge penaliza los valores extremos y busca un balance más estable en las variables. Finalmente, con un alpha de 10, el R2 cae todavía más (0.93) y los coeficientes se achican de manera más marcada, señalando que la regularización es fuerte, el modelo se simplifica al costo de perder algo de precisión

### Lasso

In [187]:
l1 = Lasso(alpha = 0.1)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

  model = cd_fast.enet_coordinate_descent(


0.9995982889930705

In [188]:
l1.intercept_

232612.439119602

In [189]:
l1.coef_

array([ 2.93114195e-02,  9.25612733e+00,  7.00284166e+00,  8.56779992e-01,
       -9.29632597e-01,  7.57884925e-02, -9.15869708e-01, -1.58458603e+00,
       -1.16277451e+02, -4.44158670e+03, -4.92566822e+02, -6.37764054e+02,
       -3.96464189e+03,  5.10427962e+01, -6.11986381e+01, -3.29799163e+01,
       -2.35034787e+02,  2.30173655e+03,  2.26437672e+03,  2.32647500e+03,
        7.78533461e+01,  1.34278036e+03])

In [190]:
l1 = Lasso(alpha = 1)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

  model = cd_fast.enet_coordinate_descent(


0.9996073523362428

In [191]:
l1.intercept_

219258.22918490466

In [192]:
l1.coef_

array([ 3.09117624e-02,  2.59761143e-01,  6.89730424e+00,  8.57555544e-01,
       -9.29572591e-01,  7.57836166e-02, -9.16846802e-01, -1.11555657e+00,
       -1.08511827e+02, -4.35321646e+03, -4.54539815e+02, -5.98472780e+02,
       -3.87521693e+03,  5.49655559e+01, -4.64794254e+01, -1.86851148e+01,
       -2.18332033e+02, -0.00000000e+00, -1.68244626e+01,  7.79461725e+01,
       -5.39803289e-01,  8.08391085e+01])

In [193]:
l1 = Lasso(alpha = 10)   
l1.fit(x, y)
y_pred = l1.predict(x)
r2_score(y, y_pred)

  model = cd_fast.enet_coordinate_descent(


0.999682457604533

In [194]:
l1.intercept_

77531.68530157334

In [195]:
l1.coef_

array([ 3.86171914e-02,  1.44386815e-01,  5.83324967e+00,  8.65274731e-01,
       -9.29122137e-01,  7.57470541e-02, -9.26567845e-01,  1.25554686e+00,
       -3.83095700e+01, -3.47043806e+03, -7.31355034e+01, -2.04213497e+02,
       -2.97560679e+03,  2.11498623e+01, -0.00000000e+00, -0.00000000e+00,
       -1.25599900e+02, -0.00000000e+00, -0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00,  0.00000000e+00])

#### Interpretación

En el modelo Lasso, cuando se usó un alpha pequeño (0.1), el modelo mantuvo la mayoría de los coeficientes con valores distintos de cero, mostrando un ajuste muy preciso al conjunto de datos (R2 = 0.9996). Al aumentar el alpha a 1, varios coeficientes comenzaron a reducirse y algunos se acercaron a cero, lo que significa que el modelo ya empieza a simplificarse eliminando variables menos relevantes, aunque todavía conserva un poder predictivo casi perfecto (R2 = 0.9996). Finalmente, con un alpha de 10, el efecto de la regularización fue mucho más fuerte, varios coeficientes se convirtieron exactamente en cero, dejando fuera varias variables del modelo, y aunque la precisión sigue siendo alta, se observa cómo Lasso prioriza un modelo más sencillo sacrificando un poco de ajuste.

### Lasso Train

In [196]:
l1 = Lasso(alpha = 0.1)
l1.fit(X_train_scaled, y_train)

  model = cd_fast.enet_coordinate_descent(


In [197]:
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.9992306889432909

In [198]:
l1.intercept_

26173.292357142855

In [199]:
l1.coef_

array([ 1.11389529e+02,  5.01137425e+02,  1.61754294e+03,  2.12185423e+05,
       -2.16845321e+04,  1.87916147e+04, -1.78030798e+05, -7.36845981e+01,
       -2.81513535e+01, -2.33346694e+03, -3.40955424e+02, -3.20706384e+02,
       -2.22398716e+03,  2.29002311e+01, -8.35601039e+01, -1.75110410e+02,
       -2.22410551e+02,  2.71551087e+02,  2.81658132e+02,  3.54533902e+02,
       -1.41614564e+01,  2.96084368e+02])

In [200]:
l1 = Lasso(alpha = 1)
l1.fit(X_train_scaled, y_train)
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

  model = cd_fast.enet_coordinate_descent(


0.9991982192978226

In [201]:
l1.intercept_

26173.292357142855

In [202]:
l1.coef_

array([ 1.09173851e+02,  1.49128361e+02,  1.63946257e+03,  2.11437614e+05,
       -2.16749386e+04,  1.89364576e+04, -1.77435515e+05, -7.39057893e+01,
       -2.76750928e+01, -2.37723448e+03, -3.40191308e+02, -3.22769305e+02,
       -2.26381431e+03,  2.40177291e+01, -8.38951166e+01, -1.76679894e+02,
       -2.25359108e+02, -1.34987985e+01, -7.55225055e+00,  0.00000000e+00,
       -2.47413296e+01,  1.16485525e+02])

In [203]:
l1 = Lasso(alpha = 10)
l1.fit(X_train_scaled, y_train)
y_pred = l1.predict(X_train_scaled)
r2_score(y_train, y_pred)

  model = cd_fast.enet_coordinate_descent(


0.9988332052987142

In [204]:
l1.intercept_

26173.292357142855

In [205]:
l1.coef_

array([ 8.67758531e+01,  1.63677054e+02,  1.85911563e+03,  2.03958404e+05,
       -2.15791773e+04,  2.03850367e+04, -1.71481711e+05, -7.60151265e+01,
       -2.32430927e+01, -2.81582251e+03, -3.33206478e+02, -3.43970767e+02,
       -2.66252076e+03,  3.52852634e+01, -8.64976842e+01, -1.91993239e+02,
       -2.54752315e+02, -4.38188303e+00, -0.00000000e+00,  0.00000000e+00,
       -1.78857755e+01,  1.36480979e+02])

#### Interpretación

En el caso del entrenamiento con Lasso, se observa que al usar un alpha pequeño (0.1), el modelo mantiene casi todos los coeficientes con valores distintos de cero, lo que significa que conserva la mayoría de las variables en la explicación del Profit, aunque con diferentes grados de impacto. Cuando se incrementa alpha a 1, algunos coeficientes empiezan a reducirse bastante, llegando incluso a desaparecer, quedando en cero, lo que indica que el modelo empieza a simplificar y eliminar variables que no aportan mucho. Finalmente, con un alpha más grande (10), el efecto es todavía más claro, varios coeficientes se vuelven exactamente cero, dejando solo a unas cuantas variables con influencia sobre el Profit.

### Lasso Test

In [206]:
l1 = Lasso(alpha = 0.1)
l1.fit(X_test_scaled, y_test)

  model = cd_fast.enet_coordinate_descent(


In [207]:
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

0.9996629060631375

In [208]:
l1.intercept_

26054.6068123175

In [209]:
l1.coef_

array([-2.15278441e+00,  1.71171410e+03,  8.04448971e+02,  2.25942808e+05,
       -2.13830217e+04,  1.81795808e+04, -1.91229812e+05,  4.07660887e+00,
       -5.81189597e+01, -1.39954567e+03, -2.48462683e+02, -2.03942429e+02,
       -1.19452365e+03,  4.32286137e+01,  8.88103431e-01,  5.33200461e+01,
       -4.94078475e+01,  1.39676035e+03,  1.40290072e+03,  1.75523501e+03,
        5.05412884e+01,  8.78176213e+02])

In [210]:
l1 = Lasso(alpha = 1)
l1.fit(X_test_scaled, y_test)
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

  model = cd_fast.enet_coordinate_descent(


0.999638993732422

In [211]:
l1.intercept_

26050.541151620302

In [212]:
l1.coef_

array([-3.22888487e+00, -0.00000000e+00,  8.24734388e+02,  2.25250444e+05,
       -2.13664720e+04,  1.83320444e+04, -1.90708543e+05,  4.22091955e+00,
       -5.93745812e+01, -1.44316434e+03, -2.50079364e+02, -2.06954502e+02,
       -1.22956871e+03,  4.34500506e+01,  0.00000000e+00,  5.32495868e+01,
       -5.13825873e+01,  1.11650754e+01, -1.78695895e+00,  4.14457015e+01,
       -2.33191860e+00, -0.00000000e+00])

In [213]:
l1 = Lasso(alpha = 10)
l1.fit(X_test_scaled, y_test)
y_pred_test = l1.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

  model = cd_fast.enet_coordinate_descent(


0.9993530157359914

In [214]:
l1.intercept_

26010.2998060431

In [215]:
l1.coef_

array([-1.26239830e+01, -0.00000000e+00,  1.02808388e+03,  2.18342767e+05,
       -2.12002543e+04,  1.98560680e+04, -1.85513617e+05,  5.07772167e+00,
       -7.25294121e+01, -1.87766934e+03, -2.64286059e+02, -2.35559457e+02,
       -1.57657497e+03,  5.01787669e+01, -0.00000000e+00,  5.73881001e+01,
       -6.59276239e+01,  3.80154927e+00, -1.00507683e+00,  4.48183602e+01,
       -0.00000000e+00, -0.00000000e+00])

#### Interpretación

Cuando aplicamos Lasso con diferentes valores de alpha, vemos que el R2 se mantiene prácticamente igual, lo que significa que el modelo sigue explicando muy bien las ganancias. Con valores de alpha pequeños (0.1 o 1), la mayoría de las variables mantienen algún peso en el modelo, aunque algunos coeficientes son muy bajos. Sin embargo, al aumentar alpha a 10, Lasso empieza a reducir más coeficientes a cero, eliminando el efecto de varias variables y dejando solo a las más importantes.

### ElasticNet

In [216]:
le = ElasticNet(alpha=0.1)
le.fit(x, y)

In [217]:
y_pred = le.predict(x)

In [218]:
r2_score(y, y_pred)

0.99999728324975

In [219]:
le.intercept_

9607.669719744772

In [220]:
le.coef_

array([ 9.09711030e-03,  2.86171685e-02,  3.82310300e-01,  9.20082115e-01,
       -9.25050488e-01,  7.54149368e-02, -9.94464883e-01,  2.31668053e-02,
       -4.78335542e+00, -1.50596313e+02,  4.92310748e+01,  1.73806777e+01,
       -1.02730065e+02,  3.89489604e+00, -7.15291603e-01, -0.00000000e+00,
       -9.74308328e+00,  0.00000000e+00, -3.92017250e+00,  3.12428222e+00,
       -4.17129774e+00,  2.86767887e-02])

In [221]:
le = ElasticNet(alpha=1)
le.fit(x, y)
y_pred = le.predict(x)
r2_score(y, y_pred)

0.999999996468273

In [222]:
le.intercept_

-0.9496180851638201

In [223]:
le.coef_

array([ 4.90782910e-04,  4.35744139e-04,  9.76777022e-03,  9.24518599e-01,
       -9.24633377e-01,  7.53809545e-02, -9.99880047e-01,  0.00000000e+00,
       -0.00000000e+00, -1.16988651e-01,  1.72805832e-01,  0.00000000e+00,
       -0.00000000e+00,  0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00])

In [224]:
le = ElasticNet(alpha=10)
le.fit(x, y)
y_pred = le.predict(x)
r2_score(y, y_pred)

0.9999999970683007

In [225]:
le.intercept_

-0.6467405813091318

In [226]:
le.coef_

array([ 3.81562412e-04,  1.87234824e-05,  7.92556728e-03,  9.24529870e-01,
       -9.24631855e-01,  7.53810139e-02, -9.99893117e-01,  0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00,  0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,  0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00])

#### Interpretación

Con ElasticNet, al usar un alpha bajo como 0.1 el modelo mantiene casi todos los coeficientes con valores pequeños pero distintos de cero, lo que indica que la mayoría de las variables todavía tienen algo de peso en la predicción del Profit. Sin embargo, cuando subimos alpha a 1 ya empieza a notarse una mayor reducción en los coeficientes, varios de ellos se acercan mucho a cero, lo que significa que el modelo está siendo más estricto y dejando fuera a factores que considera poco relevantes. Finalmente, con alpha en 10 la penalización es mucho más fuerte y muchos coeficientes desaparecen completamente, se vuelven cero, quedándose solo las variables más importantes para explicar la ganancia, lo que simplifica el modelo aunque también reduce un poco la precisión

### ElasticNet Train

In [227]:
le = ElasticNet(alpha = 0.1)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.949287256903387

In [228]:
le.intercept_

26173.29235714283

In [229]:
le.coef_

array([   601.21669581,    729.14722856,  10103.02197228,  18897.73846361,
       -19284.93924955,  22150.52113273,   7046.91970037,   -518.43439184,
         -295.31422672, -15300.31442334,    202.52663141,  -1148.6652381 ,
       -13898.63788789,    231.66246678,   -435.23572305,  -1177.39887054,
        -1839.49311445,   -309.55518054,   -220.44664555,   -505.35483193,
         -300.56443834,    427.45994047])

In [230]:
le = ElasticNet(alpha = 1)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.8383589152203555

In [231]:
le.intercept_

26173.292357142825

In [232]:
le.coef_

array([ 1796.54361601,   617.61048885,  7511.53405149, 10794.71144486,
       -5651.30172019, 12142.38448997,  8283.65739254,  -309.45416493,
        -290.54362501, -8700.41394485,  4884.70060098,   273.96618137,
       -5931.9392827 ,   406.31133479,   422.14662878,  -600.1270435 ,
       -1685.99321015,  -156.64608719,   277.47656067,  -588.89812794,
        -263.35855339,  -232.85305285])

In [233]:
le = ElasticNet(alpha = 10)
le.fit(X_train_scaled, y_train)
y_pred = le.predict(X_train_scaled)
r2_score(y_train, y_pred)

0.4898116672871923

In [234]:
le.intercept_

26173.292357142855

In [235]:
le.coef_

array([ 1301.64210331,   179.56207761,  3243.50082586,  4106.55246639,
        1214.51972972,  4299.10758932,  3671.43203408,  -203.89769052,
           5.15592072, -2186.97347524,  2209.85888537,  -533.80476956,
        -299.23037085,   212.77653226,   253.87837228,  -197.20409372,
        -485.12868153,  -151.22985813,   319.87775512,  -168.20339464,
         -32.18953905,  -291.41768184])

#### Interpretación

En este caso con Elastic Net aplicado al conjunto de entrenamiento, se observa que cuando el valor de alpha es 0.1, el modelo tiene un ajuste bastante alto con un R2 cercano a 0.95, lo que significa que explica bien la variabilidad del Profit, aunque algunos coeficientes ya empiezan a ser reducidos. Al subir alpha a 1, el ajuste baja notablemente (R2 = 0.83), lo cual indica que la regularización es más fuerte y varios coeficientes pierden peso, reduciendo la complejidad del modelo pero también su capacidad predictiva. Finalmente, con alpha = 10, el R2 cae todavía más (R2 = 0.49), lo que refleja que la penalización es tan intensa que muchos coeficientes se achican demasiado y el modelo deja de capturar gran parte de la relación con la variable objetivo

### ElasticNet Test

In [236]:
le = Lasso(alpha = 0.1)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

  model = cd_fast.enet_coordinate_descent(


0.9996629060631375

In [237]:
le.intercept_

26054.6068123175

In [238]:
le.coef_

array([-2.15278441e+00,  1.71171410e+03,  8.04448971e+02,  2.25942808e+05,
       -2.13830217e+04,  1.81795808e+04, -1.91229812e+05,  4.07660887e+00,
       -5.81189597e+01, -1.39954567e+03, -2.48462683e+02, -2.03942429e+02,
       -1.19452365e+03,  4.32286137e+01,  8.88103431e-01,  5.33200461e+01,
       -4.94078475e+01,  1.39676035e+03,  1.40290072e+03,  1.75523501e+03,
        5.05412884e+01,  8.78176213e+02])

In [239]:
le = Lasso(alpha = 1)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

  model = cd_fast.enet_coordinate_descent(


0.999638993732422

In [240]:
le.intercept_

26050.541151620302

In [241]:
le.coef_

array([-3.22888487e+00, -0.00000000e+00,  8.24734388e+02,  2.25250444e+05,
       -2.13664720e+04,  1.83320444e+04, -1.90708543e+05,  4.22091955e+00,
       -5.93745812e+01, -1.44316434e+03, -2.50079364e+02, -2.06954502e+02,
       -1.22956871e+03,  4.34500506e+01,  0.00000000e+00,  5.32495868e+01,
       -5.13825873e+01,  1.11650754e+01, -1.78695895e+00,  4.14457015e+01,
       -2.33191860e+00, -0.00000000e+00])

In [242]:
le = Lasso(alpha = 10)
le.fit(X_test_scaled, y_test)
y_pred_test = le.predict(X_test_scaled)
r2_score(y_test, y_pred_test)

  model = cd_fast.enet_coordinate_descent(


0.9993530157359914

In [243]:
le.intercept_

26010.2998060431

In [244]:
le.coef_

array([-1.26239830e+01, -0.00000000e+00,  1.02808388e+03,  2.18342767e+05,
       -2.12002543e+04,  1.98560680e+04, -1.85513617e+05,  5.07772167e+00,
       -7.25294121e+01, -1.87766934e+03, -2.64286059e+02, -2.35559457e+02,
       -1.57657497e+03,  5.01787669e+01, -0.00000000e+00,  5.73881001e+01,
       -6.59276239e+01,  3.80154927e+00, -1.00507683e+00,  4.48183602e+01,
       -0.00000000e+00, -0.00000000e+00])

#### Interpretación

En este caso, los resultados de ElasticNet Test muestran cómo cambia el modelo al variar el valor de alpha. Con alpha = 0.1, el modelo logra un R2 casi perfecto (0.99966), con coeficientes con valores significativos que reflejan la influencia de varias variables. Cuando subimos a alpha = 1, el R2 se mantiene muy alto (0.99963), pero algunos coeficientes se reducen o incluso se llevan a cero, lo que indica que el modelo empieza a aplicar regularización fuerte, eliminando el efecto de variables menos importantes. Finalmente, con alpha = 10, el R2 sigue siendo altísimo (0.99953), pero se ve todavía más reducción en los coeficientes, varios ya son cero, lo que significa que ElasticNet está seleccionando solo las variables más relevantes y descartando otras.

---

### 2. Regresión Polinomial (grado 2)

## Creación del modelo (Seleccionar "x" y "y", Cross-Validation (Train-Test Split))

In [245]:
# Preparando datos para el modelo
data2 = data.copy()

y = data2['Profit']
x = data2.drop(columns=['Profit'])

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.4, random_state = 137)

#### Escalamiento

In [246]:
scaler = StandardScaler().fit(x_train)
x_train_scaled = scaler.transform(x_train)

#### Regresión Polinomial utilizando los datos de entrenamiento

## Selección del Modelo (Regresión Polinomial)

In [247]:
# Librerias
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score

# 1. SIN PENALIZACIÓN
poly2 = PolynomialFeatures(2, include_bias=False)
X2 = poly2.fit_transform(x_train_scaled)
lr2 = LinearRegression().fit(X2, y_train)
y2 = lr2.predict(X2)
r2_2 = r2_score(y_train, y2)
print(f"B0={lr2.intercept_} --- coefs={lr2.coef_}")
print(f"Grado 2 : r2={r2_2}") 


B0=63225.870844432444 --- coefs=[ 2.53015002e+04  8.81303112e+02  1.17370408e+04  1.20103686e+04
 -2.01363565e+04  3.07161082e+04  1.19463330e+03 -5.33570255e-06
 -4.28504880e+02 -3.98322786e+03  7.65275503e+03 -1.22158156e+03
  2.66253915e+03 -3.98212157e+02  8.96472468e+01  5.28298733e+02
 -6.31639456e+02 -2.03599034e+03  4.62738383e+02 -1.16845258e+03
 -1.30846970e+03 -1.19441023e+03 -2.18733476e-10 -4.07996012e+02
  2.42939362e+04 -1.49092276e+04  1.31941255e+03  1.38686704e+04
  2.58023647e-09  2.22826202e-11 -1.12549969e-11 -1.28576361e+02
 -2.33926189e+03 -2.36252790e+03  9.49910538e+03 -5.18411980e-11
 -2.27373675e-12 -7.63975549e-11 -2.59205990e-11 -3.30284523e+02
 -3.35067347e+02 -4.08843298e+02 -1.29972234e+01 -2.09618803e+02
 -4.81377966e+02 -1.91178850e+02 -1.40747174e+03  3.82124421e+02
  1.24756057e+03  5.57402122e+01 -8.07419783e+01 -8.72067898e+01
 -5.56106212e+01  4.11886391e+01  2.24023101e+02  1.92229176e+02
  1.53365895e+02 -2.46077883e+01 -1.98075780e+02  3.271167

**Interpretación Regresión sin penalización con datos de entrenamiento**

Es raro y poco común que el en entrenamiento el R^2 sea exactamente 1 (ajuste perfecto), Esto suele indicar sobreajuste o que el modelo está memorizando los datos de entrenamiento en vez de aprender patrones generales. Calcularemos ahora el R^2 del Test para poder comparar

In [248]:
x_test_scaled = scaler.transform(x_test)
X2_test = poly2.transform(x_test_scaled)
y2_test = lr2.predict(X2_test)
r2_2_test = r2_score(y_test, y2_test)
print(f"R^2 en prueba: {r2_2_test}")

R^2 en prueba: 0.9999999999999998


Un R^2 asi de alto en el conjunto de prueba significa que el modelo polinomial está explicando casi toda la variabilidad del Profit en esos datos.
Esto suele indicar sobreajuste: el modelo es tan complejo (muchos términos polinomiales) que se ajusta casi perfectamente tanto al entrenamiento como a la prueba.

- En la práctica, un R^2 tan alto es sospechoso.
- Puede indicar que el modelo no generalizará bien a nuevos datos.

Por eso, ahora usaremos Regularizaciones...


### Análisis de significancia de factores para modelo polinomial (grado 2) sin penalización

Al aplicar regresión polinomial grado 2 sin penalización, el modelo incluye todas las variables originales, sus cuadrados y todas las interacciones posibles entre ellas. 

Por ello aparecen tantos factores:
El modelo polinomial de grado 2 genera:
- Todas las variables originales (Units Sold, Sale Price, Discounts, COGS, Segmentos, Países, Productos, etc.)
- Todos los términos al cuadrado 
- Todas las combinaciones posibles entre dos variables


En cuanto al desempeño, el modelo tiene un R^2 de **1.0 en train** y **casi 1.0 en test**, lo que indica un ajuste prácticamente perfecto. Aunque esto puede parecer ideal, en realidad es un claro indicio de sobreajuste, sobre todo porque no se aplicó ningún tipo de regularización.

Respecto a los factores más influyentes según los coeficientes, los que más destacan son:

- `Sales` (+36,025), `Manufacturing Price` (+28,243) y `Discounts` (−19,631) en sus términos lineales.
- `Sale Price²`, `Sales²`, `Gross Sales²` y `COGS²` aparecen con coeficientes elevados también, mostrando que hay relaciones cuadráticas importantes.
- Algunas interacciones muy significativas incluyen `Sale Price × Gross Sales` (−30,188), `Sales × COGS` (+19,329), y `Discounts × Sales` (−8,011), entre otras.

En general, el modelo parece haber capturado demasiada complejidad, lo cual explica su desempeño perfecto pero poco realista. Sería recomendable probar con una versión regularizada (como Ridge o Lasso) para reducir el riesgo de overfitting y ver si se pueden mantener buenos resultados con un modelo más generalizable.


#### Regresión Polinomial con Regularización L2 Ridge

In [249]:
from sklearn.linear_model import Ridge

# Transformar los datos de entrenamiento y prueba con polinomio grado 2
X2_train = poly2.transform(x_train_scaled)
X2_test = poly2.transform(scaler.transform(x_test))

# Ridge con alpha = 0.1
ridge_poly = Ridge(alpha=0.1)
ridge_poly.fit(X2_train, y_train)

# Predicción 
y2_train_pred = ridge_poly.predict(X2_train)
y2_test_pred = ridge_poly.predict(X2_test)

r2_train_ridge = r2_score(y_train, y2_train_pred)
r2_test_ridge = r2_score(y_test, y2_test_pred)

print(f"Ridge Polinomial grado 2 - R2 train: {r2_train_ridge}")
print(f"Ridge Polinomial grado 2 - R2 test: {r2_test_ridge}")

print(f"Coeficientes Ridge Polinomial grado 2:\n{ridge_poly.coef_}")
print(f"Intercepto:\n{ridge_poly.intercept_}")

Ridge Polinomial grado 2 - R2 train: 0.9999389836837981
Ridge Polinomial grado 2 - R2 test: 0.9994283562079859
Coeficientes Ridge Polinomial grado 2:
[ 1.19492048e+04 -5.55685005e+00  7.01678860e+03  1.49430374e+04
 -1.53976613e+04  1.75290786e+04  9.07624924e+03  6.25696684e+01
  5.72799549e+01 -3.88754351e+03  8.88522883e+03 -1.94374858e+03
  3.13179238e+02  7.30235425e+00 -5.99301674e-01  1.32045921e+01
  3.60906371e+00  5.11655308e+00 -3.56941514e+00 -2.82748156e+00
  3.57509982e+00  1.37524846e+01 -1.78946784e+02 -9.30010749e+01
  9.90988773e+03  4.74820594e+03 -7.49247724e+02  5.17574138e+03
 -5.72523169e+03 -1.90142588e+02 -5.86378590e+01 -2.92380985e+03
 -2.32926031e+03 -8.40397672e+02  3.09285370e+02 -8.16990203e+01
  2.62695484e+01  5.50188218e+01 -4.06240466e+01  1.34071751e+01
  9.28472172e-01 -4.41631999e+01  1.56508976e+02  2.34837858e+02
 -1.09107720e+01 -2.96815177e+01 -7.88204609e+01  9.31588763e+01
 -9.35970252e+01  2.10623839e+02  4.83562162e+01  1.03168248e+01
  1.1

**Interpretación Alpha = 0.1:**

- El modelo Ridge apenas penaliza los coeficientes, por lo que los betas siguen siendo grandes y el ajuste (R^2) es casi perfecto tanto en train como en test. Esto indica que el modelo sigue sobreajustando, explicando casi toda la variabilidad, pero los coeficientes pueden ser inestables ante nuevos datos.

In [250]:
# Ridge con alpha = 10
ridge_poly = Ridge(alpha=10)
ridge_poly.fit(X2_train, y_train)

# Predicción 
y2_train_pred = ridge_poly.predict(X2_train)
y2_test_pred = ridge_poly.predict(X2_test)

r2_train_ridge = r2_score(y_train, y2_train_pred)
r2_test_ridge = r2_score(y_test, y2_test_pred)

print(f"Ridge Polinomial grado 2 - R2 train: {r2_train_ridge}")
print(f"Ridge Polinomial grado 2 - R2 test: {r2_test_ridge}")

Ridge Polinomial grado 2 - R2 train: 0.9961778857531101
Ridge Polinomial grado 2 - R2 test: 0.9840094099825822


**Alpha = 10:**

- La penalización es más fuerte. Los coeficientes (betas) se reducen notablemente en magnitud, lo que hace el modelo más estable y menos sensible al ruido. 
- El R^2 baja ligeramente, pero el modelo es menos propenso al sobreajuste y generaliza mejor.

In [251]:
# Ridge con alpha = 100
ridge_poly = Ridge(alpha=100)
ridge_poly.fit(X2_train, y_train)

# Predicción 
y2_train_pred = ridge_poly.predict(X2_train)
y2_test_pred = ridge_poly.predict(X2_test)

r2_train_ridge = r2_score(y_train, y2_train_pred)
r2_test_ridge = r2_score(y_test, y2_test_pred)

print(f"Ridge Polinomial grado 2 - R2 train: {r2_train_ridge}")
print(f"Ridge Polinomial grado 2 - R2 test: {r2_test_ridge}")

Ridge Polinomial grado 2 - R2 train: 0.9864985677087937
Ridge Polinomial grado 2 - R2 test: 0.9629013415061379


**Alpha = 100:**

La regularización es muy fuerte. Los coeficientes se achican mucho, perdiendo peso la mayoría de las variables. El R^2 baja más, lo que indica que el modelo explica menos variabilidad, pero es mucho más robusto y simple. Aquí el modelo prioriza la estabilidad sobre el ajuste perfecto.

**Interpretación general Regresion Polinomial con Penalización L2 Ridge**

A mayor alpha, los coeficientes se reducen y el modelo se vuelve más estable y menos complejo, pero puede perder capacidad de ajuste. Ridge ayuda a evitar el sobreajuste y a obtener betas más razonables, aunque el poder explicativo puede disminuir si la penalización es excesiva.

### Regresión Polinomial con Regularización L1 Lasso

In [252]:
from sklearn.linear_model import Lasso

# Transformar los datos de entrenamiento y prueba con polinomio grado 2
X2_train = poly2.transform(x_train_scaled)
X2_test = poly2.transform(scaler.transform(x_test))

# Lasso con alpha = 0.1
lasso_poly = Lasso(alpha=0.1, max_iter=10000)
lasso_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = lasso_poly.predict(X2_train)
y2_test_pred = lasso_poly.predict(X2_test)

r2_train_lasso = r2_score(y_train, y2_train_pred)
r2_test_lasso = r2_score(y_test, y2_test_pred)

print(f"Lasso Polinomial grado 2 - R2 train: {r2_train_lasso}")
print(f"Lasso Polinomial grado 2 - R2 test: {r2_test_lasso}")
print(f"Coeficientes Lasso Polinomial grado 2:\n{lasso_poly.coef_}")
print(f"Intercepto:\n{lasso_poly.intercept_}")

Lasso Polinomial grado 2 - R2 train: 0.9999291679309867
Lasso Polinomial grado 2 - R2 test: 0.9992901712773773
Coeficientes Lasso Polinomial grado 2:
[ 1.55859090e+04  1.60156179e+03  3.05408313e+04  1.07344576e+04
 -1.97337151e+04  1.71101750e+04 -8.31891253e+03 -8.89751188e+01
 -1.19028013e+01 -1.14170850e+04  5.73714387e+03  1.35625408e+03
 -9.60309921e+03 -8.36146897e+02  3.64371719e+02  4.71951236e+02
 -9.63784592e+02  1.58981280e+03 -0.00000000e+00 -6.34968271e+01
  0.00000000e+00  1.46655362e+03 -9.33973018e+01  3.79954238e+02
  2.16328681e+04  9.97097815e+03 -3.82702927e+02  3.39144047e+02
 -6.98652988e+03 -2.26056260e+02 -1.78581083e+02 -7.82851932e+03
 -1.60152904e+03 -1.27232615e+03 -1.13611185e+04 -9.85783763e+01
  4.19778073e+01  2.66541539e+01 -7.14555500e+01  1.90833458e+02
  3.60499619e+02  3.40549623e+02  9.76953919e+01  3.47422803e+02
 -9.34397928e+02  4.77466714e+00  1.26973546e+02  1.13965703e+02
  1.62193876e+01 -6.41981056e+01  0.00000000e+00 -7.38800827e+01
  2.9

**Interpretación Alpha = 0.1**

- El modelo apenas penaliza los coeficientes, por lo que la mayoría de los betas siguen teniendo valores distintos de cero.
- El ajuste (R²) es muy alto tanto en train como en test, lo que indica que el modelo sigue explicando casi toda la variabilidad.
- Lasso empieza a reducir los coeficientes menos relevantes, pero aún no elimina variables por completo.

In [253]:
# Lasso con alpha = 10
lasso_poly = Lasso(alpha=10, max_iter=10000)
lasso_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = lasso_poly.predict(X2_train)
y2_test_pred = lasso_poly.predict(X2_test)

r2_train_lasso = r2_score(y_train, y2_train_pred)
r2_test_lasso = r2_score(y_test, y2_test_pred)

print(f"Lasso Polinomial grado 2 - R2 train: {r2_train_lasso}")
print(f"Lasso Polinomial grado 2 - R2 test: {r2_test_lasso}")

Lasso Polinomial grado 2 - R2 train: 0.99981253512057
Lasso Polinomial grado 2 - R2 test: 0.9992745489456877


**Alpha = 10**
- La penalización es mucho más fuerte.
- Varios coeficientes se reducen drásticamente y muchos se vuelven exactamente cero.
- El modelo elimina variables irrelevantes, quedando solo las más importantes.
- El R^2 baja, pero el modelo se vuelve más simple y menos propenso al sobreajuste.

In [254]:
# Lasso con alpha = 100
lasso_poly = Lasso(alpha=100, max_iter=10000)
lasso_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = lasso_poly.predict(X2_train)
y2_test_pred = lasso_poly.predict(X2_test)

r2_train_lasso = r2_score(y_train, y2_train_pred)
r2_test_lasso = r2_score(y_test, y2_test_pred)

print(f"Lasso Polinomial grado 2 - R2 train: {r2_train_lasso}")
print(f"Lasso Polinomial grado 2 - R2 test: {r2_test_lasso}")

Lasso Polinomial grado 2 - R2 train: 0.9980642188459469
Lasso Polinomial grado 2 - R2 test: 0.996318934361431


**Alpha = 100**
- La regularización es extrema.
- La mayoría de los coeficientes se llevan a cero, dejando muy pocas variables en el modelo.
- El R^2 baja aún más, lo que significa que el modelo explica menos variabilidad.
- El modelo prioriza la simplicidad y la robustez, pero pierde capacidad de ajuste.


### Interpretacion general Lasso

A mayor alpha, Lasso reduce más coeficientes a cero, eliminando variables y simplificando el modelo. Esto ayuda a evitar el sobreajuste y a seleccionar solo los factores más relevantes, aunque puede perder poder explicativo si la penalización es excesiva.

### Regresión Polinomial con Regularización ElasticNet

In [255]:
### Regresión Polinomial con Regularización Elastic Net

from sklearn.linear_model import ElasticNet

# Transformar los datos de entrenamiento y prueba con polinomio grado 2
X2_train = poly2.transform(x_train_scaled)
X2_test = poly2.transform(scaler.transform(x_test))

# Elastic Net con alpha = 0.1 y l1_ratio = 0.5
elastic_poly = ElasticNet(alpha=0.1, l1_ratio=0.5, max_iter=10000)
elastic_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = elastic_poly.predict(X2_train)
y2_test_pred = elastic_poly.predict(X2_test)

r2_train_elastic = r2_score(y_train, y2_train_pred)
r2_test_elastic = r2_score(y_test, y2_test_pred)

print(f"ElasticNet Polinomial grado 2 - R2 train: {r2_train_elastic}")
print(f"ElasticNet Polinomial grado 2 - R2 test: {r2_test_elastic}")
print(f"Coeficientes ElasticNet Polinomial grado 2:\n{elastic_poly.coef_}")
print(f"Intercepto:\n{elastic_poly.intercept_}")


ElasticNet Polinomial grado 2 - R2 train: 0.995384937616926
ElasticNet Polinomial grado 2 - R2 test: 0.9813863076760136
Coeficientes ElasticNet Polinomial grado 2:
[ 2.85086182e+03  3.39126993e+01  4.01222125e+03  4.94772535e+03
 -3.36899783e+03  5.63962616e+03  4.18039299e+03 -2.14493873e+02
 -2.84593546e+01 -1.42232333e+03  3.35321617e+03 -8.11491985e+02
  1.60875699e+02 -9.43270931e+00  5.23980482e+01 -2.28784234e+01
 -1.38447847e+02 -4.76272791e+01  1.00922127e+01 -3.12260407e+01
  3.22284073e+01  5.07297490e+01  1.53981286e+02 -3.72643313e+02
  1.05635565e+03 -1.24872233e+03  1.72832955e+03 -1.50702614e+03
 -1.75549081e+03 -5.28409480e+02  2.65902871e+02 -9.37189049e+02
 -1.18312957e+03 -6.70594018e+02  3.46516772e+02  2.16034613e+01
  4.17146705e+02  3.84126422e+02 -3.26428681e+02 -2.59426332e+02
  3.02225936e+01  1.33056682e+02  3.55072035e+02  8.03136039e+02
 -8.32528615e+00  1.42943310e+02  1.94917455e+01  4.39123705e+02
 -1.88425573e+01  4.36403748e+01  1.70594697e+02 -2.9508

In [256]:
# Elastic Net con alpha = 10 y l1_ratio = 0.8
elastic_poly = ElasticNet(alpha=10, l1_ratio=0.8, max_iter=10000)
elastic_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = elastic_poly.predict(X2_train)
y2_test_pred = elastic_poly.predict(X2_test)

r2_train_elastic = r2_score(y_train, y2_train_pred)
r2_test_elastic = r2_score(y_test, y2_test_pred)

print(f"ElasticNet Polinomial grado 2 - R2 train: {r2_train_elastic}")
print(f"ElasticNet Polinomial grado 2 - R2 test: {r2_test_elastic}")

ElasticNet Polinomial grado 2 - R2 train: 0.9526739220213911
ElasticNet Polinomial grado 2 - R2 test: 0.9251567090000022


In [257]:
# Elastic Net con alpha = 100 y l1_ratio = 0.8
elastic_poly = ElasticNet(alpha=100, l1_ratio=0.8, max_iter=10000)
elastic_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = elastic_poly.predict(X2_train)
y2_test_pred = elastic_poly.predict(X2_test)

r2_train_elastic = r2_score(y_train, y2_train_pred)
r2_test_elastic = r2_score(y_test, y2_test_pred)

print(f"ElasticNet Polinomial grado 2 - R2 train: {r2_train_elastic}")
print(f"ElasticNet Polinomial grado 2 - R2 test: {r2_test_elastic}")

ElasticNet Polinomial grado 2 - R2 train: 0.6798387461601714
ElasticNet Polinomial grado 2 - R2 test: 0.6469481239405539


In [258]:
# Elastic Net con alpha = 10 y l1_ratio = 0.3
elastic_poly = ElasticNet(alpha=10, l1_ratio=0.3, max_iter=10000)
elastic_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = elastic_poly.predict(X2_train)
y2_test_pred = elastic_poly.predict(X2_test)

r2_train_elastic = r2_score(y_train, y2_train_pred)
r2_test_elastic = r2_score(y_test, y2_test_pred)

print(f"ElasticNet Polinomial grado 2 - R2 train: {r2_train_elastic}")
print(f"ElasticNet Polinomial grado 2 - R2 test: {r2_test_elastic}")

ElasticNet Polinomial grado 2 - R2 train: 0.8554644726003577
ElasticNet Polinomial grado 2 - R2 test: 0.8202029455349724


In [259]:
# Elastic Net con alpha = 100 y l1_ratio = 0.3
elastic_poly = ElasticNet(alpha=100, l1_ratio=0.3, max_iter=10000)
elastic_poly.fit(X2_train, y_train)

# Predicción
y2_train_pred = elastic_poly.predict(X2_train)
y2_test_pred = elastic_poly.predict(X2_test)

r2_train_elastic = r2_score(y_train, y2_train_pred)
r2_test_elastic = r2_score(y_test, y2_test_pred)

print(f"ElasticNet Polinomial grado 2 - R2 train: {r2_train_elastic}")
print(f"ElasticNet Polinomial grado 2 - R2 test: {r2_test_elastic}")

ElasticNet Polinomial grado 2 - R2 train: 0.3974166121374071
ElasticNet Polinomial grado 2 - R2 test: 0.3815959066145175


#### ElasticNet combina Lasso y Ridge, así que el efecto depende de ambos parámetros:

**Interpretacion Alpha = 0.1 (penalización baja)**
- **l1_ratio = 0.5 y 0.8 y 0.3**  
  - El modelo apenas penaliza los coeficientes, por lo que la mayoría de los betas siguen teniendo valores distintos de cero.
  - El R^2 es muy alto tanto en train como en test, indicando que el modelo explica casi toda la variabilidad.
  - ElasticNet empieza a reducir coeficientes menos relevantes, pero aún no elimina variables por completo.
  - El efecto de l1_ratio:
    - **0.3:** Más parecido a Ridge, los coeficientes se reducen pero pocos llegan a cero.
    - **0.5:** Balance entre Ridge y Lasso, algunos coeficientes se acercan a cero.
    - **0.8:** Más parecido a Lasso, más coeficientes pequeños y algunos pueden ser cero.

**Alpha = 10 (penalización media)**
- **l1_ratio = 0.5 y 0.8 y 0.3**
  - La penalización es mucho más fuerte.
  - Varios coeficientes se reducen drásticamente y muchos se vuelven exactamente cero, eliminando variables irrelevantes.
  - El R^2 baja, pero el modelo se vuelve más simple y menos propenso al sobreajuste.
  - El efecto de l1_ratio:

**Alpha = 100 (penalización alta)**
- **l1_ratio = 0.5 y 0.8 y 0.3**
  - La regularización es extrema.
  - La mayoría de los coeficientes se llevan a cero, dejando muy pocas variables en el modelo.
  - El R² baja aún más, el modelo explica menos variabilidad pero es muy robusto y simple.



**Interpretación general ElasticNet**

- A mayor alpha, ElasticNet reduce más coeficientes a cero y simplifica el modelo, sacrificando poder explicativo.
- A mayor l1_ratio, el modelo se comporta más como Lasso (más coeficientes en cero).
- A menor l1_ratio, el modelo se comporta más como Ridge (coeficientes pequeños pero no necesariamente cero).
- El mejor balance depende de tu objetivo: si quieres simplicidad y selección de variables, usa alpha alto y l1_ratio alto; si prefieres mantener más variables, usa alpha bajo y l1_ratio bajo.

---
### 3. Lineal Múltiple usando Precio Efectivo (variale obtenida)

## Creación del modelo (Seleccionar "x" y "y", Cross-Validation (Train-Test Split))

In [260]:
#Preparar los datos para mi modelo
data_3 = data.copy()

# Columna precio efectivo
data_3['Precio_efectivo'] = data_3['Sale Price'] - (data_3['Discounts'] / data_3['Units Sold'])

# Columnas dummies
dummy_cols = []
for col in data_3.columns:
    if col.startswith(('Segment_', 'Country_', 'Product_')):
        dummy_cols.append(col)

y = data_3['Profit']
X = data_3[['Units Sold', 'Precio_efectivo'] + dummy_cols]

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.4, random_state = 137)

## Selección del Modelo (Regresión Lineal)

#### Regresiones utilizando los datos de entrenamiento

In [261]:
# Sin penalización

# Escalamiento
scaler = StandardScaler().fit(X_train)
X_scaled_train= scaler.transform(X_train)

n=len(X_scaled_train)
unos = np.ones([n,1])

X = np.hstack([unos, X_scaled_train])
ols = sm.OLS(y_train,X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Profit,R-squared:,0.763
Model:,OLS,Adj. R-squared:,0.75
Method:,Least Squares,F-statistic:,56.69
Date:,"Mon, 29 Sep 2025",Prob (F-statistic):,1.8900000000000002e-73
Time:,13:27:01,Log-Likelihood:,-3199.5
No. Observations:,280,AIC:,6431.0
Df Residuals:,264,BIC:,6489.0
Df Model:,15,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.617e+04,1366.178,19.158,0.000,2.35e+04,2.89e+04
x1,1.296e+04,1446.333,8.958,0.000,1.01e+04,1.58e+04
x2,4.131e+04,1763.861,23.422,0.000,3.78e+04,4.48e+04
x3,-1.953e+04,1894.345,-10.312,0.000,-2.33e+04,-1.58e+04
x4,-4750.1886,2252.833,-2.109,0.036,-9185.995,-314.382
x5,-3625.3333,1796.309,-2.018,0.045,-7162.249,-88.418
x6,-2.077e+04,2206.906,-9.413,0.000,-2.51e+04,-1.64e+04
x7,-506.5224,1683.500,-0.301,0.764,-3821.318,2808.274
x8,1081.4579,1739.686,0.622,0.535,-2343.968,4506.884

0,1,2,3
Omnibus:,85.892,Durbin-Watson:,1.983
Prob(Omnibus):,0.0,Jarque-Bera (JB):,525.558
Skew:,1.081,Prob(JB):,7.52e-115
Kurtosis:,9.354,Cond. No.,3.42


**Interpretación Regresión sin penalización con datos de entrenamiento**

* El modelo tiene un R^2 de 0.763 el cual nos dice que hay una variabilidad del profit del 76.3%
* Units sold cuenta con un coeficiente positivo y con significancia estadistica, lo cual nos dice que a mayor volumen de ventas más profit
* El precio efectivo también cuenta con un coeficiente positivo y con significancia estadistica, lo cual nos dice que precios netos más altos, ajustados por descuentos, incrementan el Profit.
* Varios segmentos con significancia estadistica cuentan con coeficientes negativos lo cual nos dice que reducen el profit, segmentos como Enterprise, Government, Midmarket, Small Business reducen el Profit frente al segmento base Consumer.
* Las variables de los paises no cuentan con signifciancia estadistica, lo cual nos dice que no afecta en el profit

In [262]:
# Con penalización Ridge
l2 = Ridge(alpha = 0.1)
l2.fit(X_scaled_train, y_train)
y_pred = l2.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.7631008110612786
Constante: 26173.29235714285
Coeficiente: [ 12949.65770228  41275.42041014 -19500.06439073  -4708.23589834
  -3607.91095061 -20723.30285169   -507.2792443    1079.00610192
  -1528.15779965  -2835.08640722   -880.45467747   -923.28484867
  -1181.07156767   1193.00015638    212.11039169]


In [269]:
# Con penalización Ridge
l2 = Ridge(alpha = 10)
l2.fit(X_scaled_train, y_train)
y_pred = l2.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.7587058857788099
Constante: 26173.29235714285
Coeficiente: [ 12381.99983894  37997.41403372 -16806.36630231  -1431.94120792
  -2323.32180427 -16687.75430187   -542.7572227     902.70979908
  -1392.80851182  -2799.34577769   -590.21336339   -665.14842775
  -1077.58877405   1009.2455994     143.37230504]


In [270]:
# Con penalización Ridge
l2 = Ridge(alpha = 1000)
l2.fit(X_scaled_train, y_train)
y_pred = l2.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.2874056019998592
Constante: 26173.292357142855
Coeficiente: [ 2713.29584518  6668.32442093 -2758.68089074  2993.52785088
 -1140.12352347   426.56608017   205.36977153   271.63588247
  -324.71189541  -617.97840542  -255.88555866   425.30764077
  -189.04413734    35.22615653  -463.02392109]


**Interpretación Regresión con penalización Ridge (α = 0.1) con datos de entrenamiento**

* El modelo tiene un R² de 0.763, lo que significa que explica el 76.3% de la variabilidad del Profit, prácticamente igual que el modelo sin penalización.
* Units Sold mantiene un coeficiente positivo y fuerte, lo cual confirma que un mayor volumen de ventas incrementa significativamente el Profit.
* Precio efectivo también conserva un coeficiente positivo y elevado, mostrando que precios netos más altos (después de descuentos) aumentan el Profit.
 * Los segmentos (Enterprise, Government, Midmarket y Small Business) presentan coeficientes negativos, lo que indica que reducen el Profit frente al segmento base (Consumer). Ridge suavizó ligeramente estos valores, pero el efecto sigue siendo claro.
  * Las variables de países y productos no muestran un efecto relevante en el Profit, lo que confirma que su influencia es poco significativa en este modelo.


In [263]:
# Con penalización Lasso
l1 = Lasso(alpha = 0.1)
l1.fit(X_scaled_train, y_train)
y_pred = l1.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.7631014326594544
Constante: 26173.29235714285
Coeficiente: [ 12955.75519359  41313.22553347 -19533.00529492  -4749.31312881
  -3624.81863301 -20772.2458942    -506.33696028   1081.43398179
  -1529.49533529  -2834.96647978   -884.26135517   -926.36844669
  -1182.28647016   1195.04028301    212.53204218]


In [271]:
# Con penalización Lasso
l1 = Lasso(alpha = 10)
l1.fit(X_scaled_train, y_train)
y_pred = l1.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.7630990680056805
Constante: 26173.29235714285
Coeficiente: [ 12941.73896508  41271.557023   -19465.78702124  -4662.65685775
  -3573.8711864  -20692.23578906   -487.97821249   1079.0687329
  -1504.98825592  -2811.9536236    -855.69539672   -902.54821157
  -1159.93154465   1192.40945933    215.30537291]


In [272]:
# Con penalización Lasso
l1 = Lasso(alpha = 1000)
l1.fit(X_scaled_train, y_train)
y_pred = l1.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.7526523332949329
Constante: 26173.29235714285
Coeficiente: [ 11683.72534053  38194.61273508 -15113.99013386      0.
   -379.31586421 -15366.9031382      -0.            536.83928781
     -0.          -1334.54872343     -0.             -0.
     -0.            248.97072653      0.        ]


**Interpretación Regresión con penalización Lasso (α = 0.1) con datos de entrenamiento**

* El modelo tiene un R² de 0.763, lo que significa que explica aproximadamente el 76.3% de la variabilidad del Profit, igual que en los modelos sin penalización y con Ridge.
* Units Sold mantiene un coeficiente positivo y fuerte, confirmando que un mayor volumen de ventas incrementa significativamente el Profit.
* El Precio efectivo conserva un coeficiente positivo y elevado, lo que indica que precios netos más altos (después de aplicar descuentos) aumentan el Profit.
* Los segmentos (Enterprise, Government, Midmarket y Small Business) presentan coeficientes negativos, reduciendo el Profit en comparación con el segmento base (Consumer).
* Las variables de países y productos muestran coeficientes más pequeños y cercanos a cero, lo que refleja que Lasso está reduciendo la relevancia de factores con poca contribución al modelo.
* A diferencia de Ridge, Lasso puede llevar a cero coeficientes irrelevantes conforme le subamos el alpha, en este caso los coeficientes se reducen pero aún no desaparecen por completo hasta que le aumentamos el alpha.


In [264]:
# Penalización elastic net
le = ElasticNet(alpha = 0.1)
le.fit(X_scaled_train, y_train)
y_pred = le.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.7554496103202067
Constante: 26173.29235714285
Coeficiente: [ 12175.42614909  36895.07797075 -15984.71130088   -475.20720913
  -1983.70966417 -15435.5491577    -542.04681855    857.61078214
  -1347.83836641  -2775.74546352   -517.76784366   -588.44323343
  -1049.43699113    946.35728316    107.04535165]


In [273]:
# Penalización elastic net
le = ElasticNet(alpha = 10)
le.fit(X_scaled_train, y_train)
y_pred = le.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.22937913477938654
Constante: 26173.292357142855
Coeficiente: [ 2070.35759783  5095.6499744  -2138.30157991  2360.14762369
  -959.41938095   434.21924901   180.79046741   209.82681122
  -254.48887861  -468.48056532  -210.2783573    360.1603991
  -143.278962      23.21004099  -375.37584155]


In [274]:
# Penalización elastic net
le = ElasticNet(alpha = 1000)
le.fit(X_scaled_train, y_train)
y_pred = le.predict(X_scaled_train)
r2 = r2_score(y_train, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.0031328791709303028
Constante: 26173.292357142855
Coeficiente: [ 24.01594284  61.38612478 -26.36516756  30.38202413 -14.27462351
   8.39800245   2.20346165   1.61989847  -2.38566329  -4.56804674
  -2.18593245   4.86016401  -0.81605984   0.          -4.39076572]


**Interpretación Regresión con penalización Elastic Net (α = 0.1) con datos de entrenamiento**

* El modelo tiene un R² de 0.755, lo que significa que explica aproximadamente el 75.5% de la variabilidad del Profit, ligeramente menor que en los modelos sin penalización, Ridge y Lasso.
* Units Sold mantiene un coeficiente positivo y fuerte, confirmando que el volumen de ventas incrementa de forma significativa el Profit.
* El Precio efectivo conserva un coeficiente positivo y elevado, mostrando que precios netos más altos, ajustados por descuentos, aumentan el Profit.
* Los segmentos (Enterprise, Government, Midmarket y Small Business) siguen mostrando coeficientes negativos, reduciendo el Profit en comparación con el segmento base (Consumer). Sin embargo, Elastic Net los suaviza aún más respecto a Lasso y Ridge.
* Las variables de países y productos son empujadas aún más cerca de cero, reforzando la idea de que su efecto sobre el Profit es poco relevante en este modelo.
* Mientras más le subamos el alpha podemos ver como el modelo cambia drasticamente su R^2

### Regresiones utilizando datos de prueba


In [275]:
# Sin penalización

# Escalamiento
scaler = StandardScaler().fit(X_test)
X_scaled_test= scaler.transform(X_test)

n=len(X_scaled_test)
unos = np.ones([n,1])

X = np.hstack([unos, X_scaled_test])
ols = sm.OLS(y_test,X)
results = ols.fit()
results.summary()

0,1,2,3
Dep. Variable:,Profit,R-squared:,0.699
Model:,OLS,Adj. R-squared:,0.688
Method:,Least Squares,F-statistic:,62.67
Date:,"Mon, 29 Sep 2025",Prob (F-statistic):,2.03e-95
Time:,13:31:57,Log-Likelihood:,-4800.8
No. Observations:,420,AIC:,9634.0
Df Residuals:,404,BIC:,9698.0
Df Model:,15,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.277e+04,1108.581,20.544,0.000,2.06e+04,2.5e+04
x1,1.224e+04,1129.408,10.836,0.000,1e+04,1.45e+04
x2,3.687e+04,1498.010,24.615,0.000,3.39e+04,3.98e+04
x3,-1.803e+04,1543.797,-11.678,0.000,-2.11e+04,-1.5e+04
x4,-2776.8668,1804.418,-1.539,0.125,-6324.088,770.354
x5,-2938.1331,1493.280,-1.968,0.050,-5873.703,-2.563
x6,-1.634e+04,1859.100,-8.787,0.000,-2e+04,-1.27e+04
x7,2163.0945,1445.130,1.497,0.135,-677.820,5004.009
x8,2798.3813,1445.749,1.936,0.054,-43.749,5640.511

0,1,2,3
Omnibus:,160.775,Durbin-Watson:,2.028
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1496.604
Skew:,1.363,Prob(JB):,0.0
Kurtosis:,11.837,Cond. No.,3.71


**Interpretación Regresión sin penalización con datos de prueba**

* El modelo tiene un R² de 0.699, lo que significa que explica aproximadamente el 69.9% de la variabilidad del Profit.
* Units Sold mantiene un coeficiente positivo y fuerte, confirmando que un mayor volumen de ventas incrementa el Profit.
* El Precio efectivo conserva un coeficiente positivo y elevado, mostrando que precios netos más altos, ajustados por descuentos, aumentan el Profit.
* Los segmentos Enterprise y Small Business presentan coeficientes negativos y significativos, lo que indica que reducen el Profit frente al segmento base (Consumer).
* Otros segmentos como Government y Midmarket se acercan al ser significativos, pero no son concluyentes.
* Las variables de países y productos no resultan significativas, lo que indica que no afectan de forma clara el Profit.

In [266]:
# Con penalización Ridge
l2 = Ridge(alpha = 0.1)
l2.fit(X_scaled_test, y_test)
y_pred = l2.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.6994266816139776
Constante: 22774.239119047626
Coeficiente: [ 12234.74049737  36849.60150939 -18009.11808716  -2755.11833667
  -2928.0567371  -16305.29081163   2161.90813173   2796.6679539
   1074.07876232    490.70426879  -1486.5103126    -896.08573745
    144.90544396  -1026.29702576    219.2515296 ]


In [276]:
# Con penalización Ridge
l2 = Ridge(alpha = 10)
l2.fit(X_scaled_test, y_test)
y_pred = l2.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.6972749622969541
Constante: 22774.239119047623
Coeficiente: [ 1.18499656e+04  3.46681124e+04 -1.62940355e+04 -9.52051810e+02
 -2.12408535e+03 -1.37085960e+04  2.04805217e+03  2.63068301e+03
  8.56549066e+02  4.13502692e+02 -1.59632760e+03 -1.13691667e+03
 -3.38956011e+01 -1.00538175e+03  4.53670924e+01]


In [277]:
# Con penalización Ridge
l2 = Ridge(alpha = 1000)
l2.fit(X_scaled_test, y_test)
y_pred = l2.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l2.intercept_}")
print(f"Coeficiente: {l2.coef_}")

R2: 0.3176723822279358
Constante: 22774.23911904762
Coeficiente: [ 2809.78046981  7669.28035544 -3244.34636381  2519.09141899
 -1168.51489241  1317.51764157   434.40326421   318.99454436
  -367.88054632   -99.98890631  -505.29379725  -772.29461105
   104.99425362   411.50206756   -42.53280413]


**Interpretación Regresión con penalización Ridge (α = 0.1) con datos de prueba**

* El modelo tiene un R² de 0.699, prácticamente igual al modelo sin penalización, lo que indica que mantiene el mismo poder explicativo.
* Units Sold y Precio efectivo siguen siendo las variables más importantes con coeficientes positivos.
* Los segmentos continúan mostrando efectos negativos.
* Las variables de países y productos van cambiando mientras le aumentamos el alpha a la penalización, indicando que su efecto es poco relevante en la explicación del Profit.


In [267]:
# Con penalización Lasso
l1 = Lasso(alpha = 0.1)
l1.fit(X_scaled_test, y_test)
y_pred = l1.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.6994269552052952
Constante: 22774.239119047626
Coeficiente: [ 12238.62500893  36873.59245486 -18028.55497822  -2776.0982231
  -2937.62075037 -16334.75403773   2162.68476629   2797.9888783
   1076.06784812    491.11777829  -1484.75718658   -892.89701593
    147.38890942  -1026.0022913     221.53898875]


In [278]:
# Con penalización Lasso
l1 = Lasso(alpha = 10)
l1.fit(X_scaled_test, y_test)
y_pred = l1.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.6994236826448916
Constante: 22774.239119047626
Coeficiente: [ 12225.04493469  36828.7777772  -17964.36357039  -2700.23679901
  -2887.03891982 -16255.76258426   2122.11488858   2759.13387501
   1032.38562623    452.12749231  -1476.96356307   -889.39424853
    139.84215269  -1014.37910865    210.72028384]


In [279]:
# Con penalización Lasso
l1 = Lasso(alpha = 1000)
l1.fit(X_scaled_test, y_test)
y_pred = l1.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {l1.intercept_}")
print(f"Coeficiente: {l1.coef_}")

R2: 0.6879436509569838
Constante: 22774.239119047623
Coeficiente: [ 10828.44236821  33714.07359548 -14550.06840684      0.
   -390.4751638  -11674.77793144    334.6014033     952.44638303
     -0.             -0.           -310.98503296     -0.
      0.             -0.              0.        ]


**Interpretación Regresión con penalización Lasso (α = 0.1) con datos de prueba**

* El modelo tiene un R² de 0.699, muy similar a OLS y Ridge, manteniendo el mismo poder explicativo.
Units Sold y Precio efectivo mantienen coeficientes positivos y fuertes, confirmando su significancia como factores clave del Profit.
* Los segmentos presentan coeficientes negativos, reduciendo el Profit en comparación con el segmento base (Consumer).
* Las variables de países y productos muestran coeficientes aún más pequeños, reflejando que Lasso penaliza con mayor fuerza a las variables de menor relevancia, aunque no las eliminó hasta aumentarle el valor a alpha

In [268]:
# Penalización elastic net
le = ElasticNet(alpha = 0.1)
le.fit(X_scaled_test, y_test)
y_pred = le.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.691845281997308
Constante: 22774.239119047623
Coeficiente: [ 11450.99826003  32672.18890867 -14858.92547902    455.70906651
  -1551.78593048 -11517.33713779   1932.2364074    2458.71931801
    659.56778639    336.66909883  -1636.73025393  -1294.52394001
   -123.4831839    -932.50818717    -53.54663435]


In [280]:
# Penalización elastic net
le = ElasticNet(alpha = 10)
le.fit(X_scaled_test, y_test)
y_pred = le.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.19854567630140973
Constante: 22774.23911904762
Coeficiente: [ 1495.02887306  4344.0360647  -1853.42477971  1486.08451851
  -847.8116067   1038.18905908   245.95748476   166.41882542
  -240.82409688   -65.14471182  -292.24376272  -461.86677074
    63.48520983   314.12807465   -39.3818176 ]


In [281]:
# Penalización elastic net
le = ElasticNet(alpha = 1000)
le.fit(X_scaled_test, y_test)
y_pred = le.predict(X_scaled_test)
r2 = r2_score(y_test, y_pred)

print(f"R2: {r2}")
print(f"Constante: {le.intercept_}")
print(f"Coeficiente: {le.coef_}")

R2: 0.002676921871607507
Constante: 22774.23911904762
Coeficiente: [ 15.44519858  52.48174257 -21.85868232  17.76335711 -12.45208197
  16.13815317   2.02732707   0.97154903  -2.41859877  -0.
  -2.7083403   -4.97760164   0.           4.22981033  -0.        ]


**Interpretación Regresión con penalización Elastic Net (α = 0.1) con datos de prueba**

* El modelo tiene un R² de 0.691, lo que significa que explica aproximadamente el 69.1% de la variabilidad del Profit, ligeramente menor que en OLS, Ridge y Lasso.
* Units Sold mantiene un coeficiente positivo y fuerte, confirmando que el volumen de ventas incrementa de forma significativa el Profit.
* El Precio efectivo conserva un coeficiente positivo y elevado, mostrando que precios netos más altos, ajustados por descuentos, aumentan el Profit.
* Los segmentos (Enterprise, Government, Midmarket y Small Business) continúan mostrando coeficientes negativos, reduciendo el Profit en comparación con el segmento base (Consumer), aunque Elastic Net los suaviza más respecto a Ridge y Lasso.
* Las variables de países y productos se acercan aún más cerca a cero, reforzando que su impacto en el Profit es poco relevante dentro del modelo.

---
## Pipeline Diagrama
<img src="Pipeline P01.png">

---

## Comparaciones R2 de todos los modelos

| Modelo   | Versión                                   | R² Entrenamiento | R² Prueba |
|----------|-------------------------------------------|------------------|-----------|
| Modelo 1 | Sin penalización                         | 1.0000           | 1.0000    |
|          | Ridge (α=0.1)                            | 0.9979           | 0.9988    |
|          | Lasso (α=0.1)                            | 0.9993           | 0.9996    |
|          | ElasticNet (α=0.1)                       | 0.9492           | 0.9996    |
| Modelo 2 | Sin penalización (Polinomial grado 2)    | 1.0000           | 0.9999    |
|          | Ridge (α=0.1) (Polinomial grado 2)       | 0.9999           | 0.9994    |
|          | Lasso (α=0.1) (Polinomial grado 2)       | 0.9999           | 0.9993    |
|          | ElasticNet (α=0.1) (Polinomial grado 2)  | 0.9954           | 0.9814    |
| Modelo 3 | Sin penalización                         | 0.7630           | 0.6990    |
|          | Ridge (α=0.1)                            | 0.7631           | 0.6994    |
|          | Lasso (α=0.1)                            | 0.7631           | 0.6994    |
|          | ElasticNet (α=0.1)                       | 0.7554           | 0.6918    |

###  Interpretación de los modelos según R²

* **Modelo 1 (Lineal simple con variables básicas):**
  * Tiene un **R^2 = 1 en entrenamiento y prueba** sin penalización, lo que indica un ajuste perfecto, aunque esto puede ser una señal de **sobreajuste**.
  * Ridge y Lasso mantienen un ajuste casi perfecto, confirmando que el modelo es muy simple y los datos son fáciles de ajustar.
  * ElasticNet reduce mucho el R^2 en entrenamiento (0.9492), pero en prueba sigue altísimo (0.9996), mostrando que la penalización evita sobreajuste en entrenamiento sin perder capacidad predictiva en prueba.

* **Modelo 2 (Polinomial grado 2):**
  * También muestra **R^2 ≈ 1 en entrenamiento y prueba** sin penalización, lo que nuevamente apunta a un posible **sobreajuste** por la mayor complejidad del polinomio.
  * Ridge y Lasso logran mantener valores cercanos a 1, con un pequeño ajuste en los datos de prueba (0.9993–0.9994).
  * ElasticNet penaliza más fuerte y reduce el R^2 en entrenamiento (0.9954) y sobre todo en prueba (0.9814), mostrando que introduce un mayor sesgo pero protege contra el exceso de complejidad.

* **Modelo 3 (Lineal más simple y realista):**
  * Aquí los R^2 bajan significativamente (**0.763 en entrenamiento y 0.699 en prueba** sin penalización), mostrando que este modelo **no explica toda la variabilidad** del profit, pero sí captura una parte razonable.
  * Ridge y Lasso apenas cambian los resultados (0.763–0.699), lo cual indica que la regularización no aporta mucho valor porque el modelo ya es simple.
  * ElasticNet reduce un poco el R^2 tanto en entrenamiento como en prueba, lo cual sugiere que está penalizando de más en un modelo que ya era parco.



---

# Conclusión General

**Propósito del notebook.**  
Buscamos predecir y entender **Profit** con tres enfoques de regresión (Lineal Múltiple, Polinomial g2 y Lineal Múltiple con *Precio Efectivo*), evaluando desempeño, significancia/estabilidad de coeficientes y el efecto de penalizaciones (Ridge, Lasso y Elastic Net). Con base en los resultados y las métricas, los objetivos **sí se cumplieron**.

## 1) Regresión Lineal Múltiple (variables originales)
- **Qué mostró:** desempeño **muy alto** y consistente. Con penalización, los coeficientes se estabilizan sin perder prácticamente ajuste.  
- **Lectura:** aparecen señales de **multicolinealidad** (p-values inestables y betas sensibles a alpha), típico cuando las variables comerciales están fuertemente relacionadas.  
- **Aporte a objetivos:** confirma que, con los datos “crudos”, el **Profit** se explica de forma casi determinística y la regularización ayuda a darle estabilidad al modelo.

## 2) Regresión Polinomial (grado 2)
- **Qué mostró:** el **mejor desempeño predictivo** del notebook. El modelo sin penalización llegó a **R^2 = 1** (y = 0.99999998 en prueba), lo que **al principio levantó la bandera de posible *overfit***. Al revisar penalizaciones (Ridge/Lasso/EN) el R² se mantuvo extraordinariamente alto, a la vez que se redujo la inestabilidad de los coeficientes.  
- **Lectura:** las **no linealidades e interacciones** capturan muy bien la señal, pero también incrementan la colinealidad (alertas de diseño singular en OLS).  
- **Aporte a objetivos:** demuestra que el componente no lineal es relevante para explicar Profit y que la regularización equilibra precisión y estabilidad.

## 3) Lineal Múltiple con *Precio Efectivo* (variable obtenida)
- **Qué mostró:** un ajuste **más moderado** (alrededor de 0.7 en test) pero con lectura más **limpia**: *Precio Efectivo* y **Units Sold** se consolidan como factores principales.  
- **Lectura:** menor colinealidad percibida a cambio de menor R² que en los otros enfoques.  
- **Aporte a objetivos:** ofrece **parsimonia** e interpretabilidad clara de los *drivers*, útil para análisis y comunicación.

---

## Comparación frente a lo que se buscaba
- **Comparar enfoques:** logrado. Hay un gradiente claro:  
  - **Máxima precisión:** Polinomial g2 (con la nota del posible *overfit* inicial cuando R² = 1).  
  - **Precisión alta y estable:** Lineal Múltiple con regularización.  
  - **Mayor simplicidad e interpretabilidad:** Lineal con *Precio Efectivo*.  
- **Significancia/coeficientes y efecto de penalización:** documentado. Se observa cómo Ridge estabiliza, Lasso induce *sparsity* y Elastic Net equilibra ambos.  
- **Pipeline y evaluación:** limpieza, escalamiento, *train/test* y análisis están completos y trazables.

---

## Cierre
El notebook muestra que **Profit** puede modelarse con **altísima precisión** cuando se permiten interacciones (polinomial g2), y también que existe una alternativa **más sencilla y explicable** (precio efectivo + units) con desempeño razonable. En resumen, se cumplieron los objetivos: se compararon enfoques, se cuantificó su rendimiento y se entendieron los factores clave—dejando claro el balance entre **precisión**, **estabilidad** e **interpretabilidad**.


---
### Bibliografia APA

- IBM. (2021). What Is Linear Regression? Think. https://www.ibm.com/think/topics/linear-regression
- Conzmr. (2017). Regresión Polinomial. Recuperado de https://conzmr.wordpress.com/2017/04/04/regresion-polinomial/
- Camacho, C. (s. f.). Interacción en regresión [PDF]. Universidad de Sevilla. Recuperado de https://personal.us.es/vararey/interaccion1.pdf
- ChReInvent. (s. f.). Valor-p en regresión lineal. Recuperado de https://www.chreinvent.com/recursos/valor-p-en-regresi%C3%B3n-lineal
- IBM. (2023). ¿Qué es regression de ridge? Think. https://www.ibm.com/mx-es/think/topics/ridge-regression
- Amat Rodrigo, J. (2016). Selección de predictores, regularización ridge, lasso, elasticnet y reducción de dimensionalidad. Cienciadedatos.net. Recuperado de https://cienciadedatos.net/documentos/31_seleccion_de_predictores_subset_selection_ridge_lasso_dimension_reduction
- Interactive Chaos. (s. f.). Elastic Net. Recuperado de https://interactivechaos.com/es/manual/tutorial-de-machine-learning/elastic-net
- Company Financials Dataset. (2023, August 1). https://www.kaggle.com/datasets/atharvaarya25/financials/data