5. Uma rede de lojas de material de construção (CONSTRUCAO) que atua em 52 regiões quer fazer um estudo sobre a quantidade vendida (`qt_vend`) de determinado tipo de material. 

Como possíveis informações que poderiam ter alguma influência estão:
- Gasto com propaganda (`gast_prop`)
- Número de contas ativas (`n_cont`)
- Número de marcas (`n_marc`)
- Número de lojas na região (`n_loj`)

Processe a análise de regressão LASSO, Ridge e Elastic Net. Analise os resultados obtidos e compare os pesos dos parâmetros em cada um dos modelos.

- Quais são as variáveis mais importantes?
- Alguma delas tem peso negativo? Qual?

In [6]:
# Importing the necessary libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso, Ridge, ElasticNet
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error


In [8]:
# Loading Data

dados = pd.read_excel('/Users/fabicampanari/Desktop/class_9-Exam Lasso nand Ridge/Codes and Dataset/Construcao.xlsx')

In [None]:
# Displaying the first few rows and summary statistics of the dataset
dados.head()
dados.describe()

Unnamed: 0,qt_venda,gast_prop,n_cont,n_marc,n_loj
count,52.0,52.0,52.0,52.0,52.0
mean,170.221154,5.407692,51.846154,9.115385,9.884615
std,83.748911,1.813873,14.07457,2.556452,4.680598
min,30.6,2.5,26.0,4.0,3.0
25%,100.275,4.0,40.0,8.0,6.0
50%,159.8,5.5,51.5,9.0,9.0
75%,223.325,6.7,62.0,11.0,14.0
max,339.7,9.0,75.0,13.0,19.0


In [12]:
# Defining features (X) and target (y)
X = dados[['gast_prop', 'n_cont', 'n_marc', 'n_loj']]
y = dados['qt_venda']

In [13]:
# Splitting the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardizing the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Initializing models
lasso = Lasso(alpha=0.1, random_state=42)
ridge = Ridge(alpha=0.1, random_state=42)
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)

# Fitting models
lasso.fit(X_train_scaled, y_train)
ridge.fit(X_train_scaled, y_train)

In [17]:
# Fitting the ElasticNet model
elastic_net.fit(X_train_scaled, y_train)

# Predicting and calculating MSE
lasso_pred = lasso.predict(X_test_scaled)
ridge_pred = ridge.predict(X_test_scaled)
elastic_net_pred = elastic_net.predict(X_test_scaled)

print("LASSO MSE:", mean_squared_error(y_test, lasso_pred))
print("Ridge MSE:", mean_squared_error(y_test, ridge_pred))
print("Elastic Net MSE:", mean_squared_error(y_test, elastic_net_pred))

# Extracting coefficients
lasso_coef = lasso.coef_
ridge_coef = ridge.coef_
elastic_net_coef = elastic_net.coef_

# Displaying coefficients
coef_df = pd.DataFrame({
    'Feature': X.columns,
    'LASSO': lasso_coef,
    'Ridge': ridge_coef,
    'ElasticNet': elastic_net_coef
})
print(coef_df)

LASSO MSE: 119.14240507460494
Ridge MSE: 120.99497636703667
Elastic Net MSE: 114.1938817519031
     Feature      LASSO      Ridge  ElasticNet
0  gast_prop   4.485258   4.599227    4.884537
1     n_cont  45.642874  45.559141   43.636759
2     n_marc -55.021349 -54.981959  -52.791614
3      n_loj   2.649266   2.784413    3.776324


In [18]:

# Identifying important variables and negative weights
important_vars = coef_df.loc[coef_df[['LASSO', 'Ridge', 'ElasticNet']].abs().max(axis=1).sort_values(ascending=False).index]
print("Important Variables:\n", important_vars)

negative_weights = coef_df[(coef_df['LASSO'] < 0) | (coef_df['Ridge'] < 0) | (coef_df['ElasticNet'] < 0)]
print("Variables with Negative Weights:\n", negative_weights)

Important Variables:
      Feature      LASSO      Ridge  ElasticNet
2     n_marc -55.021349 -54.981959  -52.791614
1     n_cont  45.642874  45.559141   43.636759
0  gast_prop   4.485258   4.599227    4.884537
3      n_loj   2.649266   2.784413    3.776324
Variables with Negative Weights:
   Feature      LASSO      Ridge  ElasticNet
2  n_marc -55.021349 -54.981959  -52.791614


### 🇧🇷 Versao Portugues



### Explicação do Código:
1. **Carregamento e Pré-processamento**:
   - Os dados são carregados e divididos em variáveis independentes (`X`) e dependente (`y`).
   - Os dados são padronizados usando `StandardScaler` para garantir que os modelos sejam treinados corretamente.

2. **Treinamento dos Modelos**:
   - Três modelos de regressão são treinados: LASSO, Ridge e Elastic Net.
   - Os hiperparâmetros (`alpha` e `l1_ratio`) podem ser ajustados conforme necessário.

3. **Avaliação dos Modelos**:
   - O erro médio quadrático (MSE) é calculado para cada modelo.

4. **Análise dos Coeficientes**:
   - Os coeficientes de cada modelo são extraídos e comparados.
   - As variáveis mais importantes são identificadas com base nos valores absolutos dos coeficientes.
   - As variáveis com pesos negativos são listadas.

### Resultados Esperados:
- **Variáveis Mais Importantes**: As variáveis com os maiores valores absolutos de coeficientes.
- **Pesos Negativos**: Variáveis com coeficientes negativos em qualquer modelo.

Execute o código e analise os resultados para responder às perguntas do enunciado.