# Modelos 3: Regulariza√ß√£o
**Nomes**: Bruna Guedes Pereira, Laura Medeiros Dal Ponte, Mariana Melo Pereira

## Introdu√ß√£o

Em Machine Learning, a escolha do modelo ideal √© um passo fundamental para garantir uma boa efic√°cia nas previs√µes de dados. Modelos de regress√£o linear s√£o amplamente valorizados devido a sua interpretabilidade, sendo um dos modelos mais utilizados na √°rea. Entretanto, mediante ao excesso de vari√°veis, podemos enfrentar problemas com o nosso modelo a respeito de *overfitting*, o que impactua diretamente da qualidade das previs√µes. Para essas ocasi√µes, a t√©cnica de regulariza√ß√£o √© uma abordagem frequente. "Regularizar" um modelo, nesse contexto, significa ajustar os coeficientes de modo a simplific√°-lo e generaliz√°-lo, reduzindo a quantidade de vari√°veis. Ou seja, ele controla a "complexidade" do modelo impondo restri√ß√µes. Essas restri√ß√µes variam para cada ferramenta utilizada.

Alguns algoritmos de regulariza√ß√£o a nossa disposi√ß√£o incluem LASSO, Ridge e Elastic Net. Para fins de demonstra√ß√£o, nesse notebook, iremos focar em desvendar como funciona o algoritmo LASSO, demonstrando seu mecanismo de regulariza√ß√£o e evidenciar, de forma did√°tica, a import√¢ncia dessa pr√°tica.

A seguir, uma breve contextualiza√ß√£o "divertida" para ambientar e motivar os leitores a entender os fundamentos da an√°lise realizada.

### üìö Diana e o C√≥dice da Regulariza√ß√£o

Diana √© jovem para ocupar um cargo t√£o prestigiado na **Biblioteca Real**, mas sua bravura durante a **Guerra das Marretas Voadoras** lhe rendeu respeito e poder. Foi ela quem decifrou os c√≥digos escondidos nos pergaminhos voadores, salvando os arquivos secretos da destrui√ß√£o. Desde ent√£o, tornou-se guardi√£ dos algoritmos sagrados ‚Äî f√≥rmulas que moldam o futuro da ci√™ncia e da magia.

Mas nem todos celebraram sua ascens√£o. A antiga diretora, agora sua arquirrival, acredita que Diana n√£o est√° pronta para lidar com os segredos mais profundos da Biblioteca: os **Modelos Lineares com Regulariza√ß√£o**.

Um dia, Diana encontra um c√≥dice selado com tr√™s nomes: **LASSO**, **Ridge** e **Elastic Net**. Cada um representa um estilo de regress√£o linear com um tempero especial ‚Äî a **regulariza√ß√£o**, uma t√©cnica que protege os modelos contra o excesso de confian√ßa, evitando que eles se apeguem demais aos dados e percam a capacidade de generalizar.

Diana decide aprofundar seus estudos, ent√£o, em um novo algoritmo: o **Lasso**, mestre da precis√£o e da simplicidade. Diferente de outros modelos que distribuem o peso entre todas as vari√°veis, o Lasso atua como um filtro rigoroso ‚Äî ele favorece solu√ß√µes com menos coeficientes diferentes de zero, eliminando vari√°veis irrelevantes e revelando apenas o essencial. √â como se o modelo escolhesse, com sabedoria, quais elementos realmente merecem estar presentes na equa√ß√£o.

Ela aprende que o segredo do Lasso est√° na regulariza√ß√£o L1, uma t√©cnica que adiciona uma penalidade proporcional √† soma dos valores absolutos dos coeficientes. Essa penaliza√ß√£o for√ßa muitos coeficientes a se tornarem exatamente zero, o que resulta em modelos mais enxutos, interpret√°veis e resistentes ao excesso de complexidade.

Ao treinar um modelo com Lasso usando o `scikit-learn`, Diana descobre que √© poss√≠vel ajustar o par√¢metro alpha, que controla a intensidade da regulariza√ß√£o. Quanto maior o alpha, mais rigoroso o modelo se torna na sele√ß√£o de vari√°veis. Esse comportamento √© especialmente valioso em contextos cient√≠ficos, onde os dados costumam vir acompanhados de ru√≠do, redund√¢ncia e incerteza.

Com o c√≥dice em m√£os, Diana prepara um novo tomo para os aprendizes da Biblioteca, explicando como o Lasso funciona, como a regulariza√ß√£o atua como uma forma de compress√£o inteligente de conhecimento, e como treinar modelos que n√£o apenas se ajustam aos dados, mas tamb√©m revelam suas estruturas mais profundas.

Ela sabe que dominar algoritmos como o Lasso √© mais do que uma tarefa t√©cnica ‚Äî √© uma forma de pensar com clareza, de buscar a ess√™ncia em meio ao excesso, e de construir conhecimento com responsabilidade. E enquanto sua rival observa de longe, Diana continua a escrever, consciente de que o verdadeiro poder est√° em entender, explicar e compartilhar.

## üßë‚Äçüíª Vamos, ent√£o, para o C√≥digo M√°gico?

O C√≥digo M√°gico, capaz de resolver o desafio proposto, ser√° constru√≠do a partir da linguagem Python, em conjunto com as suas bibliotecas `scikit-learn`, `pandas` e `matplotlib`. O primeiro passo ser√°, ent√£o, importar essas bibliotecas para o nosso ambiente de programa√ß√£o.

### Importa√ß√£o das bibliotecas

In [1]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.metrics import root_mean_squared_error
import pandas as pd
from sklearn.model_selection import GridSearchCV

ModuleNotFoundError: No module named 'sklearn'

A segunda etapa consiste em obter os dados a serem considerados para nosso estudo. Para nos ajudar nessa miss√£o, o Mestre C4SS4R disponibilizou um grim√≥rio m√°gico (tamb√©m conhecido como dataset `California housing`). Vamos, ent√£o, carregar os dados desse dataset a partir do c√≥digo abaixo.

### Obten√ß√£o dos dados

In [None]:
ca_housing = fetch_california_housing()

Que tal descobrir sobre os dados desse dataset...
### Vamos conferir uma descri√ß√£o geral sobre o nosso *dataset*?

In [None]:
print(ca_housing.DESCR)

Um dataset muito interessante! Utilizaremos as colunas acima descritas para a constru√ß√£o do nosso modelo. Mas quais s√£o os atributos e qual ser√° o target? 

### Definindo as nossas *features* (atributos)

In [None]:
X = ca_housing.data
X

NameError: name 'ca_housing' is not defined

No c√≥digo acima, atribui √† vari√°vel X os atributos do conjunto de dados `ca_housing`. Isso √© poss√≠vel acessando o atributo `.data` do objeto `ca_housing`, que acessa apenas os dados num√©ricos (features) do dataset, excluindo os r√≥tulos ou outras informa√ß√µes como nomes das colunas ou descri√ß√µes. Esses dados num√©ricos, por sua vez, s√£o armazenados em `X`, uma conven√ß√£o comum para representar a matriz de entrada (features) em problemas de machine learning.

Mas quais dados essas features armazenam?

In [None]:
ca_housing.feature_names

NameError: name 'ca_housing' is not defined

Sabemos, ent√£o, que X cont√©m dados de:
- `'MedInc'`: Renda m√©dia dos residentes da regi√£o
- `'HouseAge'`: Idade m√©dia das casas na regi√£o
- `'AveRooms'`: N√∫mero m√©dio de c√¥modos por casa
- `'AveBedrms'`: N√∫mero m√©dio de quartos por casa
- `'Population'`: Popula√ß√£o total da regi√£o
- `'AveOccup'`: N√∫mero m√©dio de pessoas por casa
- `'Latitude'`: Latitude da regi√£o
- `'Longitude'`: Longitude da regi√£o

Agora, vamos definir nosso target?

### Definindo o nosso *target*

In [None]:
y = ca_housing.target
y

Na c√©lula acima, a vari√°vel `y` est√° recebendo os valores alvo (target) do conjunto de dados `ca_housing`. Isso √© poss√≠vel acessando o atributo `.target` do objeto `ca_housing`, que acessa os valores que queremos prever; neste caso, o valor m√©dio das casas em cada regi√£o.

Vamos verificar esse target pelo atributo `target_names` do nosso objeto `ca_housing`.

In [None]:
ca_housing.target_names

### Divis√£o entre dados de treino e teste

O pr√≥ximo passo √©, ent√£o, preparar os dados para o treinamento de um modelo de aprendizado de m√°quina. Para esse processo, √© comum dividir o conjunto de dados em duas partes: uma para treinar o modelo e outra para test√°-lo. Isso √© feito para garantir que o modelo seja avaliado de forma justa, usando dados que ele nunca viu antes.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=19)

Esse c√≥digo realiza, portanto, a divis√£o entre dados de treino e teste. Nela, os dados de entrada (`X`) e os valores que queremos prever (`y`) s√£o separados em quatro subconjuntos: `X_train` e `y_train`, que ser√£o usados para treinar o modelo, e `X_test` e `y_test`, que ser√£o usados para test√°-lo. 

O par√¢metro `test_size=0.2` indica que 20% dos dados ser√£o reservados para o teste, enquanto os 80% restantes ser√£o usados no treinamento. J√° o par√¢metro `random_state=19` serve para garantir que essa divis√£o seja sempre a mesma toda vez que o c√≥digo for executado (com um estado aleat√≥rio), o que √© √∫til para fins de reprodutibilidade dos resultados.

### Padronizando os dados com `StandardScaler()`

Agora, precisamos evitar que que os dados tenham escalas muito diferentes, j√° que isso pode atrapalhar o desempenho de v√°rios algoritmos. Para resolver tal problema, usamos uma t√©cnica chamada standardiza√ß√£o, que transforma os dados para que cada vari√°vel tenha m√©dia zero e desvio padr√£o igual a um. 

Uma das estrat√©gias poss√≠veis para cumprir tal miss√£o √© utilizar o `StandardScaler()`, uma ferramenta da biblioteca scikit-learn usada para padronizar os dados num√©ricos. Ele transforma cada vari√°vel pela normaliza√ß√£o z-score.

In [None]:
scaler = StandardScaler()

Dessa forma, temos, na c√©lula acima, a linha `scaler = StandardScaler()`, que cria um objeto da classe `StandardScaler`, da biblioteca `scikit-learn`, para ser usado na aplica√ß√£o dessa transforma√ß√£o. 

Esse objeto, por√©m, ainda n√£o faz nada sozinho ‚Äî ele precisa ser ajustado aos dados com `scaler.fit(X)` e depois aplicado com `scaler.fit_transform(X)`.

In [None]:
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Como podemos obsevar, temos, na primeira linha (`X_train = scaler.fit_transform(X_train)`), duas a√ß√µes sendo realizadas a√ß√µes ao mesmo tempo. Primeiro, o m√©todo `fit_transform` calcula a m√©dia e o desvio padr√£o de cada coluna do conjunto de treino (`X_train`). Em seguida, ele aplica a transforma√ß√£o z-score, padronizando os dados. O resultado √© que todas as vari√°veis do conjunto de treino passam a ter a mesma escala, o que facilita o aprendizado do modelo.

A segunda linha, `X_test = scaler.transform(X_test)`, aplica a mesma transforma√ß√£o ao conjunto de teste. Isso √© fundamental: o `scaler` j√° foi ajustado com os dados de treino, e agora usamos os mesmos par√¢metros (m√©dia e desvio padr√£o) para transformar os dados de teste. Isso garante que o modelo seja avaliado de forma justa, sem usar informa√ß√µes do teste durante o treinamento ‚Äî o que poderia causar vazamento de dados e resultados enganosos.

Com os dados normalizados, vamos partir para a aplica√ß√£o do algoritmo Lasso?

### Entendendo o algoritmo Lasso

O Lasso √© um modelo linear que estima coeficientes esparsos. Ele √© √∫til em certos contextos devido √† sua tend√™ncia de preferir solu√ß√µes com menos coeficientes diferentes de zero, o que efetivamente reduz o n√∫mero de vari√°veis (ou caracter√≠sticas) das quais a solu√ß√£o depende. Por essa raz√£o, o Lasso e suas variantes s√£o fundamentais no campo da compress√£o de dados (compressed sensing). Sob certas condi√ß√µes, ele pode at√© recuperar exatamente o conjunto de coeficientes n√£o nulos.

Matematicamente, o Lasso consiste em um modelo linear com um termo de regulariza√ß√£o adicional:

$$
\min_{\beta} \left\{ \frac{1}{2n} \sum_{i=1}^{n} (y_i - X_i \cdot \beta)^2 + \alpha \sum_{j=1}^{p} |\beta_j| \right\}
$$

### Onde:
- $y_i$ s√£o os valores observados (vari√°vel dependente),
- $X_i$ s√£o os vetores de caracter√≠sticas (vari√°veis independentes),
- $\beta$ √© o vetor de coeficientes do modelo,
- $\alpha$ √© o par√¢metro de regulariza√ß√£o (tamb√©m chamado de lambda),
- $|\beta_j|$ √© o valor absoluto de cada coeficiente,
- $n$ √© o n√∫mero de amostras,
- $p$ √© o n√∫mero de vari√°veis.

### Interpreta√ß√£o:
- O primeiro termo √© o erro quadr√°tico m√©dio (m√≠nimos quadrados).
- O segundo termo √© a penaliza√ß√£o L1, que busca reduzir o n√∫mero de coeficientes diferentes de zero.
- O par√¢metro $\alpha$ controla o equil√≠brio entre ajuste ao dado e simplicidade do modelo: quanto maior $\alpha$, mais forte a penaliza√ß√£o.

A fun√ß√£o objetivo a ser minimizada √© composta pela penalidade de m√≠nimos quadrados com um termo extra baseado na norma L1 dos coeficientes. Esse termo adicional √© ponderado por uma constante, que controla o grau de penaliza√ß√£o.

A implementa√ß√£o da classe `Lasso` utiliza o m√©todo de descida coordenada (coordinate descent) como algoritmo para ajustar os coeficientes. 

---

Depois dessa introdu√ß√£o te√≥rica sobre o algoritmo Lasso, bora codificar?

### Criando um modelo de regress√£o Lasso

O primeiro passo √© instanciar o modelo, ou seja, criar um objeto (aqui chamado de `lasso`) que ainda n√£o foi treinado.

> Detalhe: O par√¢metro `alpha` controla o grau de esparsidade dos coeficientes estimados. Em outras palavras, ele determina quantos coeficientes ser√£o reduzidos a zero, influenciando diretamente a simplicidade do modelo.

In [None]:
lasso = Lasso(alpha=0.1)

Esse objeto pode ser ajustado aos dados com o m√©todo `.fit(X_train, y_train)`.

O c√≥digo abaixo representa o momento em que o modelo de regress√£o Lasso √© treinado com os dados. O m√©todo `.fit()` √© usado para ajustar o modelo aos dados de entrada `X_train` e aos valores que queremos prever `y_train`.

Em termos pr√°ticos, o que acontece aqui √© que o algoritmo Lasso analisa os dados de entrada e tenta encontrar os coeficientes ideais para cada vari√°vel (feature), de forma que a combina√ß√£o dessas vari√°veis consiga prever com precis√£o os valores de sa√≠da. Ao mesmo tempo, o Lasso aplica uma penaliza√ß√£o L1 sobre os coeficientes, o que significa que ele tenta manter os coeficientes o mais pr√≥ximos poss√≠vel de zero ‚Äî e, em muitos casos, zera completamente alguns deles. Isso √© √∫til porque ajuda a identificar quais vari√°veis s√£o realmente relevantes para o modelo, eliminando aquelas que n√£o contribuem significativamente.

In [None]:
lasso.fit(X_train, y_train)

Esse processo de ajuste √© feito com base nos dados de treinamento, e o modelo resultante pode ent√£o ser usado para fazer previs√µes em novos dados, como o conjunto de teste (`X_test`), usando o m√©todo `.predict()`.

In [None]:
y_pred = lasso.predict(X_test)

O modelo recebe os dados de teste `X_test`, que ele nunca viu antes, e gera uma estimativa dos valores alvo correspondentes; ou seja, tenta prever os valores de `y_test`.

O resultado √© armazenado na vari√°vel `y_pred`, que cont√©m os valores previstos pelo modelo, e que, posteriormente, ser√£o comparados com os valores reais para verificar se o modelo tem um bom desempenho. 

Essa verifica√ß√£o √© realizada, em nosso caso, pela m√©trica do RMSE (Erro quedr√°tico m√©dio).

### Checando o desempenho do modelo

Para avaliar o desempenho do nosso modelo, os dados de entrada (`X_teste`) s√£o passados ao modelo para gerar previs√µes (`y_previsto`). Essas previs√µes s√£o ent√£o comparadas com os valores reais (`y_teste`) usando o RMSE, que √© a raiz quadrada do erro quadr√°tico m√©dio, dado pela f√≥rmula:

$$
\mathrm{RMSE} = \sqrt{\mathrm{MSE}} = \sqrt{\sum_{i=1}^{N} \frac{(y_i - \hat{y}_i)^2}{N}}.
$$

O RMSE √© uma m√©trica que indica, em m√©dia, o quanto as previs√µes do modelo est√£o distantes dos valores reais. Quanto menor o RMSE, melhor o desempenho do modelo.

In [None]:
RMSE = root_mean_squared_error(y_test, y_pred)
print(RMSE)

Olha s√≥... um RMSE consideravelmente baixo! Ser√° que essa m√©trica se mant√©m quando comparamos com a Regress√£o Linear M√∫ltipla Convencional?

### Comparando com a Regress√£o Linear M√∫ltipla Convencional 

Que tal compararmos o desempenho e os coeficientes do algoritmo Lasso e da regress√£o Linear M√∫tlipla Convencional? O primeiro passo, ent√£o, √© instanciar um modelo de Regress√£o Linear M√∫ltipla Convencional a partir da classe `LinearRegression()`.


In [None]:
lr_model = LinearRegression()

### Ajustando os dados, realizando previs√µes e calculando o desempenho

Assim como realizado com o algoritmo Lasso, a primeira etapa para a constru√ß√£o do nosso modelo de regress√£o linear convencional consiste em ensinar o modelo a entender a rela√ß√£o entre as vari√°veis explicativas (como caracter√≠sticas de casas, por exemplo) e a vari√°vel alvo (como o pre√ßo da casa). Isso √© feito usando um conjunto de dados de treinamento, que cont√©m exemplos j√° conhecidos. O modelo analisa esses dados e aprende quais pesos (coeficientes) devem ser atribu√≠dos a cada vari√°vel para fazer boas previs√µes.

Depois de treinado, o modelo √© colocado √† prova: ele recebe um novo conjunto de dados ‚Äî o conjunto de teste ‚Äî que ele nunca viu antes. Com base no que aprendeu, ele faz previs√µes para esses novos exemplos. O resultado √© uma lista de valores previstos, que idealmente deveriam estar pr√≥ximos dos valores reais.

Para saber se o modelo est√° funcionando bem, comparamos os valores que ele previu com os valores reais. Essa compara√ß√£o √© feita usando uma m√©trica chamada RMSE (Root Mean Squared Error), ou erro quadr√°tico m√©dio da raiz. Essa m√©trica nos diz, em m√©dia, o quanto o modelo erra nas previs√µes. Quanto menor o RMSE, melhor o modelo est√° se saindo.

In [None]:
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
RMSE = root_mean_squared_error(y_test, y_pred)
print(RMSE)

Aqui, podemos observar que o RMSE foi ainda mais baixo do que quando utilizamos o algoritmo Lasso. Ou seja, o desempenho foi, nesse caso, melhor para a regress√£o linear convencional. Mas... e quando comparamos os coeficientes dos dois modelos? Quais as diferen√ßas encontradas?

### Coeficientes dos modelos de regress√£o

Os coeficientes em um modelo de regress√£o ‚Äî seja linear convencional ou LASSO ‚Äî representam o peso ou influ√™ncia que cada vari√°vel independente tem sobre a vari√°vel alvo (ou seja, o que estamos tentando prever).

Em nosso contexto, estamos tentando prever o valor de uma casa. Para isso, utilizamos como base as caracter√≠sticas: renda m√©dia da vizinhan√ßa (MedInc); n√∫mero m√©dio de quartos (AveRooms); idade m√©dia das constru√ß√µes (HouseAge); entre outras vari√°veis.

O modelo de regress√£o aprende, a partir dos dados, quais dessas vari√°veis realmente influenciam o pre√ßo da casa e quanto elas influenciam. Cada vari√°vel recebe um n√∫mero, o coeficiente, que indica:
- Sinal: se o coeficiente √© positivo, a vari√°vel aumenta o valor previsto; se √© negativo, ela diminui.
- Magnitude: quanto maior o valor absoluto do coeficiente, maior o impacto da vari√°vel na previs√£o.

Vamos descobrir quais s√£o esses coeficientes para cada um dos modelos?

In [None]:
lr_coefs = lr_model.coef_
lasso_coefs = lasso.coef_

As linhas acima s√£o respons√°veis por extrair os coeficientes dos modelos de regress√£o ap√≥s o treinamento com os dados.

A primeira linha (`lr_coefs = lr_model.coef_`) obt√©m os coeficientes da regress√£o linear convencional, que indicam o quanto cada vari√°vel independente contribui para a previs√£o da vari√°vel alvo. Esses coeficientes s√£o calculados sem penaliza√ß√£o, ou seja, o modelo tende a atribuir valores diferentes de zero para todas as vari√°veis, mesmo que algumas tenham pouca relev√¢ncia.

A segunda linha (`lasso_coefs = lasso.coef_`) extrai os coeficientes do modelo LASSO, que aplica uma penaliza√ß√£o L1 durante o treinamento. Essa penaliza√ß√£o for√ßa o modelo a reduzir ou at√© zerar os coeficientes de vari√°veis menos importantes, promovendo uma sele√ß√£o autom√°tica de vari√°veis e resultando em um modelo mais simples e interpret√°vel.

Agora, vamos organizar os coeficientes dos modelos de regress√£o linear convencional e LASSO em uma tabela para facilitar a visualiza√ß√£o e compara√ß√£o?

In [None]:
coef_df = pd.DataFrame({
    'Vari√°vel': [f'X{i+1}' for i in range(X_train.shape[1])],
    'Linear': lr_coefs,
    'LASSO': lasso_coefs
})

O c√≥digo da c√©lula acima cria uma tabela organizada que re√∫ne os coeficientes obtidos por dois modelos de regress√£o: o modelo linear convencional e o modelo LASSO. Cada linha da tabela representa uma vari√°vel usada na an√°lise, como se fossem caracter√≠sticas de casas ou qualquer outro tipo de dado.

Para cada vari√°vel, a tabela mostra dois valores:
- Um valor que indica quanto essa vari√°vel influencia o resultado segundo o modelo linear.
- Outro valor que mostra quanto ela influencia segundo o modelo LASSO, que pode ser menor ou at√© zero se o modelo considerou a vari√°vel irrelevante.

Os nomes das vari√°veis s√£o apresentados como `X1`, `X2`, `X3`, e assim por diante, apenas como uma forma gen√©rica de identific√°-las. Essa estrutura facilita a compara√ß√£o entre os dois modelos, permitindo ver claramente quais vari√°veis s√£o mais importantes em cada abordagem e quais foram descartadas pelo LASSO.

Sabendo disso, conseguimos visualizar e comparar os coeficientes dos dois modelos em um gr√°fico.

In [None]:
coef_df.plot(x='Vari√°vel', kind='bar', figsize=(10, 6))
plt.title('Compara√ß√£o dos Coeficientes: Linear vs LASSO')
plt.ylabel('Valor do Coeficiente')
plt.xticks(rotation=0)
plt.grid(True)
plt.tight_layout()
plt.show()

No gr√°fico acima, conseguimos observar e interpretar a influ√™ncia dos coeficientes para os modelos da Regress√£o Linear M√∫ltipla Convencional e do algoritmo Lasso, sendo que:
- A Regress√£o Linear Convenciona tende a atribuir coeficientes diferentes de zero para todas as vari√°veis, mesmo que algumas tenham pouca relev√¢ncia.
- O algoritmo LASSO realiza regulariza√ß√£o L1, o que pode levar alguns coeficientes a serem exatamente zero ‚Äî ou seja, o modelo realiza uma sele√ß√£o de vari√°veis automaticamente.
  
Esse comportamento √© √∫til quando h√° muitas vari√°veis correlacionadas ou ru√≠do, pois o LASSO ajuda a evitar overfitting e melhora a interpretabilidade do modelo. Mais especificamente, √© poss√≠vel detalhar:

- Sobre a vari√°vel X1: ambos os modelos consideram essa vari√°vel relevante, com coeficientes positivos. No entanto, o modelo linear atribui um valor maior, indicando uma influ√™ncia mais forte.

- Sobre a vari√°vel X2: os dois modelos atribuem coeficientes pequenos e positivos, sugerindo que essa vari√°vel tem uma influ√™ncia leve na previs√£o.

- Sobre as vari√°veis X3 e X4: apenas o modelo linear atribui coeficientes positivos. O LASSO zera esses coeficientes, o que significa que ele considera essas vari√°veis irrelevantes para a previs√£o.

- Sobre a vari√°vel X5: nenhum dos modelos atribui um coeficiente significativo. Isso indica que essa vari√°vel provavelmente n√£o contribui de forma relevante para o modelo.

- Sobre as vari√°veis X6 e X7: somente o modelo linear atribui coeficientes negativos. O LASSO ignora essas vari√°veis, sugerindo que elas n√£o s√£o √∫teis ou que poderiam introduzir ru√≠do.

- Sobre a vari√°vel X8: ambos os modelos atribuem coeficientes negativos significativos, o que indica que essa vari√°vel tem uma influ√™ncia negativa importante na previs√£o.

Portanto, como interpreta√ß√£o geral, podemos concluir que o modelo linear tende a incluir todas as vari√°veis, mesmo que algumas tenham impacto pequeno ou nulo; enquanto que o modelo LASSO realiza uma sele√ß√£o autom√°tica de vari√°veis, eliminando aquelas que n√£o contribuem significativamente para a previs√£o. Isso √© vis√≠vel nas vari√°veis X3, X4, X6 e X7, que foram ignoradas pelo LASSO.

## Conclus√µes 

Com essa atividade, pode-se observar que a regress√£o Lasso pode ser indicada para problemas preditivos, pois sua capacidade de realizar a sele√ß√£o autom√°tica de vari√°veis pode simplificar os modelos e melhorar a precis√£o da previs√£o. Esse modelo de regress√£o seria adequada, por exemplo, para tratamento de conjuntos de dados de alta dimens√£o (pois poderia ajudar a reduzir a dimensionalidade dentre de um conjunto de dados, ou reduzir os par√¢metros de peso para zero, eliminando funcionalidades menos importantes do modelo). 
 
Ao penalizar os coeficientes por meio da norma L1, o Lasso √© capaz de reduzir a complexidade do modelo, eliminando vari√°veis menos relevantes e prevenindo overfitting, sem comprometer significativamente a capacidade preditiva.

Em resumo, a regress√£o Lasso se mostra uma ferramenta poderosa para modelagem preditiva em situa√ß√µes com grande quantidade de vari√°veis, oferecendo uma abordagem equilibrada entre precis√£o e interpretabilidade do modelo.

## Refer√™ncias

**1.1. Linear Models ‚Äî scikit-learn 0.24.0 documentation.** Dispon√≠vel em: <https://scikit-learn.org/stable/modules/linear_model.html>. Acesso em: 11 set. 2025.

**RYAN & MATT DATA SCIENCE. Lasso Regression with Scikit-Learn (Beginner Friendly).** Dispon√≠vel em: <https://www.youtube.com/watch?v=LmpBt0tenJE>. Acesso em: 11 set. 2025.

**Tutorial de Regress√£o Lasso com Scikit-Learn | LabEx.** Dispon√≠vel em: <https://labex.io/pt/tutorials/ml-scikit-learn-lasso-regression-49189>. Acesso em: 11 set. 2025.

**The California housing dataset ‚Äî Scikit-learn course.** Dispon√≠vel em: <https://inria.github.io/scikit-learn-mooc/python_scripts/datasets_california_housing.html>.  Acesso em: 11 set. 2025.

## Uso de Intelig√™ncia Artificial

O modelo Microsoft Copilot foi utilizado especificamente para criar a hist√≥ria inicial no estilo RPG e para revisar os textos de desenvolvimento dos exerc√≠cios, ajudando a detalhar o passo a passo seguido para guiar melhor o leitor. As perguntas realizadas √† IA foram no estilo: *"Escrevi o seguinte texto: ... Como posso melhor√°-lo para guiar o leitor passo a passo, mostrando de maneira clara minha resolu√ß√£o?"*.