#**Modelos Lineares**
Os modelos lineares s√£o uma classe fundamental de algoritmos de aprendizado de m√°quina utilizados tanto para tarefas de regress√£o quanto de classifica√ß√£o. Eles se baseiam na premissa de que a rela√ß√£o entre as vari√°veis independentes `(features)` e a vari√°vel dependente `(target)` pode ser aproximada por uma combina√ß√£o linear das features.

##**Caracter√≠sticas dos Modelos Lineares**

- **Simplicidade:** F√°ceis de entender e implementar.
- **Interpretabilidade:** Coeficientes que indicam a import√¢ncia e a dire√ß√£o do impacto de cada feature.
- **Efici√™ncia Computacional:** R√°pidos para treinar, mesmo com grandes conjuntos de dados.
- **Requisitos de Dados:** Funcionam melhor quando h√° uma rela√ß√£o linear entre as features e o target.

No entanto, os modelos lineares tamb√©m possuem limita√ß√µes, como a incapacidade de capturar rela√ß√µes n√£o lineares complexas e a sensibilidade a outliers.

In [1]:
# Importando bibliotecas necess√°rias
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, Lasso, Ridge, ElasticNet
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import accuracy_score, classification_report


In [2]:

# Carregando o dataset breast_cancer
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

In [3]:
# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## **1. Regress√£o Log√≠stica**
**Funcionamento:** A Regress√£o Log√≠stica √© utilizada para problemas de classifica√ß√£o bin√°ria. Diferentemente da regress√£o linear, que prev√™ valores cont√≠nuos, a regress√£o log√≠stica estima a probabilidade de uma amostra pertencer a uma classe espec√≠fica usando a fun√ß√£o sigmoide:

ùëÉ
(
ùë¶
=
1
‚à£
ùëã
)
=
1
1
+
ùëí
‚àí
(
ùõΩ
0
+
ùõΩ
1
ùëã
1
+
‚ãØ
+
ùõΩ
ùëõ
ùëã
ùëõ
)
P(y=1‚à£X)=
1+e
‚àí(Œ≤
0
‚Äã
 +Œ≤
1
‚Äã
 X
1
‚Äã
 +‚ãØ+Œ≤
n
‚Äã
 X
n
‚Äã
 )

1
‚Äã

O modelo ajusta os coeficientes
ùõΩ
Œ≤ para maximizar a verossimilhan√ßa dos dados observados.

**Pontos Fortes:**
- Interpreta√ß√£o Simples: Coeficientes indicam a dire√ß√£o e a magnitude do impacto das features.
- Probabilidades de Sa√≠da: Fornece probabilidades, permitindo uma avalia√ß√£o mais granular.
- Eficiente Computacionalmente: R√°pido para treinar em grandes conjuntos de dados.

**Pontos Fracos**
- Linearidade: Assume uma rela√ß√£o linear entre as features e o logit da probabilidade.
- Sens√≠vel a Outliers: Valores at√≠picos podem influenciar significativamente o modelo.
- Multicolinearidade: Pode ser afetada por alta correla√ß√£o entre as features.

In [4]:
# 1. Regress√£o Log√≠stica
log_reg = LogisticRegression(max_iter=10000)
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)
print("Regress√£o Log√≠stica")
print("Acur√°cia:", accuracy_score(y_test, y_pred_log_reg))
print(classification_report(y_test, y_pred_log_reg))



Regress√£o Log√≠stica
Acur√°cia: 0.9766081871345029
              precision    recall  f1-score   support

           0       0.97      0.97      0.97        63
           1       0.98      0.98      0.98       108

    accuracy                           0.98       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.98      0.98      0.98       171



## **2. Lasso Regression (Regress√£o Lasso)**
**Funcionamento**
A Regress√£o Lasso √© uma variante da regress√£o linear que incorpora regulariza√ß√£o L1. O objetivo √© minimizar a soma dos erros quadr√°ticos com uma penaliza√ß√£o proporcional √† soma dos valores absolutos dos coeficientes:

min
‚Å°
(
‚àë
ùëñ
=
1
ùëö
(
ùë¶
ùëñ
‚àí
ùõΩ
0
‚àí
‚àë
ùëó
=
1
ùëõ
ùõΩ
ùëó
ùëã
ùëñ
ùëó
)
2
+
ùúÜ
‚àë
ùëó
=
1
ùëõ
‚à£
ùõΩ
ùëó
‚à£
)
min(
i=1
‚àë
m
‚Äã
 (y
i
‚Äã
 ‚àíŒ≤
0
‚Äã
 ‚àí
j=1
‚àë
n
‚Äã
 Œ≤
j
‚Äã
 X
ij
‚Äã
 )
2
 +Œª
j=1
‚àë
n
‚Äã
 ‚à£Œ≤
j
‚Äã
 ‚à£)

Essa penaliza√ß√£o for√ßa alguns coeficientes a serem exatamente zero, realizando sele√ß√£o de features.

**Pontos Fortes**
- Sele√ß√£o de Features: Reduz a complexidade do modelo eliminando features irrelevantes.
- Preven√ß√£o de Overfitting: A regulariza√ß√£o ajuda a evitar sobreajuste aos dados de treinamento.
- Interpreta√ß√£o Simplificada: Modelos mais simples s√£o mais f√°ceis de interpretar.

**Pontos Fracos**
- Pode Excluir Features √öteis: Em alguns casos, pode remover features que s√£o relevantes.
- Sens√≠vel ao Par√¢metro
ùúÜ
Œª: A escolha inadequada de
ùúÜ
Œª pode prejudicar o desempenho.
- N√£o Lida Bem com Multicolinearidade: Pode selecionar arbitrariamente uma entre v√°rias features correlacionadas.

In [None]:
# 2. Lasso Regression
lasso_reg = Lasso(alpha=0.01)
lasso_reg.fit(X_train, y_train)
y_pred_lasso = lasso_reg.predict(X_test)
y_pred_lasso_class = [1 if i >= 0.5 else 0 for i in y_pred_lasso]
print("\nLasso Regression")
print("Acur√°cia:", accuracy_score(y_test, y_pred_lasso_class))
print(classification_report(y_test, y_pred_lasso_class))




Lasso Regression
Acur√°cia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        63
           1       0.96      0.99      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.97      0.96      0.96       171



## **Ridge Regression (Regress√£o Ridge)**
**Funcionamento**
A Regress√£o Ridge √© outra variante da regress√£o linear que utiliza regulariza√ß√£o L2. O objetivo √© minimizar a soma dos erros quadr√°ticos com uma penaliza√ß√£o proporcional √† soma dos quadrados dos coeficientes:

min
‚Å°
(
‚àë
ùëñ
=
1
ùëö
(
ùë¶
ùëñ
‚àí
ùõΩ
0
‚àí
‚àë
ùëó
=
1
ùëõ
ùõΩ
ùëó
ùëã
ùëñ
ùëó
)
2
+
ùúÜ
‚àë
ùëó
=
1
ùëõ
ùõΩ
ùëó
2
)
min(
i=1
‚àë
m
‚Äã
 (y
i
‚Äã
 ‚àíŒ≤
0
‚Äã
 ‚àí
j=1
‚àë
n
‚Äã
 Œ≤
j
‚Äã
 X
ij
‚Äã
 )
2
 +Œª
j=1
‚àë
n
‚Äã
 Œ≤
j
2
‚Äã
 )
Diferente da Lasso, a Ridge n√£o for√ßa os coeficientes a zero, mas os mant√©m pequenos.

**Pontos Fortes**
- Gerencia Multicolinearidade: Reduz a vari√¢ncia dos coeficientes em presen√ßa de alta correla√ß√£o entre as features.
- Estabilidade: Produz coeficientes mais est√°veis e menos sens√≠veis a pequenas varia√ß√µes nos dados.
- Preven√ß√£o de Overfitting: A regulariza√ß√£o L2 ajuda a evitar sobreajuste.

**Pontos Fracos**
- N√£o Realiza Sele√ß√£o de Features: Mant√©m todas as features no modelo, mesmo as menos relevantes.
- Interpreta√ß√£o dos Coeficientes: Coeficientes regularizados s√£o mais dif√≠ceis de interpretar diretamente.
- Depend√™ncia do Par√¢metro
ùúÜ
Œª: A escolha de
ùúÜ
Œª afeta significativamente o desempenho do modelo.

In [None]:
# 3. Ridge Regression
ridge_reg = Ridge(alpha=1.0)
ridge_reg.fit(X_train, y_train)
y_pred_ridge = ridge_reg.predict(X_test)
y_pred_ridge_class = [1 if i >= 0.5 else 0 for i in y_pred_ridge]
print("\nRidge Regression")
print("Acur√°cia:", accuracy_score(y_test, y_pred_ridge_class))
print(classification_report(y_test, y_pred_ridge_class))



Ridge Regression
Acur√°cia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.97      0.94      0.95        63
           1       0.96      0.98      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.96      0.96      0.96       171



## **Elastic Net**
**Funcionamento**
O Elastic Net combina as regulariza√ß√µes L1 e L2, incorporando ambas no objetivo de minimiza√ß√£o:

min
‚Å°
(
‚àë
ùëñ
=
1
ùëö
(
ùë¶
ùëñ
‚àí
ùõΩ
0
‚àí
‚àë
ùëó
=
1
ùëõ
ùõΩ
ùëó
ùëã
ùëñ
ùëó
)
2
+
ùúÜ
1
‚àë
ùëó
=
1
ùëõ
‚à£
ùõΩ
ùëó
‚à£
+
ùúÜ
2
‚àë
ùëó
=
1
ùëõ
ùõΩ
ùëó
2
)
min(
i=1
‚àë
m
‚Äã
 (y
i
‚Äã
 ‚àíŒ≤
0
‚Äã
 ‚àí
j=1
‚àë
n
‚Äã
 Œ≤
j
‚Äã
 X
ij
‚Äã
 )
2
 +Œª
1
‚Äã
  
j=1
‚àë
n
‚Äã
 ‚à£Œ≤
j
‚Äã
 ‚à£+Œª
2
‚Äã
  
j=1
‚àë
n
‚Äã
 Œ≤
j
2
‚Äã
 )
Isso permite tanto a sele√ß√£o de features quanto a redu√ß√£o da vari√¢ncia dos coeficientes.

**Pontos Fortes**
- Combina√ß√£o de Lasso e Ridge: Herda os benef√≠cios de ambos os m√©todos.
- Sele√ß√£o de Features e Regulariza√ß√£o: Pode selecionar features relevantes enquanto mant√©m os coeficientes pequenos.
- Flexibilidade: Ajusta a propor√ß√£o entre L1 e L2 conforme necess√°rio.

**Pontos Fracos**
- Complexidade Adicional: Mais par√¢metros para ajustar (pesos de L1 e L2).
- Interpreta√ß√£o dos Coeficientes: A combina√ß√£o de L1 e L2 pode complicar a interpreta√ß√£o direta.
- Requer Ajuste Cuidadoso dos Par√¢metros: O desempenho depende da escolha adequada dos hiperpar√¢metros.

In [None]:
# Elastic Net
elastic_net = ElasticNet(alpha=0.01, l1_ratio=0.5)
elastic_net.fit(X_train, y_train)
y_pred_elastic = elastic_net.predict(X_test)
y_pred_elastic_class = [1 if i >= 0.5 else 0 for i in y_pred_elastic]
print("\nElastic Net")
print("Acur√°cia:", accuracy_score(y_test, y_pred_elastic_class))
print(classification_report(y_test, y_pred_elastic_class))




Elastic Net
Acur√°cia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        63
           1       0.96      0.99      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.97      0.96      0.96       171



  model = cd_fast.enet_coordinate_descent(


## **An√°lise Discriminante Linear (LDA)**

**Funcionamento**
A An√°lise Discriminante Linear (LDA) √© um m√©todo estat√≠stico usado para encontrar uma combina√ß√£o linear de features que melhor separa duas ou mais classes. Assume que as diferentes classes compartilham a mesma matriz de covari√¢ncia e que as distribui√ß√µes das classes s√£o gaussianas.

O LDA busca maximizar a separa√ß√£o entre as m√©dias das classes enquanto minimiza a vari√¢ncia dentro das classes, resultando em uma ou mais dire√ß√µes discriminantes.

**Pontos Fortes**
- Efici√™ncia Computacional: R√°pido para treinar e prever.
- Interpreta√ß√£o Intuitiva: Proje√ß√£o das features em um espa√ßo de menor dimens√£o.
- Bom Desempenho com Poucas Amostras:
- Funciona bem mesmo com conjuntos de dados menores.
- Robustez: Pode lidar bem com dados onde as classes s√£o separ√°veis linearmente.

**Pontos Fracos**
- Assun√ß√µes Restritivas: Assume que as classes t√™m a mesma matriz de covari√¢ncia e distribui√ß√µes gaussianas.
- Sens√≠vel a Viola√ß√£o das Assun√ß√µes: Desempenho pode degradar-se se as assun√ß√µes n√£o forem atendidas.
- Limita√ß√£o a Rela√ß√µes Lineares: N√£o captura rela√ß√µes n√£o lineares entre as features e as classes.

In [None]:
# 5. Linear Discriminant Analysis (LDA)
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)
y_pred_lda = lda.predict(X_test)
print("\nLinear Discriminant Analysis (LDA)")
print("Acur√°cia:", accuracy_score(y_test, y_pred_lda))
print(classification_report(y_test, y_pred_lda))



Linear Discriminant Analysis (LDA)
Acur√°cia: 0.9532163742690059
              precision    recall  f1-score   support

           0       0.97      0.90      0.93        63
           1       0.95      0.98      0.96       108

    accuracy                           0.95       171
   macro avg       0.96      0.94      0.95       171
weighted avg       0.95      0.95      0.95       171

