#**Modelos Lineares**
Os modelos lineares são uma classe fundamental de algoritmos de aprendizado de máquina utilizados tanto para tarefas de regressão quanto de classificação. Eles se baseiam na premissa de que a relação entre as variáveis independentes `(features)` e a variável dependente `(target)` pode ser aproximada por uma combinação linear das features.

##**Características dos Modelos Lineares**

- **Simplicidade:** Fáceis de entender e implementar.
- **Interpretabilidade:** Coeficientes que indicam a importância e a direção do impacto de cada feature.
- **Eficiência Computacional:** Rápidos para treinar, mesmo com grandes conjuntos de dados.
- **Requisitos de Dados:** Funcionam melhor quando há uma relação linear entre as features e o target.

No entanto, os modelos lineares também possuem limitações, como a incapacidade de capturar relações não lineares complexas e a sensibilidade a outliers.

In [1]:
# Importando bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, Lasso, Ridge, ElasticNet
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import accuracy_score, classification_report


In [2]:

# Carregando o dataset breast_cancer
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

In [3]:
# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## **1. Regressão Logística**
**Funcionamento:** A Regressão Logística é utilizada para problemas de classificação binária. Diferentemente da regressão linear, que prevê valores contínuos, a regressão logística estima a probabilidade de uma amostra pertencer a uma classe específica usando a função sigmoide:

𝑃
(
𝑦
=
1
∣
𝑋
)
=
1
1
+
𝑒
−
(
𝛽
0
+
𝛽
1
𝑋
1
+
⋯
+
𝛽
𝑛
𝑋
𝑛
)
P(y=1∣X)=
1+e
−(β
0
​
 +β
1
​
 X
1
​
 +⋯+β
n
​
 X
n
​
 )

1
​

O modelo ajusta os coeficientes
𝛽
β para maximizar a verossimilhança dos dados observados.

**Pontos Fortes:**
- Interpretação Simples: Coeficientes indicam a direção e a magnitude do impacto das features.
- Probabilidades de Saída: Fornece probabilidades, permitindo uma avaliação mais granular.
- Eficiente Computacionalmente: Rápido para treinar em grandes conjuntos de dados.

**Pontos Fracos**
- Linearidade: Assume uma relação linear entre as features e o logit da probabilidade.
- Sensível a Outliers: Valores atípicos podem influenciar significativamente o modelo.
- Multicolinearidade: Pode ser afetada por alta correlação entre as features.

In [4]:
# 1. Regressão Logística
log_reg = LogisticRegression(max_iter=10000)
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)
print("Regressão Logística")
print("Acurácia:", accuracy_score(y_test, y_pred_log_reg))
print(classification_report(y_test, y_pred_log_reg))



Regressão Logística
Acurácia: 0.9766081871345029
              precision    recall  f1-score   support

           0       0.97      0.97      0.97        63
           1       0.98      0.98      0.98       108

    accuracy                           0.98       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.98      0.98      0.98       171



## **2. Lasso Regression (Regressão Lasso)**
**Funcionamento**
A Regressão Lasso é uma variante da regressão linear que incorpora regularização L1. O objetivo é minimizar a soma dos erros quadráticos com uma penalização proporcional à soma dos valores absolutos dos coeficientes:

min
⁡
(
∑
𝑖
=
1
𝑚
(
𝑦
𝑖
−
𝛽
0
−
∑
𝑗
=
1
𝑛
𝛽
𝑗
𝑋
𝑖
𝑗
)
2
+
𝜆
∑
𝑗
=
1
𝑛
∣
𝛽
𝑗
∣
)
min(
i=1
∑
m
​
 (y
i
​
 −β
0
​
 −
j=1
∑
n
​
 β
j
​
 X
ij
​
 )
2
 +λ
j=1
∑
n
​
 ∣β
j
​
 ∣)

Essa penalização força alguns coeficientes a serem exatamente zero, realizando seleção de features.

**Pontos Fortes**
- Seleção de Features: Reduz a complexidade do modelo eliminando features irrelevantes.
- Prevenção de Overfitting: A regularização ajuda a evitar sobreajuste aos dados de treinamento.
- Interpretação Simplificada: Modelos mais simples são mais fáceis de interpretar.

**Pontos Fracos**
- Pode Excluir Features Úteis: Em alguns casos, pode remover features que são relevantes.
- Sensível ao Parâmetro
𝜆
λ: A escolha inadequada de
𝜆
λ pode prejudicar o desempenho.
- Não Lida Bem com Multicolinearidade: Pode selecionar arbitrariamente uma entre várias features correlacionadas.

In [None]:
# 2. Lasso Regression
lasso_reg = Lasso(alpha=0.01)
lasso_reg.fit(X_train, y_train)
y_pred_lasso = lasso_reg.predict(X_test)
y_pred_lasso_class = [1 if i >= 0.5 else 0 for i in y_pred_lasso]
print("\nLasso Regression")
print("Acurácia:", accuracy_score(y_test, y_pred_lasso_class))
print(classification_report(y_test, y_pred_lasso_class))




Lasso Regression
Acurácia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        63
           1       0.96      0.99      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.97      0.96      0.96       171



## **Ridge Regression (Regressão Ridge)**
**Funcionamento**
A Regressão Ridge é outra variante da regressão linear que utiliza regularização L2. O objetivo é minimizar a soma dos erros quadráticos com uma penalização proporcional à soma dos quadrados dos coeficientes:

min
⁡
(
∑
𝑖
=
1
𝑚
(
𝑦
𝑖
−
𝛽
0
−
∑
𝑗
=
1
𝑛
𝛽
𝑗
𝑋
𝑖
𝑗
)
2
+
𝜆
∑
𝑗
=
1
𝑛
𝛽
𝑗
2
)
min(
i=1
∑
m
​
 (y
i
​
 −β
0
​
 −
j=1
∑
n
​
 β
j
​
 X
ij
​
 )
2
 +λ
j=1
∑
n
​
 β
j
2
​
 )
Diferente da Lasso, a Ridge não força os coeficientes a zero, mas os mantém pequenos.

**Pontos Fortes**
- Gerencia Multicolinearidade: Reduz a variância dos coeficientes em presença de alta correlação entre as features.
- Estabilidade: Produz coeficientes mais estáveis e menos sensíveis a pequenas variações nos dados.
- Prevenção de Overfitting: A regularização L2 ajuda a evitar sobreajuste.

**Pontos Fracos**
- Não Realiza Seleção de Features: Mantém todas as features no modelo, mesmo as menos relevantes.
- Interpretação dos Coeficientes: Coeficientes regularizados são mais difíceis de interpretar diretamente.
- Dependência do Parâmetro
𝜆
λ: A escolha de
𝜆
λ afeta significativamente o desempenho do modelo.

In [None]:
# 3. Ridge Regression
ridge_reg = Ridge(alpha=1.0)
ridge_reg.fit(X_train, y_train)
y_pred_ridge = ridge_reg.predict(X_test)
y_pred_ridge_class = [1 if i >= 0.5 else 0 for i in y_pred_ridge]
print("\nRidge Regression")
print("Acurácia:", accuracy_score(y_test, y_pred_ridge_class))
print(classification_report(y_test, y_pred_ridge_class))



Ridge Regression
Acurácia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.97      0.94      0.95        63
           1       0.96      0.98      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.96      0.96      0.96       171



## **Elastic Net**
**Funcionamento**
O Elastic Net combina as regularizações L1 e L2, incorporando ambas no objetivo de minimização:

min
⁡
(
∑
𝑖
=
1
𝑚
(
𝑦
𝑖
−
𝛽
0
−
∑
𝑗
=
1
𝑛
𝛽
𝑗
𝑋
𝑖
𝑗
)
2
+
𝜆
1
∑
𝑗
=
1
𝑛
∣
𝛽
𝑗
∣
+
𝜆
2
∑
𝑗
=
1
𝑛
𝛽
𝑗
2
)
min(
i=1
∑
m
​
 (y
i
​
 −β
0
​
 −
j=1
∑
n
​
 β
j
​
 X
ij
​
 )
2
 +λ
1
​
  
j=1
∑
n
​
 ∣β
j
​
 ∣+λ
2
​
  
j=1
∑
n
​
 β
j
2
​
 )
Isso permite tanto a seleção de features quanto a redução da variância dos coeficientes.

**Pontos Fortes**
- Combinação de Lasso e Ridge: Herda os benefícios de ambos os métodos.
- Seleção de Features e Regularização: Pode selecionar features relevantes enquanto mantém os coeficientes pequenos.
- Flexibilidade: Ajusta a proporção entre L1 e L2 conforme necessário.

**Pontos Fracos**
- Complexidade Adicional: Mais parâmetros para ajustar (pesos de L1 e L2).
- Interpretação dos Coeficientes: A combinação de L1 e L2 pode complicar a interpretação direta.
- Requer Ajuste Cuidadoso dos Parâmetros: O desempenho depende da escolha adequada dos hiperparâmetros.

In [None]:
# Elastic Net
elastic_net = ElasticNet(alpha=0.01, l1_ratio=0.5)
elastic_net.fit(X_train, y_train)
y_pred_elastic = elastic_net.predict(X_test)
y_pred_elastic_class = [1 if i >= 0.5 else 0 for i in y_pred_elastic]
print("\nElastic Net")
print("Acurácia:", accuracy_score(y_test, y_pred_elastic_class))
print(classification_report(y_test, y_pred_elastic_class))




Elastic Net
Acurácia: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        63
           1       0.96      0.99      0.97       108

    accuracy                           0.96       171
   macro avg       0.97      0.96      0.96       171
weighted avg       0.97      0.96      0.96       171



  model = cd_fast.enet_coordinate_descent(


## **Análise Discriminante Linear (LDA)**

**Funcionamento**
A Análise Discriminante Linear (LDA) é um método estatístico usado para encontrar uma combinação linear de features que melhor separa duas ou mais classes. Assume que as diferentes classes compartilham a mesma matriz de covariância e que as distribuições das classes são gaussianas.

O LDA busca maximizar a separação entre as médias das classes enquanto minimiza a variância dentro das classes, resultando em uma ou mais direções discriminantes.

**Pontos Fortes**
- Eficiência Computacional: Rápido para treinar e prever.
- Interpretação Intuitiva: Projeção das features em um espaço de menor dimensão.
- Bom Desempenho com Poucas Amostras:
- Funciona bem mesmo com conjuntos de dados menores.
- Robustez: Pode lidar bem com dados onde as classes são separáveis linearmente.

**Pontos Fracos**
- Assunções Restritivas: Assume que as classes têm a mesma matriz de covariância e distribuições gaussianas.
- Sensível a Violação das Assunções: Desempenho pode degradar-se se as assunções não forem atendidas.
- Limitação a Relações Lineares: Não captura relações não lineares entre as features e as classes.

In [None]:
# 5. Linear Discriminant Analysis (LDA)
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)
y_pred_lda = lda.predict(X_test)
print("\nLinear Discriminant Analysis (LDA)")
print("Acurácia:", accuracy_score(y_test, y_pred_lda))
print(classification_report(y_test, y_pred_lda))



Linear Discriminant Analysis (LDA)
Acurácia: 0.9532163742690059
              precision    recall  f1-score   support

           0       0.97      0.90      0.93        63
           1       0.95      0.98      0.96       108

    accuracy                           0.95       171
   macro avg       0.96      0.94      0.95       171
weighted avg       0.95      0.95      0.95       171

