# Redução de dimensionalidade via Linear Discriminant Analysis (LDA)

## Seções
- Redução de dimensionalidade
  - LDA como algoritmo de redução de dimensionalidade
- Aplicação
- Comparação com PCA

## Redução de dimensionalidade

**Projetar os dados em uma dimensão menor mantendo as suas propriedades originais e minimizando a perda de informação**

![](https://media.geeksforgeeks.org/wp-content/uploads/Dimensionality_Reduction_1.jpg)

Aplicações de redução de dimensionalidade:
- Redução de ruídos
- Visualização de dados
- Análise de cluster
- Pré processamento para evitar overfitting

### LDA como algoritmo de redução de dimensionalidade

Notas sobre LDA:

- Teorema de Bayes

$$ P(Y=k| X=x) = \frac{P(Y=k) \cdot P(X=x| Y=k)}{\sum_{l=1}^K P(Y=l) \cdot P(X=x| Y=l)}$$

- Maximiza as variáveis que separam as diferentes classes de uma variável resposta
- Suposições
  - Normalidade
  - Homocedasticidade*
  - Independência
- Número mínimo de componentes:

$$ n_{comp} \le \min(n_{classes} - 1, n_{features}) $$

*O método Quadratic Discriminant Analysis engloba heterocedasticidade

---

![](https://sebastianraschka.com/images/blog/2014/linear-discriminant-analysis/lda_1.png)

## Aplicação

In [None]:
import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
parkinson = pd.read_csv("parkinsons.data", delimiter=",")
parkinson.drop(["name"], axis=1, inplace=True)

x = parkinson.drop(["status"], axis=1)
y = parkinson["status"]

print("Dimensão (linhas, colunas):", parkinson.shape)
parkinson.head()

In [None]:
cols = x.columns.tolist()
data1 = pd.concat([x[cols[:7]], y], axis=1)
data2 = pd.concat([x[cols[7:14]], y], axis=1)
data3 = pd.concat([x[cols[14:]], y], axis=1)

In [None]:
sns.pairplot(data1)

In [None]:
sns.pairplot(data2)

In [None]:
sns.pairplot(data3)

In [None]:
lda = LinearDiscriminantAnalysis()
x_lda = lda.fit(x, y).transform(x)

df_lda = pd.DataFrame(x_lda, columns=["x"])
df_lda["y"] = y

In [None]:
plt.hist(df_lda[df_lda["y"] == 0]["x"], alpha=0.5, label="0")
plt.hist(df_lda[df_lda["y"] == 1]["x"], alpha=0.5, label="1")
plt.legend(loc='upper right')

## Comparação com PCA

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=2)
pca.fit(x)
x_pca = pca.transform(x)
print("Variância explicada:", pca.explained_variance_ratio_)

In [None]:
df_pca = pd.DataFrame(x_pca, columns=['PC1', 'PC2'], index=x.index)
df_pca["y"] = list(map(lambda x: "C" + str(x), y))

In [None]:
px.scatter(df_pca, x="PC1", y="PC2", color="y")