#Notebook
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:** Este exemplo compara diferentes métodos de redução de dimensionalidade (linear) aplicados no conjunto de dados Digits. O conjunto de dados contém imagens de dígitos de 0 a 9 com aproximadamente 180 amostras de cada classe. Cada imagem tem dimensão 8x8 = 64 e é reduzida a um ponto de dados bidimensional.
A Análise de Componentes Principais (PCA) aplicada a esses dados identifica a combinação de atributos (componentes principais ou direções no espaço de características) que respondem pela maior variância nos dados. Aqui, plotamos as diferentes amostras nos 2 primeiros componentes principais.
A Análise Discriminante Linear (LDA) tenta identificar atributos que são responsáveis ​​pela maior variância entre classes . Em particular, a LDA, em contraste com a PCA, é um método supervisionado, usando rótulos de classe conhecidos.
A Análise de Componentes de Vizinhança (NCA) tenta encontrar um espaço de características tal que um algoritmo estocástico de vizinho mais próximo dará a melhor precisão. Como LDA, é um método supervisionado.
Pode-se ver que o NCA impõe um agrupamento de dados que é visualmente significativo, apesar da grande redução na dimensão.

##Importações

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier, NeighborhoodComponentsAnalysis
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

##Carregando dados

In [None]:
X, y = datasets.load_digits(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.5, stratify=y, random_state=random_state
)

##Aplicando técnicas de redução de dimensionalidade

In [None]:
n_neighbors = 3
random_state = 0
dim = len(X[0])
n_classes = len(np.unique(y))

pca = make_pipeline(StandardScaler(), PCA(n_components=2, random_state=random_state))

lda = make_pipeline(StandardScaler(), LinearDiscriminantAnalysis(n_components=2))

nca = make_pipeline(
    StandardScaler(),
    NeighborhoodComponentsAnalysis(n_components=2, random_state=random_state),
)

##Treinamento

In [None]:
knn = KNeighborsClassifier(n_neighbors=n_neighbors)

##Visualização dos dados

In [None]:
dim_reduction_methods = [("PCA", pca), ("LDA", lda), ("NCA", nca)]

for i, (name, model) in enumerate(dim_reduction_methods):
    plt.figure()
    model.fit(X_train, y_train)
    knn.fit(model.transform(X_train), y_train)
    acc_knn = knn.score(model.transform(X_test), y_test)
    X_embedded = model.transform(X)
    plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y, s=30, cmap="Set1")
    plt.title(
        "{}, KNN (k={})\nTest accuracy = {:.2f}".format(name, n_neighbors, acc_knn)
    )
plt.show()

##Atividades de casa
- Altere o número de vizinhos no algoritmo KNN e visualize alterações nos dados;
- Altere o valor do parâmetro 'n_components' para cada técnica de redução de dimensionalidade e analise os resultados.

##Referências
- [Redução de dimensionalidade com análise de componentes de vizinhança](https://scikit-learn.org/stable/auto_examples/neighbors/plot_nca_dim_reduction.html#sphx-glr-auto-examples-neighbors-plot-nca-dim-reduction-py)