# Linear Discriminant Analysis

Assim como o PCA, o LDA e uma tecnica de transformacao linear que tambem pode ser utilizado para reducao de dimensionalidade, com a diferenca que o LDA e supervisionado, enquanto o PCA e nao supervisionado.

O PCA tenta sumarizar o conjunto de caracteristicas se orientando pela direcao das maiores variancias. Em datasets grandes, muitas caracteristicas podem ser redundantes e correlatas, cuja remocao geralmente nao causa grande impacto no dataset para maioria das tarefas.

Ja o LDA tenta reduzir a dimensionalidade dos dados retendo informacoes capazes de discriminar a classe a ser predita. O LDA tenta encontrar a reta (hyperplano) entre os agrupamentos de cada classe. Sendo assim, ele tenta projetar as amostras em um espaco dimensional onde esses agrupamentos sao o mais bem separaveis possivel, e os cada elemento esteja o mais proximo possivel do centro do agrupamento. As novas dimensoes sao rankeadas de acordo com suas capacidades de maximizar a distancia entre os agrupamentos e minimizar a distancia entre os pontos dentro de um agrupamento e seu centro. Essas dimensoes formam os discriminantes lineares do conjunto de caracteristicas.



## Implementando LDA com o Scikit learn:

Vamos utilizar o dataset Iris, muito famoso para problemas de classificacao. Informacoes sobre o dataset podem ser encontradas no link a seguir:
https://archive.ics.uci.edu/ml/datasets/iris

## Importando pacotes e o dataset

In [1]:
import numpy as np
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(url, names=names)

## Processamento dos dados

Uma vez que o dataset esteja carregado em um dataframe pandas, o primeiro passo e separar o vetor de caracteristicas e os rotulos correspontes, e em seguida dividi-lo em treinamento e teste:

In [2]:
from sklearn.model_selection import train_test_split

X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## Normalizacao dos dados

Assim como a maioria dos algoritmos de ML, o LDA tambem requer (ou pelo menos funciona melhor) com dados normalizados.

In [3]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

## Executando o LDA

Sao necessarias apenas poucas linhas para executarmos o LDA, utilizando a classe `LinearDiscriminantAnalysis`.

In [4]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

lda = LDA(n_components=1)
X_train = lda.fit_transform(X_train, y_train)
X_test = lda.transform(X_test)

No codigo acima, importamos o LDA passando como parametro o numero de componentes que desejamos extrair, nesse caso 1. Na sequencia, executamos a funcao `fit_transform` para treinar e converter os dados de treinamento, e `transform` para converter os dados de teste considerando o modelo ja treinado.

Note que, por ser um algoritmo supervisionado, o LDA requer como parametro os rotulos (y_train) para treinamento, diferente do PCA que e nao supervisionado.

## Treinando um classificador para predicoes

Uma vez que gostariamos de comparar a performance do LDA com o PCA, podemos considerar uma tarefa de classificacao utilizando, por exemplo, o classificador Random Forest:

In [5]:
from sklearn.ensemble import RandomForestClassifier

classifier = RandomForestClassifier(max_depth=2, random_state=0)

classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

## Avaliando a performance

Como de costume, o ultimo passo e avaliar a performance do algoritmo utilizando alguma metrica, como por exemplo matriz de confusao, para verificarmos o quao bem o modelo foi na tarefa:

In [6]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

cm = confusion_matrix(y_test, y_pred)
print(cm)
print('Acuracia ' + str(accuracy_score(y_test, y_pred)))

[[11  0  0]
 [ 0 13  0]
 [ 0  0  6]]
Acuracia 1.0


Podemos ver que mesmo com um unico componente, o algoritmo foi capaz de obter uma acuracia de 100%.

## PCA vs LDA: qual escolher para tarefa de reducao de dimensionalidade?

Para casos em que os dados sao distribuidos de maneira uniforme, LDA quase sempre se sai melhor que o PCA. No entando, para dados muito irregulares, PCA pode se dar maior, uma vez que LDA pode tender para classes majoritarias.

Por fim, PCA tem a vantagem de poder ser aplicado em datasets rotulados e nao rotulados, enquanto LDA necessita dos rotulos para guiar o aprendizado.

# Exercicios

1. Execute o PCA no exemplo acima, usando o dataset Iris e Random Forest, e compare o resultado com o LDA.

2. Comparar o LDA com o PCA para reducao de caracteristicas utilizando o dataset faces. Como classificador, compare os resultados do SVM e do Random Forest.

3. LDA tambem pode ser usado como um algoritmo de classificacao, em que ele proprio encontra o hyperplano que melhor separa os dados. Compara o LDA na tarefa de classificacao com os resultados do exercicion numero 2.