# **REDUÇÃO DE DIMENSIONALIDADE**

Como já deve ter notado até aqui, utilizar uma base de dados excessivamente grande pode gerar tanto gasto computacional que o algoritmo demora muito tempo para rodar, ou nem roda, como no caso do agrupamento hierárquico que precisei cortar uma parte da base de dados. Porém para efetuar esse corte existem técnicas que podem ser utilizadas para que sejam preservados aqueles atributos que vão melhor nos atender. Ou seja, atributos com maior representatividade para nosso problema.

Antes de iniciar os estudos em cima dos algoritmos é necessário identificar uma diferença entre seleção de características e extração de características.

- Seleção de características: O algoritmo identifica os atributos mais relevantes e utiliza apenas eles.
- Extração de características: O algoritmo cria novos atributos que são a união de atributos parecidos, e os usa.

## ANÁLISE DE COMPONENTES PRINCIPAIS (PCA)

- Para dados linearmente separáveis.
- Seleção de características.
- O PCA é um algoritmo de aprendizagem não supervisionada.
- Identifica a correlação entre as variáveis, e caso haja uma forte correlação é possível reduzir a dimensionalidade.
- Das m variáveis independentes, PCA extrai `p <= m` novas variáveis independentes que explica melhor a variação na base de dados, sem considerar a variável dependente.
    - Independente: previsores.
    - Dependente: classe.
- O usuário pode escolher o número de `p`.

### **Implementação**
- **Classe**:
    - [sklearn.decomposition.PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)
- **Base de Dados**:
    - census.csv
    
Primeiramente vamos efetuar todo o processo de preprocessamento dos dados, pois ao longo desse material eles já sofreram alterações. Sendo assim.

In [1]:
import pandas as pd
#----------------Coloca a base de dados na variável 'base'--------------------#
base = pd.read_csv('../input/census.csv')

#----------Alocando os valores das colunas em previsores e classes------------#
previsores = base.iloc[:,0:14].values
classe = base.iloc[:,14].values

#------Definindo um objeto LabelEncoder que é responsável pela conversão------#
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()

#-------Verificando onde estão as variáveis categóricas e as convertendo------#
lista_categoricos = []
for i in range(len(previsores[0])):
    if type(previsores[0][i]) == str:
        lista_categoricos.append(i)
classe = labelencoder.fit_transform(classe)

#---------------------Criando as variáveis do tipo dummy----------------------#
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer([('oh_enc', OneHotEncoder(sparse=False), lista_categoricos),],remainder='passthrough')
previsores = ct.fit_transform(previsores)

#--------------------------Escalonando as variáveis---------------------------#
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

#-------------------Dividindo os Previsores e as Classes----------------------#
# Obs.: test_size = <porcentagem da divisão dos dados>                        #
#       nesse caso 25% dos dados serão de teste.                              #
#-----------------------------------------------------------------------------#
from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)



Agora sim podemos iniciar a utilização dos algoritmos.

In [2]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.decomposition import PCA

#------Definindo a quantidade de atributos que quero que sobrem no final------#
pca = PCA(n_components = 6)

#---------Ajustando a quantidade de atributos para treinamento e teste--------#
previsores_treinamento = pca.fit_transform(previsores_treinamento)
previsores_teste = pca.transform(previsores_teste)

#-Mostrando o quanto de representatividade vamos ter com esses p componentes--#
componentes = pca.explained_variance_ratio_
print(componentes)

[0.04210413 0.02788386 0.02408172 0.02244915 0.02145237 0.01764136]


Note que a base de dados foi reduzida para apenas seis atributos, isso porque elas já representavam bem toda a base de dados. Para descobrir quantos componentes devem persistir após os cortes, utiliza-se o comando `componentes = pca.explained_variance_ratio_ ` com ele a variável componentes terá como resultado uma lista que pode ser melhor vista da seguinte forma:

|Quantidade|Representatividade individual|
|-|-|
|1|0.2705458|
|2|0.17917156|
|3|0.1547414|
|4|0.14424214|
|5|0.1378468|
|6|0.1134523|

Pode-se ler essa tabela da seguinte forma: se utilizarmos apenas um atributo teremos 27% de representatividade, se utilizarmos dois atributos teremos $(0,27+0,17).100$ % de representatividade. E assim sucessivamente. Logo quanto um dado valor de `n` atingir uma representatividade satisfatório é esse valor que será escolhido.


Após a escolha do valor de atributos e da redução da base de dados, escolha o método de classificação ou regressão que lhe interessar e o aplique na sua nova base de dados.
Para exemplificar vou utilizar o algoritmo de classificação Random forest, que dentre todos foi um dos que apresentou melhores resultados, cerca de 85%, com a base de dados census.csv completa.

In [3]:
#------Criando a floresta com 40 árvores baseando no criterio de entropia-----#
from sklearn.ensemble import RandomForestClassifier
classificador = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
classificador.fit(previsores_treinamento, classe_treinamento)

#------Passando os dados de teste palas árvores e armazenando as previsões----#
previsoes = classificador.predict(previsores_teste)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
from sklearn.metrics import accuracy_score, confusion_matrix
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

precisao: 0.8272939442328953 
 matriz de confusão: 
[[5635  524]
 [ 882 1100]]


## ANÁLISE DISCRIMINANTE LINEAR (LDA)

- Para dados linearmente separáveis.
- Extração de características.
- Além de encontrar os componentes principais, LDA também encontra os eixos que maximizam a separação entre múltiplas classes.
- Aprendizagem supervisionada.
- Das `m` variáveis independentes, LDA extrai `p<=m` novas variáveis independentes que separam as classes da variável dependente.
- Uma desvantagem do LDA é que como ele faz a redução com base nos previsores e na classe, se pedirmos para ele reduzir ele irá reduzir com base na dimensão das duas, ou seja, se a classe tiver apenas um atributo ele reduzirá tudo para apenas um atributo mesmo que mandemos reduzir para seis. Isso gera muita perda de informação.

### **Implementação**
- **Classe**:
    - [sklearn.decomposition.LatentDirichletAllocation](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html#sklearn.decomposition.LatentDirichletAllocation)
- **Base de Dados**:
    - census.csv
    
Novamente utilizarei o algoritmo de classificação Random forest.

In [4]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

#------Definindo a quantidade de atributos que quero que sobrem no final------#
lda = LinearDiscriminantAnalysis(n_components = 2)

#---------Ajustando a quantidade de atributos para treinamento e teste--------#
previsores_treinamento = lda.fit_transform(previsores_treinamento, classe_treinamento)
previsores_teste = lda.transform(previsores_teste)

#------Criando a floresta com 40 árvores baseando no criterio de entropia-----#
classificador = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
classificador.fit(previsores_treinamento, classe_treinamento)

#------Passando os dados de teste palas árvores e armazenando as previsões----#
previsoes = classificador.predict(previsores_teste)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

precisao: 0.7580149858739712 
 matriz de confusão: 
[[5189  970]
 [1000  982]]


## KERNEL PCA

- Para dados não linearmente separáveis.
- Kernel PCA é uma versão do PCA que os dados são mapeados para uma dimensão maior usando o kernel trick.
- Os componentes principais são extraídos dos dados com dimensionalidade maior.

### **Implementação**

- **Classe**:
    - [sklearn.decomposition.KernelPCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.KernelPCA.html#sklearn.decomposition.KernelPCA)
- **Base de Dados**:
    - census.csv
    
Novamente utilizarei o algoritmo de classificação Random forest.

Apesar de poupar o gasto computacional na hora do treinamento, ele gasta muito processamento para reduzir os atributos, e no caso dessa base de dados ele gasta principalmente memória.

In [5]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.decomposition import KernelPCA

#------Definindo a quantidade de atributos que quero que sobrem no final------#
kpca = KernelPCA(n_components = 6, kernel = 'rbf')

#---------Ajustando a quantidade de atributos para treinamento e teste--------#
previsores_treinamento = kpca.fit_transform(previsores_treinamento)
previsores_teste = kpca.transform(previsores_teste)

#------Criando a floresta com 40 árvores baseando no criterio de entropia-----#
classificador = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
classificador.fit(previsores_treinamento, classe_treinamento)

#------Passando os dados de teste palas árvores e armazenando as previsões----#
previsoes = classificador.predict(previsores_teste)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

precisao: 0.7585063260041764 
 matriz de confusão: 
[[5195  964]
 [1002  980]]


Mas uma observação válida de ser feita é que os resultados obtidos reduzindo a quantidade de atributos foram relativamente próximos do valor sem redução, logo o programador deve analisar se vale a pena ou não o gasto computacional de se utilizar todos os dados.