# Redução de dimensionalidade

## Preparacão da base de dados

In [None]:
import pandas as pd

base_census = pd.read_csv('census.csv')
base_census

In [None]:
X_census = base_census.iloc[:, 0:14].values
X_census

In [None]:
y_census = base_census.iloc[:, 14].values
y_census

In [None]:
from sklearn.preprocessing import LabelEncoder
label_encoder_workclass = LabelEncoder()
label_encoder_education = LabelEncoder()
label_encoder_marital = LabelEncoder()
label_encoder_occupation = LabelEncoder()
label_encoder_relationship = LabelEncoder()
label_encoder_race = LabelEncoder()
label_encoder_sex = LabelEncoder()
label_encoder_country = LabelEncoder()

In [None]:
X_census[:,1] = label_encoder_workclass.fit_transform(X_census[:,1])
X_census[:,3] = label_encoder_education.fit_transform(X_census[:,3])
X_census[:,5] = label_encoder_marital.fit_transform(X_census[:,5])
X_census[:,6] = label_encoder_occupation.fit_transform(X_census[:,6])
X_census[:,7] = label_encoder_relationship.fit_transform(X_census[:,7])
X_census[:,8] = label_encoder_race.fit_transform(X_census[:,8])
X_census[:,9] = label_encoder_sex.fit_transform(X_census[:,9])
X_census[:,13] = label_encoder_country.fit_transform(X_census[:,13])

In [None]:
X_census[0]

In [None]:
from sklearn.preprocessing import StandardScaler
scaler_census = StandardScaler()
X_census = scaler_census.fit_transform(X_census)

In [None]:
X_census # valores padronizados

In [None]:
from sklearn.model_selection import train_test_split
X_census_treinamento, X_census_teste, y_census_treinamento, y_census_teste = train_test_split(X_census, y_census, test_size=0.15, random_state=0)

In [None]:
X_census_treinamento.shape, X_census_teste.shape

## PCA (Principal component analysis)

- um dos principais algoritmos de aprendizagem de máquina não supervisionada
- identifica a correlação entre variáveis, e caso haja uma forte correlação é possivel reduzir a dimensionalidade
- das **m** variaveis independentes, PCA extrai p<= m novas variáveis independentes que explica melhor a variação na base de dados, sem considerar a vaiável dependente
- o usuario pode escolher o valor de **p**

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=8)

In [None]:
X_census_treinamento_pca = pca.fit_transform(X_census_treinamento)
X_census_testes_pca = pca.transform(X_census_teste)

In [None]:
X_census_treinamento_pca.shape, X_census_testes_pca.shape

In [None]:
X_census_treinamento

In [None]:
pca.explained_variance_ratio_

In [None]:
pca.explained_variance_ratio_.sum()

# indica que essas 8 componentes    explicam 70% das variaveis

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
random_forest_census_pca = RandomForestClassifier(n_estimators=40, random_state=0, criterion = 'entropy')
random_forest_census_pca.fit(X_census_treinamento_pca, y_census_treinamento)

In [None]:
previsoes = random_forest_census_pca.predict(X_census_testes_pca)
previsoes

In [None]:
y_census_teste

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_census_teste, previsoes)

## Kernel PCA

- PCA e LDA são utilizados quandos os dados são linermente separáveis

- é uma versão do PCA que os dados são mapeados para uma dimensão maior usando o **kernel trick**

- os componentes principais sao extraidas com dimensionalidade maior

In [None]:
from sklearn.decomposition import KernelPCA

In [None]:
kpca = KernelPCA(n_components=8, kernel='rbf')
X_census_treinamento_kpca = kpca.fit_transform(X_census_treinamento)
X_census_teste_kpca = kpca.transform(X_census_teste)

In [None]:
X_census_treinamento_kpca.shape, X_census_teste_kpca.shape

In [None]:
X_census_treinamento_kpca

In [None]:
from sklearn.ensemble import RandomForestClassifier
random_forest_census_kpca = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
random_forest_census_kpca.fit(X_census_treinamento_kpca, y_census_treinamento)

In [None]:
previsoes = random_forest_census_kpca.predict(X_census_teste_kpca)
previsoes

In [None]:
y_census_teste

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_census_teste, previsoes)

## LDA (Linear discriminant analysis)

- Além de encontrar os componentes principais,também encontra os eixos que maximizam a separação entre múltiplas classes 
- é supervisionada por causa da relação com a classe 
- das **m** variaveis independentes, LDA extrai p<= m novas variáveis independentes que mais separa as classes da variável independente

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis(n_components = 1)

In [None]:
X_census_treinamento_lda = lda.fit_transform(X_census_treinamento, y_census_treinamento)
X_census_teste_lda = lda.transform(X_census_teste)

In [None]:
X_census_treinamento_lda.shape, X_census_teste_lda.shape

In [None]:
X_census_treinamento_lda

In [None]:
from sklearn.ensemble import RandomForestClassifier
random_forest_census_lda = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
random_forest_census_lda.fit(X_census_treinamento_lda, y_census_treinamento)

In [None]:
previsoes = random_forest_census_lda.predict(X_census_teste_lda)
previsoes

In [None]:
y_census_teste

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_census_teste, previsoes)