# **Principal Component Analysis**

Na seleçõa de características, decidimos quais atributos são mais importantes no banco de dados para se trabalhar. Já na extração de características, unimos as características semelhantes em uma só.
O **PCA** é um dos principais algoritmos de aprendizagem não supervisionada, identificando a correlaçõa entre variáveis e, caso haja uma forte correlação, é possível reduzir a dimensionalidade.<br>
Das $m$ variáveis independentes, o PCA extrai $p≤m$ novas variáveis independentes que explica melhor a variação na base de dados, sem considerar a variável dependente. Podemos escolher o número de $p$.

In [3]:
import pandas as pd

base_census = pd.read_csv('/Users/gustavomeira/Documents/Python/Estudo_ML/projects/Redução de Dimensionalidade/census.csv')
X_census = base_census.iloc[:,0:14].values
Y_census = base_census.iloc[:,14].values

In [4]:
from sklearn.preprocessing import LabelEncoder

label_encoder_workclass = LabelEncoder()
label_encoder_education = LabelEncoder()
label_encoder_marital = LabelEncoder()
label_encoder_occupation = LabelEncoder()
label_encoder_relationship = LabelEncoder()
label_encoder_race = LabelEncoder()
label_encoder_sex = LabelEncoder()
label_encoder_country = LabelEncoder()

X_census[:,1] = label_encoder_workclass.fit_transform(X_census[:,1])
X_census[:,3] = label_encoder_education.fit_transform(X_census[:,3])
X_census[:,5] = label_encoder_marital.fit_transform(X_census[:,5])
X_census[:,6] = label_encoder_occupation.fit_transform(X_census[:,6])
X_census[:,7] = label_encoder_relationship.fit_transform(X_census[:,7])
X_census[:,8] = label_encoder_race.fit_transform(X_census[:,8])
X_census[:,9] = label_encoder_sex.fit_transform(X_census[:,9])
X_census[:,13] = label_encoder_country.fit_transform(X_census[:,13])

In [6]:
from sklearn.preprocessing import StandardScaler

scaler_census = StandardScaler()
X_census = scaler_census.fit_transform(X_census)

In [7]:
from sklearn.model_selection import train_test_split

X_census_treinamento, X_census_teste, Y_census_treinamento, Y_census_teste = train_test_split(X_census, Y_census, test_size=0.15, random_state=0)

## PCA

In [15]:
from sklearn.decomposition import PCA

pca = PCA(n_components=8)
X_census_treinamento_pca = pca.fit_transform(X_census_treinamento)
X_census_teste_pca = pca.transform(X_census_teste)

In [16]:
display(X_census_treinamento_pca.shape)

(27676, 8)

In [17]:
display(pca.explained_variance_ratio_)
display(pca.explained_variance_ratio_.sum())

array([0.151561  , 0.10109701, 0.08980379, 0.08076277, 0.07627678,
       0.07357646, 0.06772289, 0.06690789])

0.7077085943199322

In [18]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

random_forest_census_pca = RandomForestClassifier(n_estimators=40, random_state=0)
random_forest_census_pca.fit(X_census_treinamento_pca, Y_census_treinamento)

previsoes = random_forest_census_pca.predict(X_census_teste_pca)
display(accuracy_score(Y_census_teste, previsoes))

0.8364380757420675