## Implementando um Classificador de Floresta Aleatória com PCA

1. Carregando as Blibliotecas necessárias:

In [1]:
import numpy as np
import pandas as pd

2. Carregando os dados para o treinamento do modelo:

In [21]:
arquivo = 'iris.data'
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(arquivo,names=names)
dataset.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


3. Separando os dados de Treinamento e Teste para o Modelo:

In [24]:
from sklearn.model_selection import train_test_split
X = dataset.drop('Class',axis=1) # variaveis independentes
y = dataset['Class'] # variavel dependente
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

4. Colocando todas as Variáveis na mesma Escala para o Treinamento do Modelo:

In [26]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

5. Aplicando o PCA para o Treinamento de um Modelo de Floresta Aleatória:

In [None]:
from sklearn.decomposition import PCA

from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

for i in range(X_train.shape[1]):
    pca = PCA(n_components=i+1)
    pca_X_train = pca.fit_transform(X_train)
    pca_X_test = pca.transform(X_test)

    classifier = RandomForestClassifier(max_depth=2, random_state=0)
    classifier.fit(pca_X_train, y_train)

    # Predicting the Test set results
    y_pred = classifier.predict(pca_X_test) # faz uma predição com os dados de teste a partir do modelo treinado
    cm = confusion_matrix(y_test, y_pred) # gera uma matriz de confusão para comparar os valores reais com os previstos
    print ("---------------------------------------------------------------")
    print("PCA: ", i+1)
    print(cm)
    print('Accuracy:', accuracy_score(y_test, y_pred)) # mede a acurácia do modelo comparando os valores reais com os previstos
    print('Dataset Var: ', pca_X_train.var())
    for c in range(pca_X_train.shape[1]):
        print("Component(",c+1,"):", pca_X_train[c].var())
    print("---------------------------------------------------------------")

---------------------------------------------------------------
PCA:  1
[[11  0  0]
 [ 0 12  1]
 [ 0  1  5]]
Accuracy: 0.9333333333333333
Dataset Var:  2.889061120891458
Component( 1 ): 0.0
---------------------------------------------------------------
---------------------------------------------------------------
PCA:  2
[[11  0  0]
 [ 0  9  4]
 [ 0  2  4]]
Accuracy: 0.8
Dataset Var:  1.9240264601094712
Component( 1 ): 0.20903336418815938
Component( 2 ): 0.05109115502394763
---------------------------------------------------------------
---------------------------------------------------------------
PCA:  3
[[11  0  0]
 [ 0  8  5]
 [ 0  1  5]]
Accuracy: 0.8
Dataset Var:  1.3271925349023714
Component( 1 ): 0.3595457335003856
Component( 2 ): 0.1096766372423076
Component( 3 ): 1.5185710212033146
---------------------------------------------------------------
---------------------------------------------------------------
PCA:  4
[[11  0  0]
 [ 0 11  2]
 [ 0  1  5]]
Accuracy: 0.9
Datase