Arvore de Decisão com o data frame iris

Realizando as importações das bibliotecas que iremos utilizar

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

Carregando o dataframe iris e realizando a separação das variaveis dependentes da variavel independente

In [4]:
iris = datasets.load_iris()
previsores = iris.data
classe = iris.target
previsores[0:4,:]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

Visualizando a variavel dependente classe

In [5]:
classe

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Realizando a padronização dos dados com Z-score

In [6]:
#padronização Z-score
#gera objeto numpy
sc = StandardScaler()
previsores = sc.fit_transform(previsores)
previsores[0:4,:]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ]])

Dividindo os dados de treino e teste

In [7]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 123)

Criando o modelo da arvore de decisão com 100 arvores

In [8]:
floresta = RandomForestClassifier(n_estimators = 100,  random_state = 1234)
floresta.fit(X_treinamento, y_treinamento)
previsoes = floresta.predict(X_teste)

Criando a matriz de confusão para verificar a taxa de acerto do modelo gerado

In [None]:
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)

In [9]:
taxa_acerto

0.9333333333333333

A taxa de acerto do modelo foi de 93%, agora iremos dar continuação em busca de uma melhora ainda mais do modelo

Realizando a redução de dimensionalidade com pca para 3 componentes

In [10]:
#previsoes já padronizados
#redução de dimensionalidade
pca = PCA(n_components=3)
previsores = pca.fit_transform(previsores)
previsores[0:4,:]

array([[-2.26470281,  0.4800266 , -0.12770602],
       [-2.08096115, -0.67413356, -0.23460885],
       [-2.36422905, -0.34190802,  0.04420148],
       [-2.29938422, -0.59739451,  0.09129011]])

Separando novamente os dados de treino e teste

In [11]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 123)

Criando o modelo de arvore de decisão com 100 arvores novamente e o mesmo random_state para não perdemos a sequencia de criação das arvores

In [12]:
floresta = RandomForestClassifier(n_estimators = 100,  random_state = 1234)
floresta.fit(X_treinamento, y_treinamento)
previsoes = floresta.predict(X_teste)

Criando a matrix de confusão

In [None]:
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)

In [13]:
taxa_acerto

0.9555555555555556

Podemos verificar claramente que conseguimos um ganho maior na taxa de acerto do modelo com a redução de dimensionalidade PCA