# Imports

In [1]:
from sklearn import datasets

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

# Carregar a base

In [2]:
iris = datasets.load_iris()
previsores = iris.data
classe = iris.target
previsores[0:4,:]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

# Normalização

In [3]:
#padronização Z-score
#gera objeto numpy
sc = StandardScaler()
previsores = sc.fit_transform(previsores)
previsores[0:4,:]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ]])

# Treinamento do modelo

In [4]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 123)

In [5]:
floresta = RandomForestClassifier(n_estimators = 100,  random_state = 1234)
floresta.fit(X_treinamento, y_treinamento)
previsoes = floresta.predict(X_teste)
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)

print(f"Taxa de acerto= {round(taxa_acerto,2)*100}%")

Taxa de acerto= 93.0%


# Redução de dimensionalidade

In [6]:
#previsoes já padronizados
#redução de dimensionalidade
pca = PCA(n_components=3)
previsores = pca.fit_transform(previsores)
previsores[0:4,:]

array([[-2.26470281,  0.4800266 , -0.12770602],
       [-2.08096115, -0.67413356, -0.23460885],
       [-2.36422905, -0.34190802,  0.04420148],
       [-2.29938422, -0.59739451,  0.09129011]])

Cria novas caracteristicas que representa a base antiga.

In [7]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 123)

In [8]:
#treinar o modelo denovo
floresta = RandomForestClassifier(n_estimators = 100,  random_state = 1234)
floresta.fit(X_treinamento, y_treinamento)
previsoes = floresta.predict(X_teste)
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)

print(f"Taxa de acerto= {round(taxa_acerto,2)*100}%")

Taxa de acerto= 96.0%


Melhorou em 3%