In [40]:
# Carregando o dataset
from sklearn import datasets
from sklearn.decomposition import PCA

iris = datasets.load_iris()
x = iris.data[:, :2]  # pegamos as primeiras duas features aqui. Pegue as outras se quiser
y = iris.target

y[0]  # classe do primeiro elemento
x[:1, :]  # primeiro elemento a classificar

# ---------------------------

# É preciso treinar o classificador, e testar o seu desempenho com dados "novos"
# Aqui, dividimos os dados em treino e teste, para podermos testar nosso desempenho depois

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)


# Carregando e treinando os classficadores
# Random Forest
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(x_train,y_train)
y_pred = rfc.predict(x_test)

# Métricas do Random Forest

from sklearn.metrics import accuracy_score, recall_score, precision_score

rfc_acc = round(accuracy_score(y_test, y_pred), 4) # round é para arredondar
rfc_recall = round(recall_score(y_test, y_pred, average='weighted'), 4)
rfc_precision = round(precision_score(y_test, y_test, y_pred, average='weighted'), 4)

# ------------------------

# KNN
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, y_train)
y_pred = knn.predict(x_test)

# Métricas do KNN
knn_acc = round(accuracy_score(y_test, y_pred), 4) # round é para arredondar
knn_recall = round(recall_score(y_test, y_pred, average='weighted'), 4)
knn_precision = round(precision_score(y_test, y_test, y_pred, average='weighted'), 4)

#-----------------------

# Comparação
print("KNN vs Random Forest\n")
print("Classes: {0}\n".format(iris.target_names))
print("Acuracia: {0} vs {1}".format(knn_acc, rfc_acc))
print("Recall: {0} vs {1}".format(knn_recall, rfc_recall))
print("Precision: {0} vs {1}".format(knn_precision, rfc_precision))

# ---------------------

# Na Validação Cruzada
from sklearn.model_selection import cross_val_score
cv_rfc = cross_val_score(rfc, x, y)
cv_knn = cross_val_score(knn, x, y)
print("\nValidação Cruzada: {0} vs {1}".format(cv_knn, cv_rfc))


KNN vs Random Forest

Classes: ['setosa' 'versicolor' 'virginica']

Acuracia: 0.76 vs 0.78
Recall: 0.76 vs 0.78
Precision: 1.0 vs 1.0

Validação Cruzada: [0.66666667 0.8        0.63333333 0.86666667 0.66666667] vs [0.66666667 0.73333333 0.7        0.8        0.76666667]


In [41]:
sum_cv_rfc = 0
for cv_score in cv_rfc:
  sum_cv_rfc += cv_score

print("\Resultado Random Forest: {0}".format(sum_cv_rfc/5))


\Resultado Random Forest: 0.7333333333333332


In [43]:
sum_cv_knn = 0
for cv_score in cv_knn:
  sum_cv_knn += cv_score

print("\nResultado KNN: {0}".format(sum_cv_knn/5))




Resultado KNN: 0.7266666666666667


In [44]:
#Buscando Hiperparâmetros
from sklearn.model_selection import GridSearchCV

#RFC
parameters = {'min_samples_split':(2,6)}
rfc_hps = GridSearchCV(rfc, parameters)
rfc_hps.fit(x, y)
print("Melhor valor para min_samples_split: {0}".format(rfc_hps.best_params_['min_samples_split']))



Melhor valor para min_samples_split: 6


In [45]:
#KNN
parameters = {'n_neighbors':(1,20)}
knn_hps = GridSearchCV(knn, parameters)
knn_hps.fit(x , y)
knn_hps.best_params_['n_neighbors']
print("Melhor valor para n_neighbors: {0}".format(knn_hps.best_params_['n_neighbors']))

Melhor valor para n_neighbors: 20
