In [20]:
#importando as bibliotecas
from sklearn.datasets import load_wine
wine = load_wine()

#Exemplo de acesso aos dados
X = wine.data[:, :]#Features de cada elemento
y = wine.target #Classes de cada elemento

#-------------
# É preciso terinar o classificador, e testar o seu desempenho com dados "novos"
# Aqui, dividimos os dados em treino e teste, para podermos testar nosso desempenho depois.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
#O uso dessa função facilita, mas não é obrigatório. Você pode dividir os seus dados manualmente.

#_____________
#Carregando e treinando os classificadores
# Random forests
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train,y_train)
y_pred = rfc.predict(X_test)

# Métricas do Random forests
from sklearn.metrics import accuracy_score, recall_score, precision_score

rfc_acc = round(accuracy_score(y_test, y_pred), 6)#round é para arredondar
rfc_recall = round(recall_score(y_test, y_pred, average='weighted'),6)
rcf_precision = round(precision_score(y_test, y_pred, average='weighted'),6)

#--------------------------
# KNN
from sklearn.neighbors import KNeighborsClassifier
# Faz a instanciação do nosso classificador
knn = KNeighborsClassifier(n_neighbors=3)
# Faz o treino do modelo
knn.fit(X_train, y_train)
# testa o modelo
y_pred = knn.predict(X_test)

# Métricas do KNN - mede a qualidade
knn_acc = round(accuracy_score(y_test, y_pred), 6)#round é para arredondar
knn_recall = round(recall_score(y_test, y_pred, average='weighted'),6)
knn_precision = round(precision_score(y_test, y_pred, average='weighted'),6)

# ---------------------
# Comparação
print("KNN vs Random Forestts\n")
print("Classes: {0}\n".format(wine.target_names))
print("Acurácia: {0} vs {1}".format(knn_acc, rfc_acc))
print("Recall: {0} vs {1}".format(knn_recall, rfc_recall))
print("Precision: {0} vs {1}".format(knn_precision, rcf_precision))

# ---------------
# Na validação cruzada
from sklearn.model_selection import cross_val_score
cv_rfc = cross_val_score(rfc, X, y)
cv_knn = cross_val_score(knn, X, y)
print("\nValidação cruzada: {0} vs {1}".format(cv_knn, cv_rfc))

# Soma das validações cruzadas
sum_cv_rfc = 0
for cv_score in cv_rfc:
  sum_cv_rfc += cv_score

print("\nResultado Random Forest: {0}".format(sum_cv_rfc/5))

# Soma das validações cruzadas
sum_cv_knn = 0
for cv_score in cv_knn:
  sum_cv_knn += cv_score

print("\nResultado KNN: {0}".format(sum_cv_knn/5))

# --------------------------
# Buscando hiper parâmetros
# faz a validação cruzada dos 2 modelos
from sklearn.model_selection import GridSearchCV

# RFC
parameters = {'min_samples_split':(2,6)}
rfc_hps = GridSearchCV(rfc, parameters)
rfc_hps.fit(X, y)
print("\nMelhor valor para min_samples_split: {0}".format(rfc_hps.best_params_['min_samples_split']))

# KNN
parameters = {'n_neighbors':(1,20)}
knn_hps = GridSearchCV(knn, parameters)
knn_hps.fit(X, y)
knn_hps.best_params_['n_neighbors']
print("\nMelhor valor n_neighbors: {0}".format(knn_hps.best_params_['n_neighbors']))



KNN vs Random Forestts

Classes: ['class_0' 'class_1' 'class_2']

Acurácia: 0.694915 vs 1.0
Recall: 0.694915 vs 1.0
Precision: 0.698231 vs 1.0

Validação cruzada: [0.63888889 0.69444444 0.66666667 0.65714286 0.85714286] vs [0.97222222 0.94444444 1.         1.         1.        ]

Resultado Random Forest: 0.9833333333333332

Resultado KNN: 0.7028571428571428

Melhor valor para min_samples_split: 2

Melhor valor n_neighbors: 1
