# Lista 07 - Comparando Classificadores

# Exercício 01:

Analise o desempenho do kNN e de uma Regressão Logística Regularizada para **pelo menos um** dos conjuntos de dados abaixo:

* [Avaliação de carros](http://archive.ics.uci.edu/ml/datasets/Car+Evaluation)
* [Avaliação de vinhos](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)
* [Resultados de partidas do jogo Dota](http://archive.ics.uci.edu/ml/datasets/Dota2+Games+Results) (desafiador!)

Para a questão, faça as seguintes tarefas:

* Realize treino, validação e teste
* Compare as métricas no teste
* Reporte a precisão, revocação, F1 e a matriz de confusão

Como já estamos no fim da matéria, você pode agora fazer uso da biblioteca scikit-learn. Afinal, no dia a dia, não implementamos tudo do zero. Abaixo temos os imports que vocês precisam. Leiam a API da biblioteca para saber como fazer uso da mesma.

In [0]:
import csv
import numpy as np

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_fscore_support
from sklearn.metrics import accuracy_score, f1_score, recall_score

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import train_test_split

In [2]:
train_file = open('dota2Train.csv', 'r')
test_file = open('dota2Test.csv', 'r')

train_data = csv.reader(train_file, delimiter=',')
test_data = csv.reader(test_file, delimiter=',')

features = {"train": [], "test": []}
labels = {"train": [], "test": []}

for data in train_data:
  features["train"].append([float(x) if len(x) > 0 else 0 for x in data[4:]])
  labels["train"].append(1 if data[0] == "1" else 0)
    
for data in test_data:
  features["test"].append([float(x) if len(x) > 0 else 0 for x in data[4:]])
  labels["test"].append(1 if data[0] == "1" else 0)

features["train"] = np.array(features["train"])
labels["train"] = np.array(labels["train"])
features["test"] = np.array(features["test"])
labels["test"] = np.array(labels["test"])

print("Formato das features de treinamento:", features["train"].shape)
print("Formato das labels de treinamento:", labels["train"].shape)
print("Formato das features de teste:", features["test"].shape)
print("Formato das labels de teste:", labels["test"].shape)

Formato das features de treinamento: (92650, 113)
Formato das labels de treinamento: (92650,)
Formato das features de teste: (10294, 113)
Formato das labels de teste: (10294,)


In [3]:
print("Fitando o KNN")
knn = KNeighborsClassifier(n_neighbors=11)
knn.fit(features["train"], labels["train"])

print("Resultados usando KNN")
labels_treino = np.array(labels["train"][:10000]) # Os 10000 primeiros por questão de tempo de execução
labels_teste = np.array(labels["test"][:10000]) # Os 10000 primeiros por questão de tempo de execução
predicoes_treino = knn.predict(np.array(features["train"][:10000])) # Os 10000 primeiros por questão de tempo de execução
predicoes_teste = knn.predict(np.array(features["test"][:10000])) # Os 10000 primeiros por questão de tempo de execução

print("\nResultados para os dados de treinamento:")
print("Precisão dos dados de treinamento:\n", accuracy_score(labels_treino, predicoes_treino))
print("Revocação dos dados de treinamento:\n", recall_score(labels_treino, predicoes_treino))
print("F1 dos dados de treinamento:\n", f1_score(labels_treino, predicoes_treino))
print("Matriz de Confusão dos dados de treinamento:\n", confusion_matrix(labels_treino, predicoes_treino))

print("\nResultados para os dados de teste:")
print("Precisão dos dados de teste:\n", accuracy_score(labels_teste, predicoes_teste))
print("Revocação dos dados de teste:\n", recall_score(labels_teste, predicoes_teste))
print("F1 dos dados de teste:\n", f1_score(labels_teste, predicoes_teste))
print("Matriz de Confusão dos dados de teste:\n", confusion_matrix(labels_teste, predicoes_teste))

Fitando o KNN
Resultados usando KNN

Resultados para os dados de treinamento:
Precisão dos dados de treinamento:
 0.6488
Revocação dos dados de treinamento:
 0.7025399811853246
F1 dos dados de treinamento:
 0.6801457194899818
Matriz de Confusão dos dados de treinamento:
 [[2754 1931]
 [1581 3734]]

Resultados para os dados de teste:
Precisão dos dados de teste:
 0.5419
Revocação dos dados de teste:
 0.6043812020220932
F1 dos dados de teste:
 0.584941560206578
Matriz de Confusão dos dados de teste:
 [[2191 2468]
 [2113 3228]]


In [4]:
print("Fitando a Regressão Logística")
logistic_regression = LogisticRegression()
logistic_regression.fit(features["train"], labels["train"])

print("\Resultados usando a Regressão Logística")
labels_treino = np.array(labels["train"][:10000]) # Os 10000 primeiros por questão de tempo de execução
labels_teste = np.array(labels["test"][:10000]) # Os 10000 primeiros por questão de tempo de execução
predicoes_treino = logistic_regression.predict(np.array(features["train"][:10000])) # Os 10000 primeiros por questão de tempo de execução
predicoes_teste = logistic_regression.predict(np.array(features["test"][:10000])) # Os 10000 primeiros por questão de tempo de execução

print("\nResultados para os dados de treinamento:")
print("Precisão dos dados de treinamento:\n", accuracy_score(labels_treino, predicoes_treino))
print("Revocação dos dados de treinamento:\n", recall_score(labels_treino, predicoes_treino))
print("F1 dos dados de treinamento:\n", f1_score(labels_treino, predicoes_treino))
print("Matriz de Confusão dos dados de treinamento:\n", confusion_matrix(labels_treino, predicoes_treino))

print("\nResultados para os dados de teste:")
print("Precisão dos dados de teste:\n", accuracy_score(labels_teste, predicoes_teste))
print("Revocação dos dados de teste:\n", recall_score(labels_teste, predicoes_teste))
print("F1 dos dados de teste:\n", f1_score(labels_teste, predicoes_teste))
print("Matriz de Confusão dos dados de teste:\n", confusion_matrix(labels_teste, predicoes_teste))

Fitando a Regressão Logística




\Resultados usando a Regressão Logística

Resultados para os dados de treinamento:
Precisão dos dados de treinamento:
 0.5978
Revocação dos dados de treinamento:
 0.6709313264346191
F1 dos dados de treinamento:
 0.6394118701811009
Matriz de Confusão dos dados de treinamento:
 [[2412 2273]
 [1749 3566]]

Resultados para os dados de teste:
Precisão dos dados de teste:
 0.5982
Revocação dos dados de teste:
 0.6695375397865568
F1 dos dados de teste:
 0.6402864816472694
Matriz de Confusão dos dados de teste:
 [[2406 2253]
 [1765 3576]]


Explique e discuta sobre os resultados encontrados no campo abaixo.

A base de testes sobre as partidas de Dota foi escolhida e seu objetivo era predizer qual dos dois times em uma partida seria o vencedor baseado em quais heróis foram escolhidos para cada um dos lados. Com os dados (mais de 100k!) e treinamos os dados com ambos KNN e a Regressão Logística. Para o KNN, vários valores de ```k``` foram escolhidos e o que gerou os melhores resultados foi o ```k = 11```. 

A regressão logística conseguiu uma acurácia superior à obtida usando o método do KNN nos dados de teste, com uma precisão de 59.8% contra 54.2%. É possível notar também na matrix de confusão que ambas falharam de forma parecida existindo um aglomerado de erros em posições parecidas da tabela, provavelmente se tratando de outliers.

De forma geral, o problema é muito complexo pois não são apenas os heróis escolhidos antes de uma partida que definirão o resultado da mesma. Porém com uma métrica de precisão acima de 50% (chegando próximo até dos 60%), podemos afirmar que existe uma relação entre essas duas coisas.