In [62]:
# imports
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,f1_score,recall_score
from collections import Counter
import numpy as np

In [63]:
# Pegando o dataset e corrigindo algumas formatações nos nomes das colunas
dataset = pd.read_csv("./dataset_normalized.csv")
dataset.columns = [i.strip() for i in dataset.columns]

# O dataset estava bem desbalanceado e fizemos algumas alterações, são elas:

# - adicionar instância de dados da classe "in game" pois são necessárias e estavam em falta
# - Adicionar os nomes das colunas no header do csv

# - X = 1
# - O = 2
# - b = 0

In [64]:
# X são nossas variáveis explicativas, através deles que chegamos até o Y
# Y são nossas variáveis respostas

# Pegamos todas as linhas e colunas do dataset EXCETO a última, ou seja, pegamos todos os X do dataset
X = dataset.iloc[:,0:-1]

# Pegamos todas as linhas apenas da ÚLTIMA coluna, ou seja, apenas os Y do dataset
y = dataset.iloc[:,-1]

# Divisão inicial em treino e teste (70% treino e 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)

# Divisão do conjunto de teste em teste e validação (metade metade)
X_val, X_test, y_val, y_test = train_test_split(X_test,y_test,test_size=0.5,stratify=y_test)

# distribuição total do dataset
# 70% - treino
# 15% - teste
# 15% - validação

In [65]:
# Função para ver a distribuição do dataset, para se ter uma ideia do tamanho do desbalanceamento

# 0 = x loses
# 1 = x wins
# 2 = draw
# 3 = in game


# Dados de frequência das classes
datasets = {
    "TOTAL": Counter(y),
    "TREINO": Counter(y_train),
    "TESTE": Counter(y_test),
    "VALIDAÇÃO": Counter(y_val)
}

# Iterar sobre os datasets
for dataset, counter in datasets.items():
    print(f"Frequência das classes no dataset {dataset}:")
    for classe, frequencia in sorted(counter.items()):
        print(f"Classe {classe}: {frequencia}")
    print()


Frequência das classes no dataset TOTAL:
Classe 0: 316
Classe 1: 626
Classe 2: 16
Classe 3: 56

Frequência das classes no dataset TREINO:
Classe 0: 221
Classe 1: 438
Classe 2: 11
Classe 3: 39

Frequência das classes no dataset TESTE:
Classe 0: 48
Classe 1: 94
Classe 2: 2
Classe 3: 9

Frequência das classes no dataset VALIDAÇÃO:
Classe 0: 47
Classe 1: 94
Classe 2: 3
Classe 3: 8



In [67]:
# KNN - ALGORITHM

# Criando um modelo de knn com k = 3
model = KNeighborsClassifier(n_neighbors=6)

# Treinando o modelo com X e Y de treino
model.fit(X_train, y_train)

# Apenas para mostrar a predição de cada linha
# predicao = model.predict(X_test)
# for i in range(len(X_test)):
#     print(X_test.iloc[i].tolist(), "predição:", predicao[i])

# Vendo o score com o dataset de teste
test_score = model.score(X_test, y_test)
print("Acurácia com dataset de TESTE - ",test_score)

# Vendo o score com o dataset de validação
val_score = model.score(X_val, y_val)
print("Acurácia com dataset de VALIDAÇÃO - ",val_score)



# O código abaixo cria vários modelos de k-nn com diferentes valores de K
# A ideia é testar a acurácia desses modelos para definir o melhor valor de K
# para nosso modelo final, ah mas tem o "MéToDo Do CoToVeLo", sintam-se a vontade
# pra fazer
k_test_score = {}
list_model = {}
n_neighbors = np.arange(2, 100, 1)
for n in n_neighbors:
    model = KNeighborsClassifier(n_neighbors=n)
    model.fit(X_train, y_train)
    list_model[n]= model
    k_test_score[n]=model.score(X_val, y_val)

# Imprimindo os resultados formatados
print("Score do conjunto de teste para diferentes valores de n_neighbors:")
for n, score in k_test_score.items():
    print(f"K = {n}: Score = {score}")

# Encontrando o maior valor em k
melhor_n = max(k_test_score, key=k_test_score.get)
melhor_score = k_test_score[melhor_n]

print(f"Melhor valor de n_neighbors: {melhor_n}")
print(f"Melhor score: {melhor_score}")

Acurácia com dataset de TESTE -  0.8366013071895425
Acurácia com dataset de VALIDAÇÃO -  0.875
Score do conjunto de teste para diferentes valores de n_neighbors:
K = 2: Score = 0.743421052631579
K = 3: Score = 0.8026315789473685
K = 4: Score = 0.8421052631578947
K = 5: Score = 0.8421052631578947
K = 6: Score = 0.875
K = 7: Score = 0.8552631578947368
K = 8: Score = 0.8486842105263158
K = 9: Score = 0.8355263157894737
K = 10: Score = 0.8157894736842105
K = 11: Score = 0.7894736842105263
K = 12: Score = 0.7894736842105263
K = 13: Score = 0.7697368421052632
K = 14: Score = 0.7763157894736842
K = 15: Score = 0.7763157894736842
K = 16: Score = 0.7631578947368421
K = 17: Score = 0.7763157894736842
K = 18: Score = 0.756578947368421
K = 19: Score = 0.75
K = 20: Score = 0.743421052631579
K = 21: Score = 0.7368421052631579
K = 22: Score = 0.7631578947368421
K = 23: Score = 0.7236842105263158
K = 24: Score = 0.7236842105263158
K = 25: Score = 0.7368421052631579
K = 26: Score = 0.7171052631578947
K

In [None]:
# MLP - ALGORITHM

from sklearn.neural_network import MLPClassifier

# esse é de longe o que eu menos entendi, tem q dar uma estuda!
model = MLPClassifier(hidden_layer_sizes=(2000,100,10),max_iter=1000)

# treinando
model.fit(X_train,y_train)

# vendo o score com o dataset de teste
model.score(X_test,y_test)

In [None]:
# DECISION THREE - ALGORITHM

from sklearn.tree import DecisionTreeClassifier

# Criando o modelo da árvore
decision_tree_model = DecisionTreeClassifier()

# Treinando
model.fit(X_train,y_train)

# Vendo o score com os dataset de teste
model.score(X_test,y_test)

In [None]:
# sei lá q raio de modelo é esse, mas é de classficação

# Aqui tem vários algoritmos de aprendizado supervisionado usando essa lib
# scikit, que é barbada, ent só estudar um modelo tri, escolher e rodar nesse
# mesmo formato
# https://scikit-learn.org/stable/supervised_learning.html#supervised-learning

from sklearn.linear_model import SGDClassifier
model = SGDClassifier()
model.fit(X_train,y_train)
model.score(X_test,y_test)