## Resultados obtidos usando Machine Learning na Premier League

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectFromModel
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn import preprocessing
from trinta_testes_validacao_cruzada import TrintaTestes
from graph_compare import diagram
from sklearn import metrics
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score, confusion_matrix
import itertools
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

%matplotlib inline
warnings.filterwarnings('ignore')
pd.options.display.float_format = '{:,.2f}'.format

## Funções para plotagem da matriz de confusão e dos atributos mais importantes

In [2]:
# Funções para plotagem da matriz de confusão

def view_confusion_matrix(conf_matrix, classes=None,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    
    accuracy = np.trace(conf_matrix) / np.sum(conf_matrix).astype('float')
    misclass = 1 - accuracy
    if normalize:
        conf_matrix = conf_matrix.astype('float') / conf_matrix.sum(axis=1)[:, np.newaxis]
    plt.imshow(conf_matrix, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    if classes:
        tick_marks = np.arange(len(classes))
        plt.xticks(tick_marks, classes, rotation=45)
        plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else '.0f'
    thresh = conf_matrix.max() / 2.
    for i, j in itertools.product(range(conf_matrix.shape[0]), range(conf_matrix.shape[1])):
        plt.text(j, i, format(conf_matrix[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if conf_matrix[i, j] > thresh else "black")

    plt.ylabel('True label')
    plt.xlabel('Predicted label\naccuracy={:0.4f}; misclass={:0.4f}'.format(accuracy, misclass))
    plt.tight_layout()
    plt.show()
    plt.clf()
    plt.cla()
    plt.close()

def plotConfusionMatrix(cnf_matrix, classes_):
    np.set_printoptions(precision=2)

    # para habilitar configuração de tamanho da imagem a ser plotada 
    #matplotlib.style.use('default')
    
    # tamanho da imagem a ser plotada
    #plt.figure(figsize=(6,4))
        
    # Plot non-normalized confusion matrix
    if classes_:
        view_confusion_matrix(cnf_matrix, classes=classes_,
                      title='Confusion matrix, without normalization')
    else:
        view_confusion_matrix(cnf_matrix,
                      title='Confusion matrix, without normalization')
    
    # tamanho da imagem a ser plotada
    #plt.figure(figsize=(6,4))
    
    # Plot normalized confusion matrix
    if classes_:
        view_confusion_matrix(cnf_matrix, classes=classes_, normalize=True,
                      title='Normalized confusion matrix')
    else:
        view_confusion_matrix(cnf_matrix, normalize=True,
                      title='Normalized confusion matrix')
        

# função para verificação dos atributos mais importante para árvore de decisão e random forest

def importance(importancias):

    # se tiver mudado o tamanho das plotagens, posso voltar ao padrão com o comando abaixo
    #%matplotlib inline
    
    # juntando os dataframes pertencentes à lista passada como parâmetro em um só dataframe
    importances = pd.concat(importancias, axis=0, join='inner')
    
    # eliminando duplicidade de atributos e unificando por média
    importances = importances.groupby(importances.index).agg('mean')
    
    # ordenando por importância
    importances = importances.sort_values('importance', ascending = False)
    #importances = importances.iloc[0:4,:]
    display(importances)

    # imprimindo valores com nome dos atributos, em ordem e através de gráfico em barras
    importances.plot(kind='bar')

## Separação da base em previsores e classe

In [3]:
#base = pd.read_csv('dados_meio_tempo_com_odds.csv').drop(['Unnamed: 0'], axis=1).sample(frac=1).reset_index(drop=True)
base = pd.read_csv('dados_meio_tempo_com_odds_sem_vencedor_e_gols_ht.csv').drop(['Unnamed: 0'], axis=1).sample(frac=1).reset_index(drop=True)

previsores = base.iloc[:, 0:-1].values #returns a numpy array
classe = base.iloc[:, -1].values

classes_alvo = ['Visitante', 'Empate', 'Mandante']

# apenas para visualizar em forma de dataframe
classe_df = pd.DataFrame(classe)
previsores_df = pd.DataFrame(previsores)

## Pré-processamento dos dados

In [None]:
# transformando variáveis categóricas em numéricas usando o LabelEncoder

# para previsores
labelencoder_X = LabelEncoder()
previsores[:, 0] = labelencoder_X.fit_transform(previsores[:, 0])
previsores[:, 1] = labelencoder_X.fit_transform(previsores[:, 1])

# usar LabelEncoder na posição 31 apenas se tiver a coluna "vencedorht"
if base.iloc[:, 32:33].columns[0] == 'vencedorht':
    previsores[:, 31] = labelencoder_X.fit_transform(previsores[:, 31])


# para classe LabelEncoder não costuma ser necessário
'''labelencoder_classe = LabelEncoder()
classe = labelencoder_classe.fit_transform(classe)'''

pass

# apenas para visualizar em forma de dataframe
previsores_le_df = pd.DataFrame(previsores) 

In [4]:
# transformando variáveis categóricas em numéricas e tirando o peso dos valores após a transformação
# através do OneHotEncoder

if base.iloc[:, 32:33].columns[0] == 'vencedorht':
    column_tranformer = ColumnTransformer([('one_hot_encoder', OneHotEncoder(), [0, 1, 31])],remainder='passthrough')
else:
    column_tranformer = ColumnTransformer([('one_hot_encoder', OneHotEncoder(), [0, 1])],remainder='passthrough')
previsores = column_tranformer.fit_transform(previsores)

# apenas para visualizar em forma de dataframe
previsores_ohe_df = pd.DataFrame(previsores)

In [None]:
# fazendo padronização das variáveis através do StandardScaler

scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

# apenas para visualizar em forma de dataframe
previsores_ss_df = pd.DataFrame(previsores)

In [None]:
# fazendo padronização com o StandardScaler sem afetar as odds

scaler = StandardScaler()
prev_parciais = pd.DataFrame(scaler.fit_transform(previsores))

prev_parciais.drop(prev_parciais.iloc[:,-3:], axis=1, inplace=True)
previsores = pd.DataFrame(previsores)
previsores.drop(previsores.iloc[:,0:-3], axis=1, inplace=True)
previsores = pd.concat([prev_parciais, previsores], axis=1, join='inner')
previsores = previsores.to_numpy()

# apenas para visualizar em forma de dataframe
previsores_sso_df = pd.DataFrame(previsores)

In [None]:
# Normalização dos dados com o preprocessing.MinMaxScaler

min_max_scaler = preprocessing.MinMaxScaler()
previsores = min_max_scaler.fit_transform(previsores)

# apenas para visualizar em forma de dataframe
previsores_n_df = pd.DataFrame(previsores)

In [None]:
# Normalização dos dados com o preprocessing.MinMaxScaler sem afetar as odds

min_max_scaler = preprocessing.MinMaxScaler()
prev_parciais = pd.DataFrame(min_max_scaler.fit_transform(previsores))

prev_parciais.drop(prev_parciais.iloc[:,-3:], axis=1, inplace=True)
previsores = pd.DataFrame(previsores)
previsores.drop(previsores.iloc[:,0:-3],axis=1,inplace=True)
previsores = pd.concat([prev_parciais, previsores], axis=1, join='inner')
previsores = previsores.to_numpy()

# apenas para visualizar em forma de dataframe
previsores_no_df = pd.DataFrame(previsores)

## Fazendo chamada para os algoritmos de Machine Learning

In [5]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# Decision Tree

from sklearn.tree import DecisionTreeClassifier

columns_ = None

if len(pd.DataFrame(previsores).columns) == 35:
    columns_ = base.iloc[:, 0:35].columns
elif len(pd.DataFrame(previsores).columns) == 32:
    columns_ = base.iloc[:, 0:32].columns
    
classificador = DecisionTreeClassifier()
decision_tree = TrintaTestes(classificador, previsores, classe, columns_)

In [None]:
print(decision_tree.acuracia().mean())

In [None]:
print(list(decision_tree.acuracia()))

In [None]:
plotConfusionMatrix(decision_tree.matrizConfusao(), classes_alvo)

In [None]:
importance(decision_tree.importances())

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# Gaussian Naive Bayes

from sklearn.naive_bayes import GaussianNB

classificador = GaussianNB()
naive_bayes = TrintaTestes(classificador, previsores, classe)

In [None]:
print(naive_bayes.acuracia().mean())

In [None]:
print(list(naive_bayes.acuracia()))

In [None]:
plotConfusionMatrix(naive_bayes.matrizConfusao(), classes_alvo)

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# ODDS

from odds import OddsClassifier

classificador = OddsClassifier() 
odds = TrintaTestes(classificador, previsores, classe)

In [None]:
print(odds.acuracia().mean())

In [None]:
print(list(odds.acuracia()))

In [None]:
plotConfusionMatrix(odds.matrizConfusao(), classes_alvo)

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# KNN

from sklearn.neighbors import KNeighborsClassifier

classificador = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p = 2)
knn = TrintaTestes(classificador, previsores, classe)

In [None]:
print(knn.acuracia().mean())

In [None]:
print(list(knn.acuracia()))

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# RNA

from sklearn.neural_network import MLPClassifier

classificador = MLPClassifier(verbose = True, max_iter = 1000,
                      tol = 0.000010, solver='adam',
                      hidden_layer_sizes=(100), activation = 'relu',
                      batch_size=200, learning_rate_init=0.001)
rna = TrintaTestes(classificador, previsores, classe)

In [None]:
rna.acuracia().mean()

In [None]:
pd.DataFrame(previsores)

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# SVM

from sklearn.svm import SVC

classificador = SVC(kernel = 'rbf', random_state = 1, C = 2.0)
svm = TrintaTestes(classificador, previsores, classe)

In [None]:
print(svm.acuracia().mean())

In [None]:
print(list(svm.acuracia()))

In [None]:
# chamando método para fazer treinamento e classificação com trinta testes
# e validação cruzada usando StratifiedKFold
# Random Forest

from sklearn.ensemble import RandomForestClassifier

columns_ = None

if len(pd.DataFrame(previsores).columns) == 35:
    columns_ = base.iloc[:, 0:35].columns
    
elif len(pd.DataFrame(previsores).columns) == 32:
    columns_ = base.iloc[:, 0:32].columns
    
classificador = RandomForestClassifier(n_estimators=40, criterion='entropy', random_state=0)
random_forest = TrintaTestes(classificador, previsores, classe, columns_)

In [None]:
plotConfusionMatrix(random_forest.matrizConfusao(), classes_alvo)

In [None]:
importance(random_forest.importances())

In [None]:
print(random_forest.acuracia().mean())

## Lista com os resultados de cada algoritmo

In [None]:
# Lista com os resultados dos algoritmos para o boxplot - trazida por chamada feita anteriormente
# para não ter que executar todo o código sempre

svm_list = [0.6518952596723597, 0.6565005228302544, 0.6571976298361799, 0.6558208434994771, 0.6531849076333217, 0.6571453468107354, 0.6552021610317184, 0.6538297316138026, 0.6545094109445799, 0.6552283025444405, 0.6571497037295224, 0.6578337399790868, 0.6531456953642384, 0.6544876263506448, 0.6519126873475078, 0.6558644126873474, 0.6578293830602997, 0.6519126873475078, 0.6558644126873474, 0.6512417218543046, 0.6585700592540955, 0.655154234925061, 0.6538820146392471, 0.6578729522481701, 0.651930115022656, 0.6585439177413732, 0.6579470198675497, 0.6597464273265946, 0.6565135935866155, 0.6552195887068665]
random_forest_list = [0.6373387940048797, 0.6352605437434646, 0.6426368072499129, 0.6441007319623562, 0.6399747298710352, 0.6374085047054723, 0.641368943882886, 0.6419919832694319, 0.6499346462181945, 0.6387504356918787, 0.6413253746950157, 0.6440135935866156, 0.6486057859881492, 0.6354261066573719, 0.6361101429069362, 0.634803067270826, 0.6380228302544441, 0.6432685604740327, 0.6401228651097943, 0.6413340885325898, 0.6439961659114675, 0.6413515162077379, 0.6379923318229348, 0.6367549668874173, 0.6394388288602301, 0.6519039735099338, 0.6618290345067968, 0.626158940397351, 0.6387678633670268, 0.6387373649355176]
knn_list = [0.619588706866504, 0.617536598117811, 0.6056509236667829, 0.6017471244336006, 0.612247298710352, 0.6155803415824328, 0.6070233530846985, 0.6017166260020913, 0.61095765074939, 0.6103128267689091, 0.6063828860230045, 0.6129531195538516, 0.603733879400488, 0.605668351341931, 0.6103041129313349, 0.6036685256186824, 0.6136589403973509, 0.6063349599163471, 0.6103389682816311, 0.6083522133147439, 0.6183382711746253, 0.6103215406064831, 0.6083870686650401, 0.6070015684907634, 0.6142384105960266, 0.603733879400488, 0.6063262460787731, 0.6089752527012896, 0.5964491111885675, 0.6136894388288602]
naive_bayes_list = [0.5951333217148832, 0.600387765772046, 0.5971331474381317, 0.6010238759149529, 0.5997168002788428, 0.5944972115719762, 0.5990414778668526, 0.5911728825374695, 0.5977256883931683, 0.5984140815615197, 0.6003180550714535, 0.5951551063088184, 0.6011023004531195, 0.5965057511327989, 0.59908940397351, 0.5971331474381317, 0.591111885674451, 0.5917915650052283, 0.593808818403625, 0.596523178807947, 0.5944187870338097, 0.6023265946322761, 0.6018299058905542, 0.5977518299058906, 0.6017296967584524, 0.5937173231090973, 0.5963750435691879, 0.5951507493900314, 0.5971200766817707, 0.5904714186127571]
odds_list = [0.5541042174973858, 0.5542305681422098, 0.5542436388985709, 0.5542392819797839, 0.5541913558731265, 0.554139072847682, 0.5541608574416174, 0.5542349250609969, 0.5541565005228303, 0.5541913558731265, 0.5541913558731265, 0.5541565005228303, 0.5541477866852562, 0.5541521436040433, 0.5542131404670617, 0.5542218543046358, 0.5541826420355525, 0.5541434297664691, 0.5541477866852562, 0.5541477866852562, 0.5541913558731265, 0.554139072847682, 0.5542044266294877, 0.5541695712791913, 0.5541695712791913, 0.5541695712791913, 0.554117288253747, 0.5541608574416172, 0.5541477866852562, 0.5542174973858487]
decision_tree_list = [0.5646915301498779, 0.5277884280237016, 0.5469283722551411, 0.5370120250958522, 0.5455472289996515, 0.5330254444057163, 0.5489194841408156, 0.5443185779017079, 0.5422621122342279, 0.5442445102823283, 0.5475426978041129, 0.5495163820146393, 0.5363149180899268, 0.5449329034506797, 0.5362844196584176, 0.5382450331125828, 0.5409855350296271, 0.5449198326943185, 0.5528929940745904, 0.5535378180550714, 0.5310212617636807, 0.5389334262809341, 0.5423187521784594, 0.5356352387591495, 0.5125261415127221, 0.55810822586267, 0.5245120250958523, 0.5317532241199024, 0.5560822586266992, 0.511210352039038]
rna_list = [0.5990806901359359, 0.6043612757058209, 0.6194841408156152, 0.6136371558034158, 0.6189046706169397, 0.6122298710352039, 0.6209132101777624, 0.62682119205298, 0.6241983269431858, 0.6340318926455211, 0.6228389682816312, 0.6314874520738933, 0.6274660160334611, 0.6208870686650401, 0.6103215406064831, 0.6235578598814918, 0.6194710700592541, 0.6149224468455908, 0.6130097594980829, 0.6189177413733008, 0.6307816312303938, 0.6148963053328685, 0.6148701638201464, 0.6175845242244684, 0.6222289996514465, 0.6194841408156152, 0.6214752527012897, 0.6294963401882189, 0.621523178807947, 0.6003572673405368]

### Chamando os resultados e armazenando em lista

In [None]:
# Trazendo por chamada a lista com os resultados dos algoritmos para o boxplot

random_forest_list = random_forest.acuracia()
odds_list = odds.acuracia()
svm_list = svm.acuracia()
knn_list = knn.acuracia()
naive_bayes_list = naive_bayes.acuracia()
decision_tree_list = decision_tree.acuracia()
rna_list = rna.acuracia()

### Juntando todas as listas de resultados em um único dataframe para exibir

In [None]:
# Dando nome às colunas dos algoritmos
random_forest_df = pd.DataFrame(random_forest_list, columns=['Random Forest'])
svm_df = pd.DataFrame(svm_list, columns=['SVM'])
knn_df = pd.DataFrame(knn_list, columns=['KNN'])
naive_bayes_df = pd.DataFrame(naive_bayes_list, columns=['Naive Bayes'])
odds_df = pd.DataFrame(odds_list, columns=['ODDS'])
rna_df = pd.DataFrame(rna_list, columns=['RNA'])
# também pode ser assim
decision_tree_df = pd.DataFrame(decision_tree_list).rename(columns={0:'Árvore de Decisão'})

# juntando todos os dataframes acima em um só 
resultados_df = pd.concat([random_forest_df,svm_df,knn_df,
                           naive_bayes_df,odds_df,rna_df,decision_tree_df], axis=1, join='inner')

resultados_diagrama_df = pd.concat([random_forest_df,svm_df,knn_df,
                           naive_bayes_df,odds_df,rna_df,decision_tree_df], axis=1, join='inner')\
                           .rename(columns={'Árvore de Decisão':'Arvore de Decisao'})

#display(resultados_df)
#display(resultados_diagrama_df)

### Armazenando os resultados

In [None]:
resultados_diagrama_df.to_csv('comp_algoritmos_diagrama.csv')

## Exibindo o resultado após trinta testes  usando o StratifiedKFold

In [None]:
modelos_list = [random_forest_df.mean(), svm_df.mean(), knn_df.mean(),
                naive_bayes_df.mean(), odds_df.mean(), rna_df.mean(), decision_tree_df.mean()]

modelos_df = pd.concat(modelos_list, axis=0, join='inner')
modelos_df = pd.DataFrame(modelos_df, columns=['resultado'])
# ordenando por importância
modelos_df = modelos_df.sort_values('resultado', ascending = True)

display(modelos_df)

# imprimindo valores com nome dos atributos, em ordem e através de gráfico em barras
modelos_df.plot(kind='bar')

## Boxplot com os resultados

In [None]:
fig = plt.figure(figsize=(8,5))
resultados_df.boxplot(column=['SVM','Random Forest','KNN','Naive Bayes','RNA','ODDS','Árvore de Decisão'])
plt.title('Algoritmos de Machine Learning')
plt.ylabel('Acurácia', fontsize=12, color='black')
plt.show()