# Inteligência Artificial - Trabalho Nº2 - Aprendizagem Computacional

### Temática 4: Aprendizagem Supervisionada – Regressão - European Soccer Database

## Autores:

* João Brandão - up201705573@fe.up.pt
* João Martins - up201605373@fe.up.pt
* José Martins - up201605497@fe.up.pt

FEUP 2019/2020

## Resumo

Este projeto foi desenvolvido no âmbito da unidade curricular de Inteligência Artificial da Faculdade de Engenharia da Universidade do Porto e tem como objetivo usar aprendizagem computacional de forma a construir modelos de regressão. Para tal, foram utilizados algoritmos de aprendizagem supervisionada e um dado dataset, o European Soccer Database. Este dataset conta com mais de 26 mil jogos e aproximadamente 11 mil jogadores.
O projeto foi concluído com sucesso, sendo que todo o seu desenvolvimento, resultados obtidos e conclusões, serão expostos neste notebook.

## 1. Introdução

O projeto realizado consiste na criação de um agente inteligente capaz de prever as “odds” de jogos de futebol. Para isso, inicialmente, foi realizada uma análise exploratória dos dados disponíveis sobre os jogadores e encontros realizados. Além disso, implementamos diferentes algoritmos de aprendizagem e posteriormente comparamos os seus desempenhos e tempo despendido para efetuar os testes.
Posto isto, o agente inteligente criado poderá ser utilizado para prever as “odds” da equipa da casa, da equipa visitante e de empate em qualquer jogo de futebol.

## 2. Referências

* https://github.com/nanazhu/DataMining-Football-Match-Prediction
* https://github.com/danleh/predict-euro2016
* https://github.com/yanuehara/ai-soccer-prediction

## 3. Algoritmos e ferramentas

Com a ajuda de algumas ferramentas, como o Jupyter, Scikit-learn, NumPy e Pandas, foram implementados quatro algoritmos:
+ Árvore de decisão
+ Redes neuronais
+ K-Nearest Neighbor
+ Support Vector Machines

Posteriormente, comparamos o desempenho destes algoritmos, tendo em conta os erros obtidos no processo de aprendizagem, a qualidade de previsão e o tempo necessário para a realização do treino e do teste.
Além disso, comparamos também os resultados obtidos pelos diferentes algoritmos, através de tabelas e gráficos. Para isso, usamos duas bibliotecas de visualização de dados, o Seaborn e o Matplotlib.

## 4. Abordagem

Inicialmente foi criado um novo dataset que possui informação sobre milhares de jogos de futebol, incluindo:
* O rating médio do 11 inicial de cada equipa, sendo o rating de cada jogador o mais recente à data do jogo, fornecido pelo videojogo FIFA.
* A forma de cada equipa, tendo em conta os últimos 5 jogos.
* A forma da equipa da casa em casa, tendo em conta os últimos 5 jogos em casa.
* A forma da equipa visitante em jogos fora, tendo em conta os últimos jogos fora.
* As odds da equipa da casa, da equipa visitante e de empate, fornecidas pelo Bet365

Após a criação deste dataset, construímos modelos de regressão que usam os dados indicados pelos primeiros 4 pontos para obter os dados indicados pelo 5º ponto, as odds do jogo.

### Imports 

Começamos por fazer os imports necessários para a realização este projeto

In [1]:
import sqlite3
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR

pd.set_option('display.max_columns', None)
%matplotlib inline

### Database

De seguida carregamos a database e criamos duas funções para recolher dados de uma tabela como um dataframe

In [2]:
db_location = "../Data/soccer/database.sqlite"

# Create dictionary
def dict_factory(cursor, row):
    d = {}
    for idx, col in enumerate(cursor.description):
        d[col[0]] = row[idx]
    return d


# Get dataframe with the given table
def get_table_as_pd_dataframe(table_name):
    query = 'SELECT * FROM ' + table_name + ';'

    con = sqlite3.connect(db_location)
    con.row_factory = dict_factory
    cur = con.cursor()

    cur.execute(query)
    table = cur.fetchall()

    con.close()

    return pd.DataFrame(table)