# Utilização de mineração de dados para propor métricas de avaliação de jogadores de DOTA2
#### Gabriel Franco
#### Orientadores: Marcos Ribeiro e Giovanni Comarela

## Sumário
- Introdução
    - DOTA2
    - Abordagens e mudança
    - Motivação e objetivos
- Metodologia
    - Tecnologias
    - Métodos
- Resultados
- Próximos passos
- Referências

## Introdução

### DOTA2

- DOTA2 é um jogo de MOBA (*Multiplayer online battle arena*) onde o jogador controla um personagem em uma batalha entre dois times de cinco jogadores cada, cujo objetivo é derrotar a base principal inimiga

- Cada jogador tem uma função específica (*carry*, *mid laner*, *support* e etc)

- No jogo, existem vários atributos que podem nos dar informações sobre cada jogador em uma partida. Vamos trabalhar com nove desses atributos. São eles:

| Nome do atributo | Nomenclatura utilizada nos experimentos |
|:----------------:|:---------------------------------------:|
|       kills      |                  kills                  |
|      deaths      |                  deaths                 |
|      assists     |                  assists                |
|      denies      |                  denies                 |
|    hero damage   |                    hd                   |
|   hero healing   |                    hh                   |
|     last hits    |                    lh                   |
|  gold per minute |                   gpm                   |
|   xp per minute  |                   xpm                   |
  
  
<div align="center"><b><h4>Tabela 1 - Atributos utilizados e suas respectivas nomenclaturas</h4></b></div>

### Abordagens e mudanças

- A primeira abordagem que pensamos no trabalho foi a de usar redes complexas para tentar prever o comportamento de jogadores  e/ou times no DOTA2. Era basicamente a mesma abordagem do trabalho do [Pedro de Melo], professor do [DCC-UFMG]. Neste trabalho, ele prevê o comportamento de times da NBA utilizando redes complexas.

[Pedro de Melo]: <http://dcc.ufmg.br/dcc/?q=en/node/236>
[DCC-UFMG]: <http://dcc.ufmg.br/dcc/?q=pt-br>

- Foi nessa parte que a base de dados foi montada e algumas análises preliminares foram feitas

- Essa primeira abordagem foi descartada. O principal motivo é a falta de estudos e conhecimento prévio acerca do problema, que não permite confiança nos modelos de análise de eficiência, como é utilizado no contexto do basquetebol pelo Pedro.

### Motivação e objetivos

- **Objetivo:** Propor métricas para avaliar diferentes estilos e perfis de jogadores

- **Motivações**:
    - Entusiasmo por *e-sports*
    - Aprender a metodologia utilizada em um estudo científico
    - Conhecimento e aplicação de mineração de dados em um problema real
    - Possibilidade de virar um projeto de mestrado

## Metodologia

### Tecnologias

- [Python3] com as seguintes bibliotecas:
    - [Numpy]
    - [Scipy]
    - [Pandas]
    - [Matplotlib]
    - [Seaborn]
    - [scikit-learn]  
      
- [Jupyter Notebook]

[Python3]: <https://www.python.org/>
[Numpy]: <http://www.numpy.org/>
[Scipy]: <https://www.scipy.org/>
[Pandas]: <https://pandas.pydata.org/>
[Matplotlib]: <https://matplotlib.org/>
[Seaborn]: <https://seaborn.pydata.org/>
[scikit-learn]: <http://scikit-learn.org/stable/index.html>
[Jupyter Notebook]: <http://jupyter.org/>

### Métodos

![title](data/Workflow.png)

<div align="center"><b><h4>Figura 1 - Workflow</h4></b></div>

## Resultados

### Nomenclatura utilizada nos experimentos

| Nome do experimento | Atributos |
|:-------------------:|:---------:|
|         kda         |   "kills", "deaths", "assists"   |
|         all         |   "kills", "deaths", "assists", "denies", "gpm", "hd", "hh", "lh", "xpm"   |
|        kills        |  "kills"  |
|        deaths       |  "deaths" |
|       assists       | "assists" |
|        denies       |  "denies" |
|         gpm         |   "gpm"   |
|          hh         |    "hh"   |
|          hd         |    "hd"   |
|          lh         |    "lh"   |
|         xpm         |   "xpm"   |  

<div align="center"><b><h4>Tabela 2 - Experimentos realizados e os atributos utilizados em cada um deles</h4></b></div>

### Tem alguma coisa errada nisso...

![title](data/assists-corr_pie.png)

<div align="center"><b><h4>Figura 2 - Clusters com o experimento "assists-corr" utilizando o k-means com $k = [3, 4, 5]$</h4></b></div>

### Análise do melhor valor de k para o k-means

![title](data/inertia_x_k.png)

<div align="center"><b><h4>Figura 3 - Gráfico da inércia x $k$, com $k = [3,...,100]$</h4></b></div>

### Poda de outliers

![title](data/boxplot.png)

<div align="center"><b><h4>Figura 4 - Exemplo do IQR para uma distribuição normal. Fonte: 
<a href="https://pt.wikipedia.org/wiki/Amplitude_interquartil">Wikipedia</a>. Acesso em 04/04/2018</h4></b></div>

#### Sumário da poda de outliers

Número de outliers:
- $2862$  
  
Número de outliers em $\{1, ..., 9\}$ atributos:   
- $\{2463, 307, 64, 19, 8, 1, 0, 0, 0\}$
  
Número de outliers por atributo:   
- $kills: 237$
- $deaths: 397$  
- $assists: 392$  
- $denies: 437$  
- $gpm: 56$  
- $hd: 563$  
- $hh: 1177$ 
- $lh: 85$  
- $xpm: 47$  

### Análise da correlação e da distribuição dos atributos

![title](data/scatter_matrix_manual.png)

<div align="center"><b><h4>Figura 5 - Scatter Matrix</h4></b></div>

| Nome do experimento | Atributos |
|:-------------------:|:---------:|
| kills-corr          	| "kills", "assists", "deaths", "hh", "gpm"  	|
| deaths-corr         	| "deaths", "hh", "hd", "gpm", "assists"     	|
| assists-corr        	| "assists", "kills", "gpm", "lh", "xpm"    	|
| denies-corr         	| "denies", "assists", "gpm", "hh", "deaths" 	|
| gpm-corr            	| "gpm", "assists", "hh", "deaths", "denies" 	|
| hh-corr             	| "hh", "deaths", "gpm", "hd", "xpm"         	|
| hd-corr             	| "hd", "deaths", "hh", "assists", "gpm"     	|
| lh-corr             	| "lh", "assists", "deaths", "gpm", "hh"     	|
| xpm-corr            	| "xpm", "assists", "deaths" ,"gpm", "hh"    	|

<div align="center"><b><h4>Tabela 3 - Experimentos utilizando correlação realizados e os atributos utilizados em cada um deles</h4></b></div>

### Clusterização

![title](data/all_pie.png)

<div align="center"><b><h4>Figura 6 - Clusters com o experimento "all" utilizando o k-means com $k = [3, 4, 5, 10]$</h4></b></div>

![title](data/inertia-wo.png)

<div align="center"><b><h4>Figura 7 - Inércia para cada experimento</h4></b></div>

![title](data/silhouette_score-wo.png)

<div align="center"><b><h4>Figura 8 - Coeficiente de silhueta médio para cada experimento</h4></b></div>

![title](data/silhouette_score_all_10.png)

<div align="center"><b><h4>Figura 9 - Valores do coeficiente de silhueta de cada jogador por cluster utilizando o experimento "all" com $k = 10$</h4></b></div>

### Análise dos centróides

![title](data/radar_plot_all_10.png)

<div align="center"><b><h4>Figura 10 - Gráfico de radar dos centróides do experimento "all" com $k = 10$</h4></b></div>

![title](data/all_3_C1.png)

<div align="center"><b><h4>Figura 11 - Mapa de calor mostrando os atributos de dez jogadores aleatórios e da distância euclidiana com os atributos normalizados de cada um para o centróide utilizando o experimento "all" com $k = 3$</h4></b></div>

### Análise de $f(jogador) = \frac{K + A}{D}$

![title](data/f-analysis-pruned.png)

<div align="center"><b><h4>Figura 12 - Valor de $f_{medio} = \frac{\sum_{i=1}^{N} \frac{K_i + A_i}{D_i}}{N}$ em cada experimento </h4></b></div>

### PCA (Principal Component Analysis)

![title](data/Variance.png)

<div align="center"><b><h4>Figura 13 - Variância explicada em cada componente do PCA </h4></b></div>

![title](data/1st eigenvector_2nd eigenvector.png)

<div align="center"><b><h4>Figura 14 - Gráfico Hexbin utilizando o primeiro e o segundo autovetor encontrado no PCA </h4></b></div>

## Próximos passos

- **Passo 1:** Seleção de atributos com PCA  
- **Passo 2:** Propor uma métrica e avaliá-la (pode incluir vários passos)  
- **Passo 3:** Redigir artigo

| Passos / Mês | Fevereiro | Março | Abril | Maio | Junho | Julho |
|:------------:|:---------:|:-----:|:-----:|:----:|:-----:|:-----:|
|       0      |     X     |   X   |       |      |       |       |
|       1      |           |       |   X   |      |       |       |
|       2      |           |       |   X   |   X  |   X   |   X   |
|       3      |           |       |   X   |   X  |   X   |   X   |  
  
<div align="center"><b><h4>Tabela 4 - Cronograma</h4></b></div>

## Referências

- [DOTA2 Wiki]. Acesso em 04/08/2018

[DOTA2 Wiki]: <https://dota2.gamepedia.com/Dota_2_Wiki>


- Site do projeto: https://gaabrielfranco.github.io/

**Agradecimento especial ao Felipe Dias pela ajuda com o DOTA2**