# Clustering

As técnicas de clusterização são muito importantes para termos *insights* sobre os dados disponíveis. Assim, itemos utilizar os dados do [**Cartola FC**](https://globoesporte.globo.com/cartola-fc/) disponíveis [aqui](https://github.com/henriquepgomide/caRtola) para tentarmos agrupar os jogadores.
Os dados disponíveis nesse repositório já estão limpos e prontos para as análises.

## Descrição dos Dados

De acordo com o [fonte dos dados](https://github.com/henriquepgomide/caRtola/blob/master/data/README.md), no total são 17567 instancias e 77 características. Assim, cada linha da base de dados corresponde a uma rodada de uma jogador e as colunas as suas caracteríticas nessa rodada. Para uma visão completa de todas as 77 característica dê uma olhada na fonte, aqui listarei alguns desses atributos.

| coluna          | descrição          |
|-----------------|--------------------|
| Rodada          | número da rodada do Brasileirão|                                                       |
| ClubeID         | clube do jogador               |
| AtletaID        | id do jogador                  |                                                       |
| Participou      | indica se o jogador participou daquela rodada (FALSE:Não, TRUE:Sim)|
| Posicao         | posição do jogador gol:goleiro, zag:zagueiro, lat:lateral, mei:meia, ata:atacante, tec:técnico|
| Jogos           | qtde. de jogos que o jogador participou até aquela rodada |
| Pontos          | pontuação do jogador                                      |
| PontosMedia     | média da pontuação do jogador                             |
| Preco           | preço do jogador                                          |
| PrecoVariacao   | variação de preço                                         |
| FS              | faltas sofridas                                           |
| PE              | passes errados                                            |
| A               | assistências                                              |
| FT              | finalizações na trave                                     |
| FD              | finalizações defendidas                                   |
| FF              | finalizações para fora                                    |
| G               | gols                                                      |
| I               | impedimentos                                              |
| PP              | pênaltis perdidos                                         |
| RB              | roubadas de bola                                          |
| FC              | faltas cometidas                                          |
| GC              | gols contra                                               |
| CA              | cartões amarelo                                           |
| CV              | cartões vermelho                                          |
| SG              | jogos sem sofrer gols                                     |
| DD              | defesas difíceis                                          |
| DP              | defesas de pênalti                                        |
| GS              | gols sofridos                                             |
| ano             | ano dos dados                                             |
| Apelido         | nome/apelido do jogador                                   |
| Status          | status do jogador    (Provável, Dúvida, Suspenso, Nulo, ...)|
| avg.Points      | média de pontos do jogador                                |
| avg.last05      | média de pontos do jogador nas últimas 5 rodadas          |
| avg.FS          | média de faltas sofridas                                  |
| avg.FS.l05      | média de faltas sofridas nas últimas 5 rodadas            |
| avg.PE          | média de passes errados                                   |
| avg.PE.l05      | média de passes errados nas últimas 5 rodadas             |
| avg.A           | média de assistências                                     |
| avg.A.l05       | média de assistências nas últimas 5 rodadas               |
| avg.FT          | média de finalizações na trave                            |
| avg.FT.l05      | média de finalizações na trave nas últimas 5 rodadas      |
| avg.FD          | média de finalizações defendidas                          |
| avg.FD.l05      | média de finalizações defendidas nas últimas 5 rodadas    |
| avg.FF          | média de finalizações para fora                           |
| avg.FF.l05      | média de finalizações para fora nas últimas 5 rodadas     |
| avg.G           | média de gols                                             |
| avg.G.l05       | média de gols nas últimas 5 rodadas                       |
| avg.I           | média de impedimentos                                     |
| avg.I.l05       | média de impedimentos nas últimas 5 rodadas               |
| avg.PP          | média de pênaltis perdidos                                |
| avg.PP.l05      | média de pênaltis perdidos nas últimas 5 rodadas          |
| avg.RB          | média de roubadas de bola                                 |
| avg.RB.l05      | média de roubadas de bola nas últimas 5 rodadas           |
| avg.FC          | média de faltas cometidas                                 |
| avg.FC.l05      | média de faltas cometidas nas últimas 5 rodadas           |
| avg.GC          | média de gols contra                                      |
| avg.GC.l05      | média de gols contra nas últimas 5 rodadas                |
| avg.CA          | média de cartões amarelos                                 |
| avg.CV          | média de cartões vermelhos nas últimas 5 rodadas          |
| avg.SG          | média de jogos sem sofrer gols                            |
| avg.SG.l05      | média de jogos sem sofrer gols nas últimas 5 rodadas      |
| avg.DD          | média de defesas difíceis                                 |
| avg.DD.l05      | média de defesas difíceis nas últimas 5 rodadas           |
| avg.DP          | média de defesas de pênalti                               |
| avg.DP.l05      | média de defesas de pênalti nas últimas 5 rodadas         |
| avg.GS          | média de gols sofridos                                    |
| avg.GS.l05      | média de gols sofridos nas últimas 5 rodadas              |
| risk_points     | desvio-padrão da pontuação do jogador                     |
| mes             | mês que a partida ocorreu                                 |
| dia             | dia que a partida ocorreu                                 |                                                                                                    |
| away.score.x    | placar to time visitante                                  |                                                                                                    |
| home.score.x    | placar do time da casa                                    |                                                                                                    |
| home.attack     | estimativa de força de ataque do time do jogador          | estimada a partir de uma regressão de Poisson com base no histórico de confrontos entre os times   |
| home.defend     | estimativa de força de defesa do time do jogador          | estimada a partir de uma regressão de Poisson com base no histórico de confrontos entre os times   |
| pred.home.score | estimativa de gols para o time da casa                    | estimada a partir de 10000 simulações  de confronto entre os times usando distribuições de Poisson |
| pred.away.score | estimativa de gols para o time visitante                  | estimada a partir de 10000 simulações,de confronto entre os times usando distribuições de Poisson  |
| variable        | indica se o jogador é do time da casa ou visitante        | home.team: casa, away.team: visitante                                                              |



## Visualização os Dados
Inicialmente, vamos importar os dados e visualizá-los.

In [3]:
# imports
import pandas as pd 
data = pd.read_csv('dados_agregados_limpos.csv')
# brief look at the data
print(data.shape)
data.head(10)

(17567, 77)


Unnamed: 0,A,Apelido,AtletaID,CA,CV,ClubeID,DD,DP,FC,FD,...,away.score.x,dia,home.attack,home.defend,home.score.x,mes,pred.away.score,pred.home.score,risk_points,variable
0,0.0,Juan,36540,1.0,0.0,Internacional,0.0,0.0,2.0,0.0,...,0.0,19.0,0.0,0.0,1.0,4.0,0.0,0.0,1.0,home.team
1,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,2.0,1.0,...,2.0,27.0,0.0,0.0,2.0,4.0,0.0,0.0,1.0,away.team
2,0.0,Juan,36540,1.0,0.0,Internacional,0.0,0.0,2.0,0.0,...,1.0,4.0,0.0,0.0,2.0,5.0,0.0,0.0,1.0,home.team
3,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,0.0,1.0,...,1.0,10.0,0.0,0.0,2.0,5.0,0.0,0.0,1.0,home.team
4,0.0,Juan,36540,1.0,0.0,Internacional,0.0,0.0,5.0,0.0,...,0.0,18.0,0.0,0.0,0.0,5.0,0.0,0.0,1.0,away.team
5,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,0.0,0.0,...,3.0,25.0,0.0,0.0,1.0,5.0,0.0,0.0,1.0,home.team
6,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,1.0,0.0,...,0.0,28.0,0.0,0.0,2.0,5.0,0.0,0.0,1.0,home.team
7,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,1.0,1.0,...,1.0,1.0,0.0,0.0,1.0,6.0,0.0,0.0,3.226298,away.team
8,0.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,0.0,0.0,...,1.0,17.0,0.0,0.0,2.0,7.0,0.0,0.0,3.195153,away.team
9,1.0,Juan,36540,0.0,0.0,Internacional,0.0,0.0,0.0,0.0,...,0.0,20.0,0.0,0.0,4.0,7.0,0.0,0.0,3.97158,home.team
