# Análise de Dados do banco de dados do FIFA 2019

Autores: 
* Natanael Junior (natmourajr@lps.ufrj.br)
* Vinicius Mello  (viniciusdsmello@poli.ufrj.br)
* Pedro Lisboa (pedrohblisboa@gmail.com)

LPS - Laboratório de Processamento de Sinais
<center><img src="../data/logo_lps.jpg"></center>

In [1]:
%time
import os
import numpy as np
import pandas as pd
import seaborn as sns

import datetime

from IPython.display import display, HTML

from math import pi

import matplotlib.pyplot as plt
%matplotlib inline

CPU times: user 2 µs, sys: 1 µs, total: 3 µs
Wall time: 5.01 µs


In [2]:
ls

02 - Análise de Dados - Dados Sintéticos.ipynb
03 - Análise de Dados - Iris.ipynb
05 - Classificação - Iris.ipynb
06 - Regressão - Carros.ipynb
07 - Agrupamento - Dados Sintéticos.ipynb
08 - Agrupamento - Iris.ipynb
DataAnalysisFIFA2019.ipynb
Introdução ao Python.ipynb


In [3]:
%time
df = pd.read_csv('../data/FIFA2019.csv')

CPU times: user 4 µs, sys: 2 µs, total: 6 µs
Wall time: 7.15 µs


### Informações sobre o banco de dados
Os dados foram retirados do site da sofifa.com usando um script de crawling em python. O site contém os dados do jogo FIFA da EA Sports e é atualizado regularmente conforme o lançamento de novas versões e atualizações do jogo. Os dados utilizados aqui foram extraídos no dia 24/01/2018 e se baseam na última versão do jogo FIFA (FIFA2019). Através de vários projetos de pesquisa feitos em análises de futebol, foi estabelecido no campo acadêmico e o uso de dados da franquia da FIFA tem diversas publicações. Desde 1995, os jogos da FIFA Soccer proporcionam um vasto e coerente conhecimento de jogadores em todo o mundo.

Para cada atributo, temos um inteiro de 0 a 100 que mede a qualidade de um jogador nesse atributo. Exemplos de atributos são: drible, agressividade, visão, marcação e controle de bola. Observe que parece ser impraticável caracterizar com precisão os jogadores nesses atributos automaticamente. Assim, todos eles são reunidos e "montados" pela empresa cujo trabalho é aproximar o jogo da realidade, preservando assim a coerência e a representatividade em todo o conjunto de dados.

O conjunto de dados fornece estatísticas de mais de 70 atributos diferentes. Esses atributos são, comprovadamente,  bons indicadores para determinar o desempenho de um jogador em uma determinada posição de jogo.

POSITION

GK	Goalkeeper

RB	Right Back

CB	Center Back

LB	Left Back

RWB	Right Wing Back

LWB	Left Wing Back

CDM	Center Defensive Midfielder

CM	Center Midfielder

CAM	Center Attacking Midfielder

RM	Right Midfielder

LM	Left Midfielder

RW	Right Wing

LW	Left Wing

CF	Center Forward

ST	Striker

<center><img src="../data/fifa_pos.jpg"></center>

In [None]:
df.head()

Na coluna valor (value), o crawler pegou o valor com a moeda respectiva na frente. Vamos fazer a limpeza deste dado

In [None]:
df['Value'].head()

In [None]:
def value_to_int(df_value):
    try:
        value = float(df_value[1:-1])
        suffix = df_value[-1:]

        if suffix == 'M':
            value = value * 1000000
        elif suffix == 'K':
            value = value * 1000
    except ValueError:
        value = 0
    return value

df['Value_float'] = df['Value'].apply(value_to_int)

In [None]:
import re
df['Value'] = df['Value'].apply(lambda x: 'M' in x and 
                                int((re.findall('\d+\.*\d*', x)[0] + '000000').replace('.', '')) 
                                or int((re.findall('\d+\.*\d*', x)[0] + '000').replace('.', '')))

In [None]:
# limpando os dados
df.drop(["ID","Unnamed: 0","Flag","Photo","Club Logo"],axis = 1,inplace = True)

A função describe gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN (Not a Number).

Analisa séries numéricas e de objetos, bem como conjuntos de colunas de um DataFrame, mesmo que este possua tipos de dados distintos. A saída irá variar dependendo do que é fornecido.

In [None]:
df.describe()

Função nunique: Retorna o número de elementos exclusivos em um DataFrame.

In [None]:
df.nunique()

In [None]:
chosen_columns = [
    'Name',
    'Age',
    'Nationality',
    'Overall',
    'Potential',
    'Special',
    'Acceleration',
    'Aggression',
    'Agility',
    'Balance',
    'BallControl',
    'Body Type',
    'Composure',
    'Crossing',
    'Curve',
    'Club',
    'Dribbling',
    'FKAccuracy',
    'Finishing',
    'GKDiving',
    'GKHandling',
    'GKKicking',
    'GKPositioning',
    'GKReflexes',
    'HeadingAccuracy',
    'Interceptions',
    'International Reputation',
    'Jersey Number',
    'Jumping',
    'Joined',
    'LongPassing',
    'LongShots',
    'Marking',
    'Penalties',
    'Position',
    'Positioning',
    'Preferred Foot',
    'Reactions',
    'ShortPassing',
    'ShotPower',
    'Skill Moves',
    'SlidingTackle',
    'SprintSpeed',
    'Stamina',
    'StandingTackle',
    'Strength',
    'Value',
    'Vision',
    'Volleys',
    'Wage',
    'Weak Foot',
    'Work Rate'
]

In [None]:
df1 = pd.DataFrame(df, columns = chosen_columns)

In [None]:
# Correlation heatmap
plt.rcParams['figure.figsize']=(25,16)
fig, ax = plt.subplots()

hm=sns.heatmap(df[['Age', 'Overall', 'Potential', 'Value', 'Wage',
                'Acceleration', 'Aggression', 'Agility', 'Balance', 'BallControl', 
                'Body Type','Composure', 'Crossing','Dribbling', 'FKAccuracy', 'Finishing', 
                'HeadingAccuracy', 'Interceptions','International Reputation',
                'Joined', 'Jumping', 'LongPassing', 'LongShots',
                'Marking', 'Penalties', 'Position', 'Positioning',
                'ShortPassing', 'ShotPower', 'Skill Moves', 'SlidingTackle',
                'SprintSpeed', 'Stamina', 'StandingTackle', 'Strength', 'Vision',
                'Volleys']].corr(), annot = True, linewidths=.5, cmap='PuRd')
hm.set_title(label='Heatmap of dataset', fontsize=20)
hm;
plt.savefig('mat.eps')

Encontrar os top5 jogadores mais velhos

In [None]:
eldest = df1.sort_values('Age', ascending = False)[['Name', 'Nationality', 'Age', 'Value']].head(5)
eldest.set_index('Name', inplace=True)
print(eldest)

Encontrar os top5 jogadores mais novos

In [None]:
youngest = df1.sort_values('Age', ascending = True)[['Name', 'Nationality', 'Age', 'Value']].head(10)
youngest.set_index('Name', inplace=True)
print(youngest)

O gráfico de violino é uma ferramenta muito útil na análise de dados e mostra a distribuição de dados quantitativos em vários níveis de uma (ou mais) variáveis categóricas, de modo que essas distribuições possam ser comparadas. Ao contrário de um boxplot, no qual todos os componentes do gráfico correspondem a pontos de dados reais, o gráfico do violino apresenta uma estimativa da função densidade de probabilidade.

Essa pode ser uma maneira eficaz e atraente de exibir várias distribuições de dados de uma só vez, mas lembre-se de que o procedimento de estimativa é influenciado pelo tamanho da amostra, e os gráficos de violinos de amostras relativamente pequenas podem parecer enganosamente lisos.

In [None]:
some_clubs = ('Juventus', 'Real Madrid', 'Paris Saint-Germain', 'FC Barcelona')
df_club = df.loc[df['Club'].isin(some_clubs) & df['Age']]

fig, ax = plt.subplots()
fig.set_size_inches(20, 10)
ax = sns.violinplot(x="Club", y="Age", data=df_club);
ax.set_title(label='Distribution of age in some clubs', fontsize=20);

Como o mercado do futebol é muito dinâmico, podemos medir o tempo de um jogador em determinado time em anos.
Vamos fazer isso utilizando funções do pandas para filtrar o nosso banco de dados.

Este comando pega o ano em que o jogador entrou no clube (Joined é um campo do banco de dados).
```python
df1.Joined.dropna().map(lambda x: x.split(',')[1].split(' ')[1])
```

Este comando retira os NaN da coluna
```python
dropna()
```

Este comando subtrai o ano atual do ano em que o jogador entrou no time
```python
(df1.Join_year.dropna().map(lambda x: now.year - int(x))).astype('int').dropna()
```


In [None]:
now = datetime.datetime.now()
df1['Join_year'] = df1.Joined.dropna().map(lambda x: x.split(',')[1].split(' ')[1])
df1['Years_of_member'] = (df1.Join_year.dropna().map(lambda x: now.year - int(x))).astype('int').dropna()
membership = df1[['Name', 'Club', 'Years_of_member']].sort_values(by = 'Years_of_member', ascending = False).dropna().head()
membership.set_index('Name', inplace=True)
membership

Análise dos top5 times com jogadores mais velhos

In [None]:
print(df1.groupby(['Club'])['Age'].sum().sort_values(ascending = False).head(5))

Análise dos top5 times com jogadores mais novos

In [None]:
df.groupby(['Club'])['Age'].sum().sort_values(ascending = True).head(5)

Agora vamos filtrar 4 times grandes do futebol mundial e mostrar seu Overall

O comando abaixo acessa um grupo de linhas e colunas por rótulo(s) ou uma matriz booleana.
```python
df.loc()
```


In [None]:
fig = plt.figure(figsize=(10,10))
some_clubs = ('Juventus', 'Real Madrid', 'Paris Saint-Germain', 'FC Barcelona')
df_club = df.loc[df['Club'].isin(some_clubs) & df['Age'] & df['Overall'] ]

ax = sns.barplot(x=df_club['Club'], y=df_club['Overall'], palette="rocket");
ax.set_title(label='Distribution overall in several clubs', fontsize=20);
ax.grid()

In [None]:
fig = plt.figure(figsize=(12,8))
ax = sns.countplot(x = 'Position', data = df, palette = 'hls');
ax.set_title(label='Count of players on the position', fontsize=20);

In [None]:
# The best player per position
display(HTML(df.iloc[df.groupby(df['Position'])['Overall'].idxmax()][['Name', 'Position']].to_html(index=False)))

In [None]:
player_features = (
    'Acceleration', 'Aggression', 'Agility', 
    'Balance', 'BallControl', 'Composure', 
    'Crossing', 'Dribbling', 'FKAccuracy', 
    'Finishing', 'GKDiving', 'GKHandling', 
    'GKKicking', 'GKPositioning', 'GKReflexes', 
    'HeadingAccuracy', 'Interceptions', 'Jumping', 
    'LongPassing', 'LongShots', 'Marking', 'Penalties'
)

for i, val in df.groupby(df['Position'])[player_features].mean().iterrows():
    print('Position {}: {}, {}, {}, {}'.format(i, *tuple(val.nlargest(4).index)))

In [None]:
idx = 1
fig = plt.figure(figsize=(15,45))
fig.set_facecolor('White')
for position_name, features in df.groupby(df['Position'])[player_features].mean().iterrows():
    top_features = dict(features.nlargest(5))
    
    # number of variable
    categories=top_features.keys()
    N = len(categories)

    # We are going to plot the first line of the data frame.
    # But we need to repeat the first value to close the circular graph:
    values = list(top_features.values())
    values += values[:1]

    # What will be the angle of each axis in the plot? (we divide the plot / number of variable)
    angles = [n / float(N) * 2 * pi for n in range(N)]
    angles += angles[:1]

    # Initialise the spider plot
    ax = plt.subplot(9, 3, idx, polar=True)

    # Draw one axe per variable + add labels labels yet
    plt.xticks(angles[:-1], categories, color='grey', size=8)

    # Draw ylabels
    ax.set_rlabel_position(0)
    plt.yticks([25,50,75], ["25","50","75"], color="grey", size=7)
    plt.ylim(0,100)
    
    plt.subplots_adjust(hspace = 0.5)
    
    # Plot data
    ax.plot(angles, values, linewidth=1, linestyle='solid')

    # Fill area
    ax.fill(angles, values, 'b', alpha=0.1)
    
    plt.title(position_name, size=11, y=1.1)
    
    idx += 1 

In [None]:
df[df['Preferred Foot'] == 'Left'][['Name','Overall']].head(10)

In [None]:
df[df['Preferred Foot'] == 'Right'][['Name','Overall']].head(10)

In [None]:
sns.lmplot(x = 'BallControl', y = 'Dribbling', data = df,
          scatter_kws = {'alpha':0.1},
          col = 'Preferred Foot');
plt.savefig('scatter.eps')

In [None]:
clubs_coherency = pd.Series()
for club, players in df.groupby(['Club'])['Nationality'].count().items():
    coherency = df[df['Club'] == club].groupby(['Nationality'])['Club'].count().max() / players * 100
    clubs_coherency[club] = coherency

clubs_coherency.sort_values(ascending = False).head(10)

In [None]:
df.groupby(['Club'])['Nationality'].nunique().sort_values(ascending = False).head(10)

In [None]:
df.groupby(['Club'])['Nationality'].nunique().sort_values().head(10)

In [None]:
plt.figure(figsize=(14,7))
cmap = sns.cubehelix_palette(rot=.001, as_cmap=True)

ax = sns.scatterplot(x='Crossing', y='Dribbling',
                     hue='Finishing',
                     palette='Reds', sizes=(1, 1),
                     data=df)
ax.set_title(label='Relation dribbling and crossing with respected finishing of players', fontsize=20);
plt.savefig('drible.eps')

In [None]:
sns.jointplot(x=df['Dribbling'], y=df['Crossing'], kind="hex", color="#4CB391",height=10);

In [None]:
plt.figure(figsize=(10,8))
value = df.Value_float
ax = sns.regplot(x = value / 10000000, y = 'Overall', fit_reg = False, data = df);
ax.set_title(label='Value vs. Overall', fontsize=20);
ax.grid()

In [None]:
cmap = sns.cubehelix_palette(rot=-.2, as_cmap=True)

sns.relplot(x="Age", y="Potential", hue=value/100000, 
            sizes=(40, 400), alpha=.5,height=6, data=df);

In [None]:
# getting top ten most popular countries
top_ten_countries = df['Nationality'].value_counts().head(10).index.values
top_ten_countries_data = df.loc[df['Nationality'].isin(top_ten_countries), :]

sns.set(style="white")
plt.figure(figsize=(11, 8))
p = sns.boxplot(x ="Nationality", y = "Overall", data = top_ten_countries_data)

In [None]:
sns.set(style="white")
plt.figure(figsize=(11, 8))
p = sns.boxplot(x = 'Nationality', y = 'Potential', data = top_ten_countries_data)

In [None]:
plt.figure(figsize=(10, 8))
p = sns.lineplot(x = 'Age', y = 'Overall', ci = None, data = df, label = 'Overall')
p = sns.lineplot(x = 'Age', y = 'Potential', ci = None, data = df, label = 'Potential')
p = plt.ylabel('Potential vs Overall')
p = plt.legend(loc = 1)
plt.grid()

In [None]:
plt.figure(figsize=(10, 8))
mean_value_per_age = df.groupby('Age')['Value'].mean()
p = sns.barplot(x = mean_value_per_age.index, y = mean_value_per_age.values)
p = plt.xticks(rotation=90)

In [None]:
avg_value_by_position = df.groupby('Position')['Value'].mean()
plt.figure(figsize=(11,8))
p = sns.boxplot(x = 'Position', y = 'Value', data = df)
p = plt.xticks(rotation=90)
p = plt.ylim(0, 200000000)