![image.png](https://viciados.net/wp-content/uploads/2019/10/fifa20-navtile-16x9-championsedition.png)

FIFA 20 é um jogo de simulação de futebol publicado pela Electronic Arts como parte da série FIFA. É a 27ª edição da série FIFA e foi lançado em 27 de setembro de 2019 para Microsoft Windows, PlayStation 4, Xbox One e Nintendo Switch.


O extremo do Real Madrid, Eden Hazard, foi nomeado a nova estrela da capa da Edição Regular, com o zagueiro do Liverpool Virgil van Dijk (na imagem acima) na capa da Champions Edition. O antigo Juventus e  do Real Madrid Zinedine Zidane foi posteriormente nomeado estrela da capa da Ultimate Edition.

# **Tabela de conteúdos**

<a id = 'max 10'></a>

1. [Importando bibliotecas e explorando dados](#1)
  * Fontes dos dados


2. [Manipulação e limpeza de dados](#2)
  * Exclusão de colunas inuteis 
  * Formação de uma nova coluna de IMC usando as colunas pesos e alturas
  * Valores nulos contados usando Get Dummies para posições dos jogadores
  * Para colunas como drible, defesa, passe, etc, usa-se  o valor mediano


3. [Análise de dados](#3)
   * Relação da classificação geral e valor em euros usando o gráfico de dispersão
   * Relação da classificação potencial e salário em euros usando gráfico de dispersão
   * Contagem de pé preferencial e reputação internacional usando o gráfico de contagem
   * Distribuição de idade e IMC usando histograma
   * Relação de IMC vs ritmo e peso vs ritmo usando Reg Plot
   
   
   
4. [ Análise dos Top 20 (20 melhores)](#4)
   * Qual país tem mais jogadores no Top 20?
   * Qual clube tem mais jogadores no Top 20?
   * Que tipo de jogador aparece mais no Top 20?
   * Qual idade possui os jogadores no Top 20?
   
   
   
5. [A maior rivalidade - Messi vs Ronaldo](#5)
   * Comparação de diferentes atributos usando **Radar Plot**
   
   
6. [Outras comparações de jogadores no Top 20](#6)
   * Comparando Neymar e Hazard usando Radar Plot
   * Comparando Oblak e Ter Stegen usando Radar Plot
   * Comaparando Mbappé e Lewandowski usando Radar Plot
   

7. [Nuvem de palavras](#7)
   * Nuvem de palavras de clubes e países dos 20 melhores jogadores
   * Nuvem de palavras dos 10 melhores jogadores


# **1. Importação de bibliotecas e Exploração de Dados** <a class="anchor" id="1"></a>

Fonte dos dados importados: <a href="https://sofifa.com/" target="_blank">Sofifa</a>

In [None]:
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from math import pi #Used in Radar Plots
import seaborn as sns
sns.set_style(style='darkgrid')
import warnings
warnings.filterwarnings('ignore')

In [None]:
fifa_20 = pd.read_csv('../input/fifa-20-complete-player-dataset/players_20.csv')

In [None]:
fifa_20.head()

In [None]:
fifa_20.shape # To check no of rows and columns

In [None]:
col = list(fifa_20.columns)  # To print all the columns
print(col)

# **2. Manipulação e limpeza de dados** <a class="anchor" id="2"></a>

In [None]:
useless_column = ['dob','sofifa_id','player_url','long_name','body_type','real_face','nation_position','loaned_from','nation_jersey_number']

In [None]:
fifa_20 = fifa_20.drop(useless_column, axis = 1)

In [None]:
fifa_20['BMI'] = fifa_20 ['weight_kg'] / (fifa_20['height_cm'] / 100) ** 2

In [None]:
fifa_20[['short_name','player_positions']]

In [None]:
new_player_position = fifa_20['player_positions'].str.get_dummies(sep=',').add_prefix('Position')
new_player_position.head()

In [None]:
fifa_20 =  pd.concat([fifa_20,new_player_position],axis = 1)

In [None]:
fifa_20.head()

In [None]:
fifa_20 =  fifa_20.drop('player_positions',axis=1)

In [None]:
columns = ['ls','st','rs','lw','lf','cf','rf','rw','lam','cam','ram','lm','lcm','cm','rcm','rm','lwb','ldm', 'cdm','rdm','rwb','lb','lcb','cb','rcb','rb']

In [None]:
fifa_20[columns].head()

In [None]:
for col in columns:
  fifa_20[col]=fifa_20[col].str.split('+',n=1,expand = True)[0]

fifa_20[columns]

In [None]:
fifa_20[columns] = fifa_20[columns].fillna(0)

In [None]:
fifa_20[columns] = fifa_20[columns].astype(int)

In [None]:
columns = ['dribbling','defending','physic','passing','shooting','pace']

In [None]:
fifa_20[columns]

In [None]:
fifa_20[columns].isnull().sum()

In [None]:
for col in columns:
  fifa_20[col] = fifa_20[col].fillna(fifa_20[col].median())
fifa_20[columns]

In [None]:
fifa_20 = fifa_20.fillna(0)

In [None]:
fifa_20.isnull().sum() #Verifying it Should be all zero

# **3. Vamos iniciar as análises**<a class="anchor" id="3"></a>

In [None]:
sns.relplot(x='overall',y='value_eur',hue='age',palette = 'ocean',size="BMI", sizes=(15, 200),aspect=2,data=fifa_20)
plt.title('Overall Rating vs Value in Euros',fontsize = 20)
plt.xlabel('Overall Rating')
plt.ylabel('Value in Euros')
plt.show()

Aqui temos uma analise baseada no overal (indice de desempenho do jogador, baseado em seus status) do jogador versus qual seu preço dentro do jogo. Temos a distribuição de acordo idade (age) e indice da massa corporal (BMI) ou IMC.

In [None]:
sns.relplot(x='potential',y='wage_eur',hue='age',palette = 'ocean',size="BMI", sizes=(15, 200),aspect=2,data=fifa_20)
plt.title('Potential Rating vs Wage in Euros',fontsize = 20)
plt.xlabel('Potential')
plt.ylabel('Wage in Euros')
plt.show()

Aqui temos uma analise baseada no potencial de evolução do jogador versus quanto ele recebe em euros. Temos a distribuição de acordo idade (age) e indice da massa corporal (BMI) ou IMC.

In [None]:
plt.figure(dpi=125)
sns.countplot('preferred_foot',data=fifa_20,palette='Reds')
plt.xlabel('Preferred Foot Players')
plt.ylabel('Count')
plt.title('Count of Preferred Foot')
Right,Left=fifa_20.preferred_foot.value_counts()
print('Left Preferred',Left)
print('Right Preferred',Right)
plt.show()

Aqui podemos observar um contador com o número total de jogadores e qual o seu pé preferrido para chute. Pé esquerdo: 4318
e pé direito: 13960

In [None]:
plt.figure(dpi=125)
sns.countplot('international_reputation',data=fifa_20.head(100),palette='Blues')
plt.xlabel('International Reputation')
plt.ylabel('Count')
plt.title('Count of International Reputation of Top 100 Players')
plt.show()

Acima temos no histograma qual a reputação internacional dos 100 melhores jogadores, variando de um indice de 0 a 5.

In [None]:
plt.figure(dpi=125)
sns.distplot(a=fifa_20['age'],kde=False,bins=20,color='purple')
plt.axvline(x=np.mean(fifa_20['age']),c='green',ls='--',label='Mean Age of All Players')
plt.legend()
plt.xlabel('Age')
plt.ylabel('Count')
plt.title('Distribution of Age')
print('Mean Age of All Players:',np.mean(fifa_20['age']))
plt.show()



No histograma acima vemos a distribuição de idade dos jogadores e temos uma média de idade de 25.283291388554545 anos

In [None]:
plt.figure(dpi=125)
sns.distplot(a=fifa_20['BMI'],kde=False,bins=20,color='cyan')
plt.axvline(x=np.mean(fifa_20['BMI']),c='black',ls='--',label='Mean BMI of All Players')
plt.legend()
print('Mean BMI of All Players or IMC',np.mean(fifa_20['BMI']))
plt.xlabel('BMI')
plt.ylabel('Count')
plt.title('Distribution of BMI')
plt.show()

No histograma temos o retorno da distribuição de indice de massa corporal de todos os jogadores e uma média de 22.85834654650364

In [None]:
plt.figure(figsize=(12,6),dpi=125)
x=fifa_20['weight_kg']
y=fifa_20['pace']

sns.regplot(x,y,color='magenta')
plt.title('Weight vs Pace',fontsize = 20)
plt.xlabel('Weight')
plt.ylabel('Pace')
plt.show()

Acima podemos observar a regressão linear dado o peso versus o ritmo de cada jogador

In [None]:
plt.figure(figsize=(12,6),dpi=125)
x=fifa_20['BMI']
y=fifa_20['pace']

sns.regplot(x,y,color='orange')
plt.title('BMI vs Pace',fontsize=20)
plt.xlabel('BMI')
plt.ylabel('Pace')
plt.show()

Acima podemos observar a regressão linear dado o indice de massa corporal versus o ritmo de cada jogador

# **4 - Análise dos 20 melhores jogadores** <a class="anchor" id="4"></a>

In [None]:
plt.figure(figsize=(14,7),dpi=150)
sns.countplot(x='nationality',data=fifa_20.head(20),palette='CMRmap')
plt.xlabel('Nationality')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.title('Which Country has Max players in Top 20?',fontsize = 20)
plt.show()

No histograma acima temos os 20 melhores jogadores de acordo seu país de origem, podemos perceber que há um destaque para 5 países que possuem mais jogadores nesse top 20 e são Argentina, Brasil, Bélgica, França e Espanha.

In [None]:
plt.figure(figsize=(14,7),dpi=150)
sns.countplot('club',data=fifa_20.head(20),palette='CMRmap')
plt.xlabel('Club')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.title('Which Club has Max players in Top 20?',fontsize = 20)
plt.show()

No histograma acima obtemos os clubes que mais possuem jogadores no top 20, os 3 clubes que se destacam com mais jogadores são Liverpool, Barcelona e Real Madrid.

In [None]:
plt.figure(figsize=(14,7),dpi=125)
sns.countplot('team_position',data=fifa_20.head(20),palette='CMRmap')
plt.xlabel('Player Position')
plt.ylabel('Count')
plt.title('Which type of player comes most in Top 20?',fontsize = 20)
plt.show()

No histograma acima obtemos qual posição mais frequentes que os jogadores que estão no top 20 atuam. Há um destaque para a posição de goleiro (GK) e zagueiro esquerdo (LCB).

In [None]:
plt.figure(figsize=(14,7),dpi=125)
sns.countplot('age',data=fifa_20.head(20),palette='Blues')
plt.xlabel('Age')
plt.ylabel('Count')
plt.title('Which age belongs to Max players in Top 20?',fontsize = 20)
plt.show()

No histograma aima obtemos a faixa de idade dos jogadores do top 20, e observamos que a idade mais presente foi a dos 28 anos, representada por um total de 5 jogadores.

# **5 - E ai, quem é o melhor? - MESSI VS RONALDO**<a class="anchor" id="5"></a> 

In [None]:
column_r=['short_name','overall','potential','pace','shooting','passing','dribbling','defending','physic']
rival = fifa_20.head(2)[column_r]
rival= rival.set_index('short_name')
rival.head()

In [None]:
values = rival.iloc[0].tolist()
values += values [:1]
values

In [None]:
values2 = rival.iloc[1].tolist()
values2 += values2[:1]
values2

In [None]:
def RadarChart(player, data, player2, data2):
    Attributes = ["Overall","Potential","Pace","Shooting","Passing","Dribbling","Defending","Physical"]

    data += data [:1]
    data2 += data2 [:1]
    
    angles = [n / 8 * 2 * pi for n in range(8)]
    angles += angles [:1]
    
    angles2 = [n / 8 * 2 * pi for n in range(8)]
    angles2 += angles2 [:1]
    plt.figure(dpi=125)
    ax = plt.subplot(111, polar=True)
    ax = plt.subplot(111, polar=True)
    
    plt.xticks(angles[:-1],Attributes)

    ax.plot(angles,values)
    ax.fill(angles, values, 'teal', alpha=0.1)

    ax.plot(angles2,values2)
    ax.fill(angles2, values2, 'red', alpha=0.1)

    plt.figtext(0.1,0.98,player,color="steelblue")
    plt.figtext(0.1,0.94,"vs")
    plt.figtext(0.1,0.9,player2,color="darkorange")
    
    plt.show()

In [None]:
RadarChart("Messi",[94.0, 94.0, 87.0, 92.0, 92.0, 96.0, 39.0, 66.0, 94.0],"Ronaldo",[93.0, 93.0, 90.0, 93.0, 82.0, 89.0, 35.0, 78.0, 93.0])

Segundo o FIFA 20, Messi possui um melhor desempenho que Cristiano Ronaldo. Dos 8 atributos testados e mostrados no gráfico acima, Messi se saiu melhor em 5 contra 3 do Ronaldo.

<img src= "https://media.giphy.com/media/41cZekVQWbG8ZcghDU/giphy.gif">

# **6 - Mais algumas comparações**<a class="anchor" id="6"></a>

In [None]:
column_r=['short_name','age','team_position','overall','potential','pace','shooting','passing','dribbling','defending','physic']
riv = fifa_20[column_r]
riv = riv.set_index(['short_name','team_position','age'])

In [None]:
def Radarchart(player, data, player2, data2):
    Attributes = ["Overall","Potential","Pace","Shooting","Passing","Dribbling","Defending","Physical"]

    data += data [:1]
    data2 += data2 [:1]
    
    angles = [n / 8 * 2 * pi for n in range(8)]
    angles += angles [:1]
    
    angles2 = [n / 8 * 2 * pi for n in range(8)]
    angles2 += angles2 [:1]
    plt.figure(dpi=125)
    ax = plt.subplot(111, polar=True)
    ax = plt.subplot(111, polar=True)
    
    plt.xticks(angles[:-1],Attributes)

    ax.plot(angles,value)
    ax.fill(angles, value, 'teal', alpha=0.1)

    ax.plot(angles2,value2)
    ax.fill(angles2, value2, 'red', alpha=0.1)
    plt.figtext(0.1,0.98,player,color="steelblue")
    plt.figtext(0.1,0.94,"vs")
    plt.figtext(0.1,0.9,player2,color="darkorange")
    
    plt.show()

Agora vamos realizar a comparação de dois jogadores do Top 20 que atuam em posições bem semelhantes **Neymar** e **Hazard**

In [None]:
# Let's find values for Neymar Jr- Paris Saint-Germain
value = riv.iloc[2].tolist()
value += value[:1]
value

In [None]:
# Let's find values for E.Hazard - Real Madrid
value2 = riv.iloc[4].tolist()
value2 += value2[:1]
value2

In [None]:
Radarchart("Neymar Jr",[92.0, 92.0, 91.0, 85.0, 87.0, 95.0, 32.0, 58.0, 92.0],"E.Hazard",[91.0, 91.0, 91.0, 83.0, 86.0, 94.0, 35.0, 66.0, 91.0])

Como podemos ver no gráfico acima, das 8 comparações Neymar se saiu melhor em 5 e Hazard em 2, havendo um empate na caracteristica de passe com 91 cada. Mas não teve jeito, o pai tá ON.

<img width="200px" src="https://media.giphy.com/media/KEeVF3MpAiCIh6IQXy/giphy.gif">

Agora vamos comparar os dois melhores goleiros do Top 20, segundo o jogo, **J.Oblak** e **M. ter Stegen**

In [None]:
# Let's find values for Jan Oblak- Atlético Madrid
value = riv.iloc[3].tolist()
value += value[:1]
value

In [None]:
# Let's find values for M. ter Stegen - FC Barcelona
value2 = riv.iloc[6].tolist()
value2 += value2[:1]
value2

In [None]:
Radarchart("J.Oblak",[91.0, 93.0, 69.0, 54.0, 58.0, 64.0, 56.0, 66.0, 91.0],"M. ter Stegen",[90.0, 93.0, 69.0, 54.0, 58.0, 64.0, 56.0, 66.0, 90.0])

Podemos perceber que de acordo a comparação dos atributos acima, temos um empate técnico, o goleiro Oblak do Atlético de Madrid vence por apenas um quesito, ter overal com 1 ponto a mais. 

<img width="300px" src="https://media.giphy.com/media/QrdDefGdFy3On9l48s/giphy.gif">

Agora vamos para a ultima comparação, dois dos melhores atacantes do jogo e que estão no top 20, **K. Mbappé.** e **R. Lewandowski**

In [None]:
# Let's find values for Mbappé - Paris Saint-Germain
value = riv.iloc[10].tolist()
value += value[:1]
value

In [None]:
# Let's find values for Lewandowski- FC Bayern München
value2 = riv.iloc[20].tolist()
value2 += value2[:1]
value2

In [None]:
Radarchart("K.Mbappé",[89.0, 95.0, 96.0, 84.0, 78.0, 90.0, 39.0, 75.0, 89.0],"R.Lewandowski",[89.0, 89.0, 77.0, 87.0, 74.0, 85.0, 41.0, 82.0, 89.0])

Mais uma vez uma disputa acirrada. Como podemos observar acima, Mbappé obteve melhor resultado em 4 dos 8 atributos e Lewandowski em 3, havendo um empate no overal. Por isso foi declarada a vitória para o príncipe de Paris.

<img width="200px" src="https://media.giphy.com/media/JoaDGxRSYftKAwfSlz/giphy.gif">

# **7 - Nuvem de palavras, um extra pra ficar legal!**<a class="anchor" id="7"></a>

In [None]:
from wordcloud import WordCloud

In [None]:
plt.subplots(dpi=150)
wordcloud = WordCloud(background_color='white',width=1920,height=1080).generate(" ".join(fifa_20.head(20)['club']))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

Clubes presentes no Top 20

In [None]:
plt.subplots(dpi=150)
wordcloud = WordCloud(background_color='white',width=1920,height=1080).generate(" ".join(fifa_20.head(20)['nationality']))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

Países dos jogadores presentes no top 20

In [None]:
plt.subplots(dpi=150)
wordcloud = WordCloud(background_color='white',width=1920,height=1080).generate(" ".join(fifa_20.head(10)['short_name']))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

Top 10 melhores jogadores