# Análise exploratória de dados do dataset "FIFA21_official_data"

O objetivo dessa análise exploratória de dados é ler o dataset, processar os tipos de variáveis e checar alguns resultados.

In [1]:
# Pacotes necessários ao análise.
import pandas as pd
import numpy as np

In [2]:
# Lendo e visualizando as primeiras linhas do dataset.
df = pd.read_csv('FIFA21_official_data.csv')
df.head()

Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Best Position,Best Overall Rating,Release Clause,DefensiveAwareness
0,176580,L. Suárez,33,https://cdn.sofifa.com/players/176/580/20_60.png,Uruguay,https://cdn.sofifa.com/flags/uy.png,87,87,Atlético Madrid,https://cdn.sofifa.com/teams/240/light_30.png,...,38.0,27.0,25.0,31.0,33.0,37.0,ST,87.0,€64.6M,57.0
1,192985,K. De Bruyne,29,https://cdn.sofifa.com/players/192/985/20_60.png,Belgium,https://cdn.sofifa.com/flags/be.png,91,91,Manchester City,https://cdn.sofifa.com/teams/10/light_30.png,...,53.0,15.0,13.0,5.0,10.0,13.0,CAM,91.0,€161M,68.0
2,212198,Bruno Fernandes,25,https://cdn.sofifa.com/players/212/198/20_60.png,Portugal,https://cdn.sofifa.com/flags/pt.png,87,90,Manchester United,https://cdn.sofifa.com/teams/11/light_30.png,...,55.0,12.0,14.0,15.0,8.0,14.0,CAM,88.0,€124.4M,72.0
3,194765,A. Griezmann,29,https://cdn.sofifa.com/players/194/765/20_60.png,France,https://cdn.sofifa.com/flags/fr.png,87,87,FC Barcelona,https://cdn.sofifa.com/teams/241/light_30.png,...,49.0,14.0,8.0,14.0,13.0,14.0,ST,87.0,€103.5M,59.0
4,224334,M. Acuña,28,https://cdn.sofifa.com/players/224/334/20_60.png,Argentina,https://cdn.sofifa.com/flags/ar.png,83,83,Sevilla FC,https://cdn.sofifa.com/teams/481/light_30.png,...,79.0,8.0,14.0,13.0,13.0,14.0,LB,83.0,€46.2M,79.0


Código para checar os nomes, tipos de dados, se contém valores nulos de todas as colunas e o tamanho do dataset. 


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17108 entries, 0 to 17107
Data columns (total 65 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID                        17108 non-null  int64  
 1   Name                      17108 non-null  object 
 2   Age                       17108 non-null  int64  
 3   Photo                     17108 non-null  object 
 4   Nationality               17108 non-null  object 
 5   Flag                      17108 non-null  object 
 6   Overall                   17108 non-null  int64  
 7   Potential                 17108 non-null  int64  
 8   Club                      16783 non-null  object 
 9   Club Logo                 17108 non-null  object 
 10  Value                     17108 non-null  object 
 11  Wage                      17108 non-null  object 
 12  Special                   17108 non-null  int64  
 13  Preferred Foot            17108 non-null  object 
 14  Intern

Removemos do dataset as colunas 'ID', 'Photo', 'Flag', 'Club Logo', 'Real Face'; pois não trazem informações úteis.

In [4]:
df = df.drop(columns=['ID',
                      'Photo',
                      'Flag',
                      'Club Logo',
                      'Real Face', ])

Temos as colunas 'Wage', 'Value', 'Release_Clause' que a informações principal é um valor em dinheiro, mas que estão como strings, vamos transformar para float.

In [5]:
df['Wage']

0        €115K
1        €370K
2        €195K
3        €290K
4         €41K
         ...  
17103     €500
17104     €500
17105     €500
17106     €500
17107     €500
Name: Wage, Length: 17108, dtype: object

Olhando os dados, vemos que alguns valores estão em milhares de euros e outros, estão em unidades de euro. Vamos mudar todos os valores para milhares de euros. E transformar o tipo de dado para float.

In [6]:
# Tira o primeiro caracterer, '€', de cada item da tabela.
df['Wage'] = df.Wage.replace('€', '',regex=True)

In [7]:
# Transformar os valores em unidades de euro para milhares de euro.
df['Wage'] = [float(wage)/1000 if wage[-1]!='K' else wage for wage in df['Wage']]

In [8]:
# Tira o último caracterer, 'K', de cada item da tabela.
df['Wage'] = df.Wage.replace('K', '',regex=True).astype(float)

In [9]:
df['Wage']

0        115.0
1        370.0
2        195.0
3        290.0
4         41.0
         ...  
17103      0.5
17104      0.5
17105      0.5
17106      0.5
17107      0.5
Name: Wage, Length: 17108, dtype: float64

Na coluna 'Value', existem valores em milhões de euros e em milhares de euros. Vamos colocar todos na mesma escala e transformar o tipo de dado para float.

In [10]:
df['Value']

0        €31.5M
1          €87M
2          €63M
3        €50.5M
4          €22M
          ...  
17103      €50K
17104      €50K
17105      €60K
17106      €50K
17107      €50K
Name: Value, Length: 17108, dtype: object

In [11]:
# Tira o primeiro caracterer, '€', de cada item da tabela.
df['Value'] = df.Value.replace('€','',regex=True)

In [12]:
# Transformar os valores de milhares de euros para milhões de euros.
df['Value'] = [float(value[:-1])/1000 if value[-1]=='K' else value for value in df['Value']]

In [13]:
# Tira o útimo caractere, 'M', dos items da tabela que estavam em milhões de euro e transformar para float.
df['Value'] = df.Value.replace('M','',regex=True).astype(float)

In [14]:
df['Value']

0        31.50
1        87.00
2        63.00
3        50.50
4        22.00
         ...  
17103     0.05
17104     0.05
17105     0.06
17106     0.05
17107     0.05
Name: Value, Length: 17108, dtype: float64

Com a coluna 'Release Clause' que representa o valor de quebra de contrato temos a mesma situação anterior, entretanto temos também valores do tipo 'nan'. Note que se um jogador não tem clausula de quebra de contrato, então podemos preencher com o valor 0.

In [15]:
df['Release Clause']

0         €64.6M
1          €161M
2        €124.4M
3        €103.5M
4         €46.2M
          ...   
17103      €120K
17104       €83K
17105      €149K
17106       €94K
17107      €109K
Name: Release Clause, Length: 17108, dtype: object

In [16]:
# Aqui renomearemos a nossa coluna para não ficar o espaço vazio.
df.rename(columns={'Release Clause': 'Release_Clause'}, inplace = True)

In [17]:
# Se o valor de um item na coluna 'Release Clause', preencher com valores 0.
df['Release_Clause'] = ['0' if pd.isna(clause) else clause for clause in df['Release_Clause']]

In [18]:
# Tira o primeiro caracterer, '€', de cada item da tabela.
df['Release_Clause'] = df.Release_Clause.replace('€','', regex=True)

In [19]:
# Transformar os valores em milhares de euros para valores em milhões de euros.
df['Release_Clause'] = [ (float(clause[0:-1])/1000) if clause[-1] == 'K' else clause for clause in df['Release_Clause']]

In [20]:
df['Release_Clause'] = df.Release_Clause.replace('M','', regex=True).astype(float)

In [21]:
df['Release_Clause']

0         64.600
1        161.000
2        124.400
3        103.500
4         46.200
          ...   
17103      0.120
17104      0.083
17105      0.149
17106      0.094
17107      0.109
Name: Release_Clause, Length: 17108, dtype: float64

Como pode ser visto a seguir, a coluna 'Height', possui informações de alturas medidas em pés e polegadas. Vamos transformar essa informação para metros através da função trans_height(height) e mudar o tipo de objeto para float. 

In [22]:
df['Height']

0         6'0
1        5'11
2        5'10
3         5'9
4         5'8
         ... 
17103     6'4
17104     6'5
17105     6'3
17106     6'1
17107     6'0
Name: Height, Length: 17108, dtype: object

In [23]:
# Função que transforma a altura de polegadas e pés para metros.
def trans_height(height):
    b = int(height.split("'")[0])
    c = int(height.split("'")[1])
    total = b*12 + c
    metros = total * 0.0254
    metros = round(metros,2)
    return metros

In [24]:
# Aplicamos a função para cada item da coluna 'Height'
df['Height'] = [trans_height(height) for height in df['Height']]

In [25]:
df['Height'] 

0        1.83
1        1.80
2        1.78
3        1.75
4        1.73
         ... 
17103    1.93
17104    1.96
17105    1.91
17106    1.85
17107    1.83
Name: Height, Length: 17108, dtype: float64

Da mesma forma que anteriormente, a coluna 'Weight' possui os valores em libras e objetos do tipo string. Vamos transformar os valores para quilograma e o tipo do objeto para int, através da função 'trans_Weight(weight)'.

In [26]:
df['Weight']

0        190lbs
1        154lbs
2        152lbs
3        161lbs
4        152lbs
          ...  
17103    176lbs
17104    187lbs
17105    176lbs
17106    168lbs
17107    172lbs
Name: Weight, Length: 17108, dtype: object

In [27]:
# Função que transforma libras para quilogramas.
def trans_Weight(weight):
    weight = int(weight[0:-3])
    weight = 0.453592*weight
    return round(weight)

In [28]:
# Aplicamos a função para cada valor da coluna 'Weight'.
df['Weight'] = [trans_Weight(weight) for weight in df['Weight']]

In [29]:
df['Weight']

0        86
1        70
2        69
3        73
4        69
         ..
17103    80
17104    85
17105    80
17106    76
17107    78
Name: Weight, Length: 17108, dtype: int64

Os dados da coluna 'Position', estão bugados no dataset. Entretanto após olhar os valores vemos que as informações estão contida nas duas ou três letras finais de cada item da tabela. Assim vamos eliminar o resto e deixar o valor que queremos. Por exemplo, o primeiro valor '< span class="pos pos24">RS' será transformado em 'RS' e o segundo valor '< span class="pos pos13">RCM', transformado em 'RCM'.

In [30]:
df['Position']

0         <span class="pos pos24">RS
1        <span class="pos pos13">RCM
2        <span class="pos pos18">CAM
3         <span class="pos pos23">RW
4          <span class="pos pos7">LB
                    ...             
17103    <span class="pos pos29">RES
17104    <span class="pos pos29">RES
17105    <span class="pos pos29">RES
17106    <span class="pos pos28">SUB
17107    <span class="pos pos29">RES
Name: Position, Length: 17108, dtype: object

In [31]:
# Precisamos atribuir a palavra 'nan' onde não temos valores para conseguirmos rodar o próximo loop.
df['Position'] = ['nan' if pd.isna(position) else position for position in df['Position']]

In [32]:
# Pegamos as três ultimas letras de cada item da tabela 'Position'.
df['Position'] = [position[-3:] for position in df['Position']]

In [33]:
# Caso o item que queremos tenha apenas duas letras, igual o primeiro exemplo, a antepenúltima letra será '<', que
# será removida.
df['Position'] = df.Position.replace('>','',regex=True)

In [34]:
df['Position']

0         RS
1        RCM
2        CAM
3         RW
4         LB
        ... 
17103    RES
17104    RES
17105    RES
17106    SUB
17107    RES
Name: Position, Length: 17108, dtype: object

Na coluna 'Joined' e 'Contract Valid Until', temos informações de datas mas o valor de cada item é uma string. A data está no formato Mês dia, Ano; sendo que o Mês está abreviado com as três primeiras letras.  Vamos transformar cada item das tabelas para um objeto datetime no formato Ano-Mês-dia. 

In [35]:
df['Joined']

0        Sep 25, 2020
1        Aug 30, 2015
2        Jan 30, 2020
3        Jul 12, 2019
4        Sep 14, 2020
             ...     
17103     Mar 2, 2018
17104     Jul 1, 2019
17105     Jul 1, 2019
17106    Mar 31, 2019
17107     Jul 1, 2018
Name: Joined, Length: 17108, dtype: object

Inicialmente transformaremos o valor do mês, para um valor numérico. Faremos isso utilizando o dicionário 'dic_mm' e a list compreension abaixo.

In [36]:
dic_mm = {'Jan':'1', 'Feb':'2', 'Mar':'3','Apr':'4','May':'5', 'Jun': '6', 'Jul':'7', 'Aug':'8','Sep':'9','Oct':'10','Nov':'11','Dec':'12' }
df['Joined'] = [dic_mm[join[:3]]+ join[3:] if pd.isna(join)==False else join for join in df['Joined']]

In [37]:
# Substituímos os espaços vazios ' ', por '/'. 
df['Joined'] = df.Joined.replace(' ', '/', regex=True)

In [38]:
# Em seguida, removemos ',' de cada item da coluna 'Joined'.
df['Joined'] = df.Joined.replace(',', '', regex=True)

In [39]:
# Por fim, mudamos o tipo de data de string para datetime. 
df['Joined'] = [join if pd.isna(join) else pd.to_datetime(join) for join in df['Joined']]

In [40]:
df['Joined']

0       2020-09-25
1       2015-08-30
2       2020-01-30
3       2019-07-12
4       2020-09-14
           ...    
17103   2018-03-02
17104   2019-07-01
17105   2019-07-01
17106   2019-03-31
17107   2018-07-01
Name: Joined, Length: 17108, dtype: datetime64[ns]

Analogamente transformamos cada item cada coluna 'Contract Valid Until' de string para datetime. Como o formato da data é apenas Anos, basta aplica a função 'pd.to_datime'.

In [41]:
df['Contract Valid Until']

0        2022
1        2023
2        2025
3        2024
4        2024
         ... 
17103    2021
17104    2022
17105    2021
17106    2022
17107    2020
Name: Contract Valid Until, Length: 17108, dtype: object

In [42]:
# Transformar o tipo do objeto de string para datetime.
df['Contract Valid Until'] = [until if pd.isna(until) else pd.to_datetime(until) for until in df['Contract Valid Until']]

In [43]:
df['Contract Valid Until']

0       2022-01-01
1       2023-01-01
2       2025-01-01
3       2024-01-01
4       2024-01-01
           ...    
17103   2021-01-01
17104   2022-01-01
17105   2021-01-01
17106   2022-01-01
17107   2020-01-01
Name: Contract Valid Until, Length: 17108, dtype: datetime64[ns]

# Obtendo informações do dataset. 

Nessa segunda parte da análise, iremos obter algumas informações simples sobre o dataset.

A primeira coisa que queremos saber é a média do Overall dos jogadores por time. O Overall indica o quanto um jogador é bom. Assim, quanto melhor o jogador maior o Overall. É esperado que o melhor time tenha a melhor média de Overall. 

In [44]:
# Criamos um novo dataset com as colunas 'Club' e 'Overall'.
club_over = df.filter(['Club', 'Overall'])

In [45]:
# Agrupamos o overall por time, tiramos a média e ordenamos os valores do menor para o maior.
club_over_mean = club_over.groupby('Club').mean().sort_values(by='Overall')

In [46]:
# Aqui vemos os 15 times com a melhor média de overall por jogadores. 
club_over_mean[-15:]

Unnamed: 0_level_0,Overall
Club,Unnamed: 1_level_1
Flamengo,76.428571
Palermo,76.5
Palmeiras,76.5
Liverpool,76.589744
Paris Saint-Germain,76.945946
Changchun Yatai FC,77.0
Corinthians,77.0
FC Barcelona,77.097561
Juventus,77.195122
Inter,77.325


Note que temos um time chamado '111648' como o time com a maior média de overall por jogador. Após pesquisa na internet chegamos a conclusão que é um time fictício criado para armazenar jogadores fictícios o código abaixo confirma que só temos 3 jogadores no time. 

In [47]:
j=0
for i in df['Club']:
    if i=='111648':
        print(df['Name'][j])
    j+=1

 09 H. de Noteboom
 09 B. Ronhaar
 09 J. Maatje


Assim, vemos que o time com a melhor média é o FC Bayern München, ganhador da champions 2019/2020. 

Agora, iremos analisar o valor de um time com base no valor dos jogadores deste time.

In [48]:
# Criamos um dataframe com as colunas 'Club' e 'Value'.
club_value = df.filter(['Club', 'Value'])

In [49]:
# Agrupos e ordenamos a soma dos valores dos jogadores por time.
club_value_sort = club_value.groupby('Club').sum('Value').sort_values(by='Value')

In [50]:
# Aqui vemos os 15 times com o maior valor com base na soma do valor de cada jogador deste time.
club_value_sort[-15:]

Unnamed: 0_level_0,Value
Club,Unnamed: 1_level_1
Arsenal,436.435
Napoli,443.16
Borussia Dortmund,516.32
Inter,525.921
Manchester United,571.906
Tottenham Hotspur,583.025
Chelsea,611.285
Juventus,614.025
Atlético Madrid,619.75
FC Bayern München,644.85


Outra informação interessante é analisar qual jogador tem o maior salário. 

In [51]:
# Criamos um dataframe com as colunas 'Name' e 'Wage'.
wage_player = df.filter(['Name','Wage'])

In [52]:
# Ordenamos o valor dos salários.
wage_player_sort = wage_player.sort_values(by='Wage')

In [53]:
# Aqui vemos os 15 jogadores com maiores salários ordenados do menor para o maior.
wage_player_sort[-15:]

Unnamed: 0,Name,Wage
38,S. Mané,250.0
31,M. Salah,250.0
13,L. Modrić,260.0
13611,M. ter Stegen,260.0
208,R. Sterling,270.0
70,Neymar Jr,270.0
3,A. Griezmann,290.0
182,S. Agüero,300.0
11,Sergio Ramos,300.0
23,Casemiro,310.0


Da mesma forma, podemos obter quais são os jogadores com os maiores valores em milhões de euros para quebra de contrato.

In [54]:
release_clause = df.filter(['Name', 'Release_Clause'])

In [55]:
release_clause_sort = release_clause.sort_values(by='Release_Clause')

In [56]:
# Aqui vemos os 15 jogadores com maior valor de quebra de contrato, ordenado do menor para o maior.
release_clause_sort[-15:]

Unnamed: 0,Name,Release_Clause
109,P. Dybala,122.5
2,Bruno Fernandes,124.4
44,R. Lewandowski,132.0
1016,J. Sancho,132.1
18,L. Messi,138.4
208,R. Sterling,139.6
78,H. Kane,140.2
38,S. Mané,144.3
31,M. Salah,144.3
204,V. van Dijk,145.3


Vamos agora checar o tempo de contrato, em dias, para determinado jogador.

In [57]:
# Aqui criamos uma nova coluna no nosso dataset que indica o tempo do contrato de cada jogador em dias.
df['Contract_days'] = df['Contract Valid Until'] - df['Joined']

In [58]:
# Criamos um novo dataframe com as colunas 'Club', 'Name' e 'Contract_days'.
contract = df.filter(['Club','Name','Contract_days'])

In [59]:
# Colocamos os valores 'nan', quem não tem contrato para aparecer primeiro e ordenamos do menor para o maior.
# Aqui vemos os 15 jogadores com maior tempo de contrato no jogo.
contract.sort_values(by='Contract_days', na_position='first')[-15:]

Unnamed: 0,Club,Name,Contract_days
8712,Milton Keynes Dons,D. Lewington,6728 days
2798,Inter,14 J. Zanetti,6759 days
15720,Fenerbahçe SK,19 V. Demirel,7088 days
391,Manchester United,13 P. Scholes,7117 days
16295,BSC Young Boys,20 M. Wölfli,7123 days
6857,PFC CSKA Moscow,18 A. Berezutskiy,7124 days
3356,Gamba Osaka,Y. Endo,7304 days
15570,PFC CSKA Moscow,I. Akinfeev,7305 days
5209,Manchester United,11 G. Neville,7305 days
14444,Kaizer Chiefs,I. Khune,7489 days
