### Análise de dados WSL temporada 21/22

##### Os dados utilizados do site são referentes às estatísticas das jogadoras assim como algumas informações de passes

In [1]:
import pandas as pd
import requests

In [2]:
""" Atribuindo às variáveis os endereços que serão utilizados"""

wsl_palyer_stats_url = 'https://fbref.com/en/comps/189/2021-2022/stats/2021-2022-Womens-Super-League-Stats'
wsl_players_passing_url = 'https://fbref.com/en/comps/189/2021-2022/passing/2021-2022-Womens-Super-League-Stats'

In [3]:
""" Cria objeto contendo as tabelas necessárias pra a análise. 
"""

# Esse tratamento de replace é para poder pegar a segunda tabela da página já que dentro do código html ela está dentro de um bloco de comentário <!-- -->. 
player_stats_data = requests.get(wsl_palyer_stats_url).text.replace('<!--', '').replace('-->','')
player_passing_data = requests.get(wsl_players_passing_url).text.replace('<!--', '').replace('-->','') 

""" Vou criar dois dataframes distintos contendo as informações necessárias para analisarmos.

O header dos dataframes recebe a primeira linha da tabela e as tabelas que vou utilizar
estão na posição [2]
"""
df_players_data = pd.read_html(player_stats_data, header=1)[2]
df_players_passing_data = pd.read_html(player_passing_data, header=1)[2]


##### Análise do df_players_data

In [4]:
len(df_players_data)
# A base deveria ter 280 registros, mas algo está errado e ela está maior.

291

In [5]:
df_players_data.describe() 
# aqui da pra ver que algo está errado. Consegui notar que no "top" aparece com o nome das colunas com maior frequencia
# outro ponto estranho é que os valores únicos para player é 275, o que vou checar depois.

Unnamed: 0,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast.1,G+A.1,G-PK.1,G+A-PK,xG.1,xAG.1,xG+xAG,npxG.1,npxG+xAG.1,Matches
count,291,291,286,291,291,285,285,291,291,291,...,291.0,291.0,291.0,291.0,290.0,290.0,290.0,290.0,290.0,291
unique,281,276,33,11,13,23,22,23,24,256,...,38.0,63.0,47.0,65.0,48.0,36.0,67.0,49.0,63.0,1
top,Rk,Player,eng ENG,DF,Leicester City WFC,25,1994,20,0,Min,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Matches
freq,11,11,133,69,29,27,23,26,33,11,...,165.0,118.0,153.0,120.0,62.0,69.0,47.0,62.0,47.0,291


In [6]:
""" Aqui vou filtrar o dataframe para ver o que tem de informação para a coluna RK
onde o valor dela é RK.
"""
df_players_data.loc[df_players_data['Rk'] == 'Rk'] 
# podemos ver que as linhas a mais(11) são os headers da tabela importada

Unnamed: 0,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast.1,G+A.1,G-PK.1,G+A-PK,xG.1,xAG.1,xG+xAG,npxG.1,npxG+xAG.1,Matches
25,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
51,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
77,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
103,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
129,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
155,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
181,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
207,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
233,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches
259,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,Min,...,Ast,G+A,G-PK,G+A-PK,xG,xAG,xG+xAG,npxG,npxG+xAG,Matches


In [7]:

"""Remoção de todas as linhas que estão erradas

Como identifiquei o problema, o próximo passo é tirar do df todas as linhas desnecessárias
"""

remove_linha_df_players = df_players_data.loc[df_players_data['Rk'] == 'Rk']
df_players_data.drop(remove_linha_df_players.index, inplace=True)

In [8]:
""" Total de jogadoras menor do que a quantidade de registros

Com a questão da quantidade de registros resolvida, vou analisar porque a quantidade de jogadoras
não está batendo com a quantidade de linhas, já que a base contém as informações das jogadoras por time.
"""

total = df_players_data.groupby('Player')['Player'].count()
total[total > 1]
# aqui consegui ver o pq tem palyer duplicada. Olhando na tabela original
# essas jogadoras mudaram de time na temporada e por isso duplicou.
# Nesse caso, não está errado.

Player
Anna Patten              2
Freya Gregory            2
Halle Houssein           2
Jill Scott               2
Viktoria Schnaderbeck    2
Name: Player, dtype: int64

In [9]:
# deixando apenas as colunas que vou utilizar (à princípio)
df_players_data = df_players_data[['Player', 'Nation', 'Pos', 'Squad', 'Age', 'MP', 'Starts', 'Min', 'Gls', 'Ast', 'G+A', 'PK', 'PKatt', 'CrdY', 'CrdR', 'xG', 'xAG']]

In [10]:
""" Alterando o tipo dos dados das colunas para poder ver a distribuição dos dados
"""

#df_players_data.astype({'Age': 'int32'}).dtypes
# assim que fui alterar o tipo, subiu um erro de NaN na coluna Age impedindo a conversão.
# vou identificar quais colunas estão com NaN e tratar elas primeiro. Vou deixar comentado aqui, mas a análise foi feita.



' Alterando o tipo dos dados das colunas para poder ver a distribuição dos dados\n'

In [11]:
df_players_data.isnull().sum()
# 4 colunas tem NaN. Vou pegar o índice delas e saber quem são na base original e entender
# o porque estão vazias.

nanteste = df_players_data[['Age', 'Nation', 'xG', 'xAG']].isnull()
# atribuí à variável as colunas que preciso identificar as jogadoras

agenan = nanteste[nanteste['Age'] == True].index
nationnan = nanteste[nanteste['Nation'] == True].index
xgnan = nanteste[nanteste['xG'] == True].index
xagnan = nanteste[nanteste['xAG'] == True].index
# cada uma das variáveis contém apenas os índices que preciso encontrar as jogadoras

df_players_data.loc[agenan, 'Player']
# aqui, consigo checar quais são as jogadoras nos índices com "problema"

""" Atualização dos campos com valores NaN

Como na tabela final vou precisar de alguns dados, vou atualizar as informações que não tem para aquelas
que eu conseguir achar, quem não achar nada vou deixar como 0
"""

# Atualização da idade
df_players_data.loc[[61], 'Age'] = 19
df_players_data.loc[[138], 'Age'] = 18
df_players_data.loc[[240], 'Age'] = 18
df_players_data.loc[[250], 'Age'] = 21
df_players_data.loc[[254], 'Age'] = 20
df_players_data.loc[[283], 'Age'] = 18

# Atualização da nacionalidade
df_players_data.loc[[61], 'Nation'] = 'ENG'
df_players_data.loc[[138], 'Nation'] = 'ENG'
df_players_data.loc[[240], 'Nation'] = 'ENG'
df_players_data.loc[[254], 'Nation'] = 'ENG'
df_players_data.loc[[283], 'Nation'] = 'ENG'

# xG e xAG como 0
df_players_data['xG'].fillna(0, inplace= True)
df_players_data['xAG'].fillna(0, inplace= True)

In [12]:
""" Atualização do tipo de dados das colunas do data frame.

Depois de ajustar as informações das colunas, consigo finalmente fazer o
ajuste nos tipos de dados das colunas.
"""

intcolumns = ['Age', 'MP', 'Starts', 'Gls', 'Ast', 'G+A', 'PK', 'PKatt', 'CrdY', 'CrdR']
floatcolumns = ['Min','xG','xAG']
stringcolumns = ['Player','Nation','Pos', 'Squad']
# Cada variável contém as colunas que serão ajustadas de acordo com o tipo delas.

for n in intcolumns:
    df_players_data[n] = df_players_data[n].astype('int32')

for n in floatcolumns:
    df_players_data[n] = df_players_data[n].astype('float')

for n in stringcolumns:
    df_players_data[n] = df_players_data[n].astype('string')

df_players_data.info()
# todas as colunas tiveram o tipo ajustado corretamente

<class 'pandas.core.frame.DataFrame'>
Index: 280 entries, 0 to 290
Data columns (total 17 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Player  280 non-null    string 
 1   Nation  280 non-null    string 
 2   Pos     280 non-null    string 
 3   Squad   280 non-null    string 
 4   Age     280 non-null    int32  
 5   MP      280 non-null    int32  
 6   Starts  280 non-null    int32  
 7   Min     280 non-null    float64
 8   Gls     280 non-null    int32  
 9   Ast     280 non-null    int32  
 10  G+A     280 non-null    int32  
 11  PK      280 non-null    int32  
 12  PKatt   280 non-null    int32  
 13  CrdY    280 non-null    int32  
 14  CrdR    280 non-null    int32  
 15  xG      280 non-null    float64
 16  xAG     280 non-null    float64
dtypes: float64(3), int32(10), string(4)
memory usage: 36.5 KB


In [13]:
""" Visualizando a distribuição dos dados

Com os tipos de dados corretos, fazer o .describe vai ajudar a ver se tem algo
de estranho com os dados
"""
df_players_data.describe()

Unnamed: 0,Age,MP,Starts,Min,Gls,Ast,G+A,PK,PKatt,CrdY,CrdR,xG,xAG
count,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0
mean,24.985714,13.492857,10.371429,932.171429,1.321429,0.907143,2.228571,0.067857,0.082143,0.95,0.028571,1.07,0.7475
std,4.612568,6.910588,7.30772,626.343321,2.392545,1.506956,3.569771,0.315153,0.354746,1.377364,0.187144,1.569385,1.016985
min,15.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,22.0,7.0,4.0,364.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.0
50%,25.0,15.5,10.0,926.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.5,0.4
75%,28.0,20.0,17.0,1534.5,2.0,1.0,3.0,0.0,0.0,1.0,0.0,1.4,1.025
max,36.0,22.0,22.0,1980.0,20.0,8.0,24.0,3.0,3.0,9.0,2.0,11.7,6.8


In [14]:
""" Último ajuste

Depois de finalizar as atualizações e identificar que à princípio os dados estão ok,
vou dar uma última olhada no data frame e ver se está tudo ok
"""

df_players_data
# É possivel notar que no campo "Nation", tem um carecter estranho que parece ser o texto
# referente à imagem da bandeira que ficava nessa coluna na tabela original.

# Como não quero essa informação, vou remover o texto que aparece e finalizar aqui os ajustes dessa base
df_players_data.replace({'Nation': r'[a-z]*\s'}, {'Nation': ''}, regex=True, inplace=True)
df_players_data

Unnamed: 0,Player,Nation,Pos,Squad,Age,MP,Starts,Min,Gls,Ast,G+A,PK,PKatt,CrdY,CrdR,xG,xAG
0,Alsu Abdullina,RUS,"MF,FW",Chelsea,20,5,0,47.0,0,0,0,0,0,0,0,0.0,0.0
1,Angela Addison,ENG,"MF,FW",Tottenham,21,19,1,347.0,1,0,1,0,1,0,0,1.8,0.6
2,Asmita Ale,ENG,"DF,MF",Tottenham,19,13,10,961.0,1,0,1,0,0,3,0,0.8,0.7
3,Remi Allen,ENG,MF,Aston Villa,30,19,19,1694.0,3,0,3,0,0,2,0,2.2,0.4
4,Jonna Andersson,SWE,"MF,DF",Chelsea,28,20,11,1006.0,0,3,3,0,0,1,0,0.2,1.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
286,Zaneta Wyne,USA,"DF,MF",West Ham,31,18,13,1147.0,1,0,1,0,0,0,0,0.8,0.7
287,Shelina Zadorsky,CAN,DF,Tottenham,28,21,21,1837.0,1,0,1,0,0,2,0,0.9,0.0
288,Katie Zelem,ENG,MF,Manchester Utd,25,22,22,1976.0,5,5,10,2,2,1,0,3.1,2.9
289,Julia Zigiotti Olme,SWE,"MF,FW",Brighton,23,11,6,565.0,2,0,2,0,0,0,0,1.1,0.2


##### Análise do df_players_passing_data

In [15]:
len(df_players_passing_data)
# A base deveria ter 280 registros, mas como o layout é igual a outra,
# já vou fazer a correção do problema.

291

In [16]:
remove_linha_df_pass = df_players_passing_data.loc[df_players_passing_data['Rk'] == 'Rk']
df_players_passing_data.drop(remove_linha_df_pass.index, inplace=True)
# Estou aplicando o mesmo tratamento que fiz para o outro dataframe, então não vou explicar
# a mesma coisa nesses passos.

In [17]:
df_players_passing_data.describe()

total = df_players_passing_data.groupby('Player')['Player'].count()
total[total > 1]
# Também tem duplicados, mas como faz sentido vou deixar

Player
Anna Patten              2
Freya Gregory            2
Halle Houssein           2
Jill Scott               2
Viktoria Schnaderbeck    2
Name: Player, dtype: int64

In [18]:
# Removendo apenas as colunas que não vamos precisar
df_players_passing_data.drop(['Rk', 'Nation', 'Pos', 'Age', 'Born', '90s', 'Matches', 'Ast', 'xAG',],axis=1, inplace=True)

In [19]:
""" Ajuste nas colunas

Assim como no outro dataframe, vou precisar fazer os ajustes de tipo de dados.
Já que a base é bem parecida, vou já aplicar o ajuste sem ter que passar por
toda a etapa de identificar o problema.
"""

# Algumas colunas precisam ser renomeadas par não ter problemas de entendimento, sendo assim
# vou ajustar alguns nomes.

df_players_passing_data.columns 
#lista de nomes de coluna

Index(['Player', 'Squad', 'Cmp', 'Att', 'Cmp%', 'TotDist', 'PrgDist', 'Cmp.1',
       'Att.1', 'Cmp%.1', 'Cmp.2', 'Att.2', 'Cmp%.2', 'Cmp.3', 'Att.3',
       'Cmp%.3', 'xA', 'A-xAG', 'KP', '1/3', 'PPA', 'CrsPA', 'PrgP'],
      dtype='object')

In [20]:
nova_coluna = {'Cmp.1':'Short_Cmp','Att.1':'Short_Att', 'Cmp%.1':'Short_Cmp%', 
               'Cmp.2':'Medium_Cmp','Att.2':'Medium_Att', 'Cmp%.2':'Medium_Cmp%',
               'Cmp.3':'Long_Cmp','Att.3':'Long_Att', 'Cmp%.3':'Long_Cmp%'}
# Aqui criei um dicionário para poder renomear as colunas do dataframe. Dessa forma
# consigo renomear apenas quem é necessário

df_players_passing_data.rename(columns = {chave: valor for chave, valor in nova_coluna.items() if chave in df_players_passing_data.columns}, inplace=True, errors = "raise")

In [21]:
""" Como já aprendi com o data frame anterior que os valores são necessários, 
vou aplicar o tratamento de fillna em todo o df para eviter problema
"""

df_players_passing_data.isnull().sum() 
# Só 2 colunas estão ok, fazer o fillna para o df todo vai ser melhor

Player          0
Squad           0
Cmp             1
Att             1
Cmp%            2
TotDist         1
PrgDist         1
Short_Cmp       1
Short_Att       1
Short_Cmp%      5
Medium_Cmp      1
Medium_Att      1
Medium_Cmp%     5
Long_Cmp        1
Long_Att        1
Long_Cmp%      16
xA              1
A-xAG           1
KP              1
1/3             1
PPA             1
CrsPA           1
PrgP            1
dtype: int64

In [22]:
df_players_passing_data.fillna(0, inplace=True)
# Já que nesse data frame o que mais importa são os valores,
# ter todos os NaN como 0 não vão atrapalhar em nada.

In [23]:
""" Atualização do tipo de dados das colunas do data frame.

Mesma etapa do data frame anterior.
"""

intcolumns = ['Cmp', 'Att','TotDist', 'PrgDist', 'Short_Cmp', 'Short_Att', 
              'Medium_Cmp', 'Medium_Att', 'Long_Cmp', 'Long_Att', 'KP', '1/3', 'PPA', 'CrsPA', 'PrgP']
floatcolumns = ['Cmp%','Short_Cmp%', 'Medium_Cmp%', 'Long_Cmp%', 'xA', 'A-xAG']
stringcolumns = ['Player', 'Squad']

for c in intcolumns:
    df_players_passing_data[c] = df_players_passing_data[c].astype('int32')

for c in floatcolumns:
    df_players_passing_data[c] = df_players_passing_data[c].astype('float')

for c in stringcolumns:
    df_players_passing_data[c] = df_players_passing_data[c].astype('string')

df_players_passing_data.describe()

Unnamed: 0,Cmp,Att,Cmp%,TotDist,PrgDist,Short_Cmp,Short_Att,Short_Cmp%,Medium_Cmp,Medium_Att,...,Long_Cmp,Long_Att,Long_Cmp%,xA,A-xAG,KP,1/3,PPA,CrsPA,PrgP
count,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,...,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0
mean,298.389286,417.146429,68.4325,5922.925,2389.196429,104.760714,134.653571,75.634643,147.835714,184.782143,...,41.496429,83.453571,45.183929,0.778214,0.159643,8.121429,26.432143,6.710714,1.839286,32.192857
std,273.03375,355.130866,14.501674,5804.458757,2739.369646,93.059217,114.542184,18.073132,149.376895,173.831766,...,49.289795,95.096921,18.719114,1.031228,0.853149,10.102321,32.500163,8.690119,2.770665,33.819444
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,-2.8,0.0,0.0,0.0,0.0,0.0
25%,83.0,118.25,62.1,1531.0,435.25,30.5,38.0,69.375,37.75,48.5,...,6.75,16.0,36.225,0.1,-0.2,1.0,4.0,0.75,0.0,4.0
50%,223.5,334.0,69.0,4190.5,1255.0,87.0,115.0,77.25,98.0,130.0,...,23.0,48.5,46.75,0.4,0.0,4.0,16.0,4.0,1.0,23.0
75%,439.25,643.25,77.45,8590.5,3686.25,142.25,195.25,84.3,211.75,284.25,...,59.0,123.25,57.1,1.2,0.4,12.0,35.25,10.0,2.25,47.25
max,1685.0,2002.0,100.0,35494.0,17132.0,512.0,596.0,100.0,918.0,1005.0,...,300.0,579.0,100.0,7.3,4.4,72.0,217.0,57.0,16.0,170.0


In [24]:
# Fazendo o merge dos dfs para criar um único df
df_players_wsl_21_22 = pd.merge(df_players_data, df_players_passing_data, on=['Player', 'Squad'])
df_players_wsl_21_22.describe()

Unnamed: 0,Age,MP,Starts,Min,Gls,Ast,G+A,PK,PKatt,CrdY,...,Long_Cmp,Long_Att,Long_Cmp%,xA,A-xAG,KP,1/3,PPA,CrsPA,PrgP
count,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,...,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0,280.0
mean,24.985714,13.492857,10.371429,932.171429,1.321429,0.907143,2.228571,0.067857,0.082143,0.95,...,41.496429,83.453571,45.183929,0.778214,0.159643,8.121429,26.432143,6.710714,1.839286,32.192857
std,4.612568,6.910588,7.30772,626.343321,2.392545,1.506956,3.569771,0.315153,0.354746,1.377364,...,49.289795,95.096921,18.719114,1.031228,0.853149,10.102321,32.500163,8.690119,2.770665,33.819444
min,15.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,-2.8,0.0,0.0,0.0,0.0,0.0
25%,22.0,7.0,4.0,364.0,0.0,0.0,0.0,0.0,0.0,0.0,...,6.75,16.0,36.225,0.1,-0.2,1.0,4.0,0.75,0.0,4.0
50%,25.0,15.5,10.0,926.0,0.0,0.0,1.0,0.0,0.0,0.0,...,23.0,48.5,46.75,0.4,0.0,4.0,16.0,4.0,1.0,23.0
75%,28.0,20.0,17.0,1534.5,2.0,1.0,3.0,0.0,0.0,1.0,...,59.0,123.25,57.1,1.2,0.4,12.0,35.25,10.0,2.25,47.25
max,36.0,22.0,22.0,1980.0,20.0,8.0,24.0,3.0,3.0,9.0,...,300.0,579.0,100.0,7.3,4.4,72.0,217.0,57.0,16.0,170.0


In [25]:
# Exportando df final pra csv para trabalhar as visualizações no Tableau
df_players_wsl_21_22.to_csv('wsl_21_22.csv', index=False)