# Import/load

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_base = pd.read_csv('02-GK.csv')
df_home = pd.read_csv('03-GK-home.csv')
df_stats = pd.read_csv('03-GK-stats.csv')

# head

In [3]:
df_base.head(3).T

Unnamed: 0,0,1,2
ID,177547,75071,22412
Perfil,/matheus/profil/spieler/177547,/aranha/profil/spieler/75071,/julio-cesar/profil/spieler/22412
Nome,Matheus,Aranha,Júlio César
Posição,Goalkeeper,Goalkeeper,Goalkeeper
Idade,22,34,34
Valor de Mercado,0.0,2000000.0,1500000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/america-futebol-clube-mg-/startseite/verein/2...,/fc-santos/startseite/verein/221/saison_id/2014,/queens-park-rangers/startseite/verein/1039/sa...
Clube Antigo,América-MG,Santos,QPR
URL Liga Antiga,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-a/transfers/wettb...,/premier-league/transfers/wettbewerb/GB1/saiso...


In [4]:
df_home.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,177547,75071,22412
nome_hifen,Matheus,Aranha,Julio-Cesar
pe,right,left,left
data_nasc,"Mar 29, 1992 (32)","Nov 17, 1980 (44)","Sep 3, 1979 (45)"
local_nasc,Belo Horizonte,Pouso Alegre,Duque de Caxias
cidadania,"2, Brazil, Portugal","1, Brazil","1, Brazil"
altura,"1,90 m","1,93 m","1,86 m"
convocacoes,0,0,87
gols_selecao,0,0,0


In [5]:
df_stats.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,177547,75071,22412
ano_stat,2013,2013,2013
escalado,26,58,9
jogou,26,58,8
ppm,1.54,1.71,1.13
gols_para,-,-,-
assistencias,0,0,0
gols_contra,-,-,-
entrou,-,-,-


# Checagem de tipo

In [6]:
print("df_base:",df_base.shape)
print("df_home:",df_home.shape)
print("df_stats:",df_stats.shape)

df_base: (264, 17)
df_home: (150, 10)
df_stats: (253, 17)


In [7]:
df_base.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
dtype: object

In [8]:
df_home.dtypes

Unnamed: 0       int64
ID               int64
nome_hifen      object
pe              object
data_nasc       object
local_nasc      object
cidadania       object
altura          object
convocacoes      int64
gols_selecao     int64
dtype: object

In [9]:
df_stats.dtypes

Unnamed: 0           int64
ID                   int64
ano_stat             int64
escalado             int64
jogou               object
ppm                float64
gols_para           object
assistencias         int64
gols_contra         object
entrou              object
saiu                object
amarelo             object
amarelo_duplo       object
vermelho            object
Gols_de_penalti     object
minutos_por_gol     object
minutos             object
dtype: object

# Descarte de colunas

In [10]:
df_home = df_home.drop(columns=["Unnamed: 0"])
df_home = df_home.drop(columns=["nome_hifen"])


df_stats = df_stats.drop(columns=["Unnamed: 0"])

# Merges

In [11]:
df_merged = df_base.merge(df_home, on="ID", how="inner")
print("df_merged:",df_merged.shape)

df_merged: (264, 24)


In [12]:
df_merged.sample(3).T

Unnamed: 0,68,253,94
ID,105470,384159,374094
Perfil,/alisson/profil/spieler/105470,/caique/profil/spieler/384159,/douglas-friedrich/profil/spieler/374094
Nome,Alisson,Caíque,Douglas Friedrich
Posição,Goalkeeper,Goalkeeper,Goalkeeper
Idade,25,26,34
Valor de Mercado,60000000.0,0.0,275000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/as-rom/startseite/verein/12/saison_id/2018,/ypiranga-futebol-clube-rs-/startseite/verein/...,/al-khaleej/startseite/verein/6070/saison_id/2023
Clube Antigo,AS Roma,Ypiranga-RS,Al-Khaleej
URL Liga Antiga,/serie-a/transfers/wettbewerb/IT1/saison_id/2018,/campeonato-brasileiro-serie-c/transfers/pokal...,/saudi-professional-league/transfers/wettbewer...


In [13]:
# Cria uma nova coluna em df_stats com ano_stat + 1
df_stats["ano_transferencia"] = df_stats["ano_stat"] + 1

# Faz o merge com base em ID e no ano ajustado
df_final = df_merged.merge(
    df_stats,
    left_on=["ID", "Ano da Tranferência"],
    right_on=["ID", "ano_transferencia"],
    how="left"
)

# Remove a coluna temporária "ano_transferencia" se não for mais necessária
df_final = df_final.drop(columns=["ano_transferencia"])
print("df_final:",df_final.shape)

df_final: (264, 39)


# Limpeza e tipagem

In [14]:
print(df_final.columns)  # Listar todas as colunas para conferir se tudo está certo

Index(['ID', 'Perfil', 'Nome', 'Posição', 'Idade', 'Valor de Mercado',
       'Nacionalidade', 'URL Clube Antigo', 'Clube Antigo', 'URL Liga Antiga',
       'Liga Antiga', 'URL Clube Novo', 'Clube Novo', 'URL Liga Nova',
       'Liga Nova', 'Valor Transferência', 'Ano da Tranferência', 'pe',
       'data_nasc', 'local_nasc', 'cidadania', 'altura', 'convocacoes',
       'gols_selecao', 'ano_stat', 'escalado', 'jogou', 'ppm', 'gols_para',
       'assistencias', 'gols_contra', 'entrou', 'saiu', 'amarelo',
       'amarelo_duplo', 'vermelho', 'Gols_de_penalti', 'minutos_por_gol',
       'minutos'],
      dtype='object')


In [15]:
print(df_final.sample(1).T)  # Ver uma linha aleatória

                                                                   231
ID                                                              258369
Perfil                                 /georgemy/profil/spieler/258369
Nome                                                          Georgemy
Posição                                                     Goalkeeper
Idade                                                               29
Valor de Mercado                                              300000.0
Nacionalidade                                                   Brazil
URL Clube Antigo     /brusque-futebol-clube-sc-/startseite/verein/1...
Clube Antigo                                                   Brusque
URL Liga Antiga                                                    NaN
Liga Antiga                                                     Brazil
URL Clube Novo       /centro-sportivo-alagoano-al-/startseite/verei...
Clube Novo                                                         CSA
URL Li

In [16]:
print(df_final.isnull().sum())  # Verificar se há valores NaN após o merg

ID                      0
Perfil                  0
Nome                    0
Posição                 0
Idade                   0
Valor de Mercado        0
Nacionalidade           0
URL Clube Antigo        0
Clube Antigo            0
URL Liga Antiga        27
Liga Antiga             1
URL Clube Novo          0
Clube Novo              0
URL Liga Nova          23
Liga Nova               0
Valor Transferência     0
Ano da Tranferência     0
pe                      3
data_nasc               0
local_nasc              1
cidadania               0
altura                  2
convocacoes             0
gols_selecao            0
ano_stat                0
escalado                0
jogou                   0
ppm                    23
gols_para               0
assistencias            0
gols_contra             0
entrou                  0
saiu                    0
amarelo                 0
amarelo_duplo           0
vermelho                0
Gols_de_penalti         0
minutos_por_gol         0
minutos     

In [17]:
print(df_final.dtypes)

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                  object
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias             int64
gols_contra             object
entrou                  object
saiu    

In [18]:
df_final.head(3).T

Unnamed: 0,0,1,2
ID,177547,75071,75071
Perfil,/matheus/profil/spieler/177547,/aranha/profil/spieler/75071,/aranha/profil/spieler/75071
Nome,Matheus,Aranha,Aranha
Posição,Goalkeeper,Goalkeeper,Goalkeeper
Idade,22,34,35
Valor de Mercado,0.0,2000000.0,450000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/america-futebol-clube-mg-/startseite/verein/2...,/fc-santos/startseite/verein/221/saison_id/2014,/joinville-ec-sc-/startseite/verein/3330/saiso...
Clube Antigo,América-MG,Santos,Joinville-SC
URL Liga Antiga,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-a/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...


In [19]:
#df_final.replace("-", pd.NA, inplace=True)

In [20]:
df_final["altura"] = df_final["altura"].str.replace(" m", "").str.replace(",", ".").astype(float)

In [21]:
# Função para converter valores no formato '1.025'
def convert_minutes(val):
    if isinstance(val, str) and val.endswith("'"):
        # Remover o apóstrofo e multiplicar por 1000
        return int(float(val.replace("'", "")) * 1000)
    return val  # Se não for uma string no formato, retorna o valor original

# Aplicando a função nas colunas 'minutos' e 'minutos_por_gol'
df_final['minutos_por_gol'] = df_final['minutos_por_gol'].apply(convert_minutes)
df_final['minutos'] = df_final['minutos'].apply(convert_minutes)

In [22]:
df_final["Valor de Mercado"] = df_final["Valor de Mercado"].astype("int64")
df_final["Valor Transferência"] = df_final["Valor Transferência"].astype("int64")

In [23]:
df_final.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado         int64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência      int64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                 float64
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias             int64
gols_contra             object
entrou                  object
saiu    

In [24]:
df_final.head(6).T

Unnamed: 0,0,1,2,3,4,5
ID,177547,75071,75071,75071,22412,19059
Perfil,/matheus/profil/spieler/177547,/aranha/profil/spieler/75071,/aranha/profil/spieler/75071,/aranha/profil/spieler/75071,/julio-cesar/profil/spieler/22412,/heurelho-gomes/profil/spieler/19059
Nome,Matheus,Aranha,Aranha,Aranha,Júlio César,Heurelho Gomes
Posição,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper
Idade,22,34,35,37,34,33
Valor de Mercado,0,2000000,450000,600000,1500000,1000000
Nacionalidade,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil
URL Clube Antigo,/america-futebol-clube-mg-/startseite/verein/2...,/fc-santos/startseite/verein/221/saison_id/2014,/joinville-ec-sc-/startseite/verein/3330/saiso...,/aa-ponte-preta/startseite/verein/1134/saison_...,/queens-park-rangers/startseite/verein/1039/sa...,/tottenham-hotspur/startseite/verein/148/saiso...
Clube Antigo,América-MG,Santos,Joinville-SC,Ponte Preta,QPR,Tottenham
URL Liga Antiga,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-a/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...,/premier-league/transfers/wettbewerb/GB1/saiso...,/premier-league/transfers/wettbewerb/GB1/saiso...


In [25]:
# Substituir '-' por NaN
cols_to_clean = [
    "jogou", "gols_para", "assistencias", "gols_contra", 
    "entrou", "saiu", "amarelo", "amarelo_duplo", 
    "vermelho", "Gols_de_penalti", "minutos_por_gol", "minutos"
]

df_final[cols_to_clean] = df_final[cols_to_clean].replace('-', pd.NA)
# Convertemos para inteiros, substituindo NaN por 0 (se necessário)
#df_final[cols_to_clean] = df_final[cols_to_clean].fillna(0).astype("int64")


In [26]:
df_final.shape

(264, 39)

In [27]:
num_duplicatas = df_final.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicatas}")

Número de linhas duplicadas: 0


In [28]:
df_final.head(6).T

Unnamed: 0,0,1,2,3,4,5
ID,177547,75071,75071,75071,22412,19059
Perfil,/matheus/profil/spieler/177547,/aranha/profil/spieler/75071,/aranha/profil/spieler/75071,/aranha/profil/spieler/75071,/julio-cesar/profil/spieler/22412,/heurelho-gomes/profil/spieler/19059
Nome,Matheus,Aranha,Aranha,Aranha,Júlio César,Heurelho Gomes
Posição,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper,Goalkeeper
Idade,22,34,35,37,34,33
Valor de Mercado,0,2000000,450000,600000,1500000,1000000
Nacionalidade,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil
URL Clube Antigo,/america-futebol-clube-mg-/startseite/verein/2...,/fc-santos/startseite/verein/221/saison_id/2014,/joinville-ec-sc-/startseite/verein/3330/saiso...,/aa-ponte-preta/startseite/verein/1134/saison_...,/queens-park-rangers/startseite/verein/1039/sa...,/tottenham-hotspur/startseite/verein/148/saiso...
Clube Antigo,América-MG,Santos,Joinville-SC,Ponte Preta,QPR,Tottenham
URL Liga Antiga,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-a/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...,/premier-league/transfers/wettbewerb/GB1/saiso...,/premier-league/transfers/wettbewerb/GB1/saiso...


In [29]:
df_final['minutos'] = df_final['minutos'].apply(lambda x: str(x)[:-3] if str(x).endswith('000') else x)

# Renomear Colunas

In [30]:
# Renomeando as colunas
df_final.rename(columns={
    'Gols_de_penalti': 'gols_sofridos',
    'minutos_por_gol': 'clean_sheets'
}, inplace=True)

# Verificando se a renomeação foi realizada com sucesso
print(df_final.columns)

Index(['ID', 'Perfil', 'Nome', 'Posição', 'Idade', 'Valor de Mercado',
       'Nacionalidade', 'URL Clube Antigo', 'Clube Antigo', 'URL Liga Antiga',
       'Liga Antiga', 'URL Clube Novo', 'Clube Novo', 'URL Liga Nova',
       'Liga Nova', 'Valor Transferência', 'Ano da Tranferência', 'pe',
       'data_nasc', 'local_nasc', 'cidadania', 'altura', 'convocacoes',
       'gols_selecao', 'ano_stat', 'escalado', 'jogou', 'ppm', 'gols_para',
       'assistencias', 'gols_contra', 'entrou', 'saiu', 'amarelo',
       'amarelo_duplo', 'vermelho', 'gols_sofridos', 'clean_sheets',
       'minutos'],
      dtype='object')


# Salvo

In [31]:
df_final=df_final.drop_duplicates()
df_final.to_csv('04-GK.csv', index=True)

In [32]:
df_final.shape

(264, 39)

In [33]:
df_final.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado         int64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência      int64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                 float64
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias             int64
gols_contra             object
entrou                  object
saiu    