# Import/load

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_base = pd.read_csv('02-DF.csv')
df_home = pd.read_csv('03-DF-home.csv')
df_stats = pd.read_csv('03-DF-stats.csv')

# head

In [3]:
df_base.head(3).T

Unnamed: 0,0,1,2
ID,46741,21725,149498
Perfil,/david-luiz/profil/spieler/46741,/filipe-luis/profil/spieler/21725,/gabriel-paulista/profil/spieler/149498
Nome,David Luiz,Filipe Luís,Gabriel Paulista
Posição,Centre-Back,Left-Back,Centre-Back
Idade,27,28,24
Valor de Mercado,26000000.0,15000000.0,8000000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/fc-chelsea/startseite/verein/631/saison_id/2014,/atletico-madrid/startseite/verein/13/saison_i...,/fc-villarreal/startseite/verein/1050/saison_i...
Clube Antigo,Chelsea,Atlético Madrid,Villarreal
URL Liga Antiga,/premier-league/transfers/wettbewerb/GB1/saiso...,/laliga/transfers/wettbewerb/ES1/saison_id/2014,/laliga/transfers/wettbewerb/ES1/saison_id/2014


In [4]:
df_home.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,46741,21725,149498
nome_hifen,David-Luiz,Filipe-Luis,Gabriel-Paulista
pe,right,left,right
data_nasc,"Apr 22, 1987 (37)","Aug 9, 1985 (39)","Nov 26, 1990 (34)"
local_nasc,Diadema,Jaraguá do Sul,São Paulo
cidadania,"2, Brazil, Portugal","2, Brazil, Poland","3, Brazil, Spain, Türkiye"
altura,"1,89 m","1,82 m","1,85 m"
convocacoes,57,44,0
gols_selecao,3,2,0


In [5]:
df_stats.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,46741,21725,149498
ano_stat,2013,2013,2013
escalado,42,50,32
jogou,34,49,21
ppm,1.91,2.35,1.48
gols_para,-,1,-
assistencias,3,6,-
gols_contra,1,1,1
entrou,5,-,1


# Checagem de tipo

In [6]:
print("df_base:",df_base.shape)
print("df_home:",df_home.shape)
print("df_stats:",df_stats.shape)

df_base: (2068, 17)
df_home: (836, 10)
df_stats: (1711, 17)


In [7]:
df_base.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
dtype: object

In [8]:
df_home.dtypes

Unnamed: 0       int64
ID               int64
nome_hifen      object
pe              object
data_nasc       object
local_nasc      object
cidadania       object
altura          object
convocacoes      int64
gols_selecao     int64
dtype: object

In [9]:
df_stats.dtypes

Unnamed: 0           int64
ID                   int64
ano_stat             int64
escalado             int64
jogou               object
ppm                float64
gols_para           object
assistencias        object
gols_contra         object
entrou              object
saiu                object
amarelo             object
amarelo_duplo       object
vermelho            object
Gols_de_penalti     object
minutos_por_gol     object
minutos             object
dtype: object

# Descarte de colunas

In [10]:
df_home = df_home.drop(columns=["Unnamed: 0"])
df_home = df_home.drop(columns=["nome_hifen"])


df_stats = df_stats.drop(columns=["Unnamed: 0"])

# Merges

In [11]:
df_merged = df_base.merge(df_home, on="ID", how="inner")
print("df_merged:",df_merged.shape)

df_merged: (2068, 24)


In [12]:
df_merged.sample(3).T

Unnamed: 0,1927,1011,590
ID,552236,341710,193135
Perfil,/leo-santos/profil/spieler/552236,/william/profil/spieler/341710,/jackson/profil/spieler/193135
Nome,Léo Santos,William,Jackson
Posição,Centre-Back,Right-Back,Centre-Back
Idade,28,22,31
Valor de Mercado,350000.0,2750000.0,500000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/ituano-futebol-clube-sp-/startseite/verein/47...,/sc-internacional-porto-alegre/startseite/vere...,/fortaleza-esporte-clube/startseite/verein/108...
Clube Antigo,Ituano,Internacional,Fortaleza
URL Liga Antiga,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-b/transfers/wettb...,/campeonato-brasileiro-serie-a/transfers/wettb...


In [13]:
# Cria uma nova coluna em df_stats com ano_stat + 1
df_stats["ano_transferencia"] = df_stats["ano_stat"] + 1

# Faz o merge com base em ID e no ano ajustado
df_final = df_merged.merge(
    df_stats,
    left_on=["ID", "Ano da Tranferência"],
    right_on=["ID", "ano_transferencia"],
    how="left"
)

# Remove a coluna temporária "ano_transferencia" se não for mais necessária
df_final = df_final.drop(columns=["ano_transferencia"])
print("df_final:",df_final.shape)

df_final: (2068, 39)


# Limpeza e tipagem

In [14]:
print(df_final.columns)  # Listar todas as colunas para conferir se tudo está certo

Index(['ID', 'Perfil', 'Nome', 'Posição', 'Idade', 'Valor de Mercado',
       'Nacionalidade', 'URL Clube Antigo', 'Clube Antigo', 'URL Liga Antiga',
       'Liga Antiga', 'URL Clube Novo', 'Clube Novo', 'URL Liga Nova',
       'Liga Nova', 'Valor Transferência', 'Ano da Tranferência', 'pe',
       'data_nasc', 'local_nasc', 'cidadania', 'altura', 'convocacoes',
       'gols_selecao', 'ano_stat', 'escalado', 'jogou', 'ppm', 'gols_para',
       'assistencias', 'gols_contra', 'entrou', 'saiu', 'amarelo',
       'amarelo_duplo', 'vermelho', 'Gols_de_penalti', 'minutos_por_gol',
       'minutos'],
      dtype='object')


In [15]:
print(df_final.sample(1).T)  # Ver uma linha aleatória

                                                                  1146
ID                                                              116084
Perfil                                  /juninho/profil/spieler/116084
Nome                                                           Juninho
Posição                                                      Left-Back
Idade                                                               27
Valor de Mercado                                             1300000.0
Nacionalidade                                                   Brazil
URL Clube Antigo     /fk-aktobe/startseite/verein/10157/saison_id/2017
Clube Antigo                                                    Aktobe
URL Liga Antiga      /premier-liga/transfers/wettbewerb/KAS1/saison...
Liga Antiga                                               Premier Liga
URL Clube Novo       /esporte-clube-vitoria/startseite/verein/2125/...
Clube Novo                                                  EC Vitória
URL Li

In [16]:
print(df_final.isnull().sum())  # Verificar se há valores NaN após o merg

ID                       0
Perfil                   0
Nome                     0
Posição                  0
Idade                    0
Valor de Mercado         0
Nacionalidade            0
URL Clube Antigo         0
Clube Antigo             0
URL Liga Antiga        277
Liga Antiga             16
URL Clube Novo           0
Clube Novo               0
URL Liga Nova          201
Liga Nova                7
Valor Transferência      0
Ano da Tranferência      0
pe                      22
data_nasc                0
local_nasc              25
cidadania                0
altura                  14
convocacoes              0
gols_selecao             0
ano_stat                 0
escalado                 0
jogou                    0
ppm                     53
gols_para                0
assistencias             0
gols_contra              0
entrou                   0
saiu                     0
amarelo                  0
amarelo_duplo            0
vermelho                 0
Gols_de_penalti          0
m

In [17]:
print(df_final.dtypes)

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                  object
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias            object
gols_contra             object
entrou                  object
saiu    

In [18]:
df_final.head(3).T

Unnamed: 0,0,1,2
ID,46741,46741,46741
Perfil,/david-luiz/profil/spieler/46741,/david-luiz/profil/spieler/46741,/david-luiz/profil/spieler/46741
Nome,David Luiz,David Luiz,David Luiz
Posição,Centre-Back,Centre-Back,Centre-Back
Idade,27,29,32
Valor de Mercado,26000000.0,28000000.0,20000000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/fc-chelsea/startseite/verein/631/saison_id/2014,/fc-paris-saint-germain/startseite/verein/583/...,/fc-chelsea/startseite/verein/631/saison_id/2019
Clube Antigo,Chelsea,Paris SG,Chelsea
URL Liga Antiga,/premier-league/transfers/wettbewerb/GB1/saiso...,/ligue-1/transfers/wettbewerb/FR1/saison_id/2016,/premier-league/transfers/wettbewerb/GB1/saiso...


In [19]:
#df_final.replace("-", pd.NA, inplace=True)

In [20]:
df_final["altura"] = df_final["altura"].str.replace(" m", "").str.replace(",", ".").astype(float)

In [21]:
# Função para converter valores no formato '1.025'
def convert_minutes(val):
    if isinstance(val, str) and val.endswith("'"):
        # Remover o apóstrofo e multiplicar por 1000
        return int(float(val.replace("'", "")) * 1000)
    return val  # Se não for uma string no formato, retorna o valor original

# Aplicando a função nas colunas 'minutos' e 'minutos_por_gol'
df_final['minutos_por_gol'] = df_final['minutos_por_gol'].apply(convert_minutes)
df_final['minutos'] = df_final['minutos'].apply(convert_minutes)

In [22]:
df_final["Valor de Mercado"] = df_final["Valor de Mercado"].astype("int64")
df_final["Valor Transferência"] = df_final["Valor Transferência"].astype("int64")

In [23]:
df_final.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado         int64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência      int64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                 float64
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias            object
gols_contra             object
entrou                  object
saiu    

In [24]:
df_final.head(10).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
ID,46741,46741,46741,46741,21725,21725,21725,149498,149498,149498
Perfil,/david-luiz/profil/spieler/46741,/david-luiz/profil/spieler/46741,/david-luiz/profil/spieler/46741,/david-luiz/profil/spieler/46741,/filipe-luis/profil/spieler/21725,/filipe-luis/profil/spieler/21725,/filipe-luis/profil/spieler/21725,/gabriel-paulista/profil/spieler/149498,/gabriel-paulista/profil/spieler/149498,/gabriel-paulista/profil/spieler/149498
Nome,David Luiz,David Luiz,David Luiz,David Luiz,Filipe Luís,Filipe Luís,Filipe Luís,Gabriel Paulista,Gabriel Paulista,Gabriel Paulista
Posição,Centre-Back,Centre-Back,Centre-Back,Centre-Back,Left-Back,Left-Back,Left-Back,Centre-Back,Centre-Back,Centre-Back
Idade,27,29,32,34,28,29,33,24,26,33
Valor de Mercado,26000000,28000000,20000000,4000000,15000000,15000000,3000000,8000000,13000000,2500000
Nacionalidade,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil
URL Clube Antigo,/fc-chelsea/startseite/verein/631/saison_id/2014,/fc-paris-saint-germain/startseite/verein/583/...,/fc-chelsea/startseite/verein/631/saison_id/2019,/fc-arsenal/startseite/verein/11/saison_id/2021,/atletico-madrid/startseite/verein/13/saison_i...,/fc-chelsea/startseite/verein/631/saison_id/2015,/atletico-madrid/startseite/verein/13/saison_i...,/fc-villarreal/startseite/verein/1050/saison_i...,/fc-arsenal/startseite/verein/11/saison_id/2017,/fc-valencia/startseite/verein/1049/saison_id/...
Clube Antigo,Chelsea,Paris SG,Chelsea,Arsenal,Atlético Madrid,Chelsea,Atlético Madrid,Villarreal,Arsenal,Valencia
URL Liga Antiga,/premier-league/transfers/wettbewerb/GB1/saiso...,/ligue-1/transfers/wettbewerb/FR1/saison_id/2016,/premier-league/transfers/wettbewerb/GB1/saiso...,/premier-league/transfers/wettbewerb/GB1/saiso...,/laliga/transfers/wettbewerb/ES1/saison_id/2014,/premier-league/transfers/wettbewerb/GB1/saiso...,/laliga/transfers/wettbewerb/ES1/saison_id/2019,/laliga/transfers/wettbewerb/ES1/saison_id/2014,/premier-league/transfers/wettbewerb/GB1/saiso...,/laliga/transfers/wettbewerb/ES1/saison_id/2023


In [25]:
# Substituir '-' por NaN
cols_to_clean = [
    "jogou", "gols_para", "assistencias", "gols_contra", 
    "entrou", "saiu", "amarelo", "amarelo_duplo", 
    "vermelho", "Gols_de_penalti", "minutos_por_gol", "minutos"
]

df_final[cols_to_clean] = df_final[cols_to_clean].replace('-', pd.NA)
# Convertemos para inteiros, substituindo NaN por 0 (se necessário)
#df_final[cols_to_clean] = df_final[cols_to_clean].astype("int64")


In [26]:
df_final.shape

(2068, 39)

In [27]:
num_duplicatas = df_final.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicatas}")

Número de linhas duplicadas: 174


In [28]:
df_final['minutos_por_gol'] = df_final['minutos_por_gol'].apply(lambda x: str(x)[:-3] if str(x).endswith('000') else x)
df_final['minutos'] = df_final['minutos'].apply(lambda x: str(x)[:-3] if str(x).endswith('000') else x)

In [29]:
df_final=df_final.drop_duplicates()
df_final.to_csv('04-DF.csv', index=True)

In [30]:
df_final.shape

(1894, 39)