# Import/load

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_base = pd.read_csv('02-FW.csv')
df_home = pd.read_csv('03-FW-home.csv')
df_stats = pd.read_csv('03-FW-stats.csv')

# head

In [3]:
df_base.head(3).T

Unnamed: 0,0,1,2
ID,106076,29424,193925
Perfil,/ricardo-goulart/profil/spieler/106076,/paulinho/profil/spieler/29424,/romarinho/profil/spieler/193925
Nome,Ricardo Goulart,Paulinho,Romarinho
Posição,Second Striker,Centre-Forward,Centre-Forward
Idade,23,28,23
Valor de Mercado,11000000.0,8500000.0,2000000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/ec-cruzeiro-belo-horizonte/startseite/verein/...,/as-livorno/startseite/verein/1210/saison_id/2014,/corinthians-sao-paulo/startseite/verein/199/s...
Clube Antigo,Cruzeiro,AS Livorno,Corinthians
URL Liga Antiga,/campeonato-brasileiro-serie-a/transfers/wettb...,/serie-b/transfers/wettbewerb/IT2/saison_id/2014,/campeonato-brasileiro-serie-a/transfers/wettb...


In [4]:
df_home.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,106076,29424,193925
nome_hifen,Ricardo-Goulart,Paulinho,Romarinho
pe,right,right,right
data_nasc,"Jun 5, 1991 (33)","Jan 10, 1986 (39)","Dec 12, 1990 (34)"
local_nasc,São Paulo,Caxias do Sul,Palestina
cidadania,"2, Brazil, China","2, Brazil, Italy","2, Brazil, Saudi Arabia"
altura,"1,81 m","1,76 m","1,76 m"
convocacoes,1,12,0
gols_selecao,0,4,0


In [5]:
df_stats.head(3).T

Unnamed: 0,0,1,2
Unnamed: 0,0,1,2
ID,106076,29424,193925
ano_stat,2013,2013,2013
escalado,52,37,39
jogou,50,36,37
ppm,2.0,0.69,1.76
gols_para,20,15,12
assistencias,8,4,1
gols_contra,-,-,-
entrou,3,-,12


# Checagem de tipo

In [6]:
print("df_base:",df_base.shape)
print("df_home:",df_home.shape)
print("df_stats:",df_stats.shape)

df_base: (3029, 17)
df_home: (1017, 10)
df_stats: (2309, 17)


In [7]:
df_base.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
dtype: object

In [8]:
df_home.dtypes

Unnamed: 0       int64
ID               int64
nome_hifen      object
pe              object
data_nasc       object
local_nasc      object
cidadania       object
altura          object
convocacoes      int64
gols_selecao     int64
dtype: object

In [9]:
df_stats.dtypes

Unnamed: 0           int64
ID                   int64
ano_stat             int64
escalado             int64
jogou               object
ppm                float64
gols_para           object
assistencias        object
gols_contra         object
entrou              object
saiu                object
amarelo             object
amarelo_duplo       object
vermelho            object
Gols_de_penalti     object
minutos_por_gol     object
minutos             object
dtype: object

# Descarte de colunas

In [10]:
df_home = df_home.drop(columns=["Unnamed: 0"])
df_home = df_home.drop(columns=["nome_hifen"])


df_stats = df_stats.drop(columns=["Unnamed: 0"])

# Merges

In [11]:
df_merged = df_base.merge(df_home, on="ID", how="inner")
print("df_merged:",df_merged.shape)

df_merged: (3035, 24)


In [12]:
df_merged.sample(3).T

Unnamed: 0,708,914,2969
ID,105466,378710,696655
Perfil,/wesley-pacheco/profil/spieler/105466,/richarlison/profil/spieler/378710,/kibe/profil/spieler/696655
Nome,Wesley Pacheco,Richarlison,Kibe
Posição,Centre-Forward,Centre-Forward,Centre-Forward
Idade,29,20,24
Valor de Mercado,400000.0,2000000.0,150000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/paysandu-sport-club-pa-/startseite/verein/634...,/fluminense-rio-de-janeiro/startseite/verein/2...,/kf-bylis-ballsh/startseite/verein/21234/saiso...
Clube Antigo,Paysandu,Fluminense,FK Bylis
URL Liga Antiga,/campeonato-brasileiro-serie-c/transfers/pokal...,/campeonato-brasileiro-serie-a/transfers/wettb...,/kategoria-superiore/transfers/wettbewerb/ALB1...


In [13]:
# Cria uma nova coluna em df_stats com ano_stat + 1
df_stats["ano_transferencia"] = df_stats["ano_stat"] + 1

# Faz o merge com base em ID e no ano ajustado
df_final = df_merged.merge(
    df_stats,
    left_on=["ID", "Ano da Tranferência"],
    right_on=["ID", "ano_transferencia"],
    how="left"
)

# Remove a coluna temporária "ano_transferencia" se não for mais necessária
df_final = df_final.drop(columns=["ano_transferencia"])
print("df_final:",df_final.shape)

df_final: (3035, 39)


# Limpeza e tipagem

In [14]:
print(df_final.columns)  # Listar todas as colunas para conferir se tudo está certo

Index(['ID', 'Perfil', 'Nome', 'Posição', 'Idade', 'Valor de Mercado',
       'Nacionalidade', 'URL Clube Antigo', 'Clube Antigo', 'URL Liga Antiga',
       'Liga Antiga', 'URL Clube Novo', 'Clube Novo', 'URL Liga Nova',
       'Liga Nova', 'Valor Transferência', 'Ano da Tranferência', 'pe',
       'data_nasc', 'local_nasc', 'cidadania', 'altura', 'convocacoes',
       'gols_selecao', 'ano_stat', 'escalado', 'jogou', 'ppm', 'gols_para',
       'assistencias', 'gols_contra', 'entrou', 'saiu', 'amarelo',
       'amarelo_duplo', 'vermelho', 'Gols_de_penalti', 'minutos_por_gol',
       'minutos'],
      dtype='object')


In [15]:
print(df_final.sample(1).T)  # Ver uma linha aleatória

                                                                    64
ID                                                               15094
Perfil                                    /robert/profil/spieler/15094
Nome                                                            Robert
Posição                                                 Centre-Forward
Idade                                                               35
Valor de Mercado                                              450000.0
Nacionalidade                                                   Brazil
URL Clube Antigo     /esporte-clube-vitoria/startseite/verein/2125/...
Clube Antigo                                                EC Vitória
URL Liga Antiga      /campeonato-brasileiro-serie-a/transfers/wettb...
Liga Antiga                                                    Série A
URL Clube Novo       /parana-clube/startseite/verein/309/saison_id/...
Clube Novo                                                      Paraná
URL Li

In [16]:
print(df_final.isnull().sum())  # Verificar se há valores NaN após o merg

ID                       0
Perfil                   0
Nome                     0
Posição                  0
Idade                    0
Valor de Mercado         0
Nacionalidade            0
URL Clube Antigo         0
Clube Antigo             0
URL Liga Antiga        464
Liga Antiga             23
URL Clube Novo           0
Clube Novo               0
URL Liga Nova          423
Liga Nova                5
Valor Transferência      0
Ano da Tranferência      0
pe                      44
data_nasc                0
local_nasc              68
cidadania                0
altura                  30
convocacoes              0
gols_selecao             0
ano_stat                 0
escalado                 0
jogou                    0
ppm                     38
gols_para                0
assistencias             0
gols_contra              0
entrou                   0
saiu                     0
amarelo                  0
amarelo_duplo            0
vermelho                 0
Gols_de_penalti          0
m

In [17]:
print(df_final.dtypes)

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado       float64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência    float64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                  object
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias            object
gols_contra             object
entrou                  object
saiu    

In [18]:
df_final.head(3).T

Unnamed: 0,0,1,2
ID,106076,106076,106076
Perfil,/ricardo-goulart/profil/spieler/106076,/ricardo-goulart/profil/spieler/106076,/ricardo-goulart/profil/spieler/106076
Nome,Ricardo Goulart,Ricardo Goulart,Ricardo Goulart
Posição,Second Striker,Second Striker,Second Striker
Idade,23,30,31
Valor de Mercado,11000000.0,6000000.0,5000000.0
Nacionalidade,Brazil,Brazil,Brazil
URL Clube Antigo,/ec-cruzeiro-belo-horizonte/startseite/verein/...,/guangzhou-fc/startseite/verein/10948/saison_i...,/fc-santos/startseite/verein/221/saison_id/2022
Clube Antigo,Cruzeiro,GuaZ FC,Santos
URL Liga Antiga,/campeonato-brasileiro-serie-a/transfers/wettb...,/chinese-super-league/transfers/wettbewerb/CSL...,/campeonato-brasileiro-serie-a/transfers/wettb...


In [19]:
#df_final.replace("-", pd.NA, inplace=True)

In [20]:
df_final["altura"] = df_final["altura"].str.replace(" m", "").str.replace(",", ".").astype(float)

In [21]:
# Função para converter valores no formato '1.025'
def convert_minutes(val):
    if isinstance(val, str) and val.endswith("'"):
        # Remover o apóstrofo e multiplicar por 1000
        return int(float(val.replace("'", "")) * 1000)
    return val  # Se não for uma string no formato, retorna o valor original

# Aplicando a função nas colunas 'minutos' e 'minutos_por_gol'
df_final['minutos_por_gol'] = df_final['minutos_por_gol'].apply(convert_minutes)
df_final['minutos'] = df_final['minutos'].apply(convert_minutes)

In [22]:
df_final["Valor de Mercado"] = df_final["Valor de Mercado"].astype("int64")
df_final["Valor Transferência"] = df_final["Valor Transferência"].astype("int64")

In [23]:
df_final.dtypes

ID                       int64
Perfil                  object
Nome                    object
Posição                 object
Idade                    int64
Valor de Mercado         int64
Nacionalidade           object
URL Clube Antigo        object
Clube Antigo            object
URL Liga Antiga         object
Liga Antiga             object
URL Clube Novo          object
Clube Novo              object
URL Liga Nova           object
Liga Nova               object
Valor Transferência      int64
Ano da Tranferência      int64
pe                      object
data_nasc               object
local_nasc              object
cidadania               object
altura                 float64
convocacoes              int64
gols_selecao             int64
ano_stat                 int64
escalado                 int64
jogou                   object
ppm                    float64
gols_para               object
assistencias            object
gols_contra             object
entrou                  object
saiu    

In [24]:
df_final.head(10).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
ID,106076,106076,106076,29424,29424,193925,193925,193925,193925,74249
Perfil,/ricardo-goulart/profil/spieler/106076,/ricardo-goulart/profil/spieler/106076,/ricardo-goulart/profil/spieler/106076,/paulinho/profil/spieler/29424,/paulinho/profil/spieler/29424,/romarinho/profil/spieler/193925,/romarinho/profil/spieler/193925,/romarinho/profil/spieler/193925,/romarinho/profil/spieler/193925,/muriqui/profil/spieler/74249
Nome,Ricardo Goulart,Ricardo Goulart,Ricardo Goulart,Paulinho,Paulinho,Romarinho,Romarinho,Romarinho,Romarinho,Muriqui
Posição,Second Striker,Second Striker,Second Striker,Centre-Forward,Centre-Forward,Centre-Forward,Centre-Forward,Centre-Forward,Centre-Forward,Left Winger
Idade,23,30,31,28,31,23,26,27,33,28
Valor de Mercado,11000000,6000000,5000000,8500000,2500000,2000000,4000000,4000000,2500000,3500000
Nacionalidade,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil,Brazil
URL Clube Antigo,/ec-cruzeiro-belo-horizonte/startseite/verein/...,/guangzhou-fc/startseite/verein/10948/saison_i...,/fc-santos/startseite/verein/221/saison_id/2022,/as-livorno/startseite/verein/1210/saison_id/2014,/al-arabi-sc/startseite/verein/1230/saison_id/...,/corinthians-sao-paulo/startseite/verein/199/s...,/el-jaish-sports-club/startseite/verein/33288/...,/al-jazira-abu-dhabi-/startseite/verein/2524/s...,/al-ittihad-dschidda/startseite/verein/8023/sa...,/guangzhou-fc/startseite/verein/10948/saison_i...
Clube Antigo,Cruzeiro,GuaZ FC,Santos,AS Livorno,Al-Arabi SC,Corinthians,El-Jaish,Al-Jazira,Al-Ittihad,GZ Evergrande
URL Liga Antiga,/campeonato-brasileiro-serie-a/transfers/wettb...,/chinese-super-league/transfers/wettbewerb/CSL...,/campeonato-brasileiro-serie-a/transfers/wettb...,/serie-b/transfers/wettbewerb/IT2/saison_id/2014,/qatar-stars-league/transfers/wettbewerb/QSL/s...,/campeonato-brasileiro-serie-a/transfers/wettb...,,/uae-arabian-gulf-league/transfers/wettbewerb/...,/saudi-professional-league/transfers/wettbewer...,/chinese-super-league/transfers/wettbewerb/CSL...


In [25]:
# Substituir '-' por NaN
cols_to_clean = [
    "jogou", "gols_para", "assistencias", "gols_contra", 
    "entrou", "saiu", "amarelo", "amarelo_duplo", 
    "vermelho", "Gols_de_penalti", "minutos_por_gol", "minutos"
]

df_final[cols_to_clean] = df_final[cols_to_clean].replace('-', pd.NA)
# Convertemos para inteiros, substituindo NaN por 0 (se necessário)
#df_final[cols_to_clean] = df_final[cols_to_clean].fillna(0).astype("int64")


In [26]:
df_final.shape

(3035, 39)

In [27]:
num_duplicatas = df_final.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicatas}")

Número de linhas duplicadas: 384


In [28]:
df_final['minutos_por_gol'] = df_final['minutos_por_gol'].apply(lambda x: str(x)[:-3] if str(x).endswith('000') else x)
df_final['minutos'] = df_final['minutos'].apply(lambda x: str(x)[:-3] if str(x).endswith('000') else x)

In [29]:
df_final=df_final.drop_duplicates()
df_final.to_csv('04-FW.csv', index=True)

In [30]:
df_final.shape

(2651, 39)