In [2]:
import pandas as pd
import glob

# Encontrar todos os ficheiros CSV que começam com "goalkeeping", "miscellaneous", "overall", etc.
# Esta é uma forma flexível de adicionar mais ficheiros no futuro.
file_paths = glob.glob('*.csv')

# Lista para armazenar os DataFrames individuais
lista_de_dataframes = []

# Carregar cada ficheiro, definir 'Equipa' como índice e adicionar à lista
for path in file_paths:
    df = pd.read_csv(path)
    if 'Equipa' in df.columns:
        df = df.set_index('Equipa')
        lista_de_dataframes.append(df)

# Concatenar todos os DataFrames da lista ao longo do eixo das colunas (axis=1)
# Isto irá juntar os dataframes lado a lado, alinhados pelo índice ('Equipa')
dataset_completo = pd.concat(lista_de_dataframes, axis=1)

# Remover colunas duplicadas, mantendo a primeira ocorrência
dataset_completo = dataset_completo.loc[:, ~dataset_completo.columns.duplicated()]

# Opcional: Resetar o índice se quiser que 'Equipa' volte a ser uma coluna normal
dataset_completo = dataset_completo.reset_index()

# Opcional: Guardar o dataset final num novo ficheiro CSV
dataset_completo.to_csv('dataset_completo_2024-2025.csv', index=False)

# Mostrar as primeiras linhas e as informações do dataset final para verificação
print("Pré-visualização do Dataset Combinado:")
print(dataset_completo.head())
print("\nInformações do Dataset Combinado:")
dataset_completo.info()

Pré-visualização do Dataset Combinado:
        Equipa  Desarmes  Intercecoes  Bloqueamentos  Desarmes+Intercecoes  \
0       Arouca       552          297            376                   849   
1  AVS Futebol       565          303            390                   868   
2      Benfica       625          311            316                   936   
3     Boavista       565          313            336                   878   
4        Braga       571          280            333                   851   

   Alivios  GolosSofridos  JogosSemSofrerGolos  %DeJogosSemSofrerGolos  \
0      852             49                    8                    23.5   
1      929             60                    8                    23.5   
2      493             28                   15                    44.1   
3      843             59                    7                    20.6   
4      795             30                   15                    44.1   

   %DeDefesas  ...  RematesÀBaliza  %DeRematesÀ

In [3]:
import pandas as pd

# Carregar o dataset previamente combinado
try:
    df = pd.read_csv('dataset_completo_2024-2025.csv')
except FileNotFoundError:
    print("O ficheiro 'dataset_completo_2024-2025.csv' não foi encontrado.")
    print("Por favor, execute primeiro o script anterior para gerar este ficheiro.")
    exit()


# Lista de colunas a serem removidas
# Escolhemos manter a versão mais descritiva ou corretamente acentuada
colunas_para_remover = [
    'Golos',                 # Redundante com 'GolosMarcados'
    'Assistencias',          # Redundante com 'Assistências'
    'ConducoesProgressivas', # Redundante com 'ConduçõesProgressivas'
    'Golos+Assistências'     # Coluna derivada (soma de outras duas)
]

# Verificar quais das colunas a remover realmente existem no DataFrame antes de tentar removê-las
colunas_existentes_para_remover = [col for col in colunas_para_remover if col in df.columns]

if colunas_existentes_para_remover:
    # Remover as colunas identificadas
    df_limpo = df.drop(columns=colunas_existentes_para_remover)
    print(f"Colunas removidas: {colunas_existentes_para_remover}")
else:
    df_limpo = df
    print("Nenhuma coluna redundante para remover foi encontrada.")


# Opcional: Renomear colunas para consistência, se desejado (exemplo)
# df_limpo = df_limpo.rename(columns={'Assistências': 'TotalDeAssistencias'})


# Guardar o novo dataset final e limpo
df_limpo.to_csv('dataset_final_limpo_2024-2025.csv', index=False)


# Mostrar as informações do dataset final para confirmar que as colunas foram removidas
print("\nInformações do Dataset Final Limpo:")
df_limpo.info()

print("\nPré-visualização do Dataset Final Limpo:")
print(df_limpo.head())

Colunas removidas: ['Golos', 'Assistencias', 'ConducoesProgressivas', 'Golos+Assistências']

Informações do Dataset Final Limpo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 51 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Equipa                                18 non-null     object 
 1   Desarmes                              18 non-null     int64  
 2   Intercecoes                           18 non-null     int64  
 3   Bloqueamentos                         18 non-null     int64  
 4   Desarmes+Intercecoes                  18 non-null     int64  
 5   Alivios                               18 non-null     int64  
 6   GolosSofridos                         18 non-null     int64  
 7   JogosSemSofrerGolos                   18 non-null     int64  
 8   %DeJogosSemSofrerGolos                18 non-null     float64
 9   %DeDefesas                

In [4]:
df

Unnamed: 0,Equipa,Desarmes,Intercecoes,Bloqueamentos,Desarmes+Intercecoes,Alivios,GolosSofridos,JogosSemSofrerGolos,%DeJogosSemSofrerGolos,%DeDefesas,...,RematesÀBaliza,%DeRematesÀBaliza,GolosEsperadosSemPenáltis,Assistências,Golos+Assistências,ConduçõesProgressivas,SaldoDeGolos+/-,SaldoDeGolos+/-Por90minutos,SaldoDeGolosEsperados+/-,SaldoDeGolosEsperados+/-Por90minutos
0,Arouca,552,297,376,849,852,49,8,23.5,71.4,...,119,30.5,33.5,18,52,418,-14,-0.41,-6.0,-0.18
1,AVS Futebol,565,303,390,868,929,60,8,23.5,67.4,...,87,25.5,27.7,17,42,388,-35,-1.03,-23.3,-0.68
2,Benfica,625,311,316,936,493,28,15,44.1,75.5,...,213,38.1,69.7,58,139,684,56,1.65,49.5,1.46
3,Boavista,565,313,336,878,843,59,7,20.6,69.4,...,102,29.6,26.9,8,31,264,-35,-1.03,-24.0,-0.71
4,Braga,571,280,333,851,795,30,15,44.1,78.0,...,155,33.8,46.5,40,94,602,25,0.74,17.1,0.5
5,Casa Pia,497,297,364,794,907,44,7,20.6,77.3,...,98,31.2,30.2,26,62,397,-5,-0.15,-11.8,-0.35
6,Estoril,530,324,331,854,901,53,7,20.6,69.5,...,112,34.1,34.9,28,75,403,-5,-0.15,-16.9,-0.5
7,Estrela,613,306,388,919,969,50,7,20.6,69.8,...,89,27.2,26.3,16,39,354,-26,-0.76,-16.3,-0.48
8,Famalicão,560,296,323,856,800,39,13,38.2,74.6,...,124,32.5,34.4,29,72,437,5,0.15,-3.9,-0.12
9,Farense,589,327,390,916,992,46,7,20.6,72.8,...,114,29.7,28.2,18,43,354,-21,-0.62,-20.9,-0.61
