In [11]:
import pandas as pd 
import unidecode

In [12]:
df_finaldata_sumulas = pd.read_excel("dados_finais_2024/final_data.xlsx", sheet_name="Súmulas")

## Arrumando Competições

In [33]:
df_final_competicoes = pd.DataFrame()
df_final_competicoes["Nome Competição"] = df_finaldata_sumulas["Nome Competição"].unique()
df_final_competicoes = df_final_competicoes.sort_values(by="Nome Competição").reset_index(drop=True)
df_final_competicoes["ID Competição"] = df_final_competicoes.index + 1
df_final_competicoes

Unnamed: 0,Nome Competição,ID Competição
0,Alpsee-Skiff-Weekend 2023,1
1,Auftaktregatta - ILCA 2024,2
2,CAMPEONATO ABERTO BELGA 2023,3
3,Campeonato Nórdico Aberto 2023,4
4,Central and South American Championship 2021,5
...,...,...
64,World Championship 2020,65
65,World Championship 2021,66
66,World Championship 2022,67
67,World Championship 2023,68


## Arrumando Atletas

In [34]:
def trata_nome(nome_atleta:str) -> str:
    return unidecode.unidecode(nome_atleta.upper())

df_finaldata_sumulas["Nome Competidor"] = df_finaldata_sumulas["Nome Competidor"].apply(trata_nome)
set_nomes_geral = set(df_finaldata_sumulas["Nome Competidor"].unique())

df_finaldata_atletas = pd.read_excel("dados_finais_2024/final_data.xlsx", sheet_name="Atletas")
set_nomes_exist = set(df_finaldata_atletas["Nome Competidor"].unique())

set_novos_nomes = set_nomes_geral - set_nomes_exist

df_auxiliar = pd.DataFrame()
df_auxiliar["Nome Competidor"] = list(set_novos_nomes)
df_auxiliar["ID Competidor"] = df_auxiliar.index + len(df_finaldata_atletas) + 1 

df_final_atletas = pd.concat([df_finaldata_atletas, df_auxiliar]).reset_index(drop=True)
df_final_atletas

Unnamed: 0,Nome Competidor,ID Competidor
0,"WILLIAM JONES, EVAN DEPAUL",1
1,"DOMINIK BUKSAK, SZYMON WIERZBICKI",2
2,"MARTINE GRAEL, KAHENA KUNZE",3
3,"RUGGERO TITA, CATERINA BANTI",4
4,"BLAIR TUKE, PETER BURLING",5
...,...,...
5282,VERHULST MARTIN,5283
5283,ANDREAS DR NEUSS,5284
5284,THIERRY SCHILBACH,5285
5285,MORITZ VON GAUDECKER,5286


## Arrumando Súmulas

In [35]:
def retorna_ID_competidor(nome_atleta:str):
    """
    Retorna o ID do competidor com base no nome do atleta.

    Parâmetros:
    nome_atleta (str): O nome do atleta cujo ID do competidor será retornado.

    Retorna:
    str: O ID do competidor correspondente ao nome do atleta especificado.

    Exemplo:
    >>> retorna_ID_competidor("DOMINIK BUKSAK, SZYMON WIERZBICKI")
    'ID correspondente'
    """
    return df_final_atletas.loc[df_final_atletas['Nome Competidor'] == nome_atleta, 'ID Competidor'].iloc[0]

In [36]:
def retorna_ID_competicao(nome_competicao: str):
    """
    Retorna o ID da competição com base no nome da competição.

    Parâmetros:
    nome_competicao (str): O nome da competição cujo ID será retornado.

    Retorna:
    str: O ID da competição correspondente ao nome da competição especificada.

    Exemplo:
    >>> retorna_ID_competicao("Nome da Competição")
    'ID correspondente'
    """
    retorno =  df_final_competicoes.loc[df_final_competicoes['Nome Competição'] == nome_competicao, 'ID Competição']
    return retorno.iloc[0] if not retorno.empty else None

In [37]:
df_finaldata_sumulas["ID Competidor"] = df_finaldata_sumulas["Nome Competidor"].apply(retorna_ID_competidor)
df_finaldata_sumulas["ID Competição"] = df_finaldata_sumulas["Nome Competição"].apply(retorna_ID_competicao)

In [38]:
df_finaldata_sumulas

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição
0,1,1,"WILLIAM JONES, EVAN DEPAUL",62,49ER,11,1,GERAL,1,UFD,44.0,33.0,World Championship 2017
1,2,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",49,49ER,3,0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
2,3,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",49,49ER,1,0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
3,4,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",49,49ER,1,0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
4,5,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",49,49ER,3,0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...
158141,158142,4689,TOBIAS NIGGL,59,ILCA 7,29,1,GERAL,28,DNF,158.0,129.0,Troféu Königswinkel ILCA 2023
158142,158143,4689,TOBIAS NIGGL,59,ILCA 7,26,0,GERAL,28,,158.0,129.0,Troféu Königswinkel ILCA 2023
158143,158144,4689,TOBIAS NIGGL,59,ILCA 7,25,0,GERAL,28,,158.0,129.0,Troféu Königswinkel ILCA 2023
158144,158145,4689,TOBIAS NIGGL,59,ILCA 7,26,0,GERAL,28,,158.0,129.0,Troféu Königswinkel ILCA 2023


In [39]:
with pd.ExcelWriter('dados_finais_2024/final_data.xlsx') as writer:
    # Salvando cada DataFrame em uma planilha diferente
    df_finaldata_sumulas.to_excel(writer, sheet_name='Súmulas', index=False)
    df_final_atletas.to_excel(writer, sheet_name='Atletas', index=False)
    df_final_competicoes.to_excel(writer, sheet_name='Competições', index=False)