In [38]:
import pandas as pd

#### Importando os Dados

In [39]:
df_final_data_sumulas = pd.read_excel("data/final_data_original.xlsx", sheet_name="Sumulas", index_col=None)
df_final_data_atletas = pd.read_excel("atletas.xlsx", index_col=None)
df_final_data_competicoes = pd.read_excel("data/final_data_original.xlsx", sheet_name="Campeonatos", index_col=None)
df_sumulas_novas = pd.read_csv("sumulas.csv")

In [40]:
df_final_data_sumulas.shape

(136618, 14)

#### Tirando Coluna Problemática

In [41]:
df_final_data_sumulas.drop(df_final_data_sumulas.columns[0], axis=1, inplace=True)
df_final_data_atletas.drop(df_final_data_atletas.columns[0], axis=1, inplace=True)
df_final_data_competicoes.drop(df_final_data_competicoes.columns[0], axis=1, inplace=True)

#### Verificando Colunas

In [42]:
df_final_data_sumulas.columns

Index(['ID Resultado', 'ID Competidor', 'Nome Competidor', 'ID Competição',
       'Classe Vela', 'Pontuação Regata', 'Descarte', 'Flotilha',
       'Posição Geral', 'Punição', 'Pontuação Total', 'Nett',
       'Nome Competição'],
      dtype='object')

In [43]:
df_final_data_atletas.columns

Index(['Nome Competidor', 'ID Competidor'], dtype='object')

In [44]:
df_final_data_competicoes.columns

Index(['ID Competição', 'Nome Competição'], dtype='object')

In [45]:
df_sumulas_novas.columns

Index(['Identificador', 'Nome Competição', 'Regata', 'Nome Competidor',
       'Pontuação Regata (Nha)', 'Classe Vela', 'Flag Name', 'Posição Geral',
       'ID Competição', 'Descarte', 'Flotilha', 'Punição', 'Total', 'Net',
       'Pontuação Regata'],
      dtype='object')

#### Competições

In [46]:
df_final_data_competicoes = df_final_data_competicoes.sort_values(by="ID Competição").reset_index(drop=True)
df_final_data_competicoes.head(50)

Unnamed: 0,ID Competição,Nome Competição
0,1,Central and South American Championship 2021
1,2,Central and South American Championship 2022
2,3,Central and South American Championship 2023
3,4,European Championship 2021
4,5,European Championship 2022
5,6,European Championship 2023
6,7,Semaine Olympique Francaise De Voile 2022
7,8,Semaine Olympique Francaise De Voile 2023
8,9,Trofeo S.A.R Princesa Sofia 2022
9,10,Trofeo S.A.R Princesa Sofia 2023


In [47]:
df_final_data_atletas = df_final_data_atletas.sort_values(by="ID Competidor").reset_index(drop=True)
#df_final_data_atletas.head(10)

#### Fornecendo ID

In [48]:
def retorna_ID_competidor(nome_atleta:str):
    """
    Retorna o ID do competidor com base no nome do atleta.

    Parâmetros:
    nome_atleta (str): O nome do atleta cujo ID do competidor será retornado.

    Retorna:
    str: O ID do competidor correspondente ao nome do atleta especificado.

    Exemplo:
    >>> retorna_ID_competidor("DOMINIK BUKSAK, SZYMON WIERZBICKI")
    'ID correspondente'
    """
    return df_final_data_atletas.loc[df_final_data_atletas['Nome Competidor'] == nome_atleta, 'ID Competidor'].iloc[0]

In [49]:
def retorna_ID_competicao(nome_competicao: str):
    """
    Retorna o ID da competição com base no nome da competição.

    Parâmetros:
    nome_competicao (str): O nome da competição cujo ID será retornado.

    Retorna:
    str: O ID da competição correspondente ao nome da competição especificada.

    Exemplo:
    >>> retorna_ID_competicao("Nome da Competição")
    'ID correspondente'
    """
    retorno =  df_final_data_competicoes.loc[df_final_data_competicoes['Nome Competição'] == nome_competicao, 'ID Competição']
    return retorno.iloc[0] if not retorno.empty else None


#### Adicionando ID nos Novos Dados

In [50]:
df_sumulas_novas["ID Competidor"] = df_sumulas_novas["Nome Competidor"].apply(retorna_ID_competidor)
df_sumulas_novas["ID Competição"] = df_sumulas_novas["Nome Competição"].apply(retorna_ID_competicao)

In [51]:
df_final_data_sumulas["ID Competidor"] = df_final_data_sumulas["Nome Competidor"].apply(retorna_ID_competidor)
df_final_data_sumulas["ID Competição"] = df_final_data_sumulas["Nome Competição"].apply(retorna_ID_competicao)

#### Tratando as Flotilhas

In [52]:
df_sumulas_novas["Flotilha"].value_counts()

Flotilha
GERAL         20900
MEDAL RACE      628
Name: count, dtype: int64

In [53]:
df_sumulas_novas[df_sumulas_novas.columns[6]].value_counts()
df_sumulas_novas

Unnamed: 0,Identificador,Nome Competição,Regata,Nome Competidor,Pontuação Regata (Nha),Classe Vela,Flag Name,Posição Geral,ID Competição,Descarte,Flotilha,Punição,Total,Net,Pontuação Regata,ID Competidor
0,DERIN ATAKAN - Kite Fem. - World Championship ...,World Championship 2024,Q1,DERIN ATAKAN,13.0-0-0,Kite Fem.,Silver,1,34.0,0.0,GERAL,0,162.0,162.0,13.0,1612
1,HELOISE PEGOURIE - Kite Fem. - World Champions...,World Championship 2024,Q1,HELOISE PEGOURIE,13.0-0-0,Kite Fem.,Silver,2,34.0,0.0,GERAL,0,165.0,165.0,13.0,1341
2,ZOE BOUTANG - Kite Fem. - World Championship 2024,World Championship 2024,Q1,ZOE BOUTANG,6.0-0-0,Kite Fem.,Silver,3,34.0,0.0,GERAL,0,189.0,189.0,6.0,1658
3,JUSTINA KITCHEN - Kite Fem. - World Championsh...,World Championship 2024,Q1,JUSTINA KITCHEN,8.0-0-0,Kite Fem.,Silver,4,34.0,0.0,GERAL,0,207.0,207.0,8.0,1487
4,ALEXIA FANCELLI - Kite Fem. - World Championsh...,World Championship 2024,Q1,ALEXIA FANCELLI,18.0-0-0,Kite Fem.,Silver,5,34.0,0.0,GERAL,0,204.0,204.0,18.0,1222
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21523,,Troféu Königswinkel ILCA 2023,,Tobias NIGGL,29.0,ilca 7,,28,,29.0,GERAL,,0.0,0.0,29.0,3625
21524,,Troféu Königswinkel ILCA 2023,,Tobias NIGGL,26.0,ilca 7,,28,,26.0,GERAL,,0.0,0.0,26.0,3625
21525,,Troféu Königswinkel ILCA 2023,,Tobias NIGGL,25.0,ilca 7,,28,,25.0,GERAL,,0.0,0.0,25.0,3625
21526,,Troféu Königswinkel ILCA 2023,,Tobias NIGGL,26.0,ilca 7,,28,,26.0,GERAL,,0.0,0.0,26.0,3625


In [54]:
mask = df_sumulas_novas["Flotilha"].isin(["Gold", "Silver", "Bronze"])

mapeamento = {"Gold": "OURO", "Silver": "PRATA", "Bronze": "BRONZE"}

df_sumulas_novas.loc[mask, "Flotilha"] = df_sumulas_novas.loc[mask, "Flotilha"].map(mapeamento)

In [55]:
df_sumulas_novas["Flotilha"].value_counts()

Flotilha
GERAL         20900
MEDAL RACE      628
Name: count, dtype: int64

#### Arrumando as Colunas

In [56]:
df_final_data_sumulas.columns

Index(['ID Resultado', 'ID Competidor', 'Nome Competidor', 'ID Competição',
       'Classe Vela', 'Pontuação Regata', 'Descarte', 'Flotilha',
       'Posição Geral', 'Punição', 'Pontuação Total', 'Nett',
       'Nome Competição'],
      dtype='object')

In [57]:
df_sumulas_novas.columns
df_sumulas_novas["Total"].value_counts()

Total
0.0      6910
225.0     102
321.0     101
570.0     101
204.0      96
         ... 
32.0        7
43.0        7
111.0       7
51.0        7
75.0        7
Name: count, Length: 516, dtype: int64

In [58]:
df_sumulas_novas = df_sumulas_novas.rename(columns={'Total': 'Pontuação Total', "Net":"Nett"})
df_sumulas_novas.columns

Index(['Identificador', 'Nome Competição', 'Regata', 'Nome Competidor',
       'Pontuação Regata (Nha)', 'Classe Vela', 'Flag Name', 'Posição Geral',
       'ID Competição', 'Descarte', 'Flotilha', 'Punição', 'Pontuação Total',
       'Nett', 'Pontuação Regata', 'ID Competidor'],
      dtype='object')

In [59]:
colunas_extras = ["Identificador", "Regata", "Pontuação Regata (Nha)", "Flag Name"]
df_sumulas_novas = df_sumulas_novas.drop(columns=colunas_extras)
df_sumulas_novas.columns

Index(['Nome Competição', 'Nome Competidor', 'Classe Vela', 'Posição Geral',
       'ID Competição', 'Descarte', 'Flotilha', 'Punição', 'Pontuação Total',
       'Nett', 'Pontuação Regata', 'ID Competidor'],
      dtype='object')

In [60]:
ordem_colunas = ['Nome Competição', 'Nome Competidor', 'Classe Vela', 
                  'Posição Geral','ID Competição',
                  'Pontuação Regata', 'Descarte', 'Flotilha',
                  'Punição', 'Pontuação Total', 'Nett', 'ID Competidor'
                 ]

df_sumulas_novas = df_sumulas_novas.reindex(columns=ordem_colunas)
df_sumulas_novas.columns

Index(['Nome Competição', 'Nome Competidor', 'Classe Vela', 'Posição Geral',
       'ID Competição', 'Pontuação Regata', 'Descarte', 'Flotilha', 'Punição',
       'Pontuação Total', 'Nett', 'ID Competidor'],
      dtype='object')

In [61]:
df_final_data_sumulas = df_final_data_sumulas.drop(columns=df_final_data_sumulas.columns[0])
df_final_data_sumulas.columns

Index(['ID Competidor', 'Nome Competidor', 'ID Competição', 'Classe Vela',
       'Pontuação Regata', 'Descarte', 'Flotilha', 'Posição Geral', 'Punição',
       'Pontuação Total', 'Nett', 'Nome Competição'],
      dtype='object')

#### Merge Dos Dados

In [62]:
df_data_final_atualizado = pd.concat([df_final_data_sumulas, df_sumulas_novas]).reset_index(drop=True)

In [63]:
df_data_final_atualizado["ID Resultado"] = df_data_final_atualizado.index + 1

In [64]:
ordem_colunas = ['ID Resultado', 'ID Competidor', 'Nome Competidor', 'ID Competição',
                 'Classe Vela', 'Pontuação Regata', 'Descarte', 'Flotilha',
                 'Posição Geral', 'Punição', 'Pontuação Total', 'Nett',
                 'Nome Competição']

df_data_final_atualizado = df_data_final_atualizado.reindex(columns=ordem_colunas)
df_data_final_atualizado.columns

Index(['ID Resultado', 'ID Competidor', 'Nome Competidor', 'ID Competição',
       'Classe Vela', 'Pontuação Regata', 'Descarte', 'Flotilha',
       'Posição Geral', 'Punição', 'Pontuação Total', 'Nett',
       'Nome Competição'],
      dtype='object')

In [65]:
df_data_final_atualizado.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição
0,1,1,"WILLIAM JONES, EVAN DEPAUL",17.0,49er,11,1.0,GERAL,1,UFD,44.0,33.0,World Championship 2017
1,2,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",7.0,49er,3,0.0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
2,3,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",7.0,49er,1,0.0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
3,4,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",7.0,49er,1,0.0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022
4,5,2,"DOMINIK BUKSAK, SZYMON WIERZBICKI",7.0,49er,3,0.0,GERAL,1,,89.0,66.0,Semaine Olympique Francaise De Voile 2022


In [66]:
df_data_final_atualizado.tail()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição
158141,158142,3625,Tobias NIGGL,,ilca 7,29.0,29.0,GERAL,28,,0.0,0.0,Troféu Königswinkel ILCA 2023
158142,158143,3625,Tobias NIGGL,,ilca 7,26.0,26.0,GERAL,28,,0.0,0.0,Troféu Königswinkel ILCA 2023
158143,158144,3625,Tobias NIGGL,,ilca 7,25.0,25.0,GERAL,28,,0.0,0.0,Troféu Königswinkel ILCA 2023
158144,158145,3625,Tobias NIGGL,,ilca 7,26.0,26.0,GERAL,28,,0.0,0.0,Troféu Königswinkel ILCA 2023
158145,158146,3625,Tobias NIGGL,,ilca 7,25.0,25.0,GERAL,28,,0.0,0.0,Troféu Königswinkel ILCA 2023


#### Ajustes Nos Dados

In [67]:
df_data_final_atualizado["Classe Vela"].value_counts()

Classe Vela
Ilca 7                34279
49er                  25989
Ilca 6                24660
49erFX                16071
IQFOIL Masc.          11186
IQFOIL Fem.            8384
Formula Kite Masc.     6014
470.0                  4540
Nacra 17               3661
Formula Kite Fem.      3259
ilca 6                 3180
ilca 7                 2741
ILCA 7                 2626
IQFoil Masc.           2596
IQFoil Fem.            2162
ILCA 6                 1881
Kite Masc.             1720
Kite Fem.               969
470                     861
49erfx                  801
Kite                    276
iQFoil 9                150
iQFoil 8                140
Name: count, dtype: int64

In [68]:
def ajusta_classe(valor):
    if valor.upper() == "KITE MASC.":
        return "FORMULA KITE MASC."
    elif valor.upper() == "KITE FEM.":
        return "FORMULA KITE FEM."
    elif str(valor) == "470.0":
        return "470"
    return str(valor).upper()

In [69]:
df_data_final_atualizado["Classe Vela"] = df_data_final_atualizado["Classe Vela"].apply(ajusta_classe)

In [70]:
df_data_final_atualizado["Classe Vela"].value_counts()

Classe Vela
ILCA 7                39646
ILCA 6                29721
49ER                  25989
49ERFX                16872
IQFOIL MASC.          13782
IQFOIL FEM.           10546
FORMULA KITE MASC.     7734
470                    5401
FORMULA KITE FEM.      4228
NACRA 17               3661
KITE                    276
IQFOIL 9                150
IQFOIL 8                140
Name: count, dtype: int64

In [71]:
df_data_final_atualizado["Flotilha"].value_counts()

Flotilha
GERAL         91350
OURO          29336
PRATA         26065
BRONZE         9105
MEDAL RACE     2290
Name: count, dtype: int64

In [72]:
df_data_final_atualizado["Punição"].value_counts()

Punição
0      13627
DNC     4793
BFD     1803
UFD     1106
DNF      881
DSQ      368
RET      342
STP      322
RDG      241
DNS      123
DNE       76
DPI       54
OCS       31
SCP       29
SPI       26
DP        11
SP1       10
10%        7
ARB        7
PRP        6
30%        6
NSC        3
SP5        2
RAF        2
DCT        1
Name: count, dtype: int64

#### Salvando os Dados

In [73]:
df_final_data_competicoes.to_excel("dados_finais_2024/competicoes.xlsx", index=False)
df_final_data_atletas.to_excel("dados_finais_2024/atletas.xlsx", index=False)
df_data_final_atualizado.to_excel("dados_finais_2024/sumulas.xlsx", index=False)

In [74]:
with pd.ExcelWriter('dados_finais_2024/final_data.xlsx') as writer:
    # Salvando cada DataFrame em uma planilha diferente
    df_data_final_atualizado.to_excel(writer, sheet_name='Súmulas', index=False)
    df_final_data_atletas.to_excel(writer, sheet_name='Atletas', index=False)
    df_final_data_competicoes.to_excel(writer, sheet_name='Competições', index=False)