In [1]:
import pandas as pd 
import numpy as np 
from unidecode import unidecode

In [2]:
dataframe = pd.read_csv("final_data_regata.csv", low_memory=False)
dataframe.dropna(subset=["Nome Competidor", "Nome Competição"], inplace=True)

In [3]:
dataframe.shape

(106207, 15)

In [4]:
dataframe["ID Resultado"] = dataframe.index + 1

In [5]:
def fix_names(value:str) -> str:
    for each_number in range(0, 10):
        value = str(value).replace(f"{each_number}", "")
    return unidecode(value).upper()

dataframe["Nome Competidor"] = dataframe["Nome Competidor"].apply(fix_names)

In [6]:
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


# Arrumando Atletas

In [7]:
lista_de_atletas = sorted(list(dataframe["Nome Competidor"].astype(str).unique()))
df_atletas = pd.DataFrame(data=lista_de_atletas, columns=["Nome Competidor"])
df_atletas["ID Competidor"] = df_atletas.index + 1
df_atletas

Unnamed: 0,Nome Competidor,ID Competidor
0,AGUILAR CHAVEZ PEON,1
1,ROMANOWSKI,2
2,", ERDAGLI MERIC",3
3,ABAY BERKAY,4
4,ABDULLA JANAHI,5
...,...,...
4953,ZOHAR HARUVI,4954
4954,ZOI BOUTANG,4955
4955,"ZOYA NOVIKOVA, DIANA SABIROVA",4956
4956,ZWAENEPOEL BRECHT,4957


# Arrumando Competições

In [8]:
lista_de_competicoes = sorted(list(dataframe["Nome Competição"].unique()))
df_competicoes = pd.DataFrame(data=lista_de_competicoes, columns=["Nome Competição"])
df_competicoes["ID Competição"] = df_competicoes.index + 1
df_competicoes

Unnamed: 0,Nome Competição,ID Competição
0,Alpsee-Skiff-Weekend 2023,1
1,Auftaktregatta - ILCA 2024,2
2,CAMPEONATO ABERTO BELGA 2023,3
3,Campeonato Nórdico Aberto 2023,4
4,Central and South American Championship 2022,5
...,...,...
62,World Championship 2019,63
63,World Championship 2020,64
64,World Championship 2021,65
65,World Championship 2022,66


# Arrumando IDs

In [9]:
dict_competicoes = dict()
for each_row in range(len(df_competicoes)):
    dados = df_competicoes.iloc[each_row]
    dict_competicoes[dados["Nome Competição"]] = dados["ID Competição"]

list_of_data = list()
for each_competition in dataframe["Nome Competição"]:
    list_of_data.append(dict_competicoes[each_competition])

dataframe["ID Competição"] = list_of_data
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


In [10]:
dict_atletas = dict()
for each_row in range(len(df_atletas)):
    dados = df_atletas.iloc[each_row]
    dict_atletas[dados["Nome Competidor"]] = dados["ID Competidor"]

list_of_data = list()
for each_atleta in dataframe["Nome Competidor"]:
    list_of_data.append(dict_atletas[each_atleta])

dataframe["ID Competidor"] = list_of_data
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


In [11]:
dataframe["Classe Vela"].unique()

array(['IQFOIL FEM.', 'IQFOIL MASC.', 'FORMULA KITE FEM.',
       'FORMULA KITE MASC.', '49ER', '49ERFX', 'NACRA 17', 'ILCA 6',
       'ILCA 7', '470', 'IQFOIL 8', 'IQFOIL 9', 'KITE'], dtype=object)

In [12]:
list_of_data = list()
for each_row in range(len(dataframe)):
    dados = dataframe["Classe Vela"].iloc[each_row]
    list_of_data.append(dados.upper())

dataframe["Classe Vela"] = list_of_data

def fix_classe(value:str) -> str:
    if value == "IQFOIL FEM. " or value == "IQFOIL FEM":
        return "IQFOIL FEM."
    elif value == "NACRA" or value == "NACRA17":
        return "NACRA 17"
    elif value == "IQFOIL MASC":
        return "IQFOIL MASC."
    else:
        return value
    
dataframe["Classe Vela"] = dataframe["Classe Vela"].apply(fix_classe)
dataframe["Classe Vela"].unique()

array(['IQFOIL FEM.', 'IQFOIL MASC.', 'FORMULA KITE FEM.',
       'FORMULA KITE MASC.', '49ER', '49ERFX', 'NACRA 17', 'ILCA 6',
       'ILCA 7', '470', 'IQFOIL 8', 'IQFOIL 9', 'KITE'], dtype=object)

In [13]:
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


# Arruamndo a Nacionalidade

In [14]:
dict_nacionalidades = dict()
for i in range(len(dataframe)):
    data = dataframe.iloc[i]
    dict_nacionalidades[data[2]] = data[-1]

  dict_nacionalidades[data[2]] = data[-1]


In [15]:
print(dict_nacionalidades["ROBERT SCHEIDT"])

BRA


In [16]:
def arruma_nac(valor):
    return dict_nacionalidades[valor]

dataframe["Nacionalidade"] = dataframe["Nome Competidor"].apply(arruma_nac)

In [17]:
dataframe["Nacionalidade"].value_counts()

Nacionalidade
GER    2531
FRA    2470
AUS    2250
ITA    2148
GBR    2132
       ... 
DOM      20
MKD      20
OMA      14
MDA      12
ALG      12
Name: count, Length: 85, dtype: int64

In [18]:
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


In [19]:
dataframe.shape

(106207, 15)

In [20]:
dataframe.head()

Unnamed: 0,ID Resultado,ID Competidor,Nome Competidor,ID Competição,Classe Vela,Pontuação Regata,Descarte,Flotilha,Posição Geral,Punição,Pontuação Total,Nett,Nome Competição,Regata,Nacionalidade
0,1,3269,MINA MOBEKK,19,IQFOIL FEM.,15.0,0,,1,0,207,116,European Championship 2023,1Q,
1,2,3269,MINA MOBEKK,19,IQFOIL FEM.,2.0,0,,1,0,207,116,European Championship 2023,2Q,
2,3,3269,MINA MOBEKK,19,IQFOIL FEM.,6.0,0,,1,0,207,116,European Championship 2023,3Q,
3,4,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,4Q,
4,5,3269,MINA MOBEKK,19,IQFOIL FEM.,3.0,0,,1,0,207,116,European Championship 2023,5Q,


In [21]:
dataframe.to_csv("final_data_regata.csv", index=False)

In [22]:
with pd.ExcelWriter('final_data_regata.xlsx') as writer:
    dataframe.to_excel(writer, sheet_name='Súmulas', index=False)
    df_atletas.to_excel(writer, sheet_name='Atletas', index=False)
    df_competicoes.to_excel(writer, sheet_name='Competições', index=False)