<div style="border: 2px solid #255c8a; padding: 10px; background-color: #121212; border-radius: 5px; line-height: 1; width: 97%">
  <strong> ℹ️ Descrição:</strong> 
  Este notebook é a última parte do pré-processamento: a criação de uma coluna target.
</div>

Para finalizarmos o pré-processamento, vamos criar uma coluna target, que simboliza o vencedor ao final da partida. Para isso, vamos apenas ver qual dos dois times fez mais gol, e categorizar a partida em três possibilidades:

2 = time 1 venceu  
1 = empate  
0 = time 2 venceu

# Inicialização

**Bibliotecas**

In [16]:
import os
import pandas as pd

# Seleção do arquivo

Sempre que quisermos usar um arquivo para ser testado no algoritmo, precisaremos selecioná-lo aqui:

In [17]:
current_path = os.path.dirname(os.getcwd())
csv_path = (current_path + '/Data/campeonatos_futebol_sem_NaN_1.csv')
df = pd.read_csv(csv_path)

# Target

In [18]:
def target(df):
    """
    Calcula o resultado do confronto com base nas colunas 'Gols 1' e 'Gols 2'.

    Parâmetros:
    df (pandas.DataFrame): DataFrame que contém as colunas 'Gols 1' e 'Gols 2'.

    Retorna:
    pandas.Series: Série com os resultados, onde:
        - "2" se 'Gols 1' > 'Gols 2'
        - "1" se 'Gols 1' == 'Gols 2'
        - "0" se 'Gols 1' < 'Gols 2'
    """
    resultados = []
    for _, row in df.iterrows():
        if row['Gols 1'] > row['Gols 2']:
            resultados.append("2")
        elif row['Gols 1'] == row['Gols 2']:
            resultados.append("1")
        else:
            resultados.append("0")
    return pd.Series(resultados, name="Target")

Aplicamos a função acima no dataframe para ser lido, e adicionamos a coluna:

In [19]:
resultados = target(df)
df = pd.concat([df, resultados], axis = 1)
df.head()

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Cartões amarelos 2,Cartões vermelhos 1,Cartões vermelhos 2,Gols 1,Gols 2,Posse 1(%),Posse 2(%),Position 1,Position 2,Target
0,8.0,0.0,6.0,3.0,7.0,1.0,6.0,1.0,8.0,14.0,...,5.0,0.0,0.0,3.0,0.0,77.0,23.0,4-3-3,4-3-3,2
1,0.0,2.0,0.0,2.0,0.0,4.0,3.0,4.0,19.0,14.0,...,1.0,0.0,0.0,0.0,0.0,44.0,56.0,3-5-2,3-5-2,1
2,4.0,5.0,1.0,5.0,8.0,11.0,2.0,5.0,13.0,14.0,...,2.0,1.0,0.0,2.0,2.0,47.0,53.0,4-3-3,3-4-1-2,1
3,4.0,7.0,8.0,1.0,6.0,5.0,4.0,7.0,4.0,11.0,...,0.0,0.0,0.0,2.0,1.0,27.0,73.0,3-4-3,4-2-3-1,2
4,3.0,1.0,1.0,3.0,5.0,4.0,2.0,2.0,12.0,17.0,...,3.0,0.0,0.0,2.0,0.0,58.0,42.0,4-4-2,3-5-1-1,2


# Salvando novo csv

Aqui salvamos o arquivo. Precisamos lembrar de mudar seu nome com base no teste sendo feito:

In [20]:
df.to_csv(current_path + '/Data/entradas/campeonatos_futebol_teste1.csv', index=False)