<div style="border: 2px solid #255c8a; padding: 10px; background-color: #121212; border-radius: 5px; line-height: 1; width: 97%">
  <strong> ℹ️ Descrição:</strong> 
  Este notebook se refere ao tratamento da coluna de posições, visando convertê-la para um dado que possa ser utilizado pelo modelo. 
</div>

# Inicialização

**Bibliotecas**:

In [9]:
import os
import sys
import pandas as pd

**Funções Auxiliares:**

In [10]:
sys.path.append(os.path.abspath("../src"))
from AnaliseExploratoria_functions import position_to_binary

**Leitura do Arquivo:**

In [11]:
current_path = os.path.dirname(os.getcwd())
csv_path = (current_path + '/Data/Pre-processamento/sem_outliers.csv')
df = pd.read_csv(csv_path)

# Tratando a coluna de Posições

No data frame, a coluna de posições apresenta uma string com a posição inicial dos jogadores na partida, como mostrado abaixo. Entretanto, em uma partida de futebol, os times não permanecem nas mesmas posições durante todo o tempo, e não temos como saber como o time se adaptou. O que podemos descobrir, contudo, é se o time chegou na partida mais ofensivamente ou defensivamente. 

In [12]:
df[['Position 1', 'Position 2']]

Unnamed: 0,Position 1,Position 2
0,4-3-3,4-3-3
1,3-5-2,3-5-2
2,4-3-3,3-4-1-2
3,3-4-3,4-2-3-1
4,4-4-2,3-5-1-1
...,...,...
27376,4-4-2,4-5-1
27377,4-2-3-1,4-4-2
27378,4-4-2,4-4-2
27379,4-5-1,4-4-2


Abaixo, mostramos todas as posições únicas que aparecem no data frame

In [13]:
all_formations = pd.unique(
    df[['Position 1', 'Position 2']].values.ravel()
)
all_formations

array(['4-3-3', '3-5-2', '3-4-1-2', '3-4-3', '4-2-3-1', '4-4-2',
       '3-5-1-1', nan, '3-4-2-1', '4-5-1', '4-1-4-1', '5-4-1', '3-1-4-2',
       '5-3-2', '4-3-2-1', '4-3-1-2', '4-4-1-1', '4-1-3-2', '4-1-2-1-2',
       '3-2-3-2', '3-1-3-1-2', '5-3-1-1', '3-3-3-1', '4-1-2-3', '4-2-1-3',
       '3-3-2-2', '4-2-2-2', '3-2-4-1', '4-1-2-2-1', '5-2-3', '3-3-1-3'],
      dtype=object)

Então, decidimos como faríamos a conversão. Pensamos inicialmente em um intervalo entre 0 e 1, mas depois percebemos que não tínhamos dados ou ferramentas o bastante para fazer a conversão. Assim, optamos por um indicativo binário:

1 = Formação ofensiva  
2 = Formação defensiva 

Além disso, precisaremos descartar as linhas em que a posição é NaN. Como são poucas, como revelado em [1] Análise Inicial, isto não será um problema.

In [14]:
df = df.dropna(subset=['Position 1', 'Position 2'])

In [15]:
df = position_to_binary(df,['Position 1','Position 2'], replace = True)
df.head()

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Substituições 1,Substituições 2,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Position 1,Position 2
0,8.0,0.0,6.0,3.0,7.0,1.0,6.0,1.0,8.0,14.0,...,3.0,3.0,,,,,77.0,23.0,1.0,1.0
1,0.0,2.0,0.0,2.0,0.0,4.0,3.0,4.0,19.0,14.0,...,2.0,3.0,,,,,44.0,56.0,1.0,1.0
2,4.0,5.0,1.0,5.0,8.0,11.0,2.0,5.0,13.0,14.0,...,3.0,3.0,,,,,47.0,53.0,1.0,1.0
3,4.0,7.0,8.0,1.0,6.0,5.0,4.0,7.0,4.0,11.0,...,2.0,3.0,,,,,27.0,73.0,1.0,0.0
4,3.0,1.0,1.0,3.0,5.0,4.0,2.0,2.0,12.0,17.0,...,3.0,3.0,,,,,58.0,42.0,0.0,1.0


# Salvando no csv

Então, salvamos os dados como csv final:

In [16]:
df.to_csv(current_path + '/Data/Pre-processamento/positions_ajustadas.csv', index=False)