# **Análise dos Dados de Partidas de Futebol**

## Objetivo 

Os dados de partidas de futebol oferecem um grande potencial para compreender o desempenho dos times e os fatores que influenciam o resultado dos jogos. O objetivo deste projeto é analisar esses dados de forma exploratória, tratando valores ausentes de maneira cuidadosa para preservar suas características originais a fim de desenvolver um modelo preditivo.

## Obtenção dos dados

In [118]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [119]:

# Lendo o arquivo 
df = pd.read_csv('Data/campeonatos_futebol_atualizacao.csv')

## Análise dos Dados

Esta etapa tem por objetivo permitir um entendimento de como os dados estão estruturados.

**Dicionário das variáveis**

- **Chutes a gol 1 / 2**: Número de finalizações que foram enquadradas (ao menos foram na direção do gol) pelo time 1 / time 2.
- **Impedimentos 1 / 2**: Quantas vezes cada time foi pego em posição de impedimento.
- **Escanteios 1 / 2**: Total de cobranças de escanteio a favor de cada equipe.
- **Chutes fora 1 / 2**: Finalizações que não foram na direção do gol (para fora) de cada time.
- **Faltas 1 / 2**: Quantas faltas cada time cometeu durante a partida.
- **Cartões amarelos 1 / 2**: Quantos cartões amarelos foram mostrados a jogadores de cada time.
- **Cartões vermelhos 1 / 2**: Quantos cartões vermelhos foram mostrados a jogadores de cada time.
- **Cruzamentos 1 / 2**: Número de passes laterais elevados (cruzamentos) realizados por cada equipe.
- **Laterais 1 / 2**: Quantas vezes cada time executou arremessos laterais.
- **Chutes bloqueados 1 / 2**: Finalizações de cada time que foram bloqueadas por defensores adversários.
- **Contra-ataques 1 / 2**: Quantas ações de contra-ataque (recuperação e transição rápida) cada equipe conduziu.
- **Gols 1 / 2**: Número de gols marcados por cada time.
- **Tiro de meta 1 / 2**: Quantos arremessos de meta (goal kicks) cada time cobrou.
- **Tratamentos 1 / 2**: Quantas vezes jogadores de cada time receberam atendimento médico em campo.
- **Substituições 1 / 2**: Número de trocas de jogadores realizadas por cada equipe.
- **Tiros-livres 1 / 2**: Quantas cobranças de falta (tiros livres) cada time teve.
- **Defesas difíceis 1 / 2**: Número de defesas de alta dificuldade feitas pelos goleiros de cada time.
- **Posse 1 / 2 (%)**: Percentual de tempo de posse de bola de cada equipe ao longo da partida.
- **Time 1 / 2**: Nome do time da casa (1) e do time visitante (2).
- **Position 1 / 2**: Posição tática inicial ou formação de cada equipe (por exemplo: 4-4-2, 3-5-2 etc.).

Vamos dar uma olhada nas primeiras linhas do Dataframe.


In [120]:
#Primeiras 5 linhas 
df.head()

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
0,8.0,0.0,6.0,3.0,7.0,1.0,6.0,1.0,8.0,14.0,...,,,,,77.0,23.0,Glasgow Rangers,Livingston,4-3-3,4-3-3
1,0.0,2.0,0.0,2.0,0.0,4.0,3.0,4.0,19.0,14.0,...,,,,,44.0,56.0,Ross County,St.Johnstone,3-5-2,3-5-2
2,4.0,5.0,1.0,5.0,8.0,11.0,2.0,5.0,13.0,14.0,...,,,,,47.0,53.0,Dundee FC,St. Mirren,4-3-3,3-4-1-2
3,4.0,7.0,8.0,1.0,6.0,5.0,4.0,7.0,4.0,11.0,...,,,,,27.0,73.0,Hearts,Celtic,3-4-3,4-2-3-1
4,3.0,1.0,1.0,3.0,5.0,4.0,2.0,2.0,12.0,17.0,...,,,,,58.0,42.0,Aberdeen,Dundee U.,4-4-2,3-5-1-1


### Quantas linhas e colunas o conjunto de dados possui? Quais os tipos das variáveis? 

In [121]:
# Tamanho do DataFrame
print(f'Número de linhas: {df.shape[0]}')
print(f'Número de colunas: {df.shape[1]}\n')

# Tipos de dados de cada coluna
print("Tipos de dados por coluna:\n")
print(df.dtypes)

Número de linhas: 27716
Número de colunas: 40

Tipos de dados por coluna:

Chutes a gol 1         float64
Chutes a gol 2         float64
Impedimentos 1         float64
Impedimentos 2         float64
Escanteios 1           float64
Escanteios 2           float64
Chutes fora 1          float64
Chutes fora 2          float64
Faltas 1               float64
Faltas 2               float64
Cartões amarelos 1     float64
Cartões amarelos 2     float64
Cartões vermelhos 1    float64
Cartões vermelhos 2    float64
Cruzamentos 1          float64
Cruzamentos 2          float64
Laterais 1             float64
Laterais 2             float64
Chutes bloqueados 1    float64
Chutes bloqueados 2    float64
Contra-ataques 1       float64
Contra-ataques 2       float64
Gols 1                 float64
Gols 2                 float64
Tiro de meta 1         float64
Tiro de meta 2         float64
Tratamentos 1          float64
Tratamentos 2          float64
Substituições 1        float64
Substituições 2        flo

## Limpeza e transformação dos dados

Precisamos garantir que os dados que estamos analisando sejam precisos, caso contrário, os resultados de nossa análise estarão errados.

Fizemos uma cópia do DataFrame original para preservar os dados intactos durante a análise exploratória e o desenvolvimento do modelo preditivo. Isso nos permite realizar transformações e comparações com os dados originais, garantindo que qualquer alteração possa ser revertida, além de avaliar o impacto das mudanças nas performances do modelo.

In [122]:
df_copy = df.copy()

A simetria da distribuição será inicialmente avaliada com o objetivo de compreender o comportamento dos dados antes de qualquer etapa de limpeza ou transformação. Essa análise preliminar permite identificar possíveis distorções, como a presença de outliers ou distribuições assimétricas, além de fornecer uma base para comparação com os resultados obtidos após o pré-processamento.

A avaliação da simetria será feita por meio da métrica chamada skewness (ou coeficiente de assimetria), que indica o grau de inclinação da curva de distribuição. Quando o valor de skewness é próximo de zero, a distribuição é considerada simétrica. Valores positivos indicam uma cauda longa à direita (assimetria positiva) e valores negativos, uma cauda longa à esquerda (assimetria negativa). Em geral, considera-se que distribuições com skewness entre -0.5 e 0.5 são aproximadamente simétricas.

In [123]:
# Selecionando apenas colunas numéricas
colunas_numericas = df_copy.select_dtypes(include='number')

# Calculando a assimetria (skewness) ignorando NaNs
skewness = colunas_numericas.skew()

# Criando uma tabela organizada
tabela_simetria = pd.DataFrame({
    'Assimetria (skewness)': skewness,
    'Distribuição': ['Simétrica' if abs(val) < 0.5 else 'Assimétrica' for val in skewness]
}).sort_values(by='Assimetria (skewness)', ascending=False)

# Exibindo a tabela
print(tabela_simetria)



                     Assimetria (skewness) Distribuição
Chutes fora 2                    99.858429  Assimétrica
Cartões vermelhos 1               4.632811  Assimétrica
Cartões vermelhos 2               4.430716  Assimétrica
Faltas 2                          2.820571  Assimétrica
Contra-ataques 2                  2.147097  Assimétrica
Contra-ataques 1                  2.023837  Assimétrica
Chutes a gol 2                    1.968407  Assimétrica
Chutes a gol 1                    1.812375  Assimétrica
Tratamentos 1                     1.501920  Assimétrica
Tratamentos 2                     1.372405  Assimétrica
Impedimentos 2                    1.198815  Assimétrica
Impedimentos 1                    1.181808  Assimétrica
Chutes bloqueados 1               1.129360  Assimétrica
Chutes bloqueados 2               1.122076  Assimétrica
Gols 2                            1.104355  Assimétrica
Gols 1                            0.960099  Assimétrica
Cruzamentos 2                     0.906040  Assi

A análise da assimetria (skewness) mostrou que a maior parte das várias variáveis numéricas do conjunto apresenta distribuições assimétricas que acontece devido a aleatoridade das variáveis. Isso acontece pleo fato de não existir uma métrica fixa para distribuição de uma variavel em todos as partidas devido ao enorme número de fatores do qual ela depende. Por exemplo:  um time que tem um alto número de contra-ataques em uma partida pode não ter em outras, pois:
-  Depende do time com quem está jogando e se esse atua mais na defensiva ou ofensiva. Atuar na defensiva ou ofensiva depende da estratégia de jogo definida para aquela partida específica; 
- O placar ao longo da partida influencia no número de contra-ataques realizados ao longo do jogo. Quando uma equipe está perdendo, pode se expor mais no campo, permitindo que o time adversário consiga mais contra-ataques. Isso pode gerar uma distribuição assimétrica, com alguns jogos tendo números muito altos de contra-ataques devido a uma maior pressão em busca do empate ou da virada;
- O futebol é um esporte sujeito a erros, como falhas defensivas, passes errados, ou um goleiro cometendo um erro. Tais erros podem criar oportunidades para contra-ataques, especialmente se uma equipe está avançando de forma descuidada e o adversário aproveita para atacar em velocidade;
- Condições climáticas, como chuva ou vento forte, podem afetar a forma como as equipes jogam. Um campo escorregadio pode dificultar o controle da bola, levando a mais erros e, consequentemente, mais oportunidades para contra-ataques.

Por esses e diversos outros motivos uma equipe mesmo que seja considerada mais "fraca"  pode ganhar de uma equipe considerada maia "forte".
Esse comportamento pode comprometer a consistência da análise estatística e a performance de modelos que assumem distribuições mais equilibradas. Por isso, nas próximas etapas, será realizado o tratamento de valores duplicados e outliers com o objetivo de reduzir essa assimetria, mas não visando tornar os dados complemente simétricos devido a aletoridade do conjunto. 

### Tratando linhas duplicadas

Verificando se há registros duplicados no Dataframe, pois não nos interessar analisar a mesma partida mais de uma vez. 

In [124]:

# Verificando se há linhas duplicadas no dataframe
if df.duplicated().any():
    # Contando o número total de linhas duplicadas
    quantidade_duplicadas = df_copy.duplicated().sum()
    print(f'Sim, existem {quantidade_duplicadas} linhas duplicadas.')
else:
    print('Não, não existem linhas duplicadas.')


Sim, existem 12 linhas duplicadas.


Identificamos a presença de registros duplicados no dataframe. Na ausência de uma coluna com a data das partidas, adotamos o critério de considerar duplicatas exatas como representações da mesma partida. 

Assim, como cada linha representa uma partida de futebol, essas duplicatas indicam possíveis inconsistências, como erros de entrada ou falhas na coleta de dados.

A remoção dessas entradas garante que cada partida seja considerada apenas uma vez, preservando a integridade do conjunto de dados e evitando distorções nas análises estatísticas.

In [125]:
# Retorna um novo Dataframe com apenas as linhas não duplicadas 
df_copy = df_copy.loc[~df_copy.duplicated()].drop_duplicates().reset_index(drop=True)

# Verificando novamente se há linhas duplicadas no dataframe
if df_copy.duplicated().any():
    # Contando o número total de linhas duplicadas
    quantidade_duplicadas = df_copy.duplicated().sum()
    print(f'Sim, existem {quantidade_duplicadas} linhas duplicadas.')
else:
    print('Não, não existem linhas duplicadas.')

Não, não existem linhas duplicadas.


### Qual a porcentagem de valores ausentes no dataset?

Vamos analisar a porcentagem de Not a Number em cada coluna.

In [126]:
# Porcentagem de NaN
def pegaPorcentagemNulaTabelas(tabela):
  return (tabela.isnull().sum()/len(tabela)*100).sort_values(ascending=False)

tabelaPorcentagem = pegaPorcentagemNulaTabelas(df)

print(tabelaPorcentagem)

print(df_copy.dtypes)

Tratamentos 2          81.891326
Tratamentos 1          81.891326
Defesas difíceis 2     77.644682
Defesas difíceis 1     77.644682
Tiros-livres 1         77.464281
Tiros-livres 2         77.464281
Contra-ataques 2       77.402944
Contra-ataques 1       77.402944
Chutes bloqueados 1    68.094242
Chutes bloqueados 2    68.094242
Cruzamentos 1          67.473661
Cruzamentos 2          67.473661
Substituições 1        66.012412
Substituições 2        66.012412
Tiro de meta 1         56.649589
Tiro de meta 2         56.649589
Laterais 1             45.277096
Laterais 2             45.277096
Impedimentos 1         10.008659
Impedimentos 2         10.008659
Posse 1(%)              8.478857
Posse 2(%)              8.478857
Escanteios 1            8.399480
Escanteios 2            8.399480
Chutes fora 2           8.385048
Chutes fora 1           8.385048
Faltas 1                8.377832
Faltas 2                8.377832
Position 2              5.881080
Position 1              5.780055
Chutes a g

Considerando que os valores das correlações de Pearson e Spearman são muito baixo atrelado ao alto números de NaN as colunas eliminadas serão: Tratamentos 1, Tratamentos 2, Substituições 1, Substituições 2, Laterais 1, Laterais 2, Tiro de meta 1 e Tiro de meta 2.

As variáveis Tratamentos 1 e Tratamentos 2 serão removidas do conjunto de dados devido à elevada proporção de valores ausentes, superior a 81%. Como esses eventos não são recorrentes em todas as partidas e, muitas vezes, não têm relação direta com o desempenho técnico ou tático das equipes, sua presença esparsa reduz sua utilidade como variável. Além disso, a aleatoriedade desses acontecimentos — que podem depender de fatores externos como choques acidentais ou condições do gramado — dificulta sua utilização como indicador consistente de tendência ou influência no resultado da partida. 

As variáveis Substituições 1 e Substituições 2 serão removidas do conjunto de dados por apresentarem aproximadamente 66% de valores ausentes e pelo modo como influencia o resultado de um jogo. Embora as substituições possam influenciar momentaneamente o desempenho de uma equipe, sua frequência e impacto variam bastante entre os jogos, dificultando uma análise consistente. Além disso, a alta taxa de dados faltantes indica que essa informação não foi registrada com regularidade, o que compromete sua utilidade como variável preditiva. Como seu efeito no resultado final da partida tende a ser indireto e situacional — muitas vezes relacionado a estratégias específicas, lesões ou decisões de gestão de elenco — optou-se por sua exclusão.

Já as variáveis Laterais 1 e Laterais 2, que apresentam cerca de 45% de valores ausentes, serão removidas devido à combinação entre a alta porcentagem de dados faltantes e seu impacto pouco significativo no resultado de uma partida. Embora os arremessos laterais ocorram com frequência ao longo do jogo, do ponto de vista tático, costumam ter um efeito indireto no placar final. Na maioria das situações, representam apenas a retomada da posse de bola e raramente resultam em ações decisivas, como gols ou assistências. Dado seu baixo poder explicativo e a alta taxa de ausência, optou-se por sua exclusão.

Por fim, as variáveis Tiro de meta 1 e Tiro de meta 2 foram retiradas do conjunto porque além de mais da metade dos valores estão ausentes (cerca de 56%), esse tipo de lance normalmente não tem grande influência no resultado da partida, já que é só uma forma de reiniciar o jogo depois que a bola sai pela linha de fundo. Como não costumam gerar lances importantes, como gols ou assistências, e ainda têm muitos dados faltando, foi decidido remover essas variáveis da análise.



In [127]:
# Lista das colunas a serem eliminadas
colunas_para_deletar = [
    'Tratamentos 1', 'Tratamentos 2',
    'Substituições 1', 'Substituições 2',
    'Laterais 1', 'Laterais 2',
    'Tiro de meta 1', 'Tiro de meta 2'
]
# Filtrando para manter apenas as colunas que existem no DataFrame
colunas_existentes = [col for col in colunas_para_deletar if col in df_copy.columns]

# Deletando as colunas que existem
df_copy.drop(columns=colunas_existentes, inplace=True)

print(f'Número de colunas: {df_copy.shape[1]}\n')


Número de colunas: 32



Em seguida, optou-se pela imputação pela mediana nas colunas numéricas, considerando que a maioria dessas variáveis não apresenta distribuição normal. Já para as colunas categóricas (Position 1, Position 2, Time 1 e Time 2) com valores ausentes, a imputação foi realizada por meio da moda, ou seja, o valor mais frequente da variável. Essa abordagem é adequada, pois essas colunas não são numéricas, o que inviabiliza o uso de medidas como a média ou a mediana. A moda, por sua vez, é a medida de tendência central mais apropriada para dados categóricos, permitindo preencher os valores ausentes com a categoria mais representativa e, assim, preservar a estrutura original da variável.


In [128]:
# Lista de colunas que não devem ser alteradas
colunas_excecao = ['Time 1', 'Time 2', 'Position 1', 'Position 2']

# Cria uma nova lista com todas as colunas numéricas do df
# Verifica se as colunas em col são numéricas com pd.api.types.is_numeric_dtypes(df[col])
# Retorna True se a coluna col for numérica e False se não for numérica
colunas_para_imputar = [col for col in df_copy.columns if col not in colunas_excecao and pd.api.types.is_numeric_dtype(df_copy[col])]

# Imputa os NaNs pela mediana de cada coluna
def preecheTabelaComMediana():
    for col in colunas_para_imputar:
        mediana = df_copy[col].median()           # Calcula a mediana da coluna 
        df_copy[col] = df_copy[col].fillna(mediana)    # Susbtitui os valores NaN pela mediana 


def preecheTabelaComMedianaPorcentagem(porcentagem):

  for coluna in df_copy:
    if(tabelaPorcentagem[coluna] < porcentagem and df_copy.dtypes[coluna] == 'float64'):

      col_median=df_copy[coluna].median()

      df_copy[coluna]=df[coluna].fillna(col_median)

  return df_copy

# Preenchemos apenas a posição com moda pelo fato de sua coluna ser tipada como um string
def preencheTabelaComModa():
    modaP1, modaP2 = df_copy['Position 1'].mode()[0],df_copy['Position 2'].mode()[0]
    df_copy['Position 1']=df_copy['Position 1'].fillna(modaP1)
    df_copy['Position 2']=df_copy['Position 2'].fillna(modaP2)
    return df_copy

preecheTabelaComMediana()
preencheTabelaComModa()

# Verifica se ainda existem NaNs
print(df_copy.isna().sum())


Chutes a gol 1         0
Chutes a gol 2         0
Impedimentos 1         0
Impedimentos 2         0
Escanteios 1           0
Escanteios 2           0
Chutes fora 1          0
Chutes fora 2          0
Faltas 1               0
Faltas 2               0
Cartões amarelos 1     0
Cartões amarelos 2     0
Cartões vermelhos 1    0
Cartões vermelhos 2    0
Cruzamentos 1          0
Cruzamentos 2          0
Chutes bloqueados 1    0
Chutes bloqueados 2    0
Contra-ataques 1       0
Contra-ataques 2       0
Gols 1                 0
Gols 2                 0
Tiros-livres 1         0
Tiros-livres 2         0
Defesas difíceis 1     0
Defesas difíceis 2     0
Posse 1(%)             0
Posse 2(%)             0
Time 1                 0
Time 2                 0
Position 1             0
Position 2             0
dtype: int64


### Tratando Outliers

O tratamento de outliers é fundamental em distribuições assimétricas como as observadas neste conjunto de dados, pois valores extremos podem distorcer estatísticas descritivas, impactar a performance de modelos preditivos e  esconder padrões. No contexto de dados esportivos, como partidas de futebol, essas anomalias podem surgir por erros de coleta, registros duplicados ou situações atípicas que não representam o comportamento geral. Ao tratar os outliers, buscamos reduzir a assimetria e tornar as análises mais representativas da realidade. Essa etapa é especialmente importante antes da aplicação de técnicas de aprendizado de máquina, que muitas vezes assumem distribuições mais próximas da normalidade.

In [129]:
# Definindo o threshold para o IQR
threshold = 1.5

# Selecionando apenas colunas numéricas
numeric_cols = df_copy.select_dtypes(include='number').columns

# Criando um dicionário para armazenar os resultados
outliers_por_coluna = {}

for col in numeric_cols:
    Q1 = df_copy[col].quantile(0.20)
    Q3 = df_copy[col].quantile(0.80)
    IQR = Q3 - Q1
    outliers = df_copy[(df_copy[col] < Q1 - threshold * IQR) | (df_copy[col] > Q3 + threshold * IQR)]
    outliers_por_coluna[col] = len(outliers)

# Criando uma tabela
tabela_outliers = pd.DataFrame.from_dict(outliers_por_coluna, orient='index', columns=['Quantidade de Outliers'])
tabela_outliers = tabela_outliers.sort_values(by='Quantidade de Outliers', ascending=False)

print(tabela_outliers)


                     Quantidade de Outliers
Cruzamentos 1                          8532
Cruzamentos 2                          8449
Chutes bloqueados 1                    6851
Chutes bloqueados 2                    6823
Tiros-livres 1                         5680
Tiros-livres 2                         5663
Defesas difíceis 2                     4976
Defesas difíceis 1                     4760
Contra-ataques 2                       4154
Contra-ataques 1                       4123
Cartões vermelhos 2                    1545
Cartões vermelhos 1                    1325
Impedimentos 1                          552
Impedimentos 2                          429
Chutes fora 1                           249
Gols 1                                  217
Chutes fora 2                           206
Escanteios 2                            175
Cartões amarelos 2                      119
Posse 1(%)                              109
Posse 2(%)                              109
Escanteios 1                    

In [130]:
# Remover os outliers das colunas numéricas
for col in numeric_cols:
    Q1 = df_copy[col].quantile(0.20)
    Q3 = df_copy[col].quantile(0.80)
    IQR = Q3 - Q1
    
    # Identificando os outliers
    outliers = df_copy[(df_copy[col] < Q1 - threshold * IQR) | (df_copy[col] > Q3 + threshold * IQR)]
    
    # Excluindo os outliers
    df_copy = df_copy.drop(outliers.index)


In [131]:
# ESTUDANDO A SIMETRIA PARA VER QUAL O MELHOR VALOR DE % NO OUTLIER (PAGAR DEPOIS)

# Selecionando apenas colunas numéricas
colunas_numericas = df_copy.select_dtypes(include='number')

# Calculando a assimetria (skewness) ignorando NaNs
skewness = colunas_numericas.skew()

# Criando uma tabela organizada
tabela_simetria = pd.DataFrame({
    'Assimetria (skewness)': skewness,
    'Distribuição': ['Simétrica' if abs(val) < 0.5 else 'Assimétrica' for val in skewness]
}).sort_values(by='Assimetria (skewness)', ascending=False)

# Exibindo a tabela
print(tabela_simetria)

                     Assimetria (skewness) Distribuição
Gols 2                            0.900977  Assimétrica
Chutes a gol 1                    0.749566  Assimétrica
Impedimentos 2                    0.731232  Assimétrica
Gols 1                            0.730810  Assimétrica
Impedimentos 1                    0.725066  Assimétrica
Escanteios 1                      0.724353  Assimétrica
Escanteios 2                      0.688411  Assimétrica
Chutes a gol 2                    0.660109  Assimétrica
Cartões amarelos 1                0.597717  Assimétrica
Chutes fora 1                     0.593499  Assimétrica
Chutes fora 2                     0.588999  Assimétrica
Cartões amarelos 2                0.469270    Simétrica
Faltas 1                          0.418997    Simétrica
Faltas 2                          0.306988    Simétrica
Posse 2(%)                        0.095497    Simétrica
Cartões vermelhos 1               0.000000    Simétrica
Chutes bloqueados 1               0.000000    Si

### Mudando o tipo de variável das colunas

Vamos codificar as colunas Position 1, Position 2, Time 1 e Time 2.

In [133]:
# Colunas não numéricas: Time e Position

times = np.union1d(df['Time 1'].dropna().unique(), df_copy['Time 2'].dropna().unique())
times_codigo = {times[i]: (i+1) for i in range(len(times))}
print("Total de Times = {}".format(len(times)))

posicoes = np.union1d(df['Position 1'].dropna().unique(), df['Position 2'].dropna().unique())
posicoes_codigo = {posicoes[i]: (i+1) for i in range(len(posicoes))}
print("Total de Formações = {}".format(len(posicoes)))

def insere_coluna_codificada(df, coluna, nome_coluna_codigo, dicionario_codificacao):
    if(nome_coluna_codigo not in df_copy.columns):
        df_copy.insert(df_copy.columns.get_loc( coluna )+1, nome_coluna_codigo, df_copy[ coluna ].map( dicionario_codificacao ))

# Cria o dataframe com as colunas não numéricas codificadas em novas
df_codificado = df_copy.copy()

insere_coluna_codificada(df_codificado, 'Position 1', 'Pos1_codigo', posicoes_codigo)
insere_coluna_codificada(df_codificado, 'Position 2', 'Pos2_codigo', posicoes_codigo)
insere_coluna_codificada(df_codificado, 'Time 1', 'Time1_codigo', times_codigo)
insere_coluna_codificada(df_codificado, 'Time 2', 'Time2_codigo', times_codigo)

df_codificado.head()

Total de Times = 310
Total de Formações = 30


Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
1,0.0,2.0,0.0,2.0,0.0,4.0,3.0,4.0,19.0,14.0,...,14.0,14.0,2.0,3.0,44.0,56.0,Ross County,St.Johnstone,3-5-2,3-5-2
4,3.0,1.0,1.0,3.0,5.0,4.0,2.0,2.0,12.0,17.0,...,14.0,14.0,2.0,3.0,58.0,42.0,Aberdeen,Dundee U.,4-4-2,3-5-1-1
5,5.0,5.0,1.0,0.0,2.0,4.0,3.0,7.0,21.0,11.0,...,14.0,14.0,2.0,3.0,43.0,57.0,Motherwell,Hibernian,4-2-3-1,4-2-3-1
6,2.0,2.0,0.0,1.0,5.0,8.0,1.0,7.0,11.0,8.0,...,14.0,14.0,2.0,3.0,32.0,68.0,Dundee U.,Glasgow Rangers,4-2-3-1,4-3-3
9,4.0,3.0,2.0,1.0,6.0,2.0,6.0,7.0,21.0,12.0,...,14.0,14.0,2.0,3.0,37.0,63.0,Livingston,Aberdeen,4-3-3,4-1-4-1
