# Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

# Coleta do DataFrame

In [2]:
ds = pd.read_csv("Data/campeonatos_futebol_atualizacao.csv")
df = pd.DataFrame(ds)
df.describe()

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tratamentos 1,Tratamentos 2,Substituições 1,Substituições 2,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%)
count,26204.0,26204.0,24942.0,24942.0,25388.0,25388.0,25392.0,25392.0,25394.0,25394.0,...,5019.0,5019.0,9420.0,9420.0,6246.0,6246.0,6196.0,6196.0,25366.0,25366.0
mean,4.767287,3.854526,2.139844,1.968527,5.548409,4.459824,6.034302,4.956758,12.694495,12.946444,...,1.995617,2.134489,3.000318,3.001168,14.15626,14.245757,2.676888,3.206908,51.315659,48.508279
std,2.797705,2.444182,1.754924,1.681298,2.975521,2.620973,3.22426,5.451316,4.337402,4.608542,...,2.258323,2.296141,1.020285,1.033004,4.432963,4.335781,1.842689,2.078474,9.834217,9.808893
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,3.0,2.0,1.0,1.0,3.0,3.0,4.0,3.0,10.0,10.0,...,0.0,0.0,3.0,3.0,11.0,11.0,1.0,2.0,45.0,42.0
50%,4.0,4.0,2.0,2.0,5.0,4.0,6.0,5.0,12.0,13.0,...,1.0,2.0,3.0,3.0,14.0,14.0,2.0,3.0,52.0,48.0
75%,6.0,5.0,3.0,3.0,7.0,6.0,8.0,7.0,15.0,16.0,...,3.0,3.0,3.0,3.0,17.0,17.0,4.0,4.0,58.0,55.0
max,90.0,80.0,23.0,15.0,22.0,21.0,23.0,748.0,46.0,180.0,...,17.0,16.0,6.0,6.0,36.0,33.0,11.0,17.0,100.0,100.0


# Identificando NaN

Abaixo, descobrimos quantos % de cada coluna não está preenchida (é NaN), e os ordenamos de forma descrescente. 

In [3]:
nan_percent = df.isna().mean() * 100
print(nan_percent.sort_values(ascending=False))

Tratamentos 2          81.891326
Tratamentos 1          81.891326
Defesas difíceis 2     77.644682
Defesas difíceis 1     77.644682
Tiros-livres 1         77.464281
Tiros-livres 2         77.464281
Contra-ataques 2       77.402944
Contra-ataques 1       77.402944
Chutes bloqueados 1    68.094242
Chutes bloqueados 2    68.094242
Cruzamentos 1          67.473661
Cruzamentos 2          67.473661
Substituições 1        66.012412
Substituições 2        66.012412
Tiro de meta 1         56.649589
Tiro de meta 2         56.649589
Laterais 1             45.277096
Laterais 2             45.277096
Impedimentos 1         10.008659
Impedimentos 2         10.008659
Posse 1(%)              8.478857
Posse 2(%)              8.478857
Escanteios 1            8.399480
Escanteios 2            8.399480
Chutes fora 2           8.385048
Chutes fora 1           8.385048
Faltas 1                8.377832
Faltas 2                8.377832
Position 2              5.881080
Position 1              5.780055
Chutes a g

# Técnicas para lidar com os NaN

- Tratamento 1 e 2: podem significar não atendimentos no campo durante o jogo.
- Chutes para fora: podem ser equivalentes a escanteios, laterais e tiros de meta


- Técnicas de fill

# Checando colunas com poucos NaN

Nos casos em que poucos itens não estão preenchidos (próximo de 10% ou menos), utilizei a mediana como variável para ser substituída como valor padrão. Por exemplo, se a mediana de gols feitos pelo time 1 (da casa) foi 2, então todos os jogos em que a quantidade de gols não foi registrada foi substituída como 2. 

As colunas que estão nesse grupo, e por isso foram preenchidas dessa forma, foram:  

1. Chutes a gol (5.4%)  
2. Faltas (8.3%)  
3. Chutes fora (8.3%)  
4. Escanteios (8.3%)  
5. Posse (8.4%)  
6. Impedimentos (10%)  

Há mais uma coluna que está quase completamente preenchida: a de posição. Contudo, por ser uma coluna categórica, ela não foi tratada assim. 

    Ideia de melhoria: talvez fosse interessante substituir pela mediana especifica de cada time, ao invés da mediana geral. 
    Por exemplo, se o time A normalmente faz x gols, poderíamos substituir x como valor padrão em todos os NaN da coluna gol do time A.

    Observação: checar depois se a média é um parâmetro melhor do que a mediana

In [4]:
df_corrigido = df.copy() # fiz uma cópia do df para ser alterado, e termos como checar o original caso necessário
total_linhas = len(df)

# substituindo em todas as colunas numéricas que estejam abaixo de 11% (para cobrir todas as que desejamos alterar) pela mediana
for coluna in df_corrigido.select_dtypes(include=["number"]).columns:
    if nan_percent[coluna] < 11:
        valor_preenchimento = df_corrigido[coluna].median() 
        df_corrigido.fillna({coluna: valor_preenchimento}, inplace=True) 

In [5]:
# Checando que os dados foram realmente preenchidos:
nan_percent = df_corrigido.isna().mean() * 100
print(nan_percent.sort_values(ascending=False))

Tratamentos 2          81.891326
Tratamentos 1          81.891326
Defesas difíceis 2     77.644682
Defesas difíceis 1     77.644682
Tiros-livres 1         77.464281
Tiros-livres 2         77.464281
Contra-ataques 2       77.402944
Contra-ataques 1       77.402944
Chutes bloqueados 1    68.094242
Chutes bloqueados 2    68.094242
Cruzamentos 1          67.473661
Cruzamentos 2          67.473661
Substituições 1        66.012412
Substituições 2        66.012412
Tiro de meta 1         56.649589
Tiro de meta 2         56.649589
Laterais 1             45.277096
Laterais 2             45.277096
Position 2              5.881080
Position 1              5.780055
Impedimentos 2          0.000000
Impedimentos 1          0.000000
Chutes a gol 2          0.000000
Chutes a gol 1          0.000000
Chutes fora 2           0.000000
Chutes fora 1           0.000000
Escanteios 2            0.000000
Escanteios 1            0.000000
Cartões amarelos 2      0.000000
Cartões amarelos 1      0.000000
Cartões ve

# NaN na coluna positions

Como a posição não é um valor numérico (mas sim uma categoria), não tem como substiuir pela média ou mediana. Contudo, podemos:
- Marcar como "ausente" 
- Atribuir a posição mais frequente 
- Simplesmente desconsiderá-la (não gostaria de fazer isso, mas também é uma opção)

    Substitui pela posição mais frequente, mas podemos mudar mais para frente se percebermos que é melhor deixá-la como "ausente". Além disso, apliquei a melhoria de considerar a posição mais frequente para cada time, ao invés da mais fequente no geral. 

In [6]:
filtro = (df_corrigido["Position 1"].isna() | df_corrigido["Position 2"].isna())
df_corrigido[filtro]

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2
5,5.0,5.0,1.0,0.0,2.0,4.0,3.0,7.0,21.0,11.0,...,,,,,43.0,57.0,Motherwell,Hibernian,,4-2-3-1
6,2.0,2.0,0.0,1.0,5.0,8.0,1.0,7.0,11.0,8.0,...,,,,,32.0,68.0,Dundee U.,Glasgow Rangers,,4-3-3
7,3.0,4.0,5.0,1.0,4.0,0.0,3.0,6.0,11.0,11.0,...,,,,,49.0,51.0,St. Mirren,Hearts,,3-4-2-1
10,4.0,5.0,4.0,1.0,8.0,6.0,5.0,5.0,12.0,10.0,...,,,,,52.0,48.0,St.Johnstone,Motherwell,3-4-2-1,
17,5.0,11.0,6.0,0.0,2.0,11.0,2.0,6.0,9.0,8.0,...,,,,,33.0,67.0,Ross County,Glasgow Rangers,4-5-1,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23916,2.0,2.0,1.0,0.0,7.0,2.0,8.0,3.0,11.0,13.0,...,13.0,12.0,1.0,1.0,50.0,50.0,Crystal Palace,Tottenham,,
23917,5.0,6.0,1.0,3.0,4.0,8.0,3.0,6.0,8.0,11.0,...,14.0,9.0,4.0,2.0,50.0,50.0,Arsenal,Watford,,
24223,10.0,1.0,0.0,4.0,8.0,2.0,9.0,4.0,7.0,4.0,...,8.0,7.0,1.0,8.0,68.0,32.0,Tottenham,Crystal Palace,,
25275,6.0,1.0,3.0,0.0,5.0,4.0,10.0,5.0,6.0,18.0,...,,,,,53.0,47.0,Liverpool,Manchester Utd,4-3-3,


In [7]:
# Fiz duas vezes, uma para mudar todos os position 1 nulos, e outro para os position 2. Tenho quase certeza de que consigo fazer 
# um código que unifique os dois, mas não estava conseguindo.

filtro = df_corrigido["Position 1"].isna() # Filtro para os itens cuja posição 1 é nula
for linha in df_corrigido[filtro].index: # Percorremos cada linha do data frame filtrado

    # Buscamos a posição mais comum para aquele time, tanto quando ele é time da casa quanto quando é visitante,
    # criando dois dataframes diferentes e os concatenando. Então, vemos a moda, e a atribuímos como valor padrão ao invés do NaN
    time = df_corrigido.at[linha, "Time 1"]

    df_time_position1 = df[df["Time 1"] == time][["Time 1", "Position 1"]]
    df_time_position1 = df_time_position1.rename(columns={"Time 1":"Time", "Position 1":"Position"})

    df_time_position2 = df[df["Time 2"] == time][["Time 2", "Position 2"]]
    df_time_position2 = df_time_position2.rename(columns={"Time 2":"Time", "Position 2":"Position"})

    df_time = pd.concat([df_time_position1, df_time_position2])
    
    posicao_comum = df_time["Position"].mode()
    df_corrigido.at[linha, "Position 1"] = posicao_comum[0]

# repetimos o processo para a posição 2:
filtro = df_corrigido["Position 2"].isna() 
for linha in df_corrigido[filtro].index:
    time = df_corrigido.at[linha, "Time 1"]

    df_time_position1 = df[df["Time 1"] == time][["Time 1", "Position 1"]]
    df_time_position1 = df_time_position1.rename(columns={"Time 1":"Time", "Position 1":"Position"})

    df_time_position2 = df[df["Time 2"] == time][["Time 2", "Position 2"]]
    df_time_position2 = df_time_position2.rename(columns={"Time 2":"Time", "Position 2":"Position"})

    df_time = pd.concat([df_time_position1, df_time_position2])
    
    posicao_comum = df_time["Position"].mode()
    df_corrigido.at[linha, "Position 2"] = posicao_comum[0]

In [8]:
# Checando que realmente não há mais nenhum item com posição nula mostrando o data frame filtrado, e as porcentagens:

filtro = (df_corrigido["Position 1"].isna() | df_corrigido["Position 2"].isna())
display(df_corrigido[filtro])

nan_percent = df_corrigido.isna().mean() * 100
print(nan_percent["Position 1"])
print(nan_percent["Position 2"])

Unnamed: 0,Chutes a gol 1,Chutes a gol 2,Impedimentos 1,Impedimentos 2,Escanteios 1,Escanteios 2,Chutes fora 1,Chutes fora 2,Faltas 1,Faltas 2,...,Tiros-livres 1,Tiros-livres 2,Defesas difíceis 1,Defesas difíceis 2,Posse 1(%),Posse 2(%),Time 1,Time 2,Position 1,Position 2


0.0
0.0


    Então, percebi que estava me esquecendo de um detalhe crucial: não sabemos o quão frequente a posição mais comum realmente é

In [9]:
# Checando que não há nenhum time que só jogou jogos como time 1 ou como time 2 (apenas por desencargo): 

a = df["Time 1"].unique()
b = df["Time 2"].unique()

for element in a:
    if not (element in b):
        print(element)

In [10]:
# quantidade de posições únicas usadas por um mesmo time, e a média desse valor 
# (aqui já podemos notar que os times no geral usam muitas posições diferentes)

lista_times = df["Time 1"].unique()
posicoes_unicas = []

for time in lista_times:
    df_time1 = df[df["Time 1"] == time][["Position 1"]]
    df_time1 = df_time1.rename(columns={"Position 1":"Position"})
    
    df_time2 = df[df["Time 2"] == time][["Position 2"]]
    df_time2 = df_time2.rename(columns={"Position 2":"Position"})

    df_concatenado = pd.concat([df_time1, df_time2])

    posicoes_unicas.append(df_concatenado["Position"].nunique())

posicoes_unicas = sorted(list(posicoes_unicas), reverse=True)
print(posicoes_unicas)
print(sum(posicoes_unicas)/len(posicoes_unicas))

[23, 21, 20, 20, 19, 19, 19, 19, 19, 19, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 17, 17, 17, 17, 17, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4

In [11]:
# porcentagem dos casos em que a moda é usada por cada time, e a média desse valor

lista_times = df["Time 1"].unique()
posicoes_unicas = []

for time in lista_times:
    df_time1 = df[df["Time 1"] == time][["Position 1"]]
    df_time1 = df_time1.rename(columns={"Position 1":"Position"})
    
    df_time2 = df[df["Time 2"] == time][["Position 2"]]
    df_time2 = df_time2.rename(columns={"Position 2":"Position"})

    df_concatenado = pd.concat([df_time1, df_time2])


    quantidade_moda = df_concatenado["Position"].value_counts()[df_concatenado["Position"].mode()[0]]
    total = df_concatenado["Position"].notna().sum()
    
    porcentagem = (quantidade_moda/total) * 100

    posicoes_unicas.append(porcentagem)

posicoes_unicas = sorted(list(posicoes_unicas), reverse=True)
print(posicoes_unicas)
print(sum(posicoes_unicas)/len(posicoes_unicas))

[np.float64(100.0), np.float64(100.0), np.float64(100.0), np.float64(100.0), np.float64(97.77777777777777), np.float64(97.36842105263158), np.float64(96.66666666666667), np.float64(96.66666666666667), np.float64(94.73684210526315), np.float64(94.44444444444444), np.float64(94.11764705882352), np.float64(93.33333333333333), np.float64(92.3076923076923), np.float64(90.43062200956938), np.float64(90.13157894736842), np.float64(87.71929824561403), np.float64(86.95652173913044), np.float64(86.95652173913044), np.float64(86.20689655172413), np.float64(86.02620087336244), np.float64(85.52631578947368), np.float64(84.44444444444444), np.float64(84.21052631578947), np.float64(84.21052631578947), np.float64(83.33333333333334), np.float64(82.66666666666667), np.float64(82.6086956521739), np.float64(82.35294117647058), np.float64(82.35294117647058), np.float64(80.43478260869566), np.float64(80.0), np.float64(79.45205479452055), np.float64(78.94736842105263), np.float64(78.94736842105263), np.float

    Ou seja, os times usam sua posição mais comum, em média, 50% das vezes. Há aqueles times que a usam praticamente sempre, mas também temos alguns times que utilizam várias posições frequentemente, de forma que é difícil dizer uma posição realmente padrão. Então, teremos que desenvolver uma ideia melhor para como tratar esse NaN.

# Colunas que possuem vários NaN

Precisamos analisar como trataremos as colunas que possuem mais de 45% faltando

# Descobrindo se a quantidade de gols feitos está dentro da quantidade de chutes a gol

Na última reunião, foi levantada a questão da relação entre as variáveis chutes a gol e gols. Mais especificamente, se os gols que foram marcados também eram considerados chutes a gol, ou se os chutes a gol seriam apenas as "falhas". Testei esta hipótese checando se havia algum caso em que a quantidade de gols era maior que a quantidade de chutes a gol (já que, se isso fosse verdade, então com certeza os gols não são contados como chutes a gol).

In [12]:
filtro = (df["Gols 1"] > df["Chutes a gol 1"]) | (df["Gols 2"] > df["Chutes a gol 2"])
df[filtro][["Gols 1", "Chutes a gol 1", "Chutes a gol 2", "Gols 2"]].head()

Unnamed: 0,Gols 1,Chutes a gol 1,Chutes a gol 2,Gols 2
85,1.0,0.0,4.0,2.0
121,3.0,2.0,3.0,1.0
131,3.0,0.0,0.0,2.0
307,2.0,0.0,0.0,0.0
419,3.0,7.0,1.0,4.0


Como há casos em que gols > chutes a gol, sabemos que gols não são contados como chutes a gol. Isso também é interessante pois temos como conseguir a taxa de acerto de um time, considerando a quantidade de gols como sucessos e a quantidade de chutes a gol como falhas (imagino que talvez venha a ser útil no modelo de aprendizado de máquina). 