* **Bibliotecas:**

In [22]:
import pandas as pd
import numpy as np

from pandasql import sqldf
# Atalho para query
pysqldf = lambda q: sqldf(q, globals())

---

# Atividade 1:

* **Importando as bases de dados:**

In [23]:
df_full = pd.read_csv('campeonato-brasileiro-full.csv')
df_estat = pd.read_csv('campeonato-brasileiro-estatisticas-full.csv')
df_cartoes = pd.read_csv('campeonato-brasileiro-cartoes.csv')
df_gols = pd.read_csv('campeonato-brasileiro-gols.csv')

Para garantir a consistência entre as bases de dados, irei manter apenas as partidas presentes em todas as bases.

In [24]:
# Query para obter os ids em comum das partidas
query = """
SELECT DISTINCT 
    full.ID AS partida_id_comuns
FROM 
    df_full AS full
INNER JOIN 
    df_estat AS estat
    ON full.ID = estat.partida_id
INNER JOIN 
    df_cartoes AS cartoes
    ON full.ID = cartoes.partida_id
INNER JOIN 
    df_gols AS gols
    ON full.ID = gols.partida_id
"""
ids_comuns_df = pysqldf(query)

# Convertido para lista para filtrar partidas com .isin()
ids_comuns = ids_comuns_df['partida_id_comuns'].tolist()

# Filtrando partidas compatíveis
df_full = df_full[df_full['ID'].isin(ids_comuns)]
df_estato = df_estat[df_estat['partida_id'].isin(ids_comuns)]
df_cartoes = df_cartoes[df_cartoes['partida_id'].isin(ids_comuns)]
df_gols = df_gols[df_gols['partida_id'].isin(ids_comuns)]

## Base de dados `full`: 

|       Coluna       |           Tipo          |
|:------------------:|:-----------------------:|
| ID                 | _int_                   |
| rodata             | _int_                   |
| data               | _datetime_ (dd/mm/aaaa) |
| hora               | _datetime_ (hh:mm)      |
| mandante           | _string_                |
| visitante          | _string_                |
| formacao_mandante  | _string_                |
| formacao_visitante | _string_                |
| vencedor           | _string_                |
| mandante_Placar    | _int_                   |
| visitante_Placar   | _int_                   |

As colunas `tecnico_mandante`, `tecnico_visitante`, `mandante_Estado`, `visitante_Estado` e `arena` foram removidas por serem irrelevantes para a análise proposta.

* **Convertendo tipos de colunas no DataFrame `full`**:

In [25]:
# Removendo colunas
df_full = df_full.drop(columns=
                       ['tecnico_mandante', 'tecnico_visitante',
                        'mandante_Estado', 'visitante_Estado', 'arena'])

# Int
df_full['ID'] = df_full['ID'].astype(int)
df_full['rodata'] = df_full['rodata'].astype(int)
df_full['mandante_Placar'] = df_full['mandante_Placar'].astype(int)
df_full['visitante_Placar'] = df_full['visitante_Placar'].astype(int)

# Datetime
df_full['data'] = pd.to_datetime(df_full['data'], format='%d/%m/%Y')
df_full['hora'] = pd.to_datetime(df_full['hora'], format='%H:%M', errors='coerce').dt.time

# Strings
df_full['mandante'] = df_full['mandante'].astype('string')
df_full['visitante'] = df_full['visitante'].astype('string')
df_full['formacao_mandante'] = df_full['formacao_mandante'].astype('string')
df_full['formacao_visitante'] = df_full['formacao_visitante'].astype('string')
df_full['vencedor'] = df_full['vencedor'].astype('string')


* **Verificando proporção de NaN nas colunas:**

In [26]:
# Função que retorna dataframe com proporção de NaN por coluna
def NaN_prop(df):
    df_prop = df.isna().mean().to_frame('proporção de NaN')
    df_prop = df_prop[df_prop['proporção de NaN'] > 0]  # apenas colunas que tem NaN
    return df_prop

NaN_prop(df_full)

Unnamed: 0,proporção de NaN
formacao_mandante,0.087743
formacao_visitante,0.087743


In [27]:
# Tabela com as colunas que tem dados faltantes
print(df_full.sort_values('ID')[['formacao_mandante', 'formacao_visitante']])

     formacao_mandante formacao_visitante
4606              <NA>               <NA>
4607              <NA>               <NA>
4611              <NA>               <NA>
4610              <NA>               <NA>
4609              <NA>               <NA>
...                ...                ...
8783           4-2-3-1          4-1-2-1-2
8778             4-3-3            4-3-2-1
8780             4-3-3            4-3-2-1
8781           4-2-3-1            4-2-3-1
8784             4-4-2            4-3-1-2

[3761 rows x 2 columns]


Observa-se que os dados faltantes na variável de formação ocorrem porque, nos primeiros campeonatos, essa informação não era registrada. Dessa forma, não existe maneira de inputar esses dados. Além disso, a quantidade de valores ausentes é pequena, Inicialmente, opta-se por manter os dados faltantes.

## Base de dados `estat`: 

|      Coluna       |          Tipo           |
|:-----------------:|:-----------------------:|
| partida_id        | _int_                   |
| rodata            | _int_                   |
| clube             | _string_                |
| chutes            | _int_                   |
| chutes_no_alvo    | _int_                   |
| posse_de_bola     | _float_  |
| passes            | _int_                   |
| precisao_passes   | _float_   |
| faltas            | _int_                   |
| cartao_amarelo    | _int_                   |
| cartao_vermelho   | _int_                   |
| impedimentos      | _int_                   |
| escanteios        | _int_                   |



* **Convertendo tipos de colunas no DataFrame `estat`**:

In [28]:
# Int
df_estat['partida_id'] = df_estat['partida_id'].astype(int)
df_estat['rodata'] = df_estat['rodata'].astype(int)
df_estat['chutes'] = df_estat['chutes'].astype(int)
df_estat['chutes_no_alvo'] = df_estat['chutes_no_alvo'].astype(int)
df_estat['passes'] = df_estat['passes'].astype(int)
df_estat['faltas'] = df_estat['faltas'].astype(int)
df_estat['cartao_amarelo'] = df_estat['cartao_amarelo'].astype(int)
df_estat['cartao_vermelho'] = df_estat['cartao_vermelho'].astype(int)
df_estat['impedimentos'] = df_estat['impedimentos'].astype(int)
df_estat['escanteios'] = df_estat['escanteios'].astype(int)

# Strings
df_estat['clube'] = df_estat['clube'].astype('string')

# Convertendo percentuais para float
df_estat['posse_de_bola'] = df_estat['posse_de_bola'].str.replace('%', '', regex=False) # remove '%'
df_estat['posse_de_bola'] = df_estat['posse_de_bola'].astype(float)/100 # divide por 100

df_estat['precisao_passes'] = df_estat['precisao_passes'].str.replace('%', '', regex=False) # remove '%'
df_estat['precisao_passes'] = df_estat['precisao_passes'].astype(float)/100 # divide por 100

In [29]:
NaN_prop(df_estat)

Unnamed: 0,proporção de NaN
posse_de_bola,0.611838
precisao_passes,0.743199


Novamente a presença de dados faltantes é causado pela falta de registro dessas informações em parte das partidas. Isso torna difícil inputar esses dados. Além disso, é importante destacar que a quantidade de valores ausentes é muito grande. Inicialmente, opta-se por manter os dados faltantes.

## Base de dados `cartoes`: 

|     Coluna     |           Tipo           |
|:--------------:|:------------------------:|
| partida_id     | _int_                    |
| rodata         | _int_                    |
| clube          | _string_                 |
| cartao         | _string_                 |
| atleta         | _string_                 |

As colunas `num_camisa`, `posicao` e `minuto` foram removidas por serem irrelevantes para a análise proposta.

* **Convertendo tipos de colunas no DataFrame `cartoes`**:

In [30]:
# Removendo colunas
df_cartoes = df_cartoes.drop(columns=
                             ['num_camisa', 'posicao', 'minuto'])

# Int
df_cartoes['partida_id'] = df_cartoes['partida_id'].astype(int)
df_cartoes['rodata'] = df_cartoes['rodata'].astype(int)

# Strings
df_cartoes['clube'] = df_cartoes['clube'].astype('string')
df_cartoes['cartao'] = df_cartoes['cartao'].astype('string')
df_cartoes['atleta'] = df_cartoes['atleta'].astype('string')

In [31]:
NaN_prop(df_cartoes)

Unnamed: 0,proporção de NaN
atleta,0.000312


In [32]:
print(df_cartoes[df_cartoes['atleta'].isna()])

       partida_id  rodata          clube    cartao atleta
8471         6303      20        Vitoria   Amarelo   <NA>
8966         6420      30        Vitoria   Amarelo   <NA>
12359        7124      24  Internacional   Amarelo   <NA>
13102        7291       3  Internacional  Vermelho   <NA>
13174        7309       5  Internacional   Amarelo   <NA>
13281        7332       7  Internacional   Amarelo   <NA>


Apenas seis registros apresentam o nome do atleta como dado faltante. Como essa informação não é tão essencial, e não faz sentido inputar ou excluir esses registros, opta-se por manter os dados faltantes.

## Base de dados `gols`: 

|     Coluna     |         Tipo         |
|:--------------:|:--------------------:|
| partida_id     | _int_                |
| rodata         | _int_                |
| clube          | _string_             |
| atleta         | _string_             |
| minuto         | _int_     |
| acrescimo | _int_ |
| tipo_de_gol    | _string_ |

A variável `acrescimo` foi criada para quando o gol foi feito durante o tempo de acréscimo de um dos tempos. Quando o gol não acontece no acréscimo, o valor atribuído é 0; caso contrário, o valor representa o minuto do acréscimo em que o gol foi marcado.

* **Convertendo tipos de colunas no DataFrame `gols`**:

In [33]:
# Preparando a coluna acrescimo
df_gols[['minuto', 'acrescimo']] = df_gols['minuto'].str.split('+', expand=True)
df_gols['acrescimo'] = df_gols['acrescimo'].fillna(0) # Substitui os None por 0 (não aconteceu no acréscimo)

# Inteiros
df_gols['partida_id'] = df_gols['partida_id'].astype(int)
df_gols['rodata'] = df_gols['rodata'].astype(int)
df_gols['minuto'] = df_gols['minuto'].astype(int)
df_gols['acrescimo'] = df_gols['acrescimo'].astype(int)

# Strings
df_gols['clube'] = df_gols['clube'].astype('string')
df_gols['atleta'] = df_gols['atleta'].astype('string')
df_gols['tipo_de_gol'] = df_gols['tipo_de_gol'].astype('string')

In [34]:
NaN_prop(df_gols)

Unnamed: 0,proporção de NaN
tipo_de_gol,0.879312


In [35]:
print(df_gols['tipo_de_gol'])

0             <NA>
1       Gol Contra
2          Penalty
3             <NA>
4             <NA>
           ...    
9856          <NA>
9857          <NA>
9858          <NA>
9859       Penalty
9860          <NA>
Name: tipo_de_gol, Length: 9711, dtype: string


Os dados faltantes na variável `tipo_de_gol` ocorrem porque não há uma categoria explícita para gols a favor. Para padronizar a variável, os valores ausentes serão imputados com a categoria "Gol":

In [36]:
df_gols['tipo_de_gol'] = df_gols['tipo_de_gol'].fillna("Gol")

---

# Atividade 2:

In [37]:
# Criando 2 dataframes para estatísticas do mandante e visitante
# para não precisar renomear as colunas manualmente
df_estat_mandante, df_estat_visitante  = df_estat.copy(), df_estat.copy()
df_estat_mandante, df_estat_visitante = (
    df_estat_mandante.add_prefix('mandante_'),
    df_estat_visitante.add_prefix('visitante_')
)

# Mudando de sufixo para prefixo
df_full = df_full.rename(columns={
    'formacao_mandante': 'mandante_formacao',
    'formacao_visitante': 'visitante_formacao'
})


query = """
SELECT *
FROM 
    df_full
LEFT JOIN 
    df_estat_mandante
    ON ID = mandante_partida_id AND mandante = mandante_clube
LEFT JOIN 
    df_estat_visitante
    ON ID = visitante_partida_id AND visitante = visitante_clube
"""

df_partidas = pysqldf(query)

# Removendo colunas redundantes
df_partidas = df_partidas.drop(columns=[
    'mandante_partida_id',
    'mandante_rodata',
    'mandante_clube',
    'visitante_partida_id',
    'visitante_rodata',
    'visitante_clube'
])

* **Imprimindo colunas do _dataframe_ `partidas`:**

In [38]:
print(df_partidas.columns)

Index(['ID', 'rodata', 'data', 'hora', 'mandante', 'visitante',
       'mandante_formacao', 'visitante_formacao', 'vencedor',
       'mandante_Placar', 'visitante_Placar', 'mandante_chutes',
       'mandante_chutes_no_alvo', 'mandante_posse_de_bola', 'mandante_passes',
       'mandante_precisao_passes', 'mandante_faltas',
       'mandante_cartao_amarelo', 'mandante_cartao_vermelho',
       'mandante_impedimentos', 'mandante_escanteios', 'visitante_chutes',
       'visitante_chutes_no_alvo', 'visitante_posse_de_bola',
       'visitante_passes', 'visitante_precisao_passes', 'visitante_faltas',
       'visitante_cartao_amarelo', 'visitante_cartao_vermelho',
       'visitante_impedimentos', 'visitante_escanteios'],
      dtype='object')


---