Obtenção e Transformação 

---



In [49]:
import pandas as pd 
import numpy as np 

In [52]:
#importação dos dados via read_csv
df_jogos = pd.read_csv('dados/campeonato-brasileiro-full.csv',sep=',',encoding = "UTF-8")
df_estatisticas = pd.read_csv('dados/campeonato-brasileiro-estatisticas-full.csv', sep=',',encoding = "UTF-8")

In [54]:
#colocando todas as colunas em minusculo
df_jogos.columns = df_jogos.columns.str.lower()
df_estatisticas.columns = df_estatisticas.columns.str.lower()

In [55]:
df_jogos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8025 entries, 0 to 8024
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  8025 non-null   int64 
 1   rodata              8025 non-null   int64 
 2   data                8025 non-null   object
 3   hora                8025 non-null   object
 4   mandante            8025 non-null   object
 5   visitante           8025 non-null   object
 6   formacao_mandante   3051 non-null   object
 7   formacao_visitante  3051 non-null   object
 8   tecnico_mandante    3415 non-null   object
 9   tecnico_visitante   3415 non-null   object
 10  vencedor            8025 non-null   object
 11  arena               8025 non-null   object
 12  mandante_placar     8025 non-null   int64 
 13  visitante_placar    8025 non-null   int64 
 14  mandante_estado     8025 non-null   object
 15  visitante_estado    8025 non-null   object
dtypes: int64(4), object(12)


In [57]:
df_estatisticas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16050 entries, 0 to 16049
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   partida_id       16050 non-null  int64 
 1   rodata           16050 non-null  int64 
 2   clube            16050 non-null  object
 3   chutes           16050 non-null  int64 
 4   chutes_no_alvo   16050 non-null  int64 
 5   posse_de_bola    6838 non-null   object
 6   passes           16050 non-null  int64 
 7   precisao_passes  6838 non-null   object
 8   faltas           16050 non-null  int64 
 9   cartao_amarelo   16050 non-null  int64 
 10  cartao_vermelho  16050 non-null  int64 
 11  impedimentos     16050 non-null  int64 
 12  escanteios       16050 non-null  int64 
dtypes: int64(10), object(3)
memory usage: 1.6+ MB


In [None]:
#renomeando as colunas
df_jogos.rename(columns={'id':'partida_id'},inplace=True)
df_jogos.rename(columns={'rodata':'rodada'},inplace=True)
df_estatisticas.rename(columns={'rodata':'rodada'},inplace=True)

In [58]:
# left join dos dados de mandante
dfmandante = pd.merge(df_jogos,df_estatisticas,how='left',right_on=['partida_id','clube'],left_on=['partida_id','mandante'])
# left join dos dados de visitante
df = pd.merge(dfmandante,df_estatisticas,how='left',right_on=['partida_id','clube'],left_on=['partida_id','visitante'])

In [59]:
# renomenando as colunas de mandante e visitante
df.columns = ['partida_id', 'rodada', 'data', 'hora', 'mandante', 'visitante', 'formacao_mandante', 'formacao_visitante', 'tecnico_mandante', 'tecnico_visitante', 'vencedor', 'arena', 'mandante_placar', 'visitante_placar', 'mandante_estado', 'visitante_estado', 'rodata_mandante', 'clube_mandante', 'chutes_mandante', 'chutes_no_alvo_mandante', 'posse_de_bola_mandante', 'passes_mandante', 'precisao_passes_mandante', 'faltas_mandante', 'cartao_amarelo_mandante', 'cartao_vermelho_mandante', 'impedimentos_mandante', 'escanteios_mandante', 'rodata_visitante', 'clube_visitante', 'chutes_visitante', 'chutes_no_alvo_visitante', 'posse_de_bola_visitante', 'passes_visitante', 'precisao_passes_visitante', 'faltas_visitante', 'cartao_amarelo_visitante', 'cartao_vermelho_visitante', 'impedimentos_visitante', 'escanteios_visitante']

In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8025 entries, 0 to 8024
Data columns (total 41 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   partida_id                 8025 non-null   int64         
 1   rodada                     8025 non-null   int64         
 2   data                       8025 non-null   datetime64[ns]
 3   hora                       8025 non-null   object        
 4   mandante                   8025 non-null   object        
 5   visitante                  8025 non-null   object        
 6   formacao_mandante          3051 non-null   object        
 7   formacao_visitante         3051 non-null   object        
 8   tecnico_mandante           3415 non-null   object        
 9   tecnico_visitante          3415 non-null   object        
 10  vencedor                   8025 non-null   object        
 11  arena                      8025 non-null   object        
 12  mandan

In [61]:
#Converte a data do tipo objeto para o tipo datetime e cria a coluna ano
df["data"] = pd.to_datetime(df["data"],format='%d/%m/%Y',dayfirst=True)
# Criar a coluna temporada com conforme as datas das partidas
df["temporada"] = df["data"].dt.year

In [63]:
# Devido a pandamia o campeonato brasileiro 2020 foi entre o ano de 2020 e 2021
df.loc[(df["data"]>="2020/08/08") & (df["data"]<="2021/02/25"),"temporada" ] = 2020
df.loc[(df["data"]>="2021/05/29") & (df["data"]<="2021/12/09"),"temporada" ] = 2021

In [64]:
#copia do dataset para o df2, pois df2 terá somente as temporadas de 2018 a 2022
df2 = df[df['temporada']>=2018].copy(deep=True)

In [65]:
# Verificando que não há dados nulos ou ausentes no dataset
df2.isna().sum()

partida_id                   0
rodada                       0
data                         0
hora                         0
mandante                     0
visitante                    0
formacao_mandante            0
formacao_visitante           0
tecnico_mandante             0
tecnico_visitante            0
vencedor                     0
arena                        0
mandante_placar              0
visitante_placar             0
mandante_estado              0
visitante_estado             0
rodata_mandante              0
clube_mandante               0
chutes_mandante              0
chutes_no_alvo_mandante      0
posse_de_bola_mandante       0
passes_mandante              0
precisao_passes_mandante     0
faltas_mandante              0
cartao_amarelo_mandante      0
cartao_vermelho_mandante     0
impedimentos_mandante        0
escanteios_mandante          0
rodata_visitante             0
clube_visitante              0
chutes_visitante             0
chutes_no_alvo_visitante     0
posse_de

In [66]:
#Definindo coluna de vitoria mandante,vitoria visitante e empates
df2['resultado'] = df2.apply(lambda x: 1 if x["vencedor"] == x["mandante"] else 2 if x["vencedor"] == x["visitante"] else 3 if x["vencedor"] == '-' else 9999  ,axis=1)

#verificando se houve erros no apply
df2[(df2['resultado']==999)]

Unnamed: 0,partida_id,rodada,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_placar,visitante_placar,mandante_estado,visitante_estado,rodata_mandante,clube_mandante,chutes_mandante,chutes_no_alvo_mandante,posse_de_bola_mandante,passes_mandante,precisao_passes_mandante,faltas_mandante,cartao_amarelo_mandante,cartao_vermelho_mandante,impedimentos_mandante,escanteios_mandante,rodata_visitante,clube_visitante,chutes_visitante,chutes_no_alvo_visitante,posse_de_bola_visitante,passes_visitante,precisao_passes_visitante,faltas_visitante,cartao_amarelo_visitante,cartao_vermelho_visitante,impedimentos_visitante,escanteios_visitante,temporada,resultado


In [67]:
# Retira o % tendo em vista que iriemos converter o numero inteiro para percentual numerico
df2['posse_de_bola_mandante'] = df2['posse_de_bola_mandante'].replace({'%': ''}, regex=True)
df2['precisao_passes_mandante'] = df2['precisao_passes_mandante'].replace({'%': ''}, regex=True)
df2['posse_de_bola_visitante'] = df2['posse_de_bola_visitante'].replace({'%': ''}, regex=True)
df2['precisao_passes_visitante'] = df2['precisao_passes_visitante'].replace({'%': ''}, regex=True)

# Substitui valores ausentes ou 'None' por NaN
df2['posse_de_bola_mandante'] = df2['posse_de_bola_mandante'].replace({'None': np.nan})
df2['precisao_passes_mandante']= df2['precisao_passes_mandante'].replace({'None': np.nan})
df2['posse_de_bola_visitante'] = df2['posse_de_bola_visitante'].replace({'None': np.nan})
df2['precisao_passes_visitante'] = df2['precisao_passes_visitante'].replace({'None': np.nan})

# convertendo o percentual numerico
df2['posse_de_bola_mandante'] = df2['posse_de_bola_mandante'].astype('Int64') /100
df2['precisao_passes_mandante'] = df2['precisao_passes_mandante'].astype('Int64') /100
df2['posse_de_bola_visitante'] = df2['posse_de_bola_visitante'].astype('Int64') /100
df2['precisao_passes_visitante'] = df2['precisao_passes_visitante'].astype('Int64') /100


In [68]:
# identificado 24 linhas com valores na e zerados, que irá influenciar na analise 
df2[(df2['precisao_passes_visitante'].isna())].describe()

Unnamed: 0,partida_id,rodada,mandante_placar,visitante_placar,rodata_mandante,chutes_mandante,chutes_no_alvo_mandante,posse_de_bola_mandante,passes_mandante,precisao_passes_mandante,faltas_mandante,cartao_amarelo_mandante,cartao_vermelho_mandante,impedimentos_mandante,escanteios_mandante,rodata_visitante,chutes_visitante,chutes_no_alvo_visitante,posse_de_bola_visitante,passes_visitante,precisao_passes_visitante,faltas_visitante,cartao_amarelo_visitante,cartao_vermelho_visitante,impedimentos_visitante,escanteios_visitante,temporada,resultado
count,24.0,24.0,24.0,24.0,24.0,24.0,24.0,0.0,24.0,0.0,24.0,24.0,24.0,24.0,24.0,24.0,24.0,24.0,0.0,24.0,0.0,24.0,24.0,24.0,24.0,24.0,24.0,24.0
mean,6733.375,21.6667,1.0,1.0833,21.6667,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,21.6667,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2019.0417,1.9583
std,117.4508,10.2307,1.1795,0.9286,10.2307,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,10.2307,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,0.2041,0.8065
min,6517.0,2.0,0.0,0.0,2.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2019.0,1.0
25%,6645.5,13.0,0.0,0.75,13.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,13.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2019.0,1.0
50%,6746.5,23.0,1.0,1.0,23.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,23.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2019.0,2.0
75%,6811.75,30.25,1.25,1.25,30.25,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,30.25,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2019.0,3.0
max,7015.0,38.0,4.0,4.0,38.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,38.0,0.0,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,2020.0,3.0


In [69]:
# Removendo as linhas zeradas/NAN
print("Numero de Linhas " , df2.shape[0])
df2 = df2.dropna()
print("Numero de Linhas apos remover os NAN" , df2.shape[0])

Numero de Linhas  1900
Numero de Linhas apos remover os NAN 1876


In [70]:
#excluindo colunas desnecessárias para analise dos dados
df2.drop(columns=['data','hora',"tecnico_mandante","tecnico_visitante","arena",'mandante_estado','visitante_estado','rodata_mandante','clube_mandante','clube_visitante'],inplace=True)

In [71]:
#total_gols é a soma dos gols na partida
df2['total_gols'] = df2.apply(lambda x: x['mandante_placar'] + x['visitante_placar'],axis=1) 

In [72]:
df2.isna().sum()

partida_id                   0
rodada                       0
mandante                     0
visitante                    0
formacao_mandante            0
formacao_visitante           0
vencedor                     0
mandante_placar              0
visitante_placar             0
chutes_mandante              0
chutes_no_alvo_mandante      0
posse_de_bola_mandante       0
passes_mandante              0
precisao_passes_mandante     0
faltas_mandante              0
cartao_amarelo_mandante      0
cartao_vermelho_mandante     0
impedimentos_mandante        0
escanteios_mandante          0
rodata_visitante             0
chutes_visitante             0
chutes_no_alvo_visitante     0
posse_de_bola_visitante      0
passes_visitante             0
precisao_passes_visitante    0
faltas_visitante             0
cartao_amarelo_visitante     0
cartao_vermelho_visitante    0
impedimentos_visitante       0
escanteios_visitante         0
temporada                    0
resultado                    0
total_go

In [73]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1876 entries, 6125 to 8024
Data columns (total 33 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   partida_id                 1876 non-null   int64  
 1   rodada                     1876 non-null   int64  
 2   mandante                   1876 non-null   object 
 3   visitante                  1876 non-null   object 
 4   formacao_mandante          1876 non-null   object 
 5   formacao_visitante         1876 non-null   object 
 6   vencedor                   1876 non-null   object 
 7   mandante_placar            1876 non-null   int64  
 8   visitante_placar           1876 non-null   int64  
 9   chutes_mandante            1876 non-null   int64  
 10  chutes_no_alvo_mandante    1876 non-null   int64  
 11  posse_de_bola_mandante     1876 non-null   Float64
 12  passes_mandante            1876 non-null   int64  
 13  precisao_passes_mandante   1876 non-null   Fl

In [74]:
#salvando o arquivo para analise de dados e machine learning
df2.to_csv("dados/transformado.csv",index=False,sep=',')