<a href="https://colab.research.google.com/github/ti-a-go/estatistica-e-futebol/blob/main/An%C3%A1lise_Explorat%C3%B3ria_Campeoneto_Brasileiro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estatística e Futebol



Esse texto tem como base o livro [Noções de Probabilidade e Estatística](https://www.edusp.com.br/livros/nocoes-de-probabilidade-e-estatistica/), dos autores Marcos Magalhães e Antonio Lima, ambos professores da USP.

O livro apresenta os conceitos de estatística descritiva em paralelo com conceitos mais teóricos sobre probabilidade e variáveis aleatórias.

Por isso, vamos utilizar o livro para nos guiar na análise exploratória de dados sobre o Campeonato Brasileiro de futebol masculino.

Os dados utilizados podem ser acessados [nesse repositório no Github](https://github.com/adaoduque/Brasileirao_Dataset).

<img src="https://www.edusp.com.br/wp-content/uploads/2018/06/nocoes-de-probabilidade-e-estatistica.jpg" alt="drawing" width="200"/>

<!-- [<img src="https://raw.githubusercontent.com/yurijserrano/Github-Profile-Readme-Logos/refs/heads/master/cloud/github.svg" alt="drawing" width="100"/>](https://github.com/adaoduque/Brasileirao_Dataset)
 -->





# O que é Estatística


O livro começa assim:

> Neste capítulo, pretendemos formalizar alguns conceitos que constituem a base de **técnicas** desenvolvidas com a finalidade de auxiliar a responder, **de forma objetiva e segura**, situações que envolvem uma **grande quantidade de informações**.

Nesse notebook, vamos focar em aplicar essas **técnicas** estatísticas com a finalidade de responder algumas questões sobre os 20 anos de Campeonato Brasileiro (CB) de futebol masculino.

O Campeonato Brasileiro desde 2003 é disputado na modalidade **pontos corridos**, ou **liga**. Isso quer dizer que os times se enfrentam todos contra todos ao invés de divididos em grupos que se classificam para a fase de mata-mata.

<img src="https://upload.wikimedia.org/wikipedia/pt/4/42/Campeonato_Brasileiro_S%C3%A9rie_A_logo.png" alt="drawing" width="100"/>

De 2003 até 2023 são 20 anos, vários jogos, muitos gols, algumas goleadas e muitos dados gerados. Infelizmente não temos acesso a todos esses dados, mas conseguimos encontrar bastante dados sobre o (CB) graças à comunidade open source que disponibilizou através
do Github os dados que iremos utilizar aqui. Salve Open Source!

# Estatística Descritiva



Segundo os autores:

> De modo geral podemos dividir a Estatística em três áreas:
- Estatística Descritiva
- Probabilidade
- Inferência Estatística

> A estatística descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse.

O nosso foco aqui é a estatística descritiva, ou seja, descrever os dados que temos sobre o Brasileirão a fim de que possamos tirar conclusões a respeito de número de gols marcados por cada jogador e cada time, times com mais ou menos número de vitória, estádios com maior número de jogos...

Probabilidade e Inferência Estatística não serão tratados nesse notebook.

# Carregando os Dados

Os dados utilizados aqui foram disponibilizados pelo usuário Adão L. Duque [no seu repositório](https://github.com/adaoduque/Brasileirao_Dataset) do Github.

O nosso conjunto de dados é composto por quatro tabelas salvas em arquivos CSV.

Tabela de Gols: `campeonato-brasileiro-gols.csv`

Tabela de Jogos: `campeonato-brasileiro-full.csv`

Tabela de Estatísticas (finalizações, faltas, escanteios etc.): `campeonato-brasileiro-estatisticas-full.csv`

Tabela de Cartões: `campeonato-brasileiro-cartoes.csv`

Para esse texto de Introdução vamos utilizar o arquivo `campeonato-brasileiro-full.csv` que é uma tabela onde as são os jogos disputados nesses 20 anos de CB.

As colunas são as **características de interesse** relacionado aos jogos, ou seja, os times que disputaram a partida, os gols de cada time, o estádio, horário, rodada e mais alguns dados sobre a partida.

In [1]:
import pandas as pd
import numpy as np

dados_brutos = pd.read_csv('https://raw.githubusercontent.com/adaoduque/Brasileirao_Dataset/refs/heads/master/campeonato-brasileiro-full.csv')
dados_brutos

Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,4,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8400,8401,38,06/12/2023,21:32,Bahia,Atletico-MG,3-4-2-1,4-4-2,R. Ceni,L. Scolari,Bahia,Itaipava Arena Fonte Nova,4,1,BA,MG
8401,8402,38,06/12/2023,21:32,Cuiaba,Athletico-PR,5-3-2,3-4-3,A. Cardoso de Oliveira,W. Carvalho,Cuiaba,Arena Pantanal,3,0,MT,PR
8402,8403,38,06/12/2023,21:32,Santos,Fortaleza,3-4-1-2,4-2-3-1,M. Fernandes,J. Vojvoda,Fortaleza,Estádio Urbano Caldeira,1,2,SP,CE
8403,8404,38,06/12/2023,21:32,Sao Paulo,Flamengo,4-2-3-1,4-2-3-1,D. Silvestre Júnior,A. Bacchi,Sao Paulo,Morumbi,1,0,SP,RJ


## Renomear a coluna `rodata` para `rodada`

In [2]:
dados_brutos.columns = [
    'ID',
    'rodada',
    'data',
    'hora',
    'mandante',
    'visitante',
    'formacao_mandante',
    'formacao_visitante',
    'tecnico_mandante',
    'tecnico_visitante',
    'vencedor',
    'arena',
    'mandante_Placar',
    'visitante_Placar',
    'mandante_Estado',
    'visitante_Estado']

# Coleta de Dados



Voltando ao livro os autores retomam o conceito de Estatística:

> Entendemos a Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar, dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.

Aqui temos uma referência a **estudos** e **experimentos** que são a fonte dos dados utilizados pela Estatística.

Isso é uma coisa muito importante. Os dados utilizados precisam ser coletados de forma que reflitam o mais realista possível a realidade.

Ou seja, se vamos trabalhar com dados do Brasileirão para saber por exemplo, qual o jogador fez mais gols no período de 2003 a 2023, precisamos garantir que os dados foram coletados de forma que reflitam o que realmente aconteceu no Campeonato Brasileiro desse período.

Como já dissemos, a qualidade dos dados são impressindíveis para a Estatística. Mas o objetivo aqui é aprender a aplicar as técnicas Estatísticas, então vamos considerar que os dados que temos foram coletados da melhor forma possível e que tem uma qualidade aceitável.

Mas para projetos reais e não didáticos como esse, não adianta nada aplicar as técnicas corretamente antes de ter certeza da qualidade do dados.



# População e Amostra

Na nossa tabela de dados brutos, cada linha representa um único jogo.

Estamos interessados em analisar absolutamente todos os jogos do CB de 2003 até 2023, mas não podemos garantir que os dados que temos realmente possui dados sobre todos os jogos que estamos interessados.

O conjunto desses dados que temos interesses se chama **população**.

Na estatística a palavra população tem um significado especial, mas vamos começar pelo conceito de indivíduo.

O indivíduo é um único elemento que estamos analisando estatisticamente, no nosso caso: jogos de futebol do CB.

Exemplo: vamos analisar a primeira linha da nossa tabela que corresponde a um jogo.






In [3]:
dados_brutos.head(1)

Unnamed: 0,ID,rodada,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ


Nessa linha temos o jogo entre o Guarani e o Vasco ocorrido em 29 de março de 2003.

No nosso caso, esse jogo é um indivíduo porque ele é um único representante daquilo que estamos analisando: jogos do CB de futebol.




# População


A população é o conjunto de todos os indivíduos do fenômeno aleatório que estamos interessados em analisar.

No nosso caso a população é todos os jogos do CB de futebol masculino dos anos 2003 até 2023.

Como já foi mencionado acima, não temos como garantir que os dados que temos em mãos estão completos. Isso porque não participamos da coleta dos dados. Apenas baixamos ele do Github.

Ter acesso a dados sobre toda a população nem sempre é fácil e por isso geralmente utilizamos dados sobre apenas uma parte da nossa população: a amostra.

# Amostra

Uma amostra é um subconjunto da população.

Se a população é o conjunto de todos os dados sobre o fenômeno que queremos analisar (jogos do brasileirão no nosso caso) então a amostra é dados sobre alguns desses jogos.

Veja que população e amostra são sempre dependentes do caso em que estamos trabalhando, ou seja, do objetivo que temos ao analisar os dados.

No nosso caso, queremos descobrir coisas interessantes sobre esses 20 anos de CB. Por isso nossa população é todos esses jogos.

A gente poderia estar interessados apenas nos primeiros 10 anos do campeonato. Ou nos 10 últimos. Nesses casos a população seria diferente da do nosso caso.

### Uma amostra dos dados que temos: jogos do Bahia

Abaixo temos uma amostra dos nossos dados contento apenas os jogos do Esporte Clube Bahia.

Se você torce para outro time, pode alterar o valor da variável time para ter uma amostra baseada no seu time.

ex: `time = "Vitória"`

In [4]:
time = "Bahia"
dados_brutos.query(f"mandante == '{time}' or visitante == '{time}'")

Unnamed: 0,ID,rodada,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
7,8,1,30/03/2003,16:00,Fortaleza,Bahia,,,,,-,Castelão,0,0,CE,BA
16,17,2,06/04/2003,16:00,Bahia,Flamengo,,,,,Flamengo,Fonte Nova,1,2,BA,RJ
25,37,3,12/04/2003,16:00,Internacional,Bahia,,,,,Internacional,Beira Rio,2,0,RS,BA
37,26,4,16/04/2003,20:30,Bahia,Juventude,,,,,Bahia,Fonte Nova,3,1,BA,RS
49,49,5,19/04/2003,16:00,Bahia,Atletico-MG,,,,,Atletico-MG,Fonte Nova,2,4,BA,MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8359,8364,34,12/11/2023,18:31,Bahia,Athletico-PR,5-4-1,3-4-3,R. Ceni,W. Carvalho,-,Itaipava Arena Fonte Nova,1,1,BA,PR
8365,8366,35,24/11/2023,21:02,Corinthians,Bahia,4-2-3-1,4-2-3-1,L. Venker de Menezes,R. Ceni,Bahia,Neo Química Arena,1,5,SP,BA
8379,8379,36,29/11/2023,20:02,Bahia,Sao Paulo,3-4-3,4-2-3-1,R. Ceni,D. Silvestre Júnior,Sao Paulo,Itaipava Arena Fonte Nova,0,1,BA,SP
8390,8391,37,03/12/2023,18:30,America-MG,Bahia,4-1-4-1,3-5-2,D. Giacomini,R. Ceni,America-MG,Estádio Raimundo Sampaio,3,2,MG,BA


## Teoria da Amostragem

Segundo o livro:

> Tendo em vista as dificuldades de várias naturezas para se observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado. Esse subconjunto da população, em geral com dimansão sensivelmente menos, é denominado *amostra*.

Aqui os autores chamam atensão para a dificuldade de se conseguir dados sobre toda a população que queremos estudar. Por isso surgiram as teorias da amostragem: para podermos estudar a população a partir de uma parte dessa população chamada *amostra*

Existem vários tipos de amostragem e a Teoria da Amostragem é a área da Estatística que lida com esses conhecimentos.

Amostragem é muito importante para a Inferência Estatística, pois quando queremos inferir coisas sobre a população a partir de uma ou mais amostras, precisamos pensar muito bem em como vamos retirar essas amostras de forma que reflitam a população.

Um exemplo fora do futebol mas que vale a pena citar aqui são as pesquisas eleitorais de intenções de voto.

Essas pesquisas são feitas a partir de amostras e não com a população toda (população nesse caso é o conceito estatístico, não o signicado cotidiano de "conjunto de pessoas").

Por isso, essas amostras precisam ser feitas com base nos conceitos da Teoria da Amostragem para que possamos ter uma imagem mais field das intenções de voto.

## Tipos de Amostragem

### Amostragem Aleatória

> A amostragem mais utilizada é a *amostragem aleatória* (ou *casual*) *simples*, em que selecionamos ao acaso, com ou sem reposição, os itens da população que faram parte da amostra.



### Amostragem Extratificada

Amostragem extratificada é.........

### Amostragem Sistemática

É o caso da amostragem por time que fisemos no início dessa seção onde amostrei nossos dados com base no nome do time: Bahia.

Poderiámos utiliar outra regra para a amostragem sistemárica como: pegar apenas os jogos da primeira rodada de cada ano:

In [5]:
dados_brutos.query('rodada == 1')

Unnamed: 0,ID,rodada,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,4,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8030,8028,1,15/04/2023,18:33,Botafogo-RJ,Sao Paulo,4-2-3-1,4-1-4-1,L. Ribeiro de Castro,R. Ceni,Botafogo-RJ,Estádio Nilton Santos,2,1,RJ,SP
8031,8032,1,15/04/2023,21:00,Atletico-MG,Vasco,4-3-3,4-3-3,E. Coudet,M. Nogueira Barbieri,Vasco,Mineirão,1,2,MG,RJ
8032,8034,1,16/04/2023,16:00,Flamengo,Coritiba,4-2-3-1,4-3-3,J. Sampaoli Moya,A. Cardoso de Oliveira,Flamengo,Maracanã,3,0,RJ,PR
8033,8033,1,16/04/2023,16:03,Corinthians,Cruzeiro,4-2-3-1,4-2-3-1,F. Lázaro Rodrigues Alves,P. Marques da Costa Filipe,Corinthians,Neo Química Arena,2,1,SP,MG


# Joguinho: Quiz sobre os 20 Anos de Brasileirão

1. Selecionamos uma amostra aleatória do nosso conjunto de dados com o tamanho mínimo (1 elemento).

2. Selecionamos algumas caractetísticas dessa amostra, ex: mandante e visitante.

3. Pedimos ao usuário para tentar advinhar o placar.

Podemos fazer variações desse quiz.

## Esse é o código fonte do nosso minigame

In [25]:
def amostra_aleatoria():
  random_index = np.random.randint(0, dados_brutos.shape[0] + 1)
  sample = dados_brutos.loc[random_index,:]
  return sample[["data", "mandante", "visitante", "mandante_Placar", "visitante_Placar"]]

def quiz():
  amostra = amostra_aleatoria()
  mandante_placar = amostra.loc["mandante_Placar"]
  resultado = amostra.copy()
  amostra.loc["mandante_Placar"] = "?"
  return amostra, mandante_placar, resultado

def exibir_mensagem(chute: int, mandante_placar):
  if chute == mandante_placar:
    print("Acertou, miseravi!")
  else:
    print("É errando que se aprende!")

## Agora vamos jogar

Asseguir podemos ver uma tabela com algumas informações sobre uma amostra selecionada aleatóriamente.

Veja que o placar do mandante está oculto e vemos um sinal de interrogação.

In [26]:
amostra, mandante_placar, resultado = quiz()
amostra

Unnamed: 0,3937
data,18/07/2012
mandante,Gremio
visitante,Sport
mandante_Placar,?
visitante_Placar,1


Para jogar esse jogo, defina um valor numérico para a variável `chute` que corresponde ao placar que você acredita ser correspondente ao placar do mandante na partida da tabela acima.

Após definir o seu `chute` na célula abaixo, execute-a.

In [27]:
chute = 1

Após definir seu "chute", o resultado pode ser visto executanto a célula abaixo.

In [28]:
exibir_mensagem(chute, mandante_placar)
resultado

É errando que se aprende!


Unnamed: 0,3937
data,18/07/2012
mandante,Gremio
visitante,Sport
mandante_Placar,3
visitante_Placar,1


# O que são Dados

De volta ao livro:

> Estamos denominando por dados um (ou mais) conjunto de valores, numéricos ou não.

No futebol existem vários exemplos de dados: número de gols, de cartões, de finalizações, de escanteios...

Por isso utilizar dados sobre futebol é tão interessante para quem está aprendendo Estatística e Probabilidade, principalmente no país do futebol.

As colunas da nossa tabela de jogos representam dados sobre esses jogos:

In [9]:
pd.DataFrame({'Colunas': list(dados_brutos.columns)})

Unnamed: 0,Colunas
0,ID
1,rodada
2,data
3,hora
4,mandante
5,visitante
6,formacao_mandante
7,formacao_visitante
8,tecnico_mandante
9,tecnico_visitante


# Organização de Dados

No livro encontramos o seguinte trecho:

> Dado um conjunto de dados, como tratar os valores, numéricos ou não, a fim de se extrair informações a respeito de uma ou mais características de interesse? Basicamente faremos uso de *tabelas de frequências* e *gráficos*.

Nesse notebook já foram apresentadas algumas tabelas como a tabela de dados brutos, que é representada por um DataFrame da biblioteca Pandas.

Sobre a tabela de dados brutos o livro diz:

> Contém os dados da maneira que foram coletados inicialmente.

Os dados com os quais trabalhamos aqui foram coletados através de webscrapping e podemos analisar os scripts utilizados para isso no mesmo [repositório](https://github.com/adaoduque/Brasileirao_Dataset) de onde baixamos os dados, no Github.

# Variáveis

Os nossos dados, então, são uma tabela onde cada linha representa uma partida de futebol e cada coluna representa um dado sobre essa partida, como horário, times, placar etc.

Cada uma dessas informações sobre a partida é chamada de **variável**.

As variáveis são classificadas de acordo com o valor que ela representa.

Por exemplo, a variável `mandante` no nossos dados brutos guarda um valor que é o nome de um time de futebol.

In [10]:
dados_brutos['mandante']

Unnamed: 0,mandante
0,Guarani
1,Athletico-PR
2,Flamengo
3,Goias
4,Internacional
...,...
8400,Bahia
8401,Cuiaba
8402,Santos
8403,Sao Paulo


Já a variável `mandante_Placar` representa um número de gols feito pelo "time da casa".

In [11]:
dados_brutos['mandante_Placar']

Unnamed: 0,mandante_Placar
0,4
1,2
2,1
3,2
4,1
...,...
8400,4
8401,3
8402,1
8403,1


No primeiro caso, temos uma variável não numérica e no segundo caso, temos uma variável numérica.

Abaixo vamos ver cada uma das classes de variáveis que encontramos nos nossos dados.

## Variáveis Qualitativas

As **variáveis qualitativas** são aquelas que representam valores não numéricos, geralmente se tratando de nomes de coisas.

Exeemplos de variáveis qualitativas nos nossos dados são:
- rodada
- mandante
- visitante
- arena
- mandante estado
- visitante estado

### Qualitativas Nominais

Destro das variáveis qualitativas temos ainda uma subdivisão entre aqueles que pode ser ordenadas e aquelas que não podem ser ordenadas.

Algumas variáveis qualitativas nominais que temos nos nossos dados são:

- mandante
- visitante
- arena
- mandante
- técnico mandante
- técnico visistante


In [12]:
dados_brutos['arena']

Unnamed: 0,arena
0,Brinco de Ouro
1,Arena da Baixada
2,Maracanã
3,Serra Dourada
4,Beira Rio
...,...
8400,Itaipava Arena Fonte Nova
8401,Arena Pantanal
8402,Estádio Urbano Caldeira
8403,Morumbi


### Qualitativas Ordinais


Nos nossos dados temos a variável `rodada` que representa a rodada à qual pertence uma partida. Nesse caso essa variável é qualitativa pois ela não representa uma quantidade, mas uma ordem. Por isso os valores que essa variável assume é um número.

Direrente no número de gols representado pela variável `mandante placar` que representa o número de gols que o time da casa marcou.

Já a rodada serve para organizarmos os jogos dos times para que a gente possa acompanhar o campeonato rodada a rodada.

In [13]:
dados_brutos['rodada']

Unnamed: 0,rodada
0,1
1,1
2,1
3,1
4,1
...,...
8400,38
8401,38
8402,38
8403,38


## Variáveis Quantitativas


São aquelas representada por valores numéricos e representam resultado de contagem ou medidas.

Ex. de variáveis quantitativos nos nossos dados:
- Mandadnte Placar (contagem de gols feito pelo time da casa)
- Visitante Placar (contagem de gols feito pelo time visitante)


### Quantitativa Discreta



.........

In [14]:
dados_brutos['mandante_Placar']

Unnamed: 0,mandante_Placar
0,4
1,2
2,1
3,2
4,1
...,...
8400,4
8401,3
8402,1
8403,1


### Quantitativa Contínua

Infelismente nossos dados não possuem variáveis quantitativas contínuas, mas vamos utilizar esses dados aqui para efeito de exemplo.........

# Tabela de Frequência

As tabelas de frequência são.........

# Gráficos

# Vitórias, Derrotas e Empates

Aqui nós apresentamos através de um gráfico de setor, as proporções de vítórias, derrotas e empates de um time.

Primeiro precisamos criar uma nova coluna para armazenar os resultados (vitória, derrotas e empates) de um time.

Eu escolhi o Esquadrão como exemplo mas se você não tem a mesma sorte que eu e torce para outro time, pode mudar o valor da variável time para ver as informações do seu time.

In [15]:
time = "Bahia"
def get_result(vencedor: str) -> str:
  if vencedor == time:
    return 'Vitória'
  if vencedor == '-':
    return 'Empate'
  return 'Derrota'

dados_time = dados_brutos.copy().query(f"mandante == '{time}' or visitante == '{time}'")
# dados_time.loc[dados_time['resultado'] == '-','resultado'] = 'Empate'
dados_time['resultado'] = dados_time['vencedor'].apply(get_result)
dados_time[['vencedor', 'resultado']]

Unnamed: 0,vencedor,resultado
7,-,Empate
16,Flamengo,Derrota
25,Internacional,Derrota
37,Bahia,Vitória
49,Atletico-MG,Derrota
...,...,...
8359,-,Empate
8365,Bahia,Vitória
8379,Sao Paulo,Derrota
8390,America-MG,Derrota


Aqui construímos uma tabela de frequência da variável "resultado".

In [16]:
freq_result_time = dados_time['resultado'].value_counts().reset_index()
freq_result_time.columns = ['Resultado', 'Quantidade']
freq_result_time

Unnamed: 0,Resultado,Quantidade
0,Derrota,178
1,Vitória,127
2,Empate,121


### Gráfico de Setor (pizza)

Agora podemos construir um gráfico para vizualizar melhor as informações

In [17]:
import plotly.express as px

time_name = time.replace("'", "")

fig = px.pie(freq_result_time, values='Quantidade', names='Resultado',
             width=500, height=400,
             title=f'Resultado dos Jogos do {time_name}<br>Campeonato Brasileiro (2003 - 2023)')
fig.show()

Tempos difíceis para os torcedores do Bahia. 😞 BBMP

# Variável "Arena" - Estátios


Essa é uma variável categórica que armazena o nome do estadio de futebol onde foi realizada a partida.

In [18]:
pd.DataFrame({'Arenas': [ arena.strip() for arena in dados_brutos['arena'].unique() ]})

Unnamed: 0,Arenas
0,Brinco de Ouro
1,Arena da Baixada
2,Maracanã
3,Serra Dourada
4,Beira Rio
...,...
157,Estádio Hailé Pinheiro - Serrinha
158,Estádio São Januário
159,Estádio Joaquim Henrique Nogueira-Arena do jacaré
160,Arena MRV


Aqui vemos as frequências de cada arena:

In [19]:
dados_brutos['arena'].value_counts().reset_index()

Unnamed: 0,arena,count
0,Maracanã,631
1,Mineirão,459
2,Morumbi,413
3,Couto Pereira,295
4,Serra Dourada,235
...,...,...
157,Primeiro de Maio São Bernardo do Campo,1
158,Wilson de Barros,1
159,Independência (*PF),1
160,Romildo Ferreira,1


Um gráfico de barras pode nos dar uma visão melhor.........

# Variável Vencedor

Essa é uma variável categórica.........

## Times com Mais Vitórias

Como podemos ver na tabela de jogos, temos uma coluna `vencedor` que nos informa qual foi o vencedor daquele jogo.

Isso quer dizer que se contarmos cada um dos valores dessa coluna encontraremos o número de vitórias de cada time.

In [20]:
vencedores = dados_brutos['vencedor'].value_counts().reset_index()
vencedores = vencedores[vencedores['vencedor'] != '-']
vencedores.columns = ['Time', 'Vitórias']

fig = px.bar(vencedores.head(10), x='Time', y='Vitórias', text_auto=True,
             title='Times mais Vitoriosos')
fig.show()

## Times com mais derrotas

Do outro lado da moeda temos os perdedores.

Calcular a quantidade de vitórias de cada time vai exigir um pouco mais de trabalho, pois ao contrário dos vencedores que se encontram na coluna `vencedor`, não temos uma coluna `perdedor` para podermos contar quantas derrotas possui cada time.

Então vamos primeiro criar essa nova coluna e para não modificarmos nossa tabela de dados brutos vamos criar outro DataFrame para podermos adicionar nossa nova coluna.

In [21]:
dados = dados_brutos.copy()
perdedores = []

for mandante, visitante, vencedor in zip(dados['mandante'], dados['visitante'], dados['vencedor']):
  if vencedor == '-':
    perdedores.append('-')
  else:
    if mandante == vencedor:
      perdedores.append(visitante)
    else:
      perdedores.append(mandante)

dados['perdedor'] = perdedores
dados[['vencedor', 'perdedor']]

Unnamed: 0,vencedor,perdedor
0,Guarani,Vasco
1,Athletico-PR,Gremio
2,-,-
3,-,-
4,-,-
...,...,...
8400,Bahia,Atletico-MG
8401,Cuiaba,Athletico-PR
8402,Fortaleza,Santos
8403,Sao Paulo,Flamengo


Agora que temos nossa coluna `perdedor` podemos descobrir qual é o maoir de todos.

In [22]:
perdedores = dados['perdedor'].value_counts().reset_index()
perdedores = perdedores[perdedores['perdedor'] != '-']
perdedores.columns = ['Time', 'Derrotas']

fig = px.bar(perdedores.head(10), x='Time', y='Derrotas', text_auto=True,
             title='Times com mais Derrotas')
fig.show()

## Aproveitamento


Acima, descobrimos os times com mais número de vitórias e de derrotas, mas precisamos tomar cuidado: esse número sozinho não reflete bem a realidade pois não leva em consideração o número total de jogos daquele time.

Como estamos lidando com jogos de 20 anos de CB e sabemos que todos os anos 4 times são alterados devido ao rebaixamento.

Por isso, para termos uma ideia melhor sobre as vitórias e as derrotas é importante considerarmos também a quantidade de jogos de cada time.

Podemos fazer isso calculando a proporssão de vitórias e derrotas em relação ao número total de jogos de cada time.

Para isso vamos criar mais duas colunas: `aproveitamento_vitorias` e `aproveitamento_derrotas`.

# Tabela de Frequência

## Frequência Acumulada

Para variáveis cujos valores possuem ordenação natural (qualitativas ordinais e quantitativas em geral), faz sentido incluirmos também um coluna contendo as frequências acumuladas.

- Mandante placar
- Visitante placar

# Total de gols

# Média de gols por ano

# Média de gols de todos os anos

# Quem venceu mais, os mandantes ou os visitantes?

# Treinadores - Quais os mais vitoriósos