# Futebol brasileiro (brasileirão/copa/liberta)

- Amanda Yamasaki
- Gabriel Grub
- Maria Dulce Matos
- Paulo Sergio
- Theo Borten

###  Pesquisa

**Hipótese:** 
1- O horário da partida afeta a dinâmica do jogo, ou seja, afeta a quantidade de gols e o resultado.

2- Existe uam correlação positiva entre a classificação dos clubes nos três campeonatos (Libertadores, Brasileirão e Copa do Brasil).

3- Existe ujma correlação positiva entre o desempenho de um clube nos últimos três jogos e o jogo subsequente.

4- Em anos pares temos mais gols do que em anos ímpares.

5- Partidas entre clássicos têm uma tendência maior em acabar em empates.

**Resumo:** 


**Motivação:** 
Ao contrário de loterias numéricas ou jogos com dados (cujos dados são justos), a “loteria esportiva” do futebol não é caracterizada por seus números equiprováveis. No futebol, jogos costumeiramente têm times favoritos e fatores internos e externos não quantificados no cálculo de probabilidades - como o emocional dos jogadores e as condições do ambiente da partida. Levando essa subjetividade em consideração, pode-se dizer que há uma distribuição de probabilidade desigual entre os possíveis resultados. É com este tipo de problema que nos deparamos ao tentar tratar o Campeonato Brasileiro probabilisticamente, e então, realizamos hipóteses para verificar correlações e padrões-ocultos entre dados coletados sobre torneios dos últimos anos no Brasil. Logo, temos como objetivo destrinchar os inúmeros fatores que influenciam nas probabilidades de resultado de um jogo de futebol, e sobretudo analisar como esses detalhes se revelam através dos dados numéricos sobre torneios no Brasil. 

### Importando as bibliotecas necessárias e carregando a base de dados para utilização no Python

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sn

brasileirao = pd.read_csv('brasileirao.csv')
copa_do_brasil = pd.read_csv("copa_do_brasil.csv")
libertadores = pd.read_csv("libertadores.csv")

### Descrição das bases de dados e suas principais características.

#### Brasileirão

In [4]:
brasileirao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4180 entries, 0 to 4179
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   datetime         4180 non-null   object 
 1   home_team        4180 non-null   object 
 2   home_team_state  4180 non-null   object 
 3   away_team        4180 non-null   object 
 4   away_team_state  4180 non-null   object 
 5   home_goal        4098 non-null   float64
 6   away_goal        4098 non-null   float64
 7   season           4180 non-null   int64  
 8   round            4180 non-null   int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 294.0+ KB


***Número de linhas:*** 4180

***Número de colunas:*** 9

***Memória alocada para a base de dados:*** 294.0+ KB

***Tipos de dados:***

- inteiro(2)

- ponto flutuante(2)

- objeto(5)

***Tipo de dado de cada coluna:***

- Coluna 1: Data e hora (object)

- Coluna 2: Time da casa (objeto)

- Coluna 3: Estado do time da casa (objeto)

- Coluna 4: Time visitante (objeto)

- Coluna 5: Estado do time visitante (objeto)

- Coluna 6: Gol em casa (ponto flutuante)

- Coluna 7: Gol fora de casa (ponto flutuante)

- Coluna 8: Temporada (inteiro)

- Coluna 9: Rodada (inteiro)

**Distribuição dos valores das principais variáveis categóricas/strings**

In [5]:
brasileirao['season'].unique() #Temporadas a que se referem os dados

array([2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022],
      dtype=int64)

#### Copa do Brasil

In [6]:
copa_do_brasil.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1337 entries, 0 to 1336
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   round      1337 non-null   int64  
 1   datetime   1337 non-null   object 
 2   home_team  1337 non-null   object 
 3   away_team  1337 non-null   object 
 4   home_goal  1321 non-null   float64
 5   away_goal  1321 non-null   float64
 6   season     1337 non-null   int64  
dtypes: float64(2), int64(2), object(3)
memory usage: 73.2+ KB


***Número de linhas:*** 1337

***Número de colunas:*** 7

***Memória alocada para a base de dados:*** 73.2+ KB

***Tipos de dados:***

- inteiro(2)

- ponto flutuante(2)

- objeto(3)

***Tipo de dado de cada coluna:***

- Coluna 1: Rodada (inteiro)

- Coluna 2: Data e hora (object)

- Coluna 3: Time da casa (objeto)

- Coluna 4: Time visitante (objeto)

- Coluna 5: Gol em casa (ponto flutuante)

- Coluna 6: Gol fora de casa (ponto flutuante)

- Coluna 7: Temporada (inteiro)

**Distribuição dos valores das principais variáveis categóricas/strings**

In [7]:
copa_do_brasil['season'].unique() #Temporadas a que se referem os dados

array([2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021],
      dtype=int64)

#### Libertadores

In [8]:
libertadores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1255 entries, 0 to 1254
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   datetime   1254 non-null   object 
 1   home_team  1255 non-null   object 
 2   away_team  1255 non-null   object 
 3   home_goal  1255 non-null   object 
 4   away_goal  1255 non-null   object 
 5   season     1254 non-null   float64
 6   stage      1255 non-null   object 
dtypes: float64(1), object(6)
memory usage: 68.8+ KB


***Número de linhas:*** 1255

***Número de colunas:*** 7

***Memória alocada para a base de dados:*** 68.8+ KB

***Tipos de dados:***

- ponto flutuante(1)

- objeto(6)

***Tipo de dado de cada coluna:***

- Coluna 2: Data e hora (object)

- Coluna 3: Time da casa (objeto)

- Coluna 4: Time visitante (objeto)

- Coluna 5: Gol em casa (objeto)

- Coluna 6: Gol fora de casa (objeto)

- Coluna 7: Temporada (ponto flutuante)

- Coluna 7: Estágio (objeto)

**Distribuição dos valores das principais variáveis categóricas/strings**

In [9]:
libertadores['season'].unique() #Temporadas a que se referem os dados

array([2013., 2014., 2015., 2016., 2017., 2018., 2019., 2020., 2021.,
       2022.,   nan])