# Resumo

Será feita uma análise do conjunto de dados do campeonato brasileiro desde a temporada 2000 ate o ano de 2019, estudando o histórico do Clube Sociedade Esportiva Palmeiras afim de extrair informações relevantes.

![Alt ou título da imagem](https://upload.wikimedia.org/wikipedia/pt/7/75/Brasileirao_2011_Logo.png)

#### Obs:
Lembrando que o campeonato brasileiro é um campeonato de pontos corridos, com 38 rodadas, onde uma vitória soma 3 pontos, empate soma 1, e derrota 0 pontos, e o time que conseguir maior quantidade de pontos ao final do campeonato vence, tendo critérios a parte em caso de empate de pontos, dito isso, vamos para a análise.

In [199]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
plt.rcParams["figure.figsize"] = 8,5

In [200]:
df = pd.read_csv("campeonato-brasileiro-full.csv")
df.head(3)

Unnamed: 0,Horário,Dia,Data,Clube 1,Clube 2,Vencedor,Rodada,Arena,Clube 1 Gols,Clube 2 Gols,Clube 1 Estado,Clube 2 Estado,Estado Clube Vencedor
0,16h00,Sábado,2000-07-29,Fluminense,Bahia,Fluminense,1ª Rodada,Maracanã,2,0,RJ,BA,RJ
1,16h00,Sábado,2000-07-29,Vasco,Sport,Sport,1ª Rodada,São Januário,0,2,RJ,PE,PE
2,16h00,Sábado,2000-07-29,Vitória,Palmeiras,Vitória,1ª Rodada,Barradão,4,1,ES,SP,ES


### Informações gerais

In [201]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7939 entries, 0 to 7938
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Horário                7582 non-null   object
 1   Dia                    7939 non-null   object
 2   Data                   7939 non-null   object
 3   Clube 1                7939 non-null   object
 4   Clube 2                7939 non-null   object
 5   Vencedor               7939 non-null   object
 6   Rodada                 7939 non-null   object
 7   Arena                  7939 non-null   object
 8   Clube 1 Gols           7939 non-null   int64 
 9   Clube 2 Gols           7939 non-null   int64 
 10  Clube 1 Estado         7939 non-null   object
 11  Clube 2 Estado         7939 non-null   object
 12  Estado Clube Vencedor  7939 non-null   object
dtypes: int64(2), object(11)
memory usage: 806.4+ KB


### Criando uma variável  para os anos das temporadas, afim de facilitar algumas features

In [202]:
df["Ano"] = pd.to_numeric(df["Data"].apply(lambda x:x.split("-")[0]))

### Averiguando a partir de qual ano esta registrado os campeonatos

In [203]:
df["Ano"].unique()

array([2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
       2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019])

### pegando uma amostra de todos os jogos do palmeiras no campeonato brasileiro de 2018, o ultimo ano que foi campeão

In [204]:
br2018 = df.loc[((df["Clube 1"] == "Palmeiras") | (df["Clube 2"] == "Palmeiras")) & (df["Ano"] == 2018) ]
br2018.head()

Unnamed: 0,Horário,Dia,Data,Clube 1,Clube 2,Vencedor,Rodada,Arena,Clube 1 Gols,Clube 2 Gols,Clube 1 Estado,Clube 2 Estado,Estado Clube Vencedor,Ano
7187,20:00,Segunda-feira,2018-04-16,Botafogo-rj,Palmeiras,-,1ª Rodada,Engenhão,1,1,RJ,SP,Empate,2018
7197,16:00,Domingo,2018-04-22,Palmeiras,Internacional,Palmeiras,2ª Rodada,Pacaembu,1,0,SP,RS,SP,2018
7201,16:00,Domingo,2018-04-29,Palmeiras,Chapecoense,-,3ª Rodada,Allianz Parque,0,0,SP,SC,Empate,2018
7215,16:00,Domingo,2018-05-06,Athlético-PR,Palmeiras,Palmeiras,4ª Rodada,Arena da Baixada,1,3,PR,SP,SP,2018
7222,16:00,Domingo,2018-05-13,Corinthians,Palmeiras,Corinthians,5ª Rodada,Arena Corinthians,1,0,SP,SP,SP,2018


### Extraindo quantidade de gols do palmeiras na temporada 2018

In [205]:
br2018.loc[br2018["Clube 1"] == "Palmeiras"]["Clube 1 Gols"].sum() + \
br2018.loc[br2018["Clube 2"] == "Palmeiras"]["Clube 2 Gols"].sum()

64

### Descobrindo a quantidade de pontos que o palmeiras conquistou na temporada

In [206]:
def pontos(vencedor):
    pontos = 0
    if vencedor == "Palmeiras":
        pontos += 3
    if vencedor == "-":
        pontos += 1
        
    return pontos

pontos2018 = br2018["Vencedor"].apply(lambda x:pontos(x)).sum()
pontos2018

80

### Descobrindo quantos pontos o Palmeiras conquistou desde a temporada de 2000 ate 2019

In [207]:
temporadas = []
pontosTotais = []

for i in np.arange(2000,2020):
    temporadas.append(df.loc[((df["Clube 1"] == "Palmeiras") | (df["Clube 2"] == "Palmeiras")) & (df["Ano"] == i)])

for i in np.arange(0,20):
    pontosTotais.append(temporadas[i]["Vencedor"].apply(lambda x:pontos(x)).sum())

In [208]:
temporada = [2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
       2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]

ranking = {
    "Temporada":temporada,
    "Pontos":pontosTotais
}

ranking = pd.DataFrame(ranking)
ranking

Unnamed: 0,Temporada,Pontos
0,2000,37
1,2001,38
2,2002,27
3,2003,0
4,2004,79
5,2005,70
6,2006,44
7,2007,58
8,2008,65
9,2009,62


#### OBS:
em 2003 e 2013 o palmeiras nao participou da seria A do campeonato brasileiro por ter sido rebaixado, por isso os pontos estão zerados nestas duas células, para comprovar este fato, irei procurar o palmeiras nestas duas temporadas do conjunto de dados

In [209]:
df.loc[((df["Clube 1"]=="Palmeiras") | (df["Clube 2"]=="Palmeiras")) & ((df["Ano"]==2003) | (df["Ano"]==2013))]

Unnamed: 0,Horário,Dia,Data,Clube 1,Clube 2,Vencedor,Rodada,Arena,Clube 1 Gols,Clube 2 Gols,Clube 1 Estado,Clube 2 Estado,Estado Clube Vencedor,Ano


#### **OBS:**
Como esperado, sem resultado para as temporadas 2003 e 2013

### Analisando vitorias, derrotas e empates do palmeiras dentro e fora de casa de todas as temporadas

In [210]:
Vcasa = df.loc[(df["Clube 1"]=="Palmeiras") & (df["Vencedor"]=="Palmeiras")]
Vfora = df.loc[(df["Clube 2"]=="Palmeiras") & (df["Vencedor"]=="Palmeiras")]
Dcasa = df.loc[(df["Clube 1"]=="Palmeiras") & (df["Vencedor"]!="Palmeiras")]
Dfora = df.loc[(df["Clube 2"]=="Palmeiras") & (df["Vencedor"]!="Palmeiras")]
Ecasa = df.loc[(df["Clube 1"]=="Palmeiras") & (df["Vencedor"]=="-")]
Efora = df.loc[(df["Clube 2"]=="Palmeiras") & (df["Vencedor"]=="-")]

In [211]:
vitoriasCasa = Vcasa["Vencedor"].count()
derrotasCasa = Dcasa["Vencedor"].count() 
vitoriasFora = Vfora["Vencedor"].count()
derrotasFora = Dfora["Vencedor"].count()
empateCasa = Ecasa["Vencedor"].count()
empateFora = Efora["Vencedor"].count()

retrospecto = pd.DataFrame({
    "V_casa":vitoriasCasa,
    "V_fora":vitoriasFora,
    "D_casa":derrotasCasa,
    "D_fora":derrotasFora,
    "E_casa":empateCasa,
    "E_fora":empateFora
}, index=[1])

retrospecto

Unnamed: 0,V_casa,V_fora,D_casa,D_fora,E_casa,E_fora
1,182,97,146,232,72,94


#### Obs:
Podemos ver que o retrospecto do palmeiras dentro de casa é muito melhor que jogando fora

### Por curiosidade, iremos verificar o retrospecto do Palmeiras contra seus principais rivais de São Paulo, como o Corinthians por exemplo

In [212]:
venceuCor = df[(((df["Clube 1"] == "Palmeiras") & (df["Clube 2"] == "Corinthians")) | \
   ((df["Clube 2"] == "Palmeiras") & (df["Clube 1"] == "Corinthians"))) & (df["Vencedor"] == "Palmeiras")]

perdeuCor = df[(((df["Clube 1"] == "Palmeiras") & (df["Clube 2"] == "Corinthians")) | \
   ((df["Clube 2"] == "Palmeiras") & (df["Clube 1"] == "Corinthians"))) & (df["Vencedor"] == "Corinthians")]

empateCor = df[(((df["Clube 1"] == "Palmeiras") & (df["Clube 2"] == "Corinthians")) | \
   ((df["Clube 2"] == "Palmeiras") & (df["Clube 1"] == "Corinthians"))) & (df["Vencedor"] == "-")]

### Vitorias sob o Corinthians desde o brasileirão de 2000 ate 2019

In [213]:
venceuCor["Vencedor"].count()

10

### Derrotas sob o Corinthians desde o brasileirão de 2000 ate 2019

In [214]:
perdeuCor["Vencedor"].count()

12

### Empates com o Corinthians desde o brasileirão de 2000 ate 2019

In [215]:
empateCor["Vencedor"].count()

8