# <H1> Projeto final - Data Analysis - Revisado - Dados estatísticos do Campeonato Brasileiro entre 2009 e 2018


Nesse projeto quero comparar os dados estatísticos dos times que foram campeões e que foram rebaixados entre 2009 e 2018.

## Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

## Dataset

Dataset utilizado pode ser encontrado em>:

[Campeonato Brasileiro 2009 - 2018](https://www.kaggle.com/datasets/andreifnmg/campeonato-braileiro-20092018)

Montando um drive no meu Google Drive:

In [None]:
from google.colab import drive
drive.mount ('/content/drive')

# Análise Exploratória

In [None]:
df=pd.read_csv('/content/drive/MyDrive/Tabela_Clubes.csv')
df

Dei um replace pois no dataset está escrito 2009 a 2018, mas no df está de 2008 a 2017.

In [None]:
dfat=df.replace({2008:2009,2009:2010,2010:2011,2011:2012,2012:2013,2013:2014,2014:2015,2015:2016,2016:2017,2017:2018})
dfat

Na aba 'Gols F/S' separei os gols sofridos/feitos para uma análise média:

In [None]:
dfat['GolsF']=dfat['GolsF/S'].str.split(":", expand=True)[0].astype(float)
dfat

No gráfico abaixo, temos uma recaída drástica na média de gols numa análise anual, o que podemos perceber que o campeonato brasileiro ao longo dos dez anos (2009-2018) foi ficando mais difícil. Vendo que tanto os gols feitos e sofridos a soma deles de uma maneira geral é o mesmo., o volume médio diminuiu.

In [None]:
dfgols=dfat.groupby(['Ano']).mean()['GolsF'].reset_index()
fig = px.line (dfgols, x='Ano',y='GolsF', title='Gráfico 1 - Média de gols entre 2009 e 2018' )
fig.show()

Estabeleci um gráfico para fazer a média dos gols feitos por time. O Atlético/MG
teve a maior média (55,5 gols) e o Paraná  a menor (18 gols).

In [None]:
dfclubes=dfat.groupby(['Clubes']).mean()['GolsF'].reset_index()
dfclubes1=dfclubes.sort_values(by='GolsF', ascending=False)
fig = px.bar(dfclubes1, x='Clubes', y="GolsF", title='Gráfico 2 - Média de gols feitos dos times entre 2009 e 2018')
fig.show()

Vou comparar os gols do times que foram campeões e os que fizeram mais gols, demonstrando a diferença e reforçando a ideia que para ser campeão não precisa ter o maior número de gols. Selecionei dois anos (2009 e 2018) pois o tempo foi curto para fazer de todos os anos

Dataframe de 2009:

In [None]:
df2009=dfat[dfat['Ano']==2009]
df2009_1=df2009.sort_values(by='GolsF', ascending=False)
df2009_1

In [None]:
colors = ['lightslategray',] * 20
colors[0] = 'crimson'
colors[8] = 'green'

fig = go.Figure(data=[go.Bar(
    x=df2009_1.Clubes,
    y=df2009_1.GolsF,
    marker_color=colors # marker color can be a single color value or an iterable
)])
fig.update_layout(title_text='Gráfico 3 - Gols feitos na Série A do Campeonato Brasileiro em 2009 - Campeão: Flamengo')

Em 2009, o Grêmio, em 8º colocado, fez 67 gols e o Flamengo, campeão brasileiro, fez 58. O campeão teve uma deficiência de 13% a menos na quantidade de gols em relação ao oitavo colocado. 


Dataframe de 2017:

In [None]:
df2017=dfat[dfat['Ano']==2017]
df2017_1=df2017.sort_values(by='GolsF', ascending=False)
df2017_1

In [None]:
colors = ['lightslategray',] * 20
colors[0] = 'crimson'
colors[4] = 'green'

fig = go.Figure(data=[go.Bar(
    x=df2017_1.Clubes,
    y=df2017_1.GolsF,
    marker_color=colors # marker color can be a single color value or an iterable
)])
fig.update_layout(title_text='Gráfico 4 - Gols feitos na Série A do Campeonato Brasileiro em 2017 - Campeão: Corinthians')

Em 2017, o Palmeiras, em 2º colocado, fez 61 gols e o Corinthians, campeão brasileiro, fez 50. O campeão teve uma deficiência de 18% a menos na quantidade de gols em relação ao segundo colocado. 


##Criei um df primeiramente separando as colunas necessárias e depois criei outro para um campeão de cada ano para comparar o saldo de gols entre eles:

In [None]:
dfcp=dfat.loc[:,['Ano','Clubes', 'Pos.','Saldo']]
dfcp

In [None]:
dfcp1=dfcp.loc[dfcp['Pos.']==1]
dfcp2=dfcp1.sort_values(by='Ano', ascending=True)
dfcp2

In [None]:
fig = px.bar(dfcp2, x='Ano', y='Saldo', text='Clubes', color='Clubes', title='Gráfico 5 - Saldo de gols - Campeões de 2009 a 2018')
plt.figure(figsize=(15 ,10))
fig.show()

Cruzeiro e Corinthians tiveram o maior saldo de gols, tendo 40 cada um.

Mostrando os times que mais foram campeões

In [None]:
dfcp1=dfcp1.loc[:,['Clubes', 'Pos.']]
dfcp3=dfcp1.sort_values(by='Clubes', ascending=False)
dfcp3

In [None]:
dfcp4=dfcp3.value_counts('Clubes').reset_index()
dfcp4


In [None]:
dfcp4.columns=['Clubes', 'Vezes que foram campeões']
dfcp4

In [None]:
fig1 = px.bar(dfcp4, x='Clubes', y='Vezes que foram campeões', text='Clubes', color='Clubes', title='Gráfico 6 - Times que mais foram campeões')
plt.figure(figsize=(15 ,10))
fig1.show()

O Corinthians se destacou nesses 10 anos, somando 3 títulos. Cruzeiro, Fluminense e Palmeiras tiveram 2 cada um.

In [None]:
dfcp1=dfcp.loc[dfcp['Pos.']==1]
dfcp2=dfcp1.sort_values(by='Ano', ascending=True)
dfcp2
fig = px.line (dfcp2, x='Ano',y='Saldo', title='Gráfico 7 - Saldo de gols - Campeões de 2009 a 2018' )
fig.show()

Apesar de no gráfico 1 demonstrar que a média dos gols de todos os times baixou ao longo dos anos, o saldo dos times campeões demonstrado no gráfico 6 foram aumentando, apesar de uma queda de 31% entre 2013 e 2014 e de 50% entre 2015 e 2017.

## Demonstrando abaixo uma análise dos times rebaixados:

Os times que mais foram rebaixados.

In [None]:
dfat

Trazendo os 4 últimos colocados de 2009 a 2018.

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb1=dfat.loc[dfat['Ano']==2009]
dfreb2=dfreb1.loc[dfat['Pos.']>=17]
dfreb3=dfreb2.sort_values(by='Pos.', ascending=True)
dfreb3


In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb4=dfat.loc[dfat['Ano']==2010]
dfreb5=dfreb4.loc[dfat['Pos.']>=17]
dfreb6=dfreb5.sort_values(by='Pos.', ascending=True)
dfreb6

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb7=dfat.loc[dfat['Ano']==2011]
dfreb8=dfreb7.loc[dfat['Pos.']>=17]
dfreb9=dfreb8.sort_values(by='Pos.', ascending=True)
dfreb9

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb10=dfat.loc[dfat['Ano']==2012]
dfreb11=dfreb10.loc[dfat['Pos.']>=17]
dfreb12=dfreb11.sort_values(by='Pos.', ascending=True)
dfreb12

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb13=dfat.loc[dfat['Ano']==2013]
dfreb14=dfreb13.loc[dfat['Pos.']>=17]
dfreb15=dfreb14.sort_values(by='Pos.', ascending=True)
dfreb15

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb16=dfat.loc[dfat['Ano']==2014]
dfreb17=dfreb16.loc[dfat['Pos.']>=17]
dfreb18=dfreb17.sort_values(by='Pos.', ascending=True)
dfreb18

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb19=dfat.loc[dfat['Ano']==2015]
dfreb20=dfreb19.loc[dfat['Pos.']>=17]
dfreb21=dfreb20.sort_values(by='Pos.', ascending=True)
dfreb21

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb22=dfat.loc[dfat['Ano']==2016]
dfreb23=dfreb22.loc[dfat['Pos.']>=17]
dfreb24=dfreb23.sort_values(by='Pos.', ascending=True)
dfreb24

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb25=dfat.loc[dfat['Ano']==2017]
dfreb26=dfreb25.loc[dfat['Pos.']>=17]
dfreb27=dfreb26.sort_values(by='Pos.', ascending=True)
dfreb27

In [None]:
df.groupby(['Ano']).head()['Clubes'].reset_index()
dfreb28=dfat.loc[dfat['Ano']==2018]
dfreb29=dfreb28.loc[dfat['Pos.']>=17]
dfreb30=dfreb29.sort_values(by='Pos.', ascending=True)
dfreb30

Concatenando todos os resultados

In [None]:
dfreb35=pd.concat([dfreb3,dfreb6,dfreb9,dfreb12,dfreb15,dfreb18,dfreb21,dfreb24,dfreb27,dfreb30])
dfreb36=dfreb35.loc[:,['Ano','Clubes','Saldo']]
dfreb37=dfreb36.sort_values(by='Clubes', ascending=True)
dfreb37

Dando um value counts para somar a quantidade de vezes que o nome do time aparece, para ter a visão da quantidade de rebaixamento:

In [None]:
dfreb38=dfreb37['Clubes'].value_counts().reset_index()
dfreb38.columns=['Clubes', 'Vezes que foram rebaixados']
dfreb38

Facilitando a visão através do gráfico:




In [None]:
fig1 = px.bar(dfreb38, x='Clubes', y='Vezes que foram rebaixados', text='Vezes que foram rebaixados', color='Vezes que foram rebaixados', title='Gráfico 8 - Times que mais foram rebaixados')
plt.figure(figsize=(15 ,10))
fig1.show()

Quatro times foram mais rebaixados, tendo cada um deles 3 rebaixamentos: América-MG, Avaí, Sport e Vitória

In [None]:
dfreb37

In [None]:
dfreb38=dfreb37.loc[:,['Ano', 'Saldo']]
dfreb39=dfreb38.groupby(['Ano']).sum()['Saldo'].reset_index()
dfreb39

Analisando o saldo dos times por *ANO* que foram rebaixados, temos a seguinte linha:

In [None]:
fig = px.line(dfreb39, x='Ano', y="Saldo", title='Gráfico 9 - Saldo de gols dos times rebaixados entre 2009 a 2018 - Série A')
fig.show()

Considerando a linha acima negativa (Gráfico 8), como demonstrado no dfreb39, o saldo dos gols negativos aumentou drasticamente em 2018. Os rebaixados tiveram uma pequena melhora em 2009, mas a qualidade dos times piorou bastante. Entre o primeiro ano de análise e o último, houve uma piora de 30% no saldo negativo. Os times não conseguiram investir o bastante para serem competitivos com os times da primeira divisão, tendo em 2018 um total de 105 gols negativos.

##Abaixo temos o comparativo de gols de times em comum de todos os times que se mantiveram na primeira divisão em 2009 e 2018. Fiz dessa forma pois não seria justo comparar com os times que foram rebaixados. Poderia estabelecer a média, mas preferi manter essa estrutura de pensamento.

In [None]:
dfat

In [None]:
df2009=dfat[dfat['Ano']==2009]
df2009


In [None]:
df2018=dfat[dfat['Ano']==2018]
df2018


In [None]:
df_s=pd.concat([df2009,df2018])
df_s1=df_s.sort_values(by='Clubes', ascending=True)
df_s1

In [None]:
df0=df_s1.drop(0, axis=0)
df1=df0.drop(182, axis=0)
df2=df1.drop(3, axis=0)
df3=df2.drop(5, axis=0)
df4=df3.drop(6, axis=0)
df5=df4.drop(185, axis=0)
df6=df5.drop(189, axis=0)
df7=df6.drop(192, axis=0)
df8=df7.drop(14, axis=0)
df9=df8.drop(194, axis=0)
df10=df9.drop(195, axis=0)
df11=df10.drop(18, axis=0)
df12=df11.sort_values(by='Clubes', ascending=True)
df12

In [None]:
fig = px.histogram(df12, x="Clubes", y="GolsF",
             color='Ano', barmode='group',
             height=400,text_auto=True, title='Gráfico 10 - Comparativo de gols de times em comum da Série A em 2009 e 2018',
             labels={"GolsF": "Gols Feitos por Clube",
                     "Clubes": "Clube",
                     "Ano": "Ano"} )
fig.for_each_trace(lambda t: t.update(texttemplate = t.texttemplate))
fig.show()

Dos 14 times que se mantiveram na primeira divisão em 2009 e 2018, 10 deles somaram mais gols em 2009 que em 2018: Botafogo (diferença de 33%),Corinthians(32%), Cruzeiro (42%), Fluminense (35%), Grêmio(29%), Internacional (22%), Santos(21%),São Paulo(20%),Sport(27%) e Vitória (29%). 

## O time que mais caiu em saldo de gols foi o Cruzeiro, com 42% de perda e o que menos perdeu foi o São Paulo, com perda de 20%.

Dos 4 times que se mantiveram na primeira divisão, apenas 4 somaram mais gols em 2018 que 2009: Athlético-PR(23%), Atlético-MG(2%), Flamengo(2%), Palmeiras(10%).

## O time que mais subiu em saldo de gols foi o Athlético-PR, com um ganho de 23% e os que menos ganharam, empatando tecnicamente, foram o Atlético-MG e Flamengo, com 2% cada um.