# Projeto 8 - Análise Exploratória de Dados

# Campeonatos de Clubes Brasileiros de Futebol

https://www.kaggle.com/datasets/andreifnmg/campeonato-braileiro-20092018

Uma Análise Exploratória de Dados (EDA – Exploratory Data Analysis) tem como objetivo compreender, resumir e identificar padrões, tendências, erros e relações dentro do dataset antes de aplicar qualquer modelo ou tirar conclusões.

O conjunto de dados disponibilizado traz informações do Campeonato Brasileiro Série A dos anos de 2009 a 2018, bem como a classificação de um time em determinado ano, a quantidade de vitórias, derrotas, empates, idade média, o valor total dos jogadores, dentre outros.

Legenda das colunas


| Coluna | Descrição |
| :------|:----------|
|Ano | Ano do Campeonato|
|Pos. | Classificação final no campeonato braileiro daquele ano.|
| Clubes | Nome do time.|
| Vitorias | Quantidade de Vitorias.|
| Derrotas | Quantidade de Derrotas.|
| Empates | Quantidade de Empates.|
| GolsF/S | Quantidade de gols (Feitos/Sofridos)|
| Saldo | Saldo de gols do time, **(gols feitos) - (gols sofridos) = saldo**.|
| Qtd_Jogadores | Quantidade de jogadores no time.|
| Idade_Media | Média de idade dos jogadores do time|
| Estrangeiros | Quantidade de estrangeiros daquele time.|
| Valor_total | Soma dos preços dos jogadores de um time naquela temporada.|
| Media_Valor | Media dos preços dos jogadores de um time naquela temporada. Valor_Total/Qtd_Jogadores.|

## 1 - Importação de ferramentas e dados

In [1]:
import pandas as pd

In [2]:
clubes = pd.read_csv("Tabela_Clubes.csv")

## 2 - Visão inicial dos dados

### 5 primeiras linhas

In [3]:
clubes.head()

Unnamed: 0.1,Unnamed: 0,Ano,Pos.,Clubes,Vitorias,Derrotas,Empates,GolsF/S,Saldo,Qtd_Jogadores,Idade_Media,Estrangeiros,Valor_total,Media_Valor
0,0,2017,18,America-MG,10,10,18,30:47,-17,51,248,0,27350000,536000
1,1,2017,7,Athletico-PR,16,9,13,54:37,17,52,24,3,37650000,724000
2,2,2017,6,Atletico-MG,17,8,13,56:43,13,50,234,6,61350000,1230000
3,3,2017,11,Bahia,12,12,14,39:41,-2,48,232,2,34900000,727000
4,4,2017,9,Botafogo,13,12,13,38:46,-8,45,231,4,25550000,568000


### Informações básicas do Dataframe

- Quantos registros e quantas variáveis(colunas) o conjunto de dados possui?
- Existem variáveis(colunas) com informações irrelevantes ou valores nulos?

In [4]:
print(f'Quantidade de registros(linhas): {clubes.shape[0]}')
print(f'Quantidade de variaveis(colunas): {clubes.shape[1]}')

Quantidade de registros(linhas): 200
Quantidade de variaveis(colunas): 14


In [5]:
clubes.isnull().sum()

Unnamed: 0       0
Ano              0
Pos.             0
Clubes           0
Vitorias         0
Derrotas         0
Empates          0
GolsF/S          0
Saldo            0
Qtd_Jogadores    0
Idade_Media      0
Estrangeiros     0
Valor_total      0
Media_Valor      0
dtype: int64

## 3 - Quais times aparecem na tabela e quantas vezes cada um aparece? Qual é a quantidade de times(únicos) presentes na tabela?

In [11]:
clubes['Clubes'].unique

<bound method Series.unique of 0        America-MG
1      Athletico-PR
2       Atletico-MG
3             Bahia
4          Botafogo
           ...     
195     Santo Andre
196          Santos
197       Sao Paulo
198           Sport
199         Vitoria
Name: Clubes, Length: 200, dtype: object>

In [12]:
clubes['Clubes'].value_counts()

Clubes
Flamengo         10
Atletico-MG      10
Santos           10
Sao Paulo        10
Cruzeiro         10
Corinthians      10
Gremio           10
Fluminense       10
Palmeiras         9
Athletico-PR      9
Botafogo          9
Internacional     9
Coritiba          8
Vasco             7
Sport             7
Vitoria           7
Bahia             6
Figueirense       5
Goias             5
Ponte Preta       5
Chapecoense       5
Avai              5
Atletico-GO       4
America-MG        3
Nautico           3
Ceara             3
Criciuma          2
Prudente          2
Portuguesa        2
Parana            1
Santa Cruz        1
Joinville         1
Guarani           1
Santo Andre       1
Name: count, dtype: int64

In [None]:
clubes['Clubes'].nunique()

## 4 - Qual é o saldo de gols médio na tabela? Há algo de estranho na média?

In [15]:
clubes['Saldo'].mean()

np.float64(0.0)

## 5 - Qual é o valor total médio dos elencos e o valor máximo e mínimo encontrados?

In [16]:
clubes['Valor_total'].mean()

np.float64(39252800.0)

In [20]:
clubes['Valor_total'].max()

np.int64(115800000)

In [21]:
clubes['Valor_total'].min()

np.int64(2350000)

## 6 - Quais os campeões de cada ano?

In [24]:
clubes[clubes['Pos.'] == 1]

Unnamed: 0.1,Unnamed: 0,Ano,Pos.,Clubes,Vitorias,Derrotas,Empates,GolsF/S,Saldo,Qtd_Jogadores,Idade_Media,Estrangeiros,Valor_total,Media_Valor
13,13,2017,1,Palmeiras,23,11,4,64:26,38,48,248,4,88330000,1840000
27,27,2016,1,Corinthians,21,9,8,50:30,20,41,234,3,49500000,1210000
53,53,2015,1,Palmeiras,24,8,6,62:32,30,38,259,4,69950000,1840000
64,64,2014,1,Corinthians,24,9,5,71:31,40,36,248,4,52850000,1470000
88,88,2013,1,Cruzeiro,24,8,6,67:38,29,32,257,4,41950000,1310000
107,107,2012,1,Cruzeiro,23,7,8,77:37,40,44,244,1,15100000,343000
129,129,2011,1,Fluminense,22,11,5,61:33,28,40,228,4,44200000,1110000
148,148,2010,1,Corinthians,21,8,9,53:36,17,51,236,4,69700000,1370000
169,169,2009,1,Fluminense,20,11,7,62:36,26,50,235,4,42950000,859000
187,187,2008,1,Flamengo,19,10,9,58:44,14,35,233,4,50400000,1440000


## 7 - Quais são os anos contemplados e quantos times há por ano?

In [26]:
clubes.groupby("Ano")["Clubes"].count()

Ano
2008    20
2009    20
2010    20
2011    20
2012    20
2013    20
2014    20
2015    20
2016    20
2017    20
Name: Clubes, dtype: int64

## 8 - Qual a idade média dos jogadores por ano?

In [29]:
clubes["Idade_Media"] = clubes["Idade_Media"].apply(lambda x : float(x.replace(',', '.')))

In [30]:
clubes.groupby('Ano')["Idade_Media"].mean()

Ano
2008    23.605
2009    23.905
2010    23.715
2011    23.830
2012    23.830
2013    24.645
2014    24.130
2015    24.470
2016    23.860
2017    23.890
Name: Idade_Media, dtype: float64

## 9 - Qual é a média do valor total dos times por ano?

In [33]:
media_ano = clubes.groupby('Ano')["Valor_total"].max().reset_index()
media_ano

Unnamed: 0,Ano,Valor_total
0,2008,50400000
1,2009,74200000
2,2010,97450000
3,2011,106900000
4,2012,115800000
5,2013,93150000
6,2014,88800000
7,2015,69950000
8,2016,92050000
9,2017,88330000


## 10 - Qual é o saldo de gols médio por time? (exiba o top 5)

In [34]:
clubes.groupby("Clubes")["Saldo"].mean().reset_index().sort_values('Saldo', ascending=False).head()

Unnamed: 0,Clubes,Saldo
17,Gremio,13.7
9,Corinthians,13.7
12,Cruzeiro,9.8
29,Santos,9.7
30,Sao Paulo,9.1
