In [1]:
#usaremos a biblioteca pandas
import pandas as pd

In [2]:
df = pd.read_csv("ESPORTISTAS_MOD7.csv", delimiter=';')

df.head(10)
#Vamos trabalhar nessa aula com uma base de dados que contém os 25 esportistas mais bem pagos segundo a forbes, para 2023. Os dados dos ganhos são em Reais e na casa dos milhões por ano.

Unnamed: 0,Atleta,Esporte,Ganhos_Totais
0,Lionel Messi,Futebol,639
1,Lebron James,Basquete,595
2,Cristiano Ronaldo,Futebol,565
3,Neymar Jr,Futebol,467
4,Stephen Curry,Basquete,452
5,Kevin Duart,Basquete,452
6,Roger Federer,Tenis,442
7,Canelo Alvarez,Boxe,442
8,Tom Brady,Futebol Americano,408
9,Giannis Antetoku,Basquete,397


In [3]:
## Vamos primeiro entender quais são os esportes que temos quantos jogadores pertecem a cada um deles
df.groupby('Esporte')['Atleta'].count().reset_index().sort_values(by='Atleta', ascending=False)

# Sempre bom relembramos a utilidade de cada passo do nosso código acima que usaremos durante a aula:
# Usamos o group by para agrupar os dados do df pela coluna 'Esporte'
# O count() contar o número de ocorrências da coluna 'Atleta'
# .reset_index() Resetar o índice do resultado anterior
# .sort_values ordenar os resultados do DataFrame pelo número de atletas

Unnamed: 0,Esporte,Atleta
1,Basquete,8
5,Futebol Americano,7
4,Futebol,3
3,Boxe,2
7,Tenis,2
0,Automobilismo,1
2,Beisebol,1
6,Golfe,1


In [4]:
# Bom, já sabemos que dos 25 atletas 8 deles são de Basquete, sendo esse o esporte que mais aparece, em seguida temos o futebol americano.
# Dessa forma abaixo trazemos a porcentagem de cada esporte
contagem_por_esporte = df['Esporte'].value_counts(normalize=True).reset_index()
contagem_por_esporte

Unnamed: 0,Esporte,proportion
0,Basquete,0.32
1,Futebol Americano,0.28
2,Futebol,0.12
3,Tenis,0.08
4,Boxe,0.08
5,Golfe,0.04
6,Automobilismo,0.04
7,Beisebol,0.04


Antes de começarmos utilizando as funções do pandas para calcularmos, iremos aplicar as formulas de forma manual, iniciando pela formula da média.

In [5]:
# Criariamos uma variavel chamada soma_ganhos_totais e em seguida aplicamos o SUM para que seja feita a soma da coluna.
soma_ganhos_totais = df['Ganhos_Totais'].sum()
## Em seguida temos que calcular quantos atletas nós temos e para isso usamos o LEN
quantidade_de_registros = len(df['Ganhos_Totais'])
## Para finalizar dividimos a soma da coluna de ganhos pela quantidade de registros de atletas
media_ganhos_totais = soma_ganhos_totais / quantidade_de_registros

print("Média de ganhos totais:", media_ganhos_totais)

Média de ganhos totais: 377.0


In [6]:
# Uma forma muito mais fácil e funcional é utilizando a função mean
df['Ganhos_Totais'].mean()

np.float64(377.0)

In [7]:
# Agora traremos os ganhos totais por esporte utilizando mean:
df.groupby('Esporte')['Ganhos_Totais'].mean().reset_index().sort_values(by='Ganhos_Totais', ascending=False)
# Notem que primeiro realizamos o agrupamento por esporte, aplicando o mean ao meio e ao final fizemos a ordenação.

Unnamed: 0,Esporte,Ganhos_Totais
4,Futebol,557.0
1,Basquete,400.5
3,Boxe,373.5
7,Tenis,366.0
6,Golfe,334.0
0,Automobilismo,319.0
5,Futebol Americano,311.0
2,Beisebol,241.0


In [8]:
#Para calcularmos a mediana também temos uma função especial, a função median que ao ser aplicada funciona exatamente igual a média.
df['Ganhos_Totais'].median()

354.0

In [9]:
#Reparem que nossa mediana é menor que nossa média que foi de 377. Isso nos evidencia que temos uma distribuição dos dados não tão uniforme pois alguns valores tem puxado a média para um valor acima da mediana.
df.groupby('Esporte')['Ganhos_Totais'].median().reset_index().sort_values(by='Ganhos_Totais', ascending=False)

Unnamed: 0,Esporte,Ganhos_Totais
4,Futebol,565.0
1,Basquete,392.5
3,Boxe,373.5
7,Tenis,366.0
6,Golfe,334.0
5,Futebol Americano,329.0
0,Automobilismo,319.0
2,Beisebol,241.0


In [10]:
# Nesse caso podemos utilizar a moda para sabermos se temos um total de ganhos que se repete mas não é uma métrica tão eficiente para essa análise em específico.
df['Ganhos_Totais'].mode()

Unnamed: 0,Ganhos_Totais
0,241
1,273
2,334
3,442
4,452


In [11]:
#Quando compararmos a média com a mediana notamos que temos uma distribuição de dados não tao uniforme, através do desvio poderemos identificar qual dos esportes tem maior dispersão entre os ganhos:
desvio_padrao_por_esporte = df.groupby('Esporte')['Ganhos_Totais'].std().reset_index(
desvio_padrao_por_esporte # Para o desvio padrão por esporte iremos agrupar os dados e em seguida aplicar o std.

#Notem que alguns registros estão NAN, esses registros ocorrem quando temos apenas 1 registro para o esporte, pois não temos como calcular o desvio padrão se não temos mais de um registro.
#Notamos que o desvio para basquete e para Tenis são muito elevados. Enquanto que para Futebol americano temos o menor desvio, que indica que os atletas tendem a ter os ganhos equiparados.

Unnamed: 0,Esporte,Ganhos_Totais
0,Automobilismo,
1,Basquete,103.414561
2,Beisebol,
3,Boxe,96.873629
4,Futebol,86.278618
5,Futebol Americano,62.960305
6,Golfe,
7,Tenis,107.480231


In [12]:
df.describe()
# O método describe() em Python é usado para gerar estatísticas descritivas de resumo -
# de um DataFrame ou de uma série de dados, fornecendo informações úteis sobre a distribuição dos dados.

Unnamed: 0,Ganhos_Totais
count,25.0
mean,377.0
std,110.029541
min,238.0
25%,290.0
50%,354.0
75%,442.0
max,639.0
