# Análise exploratória de dados

## Carregar bibliotecas

In [72]:
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd 

## Dicionário de dados

In [141]:
dicionario_dados = pd.read_csv('../../data/external/dicionario_atividade-05.csv', delimiter = ',')
dicionario_dados = dicionario_dados.style.set_properties(**{'text-align': 'left'})
dicionario_dados

Unnamed: 0,variaveis,significado,tipo
0,S.NO,Contador,nominal
1,Name,Nome do atleta,nominal
2,Nationality,"País de nascimento ['USA', 'Brazil', 'France', 'Australia', 'Canada', 'UK', 'Austria', 'Germany', 'Russia', 'Italy', 'Finland', 'Switzerland', 'Philippines', 'Portugal', 'Dominican', 'Argentina', 'Filipino', 'Spain', 'Serbia', 'Northern Ireland', 'Ireland', 'Mexico']",nominal
3,Current Rank,"Classificação atual do atleta [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",ordinal
4,Previous Year Ranking,Classificação do ano anterior,nominal
5,Sport,"Esporte praticado ['boxing', 'auto racing', 'golf', 'basketball', 'Basketball', 'Boxing', 'Auto Racing', 'Golf', 'Tennis', 'NFL', 'Auto racing', 'NBA', 'Baseball', 'Ice Hockey', 'American Football / Baseball', 'tennis', 'ice hockey', 'F1 Motorsports', 'NASCAR', 'Hockey', 'Auto Racing (Nascar)', 'F1 racing', 'American Football', 'soccer', 'baseball', 'cycling', 'motorcycle gp', 'Soccer', 'MMA']",nominal
6,Year,Ano da competição [1990 - 2020],ordinal
7,earnings ($million),Ganho em milhões de dólares,ordinal


## Leitura do arquivo de dados

In [129]:
df = pd.read_csv('../../data/raw/Forbes_Richest_Atheletes_(Forbes_Richest_Athletes_1990-2020).csv', delimiter = ',')
df.head()

Unnamed: 0,S.NO,Name,Nationality,Current Rank,Previous Year Rank,Sport,Year,earnings ($ million)
0,1,Mike Tyson,USA,1,,boxing,1990,28.6
1,2,Buster Douglas,USA,2,,boxing,1990,26.0
2,3,Sugar Ray Leonard,USA,3,,boxing,1990,13.0
3,4,Ayrton Senna,Brazil,4,,auto racing,1990,10.0
4,5,Alain Prost,France,5,,auto racing,1990,9.0


## Descrição dos dados

In [133]:
# Estatísticas de cada coluna
df.describe() 

Unnamed: 0,S.NO,Current Rank,Year,earnings ($ million)
count,301.0,301.0,301.0,301.0
mean,151.0,5.448505,2005.122924,45.516279
std,87.035433,2.850995,9.063563,33.525337
min,1.0,1.0,1990.0,8.1
25%,76.0,3.0,1997.0,24.0
50%,151.0,5.0,2005.0,39.0
75%,226.0,8.0,2013.0,59.4
max,301.0,10.0,2020.0,300.0


In [134]:
# Quantidade de linhas x colunas
df.shape 

(301, 8)

In [135]:
# Nomes das colunas que representam as variáveis
df.columns 

Index(['S.NO', 'Name', 'Nationality', 'Current Rank', 'Previous Year Rank',
       'Sport', 'Year', 'earnings ($ million)'],
      dtype='object')

In [136]:
# Tipo e contagem por coluna
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   S.NO                  301 non-null    int64  
 1   Name                  301 non-null    object 
 2   Nationality           301 non-null    object 
 3   Current Rank          301 non-null    int64  
 4   Previous Year Rank    277 non-null    object 
 5   Sport                 301 non-null    object 
 6   Year                  301 non-null    int64  
 7   earnings ($ million)  301 non-null    float64
dtypes: float64(1), int64(3), object(4)
memory usage: 18.9+ KB


In [138]:
# Número de valores nulos
df.isnull().sum() 

S.NO                     0
Name                     0
Nationality              0
Current Rank             0
Previous Year Rank      24
Sport                    0
Year                     0
earnings ($ million)     0
dtype: int64

In [139]:
# Observação dos elementos da coluna que apresentou valores nulos
df['Previous Year Rank'].unique() 

array([nan, '8', '1', '>30', '4', '5', '12', '6', '3', '9', '17', '13',
       '10', '>40', '19', '40', '7', '11', '30', '22', '20', 'not ranked',
       '38', '2', '15', '14', '26', 'none', '18', '>10', '>20', '?', '24',
       '21', '>14', '>100', '??'], dtype=object)

## Perguntas de partida e hipóteses

In [None]:
# A partir dos salários é possível obter os dez esportes mais relevantes no período analisado? #1

# Qual esporte apresentou maior decaimento salarial ao longo do tempo? #2

# HIPÓTESE: Com o crescimento dos salários ao longo do tempo é possível predizer o salário máximo de cada esporte ao longo dos próximos 10 anos.


## Insights

In [158]:
# Atleta mais bem pago do mundo no período de 1990 a 2020
df.Name[df['earnings ($ million)'] == df['earnings ($ million)'].max()]

241    Floyd Mayweather
Name: Name, dtype: object

In [159]:
# Esportes praticados pelos atletas que menos ganham
df.Sport[df['earnings ($ million)'] == df['earnings ($ million)'].min()]

7    basketball
8          golf
9        boxing
Name: Sport, dtype: object

# Os dez esportes com maiores investimentos acumulados no período da amostra podem ser obtidos agrupando-se os esportes e acumulando os salários #1

In [242]:
receita = df.groupby('Sport').sum()
receita = receita.sort_values(by='earnings ($ million)', ascending=False)[:10]
receita['earnings ($ million)']

Sport
Basketball           2477.5
Soccer               1816.0
Boxing               1743.2
golf                 1086.9
Golf                 1049.6
basketball            940.6
American Football     901.2
Tennis                848.1
boxing                555.6
soccer                407.5
Name: earnings ($ million), dtype: float64

## O esporte que apresentou maior decaimento salarial ao longo do tempo pode ser obtido com base na diferença do ranking dos maiores salários do primeiro e último ano da amostra #2


## HIPÓTESE: A partir de uma regressão matemática é possível estimar a progressão dos salários por esporte para determinado ano. 