<a href="https://colab.research.google.com/github/luanrossini/estudo_gols_yuri_alberto/blob/main/EDA_Sal%C3%A1rio_MLS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Introdução

Este notebook tem como objetivo realizar uma Análise exploratória de dados (EDA) em um conjunto de dados disponivel no Kaggle sobre os salarios dos jogadores da Major League Soccer (MLS) entre os anos de 2007 a 2017.

O objetivo desta EDA é proporcionar uma compreensão mais aprofundada da estrutura de remuneração dos jogadores da liga americana de futebol, podendo revelar insights valiosos sobre a distribuição, tendências e características dos salários dos jogadores na liga.

## Dicionário de Dados

club: Abreviação do nome do time </br>
last_name: Último nome do jogador </br>
last_name: Último nome do jogador </br>
first_name: Primeiro nome do jogador </br>
last_name: Último nome do jogador </br>
position: Posição abreviada do jogador</br>
last_name: Último nome do jogador </br>
base_salary: Base salarial</br>
last_name: Último nome do jogador </br>
guaranteed_compensation: Compensação salarial</br>

In [1]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
import os

In [2]:
# Carregar cada base de dados em DataFrames separados
df_2007 = pd.read_csv('mls-salaries-2007.csv')
df_2008 = pd.read_csv('mls-salaries-2008.csv')
df_2009 = pd.read_csv('mls-salaries-2009.csv')
df_2010 = pd.read_csv('mls-salaries-2010.csv')
df_2011 = pd.read_csv('mls-salaries-2011.csv')
df_2012 = pd.read_csv('mls-salaries-2012.csv')
df_2013 = pd.read_csv('mls-salaries-2013.csv')
df_2014 = pd.read_csv('mls-salaries-2014.csv')
df_2015 = pd.read_csv('mls-salaries-2015.csv')
df_2016 = pd.read_csv('mls-salaries-2016.csv')
df_2017 = pd.read_csv('mls-salaries-2017.csv')

# Adicionar uma coluna 'Season' em cada DataFrame correspondente à temporada da MLS
df_2007['Season'] = 2007
df_2008['Season'] = 2008
df_2009['Season'] = 2009
df_2010['Season'] = 2010
df_2011['Season'] = 2011
df_2012['Season'] = 2012
df_2013['Season'] = 2013
df_2014['Season'] = 2014
df_2015['Season'] = 2015
df_2016['Season'] = 2016
df_2017['Season'] = 2017

# Concatenar todos os dados em um único DataFrame
df = pd.concat([df_2007, df_2008, df_2009, df_2010, df_2011, df_2012, df_2013, df_2014, df_2015, df_2016, df_2017])


In [3]:
# Olhando as 5 primeiras linhas do dataset
df.head()


Unnamed: 0,club,last_name,first_name,position,base_salary,guaranteed_compensation,Season
0,CHI,Armas,Chris,M,225000.0,225000.0,2007
1,CHI,Banner,Michael,M,12900.0,12900.0,2007
2,CHI,Barrett,Chad,F,41212.5,48712.5,2007
3,CHI,Blanco,Cuauhtemoc,F,2492316.0,2666778.0,2007
4,CHI,Brown,C.J.,D,106391.0,106391.0,2007


In [4]:
# Tamanho da base de dados

df.shape

(5553, 7)

In [5]:
# Explorando as colunas do dataset

df.columns

Index(['club', 'last_name', 'first_name', 'position', 'base_salary',
       'guaranteed_compensation', 'Season'],
      dtype='object')

## Limpeza e tratamento dos dados

In [6]:
# Explorando valores nulos ou ausentes no dataset

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5553 entries, 0 to 615
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   club                     5533 non-null   object 
 1   last_name                5553 non-null   object 
 2   first_name               5534 non-null   object 
 3   position                 5552 non-null   object 
 4   base_salary              5552 non-null   float64
 5   guaranteed_compensation  5552 non-null   float64
 6   Season                   5553 non-null   int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 347.1+ KB


In [7]:
# Dados duplicados?

df.duplicated().sum()

0

In [8]:
null_data = df[df.isnull().any(axis=1)]
null_data

Unnamed: 0,club,last_name,first_name,position,base_salary,guaranteed_compensation,Season
188,SEA,Keller,Kasey,GK,,,2008
236,KC,Jeferson,,F,429996.0,484996.0,2011
6,CHI,Alex,,M,96000.0,105950.0,2012
250,LA,Juninho,,M,50000.0,65625.0,2012
442,,Sassano,Luke,M-D,81000.0,83025.0,2012
534,,White,Jeremiah,M,44004.0,44004.0,2012
9,CHI,Alex,,M,110000.0,119950.0,2013
23,,Araujo Jr.,Paulo,F,60000.0,60000.0,2013
151,,Dunfield,Terry,M,120000.0,120000.0,2013
268,LA,Juninho,,M,290000.0,290000.0,2013


In [9]:
# Criando a coluna "Name" com a junção do primeiro e último nome
def fullname(x, y):
    if str(x) == "nan":
        return str(y)
    else:
        return str(x) + " " + str(y)

# Aplicando o nome no dataset
df['Name'] = np.vectorize(fullname)(df['first_name'], df['last_name'])
df.head()

Unnamed: 0,club,last_name,first_name,position,base_salary,guaranteed_compensation,Season,Name
0,CHI,Armas,Chris,M,225000.0,225000.0,2007,Chris Armas
1,CHI,Banner,Michael,M,12900.0,12900.0,2007,Michael Banner
2,CHI,Barrett,Chad,F,41212.5,48712.5,2007,Chad Barrett
3,CHI,Blanco,Cuauhtemoc,F,2492316.0,2666778.0,2007,Cuauhtemoc Blanco
4,CHI,Brown,C.J.,D,106391.0,106391.0,2007,C.J. Brown


In [10]:
# Removendo as colunas 'last_name' e 'first_name'
df = df.drop(['last_name', 'first_name'], axis = 1)

In [11]:
# Ordenação das colunas do dataframe
df = df[['Season', 'club', 'Name', 'position', 'guaranteed_compensation', 'base_salary']]
df.head()

Unnamed: 0,Season,club,Name,position,guaranteed_compensation,base_salary
0,2007,CHI,Chris Armas,M,225000.0,225000.0
1,2007,CHI,Michael Banner,M,12900.0,12900.0
2,2007,CHI,Chad Barrett,F,48712.5,41212.5
3,2007,CHI,Cuauhtemoc Blanco,F,2666778.0,2492316.0
4,2007,CHI,C.J. Brown,D,106391.0,106391.0


In [12]:
# Alterar a variável "club" de Pool, POOL ou nula para "Free Agent"
def free_agent(x):
    if str(x) == "nan":
        return str("Free Agent")
    elif str(x) == 'None':
        return str("Free Agent")
    elif str(x) == 'Pool':
        return str("Free Agent")
    elif str(x) == 'POOL':
        return str("Free Agent")
    else:
        return str(x)

# Aplicando a função free_agent na coluna "club"
df['club'] = df['club'].apply(free_agent)

In [13]:
df

Unnamed: 0,Season,club,Name,position,guaranteed_compensation,base_salary
0,2007,CHI,Chris Armas,M,225000.00,225000.0
1,2007,CHI,Michael Banner,M,12900.00,12900.0
2,2007,CHI,Chad Barrett,F,48712.50,41212.5
3,2007,CHI,Cuauhtemoc Blanco,F,2666778.00,2492316.0
4,2007,CHI,C.J. Brown,D,106391.00,106391.0
...,...,...,...,...,...,...
611,2017,VAN,Paolo Tornaghi,GK,80000.00,80000.0
612,2017,VAN,Kendall Waston,D,368125.00,350000.0
613,2017,VAN,Sheanon Williams,D,184000.00,175000.0
614,2017,Free Agent,Mo Babouli,F,54075.00,54075.0


In [14]:
# Comportamento das variáveis não numéricas

df.describe(exclude = np.number)

Unnamed: 0,club,Name,position
count,5553,5553,5552
unique,27,2005,16
top,DAL,Chris Seitz,M
freq,322,11,1829


In [15]:
# Definindo a posição dos jogadores para 3 tipos: Ataque, Defesa e Meio-campo
def new_position(x):
    if x in ['M', 'MF', 'M/F', 'M-D', 'M-F', 'F-M', 'F/M', 'D-M']:
        return 'Meio-campo'
    elif x in ['F', 'F-D', 'D/F']:
        return 'Ataque'
    elif x in ['D', 'GK', 'D-F', 'M-D', 'D/M']:
        return 'Defesa'
    else:
        return 'Outro'

# Aplicar a função mapear_posicao para criar a nova classificação
df['new_position'] = df['position'].apply(new_position)
df

Unnamed: 0,Season,club,Name,position,guaranteed_compensation,base_salary,new_position
0,2007,CHI,Chris Armas,M,225000.00,225000.0,Meio-campo
1,2007,CHI,Michael Banner,M,12900.00,12900.0,Meio-campo
2,2007,CHI,Chad Barrett,F,48712.50,41212.5,Ataque
3,2007,CHI,Cuauhtemoc Blanco,F,2666778.00,2492316.0,Ataque
4,2007,CHI,C.J. Brown,D,106391.00,106391.0,Defesa
...,...,...,...,...,...,...,...
611,2017,VAN,Paolo Tornaghi,GK,80000.00,80000.0,Defesa
612,2017,VAN,Kendall Waston,D,368125.00,350000.0,Defesa
613,2017,VAN,Sheanon Williams,D,184000.00,175000.0,Defesa
614,2017,Free Agent,Mo Babouli,F,54075.00,54075.0,Ataque


In [16]:
# Função para trocar as abreviações para os nomes completos dos clubes pelo nome completo
def nome_completo_clube(club):
    clubes = {
        'CHI': 'Chicago Fire FC',
        'CHV': 'Chivas USA',
        'CLB': 'Columbus Crew SC',
        'COL': 'Colorado Rapids',
        'DAL': 'FC Dallas',
        'DC': 'D.C. United',
        'HOU': 'Houston Dynamo FC',
        'KC': 'Sporting Kansas City',
        'LA': 'LA Galaxy',
        'NE': 'New England Revolution',
        'NY': 'New York Red Bulls',
        'Free Agent': 'Free Agent',
        'RSL': 'Real Salt Lake',
        'TFC': 'Toronto FC',
        'SJ': 'San Jose Earthquakes',
        'SEA': 'Seattle Sounders FC',
        'PHI': 'Philadelphia Union',
        'VAN': 'Vancouver Whitecaps FC',
        'POR': 'Portland Timbers',
        'TOR': 'Toronto FC',
        'MTL': 'Montreal Impact',
        'ORL': 'Orlando City SC',
        'NYCFC': 'New York City FC',
        'ATL': 'Atlanta United FC',
        'NYRB': 'New York Red Bulls',
        'LAFC': 'Los Angeles Football Club',
        'MNUFC': 'Minnesota United FC'
    }
    return clubes.get(club, 'Desconhecido')

# Aplicar a função ao DataFrame para converter as abreviações de clube para os nomes completos
df['club_new'] = df['club'].apply(nome_completo_clube)
df

Unnamed: 0,Season,club,Name,position,guaranteed_compensation,base_salary,new_position,club_new
0,2007,CHI,Chris Armas,M,225000.00,225000.0,Meio-campo,Chicago Fire FC
1,2007,CHI,Michael Banner,M,12900.00,12900.0,Meio-campo,Chicago Fire FC
2,2007,CHI,Chad Barrett,F,48712.50,41212.5,Ataque,Chicago Fire FC
3,2007,CHI,Cuauhtemoc Blanco,F,2666778.00,2492316.0,Ataque,Chicago Fire FC
4,2007,CHI,C.J. Brown,D,106391.00,106391.0,Defesa,Chicago Fire FC
...,...,...,...,...,...,...,...,...
611,2017,VAN,Paolo Tornaghi,GK,80000.00,80000.0,Defesa,Vancouver Whitecaps FC
612,2017,VAN,Kendall Waston,D,368125.00,350000.0,Defesa,Vancouver Whitecaps FC
613,2017,VAN,Sheanon Williams,D,184000.00,175000.0,Defesa,Vancouver Whitecaps FC
614,2017,Free Agent,Mo Babouli,F,54075.00,54075.0,Ataque,Free Agent


In [17]:
# Excluir os clubes como "Free Agent" na base
df.drop(df[df['club'] == 'Free Agent'].index, inplace=True)

In [18]:
# Remover as colunas 'club' e 'position' e substituindo pelas 'new_position' e 'club_new'
df = df.drop(['club', 'position'], axis = 1)

In [19]:
# Nova Ordenação das colunas do dataframe
df = df[['Season', 'club_new', 'Name', 'new_position', 'guaranteed_compensation', 'base_salary']]
df.head()

Unnamed: 0,Season,club_new,Name,new_position,guaranteed_compensation,base_salary
0,2007,Chicago Fire FC,Chris Armas,Meio-campo,225000.0,225000.0
1,2007,Chicago Fire FC,Michael Banner,Meio-campo,12900.0,12900.0
2,2007,Chicago Fire FC,Chad Barrett,Ataque,48712.5,41212.5
3,2007,Chicago Fire FC,Cuauhtemoc Blanco,Ataque,2666778.0,2492316.0
4,2007,Chicago Fire FC,C.J. Brown,Defesa,106391.0,106391.0


In [20]:
# Excluir registro quando o o salário é nulo
df = df[pd.notnull(df['base_salary'])]

In [21]:
# Observando o novo dataframe
df.count()

Season                     5127
club_new                   5127
Name                       5127
new_position               5127
guaranteed_compensation    5127
base_salary                5127
dtype: int64

## Análise Univariada

In [22]:
# Criar o histograma da variável 'base_salary'
fig = px.histogram(df, x='base_salary',marginal = 'box', title='Distribuição dos salários base dos jogadores', histnorm='percent', opacity=0.7)

# Adicionar título aos eixos
fig.update_xaxes(title_text='Salário Base')
fig.update_yaxes(title_text='Qtd jogadores')

# Calcular a média e a mediana
media_salario = df['base_salary'].mean()
mediana_salario = df['base_salary'].median()

# Adicionar linhas para representar a média e a mediana
fig.add_vline(x=media_salario, line_color='red', annotation_text=f'Média: {media_salario:.2f}', annotation_position='top left', annotation_font_color='green')
fig.add_vline(x=mediana_salario, line_color='green', annotation_text=f'Mediana: {mediana_salario:.2f}', annotation_position='top right', annotation_font_color='red')

# Exibir o histograma
fig.show()


In [23]:
# Removendo entradas duplicadas
df_unique = df.drop_duplicates(subset=['Name'])

# Filtrando os top 10 nomes com maiores salários e ordenando do maior para o menor
top_10_salaries = df_unique.nlargest(10, 'base_salary').sort_values('base_salary', ascending=True)

# Criando o gráfico de barras horizontais
fig = px.bar(top_10_salaries,
             y='Name',  # Nome dos jogadores no eixo y
             x='base_salary',  # Salário no eixo x
             orientation='h',  # Orientação horizontal
             title='Top 10 jogadores com Maiores Salários',
             labels={'base_salary': 'Salário Base', 'Name': 'Nome do Jogador'})

# Exibindo o gráfico
fig.show()


In [24]:
# Análise do salário médio por clube
salaries_stats = df.groupby('club_new')['base_salary'].agg(['mean']).reset_index()

# Criar o gráfico de barras
fig = px.bar(salaries_stats,
             x='mean',  # Inverter eixo x e y para um gráfico de barras horizontais
             y='club_new',
             barmode='group',
             labels={'club_new': 'Clube', 'mean': 'Salário Médio'},
             title='Média Salarial por Clube')

# Rótulo dos dados do gráfico e propriedades do eixo y
fig.update_traces(
    texttemplate='%{x}',
    textposition='outside',   # Posiciona o rótulo acima da barra
    hoverinfo='skip'          # Remove informações ao passar o mouse
)

# Exibindo o gráfico
fig.show()


In [25]:
# Análise do salário médio por posição do jogador
salaries_stats = df.groupby('new_position')['base_salary'].agg(['mean']).reset_index()

# Criar o gráfico de barras
fig = px.bar(salaries_stats,
             x='new_position',
             y='mean',
             barmode='group',
             labels={'new_position': 'Posição', 'mean': 'Salário Médio'},
             title='Média Salarial por Posição')

# Rótulo dos dados do gráfico e propriedades do eixo y
fig.update_traces(
    texttemplate='%{y}',
    textposition='outside',   # Posiciona o rótulo acima da barra
    hoverinfo='skip'          # Remove informações ao passar o mouse
)

# Exibindo o gráfico
fig.show()


In [26]:
# Distrubuição de jogadores analisados por posição
fig = px.histogram(df, x='new_position', color='new_position')

# Rótulo dos dados do gráfico e propriedades do eixo y
fig.update_traces(
    texttemplate='%{y}',
    textposition='auto',
    hoverinfo='skip'  # Remove informações ao passar o mouse
)

# Propriedades do eixo X e título do eixo X
fig.update_xaxes(
    title_text='Posição',
    categoryorder='total descending'  # Ordenação decrescente
)

# Propriedades do título principal do gráfico
fig.update_layout(
    title_text='Quantidade de jogadores analisados por posição',
    yaxis_visible=False,  # Eixo y invisível
    yaxis_showticklabels=False,  # Marcas de escala invisíveis no eixo y
)

fig.show()



In [27]:
# Distrubuição de jogadores analisados por clube
fig = px.histogram(df, y='club_new', color='club_new', color_discrete_sequence=['skyblue'])

# Rótulo dos dados do gráfico e propriedades do eixo x
fig.update_traces(
    texttemplate='%{x}',
    textposition='auto',
    hoverinfo='skip',  # Remove informações ao passar o mouse
)

# Propriedades do eixo y e título do eixo y
fig.update_yaxes(
    title_text='Clube',
    categoryorder='total ascending'  # Ordenação decrescente
)

# Propriedades do título principal do gráfico
fig.update_layout(
    title_text='Quantidade de jogadores analisados por clube',
    xaxis_visible=False,  # Eixo x invisível
    xaxis_showticklabels=False,  # Marcas de escala invisíveis no eixo x
)

fig.show()


In [28]:
# Distrubuição de jogadores analisados por temporada
fig = px.histogram(df, x='Season', color='Season')

# Rótulo dos dados do gráfico
fig.update_traces(texttemplate='%{y}', textposition='auto')

# Propriedades do eixo y: Eixo y invisível e marca de escala invisível também
fig.update_yaxes(visible=False, showticklabels=False)

# Propriedades do título do eixo X do gráfico e ajuste da orientação dos rótulos
fig.update_xaxes(title_text='Temporada', tickangle=45, tickfont=dict(size=10))

# Propriedades do título principal do gráfico
fig.update_layout(title_text='Quantidade de jogadores analisados por temporada')
fig.show()


## Análise Bivariada

In [29]:
# Exclusão dos salários acima de 2M
df = df.query('base_salary < 2000000')

In [30]:
# Distribuição salarial ao longo dos anos
fig = px.box(df, x='Season', y='base_salary', title='Distribuição de Salários ao longo dos Anos',color='Season',color_discrete_sequence=px.colors.qualitative.G10)
fig.update_yaxes(title_text='Base Salário em USD')
fig.update_xaxes(title_text='Temporada')
fig.show()

In [31]:
# Tamanho da empresa impacta no valor salarial?

fig = px.box(df, x='club_new', y='base_salary',
             title='Impacto do time na base salarial dos jogadores',
             labels={'club': 'Time', 'base_salary': 'Base Salário (em USD)'},
             color='club_new',color_discrete_sequence=px.colors.qualitative.G10)  # Isso vai colorir as caixas com base no tamanho da empresa
fig.show()

In [32]:
# Relação do nível experiência com o salário dos funcionários
fig = px.box(df, x='new_position', y='base_salary',
             title='Relação da posição nos Salários dos jogadores',
             labels={'new_position': 'Posição do jogador', 'base_salary': 'Salário (em USD)'},
             color='new_position',color_discrete_sequence=px.colors.qualitative.G10)  # Isso vai colorir as caixas com base no tamanho da empresa
fig.show()