In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df_salaries = pd.read_csv('./datasets/salaries.csv')

In [None]:
df_salaries.info()

In [None]:
df_salaries.head(10)

In [None]:
df_salaries_eda = df_salaries.copy()

In [None]:
df_salaries_bucketing = df_salaries.copy()

### EDA

In [None]:
# Detectar valores ausentes
df_salaries_eda.isna().sum()

In [None]:
# Medidas estatísticas
df_salaries_eda.describe()

In [None]:
# Verificar outliers
sns.boxplot(df_salaries_eda, x='tempo_na_empresa')

In [None]:
sns.boxplot(df_salaries_eda, x='nivel_na_empresa')

In [None]:
sns.boxplot(df_salaries_eda, x='salario_em_reais')

In [None]:
sns.scatterplot(df_salaries_eda, x='tempo_na_empresa', y='salario_em_reais')

In [None]:
sns.scatterplot(df_salaries_eda, x='nivel_na_empresa', y='salario_em_reais')

In [None]:
sns.scatterplot(df_salaries_eda, x='nivel_na_empresa', y='tempo_na_empresa')

- Percebe-se visualmente que o tempo na empresa tem uma influência forte no salário em reais, mas não é uma relação linear
- Não existe relação aparente entre nível na empresa e o salário em reais e entre nível na empresa e tempo na empresa

In [None]:
sns.pairplot(df_salaries_eda)

In [None]:
# Mapa de calor para a correlação
# Utilizamos Spearman para captar valores não-lineares
plt.figure(figsize=(15,6))
sns.heatmap(df_salaries_eda.corr('spearman'), annot=True, vmin=-1, vmax=1)

In [None]:
# Ranking chart
sns.heatmap(df_salaries_eda.corr('spearman')[['salario_em_reais']].sort_values(by='salario_em_reais', ascending=False), vmin=-1, vmax=1, annot=True, cmap='BrBG')

In [None]:
# Bucketing tempo de casa
bins_company_time = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 200]
labels_company_time = ['0-9', '10-19', '20-29','30-39','40-49','50-59','60-69','70-79','80-89','90,99','100-109','110-119','120+']
df_salaries_bucketing['escala_tempo_empresa'] = pd.cut(x=df_salaries_bucketing['tempo_na_empresa'],
    bins=bins_company_time, labels=labels_company_time, right=False)

In [None]:
df_salaries_bucketing.head(10)

In [None]:
plt.figure(figsize=(14,8))
sns.boxplot(df_salaries_bucketing, x='escala_tempo_empresa', y='salario_em_reais')