In [None]:
import sys
import pandas as pd
from pathlib import Path
import seaborn as sns
import matplotlib.pyplot as plt

sys.path.append(str(Path().resolve().parent))

from scripts.clean import final_clear_df

df = pd.read_csv('../data/raw/data.csv')
# Script to clear data frame
df = final_clear_df(df)



In [None]:
# Order by average salary (ascending)
ordem = df.groupby('senioridade')['salario_usd'].mean().sort_values(ascending=True).index

plt.figure(figsize=(8, 5))
sns.barplot(data=df, x='senioridade', y='salario_usd', order=ordem, palette='Set2', hue='senioridade')
plt.title('Salario por Senioridade')
plt.xlabel('Senioridade')
plt.ylabel('Salario Médio Anual (USD)')
plt.show()

In [None]:
# Salary annual distribution

plt.figure(figsize=(9, 5))
sns.histplot(df['salario_usd'], bins=50, kde=True)
plt.title('Distribuição do Salário Anual')
plt.xlabel('Salário (USD)')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Annual Salary Bloxpot by Seniority

ordem_senioridade = ['Junior', 'Pleno', 'Senior', 'Executivo']

plt.figure(figsize=(9, 5))
sns.boxplot(x='senioridade', y='salario_usd', data=df, order=ordem_senioridade, palette='Set2', hue='senioridade')
plt.title('Boxplot do Salário Anual por Senioridade (USD)')
plt.xlabel('Senioridade')
plt.ylabel('Salário (USD)')
plt.show()

In [None]:
# Average salary by seniority
import plotly.express as px
import plotly.io as pio

pio.renderers.default = 'notebook'

senioridade_media_salarial = df.groupby('senioridade')['salario_usd'].mean().sort_values(ascending=True).reset_index()

figure = px.bar(senioridade_media_salarial,
                x='senioridade',
                y='salario_usd',
                title='Média Salarial por Senioridade (USD)',
                color='senioridade',
                labels={'senioridade': 'Senioridade', 'salario_usd': 'Salário Médio (USD)'}
)

figure.show()

In [None]:
# Average Salary by position: Data Scientist

# New df based on positions
cargo_df = df.loc[df['cargo'] == 'Data Scientist', ['cargo', 'residencia', 'salario_usd']]

# average salary by country (total 54 countries)
pais_media_salarial = cargo_df.groupby('residencia')['salario_usd'].mean().sort_values(ascending=True).reset_index()

pais_media_salarial.columns = ['Residência', 'Média Salarial (USD)']

fig = px.bar(pais_media_salarial,
            x='Residência',
            y='Média Salarial (USD)',
            color='Média Salarial (USD)',
            color_continuous_scale=px.colors.sequential.Redor,
            title='Média Salarial por País para Data Scientists'
            )

fig.show()

In [None]:
remoto_count = df['remoto'].value_counts().reset_index()

remoto_count.columns = ['Modelo_Trabalho', 'Contagem']

figure = px.pie(remoto_count,
                names='Modelo_Trabalho',
                values='Contagem',
                title='Proporção de Modelos de Trabalho',
                hole=0.5
)

figure.update_traces(textinfo='percent+label')
figure.show()