# **Projeto Análise Salários na Área de Dados**

# **1. Extração e Exploração Inicial da Base de dados**

In [11]:
import pandas as pd  # Importando a biblioteca pandas para manipulação e análise de dados

In [12]:
df = pd.read_csv("Base-Salarios.csv") # Lendo o arquivo CSV diretamente da URL e armazenando os dados no DataFrame 'df'

In [13]:
df.head() # Exibe as primeiras linhas do DataFrame (por padrão, as 5 primeiras) para uma visualização inicial dos dados

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [14]:
df.info() # Exibe informações gerais sobre o DataFrame, como quantidade de entradas, tipos de dados e valores não nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [15]:
df.describe()  # Gera estatísticas descritivas das colunas numéricas do DataFrame, incluindo média, desvio padrão, valores mínimo e máximo, e quartis

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [16]:
#Consultando número de linhas e colunas do DataFrame
linhas, colunas = df.shape[0], df.shape[1]
print(f"Linhas: {linhas} \nColunas: {colunas}")

Linhas: 133349 
Colunas: 11


Renomeando as Colunas do DataFrame

In [17]:
# Dicionário de renomeação
novos_nomes = {
    'work_year': 'Ano',
    'experience_level': 'Senioridade',
    'employment_type': 'Contrato',
    'job_title': 'Cargo',
    'salary': 'Salario',
    'salary_currency': 'Moeda',
    'salary_in_usd': 'USD',
    'employee_residence': 'Residencia',
    'remote_ratio': 'Remoto',
    'company_location': 'Empresa',
    'company_size': 'Tamanho_empresa'
}

# Aplicando renomeação
df.rename(columns=novos_nomes, inplace=True)

# Verificando resultado
df.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salario,Moeda,USD,Residencia,Remoto,Empresa,Tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


**Analisando e renomeando as categorias das variáveis categóricas para facilitar a interpretação dos dados**

Nível de senioridade

In [18]:
senioridade = {
    'SE': 'Senior',
    'MI': 'Pleno',
    'EN': 'Junior',
    'EX': 'Executivo'
}
df['Senioridade'] = df['Senioridade'].replace(senioridade)
df['Senioridade'].value_counts()

Senioridade
Senior       77241
Pleno        40465
Junior       12443
Executivo     3200
Name: count, dtype: int64

Tipo de Contrato

In [19]:
contrato = {
    'FT': 'Integral',
    'PT': 'Parcial',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}
df['Contrato'] = df['Contrato'].replace(contrato)
df['Contrato'].value_counts()

Contrato
Integral      132563
Contrato         394
Parcial          376
Freelancer        16
Name: count, dtype: int64

Regime de Trabalho

In [20]:
mapa_trabalho = {
    0: 'presencial',
    100: 'remoto',
    50: 'hibrido'
}

df['Remoto'] = df['Remoto'].replace(mapa_trabalho)
df['Remoto'].value_counts()

Remoto
presencial    105312
remoto         27718
hibrido          319
Name: count, dtype: int64

Tamanho da Empresa

In [21]:
tamanho_empresa = {
    'L': 'grande',
    'S': 'pequena',
    'M': 'media'
}

df['Tamanho_empresa'] = df['Tamanho_empresa'].replace(tamanho_empresa)
df['Tamanho_empresa'].value_counts()

Tamanho_empresa
media      129561
grande       3574
pequena       214
Name: count, dtype: int64

**Visualizando dados após tratativas iniciais**

In [22]:
df.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salario,Moeda,USD,Residencia,Remoto,Empresa,Tamanho_empresa
0,2025.0,Senior,Integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025.0,Senior,Integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025.0,Pleno,Integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025.0,Pleno,Integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025.0,Junior,Integral,Data Engineer,90000,USD,90000,US,presencial,US,media


In [23]:
df.describe(include='object')

Unnamed: 0,Senioridade,Contrato,Cargo,Moeda,Residencia,Remoto,Empresa,Tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Senior,Integral,Data Scientist,USD,US,presencial,US,media
freq,77241,132563,17314,126140,119579,105312,119641,129561


# **2. Preparação e Limpeza dos Dados**

Vamos iniciar verificando se há valores nulos nas colunas

In [24]:
df.isnull().sum() # Conta quantas linhas nulas há em cada coluna do DataFrame

Ano                10
Senioridade         0
Contrato            0
Cargo               0
Salario             0
Moeda               0
USD                 0
Residencia          0
Remoto              0
Empresa             0
Tamanho_empresa     0
dtype: int64

**Verificando quais anos estão no DataFrame**

In [25]:
df['Ano'].unique() # Exibe quais anos estão na coluna de Ano

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

In [26]:
df[df.isnull().any(axis=1)] # Exibe quais linhas estão sem o ano

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salario,Moeda,USD,Residencia,Remoto,Empresa,Tamanho_empresa
5588,,Senior,Integral,Product Manager,184500,USD,184500,US,presencial,US,media
59692,,Pleno,Integral,Engineer,110000,USD,110000,DE,presencial,DE,media
59710,,Junior,Integral,Data Scientist,208800,USD,208800,US,presencial,US,media
59759,,Senior,Integral,Software Engineer,135000,USD,135000,US,presencial,US,media
59789,,Senior,Integral,Engineer,112000,USD,112000,US,presencial,US,media
131000,,Senior,Integral,Machine Learning Engineer,163800,USD,163800,US,presencial,US,media
131006,,Senior,Integral,Data Analytics Manager,204500,USD,204500,US,presencial,US,media
133054,,Junior,Integral,Data Scientist,40000,USD,40000,JP,remoto,MY,grande
133281,,Pleno,Integral,Machine Learning Engineer,180000,PLN,46597,PL,remoto,PL,grande
133317,,Pleno,Integral,Data Scientist,130000,USD,130000,US,hibrido,US,grande


Por ser uma base de dados com 130 mil exemplos e apenas 10 faltando informação, vamos optar por excluir pois não vai interferir nas análises.

In [27]:
df_limpo = df.dropna() # Removendo dados nulos

In [28]:
df_limpo.isnull().sum() # Conferindo novo DataFrame

Ano                0
Senioridade        0
Contrato           0
Cargo              0
Salario            0
Moeda              0
USD                0
Residencia         0
Remoto             0
Empresa            0
Tamanho_empresa    0
dtype: int64

**Alterando tipos de dados**

In [29]:
df_limpo.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salario,Moeda,USD,Residencia,Remoto,Empresa,Tamanho_empresa
0,2025.0,Senior,Integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025.0,Senior,Integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025.0,Pleno,Integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025.0,Pleno,Integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025.0,Junior,Integral,Data Engineer,90000,USD,90000,US,presencial,US,media


In [30]:
df_limpo = df_limpo.assign(ano = df_limpo['Ano'].astype('int64')) # Colocando a coluna de Ano como número inteiro

# **3. Visualizando os Dados**

In [31]:
import plotly.express as px # Importando a biblioteca Plotly Express para criar gráficos interativos
import plotly.io as pio

**Plotando Gráfico de Distribuição de Sálarios anuais**

**Intuito:** Visualizar a distribuição dos salários anuais na base de dados.

In [32]:
grafico_hist = px.histogram(
    df_limpo,
    x='USD',
    nbins=30,
    title="Distribuição de salários anuais",
    labels={'USD': 'Faixa salarial (USD)', 'count': 'Quantidade'}
)
grafico_hist.update_layout(title_x=0.1)

# Salvando como imagem para exibição no GitHub
pio.write_image(grafico_hist, "histograma_salarios_anuais.png")

# Mostrando o gráfico interativo no notebook
grafico_hist.show()

![Distribuição de Salários Anuais](histograma_salarios_anuais.png)

**Análise:** A maior parte dos salários está concentrada entre 80.000 e 200.000 USD por ano, com poucos profissionais recebendo valores muito acima dessa faixa. Isso mostra uma distribuição assimétrica, com predominância de salários médios e poucos casos de remunerações extremamente altas.

**Proporção dos Tipos de Trabalho**

**Intuito:** Mostrar a proporção de profissionais que trabalham nos formatos presencial, remoto e híbrido.

In [33]:
remoto_contagem = df_limpo['Remoto'].value_counts().reset_index()
remoto_contagem.columns = ['Tipo_trabalho', 'Quantidade']

fig = px.pie(
    remoto_contagem,
    names='Tipo_trabalho',
    values='Quantidade',
    title='Proporção dos Tipos de Trabalho',
    hole=0.5
)
fig.update_traces(textinfo='percent+label')

# Salvando como imagem para exibição no GitHub
pio.write_image(fig, "proporcao_tipos_trabalho.png")

# Mostrando o gráfico interativo no notebook
fig.show()


![Proporção dos Tipos de Trabalho](proporcao_tipos_trabalho.png)

**Análise:** A maioria dos profissionais atua de forma presencial (79%), enquanto cerca de 21% trabalham remotamente e uma pequena parcela em modelo híbrido. Isso indica que o trabalho presencial ainda é predominante na base analisada.

**Top 10 Melhores médias salariais por cargo**

**Intuito:** Identificar os cargos com as maiores médias salariais na base de dados.

In [34]:
top_cargos = df_limpo.groupby('Cargo')['USD'].mean().nlargest(10).sort_values(ascending=True).reset_index()
top_cargos

Unnamed: 0,Cargo,USD
0,AWS Data Architect,258000.0
1,Engineering Manager,260399.127577
2,Director of Product Management,262004.038462
3,Machine Learning Performance Engineer,262500.0
4,Head of Machine Learning,266429.941176
5,Head of Applied AI,273875.0
6,Applied AI ML Lead,292500.0
7,Data Science Tech Lead,375000.0
8,Analytics Engineering Manager,399880.0
9,Research Team Lead,450000.0


In [35]:
# Gráfico interativo
grafico_cargos = px.bar(
    top_cargos,
    x='USD',
    y='Cargo',
    orientation='h',
    title="Top 10 cargos por salário médio",
    labels={'USD': 'Média salarial anual (USD)', 'Cargo': 'Cargo'}
)
grafico_cargos.update_layout(
    title_x=0.1,
    yaxis={'categoryorder':'total ascending'}
)

# Salvando como imagem para exibição no GitHub
grafico_cargos.write_image("top10_cargos_salario_medio.png")

# Mostrando o gráfico interativo no notebook
grafico_cargos.show() 

![Top 10 Cargos por Salário Médio](top10_cargos_salario_medio.png)

**Análise:** Os cargos de liderança técnica e de pesquisa, como Research Team Lead e Analytics Engineering Manager, apresentam as maiores médias salariais. Isso indica que funções de gestão e alta especialização são as mais valorizadas financeiramente.

**Mapa do salário médio do Cientista de Dados por país**

**Intuito:** Comparar o salário médio de Cientistas de Dados entre diferentes países.

Instalação de uma biblioteca para converter os códigos de residência, numa sigla que seja possível criar um mapa:

In [36]:
pip install pycountry

Note: you may need to restart the kernel to use updated packages.


Devemos converter os códigos de país do formato ISO-2 (duas letras) para ISO-3 (três letras), pois muitas bibliotecas de visualização geográfica — como as usadas para gerar mapas — reconhecem apenas o padrão ISO-3. Essa conversão garante que os países sejam corretamente identificados nos gráficos. Em seguida, é criada uma nova coluna com esses códigos e calculada a média salarial por país.

In [37]:
import pycountry

# Função para converter ISO-2 para ISO-3
def iso2_to_iso3(code):
    try:
        return pycountry.countries.get(alpha_2=code).alpha_3
    except:
        return None

# Criar nova coluna com código ISO-3
df_limpo['residencia_iso3'] = df_limpo['Residencia'].apply(iso2_to_iso3)

# Calcular média salarial por país (ISO-3)
df_ds = df_limpo[df_limpo['Cargo'] == 'Data Scientist']
media_ds_pais = df_ds.groupby('residencia_iso3')['USD'].mean().reset_index()

In [38]:
# Gerar o mapa de salários médios por país
fig = px.choropleth(
    media_ds_pais,
    locations='residencia_iso3',
    color='USD',
    color_continuous_scale='rdylgn',
    title='Salário médio de Cientista de Dados por país',
    labels={'USD': 'Salário médio (USD)', 'residencia_iso3': 'País'}
)

# Salvando como imagem para exibição no GitHub
fig.write_image("mapa_salario_cientista_dados.png")

# Mostrando o gráfico interativo no notebook
fig.show()

![Salário Médio de Cientista de Dados por País](mapa_salario_cientista_dados.png)

**Análise:** Os maiores salários médios estão concentrados em países da América do Norte e Europa, especialmente nos Estados Unidos e Canadá. Já regiões como América do Sul e Ásia apresentam médias salariais mais baixas, evidenciando diferenças econômicas e de mercado entre as regiões.

In [39]:
df_limpo.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salario,Moeda,USD,Residencia,Remoto,Empresa,Tamanho_empresa,ano,residencia_iso3
0,2025.0,Senior,Integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media,2025,USA
1,2025.0,Senior,Integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media,2025,USA
2,2025.0,Pleno,Integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media,2025,AUS
3,2025.0,Pleno,Integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media,2025,AUS
4,2025.0,Junior,Integral,Data Engineer,90000,USD,90000,US,presencial,US,media,2025,USA


Exportando a versão final do dataset, já tratada e analisada, para garantir reprodutibilidade do projeto

In [40]:
df_limpo.to_csv('Dados-Final.csv', index=False)