In [2]:
# O código é um passo a passo para entender, limpar e preparar a base de dados para análises mais profundas, facilitando a visualização de padrões e tendências no mercado de trabalho em ciência de dados.

import pandas as pd

In [12]:
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

In [4]:
# o numero entre parenteses representa o numero de linhas a serem exibidos
df.head(10)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M
5,2025.0,EN,FT,Data Engineer,80000,USD,80000,US,0,US,M
6,2025.0,SE,FT,Data Scientist,185000,USD,185000,US,0,US,M
7,2025.0,SE,FT,Data Scientist,148000,USD,148000,US,0,US,M
8,2025.0,MI,FT,Data Scientist,135000,USD,135000,CA,0,CA,M
9,2025.0,MI,FT,Data Scientist,108000,USD,108000,CA,0,CA,M


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [6]:
# descrição da base de dados
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [7]:
# a dimensão do arquivo em linhas e colunas
df.shape

(133349, 11)

In [8]:
# imprimindo o shape anterior de forma mais amigável
linhas, colunas = df.shape[0], df.shape[1]

print(f"O arquivo possui {linhas} linhas e {colunas} colunas")

O arquivo possui 133349 linhas e 11 colunas


In [9]:
# buscando o nome das colunas no arquivo
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [15]:
# traduzindo o nome das colunas do arquivo de dados para o ptbr
renomear_colunas = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title' : 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'USD',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns=renomear_colunas, inplace=True)
df.head()


Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,USD,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [16]:
# contar os valores de cada categoria do nivel de senioridade experiencia
df["senioridade"].value_counts()

senioridade
SE    77241
MI    40465
EN    12443
EX     3200
Name: count, dtype: int64

In [27]:
# Modificando o nome das categorias no arquivo base
senioridade = {
    'EN': 'Júnior',
    'MI': 'Pleno',
    'SE': 'Sênior',
    'EX': 'Especialista'
}

df["senioridade"] = df["senioridade"].replace(senioridade)
df["senioridade"].value_counts()

senioridade
Sênior          77241
Pleno           40465
Júnior          12443
Especialista     3200
Name: count, dtype: int64

In [17]:
df["contrato"].value_counts()

contrato
FT    132563
CT       394
PT       376
FL        16
Name: count, dtype: int64

In [24]:
contrato = {
    'FT' : 'Tempo Integral',
    'PT' : 'Tempo Parcial',
    'FL' : 'Freelancer',
    'CT' : 'Contrato'
}

df["contrato"] = df["contrato"].replace(contrato)
df["contrato"].value_counts()

contrato
Tempo Integral    132563
Contrato             394
Tempo Parcial        376
Freelancer            16
Name: count, dtype: int64

In [19]:
df["remoto"].value_counts()

# sobre o resultado do comando:
# 0 - presencial
# 100 - remoto
# 50 - híbrido

remoto
0      105312
100     27718
50        319
Name: count, dtype: int64

In [23]:
remoto = {
    0 : "Presencial",
    50 :"Hibrido",
    100 : "Remoto"
}

df["remoto"] = df["remoto"].replace(remoto) # type: ignore
df["remoto"].value_counts() # type: ignore

remoto
Presencial    105312
Remoto         27718
Hibrido          319
Name: count, dtype: int64

In [25]:
df["tamanho_empresa"].value_counts()

# Sigla	Significado	Descrição
# M	Medium	Empresa de tamanho médio
# L	Large	Empresa de tamanho grande
# S	Small	Empresa de tamanho pequeno

tamanho_empresa
M    129561
L      3574
S       214
Name: count, dtype: int64

In [29]:
tamanho_empresa = {
    "M" : "Media",
    "L" : "Grande",
    "S" : "pequena"
}

df["tamanho_empresa"] = df["tamanho_empresa"].replace(tamanho_empresa)
df["tamanho_empresa"].value_counts()

tamanho_empresa
Pequena    129561
Media        3574
Grande        214
Name: count, dtype: int64

In [None]:
df["senioridade"].value_counts()

senioridade
Sênior          77241
Pleno           40465
Júnior          12443
Especialista     3200
Name: count, dtype: int64

In [28]:
df.describe(include='object')

Unnamed: 0,senioridade,contrato,cargo,moeda,residencia,remoto,empresa,tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Sênior,Tempo Integral,Data Scientist,USD,US,Presencial,US,Pequena
freq,77241,132563,17314,126140,119579,105312,119641,129561


Com isso já conseguimos responder algumas perguntas, como:

Qual o nível de experiência mais comum na base de dados?
Qual é o tipo de contrato mais frequente?
Qual o cargo mais frequente na amostra?
De qual país são a maioria dos profissionais da base?
Qual é o país onde mais empresas da amostra estão sediadas?
Qual o regime de trabalho mais comum?
Qual é o tamanho mais comum das empresas na amostra?

Palavra-chave: PANDAS