In [None]:
# Importando as bibliotecas
import pandas as pd   # análise de dados

In [None]:
# Importando a base de dados de um repositório do Github
# daremos o nome de df (dataframe), mas pode ser o nome que desejar

# lendo os dados com a biblioteca pandas
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

In [None]:
# Primeira visualização para entender o que tem nessa base de dados
df.head()  # mostra apenas as 5 primeiras linhas
df.head(10)  # mostra as 10 primeiras linhas

# df trata dos salários que pessoas que trabalham na área de dados

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M
5,2025.0,EN,FT,Data Engineer,80000,USD,80000,US,0,US,M
6,2025.0,SE,FT,Data Scientist,185000,USD,185000,US,0,US,M
7,2025.0,SE,FT,Data Scientist,148000,USD,148000,US,0,US,M
8,2025.0,MI,FT,Data Scientist,135000,USD,135000,CA,0,CA,M
9,2025.0,MI,FT,Data Scientist,108000,USD,108000,CA,0,CA,M


In [None]:
# Analisando as informações do df
df.info()

# float: numérico
# object:
# int64: numérico
# não tem dados nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [None]:
# Entendo melhor a base de dados - ESTATÍSTICA DESCRITIVA
# usando só os dados numéricos (float ou int)
df.describe()


# count: contagem, quantos registros tem para a coluna
# mean: média
# std: desvio padrão
# min: mínimo que recebeu naquele ano
# max: máximo que recebeu naquele ano

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [None]:
# Qual o tamanho da base
df.shape

# são 133.349 linhas e 11 colunas

(133349, 11)

In [None]:
# Deixando a quantidade de linhas e colunas com uma visualização melhor
# criando as variáveis "linhas", que guarda a quantidade de linhas, e "colunas" que guarda a quantidade de colunas
linhas, colunas = df.shape[0], df.shape[1]

# a quantidade de linhas começa no zero (0), posição 1 que pega a quantidade de colunas

In [None]:
# para ver as linhas e colunas
print("Número de colunas:", colunas)
print("Numero de linhas:", linhas)       # em aspas são o texto que quer ser impresso, nome para aparecer no relatório

Número de colunas: 11
Numero de linhas: 133349


In [None]:
# Quais os nomes das colunas?
df.columns

# elas estão em inglês

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [None]:
# Traduzindo os nomes das colunas para português
renomear_colunas = {
    'work_year': 'ano',
    'experience_level': 'nivel_experiencia',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_salario',
    'salary_in_usd': 'salario_usd',
    'employee_residence': 'residencia_empregado',
    'remote_ratio': 'remoto',
    'company_location': 'localizacao_empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns = renomear_colunas, inplace = True)
df.columns

Index(['ano', 'nivel_experiencia', 'contrato', 'cargo', 'salario',
       'moeda_salario', 'salario_usd', 'residencia_empregado', 'remoto',
       'localizacao_empresa', 'tamanho_empresa'],
      dtype='object')

# **Analisando as variáveis (colunas)**

In [None]:
# Qual é a frequencia da variável "nível de experiência", em cada categoria
df["nivel_experiencia"].value_counts()

# SE: senior, MI: intermédiario/medium, EN: junior, EX: executivo/liderança

Unnamed: 0_level_0,count
nivel_experiencia,Unnamed: 1_level_1
SE,77241
MI,40465
EN,12443
EX,3200


A maior parte dos indivíduos tem um nível de experiência "senior".

In [None]:
# Qual é a frequencia da variável "contrato", em cada categoria
df["contrato"].value_counts()

# FT: fulltime; CT: contrato temporário; PT: part time, FL: freelance

Unnamed: 0_level_0,count
contrato,Unnamed: 1_level_1
FT,132563
CT,394
PT,376
FL,16


A maior parte dos indivíduos tem um contrato de trabalho em tempo integral (fulltime).

In [None]:
# Qual é a frequencia da variável "remoto"
df["remoto"].value_counts()

Unnamed: 0_level_0,count
remoto,Unnamed: 1_level_1
0,105312
100,27718
50,319


A maior parte dos indivíduos trabalha presencialmente.(maioria das vagas são presenciais)

In [None]:
# Qual é a frequencia da variável "tamanho da empresa"
df["tamanho_empresa"].value_counts()

# M: médio, L: grande, S: pequeno

Unnamed: 0_level_0,count
tamanho_empresa,Unnamed: 1_level_1
M,129561
L,3574
S,214


A maior parte das empresas é de médio porte.

# Além de renomear as colunas, fica mais intuitivo renomear as categorias para que quando for necessário fazer relatórios, gráficos e dashboards a visualização seja melhor.

In [None]:
# Traduzindo os nomes das categorias da variável "tempo de experiência"
substituir_nivel_experiencia = {
    "SE": 'Senior',
    "MI": 'Pleno',
    "EN": 'Junior',
    "EX": 'Executivo'
}

df["nivel_experiencia"] = df["nivel_experiencia"].replace(substituir_nivel_experiencia)
df["nivel_experiencia"].value_counts()

Unnamed: 0_level_0,count
nivel_experiencia,Unnamed: 1_level_1
Senior,77241
Pleno,40465
Junior,12443
Executivo,3200


In [None]:
# Traduzindo os nomes das categorias da variável "contrato"
substituir_contrato = {
    "FT": 'Tempo integral',
    "PT": 'Tempo parcial',
    "FL": 'Freelance',
    "CT": 'Contrato temporário'
}

df["contrato"] = df["contrato"].replace(substituir_contrato)
df["contrato"].value_counts()

Unnamed: 0_level_0,count
contrato,Unnamed: 1_level_1
Tempo integral,132563
Contrato temporário,394
Tempo parcial,376
Freela,16


In [None]:
# Traduzindo os nomes das categorias da variável "tamanho da empresa"
substituir_tamanho_empresa = {
    "S": 'Pequena',
    "L": 'Grande',
    "M": 'Média',
}

df["tamanho_empresa"] = df["tamanho_empresa"].replace(substituir_tamanho_empresa)
df["tamanho_empresa"].value_counts()

Unnamed: 0_level_0,count
tamanho_empresa,Unnamed: 1_level_1
Média,129561
Grande,3574
Pequena,214


In [None]:
# Traduzindo os nomes das categorias da variável "remoto"
substituir_remoto = {       # como as categorias estão em número, não usar as aspas
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}

df["remoto"] = df["remoto"].replace(substituir_remoto)
df["remoto"].value_counts()

Unnamed: 0_level_0,count
remoto,Unnamed: 1_level_1
Presencial,105312
Remoto,27718
Híbrido,319


In [None]:
# Verificando as mudanças
df.head()

Unnamed: 0,ano,nivel_experiencia,contrato,cargo,salario,moeda_salario,salario_usd,residencia_empregado,remoto,localizacao_empresa,tamanho_empresa
0,2025.0,Senior,Tempo integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025.0,Senior,Tempo integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025.0,Pleno,Tempo integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025.0,Pleno,Tempo integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025.0,Junior,Tempo integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


Usando o "describe" para ver variáveis categóricas  e contínuas(antes usamos só para as contínuas)

In [None]:
# ESTATÍSTICA DESCRITIVA
df.describe(include = "object")

# count = contagem de números na colunas
# unique = categorias (por exemplo, moeda salário tem 26 moedas diferentes; remoto tem 3 categorias - presencial, remoto e híbrido)
# top: qual informação é mais frequente (nível de experiência mais comum: senior)
# freq: fequencia - quantas vezes esse valor "top" está se repetindo (senior aparece 77.241 vezes)

Unnamed: 0,nivel_experiencia,contrato,cargo,moeda_salario,residencia_empregado,remoto,localizacao_empresa,tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Senior,Tempo integral,Data Scientist,USD,US,Presencial,US,Média
freq,77241,132563,17314,126140,119579,105312,119641,129561


In [None]:
df.describe()

Unnamed: 0,ano,salario,salario_usd
count,133339.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098
std,0.680627,217386.0,74288.363097
min,2020.0,14000.0,15000.0
25%,2024.0,106020.0,106000.0
50%,2024.0,147000.0,146206.0
75%,2025.0,199000.0,198000.0
max,2025.0,30400000.0,800000.0
