# Análise de Dados com Pandas

In [161]:
import pandas as pd

In [162]:
# Importar a base de dados
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [163]:
# Informações dos tipos de dados do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [164]:
# Descrição dos valores numéricos
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [165]:
# Formato da base de dados
df.shape

(133349, 11)

In [166]:
# Quantidade de linhas e colunas
linhas, colunas = df.shape[0], df.shape[1]
print(f'Linhas: {linhas}')
print(f'Colunas: {colunas}')

Linhas: 133349
Colunas: 11


In [167]:
# Nomes das colunas do df
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

## Renomeando as colunas

In [168]:
# Renomenado as colunas
novos_nomes = {
    'work_year':'ano', 
    'experience_level':'senioridade', 
    'employment_type':'contrato', 
    'job_title':'cargo',
    'salary':'salario', 
    'salary_currency':'moeda', 
    'salary_in_usd':'usd', 
    'employee_residence':'residencia',
    'remote_ratio':'remoto', 
    'company_location':'empresa', 
    'company_size':'tamanho_empresa'    
}

# Aplicando a renomeação
df.rename(columns=novos_nomes, inplace=True)

# Visualizando o df renomeado
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


## Analisando quais sãos as categorias das colunas categóricas
### Nivel experiência

In [169]:
df['senioridade'].value_counts()

senioridade
SE    77241
MI    40465
EN    12443
EX     3200
Name: count, dtype: int64

In [170]:
siglas_senioridade = {
    'Sigla':['SE', 'MI', 'EN', 'EX'],
    'Significado': ['Senior', 'Pleno', 'Junior', 'Executivo'],
    'Descrição': ['Profissional experiente (nível sênior)', 'Nível intermediário',
                  'Iniciante ou júnior (entry-level)', 'Executivo, liderança sênior (C-Level)']
}

df_senioridade = pd.DataFrame(siglas_senioridade)

# Remover o índice e exibir como tabela
display(df_senioridade.style.hide(axis='index'))

Sigla,Significado,Descrição
SE,Senior,Profissional experiente (nível sênior)
MI,Pleno,Nível intermediário
EN,Junior,Iniciante ou júnior (entry-level)
EX,Executivo,"Executivo, liderança sênior (C-Level)"


### Tipo de contrato

In [171]:
df['contrato'].value_counts()

contrato
FT    132563
CT       394
PT       376
FL        16
Name: count, dtype: int64

In [172]:
siglas_contrato = {
    'Sigla':['FT', 'CT', 'PT', 'FL'],
    'Significado': ['Tempo Integral', 'Contrato', 'Tempo Parcial', 'Freelance'],
    'Descrição': ['Tempo integral – trabalho padrão de 40h/semana ou período completo', 
                  'Meio período – carga horária reduzida',
                  'Contrato temporário ou por projeto – geralmente por prazo determinado', 
                  'Freelancer – trabalho autônomo ou por demanda, sem vínculo formal']
}

df_contrato = pd.DataFrame(siglas_contrato)

# Remover o índice e exibir como tabela
display(df_contrato.style.hide(axis='index'))

Sigla,Significado,Descrição
FT,Tempo Integral,Tempo integral – trabalho padrão de 40h/semana ou período completo
CT,Contrato,Meio período – carga horária reduzida
PT,Tempo Parcial,Contrato temporário ou por projeto – geralmente por prazo determinado
FL,Freelance,"Freelancer – trabalho autônomo ou por demanda, sem vínculo formal"


### Regime de trabalho

In [173]:
df['remoto'].value_counts()

remoto
0      105312
100     27718
50        319
Name: count, dtype: int64

In [174]:
siglas_remoto = {
    'Sigla':[0, 100, 50],
    'Significado': ['Presencial', 'Remoto', 'Hibrido']
}

df_remoto = pd.DataFrame(siglas_remoto)

# Remover o índice e exibir como tabela
display(df_remoto.style.hide(axis='index'))

Sigla,Significado
0,Presencial
100,Remoto
50,Hibrido


### Tamanho de empresa

In [175]:
df['tamanho_empresa'].value_counts()

tamanho_empresa
M    129561
L      3574
S       214
Name: count, dtype: int64

In [176]:
siglas_tamanho_empresa = {
    'Sigla':['M', 'L', 'S'],
    'Significado': ['Medium', 'Large', 'Small'],
    'Descrição': ['Empresa de tamanho médio', 'Empresa de tamanho grande', 'Empresa de tamanho pequeno']
}

df_tamanho_empresa = pd.DataFrame(siglas_tamanho_empresa)

# Remover o índice e exibir como tabela
display(df_tamanho_empresa.style.hide(axis='index'))

Sigla,Significado,Descrição
M,Medium,Empresa de tamanho médio
L,Large,Empresa de tamanho grande
S,Small,Empresa de tamanho pequeno


### Modificar o nome das categorias

In [177]:
# Renomear senioridade
senioridade = {
    'SE':'Senior', 
    'MI':'Pleno', 
    'EN':'Junior', 
    'EX':'Executivo'    
}

df['senioridade'] = df['senioridade'].replace(senioridade)
df['senioridade'].value_counts()

senioridade
Senior       77241
Pleno        40465
Junior       12443
Executivo     3200
Name: count, dtype: int64

In [178]:
# Renomear contrato
contrato = {
    'FT':'Tempo Integral', 
    'CT':'Contrato', 
    'PT':'Tempo Parcial', 
    'FL':'Freelance'
}

df['contrato'] = df['contrato'].replace(contrato)
df['contrato'].value_counts()

contrato
Tempo Integral    132563
Contrato             394
Tempo Parcial        376
Freelance             16
Name: count, dtype: int64

In [179]:
# Renomear remoto
remoto = {
    0:'Presencial', 
    100:'Remoto', 
    50:'Hibrido'    
}

df['remoto'] = df['remoto'].replace(remoto)
df['remoto'].value_counts()

remoto
Presencial    105312
Remoto         27718
Hibrido          319
Name: count, dtype: int64

In [180]:
# Renomear tamanho_empresa
tamanho_empresa = {
    'M':'Medium', 
    'L':'Large', 
    'S':'Small'        
}

df['tamanho_empresa'] = df['tamanho_empresa'].replace(tamanho_empresa)
df['tamanho_empresa'].value_counts()

tamanho_empresa
Medium    129561
Large       3574
Small        214
Name: count, dtype: int64

In [181]:
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,Senior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Medium
1,2025.0,Senior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Medium
2,2025.0,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Medium
3,2025.0,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Medium
4,2025.0,Junior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Medium


In [182]:
# Descrição das categorias
df.describe(include='object')

Unnamed: 0,senioridade,contrato,cargo,moeda,residencia,remoto,empresa,tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Senior,Tempo Integral,Data Scientist,USD,US,Presencial,US,Medium
freq,77241,132563,17314,126140,119579,105312,119641,129561


In [183]:
# Descrição numéricos
df.describe()

Unnamed: 0,ano,salario,usd
count,133339.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098
std,0.680627,217386.0,74288.363097
min,2020.0,14000.0,15000.0
25%,2024.0,106020.0,106000.0
50%,2024.0,147000.0,146206.0
75%,2025.0,199000.0,198000.0
max,2025.0,30400000.0,800000.0


Com isso já conseguimos responder algumas perguntas, como:

- Qual o nível de experiência mais comum na base de dados?
- Qual é o tipo de contrato mais frequente?
- Qual o cargo mais frequente na amostra?
- De qual país são a maioria dos profissionais da base?
- Qual é o país onde mais empresas da amostra estão sediadas?
- Qual o regime de trabalho mais comum?
- Qual é o tamanho mais comum das empresas na amostra?

O código é um passo a passo para entender, limpar e preparar a base de dados para análises mais profundas, facilitando a visualização de padrões e tendências no mercado de trabalho em ciência de dados.