In [74]:
# Importa biblioteca Pandas com o alias pd
import pandas as pd

In [75]:
# Este comando carrega o conjunto de dados de um arquivo CSV hospedado no GitHub
# em um DataFrame pandas chamado 'df'.
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

In [76]:
# Dicionário de renomeação
novos_nomes = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}

# Aplicando renomeação
df.rename(columns=novos_nomes, inplace=True)

In [77]:
# Verifica se há valores nulos em cada célula do DataFrame, retornando True para nulo e False caso contrário.
df.isnull()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
133344,False,False,False,False,False,False,False,False,False,False,False
133345,False,False,False,False,False,False,False,False,False,False,False
133346,False,False,False,False,False,False,False,False,False,False,False
133347,False,False,False,False,False,False,False,False,False,False,False


In [78]:
# Exibe as primeiras 5 linhas do DataFrame 'df'.
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [79]:
# Conta o número de valores nulos em cada coluna do DataFrame 'df' e exibe o resultado.
df.isnull().sum()

Unnamed: 0,0
ano,10
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa,0


In [80]:
# Este comando exibe os valores únicos presentes na coluna 'ano' do DataFrame 'df'.
df['ano'].unique()

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

In [81]:
# Seleciona e exibe todas as linhas do DataFrame 'df' que contêm pelo menos um valor nulo em qualquer coluna.
df[df.isnull().any(axis=1)]

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
5588,,SE,FT,Product Manager,184500,USD,184500,US,0,US,M
59692,,MI,FT,Engineer,110000,USD,110000,DE,0,DE,M
59710,,EN,FT,Data Scientist,208800,USD,208800,US,0,US,M
59759,,SE,FT,Software Engineer,135000,USD,135000,US,0,US,M
59789,,SE,FT,Engineer,112000,USD,112000,US,0,US,M
131000,,SE,FT,Machine Learning Engineer,163800,USD,163800,US,0,US,M
131006,,SE,FT,Data Analytics Manager,204500,USD,204500,US,0,US,M
133054,,EN,FT,Data Scientist,40000,USD,40000,JP,100,MY,L
133281,,MI,FT,Machine Learning Engineer,180000,PLN,46597,PL,100,PL,L
133317,,MI,FT,Data Scientist,130000,USD,130000,US,50,US,L


In [82]:
# Importa a biblioteca NumPy e a renomeia como 'np'. NumPy é comumente usada para operações numéricas e arrays.
import numpy as np


## Criação de um dataframe de teste
df_salarios = pd.DataFrame({
    'nome': ["Marllon", "Tais", "Rita", "Arnaldo", "Gal"],
    'salario': [10000, 7777, np.nan, np.nan, 100000]
})

## Calcula a media dos salarios e arredonda, subistitui os nulos
df_salarios["salario_media"] = df_salarios["salario"].fillna(df_salarios["salario"].mean().round(2))

# Preenche os valores nulos na coluna 'salario' com a mediana dos salários e armazena o resultado em uma nova coluna 'salario_mediana'.
df_salarios["salario_mediana"] = df_salarios["salario"].fillna(df_salarios["salario"].median())

# Exibe o DataFrame 'df_salarios'.
df_salarios

Unnamed: 0,nome,salario,salario_media,salario_mediana
0,Marllon,10000.0,10000.0,10000.0
1,Tais,7777.0,7777.0,7777.0
2,Rita,,39259.0,10000.0
3,Arnaldo,,39259.0,10000.0
4,Gal,100000.0,100000.0,100000.0


In [83]:
# Criação de um dataframe de teste chamado 'df_temperaturas'.
df_temperaturas = pd.DataFrame({
    'Dia': ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    'Temperatura': [30, np.nan, np.nan, 28, 27]
})

# Preenche os valores nulos na coluna 'Temperatura' usando o método backfill (bfill),
# que usa o próximo valor válido para preencher os nulos, e armazena em uma nova coluna.
df_temperaturas["Preenchido_bfill"] = df_temperaturas["Temperatura"].bfill()

# Exibe o DataFrame 'df_temperaturas'.
df_temperaturas

Unnamed: 0,Dia,Temperatura,Preenchido_bfill
0,Segunda,30.0,30.0
1,Terça,,28.0
2,Quarta,,28.0
3,Quinta,28.0,28.0
4,Sexta,27.0,27.0


In [84]:
# Criação de um DataFrame de teste chamado 'df_cidades'.
df_cidades = pd.DataFrame({
    'nome': ["Marllon", "Tais", "Rita", "Arnaldo", "Gal"],
    'cidade': ["São Paulo", np.nan, "Curitiba", np.nan, "Belém"]
})

# Preenche os valores nulos na coluna 'cidade' com a string "Não Informado!" e armazena em uma nova coluna 'cidade_preenchida'.
df_cidades["cidade_preenchida"] = df_cidades["cidade"].fillna("Não Informado!")

# Exibe o DataFrame 'df_cidades'.
display(df_cidades)

Unnamed: 0,nome,cidade,cidade_preenchida
0,Marllon,São Paulo,São Paulo
1,Tais,,Não Informado!
2,Rita,Curitiba,Curitiba
3,Arnaldo,,Não Informado!
4,Gal,Belém,Belém


In [85]:
# Cria um novo DataFrame chamado 'df_limpo' removendo todas as linhas que contêm pelo menos um valor nulo do DataFrame original 'df'.
df_limpo = df.dropna()

In [89]:
# Verifica se há valores nulos em cada célula do DataFrame, retornando True para nulo e False caso contrário.
df_limpo.isnull().sum()

Unnamed: 0,0
ano,0
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa,0


In [59]:
# Exibe as primeiras 5 linhas do DataFrame 'df'.
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [90]:
# Exibe um resumo conciso do DataFrame, incluindo o tipo de índice, nomes das colunas, contagem de valores não nulos e uso de memória.
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   ano              133339 non-null  float64
 1   senioridade      133339 non-null  object 
 2   contrato         133339 non-null  object 
 3   cargo            133339 non-null  object 
 4   salario          133339 non-null  int64  
 5   moeda            133339 non-null  object 
 6   usd              133339 non-null  int64  
 7   residencia       133339 non-null  object 
 8   remoto           133339 non-null  int64  
 9   empresa          133339 non-null  object 
 10  tamanho_empresa  133339 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 12.2+ MB


In [91]:
# Converte a coluna 'ano' do DataFrame 'df_limpo' para o tipo de dado inteiro (int64).
# O método assign() é usado para atribuir uma nova coluna ou modificar uma existente.
df_limpo = df_limpo.assign(ano = df_limpo ['ano'].astype('int64'))

In [92]:
# Exibe as primeiras 5 linhas do DataFrame 'df_limpo'.
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [93]:
# Exibe um resumo conciso do DataFrame, incluindo o tipo de índice, nomes das colunas, contagem de valores não nulos e uso de memória.
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ano              133339 non-null  int64 
 1   senioridade      133339 non-null  object
 2   contrato         133339 non-null  object
 3   cargo            133339 non-null  object
 4   salario          133339 non-null  int64 
 5   moeda            133339 non-null  object
 6   usd              133339 non-null  int64 
 7   residencia       133339 non-null  object
 8   remoto           133339 non-null  int64 
 9   empresa          133339 non-null  object
 10  tamanho_empresa  133339 non-null  object
dtypes: int64(4), object(7)
memory usage: 12.2+ MB
