# Limpar e Preparar os Dados

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv') # Lê o arquivo CSV e armazena em um DataFrame


In [3]:
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [4]:
df.columns = ['ano', 'senioridade', 'contrato', 'cargo',
               'salario', 'moeda', 'usd', 'residencia',
               'remoto', 'empresa', 'tamanho_empresa']
display(df.head())

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [5]:
df.info()  # Exibe informações sobre o DataFrame, como tipos de dados e número de entradas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   ano              133339 non-null  float64
 1   senioridade      133349 non-null  object 
 2   contrato         133349 non-null  object 
 3   cargo            133349 non-null  object 
 4   salario          133349 non-null  int64  
 5   moeda            133349 non-null  object 
 6   usd              133349 non-null  int64  
 7   residencia       133349 non-null  object 
 8   remoto           133349 non-null  int64  
 9   empresa          133349 non-null  object 
 10  tamanho_empresa  133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [6]:
df.isnull().sum()  # Verifica se há valores ausentes em cada coluna     

ano                10
senioridade         0
contrato            0
cargo               0
salario             0
moeda               0
usd                 0
residencia          0
remoto              0
empresa             0
tamanho_empresa     0
dtype: int64

In [7]:
df['ano'].unique()  # Exibe os anos únicos presentes na coluna 'ano'

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

In [8]:
df[df.isnull().any(axis=1)]  # Exibe as linhas que possuem valores ausentes

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
5588,,SE,FT,Product Manager,184500,USD,184500,US,0,US,M
59692,,MI,FT,Engineer,110000,USD,110000,DE,0,DE,M
59710,,EN,FT,Data Scientist,208800,USD,208800,US,0,US,M
59759,,SE,FT,Software Engineer,135000,USD,135000,US,0,US,M
59789,,SE,FT,Engineer,112000,USD,112000,US,0,US,M
131000,,SE,FT,Machine Learning Engineer,163800,USD,163800,US,0,US,M
131006,,SE,FT,Data Analytics Manager,204500,USD,204500,US,0,US,M
133054,,EN,FT,Data Scientist,40000,USD,40000,JP,100,MY,L
133281,,MI,FT,Machine Learning Engineer,180000,PLN,46597,PL,100,PL,L
133317,,MI,FT,Data Scientist,130000,USD,130000,US,50,US,L


In [9]:
# 1. Preenchimento com Valores Derivados (Imputation)
# Para salario: Usar a mediana ou média do salário da mesma categoria, senioridade e país.

# 2. Remover Linhas com Dados Faltantes
# Caso a quantidade de dados nulos seja muito pequena (como neste caso, apenas 5 linhas), você pode simplesmente removê-las.

# 3. Inferência e Preenchimento com Regras de Negócio
# Preencher com base em regras claras.

In [10]:
import numpy as np

df_salarios = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo'],
    'salario': [4000, np.nan, 3500, np.nan, 5000]
})

# Preencher com a média salarial
df_salarios['salario_media'] = df_salarios['salario'].fillna(df_salarios['salario'].mean().round()) 
    #fillna(df_salarios['salario'].mean())  # Preenche valores nulos com a média do salário

# Preencher com a mediana salarial
df_salarios['salario_mediana'] = df_salarios['salario'].fillna(df_salarios['salario'].median())

# a diferença entre média e mediana é que a média é mais sensível a valores extremos (outliers), enquanto a mediana é mais robusta e não é afetada por esses valores.

df_salarios
     

Unnamed: 0,nome,salario,salario_media,salario_mediana
0,Ana,4000.0,4000.0,4000.0
1,Bruno,,4167.0,4000.0
2,Carlos,3500.0,3500.0,3500.0
3,Diana,,4167.0,4000.0
4,Eduardo,5000.0,5000.0,5000.0


In [11]:
df_temperaturas = pd.DataFrame({
    'dia': ['Seg', 'Ter', 'Qua', 'Qui', 'Sex'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

df_temperaturas['preenchido_ffill'] = df_temperaturas['temperatura'].ffill()
    # o ffill() preenche os valores nulos com o último valor válido conhecido, propagando-o para frente.

df_temperaturas

Unnamed: 0,dia,temperatura,preenchido_ffill
0,Seg,30.0,30.0
1,Ter,,30.0
2,Qua,,30.0
3,Qui,28.0,28.0
4,Sex,27.0,27.0


In [12]:
df_temperaturas = pd.DataFrame({
    'dia': ['Seg', 'Ter', 'Qua', 'Qui', 'Sex'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

df_temperaturas['preenchido_bfill'] = df_temperaturas['temperatura'].bfill()
    # o bfill() preenche os valores nulos com o próximo valor válido conhecido, propagando-o para trás.

df_temperaturas
     

Unnamed: 0,dia,temperatura,preenchido_bfill
0,Seg,30.0,30.0
1,Ter,,28.0
2,Qua,,28.0
3,Qui,28.0,28.0
4,Sex,27.0,27.0


In [13]:
df_cidades = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo'],
    'cidade': ['São Paulo', np.nan, 'Curitiba', np.nan, 'Salvador']
})

df_cidades['cidade_corrigida'] = df_cidades['cidade'].fillna('Não informado')

df_cidades

Unnamed: 0,nome,cidade,cidade_corrigida
0,Ana,São Paulo,São Paulo
1,Bruno,,Não informado
2,Carlos,Curitiba,Curitiba
3,Diana,,Não informado
4,Eduardo,Salvador,Salvador


# Tratando o nosso DataFrame

## Removendo os dados nulos
Remoção das linhas com anos nulos:

In [14]:
df_limpo = df.dropna()

In [15]:
df_limpo.isnull().sum()

ano                0
senioridade        0
contrato           0
cargo              0
salario            0
moeda              0
usd                0
residencia         0
remoto             0
empresa            0
tamanho_empresa    0
dtype: int64

### Alterando o tipo de dados
Deixar o ano como número inteiro:

In [16]:
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [17]:
df_limpo = df_limpo.assign(ano=df_limpo['ano'].astype('Int64')) 

# o assign() é usado para criar uma nova coluna ou modificar uma existente, e o método astype() converte a coluna 'ano' para o tipo de dado 'Int64', que é um tipo de dado inteiro do pandas que pode lidar com valores nulos.

In [18]:
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [20]:
df_limpo.to_csv('dados-imersao.csv', index=False)