# Tratamento dos dados brutos

Aqui a ideia é realizar a limpeza na base bruta que foi puxada no Kaggle. Aqui ocorre a remoção de linhas duplicadas e valores irrelevantes. Além disso, também tem que ser realizada a formatação de algumas informações para que a interpretação fique mais coesa nas próximas etapas.

In [7]:
import pandas as pd

df = pd.read_parquet('../data/bronze/salaries.parquet')

In [8]:
linhas_antes = df.shape[0]
df = df.drop_duplicates()
linhas_depois = df.shape[0]

print(f"Linhas removidas (duplicatas): {linhas_antes - linhas_depois}")

Linhas removidas (duplicatas): 39124


O primeiro ponto feito aqui foi a remoção de resultados duplicados, o que pode acabar viciando o modelo. Mesmo que a base é organizada, ainda sim aparecem resultados de Senior, por exemplo, que acabam se duplicando (talvez a mesma pessoa foi pesquisada ao longo de anos). Então isso tem que ser removido para não prejudicar o modelo posteriormente.

In [9]:
colunas_irrelevantes = ['salary', 'salary_currency']
df = df.drop(columns=colunas_irrelevantes)

Nessa análise de valores, não faz sentido utilizar o valor da moeda local do indivíduo, visto que a comparação e predição vão considerar o valore em dólar. Sendo assim, remover essas colunas.

In [10]:
mapa_experiencia = {
    'SE': 'Senior',
    'MI': 'Mid-level',
    'EN': 'Entry-level',
    'EX': 'Executive'
}
mapa_empresa = {
    'S': 'Small',
    'M': 'Medium',
    'L': 'Large'
}
mapa_emprego = {
    'FT': 'Full-time',
    'PT': 'Part-time',
    'CT': 'Contract',
    'FL': 'Freelance'
}

df['experience_level'] = df['experience_level'].map(mapa_experiencia).fillna(df['experience_level'])
df['company_size'] = df['company_size'].map(mapa_empresa).fillna(df['company_size'])
df['employment_type'] = df['employment_type'].map(mapa_emprego).fillna(df['employment_type'])

O *dataset* possui várias abreviações para poupar espaço, contudo, em uma análise dedicada, isso pode acabar ficando confuso. Sendo assim, substituir as siglas por legendas, para que fique mais claro o conteúdo analisado.

In [11]:
df.to_parquet('../data/silver/salaries_cleaned.parquet', index=False)
display(df.head())

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025,Senior,Full-time,Data Product Owner,170000,US,0,US,Medium
1,2025,Senior,Full-time,Data Product Owner,110000,US,0,US,Medium
4,2025,Senior,Full-time,Engineer,143000,US,0,US,Medium
5,2025,Senior,Full-time,Engineer,106000,US,0,US,Medium
6,2025,Senior,Full-time,Manager,360200,US,0,US,Medium
