In [None]:
# Importação

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# lendo a base de dados

df = pd.read_csv('../data/external/salaries.csv')

In [None]:
# Renomeando as colunas da base de dados, convertendo para pt-br

colunas_renomeadas = {
    'work_year': 'ano',
    'experience_level': 'nivel_experiencia',
    'employment_type': 'contrato', # Tipo de emprego
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_salario',
    'salary_in_usd': 'salario_dolar',
    'employee_residence': 'residencia',
    'remote_ratio': 'regime_trabalho',
    'company_location': 'local_empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns=colunas_renomeadas, inplace=True)

df.head()

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna nivel_experiencia.

df['nivel_experiencia'].value_counts()

# SE - Senior
# MI - Pleno
# EN - Júnior
# EX - Executivo (C-level)

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna contrato

df['contrato'].value_counts()

# FT - Integral
# CT - Temporário
# PT - Parcial (Estágio)
# FL - Freelancer

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna regime_trabalho

df['regime_trabalho'].value_counts()

# 0   - presencial
# 100 - 100% remoto
# 50  - híbrido

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna

df['tamanho_empresa'].value_counts()

# M (Medium) - Tamanho Médio
# L (Large)  - Tamanho Grande
# S (Small)  - Tamanho Pequeno

In [None]:
# Renomeando as categorias da coluna nivel_experiencia

experiencia_renomear = {
    'SE': 'Senior',
    'MI': 'Pleno',
    'EN': 'Junior',
    'EX': 'Executivo',
}

df['nivel_experiencia'] = df['nivel_experiencia'].map(experiencia_renomear)

df['nivel_experiencia'].value_counts()

In [None]:
# Renomeando as categorias da coluna contrato

contrato_renomear = {
    'FT': 'Integral',
    'CT': 'Temporario',
    'PT': 'Parcial',
    'FL': 'Freelancer',
}

df['contrato'] = df['contrato'].map(contrato_renomear)

df['contrato'].value_counts()

In [None]:
# Renomeando as categorias da coluna tamanho_empresa

tamanho_empresa_renomear = {
    'M': 'Médio',
    'L': 'Grande',
    'S': 'Pequeno',
}

df['tamanho_empresa'] = df['tamanho_empresa'].map(tamanho_empresa_renomear)

df['tamanho_empresa'].value_counts()

In [None]:
# Renomeando as categorias da coluna remoto(%)

regime_trabalho_renomear = {
    0: 'presencial',
    100: 'remoto',
    50: 'híbrido',
}

df['regime_trabalho'] = df['regime_trabalho'].map(regime_trabalho_renomear)

df['regime_trabalho'].value_counts()

In [None]:
# Resumo estatístico da base de dados com dados categoricos
df.describe(include='object')

# top exibe as informações mais frequentes em relação a coluna
# freq exibe a quantidade que as informações mais frequentes está repetindo

In [None]:
# Verificando quantidade de registros nulos em cada campo

df.isnull().sum()

In [None]:
df['ano'].unique()

In [None]:
df[df.isnull().any(axis=1)]

In [None]:
# Exemplo Fictício
# Criando um novo dataframe com registros nulos e preenchendo com média e mediana

# Criando um novo DataFrame
df_salario = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo'],
    'salario': [4000, np.nan, 3500, np.nan, 5000]
})

# preenchendo os registros nulos com a média arredondada
df_salario['salario_media'] = df_salario['salario'].fillna(df_salario['salario'].mean().round(2))

# preenchendo os registros nulos com a mediana
df_salario['salario_mediana'] = df_salario['salario'].fillna(df_salario['salario'].median())

# Mostrando o DataFrame
df_salario

In [None]:
# Exemplo Fictício
# Criando um novo dataframe com registros nulos e preenchendo com valor anterior
# atraves do forwardfill

df_temperaturas = pd.DataFrame({
    'dia': ['Seg', 'Ter', 'Qua', 'Qui', 'Sex'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

# No caso, preenche os registros nulos com o valor de 'seg'
df_temperaturas['preenchido_ffill'] = df_temperaturas['temperatura'].ffill()

df_temperaturas

In [None]:
# Exemplo Fictício
# Criando um novo dataframe com registros nulos e preenchendo com valor anterior
# atraves do backwardfill

df_temperaturas = pd.DataFrame({
    'dia': ['Seg', 'Ter', 'Qua', 'Qui', 'Sex'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

df_temperaturas['preenchido_bfill'] = df_temperaturas['temperatura'].bfill()

df_temperaturas

In [None]:
# Exemplo Fictício
# Criando um novo dataframe com registros nulos e preenchendo os campos nulos
# com valor fixo

df_cidades = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo'],
    'cidade': ['São Paulo', np.nan, 'Curitiba', np.nan, 'Salvador']
})

df_cidades['cidade_corrigida'] = df_cidades['cidade'].fillna('Não informado')

df_cidades

In [None]:
# É importante analizar o impacto do tamanho dos registros nulos na base de dados
# como são apenas 10 registros com ano nulos e a base de dados tem 100000+
# registros pode-se remover os registros com anos nulos

# Removendo os registros nulos do DataFrame principal
df_limpo = df.dropna()

# Verificando quantidade de registros nulos em cada campo
df_limpo.isnull().sum()

In [None]:
# Modificando o tipo do campo ano para inteiro
df_limpo = df_limpo.assign(ano=df_limpo['ano'].astype('int64'))

# Mostrando os tipos dos campos do dataframe
df_limpo.dtypes

In [None]:
# Criando um novo dataframe a partir do salaries_tratado.csv com nenhum campo
# com registro nulo

df_limpo.to_csv('../data/processed/salarios.csv', index=False)