In [None]:
# Importação

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# lendo a base de dados

df = pd.read_csv('../data/external/salaries.csv')

In [None]:
# Mostrando alguns registros da base de dados

df.head()

In [None]:
# Mostrando os tipos dos dados da base de dados

df.info()

In [None]:
# Resumo estatístico dos dados númericos da base de dados

df.describe()

In [None]:
# Mostrando o tamanho da base de dados (linhas e colunas)

df.shape

In [None]:
# Mostrando de forma pythonica o tamanho da base de dados
l, c = df.shape[0], df.shape[1]

print('Tamanho da base de dados')
print(f'Qtd linhas: {l}')
print(f'Qtd colunas: {c}')

In [None]:
# Mostrando as colunas da base de dados

df.columns

In [None]:
# Verificando o tipo de dado de cada coluna

df.dtypes

In [None]:
# Verificando se há registros nulos

df.isnull().sum()

In [None]:
# Renomeando as colunas da base de dados, convertendo para pt-br

colunas_renomeadas = {
    'work_year': 'ano',
    'experience_level': 'nivel_experiencia',
    'employment_type': 'contrato', # Tipo de emprego
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_salario',
    'salary_in_usd': 'salario_dolar',
    'employee_residence': 'residencia',
    'remote_ratio': 'regime_trabalho',
    'company_location': 'local_empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns=colunas_renomeadas, inplace=True)

df.head()

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna nivel_experiencia.

df['nivel_experiencia'].value_counts()

# SE - Senior
# MI - Pleno
# EN - Júnior
# EX - Executivo (C-level)

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna contrato

df['contrato'].value_counts()

# FT - Integral
# CT - Temporário
# PT - Parcial (Estágio)
# FL - Freelancer

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna regime_trabalho

df['regime_trabalho'].value_counts()

# 0   - presencial
# 100 - 100% remoto
# 50  - híbrido

In [None]:
# Calculando a frequência de ocorrência de cada valor único na coluna

df['tamanho_empresa'].value_counts()

# M (Medium) - Tamanho Médio
# L (Large)  - Tamanho Grande
# S (Small)  - Tamanho Pequeno

In [None]:
# Renomeando as categorias da coluna nivel_experiencia

experiencia_renomear = {
    'SE': 'Senior',
    'MI': 'Pleno',
    'EN': 'Junior',
    'EX': 'Executivo',
}

df['nivel_experiencia'] = df['nivel_experiencia'].map(experiencia_renomear)

df['nivel_experiencia'].value_counts()

In [None]:
# Renomeando as categorias da coluna contrato

contrato_renomear = {
    'FT': 'Integral',
    'CT': 'Temporario',
    'PT': 'Parcial',
    'FL': 'Freelancer',
}

df['contrato'] = df['contrato'].map(contrato_renomear)

df['contrato'].value_counts()

In [None]:
# Renomeando as categorias da coluna tamanho_empresa

tamanho_empresa_renomear = {
    'M': 'Médio',
    'L': 'Grande',
    'S': 'Pequeno',
}

df['tamanho_empresa'] = df['tamanho_empresa'].map(tamanho_empresa_renomear)

df['tamanho_empresa'].value_counts()

In [None]:
# Renomeando as categorias da coluna remoto(%)

regime_trabalho_renomear = {
    0: 'presencial',
    100: 'remoto',
    50: 'híbrido',
}

df['regime_trabalho'] = df['regime_trabalho'].map(regime_trabalho_renomear)

df['regime_trabalho'].value_counts()

In [None]:
# Resumo estatístico da base de dados com dados categoricos
df.describe(include='object')

# top exibe as informações mais frequentes em relação a coluna
# freq exibe a quantidade que as informações mais frequentes está repetindo

In [None]:
df.to_csv('../data/interim/salarios_tratado.csv')