In [10]:
import json
from functools import reduce

In [3]:
def carrega_dados(path:str) -> list[dict]:
    try:
        with open(path, 'r') as arquivo: # abre o arquivo especificado pelo caminho path no modo de leitura ('r')
            dados = arquivo.read()
            return json.loads(dados)
    except FileNotFoundError: # ocorre quando o arquivo especificado em open() não é encontrado
        return []

In [6]:
# Carregando os dados
dados = carrega_dados('salaries_BK.json')
print(dados[0])
print(len(dados))

{'work_year': '2023', 'experience_level': 'EX', 'employment_type': 'FT', 'job_title': 'Data Science Director', 'salary': '212000', 'salary_currency': 'USD', 'salary_in_usd': '212000', 'employee_residence': 'US', 'remote_ratio': 0, 'company_location': 'US', 'company_size': 'M'}
8805


In [7]:
#Filtra apenas data science
dados = [job for job in dados if 'data science' in job['job_title'].lower()]
print(dados[0])
print(len(dados))

{'work_year': '2023', 'experience_level': 'EX', 'employment_type': 'FT', 'job_title': 'Data Science Director', 'salary': '212000', 'salary_currency': 'USD', 'salary_in_usd': '212000', 'employee_residence': 'US', 'remote_ratio': 0, 'company_location': 'US', 'company_size': 'M'}
219


In [9]:
# Adiciona o id
for i, item in enumerate(dados, start=1):
    item['id'] = i
print(dados[0])
print(len(dados))  


{'work_year': '2023', 'experience_level': 'EX', 'employment_type': 'FT', 'job_title': 'Data Science Director', 'salary': '212000', 'salary_currency': 'USD', 'salary_in_usd': '212000', 'employee_residence': 'US', 'remote_ratio': 0, 'company_location': 'US', 'company_size': 'M', 'id': 1}
219


In [12]:
#Traduzindo as chaves
traducao = {
    'work_year': 'ano_de_trabalho',
    'experience_level': 'nivel_de_experiencia',
    'employment_type': 'tipo_de_emprego',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_do_salario',
    'salary_in_usd': 'salario_em_usd',
    'employee_residence': 'residencia_do_funcionario',
    'remote_ratio': 'trabalho_remoto',
    'company_location': 'localizacao_da_empresa',
    'company_size': 'tamanho_da_empresa',
    'id': 'id'
}

dados = [{traducao[chave]: valor for chave, valor in dado.items()} for dado in dados]
print(dados[0])
print(len(dados))

{'ano_de_trabalho': '2023', 'nivel_de_experiencia': 'EX', 'tipo_de_emprego': 'FT', 'cargo': 'Data Science Director', 'salario': '212000', 'moeda_do_salario': 'USD', 'salario_em_usd': '212000', 'residencia_do_funcionario': 'US', 'trabalho_remoto': 0, 'localizacao_da_empresa': 'US', 'tamanho_da_empresa': 'M', 'id': 1}
219


In [21]:
niveis_experiencia = {
    'SE': 'Senior',
    'MI': 'Analista',
    'EN': 'Junior',
    'EX': 'Executivo'
}

# Traduzindo os níveis de experiência no conjunto de dados
for dado in dados:
    if 'nivel_de_experiencia' in dado and dado['nivel_de_experiencia'] in niveis_experiencia:
        dado['nivel_de_experiencia'] = niveis_experiencia[dado['nivel_de_experiencia']]
    else:
        print(f"Não foi possível traduzir: {dado.get('nivel_de_experiencia', 'Chave não encontrada')}")

print(dados[0])
print(len(dados))

{'ano_de_trabalho': '2023', 'nivel_de_experiencia': 'Executivo', 'tipo_de_emprego': 'FT', 'cargo': 'Data Science Director', 'salario': '212000', 'moeda_do_salario': 'USD', 'salario_em_usd': '212000', 'residencia_do_funcionario': 'US', 'trabalho_remoto': 0, 'localizacao_da_empresa': 'US', 'tamanho_da_empresa': 'M', 'id': 1}
219


In [25]:
def remover_info(dados, *chaves) -> list[dict]:
    return [{k: v for k, v in d.items() if k not in chaves} for d in dados]

chaves_a_remover = ['moeda_do_salario', 'trabalho_remoto', 'salario','tipo_de_emprego' ]  # Pode ser uma lista com várias chaves
dados = remover_info(dados, *chaves_a_remover)

print(dados[0])
print(len(dados))

{'ano_de_trabalho': '2023', 'nivel_de_experiencia': 'Executivo', 'cargo': 'Data Science Director', 'salario_em_usd': '212000', 'residencia_do_funcionario': 'US', 'localizacao_da_empresa': 'US', 'tamanho_da_empresa': 'M', 'id': 1}
219


In [26]:
# Criar um novo arquivo com os dados
with open('salarios.json', 'w') as arquivo_saida:
    json.dump(dados, arquivo_saida)