In [2]:
import json
from functools import reduce

In [3]:
def carrega_dados(path:str) -> list[dict]:
    try:
        with open(path, 'r') as arquivo: # abre o arquivo especificado pelo caminho path no modo de leitura ('r')
            dados = arquivo.read()
            return json.loads(dados)
    except FileNotFoundError: # ocorre quando o arquivo especificado em open() não é encontrado
        return []

In [4]:
# Carregando os dados
dados = carrega_dados('salaries_id.json')
print(json.dumps(dados[50], indent=2))

{
  "ano_de_trabalho": "2023",
  "nivel_de_experiencia": "SE",
  "tipo_de_emprego": "FT",
  "cargo": "Data Engineer",
  "salario_em_usd": "205500",
  "residencia_do_funcionario": "US",
  "localizacao_da_empresa": "US",
  "tamanho_da_empresa": "M",
  "id": 51
}


In [None]:
print(f"Linhas atribuídas no projeto: {len(dados)}")

Linhas atribuídas no projeto: 8805


In [None]:
tipo_contrato = list(set(dado['employment_type'] for dado in dados))
# exibe a lista dos tipos de contratos
print(tipo_contrato)

['FL', 'CT', 'FT', 'PT']


In [None]:
anos_unicos = list(set(dado['work_year'] for dado in dados))
# Exibe a lista de anos únicos
print(anos_unicos)

['2021', '2023', '2020', '2022']


In [None]:
trabalho_remoto = list(set(dado['remote_ratio'] for dado in dados))
# Exibe a lista de trabalho remoto
print(trabalho_remoto)

[0, 50, 100]


In [None]:
tamanho_empresa = list(set(dado['company_size'] for dado in dados))
# Exibe a lista de tamanho da empresa
print(tamanho_empresa)


['L', 'M', 'S']


In [None]:
cargos = list(set(dado['job_title'] for dado in dados))
# Exibe a lista de tamanho da empresa
print(json.dumps(cargos, indent= 2))

print(len(cargos))


[
  "Applied Machine Learning Engineer",
  "Data DevOps Engineer",
  "Machine Learning Software Engineer",
  "Decision Scientist",
  "Business Intelligence Engineer",
  "Data Manager",
  "Machine Learning Engineer",
  "Data Architect",
  "Applied Machine Learning Scientist",
  "Business Intelligence Consultant",
  "Consultant Data Engineer",
  "Analytics Engineering Manager",
  "Marketing Data Analyst",
  "Data Integration Specialist",
  "Director of Data Science",
  "Applied Data Scientist",
  "Data Analytics Lead",
  "Finance Data Analyst",
  "Research Engineer",
  "Data Science Consultant",
  "Lead Data Analyst",
  "Data Analytics Manager",
  "Data Analytics Engineer",
  "Data Visualization Analyst",
  "Lead Data Engineer",
  "Head of Machine Learning",
  "Data Management Specialist",
  "Data Modeler",
  "Business Intelligence Manager",
  "BI Developer",
  "ML Engineer",
  "Product Data Analyst",
  "Research Scientist",
  "Data Science Practitioner",
  "Data Strategy Manager",
  "Da

In [None]:
traducao = {
    'work_year': 'ano_de_trabalho',
    'experience_level': 'nivel_de_experiencia',
    'employment_type': 'tipo_de_emprego',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_do_salario',
    'salary_in_usd': 'salario_em_usd',
    'employee_residence': 'residencia_do_funcionario',
    'remote_ratio': 'trabalho_remoto',
    'company_location': 'localizacao_da_empresa',
    'company_size': 'tamanho_da_empresa',
}

# Traduzindo o conjunto de dados
dados_traduzidos = [{traducao[chave]: valor for chave, valor in dado.items()} for dado in dados]

# Exibindo os dados traduzidos
print(json.dumps(dados_traduzidos[1:50],indent=2 ))


[
  {
    "ano_de_trabalho": "2023",
    "nivel_de_experiencia": "EX",
    "tipo_de_emprego": "FT",
    "cargo": "Data Science Director",
    "salario": "190000",
    "moeda_do_salario": "USD",
    "salario_em_usd": "190000",
    "residencia_do_funcionario": "US",
    "trabalho_remoto": 0,
    "localizacao_da_empresa": "US",
    "tamanho_da_empresa": "M"
  },
  {
    "ano_de_trabalho": "2023",
    "nivel_de_experiencia": "MI",
    "tipo_de_emprego": "FT",
    "cargo": "Business Intelligence Engineer",
    "salario": "35000",
    "moeda_do_salario": "GBP",
    "salario_em_usd": "43064",
    "residencia_do_funcionario": "GB",
    "trabalho_remoto": 0,
    "localizacao_da_empresa": "GB",
    "tamanho_da_empresa": "M"
  },
  {
    "ano_de_trabalho": "2023",
    "nivel_de_experiencia": "MI",
    "tipo_de_emprego": "FT",
    "cargo": "Business Intelligence Engineer",
    "salario": "35000",
    "moeda_do_salario": "GBP",
    "salario_em_usd": "43064",
    "residencia_do_funcionario": "GB",
 

In [None]:
niveis_experiencia = {
    'SE': 'Senior',
    'MI': 'Analista',
    'EN': 'Junior',
    'EX': 'Executivo'
}

# Traduzindo os níveis de experiência no conjunto de dados
for dado in dados_traduzidos:
    if 'experience_level' in dado and dado['experience_level'] in niveis_experiencia:
        dado['experience_level'] = niveis_experiencia[dado['experience_level']]

print(json.dumps(dados_traduzidos[0], indent=2))


{
  "ano_de_trabalho": "2023",
  "nivel_de_experiencia": "EX",
  "tipo_de_emprego": "FT",
  "cargo": "Data Science Director",
  "salario": "212000",
  "moeda_do_salario": "USD",
  "salario_em_usd": "212000",
  "residencia_do_funcionario": "US",
  "trabalho_remoto": 0,
  "localizacao_da_empresa": "US",
  "tamanho_da_empresa": "M"
}


In [None]:
tipos_contratos = {
    'FT': 'Tempo Integral',
    'PT': 'Meio Periodo',
    'FL': 'Flexivel',
    'CL': 'Contrato'
}

for chave, valor in tipos_contratos.copy().items():
    tipos_contratos[chave] = valor

print(json.dumps(tipos_contratos, indent=2))


{
  "FT": "Tempo Integral",
  "PT": "Meio Periodo",
  "FL": "Flexivel",
  "CL": "Contrato"
}


In [None]:
# Definindo as traduções
traducao = {
    'work_year': 'ano_de_trabalho',
    'experience_level': 'nivel_de_experiencia',
    'employment_type': 'tipo_de_emprego',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_do_salario',
    'salary_in_usd': 'salario_em_usd',
    'employee_residence': 'residencia_do_funcionario',
    'remote_ratio': 'trabalho_remoto',
    'company_location': 'localizacao_da_empresa',
    'company_size': 'tamanho_da_empresa',
}

niveis_experiencia = {
    'SE': 'Senior',
    'MI': 'Analista',
    'EN': 'Junior',
    'EX': 'Executivo'
}

tipos_contratos = {
    'FT': 'Tempo Integral',
    'PT': 'Meio Periodo',
    'FL': 'Flexivel',
    'CL': 'Contrato'
}



In [None]:
def remover_info(dados_traduzidos, *chaves) -> list[dict]:
    return [{k: v for k, v in d.items() if k not in chaves} for d in dados_traduzidos]

chaves_a_remover = ['moeda_do_salario', 'trabalho_remoto', 'salario',]  # Pode ser uma lista com várias chaves
novos_dados = remover_info(dados_traduzidos, *chaves_a_remover)
print(json.dumps(novos_dados[0:10], indent=4))

[
    {
        "ano_de_trabalho": "2023",
        "nivel_de_experiencia": "EX",
        "tipo_de_emprego": "FT",
        "cargo": "Data Science Director",
        "salario_em_usd": "212000",
        "residencia_do_funcionario": "US",
        "localizacao_da_empresa": "US",
        "tamanho_da_empresa": "M"
    },
    {
        "ano_de_trabalho": "2023",
        "nivel_de_experiencia": "EX",
        "tipo_de_emprego": "FT",
        "cargo": "Data Science Director",
        "salario_em_usd": "190000",
        "residencia_do_funcionario": "US",
        "localizacao_da_empresa": "US",
        "tamanho_da_empresa": "M"
    },
    {
        "ano_de_trabalho": "2023",
        "nivel_de_experiencia": "MI",
        "tipo_de_emprego": "FT",
        "cargo": "Business Intelligence Engineer",
        "salario_em_usd": "43064",
        "residencia_do_funcionario": "GB",
        "localizacao_da_empresa": "GB",
        "tamanho_da_empresa": "M"
    },
    {
        "ano_de_trabalho": "2023",
       

In [None]:
def filtro_ano(item, opc='2023') -> list[dict]:
    try:
        if 'ano_de_trabalho' in item and item['ano_de_trabalho'] == opc:
            return item
        else:
            raise ValueError('Filtro de ano inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de ano: {e}')

def filtro_experiencia(item, opc) -> list[dict]:
    try:
        if 'nivel_de_experiencia' in item and item['nivel_de_experiencia'] == opc:
            return item
        else:
            raise ValueError('Filtro de experiência inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de experiência: {e}')


def filtro_tipo_trabalho(item, opc) -> list[dict]:
    try:
        if 'cargo' in item and item['cargo'] == opc:
            return item
        else:
            raise ValueError('Filtro de tipo de trabalho inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de tipo de trabalho: {e}')

def filtro_salario(item, opc) -> list[dict]:
    try:
        if 'salario_em_usd' in item and item['salario_em_usd'] == opc:
            return item
        else:
            raise ValueError('Filtro de salário inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de salário: {e}')

def filtro_localizacao_funcionario(item, opc) -> list[dict]:
    try:
        if 'residencia_do_funcionario' in item and item['residencia_do_funcionario'] == opc:
            return item
        else:
            raise ValueError('Filtro de localização do funcionário inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de localização do funcionário: {e}')


def filtro_localizacao_empresa(item, opc) -> list[dict]:
    try:
        if 'localizacao_da_empresa' in item and item['localizacao_da_empresa'] == opc:
            return item
        else:
            raise ValueError('Filtro de localização da empresa inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de localização da empresa: {e}')

def filtro_tamanho_empresa(item, opc) -> list[dict]:
    try:
        if 'tamanho_da_empresa' in item and item['tamanho_da_empresa'] == opc:
            return item
        else:
            raise ValueError('Filtro de tamanho da empresa inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de tamanho da empresa: {e}')

In [None]:
def obter_ano(anos, msg='Anos'):
    while True:
        try:
            ano = input(f"{msg} ({' | '.join(anos_unicos)}): ")
            if ano in anos_unicos:
                break
            else:
                raise ValueError('Entrada Inválida! Dado não está na lista.')
        except ValueError as e:
            print(f'Erro: {e}\n')

    return ano

In [None]:
cargos_ds = ['Director of Data Science', 'Data Science Consultant', 'Data Science Tech Lead', 'Managing Director Data Science', 'Data Science Lead', 'Data Science Practitioner', 'Data Science Manager', 'Head of Data Science', 'Data Science Director', 'Data Science Engineer']

def obter_cargo(cargos_ds, msg='Cargos'):
    while True:
        try:
            cargo = input(f"{msg} ({' | '.join(cargos_ds)}): ")
            if cargo in cargos_ds:
                break
            else:
                raise ValueError('Entrada Inválida! Dado não está na lista.')
        except ValueError as e:
            print(f'Erro: {e}\n')

    return cargos_ds

In [None]:
m = obter_cargo(cargos_ds)

NameError: ignored