In [10]:
import json
from functools import reduce

In [13]:
# Função para carregar os dados
def carrega_dados(path:str = 'salaries.json') -> list[dict]:
    try:
        with open(path, 'r') as arquivo: # abre o arquivo especificado pelo caminho path no modo de leitura ('r')
            dados = arquivo.read()
            return json.loads(dados)
    except FileNotFoundError: # ocorre quando o arquivo especificado em open() não é encontrado
        return []

Nível de Experiência: Os níveis de experiência variam de "EX" (Experiente) a "MI" (Muito Inexperiente) e "SE" (Sênior). Isso indica o nível de experiência dos funcionários.

Tipo de Emprego: Todos os registros têm "FT" (Tempo Integral) como tipo de emprego, o que significa que esses funcionários trabalham em período integral.

## Estudando os dados:

In [14]:
# visualizando um único dado para compreender o formato
dados = carrega_dados("salaries.json")
dados

[]

In [None]:
len(dados) # quantidade de dados (dicionários)

8805

In [None]:
# Entendendo a quais anos pertencem os dados
anos_unicos = list(set(dado['work_year'] for dado in dados))
print(anos_unicos)

['2021', '2022', '2020', '2023']


In [None]:
%%timeit
# AQUI criar função para remover os dados que não vamos considerar (experience_level, employment_type, salary_currency, remote_ratio)
def remover_info(json, *chave) -> list[dict]:
    return list(map(lambda d: {k: v for k, v in d.items() if k != chave}, json))

chave_a_remover = 'salary_currency' # posso passar uma lista com as chaves a serem removidas para a função
novos_dados = remover_info(dados, chave_a_remover)

#print(novos_dados[0])

17.6 ms ± 5.03 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Realizando a atividade proposta:

In [None]:
# Inserir validações (try-exception) em TODAS operações

In [None]:
# filtrando por ano -> a saída de cada função será a entrada da próxima
def filtro_ano(item, opc='2023') -> list[dict]:
    return 'work_year' in item and item['work_year'] == opc

# |
# v

# filtra por nível de experiencia:   -> A DISCUTIR
def filtro_experiencia(item, opc) -> list[dict]:
    return 'experience_level' in item and item['experience_level'] == opc

# |
# v

# filtra por tipo de trabalho
def filtro_tipo_trabalho(item, opc) -> list[dict]:
    return 'job_title' in item and item['job_title'] == opc

# |
# v

# filtra por salário -> EM DÓLAR
def filtro_salario(item, opc) -> list[dict]:
    return 'salary_in_usd' in item and item['salary_in_usd'] == opc

# |
# v

# filtra por localização do funcionário
def filtro_localizacao_funcionario(item, opc) -> list[dict]:
    return 'employee_residence' in item and item['employee_residence'] == opc

# |
# v

# filtra por localização da empresa
def filtro_localizacao_empresa(item, opc) -> list[dict]:
    return 'company_location' in item and item['company_location'] == opc

# |
# v

# filtra por tamanho da empresa
def filtro_tamanho_empresa(item, opc) -> list[dict]:
    return 'company_size' in item and item['company_size'] == opc

In [None]:
anos = ['2020', '2021', '2022', '2023']

def obter_ano(opcoes):
  while True:
    ano = input(f"{msg} ({' | '.join([f'{key} - {values}' for key, values in opcoes.items()])}):")
    valor = input(msg).upper()

    if valida_opcoes(valor, opcoes.keys()):
      break

    msg = f'Entrada Inválida! As opções validas são {", ".join(opcoes.keys())} \n' + msg

  return valor

In [None]:
def menu():
  pass
  # obter ano que deseja ver os dados - Isadora
  # obter nível de experiência que deseja saber -> Rafael
  # obter cargo -> Ingrid
  # obter localização do funcionário -> Eliane
  # obter localização da empresa - Eliane
  # obter tamanho da empresa -> Rafael
  # Home office -> Ingrid

  # inserir dados -> Pedro
  # remover dados -> Pedro


  # retornar média salarial, maior salário ou menor salário

# obs: (maior salário, menor salário) -> deve ser obtido com uma função que retorna lista de tuplas

In [None]:
# Ex de uso se for considerar apenas um filtro
def filtrar_dados(lista, filtro_funcao, opc=None):
    return list(filter(lambda x: filtro_funcao(x, opc), lista))

# por ano
dados_filtrados_por_ano = filtrar_dados(dados, filtro_ano, '2023')
print("Filtrados por ano:", len(dados_filtrados_por_ano))

# por tipo de trabalho
dados_filtrados_por_tipo_trabalho = filtrar_dados(dados, filtro_tipo_trabalho, 'Data Scientist')
print("Filtrados por tipo de trabalho:", dados_filtrados_por_tipo_trabalho)

In [None]:
# CRIEI APENAS PARA SABERMOS QUAIS PROFISSÕES COM DADOS USAR
cargos_data_science = set()

# Iterar sobre os dicionários e adicionar os valores de 'job_title' contendo "Data Science" ao conjunto
for item in dados:
    if 'job_title' in item and 'Data Science' in item['job_title']:
        cargos_data_science.add(item['job_title'])

print("Cargos contendo 'Data Science':", cargos_data_science)

Cargos contendo 'Data Science': {'Director of Data Science', 'Data Science Consultant', 'Data Science Tech Lead', 'Managing Director Data Science', 'Data Science Lead', 'Data Science Practitioner', 'Data Science Manager', 'Head of Data Science', 'Data Science Director', 'Data Science Engineer'}


CRIAR DICIONÁRIO PARA MENU COM AS INFOS A SEGUIR:

'Data Science Tech Lead'\
'Data Science Practitioner'\
'Data Science Engineer'\
'Data Science Director'\
'Data Science Consultant'\
'Data Science Manager'\
'Managing Director Data Science'\
'Director of Data Science'\
'Data Science Lead'\
'Head of Data Science'

In [None]:
def media_salario_ano(lista_personalizada, cargo: str) -> float:
  # filtra os elementos da lista_personalizada com base na condição especificada pela função lambda
  # -> retorna True para os itens; o filter devolve um iterador com apenas os itens correspondentes ao cargo desejado
  # map aplica a função lambda em cada elemento da lista e transforma string em float
  salario_do_cargo = list(map(lambda item: float(item['salary_in_usd']), filter(lambda item: item['job_title'] == cargo, lista_personalizada)))

  if salario_do_cargo:
    media_salarial = sum(salario_do_cargo) / len(salario_do_cargo)
    return media_salarial
  else:
    return None

media_salario_ano(dados, 'Head of Data Science')

In [None]:
# Opções para o menu
opc = {
    'I': 'Inserir',
    'A': 'Alterar',
    'D': 'Deletar',
    'B': 'Buscar',
    'ET': 'Exibir Todos',
    #'EX': 'Sair'
}

--------------------------------------------------------------------------

## Parte dos códigos da Ingrid

In [None]:
# Filtra os registros para cargos de "Analista de Dados" e "Cientista de Dados"
analista_dados = [dado for dado in dados if dado['job_title'] == 'Data Analyst']
cientista_dados = [dado for dado in dados if dado['job_title'] == 'Data Science Manager']

# Ordena os registros em ordem decrescente com base no salário
analista_dados = sorted(analista_dados, key=lambda x: float(x['salary_in_usd']), reverse=True)
cientista_dados = sorted(cientista_dados, key=lambda x: float(x['salary_in_usd']), reverse=True)

# Pega os 20 maiores salários de cada cargo
vinte_maiores_analista_dados = analista_dados[:20]
vinte_maiores_cientista_dados = cientista_dados[:20]

# Exibi os 20 maiores salários de Analista de Dados
print("20 Maiores Salários de Analista de Dados:")
for i, registro in enumerate(vinte_maiores_analista_dados, start=1):
    print(f"{i}. Salário: {registro['salary_in_usd']} USD")

# Exibi os 20 maiores salários de Cientista de Dados
print("\n20 Maiores Salários de Cientista de Dados:")
for i, registro in enumerate(vinte_maiores_cientista_dados, start=1):
    print(f"{i}. Salário: {registro['salary_in_usd']} USD")


In [None]:
cargos_com_maiores_salarios = {}
for dados in dados:
  cargo = dado['job_title']
  salario = float(dado['salary'])

  if salario <=

In [None]:
dados_filtrados = [registro for registro in dados if 2020 <= int(registro['work_year']) <= 2023]
dados_filtrados

In [None]:
%%timeit

# Cria um dicionário para armazenar as informações agrupadas por cargo
informacoes_por_cargo = {}

# Agrupa as informações por cargo
for registro in dados_filtrados:
    cargo = registro['job_title']
    if cargo not in informacoes_por_cargo:
        informacoes_por_cargo[cargo] = []
    informacoes_por_cargo[cargo].append(registro)

# Seleciona as 10 primeiras informações por cargo
informacoes_reduzidas = {}
for cargo, informacoes in informacoes_por_cargo.items():
    informacoes_reduzidas[cargo] = informacoes[:10]

# Exiba/salve as informações reduzidas
for cargo, informacoes in informacoes_reduzidas.items():
    print(f'Informações para o cargo {cargo}:')
    for informacao in informacoes:
        print(informacao)

In [None]:
%%timeit

informacoes_por_cargo = {}

for registro in dados_filtrados:
    informacoes_por_cargo.setdefault(registro['job_title'], []).append(registro)

informacoes_reduzidas = {cargo: informacoes[:10] for cargo, informacoes in informacoes_por_cargo.items()}

for cargo, informacoes in informacoes_reduzidas.items():
    print(f'Informações para o cargo {cargo}:\n{informacoes}\n')


In [None]:
# Cria um dicionário para armazenar as informações agrupadas por cargo
informacoes_por_cargo = {}

# Agrupa as informações por cargo
for registro in dados_filtrados:
    cargo = registro['job_title']
    informacoes_por_cargo.setdefault(cargo, []).append(registro)

# Seleciona as 10 primeiras informações por cargo
informacoes_reduzidas = {cargo: informacoes[:10] for cargo, informacoes in informacoes_por_cargo.items()}

# Exibe/salva as informações reduzidas
for cargo, informacoes in informacoes_reduzidas.items():
    print(f'Informações para o cargo {cargo}:')
    for informacao in informacoes:
        print(informacao)


In [None]:
# Agrupa as informações por cargo
for registro in dados_filtrados:
    cargo = registro['job_title']
    if cargo not in informacoes_por_cargo:
        informacoes_por_cargo[cargo] = []
    if len(informacoes_por_cargo[cargo]) < 10:
        informacoes_por_cargo[cargo].append(registro)

# Limita os dsdos a um máximo de 100 registros
informacoes_reduzidas = {}
total_registros = 0

for cargo, informacoes in informacoes_por_cargo.items():
    registros_a_adicionar = min(1, 2 - total_registros)
    informacoes_reduzidas[cargo] = informacoes[:registros_a_adicionar]
    total_registros += registros_a_adicionar

for cargo, informacoes in informacoes_por_cargo.items():
    print(f'Informações para o cargo {cargo}:')
    for informacao in informacoes:
        print(informacao)

In [None]:
# Calcula a média dos salários por cargo
media_salarios_por_cargo = {}
for cargo, salarios in salarios_por_cargo.items():
    media = sum(salarios) / len(salarios)
    media_salarios_por_cargo[cargo] = media

# Encontra os 5 cargos com as maiores médias de salários
cargos_melhores_salarios = sorted(media_salarios_por_cargo, key=lambda x: media_salarios_por_cargo[x], reverse=True)[:5]

# Exibe os 5 cargos com as maiores médias de salários
for i, cargo in enumerate(cargos_melhores_salarios, 1):
    media = media_salarios_por_cargo[cargo]
    print(f'{i}. Cargo: {cargo}, Média de Salário: ${media:.2f}')

In [None]:
while True:
    escolha = obter_opcoes(opc, 'Escolha uma ação')

    if escolha == 'I':
        novo_prof = {
            'nome': input('Digite o nome do professor: '),
            'disciplina': input('Digite a disciplina do professor: '),
        }
        dados = inserir_novo(dados, novo_prof)
        print("Novo professor inserido com sucesso!")
        salvar_dados(dados)

In [None]:
import random
import json

# Suponha que seus dados estejam em uma lista chamada dados_filtrados
dados_aleatorios = random.sample(dados_filtrados, 15)

# Criar um novo arquivo com os dados aleatórios
with open('dados_aleatorios.json', 'w') as arquivo_saida:
    json.dump(dados_aleatorios, arquivo_saida, indent=2)

print("Arquivo 'dados_aleatorios.json' criado com sucesso.")
