In [None]:
!gdown "https://drive.google.com/uc?id=1UrFtHryRVNPhsJgIscgs_K9DZZRy1KM7"

Downloading...
From: https://drive.google.com/uc?id=1UrFtHryRVNPhsJgIscgs_K9DZZRy1KM7
To: /content/salaries.json
  0% 0.00/2.42M [00:00<?, ?B/s]100% 2.42M/2.42M [00:00<00:00, 204MB/s]


In [None]:
import json
from functools import reduce

In [None]:
# Função para carregar os dados
def carrega_dados(path:str) -> list[dict]:
    try:
        with open(path, 'r') as arquivo: # abre o arquivo especificado pelo caminho path no modo de leitura ('r')
            dados = arquivo.read()
            return json.loads(dados)
    except FileNotFoundError: # ocorre quando o arquivo especificado em open() não é encontrado
        return []

Nível de Experiência: Os níveis de experiência variam de "EX" (Experiente) a "MI" (Muito Inexperiente) e "SE" (Sênior). Isso indica o nível de experiência dos funcionários.

Tipo de Emprego: Todos os registros têm "FT" (Tempo Integral) como tipo de emprego, o que significa que esses funcionários trabalham em período integral.

## Estudando os dados:

In [None]:
# visualizando um único dado para compreender o formato
dados = carrega_dados("salaries.json")
dados[85]

{'work_year': '2023',
 'experience_level': 'SE',
 'employment_type': 'FT',
 'job_title': 'Data Scientist',
 'salary': '160000',
 'salary_currency': 'USD',
 'salary_in_usd': '160000',
 'employee_residence': 'US',
 'remote_ratio': 0,
 'company_location': 'US',
 'company_size': 'M'}

In [None]:
len(dados) # quantidade de dados (dicionários)

8805

In [None]:
# Entendendo a quais anos pertencem os dados
anos_unicos = list(set(dado['work_year'] for dado in dados))
print(anos_unicos)

['2021', '2022', '2020', '2023']


In [None]:
%%timeit
# AQUI criar função para remover os dados que não vamos considerar (experience_level, employment_type, salary_currency, remote_ratio)
def remover_info(json, *chaves) -> list[dict]:
    try:
        return list(map(lambda d: {k: v for k, v in d.items() if k not in chaves}, json))
    except KeyError as e:
        raise ValueError(f'Erro ao remover informações: {e}')

chave_a_remover = 'salary_currency' # posso passar uma lista com as chaves a serem removidas para a função
novos_dados = remover_info(dados, chave_a_remover)

#print(novos_dados[0])

17.6 ms ± 5.03 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Realizando a atividade proposta:

In [70]:
# filtrando por ano -> a saída de cada função será a entrada da próxima
def filtro_ano(item, opc='2023') -> list[dict]:
    try:
        if 'work_year' in item and item['work_year'] == opc:
            return item
        else:
            raise ValueError('Filtro de ano inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de ano: {e}')

# |
# v

# filtra por nível de experiencia:
def filtro_experiencia(item, opc) -> list[dict]:
    try:
        if 'experience_level' in item and item['experience_level'] == opc:
            return item
        else:
            raise ValueError('Filtro de nível de experiência inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de nível de experiência: {e}')

# |
# v

# filtra por tipo de cargo
def filtro_cargo(item, opc) -> list[dict]:
    try:
        if 'job_title' in item and item['job_title'] == opc:
            return item
        else:
            raise ValueError('Filtro de cargo inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de cargo: {e}')

# |
# v

# filtra por salário -> EM DÓLAR
def filtro_salario(item, opc) -> list[dict]:
    try:
        if 'salary_in_usd' in item and item['salary_in_usd'] == opc:
            return item
        else:
            raise ValueError('Filtro de salário inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de salário: {e}')

# |
# v

# filtra por localização do funcionário
def filtro_localizacao_funcionario(item, opc) -> list[dict]:
    try:
        if 'employee_residence' in item and item['employee_residence'] == opc:
            return item
        else:
            raise ValueError('Filtro de localização do funcionário inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de localização do funcionário: {e}')

# |
# v

# filtra por localização da empresa
def filtro_localizacao_empresa(item, opc) -> list[dict]:
    try:
        if 'company_location' in item and item['company_location'] == opc:
            return item
        else:
            raise ValueError('Filtro de localização da empresa inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de localização da empresa: {e}')

# |
# v

# filtra por tamanho da empresa
def filtro_porte_empresa(item, opc) -> list[dict]:
    try:
        if 'company_size' in item and item['company_size'] == opc:
            return item
        else:
            raise ValueError('Filtro de porte da empresa inválido.')
    except Exception as e:
        raise ValueError(f'Erro no filtro de porte da empresa: {e}')

In [None]:
# Opções para o menu -> filtro de cargos
cargos = {
    'Tech Lead': 'Data Science',
    'Practitioner': 'Data Science',
    'Engineer': 'Data Science',
    'Director': 'Data Science',
    'Consultant': 'Data Science',
    'Manager': 'Data Science',
    'Managing Director': 'Data Science',
    'Director': 'Data Science',
    'Lead': 'Data Science',
    'Head': 'Data Science'
    #'EX': 'Sair'
}

In [68]:
anos = ['2020', '2021', '2022', '2023']

def obter_ano(anos, msg='Anos'):
    while True:
        try:
            ano = input(f"{msg} ({' | '.join(anos)}): ")
            if ano in anos:
                break
            else:
                raise ValueError('Entrada Inválida! Dado não está na lista.')
        except ValueError as e:
            print(f'Erro: {e}\n')

    return ano

In [None]:
def media_salario_ano(lista_personalizada, cargo: str) -> float:
    try:
        # Filtra os elementos da lista_personalizada com base na condição especificada pela função lambda
        # Retorna True para os itens; o filter devolve um iterador com apenas os itens correspondentes ao cargo desejado
        # Map aplica a função lambda em cada elemento da lista e transforma string em float
        salario_do_cargo = list(map(lambda item: float(item['salary_in_usd']), filter(lambda item: item['job_title'] == cargo, lista_personalizada)))

        if salario_do_cargo:
            media_salarial = sum(salario_do_cargo) / len(salario_do_cargo)
            return media_salarial
        else:
            raise ValueError('Nenhum salário encontrado para o cargo especificado.')
    except (KeyError, ValueError, ZeroDivisionError) as e:
        # Captura exceções específicas que podem ocorrer durante a execução da função
        # KeyError: Tentativa de acessar uma chave que não existe no dicionário
        # ValueError: Conversão de string para float falhou
        # ZeroDivisionError: Tentativa de divisão por zero
        raise ValueError(f'Erro ao calcular a média salarial: {e}')

media_salario_ano(dados, 'Head of Data Science')

In [None]:
def menu():
  pass
  # obter ano que deseja ver os dados - Isadora OK
  # obter nível de experiência que deseja saber -> Rafael
  # obter cargo -> Ingrid
  # obter localização do funcionário -> Eliane
  # obter localização da empresa - Eliane
  # obter tamanho da empresa -> Rafael
  # Home office -> Ingrid

  # inserir dados -> Pedro
  # remover dados -> Pedro


  # retornar média salarial, maior salário ou menor salário

# obs: (maior salário, menor salário) -> deve ser obtido com uma função que retorna lista de tuplas

--------------------------------------------------------------------------

In [None]:
# Ex de uso se fosse considerar apenas um filtro
def filtrar_dados(lista, filtro_funcao, opc=None):
    return list(filter(lambda x: filtro_funcao(x, opc), lista))

# por ano
dados_filtrados_por_ano = filtrar_dados(dados, filtro_ano, '2023')
print("Filtrados por ano:", len(dados_filtrados_por_ano))

# por tipo de trabalho
dados_filtrados_por_tipo_trabalho = filtrar_dados(dados, filtro_tipo_trabalho, 'Data Scientist')
print("Filtrados por tipo de trabalho:", dados_filtrados_por_tipo_trabalho)

In [None]:
# CRIEI APENAS PARA SABERMOS QUAIS PROFISSÕES COM DADOS USAR
cargos_data_science = set()

# Iterar sobre os dicionários e adicionar os valores de 'job_title' contendo "Data Science" ao conjunto
for item in dados:
    if 'job_title' in item and 'Data Science' in item['job_title']:
        cargos_data_science.add(item['job_title'])

print("Cargos contendo 'Data Science':", cargos_data_science)

Cargos contendo 'Data Science': {'Director of Data Science', 'Data Science Consultant', 'Data Science Tech Lead', 'Managing Director Data Science', 'Data Science Lead', 'Data Science Practitioner', 'Data Science Manager', 'Head of Data Science', 'Data Science Director', 'Data Science Engineer'}
