# Analisando salários da área de dados

### Em desenvolvimento - atualizado em 23/09/2023

## Contexto

A área de dados, também conhecida como ciência de dados e análise de dados, é fundamental em uma variedade de setores e indústrias. Os profissionais dessa área são responsáveis por coletar, analisar e interpretar informações para auxiliar na tomada de decisões estratégicas.

A área de dados é dinâmica e em constante evolução, desempenhando um papel crítico na transformação digital das organizações. Profissionais dessa área são altamente valorizados devido à sua capacidade de transformar dados em insights acionáveis para impulsionar o sucesso dos negócios.

## Conjunto de dados

Coleta de dados do Kaggle sob o link:
    https://www.kaggle.com/datasets/nikhilbhathi/data-scientist-salary-us-glassdoor

Este conjunto de dados foi criado ao extrair anúncios de empregos relacionados ao cargo de 'Cientista de Dados' do site www.glassdoor.com nos Estados Unidos. Autor utilizou o Selenium para coletar os dados brutos. 

## Dicionário de dados
- Work_year: ano de extração dos dados, variando de 2020 a 2023;
- Expert_level: nível dos cargos como 'EN' (Entry ou Júnior), 'MI' (Middle ou Pleno), 'SE' (Senior ou Sênior) e 'EX' (Expert ou Especialista);
- Employment_title: modalidade do cargo, podendo ser 'CT' (Contract Type ou Contrato por um determinado período), 'FL' (Freelancer), 'FT' (Full-Time ou Tempo integral) e 'PT' (Partial-time ou Meio-período);
- Job_title: nome do cargo com 93 cargos distintos;
- Salary_in_USD: salário anual em Dólar;
- Company_location: código do país sede da empresa;
- Company_size: indica o tamanho da empresa, podendo ser 'S' (Small ou Pequena), 'M' (Medium ou Média) e 'L' (Large ou Grande).

Foram criadas colunas descritivas para facilitar na visualização de dados, além de outros arquivos CSV para realizar correlação de dados, como identificar continente do país.


Para eliminar possíveis duplicatas remanescentes, foi criado o campo 'ID' formatado da seguinte forma:

Work_year + Expert_level + Employment_type + Salary_in_USD + Company_location + Job_title

E através desse ID foram encontrados e retirados mais alguns registros duplicados. 
Restando 2406 registros únicos.

## Processo

Projeto desenvolvido com o uso do Excel para limpeza e modelagem de dados, além da análise e desenvolvimento de visualizações.

Abri o arquivo .CSV no Excel e realizei a limpeza e tratamento dos dados para prepará-los para análises.
Foram criados relações com outros arquivos de diversas fontes, para juntar dados relevantes para as análises.
Criado visualizações para extrair insights do conjunto de dados.

## Análises individuais das colunas relevantes

### Ano de extração dos dados (Work_year)

O gráfico nos mostra um crescimento exponencial de 2021 para 2022 e uma estabilizada de 2022 para 2023.
Proporciona um sentimento de crescimento, uma vez que o ano de 2023 não acabou e já superou os números de 2022.

![work_year](img/work_year.PNG)

### Níveis dos cargos (Expert_level)

Observa-se uma predominância de cargos seniores, com mais do dobro de cargos plenos. O que pode influenciar em muito na hora de comparar salários e outras análises, devendo ser observado cuidadosamente quando for realizá-las para não ter resultados tendenciosos.

![carg_niv](img/carg_niv.PNG)

### Modalidade do cargo (Employment_type)

Por ser apenas 4 categorias, não foi possível criar uma visualização para expressar essa diferença gigantesca, uma vez que mais de 98% dos registros se encontra na categoria de Tempo Integral (Full-time)

![emp_type](img/emp_type.PNG)

### País sede da empresa (Company_location)

Foram registrados 72 países distintos, sendo os Estados Unidos da América com 1759 registros. 
O Brasil aparece em 8º colocado com apenas 15 registros. Segue um recorte da tabela com os países:

![company_location](img/company_location.PNG)

### Tamanho da empresa (Company_size)

Temos 3 tipos de tamanhos e podemos ver que a maioria são empresas Médias, seguidas das Grandes e poucas Pequenas.

![comp_size](img/comp_size.PNG)

Encerrando as análises individuais dos dados para passarmos para a parte de verificar as relações que podemos verificar entre os dados.

## Relacionando dados para extrair insights

### Relação entre salário anual em dólar com os níveis dos cargos (Salary_in_usd x Expert_level)

O gráfico abaixo retrata a variação entre mínimo, média e máximo dos salarios, por nivel do cargo

![min_max_level](img/min_max_level.PNG)

Podemos ver a seguir a evolução dos salários ao longo dos anos de 2020 a 2023

![level_year](img/level_year.PNG)

A seguir visualizações da evolução de cada nível de cargo separadamente

Entry

![entry](img/entry.PNG)

Middle

![middle](img/middle.PNG)

Senior

![senior](img/senior.PNG)

Expert

![expert](img/expert.PNG)

Distribuição mundial

![map](img/map.PNG)

Cargos por Continente

![cont](img/cont.PNG)

Média salarial por continente

![usd_cont](img/usd_cont.PNG)

Quantidade de cargos por nível e continente

![lvl_cont](img/lvl_cont.PNG)

Quantidade de nomes de cargos registrados - mostrando apenas os cargos com 50 ou mais registros

![job_title](img/job_title.PNG)

Média salarial por cargo

Baseado nos cargos do gráfico anterior, veja o gráfico abaixo

![usd_job](img/usd_job.PNG)