In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

## Análise Exploratória de Dados de Salários na Área de Data Science

O dataset utilizado trata-se de uma base dados com informações sobre os salários relacionados à Data Science durante o ano de 2023.

Base disponibilizada em: https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023

O conteúdo possui as seguintes colunas:

* **work_year**: ano em que o salário foi pago;
* **experience_level**: nível de experiência durante o ano;
* **employment_type**: tipo de trabalho para o cargo;
* **job_title**: títulos dos cargos relacionados;
* **salary**: total de salário pago durante o ano;
* **salary_currency**: moeda em que o salário foi pago, expressado por códigos padrão ISO 4217
* **salaryinusd**: salários em dólar;
* **employee_residence**: local de residência do trabalhador, expressado por códigos padrão ISO 3166;
* **remote_ratio**: percentual de trabalho remoto;
* **company_location**: local da empresa contratante;
* **company_size**: tamanho da empresa de acordo com a quantidade de funcionários.

![Table](https://github.com/marvinbassani/DataScience_Salaries/blob/main/table.png?raw=true)

O dataset possui **3.755 linhas**. Obtemos o resultado através da query:

> SELECT COUNT (*)
> FROM `datasciencesalaries.ds_salaries.Salaries`

Utilizado o **Google Cloud Services** para as queries e análises com a **linguagem SQL**.


# Análise Exploratória

Iniciamos com a análise dos dados presentes colunas relevantes para análises futuras:

**Anos de Referência (work_year)**

Obtivemos os anos de referência através da seguinte consulta:

> SELECT DISTINCT work_year
> FROM `datasciencesalaries.ds_salaries.Salaries`
> ORDER BY work_year DESC

![WorkYear](https://github.com/marvinbassani/DataScience_Salaries/blob/main/work_year_.png?raw=true)


**Níveis de Experiência (experience_level)**

Para visualizar os níveis de experiência no dataset, a seguinte query foi utilizada:

> SELECT DISTINCT experience_level
> FROM `datasciencesalaries.ds_salaries.Salaries`

![Experiência](https://github.com/marvinbassani/DataScience_Salaries/blob/main/experience_level.png?raw=true)

As siglas significam os seguintes níveis:

* MI: Mid Level;
* SE: Senior Level;
* EN: Engineering Level;
* EX: Executive Level.

**Cargos (job_title)**

Agora vamos olhar para quais cargos temos no modelo, utilizando a seguinte query:

> SELECT DISTINCT job_title
> FROM `datasciencesalaries.ds_salaries.Salaries`

A consulta resultou em **93 resultados**, portanto para melhor visualização iremos limitar aos 10 primeiros resultados com a query:

> SELECT DISTINCT job_title
> FROM `datasciencesalaries.ds_salaries.Salaries`
> LIMIT 10

![Cargos](https://github.com/marvinbassani/DataScience_Salaries/blob/main/job_title.png?raw=true)

**Local de Trabalho (employee_residence)**

O local de trabalho está especificado em siglas de acordo com o padrão internacional ISO 3166. Portanto, utilizamos uma base para descrever quais siglas correspondem aos locais de trabalho.
Com isso, executamos a seguinte query para demonstrar os 10 primeiros países presente no modelo:

> SELECT DISTINCT salarios.employee_residence, pais.name AS employee_residence_name
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.employee_residence = pais.alpha_2
> LIMIT 10

![Employee Residence](https://github.com/marvinbassani/DataScience_Salaries/blob/main/employee_residence.png?raw=true)


**Local da Empresa (company_location)**

O local da empresa também está especificado de acordo com o padrão ISO 3166. Utilizamos a seguinte query para explorar as 10 primeiras empresas no modelo:

> SELECT DISTINCT salarios.company_location, pais.name AS company_location_name
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.company_location = pais.alpha_2
> LIMIT 10

![Company Location](https://github.com/marvinbassani/DataScience_Salaries/blob/main/company_location.png?raw=true)

**Tamanho da Empresa (company_size)**

Para verificar quais tipos de empresa que temos, utilizamos a seguinte consulta:

> SELECT DISTINCT company_size
> FROM `datasciencesalaries.ds_salaries.Salaries`
> ORDER BY company_size

![Company Size](https://github.com/marvinbassani/DataScience_Salaries/blob/main/company_size.png?raw=true)

**Comentários:** iremos determinar que:
* L = Grande Porte (large);
* M = Médio Porte (medium);
* S = Pequeno Porte (small).

# Análise de Dados

Visando entender o comportamento deste banco de dados, iremos realizar algumas perguntas.

**Qual a quantidade de pessoas por cargos?**

> SELECT COUNT(*) AS qt_pessoas, job_title AS cargo
> FROM `datasciencesalaries.ds_salaries.Salaries`
> GROUP BY cargo
> ORDER BY qt_pessoas DESC
> LIMIT 10

![Salary by Job](https://github.com/marvinbassani/DataScience_Salaries/blob/main/salary_by_job.png?raw=true/)

**E por Região/País?**

> SELECT COUNT (*) AS qt_pessoas, pais.name AS employee_residence_name
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.employee_residence = pais.alpha_2
> GROUP BY pais.name
> ORDER BY qt_pessoas DESC
> LIMIT 10

![People by Country](https://github.com/marvinbassani/DataScience_Salaries/blob/main/people_by_country.png?raw=true)

Também podemos filtrar nosso modelo e verificar **quantas pessoas em cada cargo trabalham no Brasil**:

> SELECT COUNT(*) AS qt_pessoas, job_title
> FROM `datasciencesalaries.ds_salaries.Salaries`
> WHERE employee_residence = "BR"
> GROUP BY  job_title
> ORDER BY qt_pessoas DESC

![Job Title BR](https://github.com/marvinbassani/DataScience_Salaries/blob/main/job_title_BR.png?raw=true)

**Comentários**: Através dos dados, podemos visualizar que a concentração de pessoas que trabalham nos Estados Unidos é bem maior em relação aos outros países (80%). Consequentemente, outras variáveis estarão em maior evidência nessa região (salários, cargos, empresas, etc).

Vamos fazer uma análise em relação aos **salários**:

**Qual o maior e menor salário?**

> SELECT MAX (salary_in_usd) AS max_salario, MIN (salary_in_usd) AS min_salario
> FROM `datasciencesalaries.ds_salaries.Salaries`

![Max/Min Salary](https://github.com/marvinbassani/DataScience_Salaries/blob/main/max_min_salary.png?raw=true)

**E qual a região com o menor salário?**

> SELECT salary_in_usd AS salario, pais.name AS local_trabalho
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.employee_residence = pais.alpha_2
> ORDER BY salary_in_usd ASC
> LIMIT 10

![Min Salary Region](https://github.com/marvinbassani/DataScience_Salaries/blob/main/salary_min_region.png?raw=true)

Vemos que os menores salários estão na India. Porém para analisarmos melhor o dado, podemos verificar **qual a média salarial por região**:

**Maior:**

> SELECT pais.name AS regiao, ROUND(AVG(salarios.salary_in_usd), 2) AS media_salarial
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.employee_residence = pais.alpha_2
> GROUP BY regiao
> ORDER BY media_salarial DESC
> LIMIT 10

![AVG Region](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_region.png?raw=true)


![Chart AVG](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_chart_region.png?raw=true)

**Menor:**

> SELECT pais.name AS regiao, ROUND(AVG(salarios.salary_in_usd), 2) AS media_salarial
> FROM `datasciencesalaries.ds_salaries.Salaries` AS salarios JOIN `datasciencesalaries.ds_salaries.country` AS pais
> ON salarios.employee_residence = pais.alpha_2
> GROUP BY regiao
> ORDER BY media_salarial ASC
> LIMIT 10

![AVG Region Min](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_region_min.png?raw=true)

![AVG Min Chart](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_chart_region_min.png?raw=true)


Para termos mais conclusões se a região influencia no salário, é necessário ter outra base de dados que nos mostre mais informações como, população, salário mínimo, renda média da população, entre outros fatores econômicos que podem influenciar neste caso.

Aqui vemos que **Israel** possui a maior média salarial entre os países. Enquanto **Macedônia do Norte**, a menor.

Vamos analisar dentro do contexto de **cargos** e **níveis de experiência**:

Podemos verificar se o **cargo tem relação com o salário, calculando a média por cargo**:

> SELECT job_title AS cargo, ROUND(AVG(salary_in_usd),2) AS media_salario
> FROM `datasciencesalaries.ds_salaries.Salaries`
> GROUP BY cargo
> ORDER BY media_salario DESC
> LIMIT 10

![AVG Job Title](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_job_title.png?raw=true)

![AVG Chart Job](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_chart_job_title.png?raw=true)

Os cargos com médias salariais mais altas, possivelmente são cargos de liderança e de exigências técnicas maiores. Podemos observar também **quais são as médias salariais por níveis de experiência**:

> SELECT experience_level AS nivel_exp, ROUND(AVG(salary_in_usd),2) AS media_salario
> FROM `datasciencesalaries.ds_salaries.Salaries`
> GROUP BY nivel_exp
> ORDER BY media_salario DESC

![AVG Experience](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_experience_level.png?raw=true)

Também podemos verificar maior concentração de profissionais no nível Sênior:

![Experience Level](https://github.com/marvinbassani/DataScience_Salaries/blob/main/people_by_experience_level_chart.png?raw=true)


Iremos consultar também se o **tamanho da empresa influencia nos salários dos empregados:**

> SELECT experience_level AS nivel_exp, ROUND(AVG(salary_in_usd),2) AS media_salario
> FROM `datasciencesalaries.ds_salaries.Salaries`
> GROUP BY nivel_exp
> ORDER BY media_salario DESC

![Company Size](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_company_size.png?raw=true)

Acima vemos que não podemos relacionar o tamanho da empresa com a média salarial. Empresas de médio porte (M) possuem valores maiores do que empresas de grande porte (L).



Observamos os maiores salários para os níveis **Executivos/Experts** (EX) e **Sênior** (SE). Portanto, podemos afirmar dentro deste modelo que **a média salarial é diretamente proporcional ao nível de experiência.**


Por fim, podemos questionar também se **houve aumento ou diminuição de salários durante os anos**:

> > SELECT work_year AS ano, ROUND(AVG(salary_in_usd),2) AS media_salario
> FROM `datasciencesalaries.ds_salaries.Salaries`
> GROUP BY ano
> ORDER BY ano ASC

![Chart by Year](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_year_chart.png?raw=true)

![Salary by Year](https://github.com/marvinbassani/DataScience_Salaries/blob/main/avg_salary_year.png?raw=true)

Vimos que durante os anos de 2020 e 2021, houve um pequeno aumento salarial. Já no ano de 2023 a média salarial aumentou em **38% em relação ao ano de 2020**.

Novamente, não temos acesso aos dados econômicos das regiões especificadas. Portanto, não há possibilidade de analisar quais os fatores que fizeram ocorrer aumento na média salarial durante os anos mencionados.

# Conclusão

* Há um maior número de pessoas trabalhando nos Estados Unidos, porém a média salarial maior é na região de Israel. O que nos leva a afirmar que o tamanho do país não está diretamente relacionado ao salário;
* Para afirmar com precisão quais fatores influenciam diretamente nas médias salariais, precisaríamos de uma base de dados de índices econômicos e sociais de cada região, por exemplo;
* Os cargos com médias salariais mais altas possivelmente são de liderança, os salários mais altos estão presentes em níveis Executivos (EX). Nestes casos, podemos afirmar que os cargos e níveis de experiências influenciam diretamente nas médias salariais;
* Empresas maiores, necessariamente não pagam os maiores salários. Vimos que empresas de médio porte possuem uma média salarial maior;
* Durante os anos de 2020 e 2021, o aumento salarial foi quase imperceptível. Sem maiores detalhes, não podemos ter uma conclusão concreta, porém podemos citar os anos de pandemia em que várias empresas tiveram o financeiro afetado;
* Percebemos em 2023 um aumento na média salarial. Tratando de tecnologia, vimos diversos avanços relacionados à dados, podemos citar os avanços na saúde para desenvolvimento de vacinas e empresas de inovação utilizando dados massivos para tomadas de decisões;
* O dataset estudado não possui maiores informações sobre as regiões citadas, portanto para o aprofundamento do estudo seria necessário analisar outras bases que possuam dados relacionados à economia e sociedade. Cruzando os dados para chegar a maiores conclusões sobre o tema.