# **Análise exploratória de dados**

Este projeto possui uma análise aprofundada dos dados selecionados para identificar padrões, tendências e insights relevantes.

**Descrição:** Escolha um conjunto de dados de interesse e explore suas características. Limpe e prepare os dados, em seguida, utilize técnicas de visualização, estatística descritiva e exploração interativa para identificar insights valiosos. Destaque padrões, tendências ou anomalias notáveis presentes nos dados.

# **Sobre o dataset**

O dataset deste projeto, abrange informações sobre os salários de diversos cargos dentro do campo da Ciência de Dados. Ele fornece uma visão detalhada das remunerações em diferentes funções, como cientista de dados, engenheiro de machine learning, analista de dados, entre outros.

**Link para o dataset:** https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023

#**Limpeza e preparação dos dados**

Eu gosto de começar analisando o dataset original em busca de dados que sejam interessantes.

In [133]:
import pandas as pd

In [136]:
df = pd.read_csv('ds_salaries.csv')

df.head(len(df))

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


In [137]:
colunas = df[['work_year', 'experience_level', 'job_title', 'salary_in_usd', 'employee_residence', 'company_location', 'company_size']]

colunas.head(len(colunas))

Unnamed: 0,work_year,experience_level,job_title,salary_in_usd,employee_residence,company_location,company_size
0,2023,SE,Principal Data Scientist,85847,ES,ES,L
1,2023,MI,ML Engineer,30000,US,US,S
2,2023,MI,ML Engineer,25500,US,US,S
3,2023,SE,Data Scientist,175000,CA,CA,M
4,2023,SE,Data Scientist,120000,CA,CA,M
...,...,...,...,...,...,...,...
3750,2020,SE,Data Scientist,412000,US,US,L
3751,2021,MI,Principal Data Scientist,151000,US,US,L
3752,2020,EN,Data Scientist,105000,US,US,S
3753,2020,EN,Business Data Analyst,100000,US,US,L


Escolhi algumas colunas que chamaram a minha atenção.

O dataset possui alguns cargos dentro da área de análise de dados. Decidi trabalhar apenas com o cargo de 'Data Analyst'.

In [139]:
data_analyst = colunas[colunas['job_title'] == 'Data Analyst']

data_analyst.head(len(data_analyst))

Unnamed: 0,work_year,experience_level,job_title,salary_in_usd,employee_residence,company_location,company_size
11,2023,SE,Data Analyst,130000,US,US,M
12,2023,SE,Data Analyst,100000,US,US,M
19,2023,MI,Data Analyst,150000,US,US,M
20,2023,MI,Data Analyst,110000,US,US,M
37,2023,MI,Data Analyst,105380,US,US,M
...,...,...,...,...,...,...,...
3645,2021,SE,Data Analyst,71786,CA,CA,M
3674,2020,MI,Data Analyst,85000,US,US,L
3681,2020,MI,Data Analyst,8000,PK,PK,L
3736,2021,MI,Data Analyst,75000,US,US,L


O dataset possui 612 linhas referentes ao cargo de Data Analyst.

In [54]:
anos = data_analyst.groupby('work_year')

anos_dict = {ano: grupo for ano, grupo in anos}

ano_20 = anos_dict.get(2020)
ano_21 = anos_dict.get(2021)
ano_22 = anos_dict.get(2022)
ano_23 = anos_dict.get(2023)

In [180]:
ano_21.head(len(ano_21))

Unnamed: 0,work_year,experience_level,job_title,salary_in_usd,employee_residence,company_location,company_size
2032,2021,MI,Data Analyst,16904,IN,IN,L
2119,2021,SE,Data Analyst,115000,US,US,S
2699,2021,EN,Data Analyst,42028,AU,AU,L
2939,2021,SE,Data Analyst,50000,PH,PH,S
3466,2021,MI,Data Analyst,135000,US,US,L
3478,2021,MI,Data Analyst,90000,US,US,M
3496,2021,EN,Data Analyst,10354,ES,ES,M
3499,2021,EN,Data Analyst,50000,US,US,M
3533,2021,EN,Data Analyst,90000,US,US,S
3534,2021,EN,Data Analyst,60000,US,US,S


Após a limpeza e preparação do dataset, consegui ter uma ideia dos insights que desejo obter.

Temos dados de um período de 4 anos de salários para o cargo de Data Analyst.

Como primeiro objetivo, irei obter o salário médio para cada nível de experiência por ano.

Ano de 2020

In [211]:
en_20 = ano_20[ano_20['experience_level'] == 'EN']
mi_20 = ano_20[ano_20['experience_level'] == 'MI']
se_20 = ano_20[ano_20['experience_level'] == 'SE'] # o ano de 2020 não possui nenhuma experiencia como se

resultado_en_20 = en_20['salary_in_usd'].sum() / len(en_20)
resultado_mi_20 = mi_20['salary_in_usd'].sum() / len(mi_20)
resultado_se_20 = se_20['salary_in_usd'].sum() / len(se_20)

en_20_df = pd.DataFrame({'Resultado': [resultado_en_20]})
mi_20_df = pd.DataFrame({'Resultado': [resultado_mi_20]})
se_20_df = pd.DataFrame({'Resultado': [resultado_se_20]})

  resultado_se_20 = se_20['salary_in_usd'].sum() / len(se_20)


Ano de 2021

In [205]:
en_21 = ano_21[ano_21['experience_level'] == 'EN']
mi_21 = ano_21[ano_21['experience_level'] == 'MI']
se_21 = ano_21[ano_21['experience_level'] == 'SE']

resultado_en_21 = en_21['salary_in_usd'].sum() / len(en_21)
resultado_mi_21 = mi_21['salary_in_usd'].sum() / len(mi_21)
resultado_se_21 = se_21['salary_in_usd'].sum() / len(se_21)

en_21_df = pd.DataFrame({'Resultado': [resultado_en_21]})
mi_21_df = pd.DataFrame({'Resultado': [resultado_mi_21]})
se_21_df = pd.DataFrame({'Resultado': [resultado_se_21]})

Ano de 2022

In [206]:
en_22 = ano_22[ano_22['experience_level'] == 'EN']
mi_22 = ano_22[ano_22['experience_level'] == 'MI']
se_22 = ano_22[ano_22['experience_level'] == 'SE']

resultado_en_22 = en_22['salary_in_usd'].sum() / len(en_22)
resultado_mi_22 = mi_22['salary_in_usd'].sum() / len(mi_22)
resultado_se_22 = se_22['salary_in_usd'].sum() / len(se_22)

en_22_df = pd.DataFrame({'Resultado': [resultado_en_22]})
mi_22_df = pd.DataFrame({'Resultado': [resultado_mi_22]})
se_22_df = pd.DataFrame({'Resultado': [resultado_se_22]})

Ano de 2023

In [209]:
en_23 = ano_23[ano_23['experience_level'] == 'EN']
mi_23 = ano_23[ano_23['experience_level'] == 'MI']
se_23 = ano_23[ano_23['experience_level'] == 'SE']

resultado_en_23 = en_23['salary_in_usd'].sum() / len(en_23)
resultado_mi_23 = mi_23['salary_in_usd'].sum() / len(mi_23)
resultado_se_23 = se_23['salary_in_usd'].sum() / len(se_23)

en_23_df = pd.DataFrame({'Resultado': [resultado_en_23]})
mi_23_df = pd.DataFrame({'Resultado': [resultado_mi_23]})
se_23_df = pd.DataFrame({'Resultado': [resultado_se_23]})