# **Análise Exploratória de Salários em Carreiras de Dados**

## **Funções e bibliotecas necessárias para o projeto**

In [1]:
import pandas as pd

## **Iniciando o projeto utilizando a metodologia CRISP-DM**

### **1.0 - Entendimento do Negócio**

#### **Contextualização**

Nos últimos anos, a área de Ciência de Dados cresceu de forma acelerada, se tornando uma das mais promissoras no mercado de tecnologia. Profissionais como Data Analysts e Data Scientists passaram a ser cada vez mais valorizados, mas ainda existe muita dúvida sobre como os salários variam entre cargos, níveis de experiência e localização.

Este projeto tem como objetivo realizar uma Análise Exploratória de Dados (EDA) sobre salários de profissionais da área de dados, utilizando um dataset público do Kaggle. A análise busca responder perguntas como:

1- Qual a distribuição de salários em dólar para profissionais de dados?

2- Como variam os salários entre Data Analysts e Data Scientists?

3- Qual o impacto do nível de experiência (junior, pleno, sênior, executivo) na remuneração?

4- Há diferenças significativas dependendo da localização da empresa?

#### **Objetivo**

Além de explorar o dataset, este projeto também tem como propósito:

1- Exercitar técnicas de manipulação de dados com Pandas.

2- Criar visualizações claras com Matplotlib e Seaborn.

3- Extrair insights relevantes que podem ser úteis para quem deseja ingressar ou crescer na área de dados.


### **2.0 - Entendimento dos Dados**

#### **Sobre os Dados**

Downlaod realizado em [Kaggle](https://www.kaggle.com/datasets/hummaamqaasim/jobs-in-data?resource=download)

#### **Descrição das Colunas**

**work_year**

    Ano em que o salário ou a vaga foi registrado.

    Exemplo: 2023.

    Permite análise de evolução salarial ou tendências do mercado ao longo dos anos.

**job_title**

    Nome do cargo.

    Exemplo: Data Scientist, Data Engineer, Data Architect.

    Mostra a variedade de posições no mercado de dados.

**job_category**

    Agrupamento das funções em categorias mais amplas.

    Exemplo: Data Science and Research, Data Engineering, Data Architecture and Modeling.

    Facilita identificar áreas mais bem pagas ou mais demandadas.

**salary_currency**

    Moeda em que o salário foi reportado.

    Exemplo: USD, EUR, GBP.

**salary**

    Valor do salário na moeda original reportada.

**salary_in_usd**

    Valor convertido para dólares americanos (USD).

    Permite comparações diretas entre países.

**employee_residence**

    País de residência do empregado.

    Exemplo: Germany, United States, Brazil.

    Útil para comparar salários por país de residência.

**experience_level**

    Nível de experiência do profissional.

    Exemplo: Entry-level, Mid-level, Senior, Executive.

    Permite avaliar a progressão salarial conforme experiência.

**employment_type**

    Tipo de contrato.

    Exemplo: Full-time, Part-time, Contract, Freelance.

    Mostra a estrutura de contratação no mercado.

**work_setting**

    Modelo de trabalho.

    Exemplo: Remote, Hybrid, In-person.

    Permite avaliar se o trabalho remoto impacta salários.

**company_location**

    Localização da empresa (país).

    Exemplo: United States, Germany, India.

    Pode diferir do país de residência do empregado.

**company_size**

    Tamanho da empresa:

        S = Pequena (até 50 funcionários)

        M = Média (51 a 250 funcionários)

        L = Grande (mais de 250 funcionários)

    Útil para entender diferenças salariais entre empresas de portes distintos.

OBS.: Dataset robusto, com **9.355 registros** de vagas/salários na área de dados, abrangendo diferentes anos, cargos, países, níveis de experiência e tipos de trabalho.

#### **Coletando os dados**

In [2]:
df = pd.read_csv(r'data\jobs_in_data.csv', sep=',')

In [3]:
df.head()

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2023,Data DevOps Engineer,Data Engineering,EUR,88000,95012,Germany,Mid-level,Full-time,Hybrid,Germany,L
1,2023,Data Architect,Data Architecture and Modeling,USD,186000,186000,United States,Senior,Full-time,In-person,United States,M
2,2023,Data Architect,Data Architecture and Modeling,USD,81800,81800,United States,Senior,Full-time,In-person,United States,M
3,2023,Data Scientist,Data Science and Research,USD,212000,212000,United States,Senior,Full-time,In-person,United States,M
4,2023,Data Scientist,Data Science and Research,USD,93300,93300,United States,Senior,Full-time,In-person,United States,M


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9355 entries, 0 to 9354
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           9355 non-null   int64 
 1   job_title           9355 non-null   object
 2   job_category        9355 non-null   object
 3   salary_currency     9355 non-null   object
 4   salary              9355 non-null   int64 
 5   salary_in_usd       9355 non-null   int64 
 6   employee_residence  9355 non-null   object
 7   experience_level    9355 non-null   object
 8   employment_type     9355 non-null   object
 9   work_setting        9355 non-null   object
 10  company_location    9355 non-null   object
 11  company_size        9355 non-null   object
dtypes: int64(3), object(9)
memory usage: 877.2+ KB


In [16]:
print(f"{df.duplicated().sum() / df['work_year'].count():.2%} do Dataframe possui registros duplicados")

42.91% do Dataframe possui registros duplicados


**Diagnóstico de qualidade dos dados**

    Não há valores ausentes ou nulos.

    Existem duplicados (≈43%), mas decidi mantê-los pois é perfeitamente possível termos mesmos valores para indivíduos diferentes neste cenário.

    'salary_in_usd' será a métrica principal.

### **3.0 - Preparação dos Dados**

In [17]:
# Alterando o tipo de dado nas colunas: 'salary', 'salary_in_usd'
df['salary'] = df['salary'].astype('float64')
df['salary_in_usd'] = df['salary_in_usd'].astype('float64')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9355 entries, 0 to 9354
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           9355 non-null   int64  
 1   job_title           9355 non-null   object 
 2   job_category        9355 non-null   object 
 3   salary_currency     9355 non-null   object 
 4   salary              9355 non-null   float64
 5   salary_in_usd       9355 non-null   float64
 6   employee_residence  9355 non-null   object 
 7   experience_level    9355 non-null   object 
 8   employment_type     9355 non-null   object 
 9   work_setting        9355 non-null   object 
 10  company_location    9355 non-null   object 
 11  company_size        9355 non-null   object 
dtypes: float64(2), int64(1), object(9)
memory usage: 877.2+ KB
