# Entendimento de Negócio

O mercado de Ciência de Dados está em contante crescimento, é uma área relativamente nova e muitas muito requisitada por qualquer tipo de negócio. Com essa crescente na demanda de funcionários para o cargo, muitas pessoas acabaram migrando para área de dados seduzidos pela sua grante quantidade de benefícios.

Este projeto visa analisar dados e possiveis tendências para vagas de trabalho em Ciência de Dados. Os dados aqui utilizados foram fornecidos pelo Kaggle e contêm campos essenciais para a análise, como cargo, empresa, local da empresa, faixa salarial etc...

**Questões a serem resolvidas:**
- Análise de Tendências: Examinaremos as tendências na demanda por várias habilidades em funções de ciência de dados.
- Análise de Salários: Compararemos faixas salariais para cargos de ciência de dados em empresas e locais.
- Análise de Localização: Identificaremos regiões com alta demanda por profissionais de ciência de dados.
- Análise de Lacuna de Habilidades: Determinaremos as habilidades mais procuradas no setor de ciência de dados.

Para este projeto utilizaremos Python e suas biblitecas para limpeza e transformação dos dados, e o Power BI para visualização dos dados.

____

# Entendimento dos Dados

In [1]:
# importando biliotecas
import os
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')

In [2]:
# importando os dados
data = pd.read_csv(os.getcwd().replace('code', 'data')+'\\raw\\data_science_job.csv')

In [3]:
data

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2022,Machine Learning Engineer in office,Analysis,EUR,186597,136086,US,MI,CT,Remote,DE,L
1,2020,Statistician (Remote),ML/AI,JPY,110630,67982,JP,EX,FL,Remote,IN,M
2,2022,Machine Learning Engineer,ML/AI,INR,61280,153309,UK,MI,CT,Hybrid,CN,L
3,2022,Data Analyst in office,ML/AI,JPY,154130,135242,DE,SE,FT,Hybrid,MX,L
4,2020,Statistician,Data Science,EUR,172312,35156,UK,MI,FT,In-person,UK,S
...,...,...,...,...,...,...,...,...,...,...,...,...
4995,2020,Machine Learning Engineer (Remote),,,179769,179111,UK,,CT,In-person,IN,
4996,2021,Machine Learning Engineer (Remote),,,184642,196373,CN,,FL,Remote,UK,
4997,2022,Machine Learning Engineer,Analysis,GBP,135319,51366,UK,EN,FL,Hybrid,JP,M
4998,2021,Statistician,Data Science,EUR,58037,181817,US,MI,PT,Remote,DE,S


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           5000 non-null   int64 
 1   job_title           5000 non-null   object
 2   job_category        4500 non-null   object
 3   salary_currency     4500 non-null   object
 4   salary              5000 non-null   int64 
 5   salary_in_usd       5000 non-null   int64 
 6   employee_residence  5000 non-null   object
 7   experience_level    4500 non-null   object
 8   employment_type     5000 non-null   object
 9   work_setting        5000 non-null   object
 10  company_location    5000 non-null   object
 11  company_size        4500 non-null   object
dtypes: int64(3), object(9)
memory usage: 468.9+ KB


Podemos notar que há colunas com 500 registros faltando.

In [None]:
# conta a quantidade de dados duplicados
data.duplicated().sum()

0

Não há dados duplicados no dataset.

In [5]:
# analisando coluna work_year
data.work_year.value_counts()

work_year
2020    1738
2021    1640
2022    1622
Name: count, dtype: int64

Os dados contidos neste dataset são referentes aos anos de 2020 a 2022.

In [6]:
data.work_year.isnull().sum()

0

Não apresenta valores nulos.

In [7]:
# analisando os títulos de trabalhos
data.job_title.value_counts()

job_title
Data Engineer  in office                372
Data Engineer                           355
Statistician                            354
Data Scientist                          353
Data Analyst  in office                 339
Data Engineer  (Remote)                 338
Data Analyst  (Remote)                  336
Machine Learning Engineer  in office    331
Data Scientist  in office               330
Machine Learning Engineer  (Remote)     327
Statistician  (Remote)                  323
Statistician  in office                 317
Data Scientist  (Remote)                310
Data Analyst                            309
Machine Learning Engineer               306
Name: count, dtype: int64

Aqui podemos notar que alguns títulos de repetem, porém identificando se é presencial ou home office. Como já possuímos uma coluna só com os tipos de trabalho, iremos remover estas identificações e agrupar os titulos únicos. 

In [8]:
data.job_title = data.job_title.str.replace('(', '').str.replace(')', '').str.replace('Remote', '').str.replace('in office', '')

In [9]:
data.job_title.isnull().sum()

0

Não há valores nulos.

In [10]:
# analisando categoria dos trabalhos
data.job_category.value_counts()

job_category
Data Science    1173
ML/AI           1151
Analysis        1108
Engineering     1068
Name: count, dtype: int64

In [11]:
data.job_category.isnull().sum()

500

Há 500 dados faltantes nas cetegorias de trabalho, vamos investigar.

In [12]:
data.loc[data.job_category.isnull()]

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
8,2022,Data Analyst,,,-44388,171043,UK,,FL,In-person,DE,
12,2020,Machine Learning Engineer,,,143057,76456,MX,,FL,In-person,DE,
23,2021,Statistician,,,-112757,124951,DE,,FT,Hybrid,JP,
26,2020,Data Scientist,,,56534,147139,DE,,CT,Hybrid,JP,
29,2022,Data Engineer,,,-142296,174973,DE,,FL,Hybrid,DE,
...,...,...,...,...,...,...,...,...,...,...,...,...
4923,2020,Data Scientist,,,174797,45003,IN,,PT,In-person,UK,
4966,2022,Statistician,,,-85120,119362,US,,FL,Remote,CN,
4975,2022,Machine Learning Engineer,,,53547,109608,IN,,FT,Hybrid,CN,
4995,2020,Machine Learning Engineer,,,179769,179111,UK,,CT,In-person,IN,


Os dados então faltantes não parecem ser erro no registro, eu acredito que possa ser só a falta de especificação de onde os dados foram tirados. Como não há um time de negócios para eu perguntar se esta este ponto é verdadeiro, irei supor que sim, e para solucionar e não deixar esses valores nulos, irei substituí-los pela moda de cada título de trabalho representado.

In [13]:
data

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2022,Machine Learning Engineer,Analysis,EUR,186597,136086,US,MI,CT,Remote,DE,L
1,2020,Statistician,ML/AI,JPY,110630,67982,JP,EX,FL,Remote,IN,M
2,2022,Machine Learning Engineer,ML/AI,INR,61280,153309,UK,MI,CT,Hybrid,CN,L
3,2022,Data Analyst,ML/AI,JPY,154130,135242,DE,SE,FT,Hybrid,MX,L
4,2020,Statistician,Data Science,EUR,172312,35156,UK,MI,FT,In-person,UK,S
...,...,...,...,...,...,...,...,...,...,...,...,...
4995,2020,Machine Learning Engineer,,,179769,179111,UK,,CT,In-person,IN,
4996,2021,Machine Learning Engineer,,,184642,196373,CN,,FL,Remote,UK,
4997,2022,Machine Learning Engineer,Analysis,GBP,135319,51366,UK,EN,FL,Hybrid,JP,M
4998,2021,Statistician,Data Science,EUR,58037,181817,US,MI,PT,Remote,DE,S


In [14]:
# remove os espaços ao lado direito do final do caractere
data.job_title = data.job_title.str.rstrip()

# substitui espaçoes por caractere _
data.job_title = data.job_title.str.lower().str.replace(' ', '_')

In [67]:
data.loc[data.job_title == 'machine_learning_engineer']

Unnamed: 0,work_year,job_title,job_category,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2022,machine_learning_engineer,Analysis,136086,estados unidos,pleno,CT,Remote,alemanha,L
2,2022,machine_learning_engineer,ML/AI,153309,reino unido,pleno,CT,Hybrid,china,L
5,2020,machine_learning_engineer,Engineering,68280,china,pleno,FT,Hybrid,alemanha,M
12,2020,machine_learning_engineer,Analysis,76456,mexico,,FL,In-person,alemanha,
24,2020,machine_learning_engineer,Engineering,56414,india,junior,FT,Remote,reino unido,M
...,...,...,...,...,...,...,...,...,...,...
4991,2020,machine_learning_engineer,ML/AI,153825,china,executivo,FL,Remote,estados unidos,L
4992,2021,machine_learning_engineer,Analysis,37426,japao,senior,FL,Hybrid,china,M
4995,2020,machine_learning_engineer,Analysis,179111,reino unido,,CT,In-person,india,
4996,2021,machine_learning_engineer,Analysis,196373,china,,FL,Remote,reino unido,


In [66]:
# Calcular a moda de job_category para cada job_title
modas = data.groupby('job_title')['job_category'].agg(lambda x: x.mode().iloc[0] if not x.mode().empty else None)

# Preencher apenas os valores nulos de job_category
for job_title, moda in modas.items():
    data.loc[(data['job_title'] == job_title) & (data['job_category'].isnull()), 'job_category'] = moda

Nulos substituidos pela moda.

Para este projeto, saber em que moeda foi feito o pagamento não é um dos focos da análise, apenas saber o quanto foi pago em dólares importa. Contudo, removeremos as colunas que indicam o salário sem ser em dólar, e a coluna que indica o tipo de moeda em que foi pago.

In [17]:
data = data.drop(columns=['salary_currency', 'salary'])

In [18]:
# substituindo siglas pelo nome do pais
data.company_location = data.company_location.str.replace('UK', 'reino unido').str.replace('DE', 'alemanha').str.replace('MX', 'mexico').str.replace('IN', 'india').str.replace('CN', 'china').str.replace('US', 'estados unidos').str.replace('JP', 'japao')

# substituindo siglas da coluna de residência do empregado
data.employee_residence = data.employee_residence.str.replace('UK', 'reino unido').str.replace('DE', 'alemanha').str.replace('MX', 'mexico').str.replace('IN', 'india').str.replace('CN', 'china').str.replace('US', 'estados unidos').str.replace('JP', 'japao')

In [19]:
data.company_location.isnull().sum()

0

Nenhum valor nulo para as localizações das empresas.

In [20]:
# analizando residência do contratado
data.employee_residence.value_counts()

employee_residence
japao             783
india             741
estados unidos    721
alemanha          706
mexico            705
china             674
reino unido       670
Name: count, dtype: int64

In [21]:
data.employee_residence.isnull().sum()

0

In [22]:
# analisando coluna de nível de experiência
data.experience_level.value_counts()

experience_level
SE    1154
EX    1119
EN    1115
MI    1112
Name: count, dtype: int64

Para ficar mais claro os níveis de experiência, vamos renomea-las.

In [23]:
# renomeando categorias de experência
data.experience_level = data.experience_level.str.replace('SE', 'senior').str.replace('EX', 'executivo').str.replace('EN', 'junior').str.replace('MI', 'pleno')

In [24]:
data.experience_level.isnull().sum()

500

In [69]:
data.head(5)

Unnamed: 0,work_year,job_title,job_category,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2022,machine_learning_engineer,Analysis,136086,estados unidos,pleno,CT,Remote,alemanha,L
1,2020,statistician,ML/AI,67982,japao,executivo,FL,Remote,india,M
2,2022,machine_learning_engineer,ML/AI,153309,reino unido,pleno,CT,Hybrid,china,L
3,2022,data_analyst,ML/AI,135242,alemanha,senior,FT,Hybrid,mexico,L
4,2020,statistician,Data Science,35156,reino unido,pleno,FT,In-person,reino unido,S


Há 500 nulos aqui também. O nível de experiência normalmente é definido por diversos fatores, mas aqui nesse projeto iremos utilizar como base a média salarial. Calcularemos a média de salário de cada uma classe, e depois atribuiremos o nível de experiência a partir disso.

In [74]:
data.groupby('experience_level')['salary_in_usd'].mean()

experience_level
executivo    113394.849866
junior       115287.299552
pleno        113389.446043
senior       112980.065858
Name: salary_in_usd, dtype: float64

In [86]:
data_salary_exp = pd.DataFrame({
    'minimo_salarial': round(data.groupby('experience_level')['salary_in_usd'].min(), 2),
    'media_salarial': round(data.groupby('experience_level')['salary_in_usd'].mean(), 2),
    'mediana_salarial': round(data.groupby('experience_level')['salary_in_usd'].median(), 2),
    'maximo_salarial' : round(data.groupby('experience_level')['salary_in_usd'].max(), 2)
})

In [87]:
data_salary_exp

Unnamed: 0_level_0,minimo_salarial,media_salarial,mediana_salarial,maximo_salarial
experience_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
executivo,30339,113394.85,110987.0,199734
junior,30056,115287.3,115733.0,199985
pleno,30290,113389.45,112923.5,199964
senior,30016,112980.07,113463.0,199894


Aparentemente a faixa salarial não diz muito sobre  o nivel de experiência da pessoa, pois os valores mínimos, médio e máximo são muito próximos. Possivelmente isso deva variar de empresa para empresa.

Por enquanto deixaremos esta coluna de ladom, iremos trabalhar nas outras, após isso criaremos um modelo de Machine Learning para tentar predizer esses valores nulos da coluna de nível de experiência.

# voltar aqui!!

In [90]:
# analisando coluna employment_type
data.employment_type.value_counts()

employment_type
meio_periodo      1268
freelancer        1263
tempo_integral    1245
temporario        1224
Name: count, dtype: int64

Primeiramente para deixar mais fácil o entendimento de cada categoria, vamos traduzi-las com seu significado sem ser por sigla.

In [89]:
data.employment_type = data.employment_type.str.replace('PT', 'meio_periodo').str.replace('FL', 'freelancer').str.replace('FT', 'tempo_integral').str.replace('CT', 'temporario')

In [91]:
data.employment_type.isnull().sum()

0

Não há valores nulos no tipo de emprego.

In [95]:
# analisando coluna de modelo de trabalho
data.work_setting.value_counts()

work_setting
hibrido       1721
presencial    1658
remoto        1621
Name: count, dtype: int64

In [94]:
# traduzindo valores
data.work_setting = data.work_setting.str.replace('Hybrid', 'hibrido').str.replace('In-person', 'presencial').str.replace('Remote', 'remoto')

In [96]:
data.work_setting.isnull().sum()

0

Esta coluna também não apresenta valores nulos.

In [97]:
# analisando localização da empresa
data.company_location.value_counts()

company_location
reino unido       789
alemanha          726
mexico            713
india             708
china             697
estados unidos    684
japao             683
Name: count, dtype: int64

In [98]:
data.company_location.isnull().sum()

0

In [101]:
# analizando tamanho da empresa
data.company_size.value_counts()

company_size
pequena    1519
media      1517
grande     1464
Name: count, dtype: int64

In [100]:
# traduzindo categorias
data.company_size = data.company_size.str.replace('S', 'pequena').str.replace('M', 'media').str.replace('L', 'grande')

In [102]:
data.company_size.isnull().sum()

500

Uma boa medida para supor o tamanho de cada empresa para preencher esses valores nulos, seria olhar para o país onde a empresa está localizada. Iremos olhar como é a distribuição do tamanho das empresas por cada país.