# Entendimento de Negócio

O mercado de Ciência de Dados está em contante crescimento, é uma área relativamente nova e muitas muito requisitada por qualquer tipo de negócio. Com essa crescente na demanda de funcionários para o cargo, muitas pessoas acabaram migrando para área de dados seduzidos pela sua grante quantidade de benefícios.

Este projeto visa analisar dados e possiveis tendências para vagas de trabalho em Ciência de Dados. Os dados aqui utilizados foram fornecidos pelo Kaggle e contêm campos essenciais para a análise, como cargo, empresa, local da empresa, faixa salarial etc...

**Questões a serem resolvidas:**
- Análise de Tendências: Examinaremos as tendências na demanda por várias habilidades em funções de ciência de dados.
- Análise de Salários: Compararemos faixas salariais para cargos de ciência de dados em empresas e locais.
- Análise de Localização: Identificaremos regiões com alta demanda por profissionais de ciência de dados.
- Análise de Lacuna de Habilidades: Determinaremos as habilidades mais procuradas no setor de ciência de dados.

Para este projeto utilizaremos Python e suas biblitecas para limpeza e transformação dos dados, e o Power BI para visualização dos dados.

____

# Entendimento dos Dados

In [1]:
# importando biliotecas
import os
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')

In [2]:
# importando os dados
data = pd.read_csv(os.getcwd().replace('code', 'data')+'\\raw\\data_science_job.csv')

In [3]:
data

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2022,Machine Learning Engineer in office,Analysis,EUR,186597,136086,US,MI,CT,Remote,DE,L
1,2020,Statistician (Remote),ML/AI,JPY,110630,67982,JP,EX,FL,Remote,IN,M
2,2022,Machine Learning Engineer,ML/AI,INR,61280,153309,UK,MI,CT,Hybrid,CN,L
3,2022,Data Analyst in office,ML/AI,JPY,154130,135242,DE,SE,FT,Hybrid,MX,L
4,2020,Statistician,Data Science,EUR,172312,35156,UK,MI,FT,In-person,UK,S
...,...,...,...,...,...,...,...,...,...,...,...,...
4995,2020,Machine Learning Engineer (Remote),,,179769,179111,UK,,CT,In-person,IN,
4996,2021,Machine Learning Engineer (Remote),,,184642,196373,CN,,FL,Remote,UK,
4997,2022,Machine Learning Engineer,Analysis,GBP,135319,51366,UK,EN,FL,Hybrid,JP,M
4998,2021,Statistician,Data Science,EUR,58037,181817,US,MI,PT,Remote,DE,S


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           5000 non-null   int64 
 1   job_title           5000 non-null   object
 2   job_category        4500 non-null   object
 3   salary_currency     4500 non-null   object
 4   salary              5000 non-null   int64 
 5   salary_in_usd       5000 non-null   int64 
 6   employee_residence  5000 non-null   object
 7   experience_level    4500 non-null   object
 8   employment_type     5000 non-null   object
 9   work_setting        5000 non-null   object
 10  company_location    5000 non-null   object
 11  company_size        4500 non-null   object
dtypes: int64(3), object(9)
memory usage: 468.9+ KB


Podemos notar que há colunas com 500 registros faltando.

In [8]:
# analisando coluna work_year
data.work_year.value_counts()

work_year
2020    1738
2021    1640
2022    1622
Name: count, dtype: int64

Os dados contidos neste dataset são referentes aos anos de 2020 a 2022.

In [9]:
data.work_year.isnull().sum()

0

Não apresenta valores nulos.

In [19]:
# analisando os títulos de trabalhos
data.job_title.value_counts()

job_title
data engineer                  1065
statistician                    994
data scientist                  993
data analyst                    984
machine learning engineer       964
Name: count, dtype: int64

Aqui podemos notar que alguns títulos de repetem, porém identificando se é presencial ou home office. Como já possuímos uma coluna só com os tipos de trabalho, iremos remover estas identificações e agrupar os titulos únicos. 

In [20]:
data.job_title = data.job_title.str.replace('(', '').str.replace(')', '').str.replace('Remote', '').str.replace('in office', '')

In [21]:
data.job_title.isnull().sum()

0

Não há valores nulos.

In [None]:
# analisando categoria dos trabalhos
data.job_category.value_counts()

job_category
Data Science    1173
ML/AI           1151
Analysis        1108
Engineering     1068
Name: count, dtype: int64

In [24]:
data.job_category.isnull().sum()

500

Há 500 dados faltantes nas cetegorias de trabalho, vamos investigar.

In [29]:
data.loc[data.job_category.isnull()]

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
8,2022,data analyst,,,-44388,171043,UK,,FL,In-person,DE,
12,2020,machine learning engineer,,,143057,76456,MX,,FL,In-person,DE,
23,2021,statistician,,,-112757,124951,DE,,FT,Hybrid,JP,
26,2020,data scientist,,,56534,147139,DE,,CT,Hybrid,JP,
29,2022,data engineer,,,-142296,174973,DE,,FL,Hybrid,DE,
...,...,...,...,...,...,...,...,...,...,...,...,...
4923,2020,data scientist,,,174797,45003,IN,,PT,In-person,UK,
4966,2022,statistician,,,-85120,119362,US,,FL,Remote,CN,
4975,2022,machine learning engineer,,,53547,109608,IN,,FT,Hybrid,CN,
4995,2020,machine learning engineer,,,179769,179111,UK,,CT,In-person,IN,


Os dados então faltantes não parecem ser erro no registro, eu acredito que possa ser só a falta de especificação de onde os dados foram tirados. Como não há um time de negócios para eu perguntar se esta este ponto é verdadeiro, irei supor que sim, e para solucionar e não deixar esses valores nulos, irei substituí-los pela moda de cada título de trabalho representado.