# Prevendo o salário de vagas de emprego

#### Este projeto visa criar um modelo de machine learning com a finalizade de realizar previsões sobre o salário de determinada vaga baseando-se no seu conteúdo.

<img src="job-offers.png" width = 500>

#### O projeto funcionará em 3 ciclos:
- O 1º será um baseline rápido, não se preocupando com limpeza de dados, tunagem de hiperparâmetros e nem detalhes. Será focado em simplesmente criar o primeiro modelo.
- O 2º aprofundaremos um pouco mais nos atributos do dataset, realizaremos a limpeza e demais etapas de manipulação, incrementaremos algumas visualizações e testaremos mais 1 modelo.
- O 3º e último será a junção dos dois últimos ciclos adicionando apenas algumas etapas extras de modelagem e um modelo diferente para termos o veredito.


Ao final, na apresentação de slides, será mostrado a melhor solução, como implantá-la e os ganhos que a empresa terá a adotando.

---

# Ciclo 1

### Apenas recapitulando: neste ciclo iremos criar nosso primeiro algoritmo de machine learning, sem se aprofundar imensamente nos detalhes
Para acelerar essa primeira fase, usaremos a biblioteca Bamboolib, que nos dá a possibilidade fazer toda a manipulação de dados de forma visual.<br>
O benefício de negócio em se usar esse tipo de biblioteca, é que ganhamos tempo no desenvolvimento do protótipo e conseguimos estabelecer uma direção inicial.<br><br>
Obs: a bamboolib não aparece no código final, ela cria um objeto html durante a execução dos códigos e apenas mostra a saída dos códigos usados.

In [1]:
# antes de executar o projeto, por favor, instale as seguintes bibliotecas.
# é só rodar esta linha de código


# !pip install pycaret
# !pip install pip install scikit-learn
# !pip install pandas
# !pip install
# !pip install
# !pip install
# !pip install
# !pip install
# !pip install

In [19]:
# importando as bibliotecas para o ciclo 1

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
import bamboolib as bam

In [20]:
# carregando os dados para a variável df e visualizando as 5 primeiras linhas

df = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\datasets\Train_rev1.csv')

In [21]:
# dropando as colunas que não iremos usar no nosso dataset

df = df.drop(columns=['ContractType', 'LocationRaw', 'SalaryRaw'])

In [22]:
# alterando o tipo de dado OBJECT para STRING

for column_name in ['Title', 'FullDescription', 'LocationNormalized', 'ContractTime', 'Company', 'Category', 'SourceName']:
    df[column_name] = df[column_name].astype('string')

In [23]:
# preenchendo os valores nulos com a moda

df[['ContractTime']] = df[['ContractTime']].fillna(df[['ContractTime']].mode().iloc[0])

In [24]:
# excluindo os registros que contêm valores nulos nas colunas TITLE, SOURCENAME e COMPANY
# levando em consideração que igual ou maior que 20% dos registros estamos considerando como vital, menos do que isso é uma zona segura para se trabalhar pois não perderemos tantos dados

df = df.dropna(subset=['Title', 'SourceName', 'Company'])

In [25]:
# dataset pre processado

df.to_csv('job_salary_clean_dataset.csv', index = False)

In [26]:
# dividindo a variável alvo do restante das features

X = df.drop('SalaryNormalized', axis = 1)
y = df['SalaryNormalized']

In [16]:
# dividindo os dados em treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

In [17]:
# verificando a forma dos dados

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(148635, 8)
(63702, 8)
(148635,)
(63702,)


In [18]:
# transformando as variáveis categóricas em númericas
# fazemos qualquer tipo de pré-processamento depois de dividir os dados em treino e teste, para não ocorrer vazamento de dados
# label encoder para a variável X_train

X_train['Title'] = X_train['Title'].factorize(sort=False, na_sentinel=-1)[0]
X_train['FullDescription'] = X_train['FullDescription'].factorize(sort=False, na_sentinel=-1)[0]
X_train['LocationNormalized'] = X_train['LocationNormalized'].factorize(sort=False, na_sentinel=-1)[0]
X_train['ContractTime'] = X_train['ContractTime'].factorize(sort=False, na_sentinel=-1)[0]
X_train['Company'] = X_train['Company'].factorize(sort=False, na_sentinel=-1)[0]
X_train['Category'] = X_train['Category'].factorize(sort=False, na_sentinel=-1)[0]
X_train['SourceName'] = X_train['SourceName'].factorize(sort=False, na_sentinel=-1)[0]

In [19]:
# label encoder para a variável X_test

X_test['Title'] = X_test['Title'].factorize(sort=False, na_sentinel=-1)[0]
X_test['FullDescription'] = X_test['FullDescription'].factorize(sort=False, na_sentinel=-1)[0]
X_test['LocationNormalized'] = X_test['LocationNormalized'].factorize(sort=False, na_sentinel=-1)[0]
X_test['ContractTime'] = X_test['ContractTime'].factorize(sort=False, na_sentinel=-1)[0]
X_test['Company'] = X_test['Company'].factorize(sort=False, na_sentinel=-1)[0]
X_test['Category'] = X_test['Category'].factorize(sort=False, na_sentinel=-1)[0]
X_test['SourceName'] = X_test['SourceName'].factorize(sort=False, na_sentinel=-1)[0]

In [20]:
# salvando todo o pre-processamento separado para os próximos ciclos

X_test.to_csv('X_test.csv', index = False)
X_train.to_csv('X_train.csv', index = False)
y_train.to_csv('y_train.csv', index = False)
y_test.to_csv('y_test.csv', index = False)

In [21]:
# criação do nosso modelo de regressão baseline
# usaremos o modelo Linear Regression, que é mais simples

modelo = LinearRegression()

In [22]:
# treinando o modelo

modelo.fit(X_train, y_train)

LinearRegression()

In [23]:
# fazendo as predições nos dados de teste

y_pred = modelo.predict(X_test)

In [24]:
# métrica de avaliação: Mean Absolute Error

print('Mean Absolute Error = {}'.format(mean_absolute_error(y_test, y_pred)))

Mean Absolute Error = 12503.784409016771


In [25]:
# métrica de avaliação: Percentual Mean Absolute Error

print('Percentual Mean Absolute Error = {}'.format(mean_absolute_percentage_error(y_test, y_pred)))

Percentual Mean Absolute Error = 0.44303385535819884


Podemos notar que nosso modelo baseline está com um MAE de 13045 (que representa uma taxa de erro de USD 13045 para mais ou para menos). Nosso MAPE está com 48%, ou seja, nosso modelo está tendo uma taxa de erro de 48%, o que é extremamente ruim, visando que estamos trabalhando com valores de salários. É basicamente errar quase metade do salário para mais ou para menos!

# Ciclo 2

## Agora iremos começar o ciclo 2, onde iremos nos aprofundar um pouco mais na análise exploratória de dados para identificar as variáveis que mais se correlacionam com nossa variável alvo e também testar um modelo de ml diferente.
Iremos reusar nossa base crua e refazer alguns passos

In [53]:
# importando as bibliotecas para o ciclo 2

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.model_selection import RandomizedSearchCV
import bamboolib as bam

In [44]:
# lendo os dados já pré-processados do ciclo 1

X_train = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\X_train.csv')
X_test = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\X_test.csv')
y_train = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\y_train.csv')
y_test = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\y_test.csv')

In [42]:
rfr = RandomForestRegressor(max_depth = 2)

In [45]:
rfr.fit(X_train, y_train)

RandomForestRegressor(max_depth=2)

In [46]:
y_pred = rfr.predict(X_test)

In [47]:
# métrica de avaliação: Mean Absolute Error

print('Mean Absolute Error = {}'.format(mean_absolute_error(y_test, y_pred)))

Mean Absolute Error = 13274.411021844344


In [48]:
# métrica de avaliação: Percentual Mean Absolute Error

print('Percentual Mean Absolute Error = {}'.format(mean_absolute_percentage_error(y_test, y_pred)))

Percentual Mean Absolute Error = 0.4714934164341373


In [49]:
# deletando algumas features para testar o modelo

X_train = X_train[['Id', 'Title', 'ContractTime', 'Category']]
X_test = X_test[['Id', 'Title', 'ContractTime', 'Category']]

In [50]:
# treinando o modelo novamente

rfr.fit(X_train, y_train)

RandomForestRegressor(max_depth=2)

In [51]:
y_pred2 = rfr.predict(X_test)

In [52]:
# métrica de avaliação: Mean Absolute Error
# o resultado foi muito similar ao modelo anterior

print('Mean Absolute Error = {}'.format(mean_absolute_error(y_test, y_pred2)))

Mean Absolute Error = 13363.920751526723


In [55]:
# métrica de avaliação: Percentual Mean Absolute Error

print('Percentual Mean Absolute Error = {}'.format(mean_absolute_percentage_error(y_test, y_pred2)))

Percentual Mean Absolute Error = 0.46606694021872147


O modelo continua performando mal, mesmo fazendo alguns ajustes. Isso deve-se ao fato de estarmos tratando de informações valiosas que estão contidas em textos, o que não levamos em consideração quando construímos nossa solução-base no ciclo 1 e 2.<br>
Agora no ciclo 3, iremos realizar algumas etapas super importantes para esse tipo de problema

# Ciclo 3

#### Pré-processamento de textos

In [41]:
# importando nossas bibliotecas e base de dados crua novamente

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# pacote importante do nltk, baixe somente 1 vez
# nltk.download()

In [31]:
df = pd.read_csv(r'C:\Users\jroque\Documents\Python Scripts\jupyter-notebook\job-salary-prediction\datasets\Train_rev1.csv')
df.head()

Unnamed: 0,Id,Title,FullDescription,LocationRaw,LocationNormalized,ContractType,ContractTime,Company,Category,SalaryRaw,SalaryNormalized,SourceName
0,12612628,Engineering Systems Analyst,Engineering Systems Analyst Dorking Surrey Sal...,"Dorking, Surrey, Surrey",Dorking,,permanent,Gregory Martin International,Engineering Jobs,20000 - 30000/annum 20-30K,25000,cv-library.co.uk
1,12612830,Stress Engineer Glasgow,Stress Engineer Glasgow Salary **** to **** We...,"Glasgow, Scotland, Scotland",Glasgow,,permanent,Gregory Martin International,Engineering Jobs,25000 - 35000/annum 25-35K,30000,cv-library.co.uk
2,12612844,Modelling and simulation analyst,Mathematical Modeller / Simulation Analyst / O...,"Hampshire, South East, South East",Hampshire,,permanent,Gregory Martin International,Engineering Jobs,20000 - 40000/annum 20-40K,30000,cv-library.co.uk
3,12613049,Engineering Systems Analyst / Mathematical Mod...,Engineering Systems Analyst / Mathematical Mod...,"Surrey, South East, South East",Surrey,,permanent,Gregory Martin International,Engineering Jobs,25000 - 30000/annum 25K-30K negotiable,27500,cv-library.co.uk
4,12613647,"Pioneer, Miser Engineering Systems Analyst","Pioneer, Miser Engineering Systems Analyst Do...","Surrey, South East, South East",Surrey,,permanent,Gregory Martin International,Engineering Jobs,20000 - 30000/annum 20-30K,25000,cv-library.co.uk


In [32]:
# para prosseguir com a análise e criação do nosso modelo, iremos prosseguir com alguns colunas específicas:
# Title, LocationNormalized, ContractTime, Category, SalaryNormalized e SourceName
# essas colunas fazem sentido pois são a essência da vaga, ou seja, as informações mais relevantes

df = df[['Title', 'LocationNormalized', 'ContractTime', 'Category', 'SalaryNormalized', 'SourceName']]
df.head()

Unnamed: 0,Title,LocationNormalized,ContractTime,Category,SalaryNormalized,SourceName
0,Engineering Systems Analyst,Dorking,permanent,Engineering Jobs,25000,cv-library.co.uk
1,Stress Engineer Glasgow,Glasgow,permanent,Engineering Jobs,30000,cv-library.co.uk
2,Modelling and simulation analyst,Hampshire,permanent,Engineering Jobs,30000,cv-library.co.uk
3,Engineering Systems Analyst / Mathematical Mod...,Surrey,permanent,Engineering Jobs,27500,cv-library.co.uk
4,"Pioneer, Miser Engineering Systems Analyst",Surrey,permanent,Engineering Jobs,25000,cv-library.co.uk


In [33]:
# procurando e corrigindo valores nulos
# a coluna ContractTime possui 26% dos valores nulos

print(df['ContractTime'].isnull().sum() * 100 / len(df['ContractTime']))
print(df.isnull().sum())

26.10839652242123
Title                     1
LocationNormalized        0
ContractTime          63905
Category                  0
SalaryNormalized          0
SourceName                1
dtype: int64


In [34]:
df.dropna(inplace = True)

In [35]:
df.ContractTime.unique()

array(['permanent', 'contract'], dtype=object)

In [36]:
# agora temos no nosso dataset 180863 linhas sem dados faltantes.
# apesar de termos eliminado um número absoluto considerado alto, equivalia apenas a 26% da nossa base
# isso é um trade of, pois existem outros métodos para lidar com valores faltantes

df.shape

(180863, 6)

In [37]:
# tokenizando nossas colunas de multiline text input

df['Title'] = df['Title'].apply(word_tokenize)

In [38]:
df['Title'].sample(20)

190549                               [Lettings, Negotiator]
60913                            [Operations, Team, Leader]
150442        [Telecommunications, Installations, Engineer]
216971                                       [Sales, Agent]
3057                      [Technical, Propsals, Supervisor]
39837     [PHP, Web, Developer, PHP/MySQL/HTML, Bristol,...
39244     [Web, Developer, eCommerce, /, PHP, /, Linux, ...
159951                                       [Staff, Nurse]
199693                            [Area, Cleaning, Manager]
50882          [Treasury, Consultant, /, Business, Analyst]
28325                        [Web, Developer, ASPNet, ,, C]
18822       [Playtime, Leader, (, Lunchtime, Supervisor, )]
231848                    [Senior, Marketing, Analyst, SAS]
133782                [Graduate, Designer, Graphic, Design]
173116    [Maintenance, Engineer, Fishers, Services, Ltd...
28507      [YEAR, *, *, *, *, PRIMARY, TEACHER, IN, NEWHAM]
149219                 [Design, Engineer

In [42]:
vectorizer = CountVectorizer(min_df = 0)

In [44]:
vect_text = vectorizer.fit_transform(df['Title'])

AttributeError: 'list' object has no attribute 'lower'

# Conclusão