### Pós-graduação em Ciência de Dados e Machine Learning

#### Módulo 3 - Data Mining e Machine Learning

#### Disciplina: **Introdução a Aprendizagem De Máquina**

#### Turma: **A**

#### Projeto Final para disciplina Introdução a Aprendizagem De Máquina

<BR>
    
#### Nome do Integrante: Matheus Rodrigues Fernandes Arcelino    RA: 

## Descrição do Problema

*Faker JobPost* é um dataset obtido em: https://www.kaggle.com/shivamb/real-or-fake-fake-jobposting-prediction.

A presente base de dados, contém informações a respeito de anuncios de empregos considerados como *faker* ou *não faker*.

O processo de buscar por um novo emprego ou adentrar no mercado de trabalho atualmente não se encontra fácil. Seja pelo fato do mercado de trabalho concorrente, requisitos de vagas que busca profissional experiente e qualificados uma das mais diversas variáveis presentes na vida de ser humano. Muitos golpes envolvem anúncios de emprego falsos com o objetivo de roubar informações pessoais tem sido uma realidade. O presente trabalho tem como objeto realizar um estudo de caso de como soluções computacionais pode nos ajudar a identificar anuncios de empregos falsos.

**Pergunta de pesquisa:** Com técnicas de aprendizado de máquina e algoritmos de classificação podem ajudar na deteção de anúncios de emprego falso ?

# Algoritmo

Qual o motivo da escolha do algoritmo para resolver este problema ?

Para a resolução do problema foi aplicado a técnica de aprendizado de máquina supervisionado, ou seja o dados forma previamente categorizados por um ser humano.

A abordagem escolhida foi de classificação.

Algoritmos escolhidos formam:

 - Naive Bayes
 - Support Vector Machine (SVM)
 - Decision Tree
 - Random Forest
 - Gradient boosting
 - K Nearest Neighbor (KNN)

No que diz respeito a escolha dos algoritmos, a presente pesquisa tem como objetivo verificar o nível de eficiência e performance dos mesmos.



## Instalação de bibliotecas auxiliares

In [None]:
# Executar esse célula caso não tenha as bibliotecas xgboost e wordcloud instalado
!pip install xgboost
!pip install wordcloud

## Importação da bibliotecas necessárias para EDA e técnicas de Machine Learning

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings as warn
import nltk
import dask
import joblib
import re
from nltk import word_tokenize
from unicodedata import normalize
from dask.distributed import Client
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.naive_bayes import BernoulliNB, ComplementNB, MultinomialNB
from xgboost import XGBClassifier
from wordcloud import WordCloud,STOPWORDS

nltk.download('punkt')
warn.filterwarnings('ignore')
%matplotlib inline
sns.set(color_codes=True)

## Leitura e carregamento dos dados em Dataframe

In [None]:
fake_job = pd.read_csv('data/fake_job_postings.csv')

In [None]:
# Exibir as 5 primeiras linhas do Dataframe
fake_job.head(5)

In [None]:
# Exibir as 5 últimas linhas do Dataframe
fake_job.tail(5)

## Verificando tipos de dados

O processo de verificação dos tipos de dados tem como objetivo realizar uma análise prévia de como os dados estão estruturados e se é necessário fazer alguma transformação. 

In [None]:
fake_job.dtypes

## Removendo colunas irrelevantes 

A etapa de remoção de colunas tem como objetivo remover colunas que para a presente análise não serão utilizadas.

In [None]:
fake_job = fake_job.drop(['job_id','title',
                          'location','department',
                          'salary_range','company_profile',
                          'requirements','benefits',
                          'telecommuting','has_company_logo',
                          'has_questions'],axis=1)
fake_job.head()

## Removendo linhas duplicadas

In [None]:
fake_job[fake_job.duplicated()]

In [None]:
fake_job = fake_job.drop_duplicates()
fake_job.head()

## Eliminando os valores ausentes ou nulos.

In [None]:
fake_job.isnull().sum()

In [None]:
fake_job = fake_job.dropna()
fake_job.head()

# Análise exploratória de dados (EDA)

## Entendendo os dados

In [None]:
fake_job.info()

In [None]:
fake_job.describe()

## Plotagem de gráficos em diferentes features

### Gráfico de barra referente a coluna de classificação fraudulento (fraudulent)

In [None]:
pd.DataFrame(data=fake_job.fraudulent.value_counts())

In [None]:
plt.figure(figsize=(15, 5))
sns.countplot(data=fake_job,x='fraudulent')

### Gráfico de barra refente a coluna tipo de emprego

In [None]:
plt.figure(figsize=(15, 5))
sns.countplot(data=fake_job,x='employment_type')

In [None]:
# Funções axiliar para a plotagem de gráficos
def grafico_pizza(df, atributo):
    serie = df[atributo]
    value_counts = serie.value_counts()
    total = serie.count()
    frequencia = (value_counts/total) *100
    labels = serie.unique()
    colors = ['#A43820', '#FFF8C6', '#99C68E', '#4DBCD3']
    plt.figure(figsize=(15, 8))
    plt.pie(frequencia, labels=labels ,  autopct='%1.1f%%', colors=colors,
            shadow=True)
    
def grafico_barra_horizontal(df, y_value, order_value):
    plt.figure(figsize=(15, 8))
    sns.countplot(data=df,y=y_value,order=order_value)
    
    
def grafico_barra_vertical(df, atributo, length):
    serie = fake_job.filter([atributo],axis=1)
    serie['count'] = 1
    serie = serie.groupby(atributo,as_index=False, sort=False).sum()
    serie = serie.sort_values("count",ascending=False)
    serie = serie.head(length)
    plt.figure(figsize=(15,10))
    sns.barplot(data=serie,x=atributo,y='count')

### Gráfico de pizza referente ao percentual de experiência exigida

In [None]:
grafico_pizza(df=fake_job,atributo='required_experience')

### Gráfico de barras requisitos Educacionais

In [None]:
grafico_barra_vertical(df=fake_job,atributo='required_education', length=5)

### Gráfico de barras Tipo de Indústria

In [None]:
grafico_barra_horizontal(df=fake_job,y_value='industry',order_value=fake_job.industry.value_counts().iloc[:20].index)

### Gráfico de barras Funções

In [None]:
grafico_barra_vertical(df=fake_job, atributo='function',length=10)

### Gráfico para verificar as palavras que mais se repetem na coluna descrição (description)

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100,width=600, height=400,).generate(' '.join(fake_job.description))
plt.figure(figsize=(15,5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

## Tratamento e transformação das features

In [None]:
# Expressão regular para remover caracteres especiais
# Remover qualquer tipo de caracter que não seja letra ou numero
def remover_caracter_especial(texto):
    return re.sub('[^a-zA-Z0-9 \\\]', '', texto)

In [None]:
# Normalização e tratamento dos dados
fake_job['description'] = fake_job.apply(lambda row :normalize('NFKD', row['description']).encode('ASCII', 'ignore').decode('ASCII'),axis=1)
fake_job['description'] = fake_job['description'].apply(remover_caracter_especial)

In [None]:
stopwords = set(STOPWORDS)
wordcloud = WordCloud(stopwords=stopwords,width=600, height=400, max_font_size=50, max_words=100,background_color="white").generate(' '.join(fake_job.description))
plt.figure(figsize=(15,5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

## Contagem de caracteres de cada coluna

In [None]:
# Está célula cria uma nova coluna contando todos os caracteres presentes no atributo descrição. 
fake_job['size'] = fake_job.apply(lambda row: len(row.description), axis=1)
fake_job.head(5)

## Tokenização

In [None]:
# Cria uma coluna e transforma cada os elementos do texto em token 
fake_job['tokens'] = fake_job.apply(lambda row: nltk.word_tokenize(row['description']), axis=1)
fake_job.head(5)

## Vetorização

In [None]:
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')

## Extração do features

In [None]:
X = vectorizer.fit_transform(fake_job.description)
y = fake_job.fraudulent

## Matriz TF-IDF dos termos

A matriz TF-IDF tem como objetivo indicar a importância de uma palavra dentro de um conjunto de documentos.

In [None]:
todense = X.todense()
feature_names = vectorizer.get_feature_names()
tfidf = pd.DataFrame(todense, columns=feature_names).T
tfidf.head()

# Machine Learning

## Separação dos Dataset em treinamento e teste

In [None]:
X_train, X_test, y_train,y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
def print_classification_report(value_test, pred):
    print(classification_report(value_test, pred))

In [None]:
def print_matrix_confusion(value_test, pred):
    print(confusion_matrix(value_test, pred))

In [None]:
list_acuracy_score = []

## Naive Bayes

Visando encontrar o melhor algoritmo foram testados três implementações do *naive bayes*.

In [None]:
bernoulling = BernoulliNB()
bernoulling.fit(X_train, y_train)
predict = bernoulling.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test,pred=predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

In [None]:
complement_nb = ComplementNB()
complement_nb.fit(X_train, y_train)
predict = complement_nb.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test,pred=predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

In [None]:
multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train, y_train)
predict = multinomial_nb.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

In [None]:
list_acuracy_score
naives = ['BernoulliNB','ComplementNB','MultinomialNB']
y_pos = np.arange(len(naives))
y_val = [ x for x in list_acuracy_score]
plt.bar(y_pos,y_val, align='center', alpha=0.7)
plt.xticks(y_pos, naives)
plt.ylabel('Accuracy Score')
plt.title('Accuracy of Models')
plt.show()

Conforme vimos no gráfico as três implementações do algoritmo *bayes* apresetaram o mesmo resultado.  

**Avaliação dos resultados do modelo:**
 - Acurácia: Ambas as implementações do algoritmo *bayes* apresentaram um resultado ótimo de acurácia 0.96
 - Precisão: Ambas as implementações do algoritmo *bayes* apresentaram como correta para 0 0.97 e para 1 0.00        
 - Recall: Ambas as implementações do algoritmo *bayes* apresentaram como correta para 0: 1.00 e para 1:0.00
 - f1 score: Ambas as implementações do algoritmo *bayes* apresentaram como média harmonica: 0.98

## Support Vector Machine (SVM)

In [None]:
svm = SVC()
svm.fit(X_train, y_train)
predict = svm.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test, pred=predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

**Avaliação dos resultados do modelo:**
 - Acurácia: O algoritmo *svm* apresentou um resultado ótimo de acurácia 0.97
 - Precisão: O algoritmo *svm* apresentou como correta para 0 0.97 e para 1 1.00        
 - Recall:   O algoritmo *svm* apresentou como correta para 0: 1.00 e para 1:0.14
 - f1 score: O algoritmo *svm* apresentou como média harmonica: 0.98 para 0.25

In [None]:
hiperparametros = {'C': [0.1, 1, 10, 100, 1000], 
                   'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                   'kernel': ['rbf']
                  }
print(hiperparametros)

O Algoritmo de *Support Vector Machine (SVM)* apresentou uma acurácia ótima aceitável.
Abaixo temos a implementação do **GridSearchCV** para verificar se encontramos parametros melhores para o SVM.


**AVISO: VAI DEMORAR EXECUTAR ELE**. Para a melhoria de performace, foi implementado o processamento paralelo utilizando a biblioteca `dask`. 

In [None]:
# Execute está célula para executar o grid search normal e tenha muita paciência 
grid = GridSearchCV(SVC(), hiperparametros, refit=True, verbose=3,cv=[(slice(None), slice(None))])
grid.fit(X_train, y_train)

In [None]:
# Execute está célula para executar o grid search utilizando o processamento paralelo tenha paciência 
client = Client()
with joblib.parallel_backend('dask'):
    grid = GridSearchCV(SVC(), hiperparametros, refit=True, verbose=3)
    grid.fit(X_train, y_train)

In [None]:
grid.best_estimator_
predict = grid.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test,pred=predict)

In [None]:
svm = SVC(C=1000, gamma=0.01, kernel='rbf') 
svm.fit(X_train, y_train)
predict = svm.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test,pred=predict)

## Decision Tree

In [None]:
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
predict = decision_tree.predict(X_test)
print_classification_report(value_test=y_test,pred=predict)
print_matrix_confusion(value_test=y_test,pred=predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

**Avaliação dos resultados do modelo:**
 - Acurácia: O algoritmo *decision tree* apresentou um resultado ótimo de acurácia 0.96
 - Precisão: O algoritmo algoritmo *decision tree* apresentou como correta para 0 0.98 e para 1 0.45        
 - Recall:   O algoritmo *decision tree* apresentou como correta para 0: 0.98 e para 1:0.43
 - f1 score: O algoritmo *decision tree* apresentou como média harmonica: 0.98 para 0.44

## Random Forest

In [None]:
random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(X_train, y_train) 
predict = random_forest.predict(X_test)
print_classification_report(y_test, predict)
print_matrix_confusion(y_test, predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

**Avaliação dos resultados do modelo:**
 - Acurácia: O algoritmo *random forest* apresentou um resultado ótimo de acurácia 0.98
 - Precisão: O algoritmo *random forest* apresentou como correta para 0 0.98 e para 1 1.00        
 - Recall:   O algoritmo *random forest* apresentou como correta para 0: 1.00 e para 1:0.30
 - f1 score: O algoritmo *random forest* apresentou como média harmonica: 0.99 para 0.46

## Gradient boosting

In [None]:
gradient = GradientBoostingClassifier()
gradient.fit(X_train, y_train)
predict = gradient.predict(X_test)
print_classification_report(y_test, predict)
print_matrix_confusion(y_test, predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

In [None]:
xgb=XGBClassifier()
xgb.fit(X_train, y_train)
predict = xgb.predict(X_test)
print_classification_report(y_test,predict)
print_matrix_confusion(y_test, predict)
ada_boost = AdaBoostClassifier(n_estimators=100, random_state=0)
ada_boost.fit(X_train, y_train)
predict = ada_boost.predict(X_test)
print_classification_report(y_test, predict)
print_matrix_confusion(y_test, predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

**Avaliação dos resultados do modelo:**
 - Acurácia: O algoritmo *gradient boosting* apresentou um resultado ótimo de acurácia 0.97
 - Precisão: O algoritmo *gradient boosting* apresentou como correta para 0 0.98 e para 1 0.77        
 - Recall:   O algoritmo *gradient boosting* apresentou como correta para 0: 1.00 e para 1:0.29
 - f1 score: O algoritmo *gradient boosting* apresentou como média harmonica: 0.99 para 0.42

## K Nearest Neighbor (KNN)

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
predict = knn.predict(X_test)
print_classification_report(y_test, predict)
print_matrix_confusion(y_test, predict)
list_acuracy_score.append(accuracy_score(y_test, predict))

In [None]:
error_rate = []
for i in range(1,40):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,y_train)
    pred_i = knn.predict(X_test)
    error_rate.append(np.mean(pred_i != y_test))

In [None]:
plt.figure(figsize=(10,6))
plt.plot(range(1,40),error_rate,color='blue', linestyle='dashed', marker='o',
         markerfacecolor='red', markersize=10)
plt.title('Error Rate vs. K Value')
plt.xlabel('K')
plt.ylabel('Error Rate')

**Avaliação dos resultados do modelo:**
 - Acurácia: O algoritmo *knn* apresentou um resultado ótimo de acurácia 0.98
 - Precisão: O algoritmo *knn* apresentou como correta para 0 0.98 e para 1 0.45        
 - Recall:   O algoritmo *knn* apresentou como correta para 0: 0.98 e para 1:0.37
 - f1 score: O algoritmo *knn* apresentou como média harmonica: 0.98 para 0.44

In [None]:
list_acuracy_score
modelo = ['BernoulliNB','ComplementNB','MultinomialNB','SVC',
          'DecisionTreeClassifier','RandomForestClassifier','GradientBoostingClassifier',
          'XGBClassifier','KNeighborsClassifier']
y_pos = np.arange(len(modelo))
y_val = [ x for x in list_acuracy_score]

plt.figure(figsize=(35, 15))
plt.bar(y_pos,y_val, align='center', alpha=0.7)
plt.xticks(y_pos, modelo)
plt.ylabel('Accuracy Score')
plt.title('Accuracy of Models')
plt.show()