# Relatório Desafio P&D (Machine Learning) Intelivix

#### Aplicante: Mitterrand Vieira Monteiro

## 1. Introdução

Neste relatório estão expressas as etapas para resolver o desafio proposto. Os tópicos iniciais deste relatório apresentam as tentativas para a resolução do problema e no final é mostrado o código.

## 2. Preparação dos dados

Após carregada a base de dados, foi verificado se havia algum valor nulo ou incoerente no dados. Felizmente, todos os valores estavam de acordo e essa checagem se fez desnecessária.
Foi decidido, também, remover as colunas de Identificação (Id e IdSentença) visto que estas não seriam utilizadas nos algoritmos de classificação.

## 3. Feature Engineering

Count Vectorize foi escolhida como Feature Engineering por apresentar menor complexidade de código.

## 4. Algoritmos de Classificação

Três Algoritmos de Classificação foram escolhidos: Naive Bayes, Linear Classifier e Random Forest. As escolhas partiram da minha zona de conforto e da tentativa de mesclar algoritmos com diferentes niveis de dificuldade de implementação.

# Código Desafio P&D (Machine Learning) Intelivix

In [26]:
import pandas, numpy, string
from sklearn import metrics, model_selection, preprocessing, naive_bayes, linear_model, ensemble
from sklearn.feature_extraction.text import CountVectorizer

In [27]:
#funcao que determina a proximidade entre o valor obtido pelo algoritmo(previsao) e o valor verdadeiro
def acuracia(algoritmo, vetor_treino, classe, vetor_validacao):
    algoritmo.fit(vetor_treino, classe)
    previsao = algoritmo.predict(vetor_validacao)
    return metrics.accuracy_score(previsao, valid_y)

In [28]:
#carrega os dados
dados = pandas.read_csv("C:/Users/Casa/Desktop/dados/train.tsv", sep='\t')

#exclui colunas desnecessarias para o algoritmo de classificacao
dados.drop(["Id"], 1, inplace=True)
dados.drop(["IdSentenca"], 1, inplace=True)

#preparacao dos dados de treino e validacao
train_X, valid_X, train_y, valid_y = model_selection.train_test_split(dados['Texto'], dados['Sentimento'])
encoder = preprocessing.LabelEncoder()
train_y = encoder.fit_transform(train_y)
valid_y = encoder.fit_transform(valid_y)

In [29]:
#Usando Count Vectorize como a Feature Engineering
aux = CountVectorizer(analyzer='word', token_pattern=r'\w{1,}')
aux.fit(dados['Texto'])
X_train_count = aux.transform(train_X)
X_valid_count = aux.transform(valid_X)

In [30]:
#Naive Bayes
print ("Acuracia Naive Bayes: ", acuracia(naive_bayes.MultinomialNB(), X_train_count, train_y, X_valid_count))

Acuracia Naive Bayes:  0.6076893502499039


In [31]:
#Linear Classifier
print ("Acuracia Linear Classifier: ", acuracia(linear_model.LogisticRegression(solver='newton-cg', max_iter=100, multi_class='auto'), X_train_count, train_y, X_valid_count))

Acuracia Linear Classifier:  0.6499807766243753


In [32]:
#Random Forest
print ("Acuracia Random Forest: ", acuracia(ensemble.RandomForestClassifier(n_estimators=10, random_state=0), X_train_count, train_y, X_valid_count))

Acuracia Random Forest:  0.6196591054722542


In [33]:
print("Tempo de execucao Naive Bayes:")
%timeit acuracia(naive_bayes.MultinomialNB(), X_train_count, train_y, X_valid_count)

Tempo de execucao Naive Bayes:
61.8 ms ± 889 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [34]:
print("Tempo de execucao Linear Classifier:")
%timeit acuracia(linear_model.LogisticRegression(solver='newton-cg', max_iter=100, multi_class='auto'), X_train_count, train_y, X_valid_count)

Tempo de execucao Linear Classifier:
58.1 s ± 1.68 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [35]:
print("Tempo de execucao Random Forest:")
%timeit acuracia(ensemble.RandomForestClassifier(n_estimators=10, random_state=0), X_train_count, train_y, X_valid_count)

Tempo de execucao Random Forest:
2min 58s ± 15.7 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


## 5. Conclusão

O melhor algoritmo para a solução do problema apresentado seria o Linear Classifier.
Linear Classifier obteve a maior acurácia entre os três algoritmos de classificação e o segundo menor tempo de computação.