# Desafio P&D (Machine Learning) Intelivix

» Analizando arquivo de treino de modelo

» Criando modelos para análise de sentimentos

» Teste de analize de sentimento com Modelo


###### Carrega as bibliotecas

In [None]:
import re
import nltk
import pandas as pd
from nltk.tokenize import TweetTokenizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

###### Carrega arquivo de treino

In [None]:
dataset = pd.read_csv('train.tsv', sep='\t')

###### Analizando arquivo de treino

In [None]:
dataset.info()

###### Lê as 50 primeiras linhas do train.tsv

In [None]:
dataset.Texto.head(50)

###### Conta a quantidade de sentenças do train.tsv por sentimento

In [None]:
dataset[dataset.Sentimento==0].count()

In [None]:
dataset[dataset.Sentimento==1].count()

In [None]:
dataset[dataset.Sentimento==2].count()

In [None]:
dataset[dataset.Sentimento==3].count()

In [None]:
dataset[dataset.Sentimento==4].count()

###### Plota um gráfico com a quantidade de sentenças do train.tsv por sentimento

In [None]:
%matplotlib notebook
dataset.Sentimento.value_counts().plot(kind='bar')

## Filtrando sentenças

###### Teste do Tokenizer
(foi escolhido o "tweet_tokenize" por se tratarem de mensagens informais na web)

In [None]:
tweet_tokenize = TweetTokenizer()
tweet_tokenize.tokenize('Nilson Santos :)')

###### Exclui linhas duplicadas

In [None]:
dataset.drop_duplicates(['Texto'], inplace=True)

In [None]:
dataset.Texto.count()

###### Cria variáveis somente com colunas relevante

In [None]:
tx = dataset['Texto']
st = dataset['Sentimento']

###### Baixando base de dados

In [None]:
nltk.download('stopwords')
nltk.download('rslp')

###### Aplica o pre-processamento nos dados

In [None]:
def Preprocessing(instancia):
    stemmer = nltk.stem.RSLPStemmer()
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','')
    return (" ".join(palavras))

# Aplica a função em todos os dados:
tx = [Preprocessing(i) for i in tx]

## Criando o modelo

###### Instancia o objeto com tokenizer

In [None]:
vectorizer = CountVectorizer(analyzer="word", tokenizer=tweet_tokenize.tokenize)

###### Aplica o vetorizador nos dados de texto

Transforma os dados de teste em vetores de palavras

In [None]:
freq_tx = vectorizer.fit_transform(tx)
type(freq_tx)

Treina o modelo

In [None]:
modelo = MultinomialNB()
modelo.fit(freq_tx,st)

__________________________________________________________________

## Testando o modelo

In [None]:
sentencas = ["Horrible",
             "There is too much to be good",
             "I didn't watched it yet",
             "I loved this movie",
             "Amazing, wonderful!"]

###### Transforma as senteças em vetores

In [None]:
freq_testes = vectorizer.transform(sentencas)

###### classificando com o modelo treinado e renomeando os sentimentos

In [None]:
for t, c in zip (sentencas,modelo.predict(freq_testes)):
    if c == 0:
        c = 'negativo'
    elif c == 1:
        c = 'um pouco negativo'
    elif c == 2:
        c = 'neutro'
    elif c == 3:
        c = 'um pouco positivo'
    else:
        c = 'positivo'
    print (t+'   ['+c+']')

###### Probabilidades de cada classe

In [None]:
print (modelo.classes_)
modelo.predict_proba(freq_testes).round(2)

## Classificando o dados do arquivo "test.tsv"

###### Carrega arquivo de teste

In [None]:
test = pd.read_csv('test.tsv', sep='\t')

###### Cria variável somente com coluna relevante

In [None]:
test = test['Texto']

###### Transforma as senteças em vetores

In [None]:
freq_test = vectorizer.transform(test)

###### Classificando com o modelo treinado e renomeando os sentimentos

In [None]:
for t, c in zip (test,modelo.predict(freq_test)):
    if c == 0:
        c = 'negativo'
    elif c == 1:
        c = 'um pouco negativo'
    elif c == 2:
        c = 'neutro'
    elif c == 3:
        c = 'um pouco positivo'
    else:
        c = 'positivo'
    print (t+'   ['+c+']')