In [2]:
# importando uma das principais bibliotecas de tratamento de texto
import pandas as pd
from textblob import TextBlob
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk

# importando o modelo que vamos usar para classificar a frase
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('brown')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/thuurzz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/thuurzz/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/thuurzz/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package brown to /Users/thuurzz/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/thuurzz/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

# Coleta da dados

In [7]:
frase = 'Gostei da aplicação, mas não muito. Tive vários problemas.'
exemplo = TextBlob(frase)
exemplo = exemplo.translate(from_lang='pt', to='en')

# Pré processamento

In [11]:
exemplo.sentiment

Sentiment(polarity=0.16666666666666666, subjectivity=0.3333333333333333)

In [14]:
text_tokens = word_tokenize(str(frase))
tokens_sem_sw = [word for word in text_tokens if word not in stopwords.words('portuguese')]
print(tokens_sem_sw)

['Gostei', 'aplicação', ',', '.', 'Tive', 'vários', 'problemas', '.']


In [15]:
filtered_sentence = (" ").join(tokens_sem_sw)
print(filtered_sentence)

Gostei aplicação , . Tive vários problemas .


In [16]:
exemplo = TextBlob(filtered_sentence)
exemplo = exemplo.translate(from_lang='pt', to='en')
exemplo

TextBlob("I liked application ,. I had several problems.")

In [18]:
polaridade = exemplo.sentiment[0]
subjetividade = exemplo.sentiment[1]
df = pd.DataFrame([[frase, polaridade, subjetividade]], columns=[
                  'frase', 'polaridade', 'subjetividade'])
df

Unnamed: 0,frase,polaridade,subjetividade
0,"Gostei da aplicação, mas não muito. Tive vário...",0.3,0.4


# Pipeline

In [19]:
def traduz(frase):
    exemplo = TextBlob(frase)
    exemplo = exemplo.translate(from_lang='pt', to='en')
    return exemplo

In [20]:
def trata(frase):
    text_tokens = word_tokenize(str(frase))
    tokens_without_sw = [
        word for word in text_tokens if not word in stopwords.words('portuguese')]
    filtered_sentence = (" ").join(tokens_without_sw)
    return filtered_sentence

In [21]:
def previsao(frase):
    exemplo = TextBlob(frase)
    polaridade = exemplo.sentiment[0]
    subjetividade = exemplo.sentiment[1]
    df = pd.DataFrame([[frase, polaridade, subjetividade]], columns=[
                      'frase', 'polaridade', 'subjetividade'])
    df['sentimento'] = 'neutro'
    df.loc[df.polaridade < -0.25, 'sentimento'] = 'negativo'
    df.loc[df.polaridade > 0.25, 'sentimento'] = 'positivo'
    return df.to_json('dados.json', orient='columns'), polaridade, subjetividade

In [23]:
frase = input('Digite algo')
string = traduz(frase)
string = trata(string)
previsao(string)

(None, -0.9099999999999998, 0.8666666666666667)