#Primeira configuração


## Carregando as bibliotecas iniciais


[Pandas](https://pandas.pydata.org/) é uma biblioteca para trabalhar com bases de dados, permite o manuseio e a análise de maneira simples.
<br />
[Spacy](https://spacy.io/) é utilizada para o pré-processamento do texto para ser inserido em um algoritmo de Inteligencia Artifical (IA).

In [0]:
import pandas as pd
import spacy

## Configurando spacy

Configuração para inglês.

In [0]:
nlp = spacy.load("en")

Configuração para português (a utilizada nesse notebook).

In [0]:
spacy.cli.download("pt")
nlp = spacy.load("pt")


[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/pt

    You can now load the model via spacy.load('pt')



## Carregando a base e dando uma olhada nela

O comando `read_csv()` é utilizado para carregar a base de dados e um objeto do tipo **Dataframe** é retornado.
<br />
Já o comando `head()` é útil para primeira análisa na base pois retorna as 5 primeiras linhas do documento.

In [0]:
tweets_df = pd.read_csv("https://raw.githubusercontent.com/Softex-Recife/hands-on-nlp/master/corpora/balanced_four_class.csv", sep=";", header=None)
tweets_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24
0,Positivo,Banco do Brasil,,Sim,,,,Não se aplica,385823854666318000,False,Thu Oct 03 17:49:09 +0000 2013,web,0,0,Obrigada pela homenagem ao #casamentoigualitar...,,homofobiaNAO,19844,Diga Não à Homofobia,,,,,,
1,Positivo,Banco do Brasil,,,Cuiabá,Mato Grosso,Brasil,Feminino,387229339793645568,,Mon Oct 07 14:54:03 +0000 2013,web,0,0,O #BancoDoBrasil já me deixou uma mensagem de ...,"Namorada do @victorduartee , Acadêmica de Letr...",thaygazziero,753,Thaisa Gazziero,Cuiabá/Brasil,,,,,
2,Positivo,Banco do Brasil,Propaganda,False,São Paulo,São Paulo,Brasil,Não se aplica,390887670710166000,False,Thu Oct 17 17:10:57 +0000 2013,web,0,0,"Bora ser seu próprio chefe, trabalhar com espo...",A sua rádio onde você estiver.,transamericapop,81650,Rádio Transamérica,São Paulo/SP,,,,,
3,Positivo,Banco do Brasil,Banco,True,,,Brasil,Feminino,391239833630175000,False,Fri Oct 18 16:30:19 +0000 2013,web,0,0,HAHAHAHA @BancodoBrasil maravilhoso!!!! http:/...,"repórter, pós-graduada em história antiga da G...",mairagiosa,443,me chama de lois,,,,,,
4,Positivo,Banco do Brasil,Banco,,,,Brasil,Masculino,397148002839585000,False,Sun Nov 03 23:47:17 +0000 2013,web,0,0,Parabens ao @BancodoBrasil #circuitobancodobra...,,pedrobarrossk8,13726,Pedro Barros RTMF,Brasil,,,,,


## Selecionando as colunas

O foco deste notebook é a classificação de texto somente, por isso precisamos selecionar somente as colunas que contém o **texto** e o **sentimento**.
<br />
As colunas são extraídas utilizando o comando `iloc[]` passando os parâmetros ":" e o número correspondente à coluna desejada, um objeto do tipo **Serie** é retornado.
<br />
Com as duas colunas selecionadas, é construído um novo **DataFrame** (`DataFrame({"text": texts, "sentiment": sentiments})`).

In [0]:
sentiments = tweets_df.iloc[:, 0]
texts = tweets_df.iloc[:, 14]
tweets_df = pd.DataFrame({"text": texts, "sentiment": sentiments})
tweets_df.head()

Unnamed: 0,text,sentiment
0,Obrigada pela homenagem ao #casamentoigualitar...,Positivo
1,O #BancoDoBrasil já me deixou uma mensagem de ...,Positivo
2,"Bora ser seu próprio chefe, trabalhar com espo...",Positivo
3,HAHAHAHA @BancodoBrasil maravilhoso!!!! http:/...,Positivo
4,Parabens ao @BancodoBrasil #circuitobancodobra...,Positivo


#Spacy

---

Para demonstrar um pouco do poder do spacy vamos exercutar os seus comandos mais famosos.

##Detectando sentenças

Separamos somente as 5 primeiras frazes contidas na nossa base para demonstração (`tweets_df["text"][:5]`), cada uma dessas frases são apliacadas no spacy e um objeto **Document** é retornado, a separação das sentenças é feita através do atributo **sents** (`doc.sents`).

In [0]:
#frases de exemplo
sentences_example = tweets_df["text"][:5]
for sentence in sentences_example:
  doc = nlp(sentence)
  sentences = [token for token in doc.sents]
  print (sentences)

[Obrigada pela homenagem ao #casamentoigualitario , @BancodoBrasil @BancoDoBrasil7  !!, Vejam aqui:, http://t.co/4hICRrgnrW !, Muito bom!]
[O #BancoDoBrasil já me deixou uma mensagem de parabéns., O 1º.]
[Bora ser seu próprio chefe, trabalhar com esportes e ganhar 20 mil reais?, A #InterU e o @BancoDoBrasil explicam como: http://t.co/ZgbqthSluF]
[HAHAHAHA @BancodoBrasil maravilhoso!!!, !, http://t.co/mscHrnWiA4]
[Parabens ao @BancodoBrasil #circuitobancodobrasil por um evento desse nivel!, Esse banco tem historia no esporte!, http://t.co/GBHjhVCIxu]


## Remoção de Stop Words e Pontuações

Stop Words são palavras consideradas de baixa relevância e normalmente são retiradas no pré-processamento, com a resalva que existem casos em que a remoção dessas palavra pioram o resultado do algoritmo utilizado.
<br />
O cojunto de stopword para português do spacy pode ser encontrado com o comando `spacy.lang.pt.stop_words.STOP_WORDS`

In [0]:
spacy_stopwords = spacy.lang.pt.stop_words.STOP_WORDS
print(f'Number of stop words: {len(spacy_stopwords)}')
print(f'First ten stop words: {list(spacy_stopwords)}')

Number of stop words: 413
First ten stop words: ['atrás', 'foste', 'corrente', 'dar', 'desse', 'muitos', 'vêm', 'tudo', 'que', 'tentar', 'estar', 'fazem', 'seus', 'embora', 'ademais', 'baixo', 'novos', 'este', 'fazeis', 'dois', 'das', 'diante', 'aquilo', 'onze', 'vão', 'certamente', 'porquê', 'qualquer', 'daquela', 'além', 'querem', 'aquele', 'neste', 'apoio', 'próprio', 'tive', 'com', 'vens', 'todos', 'acerca', 'já', 'ali', 'tivestes', 'questão', 'segunda', 'algo', 'dos', 'fui', 'vossa', 'de', 'tanto', 'pois', 'quarta', 'estive', 'números', 'novo', 'pouca', 'geral', 'é', 'fará', 'minha', 'ambas', 'vezes', 'pontos', 'estiveram', 'menos', 'zero', 'último', 'quieta', 'estava', 'sexto', 'disso', 'tanta', 'te', 'sete', 'lhe', 'em', 'não', 'próxima', 'nós', 'oitavo', 'aquela', 'local', 'tentaram', 'demais', 'momento', 'eles', 'segundo', 'isto', 'vos', 'usa', 'contudo', 'doze', 'isso', 'fazia', 'lado', 'estivemos', 'fazer', 'caminho', 'dá', 'veja', 'dentro', 'boa', 'no', 'meu', 'assim', 'min

O objeto **Document** (**Doc**) é composto por uma lista de **Token**'s, para a remoção das stop words e pontuações é verificado em cada **Token** se ele é um dos casos `if not(token.is_stop or token.is_punct)`.

In [0]:
for sentence in sentences_example:
  doc = nlp(sentence)
  new = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct)]
  print(f"Before  : {sentence}")
  print("After   : {}".format(" ".join(new)))

Before  : Obrigada pela homenagem ao #casamentoigualitario , @BancodoBrasil @BancoDoBrasil7  !! Vejam aqui: http://t.co/4hICRrgnrW ! Muito bom!
After   : obrigada homenagem a o casamentoigualitario @bancodobrasil @bancodobrasil7   vejam http://t.co/4hicrrgnrw muito
Before  : O #BancoDoBrasil já me deixou uma mensagem de parabéns. O 1º.
After   : o bancodobrasil deixou mensagem parabéns o 1º.
Before  : Bora ser seu próprio chefe, trabalhar com esportes e ganhar 20 mil reais? A #InterU e o @BancoDoBrasil explicam como: http://t.co/ZgbqthSluF
After   : bora chefe esportes e ganhar 20 reais a interu e o @bancodobrasil explicam http://t.co/zgbqthsluf
Before  : HAHAHAHA @BancodoBrasil maravilhoso!!!! http://t.co/mscHrnWiA4
After   : hahahaha @bancodobrasil maravilhoso http://t.co/mschrnwia4
Before  : Parabens ao @BancodoBrasil #circuitobancodobrasil por um evento desse nivel! Esse banco tem historia no esporte! http://t.co/GBHjhVCIxu
After   : parabens a o @bancodobrasil circuitobancodobrasi

## Radical das palavras (Lemmatization)

Lemmatization é o processo de romover o radical das palvras, mantendo somente a parte "raiz" (talvez raiz não seja uma boa palavra para descrever).

In [0]:
for sentence in sentences_example:
  doc = nlp(sentence)
  new = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct)]
  lemmas = [token.lemma_.lower() for token in nlp(" ".join(new))]
  print(" ".join(lemmas))

obrigar homenagem o o casamentoigualitario @bancodobrasil @bancodobrasil7    ver http://t.co/4hicrrgnrw muito
o bancodobrasil deixar mensagem parabém o 1º.
bora chefe esportes e ganhar 20 real o interu e o @bancodobrasil explicar http://t.co/zgbqthsluf
hahahaha @bancodobrasil maravilhoso http://t.co/mschrnwia4
parabens o o @bancodobrasil circuitobancodobrasil evento d nivel esse banco historiar esporte http://t.co/gbhjhvcixu


## POS Tagging

Representa a indentificação da palavra como (sujeiro, advérbio, verbo, etc).
<br/>
É "retornada" pelo atributo `pos_`de cada **Token**.

In [0]:
for sentence in sentences_example:
  doc = nlp(sentence)
  for token in doc:
    print(token.text, token.pos_)
    

Obrigada VERB
pela DET
homenagem NOUN
a ADP
o DET
# PROPN
casamentoigualitario ADJ
, PUNCT
@BancodoBrasil X
@BancoDoBrasil7 ADJ
  SPACE
! PUNCT
! PUNCT
Vejam VERB
aqui ADV
: PUNCT
http://t.co/4hICRrgnrW ADV
! PUNCT
Muito ADV
bom ADJ
! PUNCT
O DET
# SYM
BancoDoBrasil PROPN
já ADV
me PRON
deixou VERB
uma DET
mensagem NOUN
de ADP
parabéns NOUN
. PUNCT
O DET
1º. ADJ
Bora ADV
ser VERB
seu DET
próprio ADJ
chefe NOUN
, PUNCT
trabalhar VERB
com ADP
esportes NOUN
e CCONJ
ganhar VERB
20 NUM
mil NUM
reais SYM
? PUNCT
A DET
# PROPN
InterU PROPN
e CCONJ
o DET
@BancoDoBrasil NOUN
explicam VERB
como ADP
: PUNCT
http://t.co/ZgbqthSluF NOUN
HAHAHAHA PROPN
@BancodoBrasil NOUN
maravilhoso ADJ
! PUNCT
! PUNCT
! PUNCT
! PUNCT
http://t.co/mscHrnWiA4 PROPN
Parabens NOUN
a ADP
o DET
@BancodoBrasil NOUN
# NOUN
circuitobancodobrasil ADJ
por ADP
um DET
evento NOUN
d ADP
esse DET
nivel ADJ
! PUNCT
Esse DET
banco NOUN
tem AUX
historia NOUN
no PRON
esporte NOUN
! PUNCT
http://t.co/GBHjhVCIxu VERB


## Entidades

É possível identificar entidades presentes no texto com o atributo `label_` do **Token**

In [0]:
for sentence in sentences_example:
  doc = nlp(sentence)
  for entity in doc.ents:
    print(entity.text,entity.label_)

 !! MISC
Vejam PER
BancoDoBrasil LOC
InterU MISC


## Fazendo na prática para os tweets

Agora vamos realizar alguns dos comandos acima.
<br/>
Uma particularidade dos textos (tweets) utilizados neste notebook é a presença de links, o padrão do tweeter é encurtar os links, uma maior explicação encontra-se em: [how-to-tweet-a-link](https://help.twitter.com/en/using-twitter/how-to-tweet-a-link). Por isso foi necessário criar uma função para indentificar os links. A função utiliza [regex](https://www.w3schools.com/python/python_regex.asp) para fazer esse trabalho.

In [0]:
import re

def is_link(text):
   return re.match("^http:\/\/t\.co.*", text)

Agora só retirar links, stop words e pontuações e obter o radical das palavras resultantes.

In [0]:
for full_sentence in tweets_df["text"]:
  print("[Sem alterar] -->", full_sentence)
  doc = nlp(full_sentence)
  no_stop_words = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct or is_link(token.text))]
  no_stop_sentence = " ".join(no_stop_words)
  print("[Sem STOP   ] -->", no_stop_sentence)
  doc = nlp(" ".join(no_stop_words))
  lemmas = [token.lemma_.lower() for token in doc]
  lemma_sentence = " ".join(lemmas)
  print("[LEMMA      ] -->", lemma_sentence)

[Sem alterar] --> Obrigada pela homenagem ao #casamentoigualitario , @BancodoBrasil @BancoDoBrasil7  !! Vejam aqui: http://t.co/4hICRrgnrW ! Muito bom!
[Sem STOP   ] --> obrigada homenagem a o casamentoigualitario @bancodobrasil @bancodobrasil7   vejam muito
[LEMMA      ] --> obrigar homenagem o o casamentoigualitario @bancodobrasil @bancodobrasil7    ver muito
[Sem alterar] --> O #BancoDoBrasil já me deixou uma mensagem de parabéns. O 1º.
[Sem STOP   ] --> o bancodobrasil deixou mensagem parabéns o 1º.
[LEMMA      ] --> o bancodobrasil deixar mensagem parabém o 1º.
[Sem alterar] --> Bora ser seu próprio chefe, trabalhar com esportes e ganhar 20 mil reais? A #InterU e o @BancoDoBrasil explicam como: http://t.co/ZgbqthSluF
[Sem STOP   ] --> bora chefe esportes e ganhar 20 reais a interu e o @bancodobrasil explicam
[LEMMA      ] --> bora chefe esportes e ganhar 20 real o interu e o @bancodobrasil explicar
[Sem alterar] --> HAHAHAHA @BancodoBrasil maravilhoso!!!! http://t.co/mscHrnWiA4
[S

#Aplicando Inteligência Artificial  (IA) com Sklearn

Com o texto pré-processado pelo **Spacy**, agora vamos prepará-lo para inserir em um modelo de **IA**.

##Imports

Como o foco deste notebook não é sobre modelos de **IA** então não faremos uma análise muito profunda nesta parte.
<br/>
Para esta estapa vamos usar a biblioteca **Sklearn**, com ela seremos capazes de gerar o modelo [Bag-of-words](https://en.wikipedia.org/wiki/Bag-of-words_model)  e, a partir dele, aplicaremos os algoritmos de aprendizado. Para avaliar o resultado verificaremos a qualidade do código com a medida de acurácia
e matriz de confusão.

In [0]:
#tweets_df
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import GaussianNB, BernoulliNB
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

##Limpesa do texto

In [0]:
def clear_sentence(sentence):
  doc = nlp(sentence)
  no_stop_words = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct or is_link(token.text))]
  no_stop_sentence = " ".join(no_stop_words)
  doc = nlp(" ".join(no_stop_words))
  lemmas = [token.lemma_.lower() for token in doc]
  lemma_sentence = " ".join(lemmas)
  return lemma_sentence

cleared_sentences = [clear_sentence(sentence) for sentence in tweets_df["text"]]

cleared_sentences[:5]

['obrigar homenagem o o casamentoigualitario @bancodobrasil @bancodobrasil7    ver muito',
 'o bancodobrasil deixar mensagem parabém o 1º.',
 'bora chefe esportes e ganhar 20 real o interu e o @bancodobrasil explicar',
 'hahahaha @bancodobrasil maravilhoso',
 'parabens o o @bancodobrasil circuitobancodobrasil evento d nivel esse banco historiar esporte']

##Inicialização dos modelos e Bag Of Words

O modelo é gerado utilizando o `CountVectorizer` com o comando `fit_transform()` uma matriz esparsa é retornada, mas para inserir nos algoritmos é necessário utilizar o comando `toarray()` para construir a matriz densa que é necessária.

In [0]:

dtree = DecisionTreeClassifier(random_state=1)
rforest = RandomForestClassifier(random_state=1)
gnb = GaussianNB()
bnb = BernoulliNB()
c_vec = CountVectorizer()
kf = KFold(n_splits=4, random_state=1)
kfs = StratifiedKFold(n_splits=4, shuffle=True, random_state=1)

X = c_vec.fit_transform(cleared_sentences)
X = X.toarray()
y = tweets_df["sentiment"]

##Aplicando modelos com KFolds

[KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)

In [0]:
def run_model(model, X_train, X_teste, y_train, y_test):
  model.fit(X_train, y_train)
  y_predicted = model.predict(X_teste)
  accuracy = accuracy_score(y_test, y_predicted)
  return y_predicted, accuracy

In [0]:
kf.get_n_splits(X)

count_g = 0
count_b = 0
count_dtree = 0
count_rforest = 0

for train_index, test_index in kf.split(X):
  X_train, X_test = X[train_index], X[test_index]
  y_train, y_test = y[train_index], y[test_index]
  
  predicted_gnb, accuracy_gnb = run_model(gnb, X_train, X_test, y_train, y_test)
  predicted_bnb, accuracy_bnb = run_model(bnb, X_train, X_test, y_train, y_test)
  predicted_dtree, accuracy_dtree = run_model(dtree, X_train, X_test, y_train, y_test)
  predicted_rforest, accuracy_rforest = run_model(rforest, X_train, X_test, y_train, y_test)
  
  print(f'accuracy gnb     : {accuracy_gnb}')
  print(f'accuracy bnb     : {accuracy_bnb}')
  print(f'accuracy dtree   : {accuracy_dtree}')
  print(f'accuracy rforest : {accuracy_rforest}')
  
  #print(f'confusion matrix bnb:\n{confusion_matrix(y_test, predicted_bnb, labels=["Positivo", "Negativo", "Neutro", "Irrelevante"])}')
  
  count_g += accuracy_gnb
  count_b += accuracy_bnb
  count_dtree += accuracy_dtree
  count_rforest += accuracy_rforest

print(f'erro medio gnb     : {count_g / 4}')
print(f'erro medio bnb     : {count_b / 4}')
print(f'erro medio dtree   : {count_dtree / 4}')
print(f'erro medio rforest : {count_rforest / 4}')

accuracy gnb     : 0.0
accuracy bnb     : 0.0
accuracy dtree   : 0.0
accuracy rforest : 0.0
accuracy gnb     : 0.0
accuracy bnb     : 0.0
accuracy dtree   : 0.0
accuracy rforest : 0.0
accuracy gnb     : 0.0
accuracy bnb     : 0.0
accuracy dtree   : 0.0
accuracy rforest : 0.0
accuracy gnb     : 0.0
accuracy bnb     : 0.0
accuracy dtree   : 0.0
accuracy rforest : 0.0
erro medio gnb     : 0.0
erro medio bnb     : 0.0
erro medio dtree   : 0.0
erro medio rforest : 0.0


In [0]:
kfs.get_n_splits(X, y)

count_g = 0
count_b = 0
count_dtree = 0
count_rforest = 0

for train_index, test_index in kfs.split(X, y):
  X_train, X_test = X[train_index], X[test_index]
  y_train, y_test = y[train_index], y[test_index]
  
  predicted_gnb, accuracy_gnb = run_model(gnb, X_train, X_test, y_train, y_test)
  predicted_bnb, accuracy_bnb = run_model(bnb, X_train, X_test, y_train, y_test)
  predicted_dtree, accuracy_dtree = run_model(dtree, X_train, X_test, y_train, y_test)
  predicted_rforest, accuracy_rforest = run_model(rforest, X_train, X_test, y_train, y_test)
  
  print(f'accuracy gnb     : {accuracy_gnb}')
  print(f'accuracy bnb     : {accuracy_bnb}')
  print(f'accuracy dtree   : {accuracy_dtree}')
  print(f'accuracy rforest : {accuracy_rforest}')
  
  #print(f'confusion matrix bnb:\n{confusion_matrix(y_test, predicted_bnb, labels=["Positivo", "Negativo", "Neutro", "Irrelevante"])}')
  
  count_g += accuracy_gnb
  count_b += accuracy_bnb
  count_dtree += accuracy_dtree
  count_rforest += accuracy_rforest

print(f'erro medio gnb     : {count_g / 4}')
print(f'erro medio bnb     : {count_b / 4}')
print(f'erro medio dtree   : {count_dtree / 4}')
print(f'erro medio rforest : {count_rforest / 4}')

accuracy gnb     : 0.5416666666666666
accuracy bnb     : 0.6190476190476191
accuracy dtree   : 0.5892857142857143
accuracy rforest : 0.6011904761904762
accuracy gnb     : 0.5238095238095238
accuracy bnb     : 0.6428571428571429
accuracy dtree   : 0.5714285714285714
accuracy rforest : 0.6369047619047619
accuracy gnb     : 0.6036585365853658
accuracy bnb     : 0.7012195121951219
accuracy dtree   : 0.5914634146341463
accuracy rforest : 0.6036585365853658
accuracy gnb     : 0.5304878048780488
accuracy bnb     : 0.6463414634146342
accuracy dtree   : 0.5609756097560976
accuracy rforest : 0.6585365853658537
erro medio gnb     : 0.5499056329849012
erro medio bnb     : 0.6523664343786295
erro medio dtree   : 0.5782883275261324
erro medio rforest : 0.6250725900116144


# Usando Analise de sentimento do Watson

In [0]:
#Instalando e importando lib
import pandas as pd
!pip install ibm_watson
import json
from ibm_watson import NaturalLanguageUnderstandingV1
from ibm_watson.natural_language_understanding_v1 import Features, EntitiesOptions, KeywordsOptions



In [0]:
#Autenticação

natural_language_understanding = NaturalLanguageUnderstandingV1(
    version='2018-11-16',
    iam_apikey='OyiIoauG0YZQT96rreVzyRibbOPFlfmOb0Mj4uLSe72r',
    url='https://gateway.watsonplatform.net/natural-language-understanding/api')


In [0]:
predicted = []
watson_df = tweets_df[tweets_df.sentiment != "Irrelevante"]
for tweet in watson_df["text"]:
  try:
    response = natural_language_understanding.analyze(
        text=tweet,
        features=Features(
            keywords=KeywordsOptions(emotion=True, sentiment=True,
                                     limit=1))).get_result()
    predicted.append(response['keywords'][0]['sentiment']['label'])
  except Exception as e:
    predicted.append("neutral")
print(predicted)

['positive', 'positive', 'neutral', 'positive', 'positive', 'positive', 'negative', 'positive', 'positive', 'positive', 'positive', 'neutral', 'neutral', 'positive', 'positive', 'positive', 'neutral', 'positive', 'positive', 'neutral', 'positive', 'neutral', 'neutral', 'positive', 'negative', 'positive', 'positive', 'positive', 'neutral', 'positive', 'positive', 'positive', 'positive', 'positive', 'negative', 'neutral', 'neutral', 'negative', 'positive', 'positive', 'neutral', 'neutral', 'neutral', 'positive', 'positive', 'negative', 'positive', 'positive', 'positive', 'neutral', 'positive', 'neutral', 'negative', 'neutral', 'neutral', 'neutral', 'positive', 'positive', 'positive', 'positive', 'positive', 'positive', 'neutral', 'neutral', 'positive', 'negative', 'negative', 'positive', 'neutral', 'positive', 'neutral', 'positive', 'positive', 'positive', 'positive', 'positive', 'positive', 'negative', 'positive', 'positive', 'positive', 'positive', 'neutral', 'positive', 'positive', 'n

In [0]:
translate_dict = {
    "positive": "Positivo",
    "negative": "Negativo",
    "neutral": "Neutro"
}
y = tweets_df["sentiment"]
y = list(filter(lambda x: x != "Irrelevante", y))
predicted_t = [translate_dict[x] for x in predicted]
score = accuracy_score(predicted_t, y)

In [0]:
score

0.5983935742971888

#Google Natural Language API

In [0]:
import os
import time
os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="My Project-7811bb2e5cc6.json"

# Imports the Google Cloud client library
from google.cloud import language
from google.cloud.language import enums
from google.cloud.language import types

# Instantiates a client
client = language.LanguageServiceClient()

print("text,score,magnitude,sentiment")

for index in range(tweets_df.shape[0]):
  # The text to analyze
  text = tweets_df.iloc[index]["text"]
  classification = tweets_df.iloc[index]["sentiment"]
  document = types.Document(
      content=text,
      type=enums.Document.Type.PLAIN_TEXT)

  # Detects the sentiment of the text
  sentiment = client.analyze_sentiment(document=document).document_sentiment
#   print(sentiment)
#   print('Text: {}'.format(text))
#   print('Sentiment:: score: {}, magnitude: {}'.format(sentiment.score, sentiment.magnitude))
  print(f'"{text}",{sentiment.score},{sentiment.magnitude},{classification}')
  time.sleep(0.5)

In [0]:
#load google dataframe
google_df = pd.read_csv("https://raw.githubusercontent.com/Softex-Recife/hands-on-nlp/master/google_nlapi.csv")
google_df = google_df[google_df.sentiment != "Irrelevante"]
X = google_df[["score", "magnitude"]]
print(X.shape)
y = google_df["sentiment"]
print(y.shape)

(498, 2)
(498,)


In [0]:
from sklearn import tree
# X = google_df["score"] + google_df["magnitude"]

kfs.get_n_splits(X, y)

count_dtree = 0

for train_index, test_index in kfs.split(X, y):
  X_train, X_test = X.iloc[train_index], X.iloc[test_index]
  y_train, y_test = y.iloc[train_index], y.iloc[test_index]
  
  dtree.fit(X_train, y_train)
  y_predicted = dtree.predict(X_test)
  accuracy = accuracy_score(y_test, y_predicted)
  

  print(f'accuracy dtree   : {accuracy_dtree}')
  
  #print(f'confusion matrix bnb:\n{confusion_matrix(y_test, predicted_bnb, labels=["Positivo", "Negativo", "Neutro", "Irrelevante"])}')

  count_dtree += accuracy_dtree


print(f'erro medio dtree   : {count_dtree / 4}')

accuracy dtree   : 0.5609756097560976
accuracy dtree   : 0.5609756097560976
accuracy dtree   : 0.5609756097560976
accuracy dtree   : 0.5609756097560976
erro medio dtree   : 0.5609756097560976
