<p><markdown translate="no" mathjax="" class="ng-tns-c364-40"><h1 id="processamento-de-linguagem-natural-pln"><strong>Processamento de Linguagem Natural (PLN)</strong></h1>
<h2 id="word-vectors"><strong>Word Vectors</strong></h2>
<h3 id="índice">Índice</h3>
<ul>
<li>1) Objetivos;</li>
<li>2) Word2Vec</li>
<li>3) Análise de sentimentos</li>
</ul>
<h3 id="1-objetivos"><strong>1) Objetivos</strong></h3>
<p>O objetivo deste material é apresentar conceitos acerca de:</p>
<ul>
<li>Extração de features de um texto;</li>
<li>Word2Vec;</li>
<li>VADER (valence aware dictionary for sentiment reasoning).</li>
</ul>
<h3 id="2-word2vec"><strong>2) Word2Vec</strong></h3>
<p>Word2Vec é um modelo de Redes Neurais para processamento de texto, com objetivo de transformar as palavras de um texto em um espaço vetorial onde é possível fazer operações matemáticas com o objetivo de encontrar similaridades, relaçoes e associações entre palavras.</p>
<ul>
<li>Exemplo de associação: "homem" está para "menino" assim como "mulher" está para "menina"</li>
</ul>
<p>Outros exemplos de relações:</p>
<img src="https://miro.medium.com/max/2000/1*2r1yj0zPAuaSGZeQfG6Wtw.png" width="600">

<p>O Word2Vec é muito importante para a construção de muitos dos modelos linguísticos mais complexos, como os que utilizamos do spacy.</p>
<p>É graças a este modelo que, por exemplo, entidades podem ser classificadas mais assertivamente.</p>
<p>O Word2Vec é utilizado em modelos linguísticos, por exemplo, para predizer qual é a probabilidade de uma frase em determinada língua existir (o que é muito útil para sistemas de tradução automática).</p>
<p>Neste contexto, há 2 maneiras de implementar o Word2Vec:</p>
<ul>
<li><strong>Continuos bag of words (CBOW)</strong>: este tipo de arquitetura de redes neurais é caracterizado pela <em>predição de uma palavra a partir do seu contexto</em>, ou seja, uma palavra de uma frase é predita com base nas demais palavras da frase.</li>
<li><strong>Skip-gram</strong>: este tipo de arquitetura de redes neurais é caracterizado pela <em>predição do contexto com base em uma palavra</em>, ou seja, as demais palavras da frase são preditas com base em uma dada palavra.</li>
</ul>
<p>A diferença entre as duas arquiteturas é ilustrada a seguir:</p>
<img src="https://www.researchgate.net/profile/Wang_Ling/publication/281812760/figure/fig1/AS:613966665486361@1523392468791/Illustration-of-the-Skip-gram-and-Continuous-Bag-of-Word-CBOW-models.png" width="550">


<h3 id="3análise-de-sentimentos"><strong>3)Análise de sentimentos</strong></h3>
<p>Análise de sentimentos em NLP é um método não supervisionado que tem como objetivo receber uma frase, texto, etc e classificar numa polaridade (negativo, positivo ou neutro) e em alguns modelos também faz a classificação de sentimento (triste, nervoso, feliz, etc). É uma técnica importante devido ao alto volume de dados produzidos diariamente, pois automatiza o processo de classificação sendo muito útil para ecommerces, para classificação automática dos reviews de produtos, em serviços onlines, restaurantes, lojas etc, dando muito mais interpretação para todo dado não estruturado produzido.</p>
<p>Embora dado as vantagens, como todo dado estruturado existe o desafio do pré processamento, limpeza e remoção de corner cases, no caso de textos, esses corner cases são a identificação de ironia e sarcasmo, entonação, uso de emojis e comparação com entidades com semântica não muito clara para nossos modelos.</p>
<h4 id="como-funciona">Como funciona?</h4>
<p>Há dois tipos de abordagem para classificação de sentimentos, o baseado em regras pré definidas, como a quantidade que tokens positivos aparecem no texto, ex: bom, ótimo, etc em comparação com tokens com conotação negativa, ex: ruim, péssimo, etc. 
Além desse existe o baseado o automático, que consiste em fazer pré processamento para extração de features, utilizando word2vec, bag-of-words, etc e aplicando em modelos de machine learning para fazer a classificação;</p>
<h4 id="modelos">Modelos</h4>
<p>Existem modelos open-source como o VADER, o TextBlob entre outros e modelos pagos como o mais conhecido da IBM Watson</p>
<p>Vamos utilizar o VADER (valence aware dictionary for sentiment reasoning) que é um dicionário que mapeia features léxicas com classes e intensidades de emoção chamados de "sentimento scores".</p>
<p><img src="https://miro.medium.com/max/938/1*JSi4ZRojnsNZBJVtGUfXZQ.png" alt="alt text"></p>
<ul>
<li>Exemplo: "love", "like", "happy" são associados a "Positive Sentiment";</li>
<li>"did not love" é associado a "Negative Sentiment";</li>
</ul>
<p>Além disso, o VADER também é capaz de diferenciar intensidades diferentes de sentimentos, como por exemplo uma ênfase em "LOVE U!!!!" e "HATE THAT!" além de Emojis, gírias e acrônimos (OMG).</p>
<p>Alguns desafios/limitações do modelo:</p>
<ul>
<li>Identificar positive e negative sentiment na mesma frase;</li>
<li>Identificar sarcasmo e ironia.</li>
</ul>
<p><img src="https://miro.medium.com/max/1400/1*wMsqjs_0rf6gBWEdK__2hA.png" alt="alt text"></p>

</markdown></p>

In [3]:
import nltk
nltk.download('vader_lexicon')
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()

a = u"this is a good movie"
print(sid.polarity_scores(a))
# {'compound': 0.4404, 'neg': 0.0, 'neu': 0.508, 'pos': 0.492}

a = u"This was the best, mos awesome movie EVER MADE!"
print(sid.polarity_scores(a))
# {'compound': 0.8622, 'neg': 0.0, 'neu': 0.449, 'pos': 0.551}
a = u"I hate chicken!"
print(sid.polarity_scores(a))
# {'compound': 0.8622, 'neg': 0.0, 'neu': 0.449, 'pos': 0.551}

{'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.4404}
{'neg': 0.0, 'neu': 0.449, 'pos': 0.551, 'compound': 0.8622}
{'neg': 0.8, 'neu': 0.2, 'pos': 0.0, 'compound': -0.6114}


[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\br080d\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!
