# Natural Language Processing

![](data/imgs/nlp_intro.png)

*pegar referência

## O que vem na cabeça de vocês quando falamos de Processamento de Linguagem Natural?

## Definição

O termo NLP (Natural Laguage Processing, ou Processamento de Linguagem Natural em tradução livre) é um campo da computação relativamente novo e que tem como principal foco fazer com que as máquinas entendam e até possam se comunicar em linguagem humana. É uma área de pesquisa/atuação extremamente ampla, podendo se dividir em ramos com atuações muito diferentes. Alguns dos principais exemplos de atuação são:

- Information Retrieval: Com base em uma query do usuário, retornar o produto/documento que atenda suas expectativas (**Google**)
- Q&A: Com base em uma pergunta, encontrar a resposta que mais atenda ela (**Watson/Jeopardy**)
- Machine Translation: entrar uma linguagem em um idioma e traduzí-la (**Google Translate**)
- Information Extraction: 
![](data/imgs/avril_height.png)
- Sentiment Analysis: é o que veremos hoje !


<img src="data/imgs/yeah_gif.gif" align="center"/>


# Contextualizando

Suponha que você seja um Cientista de Dados e trabalha em um app de um restaurante. Você conseguiu coletar os reviews de alguns dos seus clientes e pretende pensar como que você agrega valor com eles.**

**ref

In [34]:
import pandas as pd
pd.options.display.max_columns = 999
pd.options.display.max_colwidth = 999
pd.read_csv('data/reviews/raw_reviews.csv').sample(5)

Unnamed: 0,text
47,"Oh, and there's hookah."
165,I have to say that I am pleasantly suprised and I will most likely stop in again if I am in the neighborhood.
19,Not sure if I would go back.
76,"The pastas are incredible, the risottos (particularly the sepia) are fantastic and the braised rabbit is amazing."
308,If you're in the area you shouldn't be disappointed.


Faça um sample dos dados e explore um pouco eles. Entenda que tipo de informação você tem e o que você consegue fazer com ela.

In [None]:
##TODO

#TENTE ENTENDER UM POUCO SEUS DADOS

# Tá mas e daí?

Se vocês tentarem interpretar o conteúdo, vocês verão que os reviews retratam **opiniões**. Extrapolando um pouco, da pra ver que essas opiniões estão bem **polarizadas** ou em algo *positivo* ou em algo *negativo*. Ora, vocês reconhecem esse tipo de trabalho? E se anotássemos as labels em categorias (positiva ou negativa) e construíssimos um *classificador* para esses reviews?

Ou seja, nosso modelo irá receber um **texto** como *feature* e irá retornar uma **classe**: positiva ou negativa. Ou seja, nosso modelo irá **analisar o sentimento** expresso por um certo texto !


In [36]:
train_df = pd.read_csv('data/reviews/train.csv')
test_df = pd.read_csv('data/reviews/test.csv')

display(train_df.head())

Unnamed: 0,text,polarity
0,"It is nearly impossible to get a table, so if you ever have the chance to go here for dinner, DO NOT pass it up.",positive
1,I won't go back unless someone else is footing the bill.,negative
2,There are so many better places to visit!,negative
3,This place is a must visit!,positive
4,but the service was a bit slow.,positive


<img src="data/imgs/wat-wat-wat.jpg" align="center"/>


Calma que já vamos entender tudo !

## As ferramentas

A principal biblioteca existente hoje para trabalhos de NLP é o Spacy. O datacamp lançou recentemente um [curso](https://campus.datacamp.com/courses/advanced-nlp-with-spacy) bem legal sobre ele que vale a pena dar uma conferida já que hoje, focaremos no "básico".

Outra lib que vale citar é o NLTK, principal biblioteca de NLP a alguns anos atrás.

Com o advento de deep learning, outras inciativas também ficaram famosas, como o [AllenNLP](https://allennlp.org/) e o [StanfordNLP](https://stanfordnlp.github.io/stanfordnlp/), que são capazes de atingir o estado da arte de muitas aplicações !

### O Spacy

In [5]:
# baixando o modelo de inglês
#!python -m spacy download en_core_web_sm

In [6]:
import spacy
import en_core_web_sm

No centro do Spacy tem o conceito de objeto que contém todo o pipeline de processamento, além de outras regras específicas de uma certa língua. Essa variável é comummente chamada de *nlp*. Por exemplo, para criar um objeto *nlp* da língua inglesa, basta fazer:

In [8]:
from spacy.lang.en import English
nlp = English()

Quando você processa um texto com o objecto *nlp*, o *Spacy* cria um *Doc* object.

In [10]:
doc = nlp("It's also attached to Angel's Share, which is a cool, more romantic bar...")

O *doc* permite você acessar os dados dos seus textos de maneira estruturada. A forma de iteração é de uma sequência de pytho, então:

In [11]:
for token in doc:
    print(token.text)

It
's
also
attached
to
Angel
's
Share
,
which
is
a
cool
,
more
romantic
bar
...


![](data/imgs/spacy_01.png)


Note que no Spacy, o objeto *Token* é um objeto que possui vários atributos. Alguns importantes/legais:

![](data/imgs/spacy_02.png)

## Um pouco de prática ! 

In [14]:
# Import the Portuguese language class
from spacy.lang.____ import ____

# Create the nlp object
nlp = ____

# Process a text
doc = nlp("Isso é uma sentença")

# Print the document text
print(____.text)

Isso é uma sentença


In [None]:
# Import the Spanish language class and create the nlp object
from spacy.lang.en import English
nlp = English()

# Process the text
doc = nlp("Me gustan los canguros de los árboles y los narvales )

# Select the first token
first_token = doc[0]

# Print the first token's text
print(first_token.text)

In [None]:
# Process the text
doc = nlp("In 1990, more than 60% of people in East Asia were in extreme poverty. Now less than 4% are.")

# Iterate over the tokens in the doc
for token in doc:
    # Check if the token resembles a number
    if ____.____:
        # Get the next token in the document. The index of the next token in the doc is token.i + 1.
        next_token = ____[____]
        # Check if the next token's text equals '%'
        if next_token.____ == '%':
            print('Percentage found:', token.text)

### Um pouco de estatística

É possível carregar alguns modelos pré treinados no Spacy para nos atender em alguns pontos específicos. O caso mais popular é caso queiramos analisar se determinada palavra é um verbo, ou é um nome próprio (po ex: Apple companhia ou apple, a fruta).

Esses modelos estatísticos permitem ao spacy prever atriutos linguísticos, principalmente:

- Part-of-Speech tags (classificação gramátical)
- Nomeação de Entidades (Ex: a Apple companhia, 'Play Photograph')
- Words relationship (Dependecy parser)

Tais modelos específicos estão divididos em pacotes e precisam ser baixados. O 'en_core_web_sm' é um pacote com vários modelos treinados em inglês.

In [18]:
nlp = spacy.load('en_core_web_sm')

doc = nlp("She ate the pizza")
for token in doc:
    print(token.text, token.pos_)

She PRON
ate VERB
the DET
pizza NOUN


In [26]:
doc = nlp("I heard Photograph from Nicklelback yesterday !")

for ent in doc.ents:
    print(ent.text, ent.label_)
#note Photograph is wrong

Photograph ORG
Nicklelback PERSON
yesterday DATE


In [27]:
doc = nlp("I heard photograph from Nicklelback!")

for ent in doc.ents:
    print(ent.text, ent.label)

In [31]:
doc = nlp("I took the photograph!")

for ent in doc.ents:
    print(ent.text, ent.label)

## Exercicio

Imprima as entidades da frase abaixo

In [None]:
text = "New iPhone X release date leaked as Apple reveals pre-orders by mistake"

# Process the text
doc = ____

# Iterate over the entities
for ____ in ____.____:
    # print the entity text and label
    print(____.____, ____.____)

## Stopwords

Para muitas tarefas de NLP, é bom prestar atenção nas chamadas stopwords, que são as palavras mais comuns que aparecem no texto.

Como assim? Vamos tokenizar (de maneira simplista, mas note que estamos usando expressões regulares. Para refrescar a memória, você pode usar o [regex golf](https://alf.nu/RegexGolf)) e imprimir as palavras mais comuns da coluna text de nosso dataset de treino.

Poderíamos usar a ideia de Matcher (ensinada no curso do Datacamp), exclusiva do spacy, mas eu acredito que regex são uteis para varias situações !

In [37]:
from collections import Counter

In [40]:
#splita as frases por palavras (espaco incluido) e soma elas
Counter(sum(train_df['text'].str.lower().str.split(r'[\W\s]+').tolist(), [])).most_common(10)

[('', 309),
 ('the', 177),
 ('a', 103),
 ('to', 97),
 ('and', 92),
 ('i', 90),
 ('is', 79),
 ('it', 75),
 ('for', 56),
 ('you', 55)]

É meio intuitivo o que queremos dizer com *stopwords*, correto?

No spacy, podemos encontrar as stopwords do nosso modelo assim:

In [55]:
en_stopwords = sorted([token.text for token in nlp.vocab if token.is_stop])
en_stopwords[155:161]

['no', 'nobody', 'none', 'noone', 'nor', 'not']

Lembre-se que estamos avaliando a polaridade. Então na hora de analisarmos o texto, seria  horrível perder certas stopwords como palavras de negação, afinal, "Eu não gosto disso" é muito diferente de "Eu gosto disso"!