[Video Youtube](https://www.youtube.com/watch?v=8z_VKTLV6Xo&t=3s)

# NLP

Para saber mais sobre as informações deste notebook:

[Brincando de nlp com spacy](https://leportella.com/pt-br/2017/11/30/brincando-de-nlp-com-spacy.html)

[Complete guide to spacy](https://nlpforhackers.io/complete-guide-to-spacy/)

[Spacy - site](https://spacy.io/api/)

[Treinando modelo melhorando NLP](http://minerandodados.com.br/index.php/2018/07/03/named-entity-recognition-como-isso-funciona/)

Para utilizar precisa primeiramente instalar, pode usar o pip com o comando: **pip install spacy**

Depois você instala o modelo que ja está treinado com palavras em português com o comando: **python -m spacy download pt **

### Link para o vídeo : https://www.youtube.com/watch?v=8z_VKTLV6Xo&feature=youtu.be

In [1]:
import spacy
from spacy import displacy

Primeiramente vamos fazer o modelo que usa a linguagem portugês

In [2]:
nlp = spacy.load('pt')

Agora esse modelo vai nos ajudar a analisar textos em português.
Vamos fazer uma frase simples usando o doc. Doc que é uma estutura que contém uma sequência de tokens e possui diversas informações sobre o texto. E um token é uma parte da estrutura podendo ser uma frase, uma palavra, uma pontuação ou até mesmo um espaço em branco neste exemplo eles vão ser palavras e pontuações.

In [3]:
doc1 = nlp("Ana, você comeu todo os dois bolos que eu te dei?")

Como o doc é uma estrutura interável então podemos fazer um for para pegar todos os tokens do doc.

Vamos listar todos os tokens que existe no doc

In [4]:
[token for token in doc1]

[Ana, ,, você, comeu, todo, os, dois, bolos, que, eu, te, dei, ?]

Como podemos ver o spacy pode difenrenciar palavras de pontuações. Mas e se quisermos ver as strings e não os tokens?
Existe o método .orth_ que nos ajuda nisso.

In [5]:
[token.orth_ for token in doc1]

['Ana',
 ',',
 'você',
 'comeu',
 'todo',
 'os',
 'dois',
 'bolos',
 'que',
 'eu',
 'te',
 'dei',
 '?']

Para pegar apenas as palavras vamos fazer um for para pegar todas as strings e restringir (por isso o if not) as pontuações que é reconhecido pelo método .is_punct

In [6]:
[token.orth_ for token in doc1 if not token.is_punct]

['Ana',
 'você',
 'comeu',
 'todo',
 'os',
 'dois',
 'bolos',
 'que',
 'eu',
 'te',
 'dei']

O spacy também pode reconhecer a similaridade entre as palavras. Usando o método similarity que avalia a similaridade semântica entre as palavras, quanto maior o valor, maior a similaridade.

Antes de analisar a similaridade precisamos pegar os tokens separadamente, por isso vamos fazer uma lista de tokens.

In [7]:
tokens = [token for token in doc1]

Agora vamos analisar a similaridade da palavra **você** token[1] e a palavra **eu** token[8]

In [8]:
tokens[1].similarity(tokens[8])

0.15399452

Como o valor esta positivo, significa que tem alguma similaridade entre **você** e **eu**. O que é verdade ja que as duas palavras são pronomes.

Agora vamos analisar a similaridade da palavra **você** token[1] e **bolo** token[6]

In [9]:
tokens[1].similarity(tokens[6])

-0.18722008

Como o valor esta negativo não temos similaridade nenhuma entre essas palavras. O que esta certo também já que **você** é pronome enquanto **bolo** é substantivo

Podemos também ver a classificação gramatical de cada palavra da nossa frase. Vamos fazer um for pegando a string de cada token e vendo a classe dela com o método .pos_

In [10]:
[(token.orth_, token.pos_) for token in doc1]

[('Ana', 'ADV'),
 (',', 'PUNCT'),
 ('você', 'PRON'),
 ('comeu', 'VERB'),
 ('todo', 'DET'),
 ('os', 'DET'),
 ('dois', 'NUM'),
 ('bolos', 'SYM'),
 ('que', 'PRON'),
 ('eu', 'PRON'),
 ('te', 'PRON'),
 ('dei', 'VERB'),
 ('?', 'PUNCT')]

Uma forma de visualizar melhor a classe gramatical é usando o displacy com style='dep'

In [11]:
displacy.render(doc1, style='dep', jupyter=True, options={'distance': 90}) 

Podemos ver uma determinada classe gramatical, modificando nosso **for** para imprimir apenas quando o token.pos_ == verbo

In [13]:
[token.orth_ for token in doc1 if token.pos_ == 'VERB']

['comeu', 'dei']

Para textos muito grandes analisar vários verbos com diferentes tempos verbais é muito difícil. Para resolver isso podemos usar um método que encontra a raiz desse verbos que ja estão conjugados. O método se chama .lemma_

In [15]:
[token.lemma_ for token in doc1 if token.pos_ == 'VERB']

['comer', 'dar']

Podemos verificar as entidades que existe na frase, usando o método .ents

In [17]:
doc2 = nlp("Machado de Assis um dos melhores escritores do Brasil, foi o primeiro presidente da Academia Brasileira de Letras")
doc2

Machado de Assis um dos melhores escritores do Brasil, foi o primeiro presidente da Academia Brasileira de Letras

In [18]:
doc2.ents

(Machado de Assis, Brasil, Academia Brasileira de Letras)

Verificando o que são cada entidade, usamos o método .label_

In [19]:
[(entity, entity.label_) for entity in doc2.ents]

[(Machado de Assis, 'PER'),
 (Brasil, 'LOC'),
 (Academia Brasileira de Letras, 'ORG')]

Mostrando as entidades com o displacy, colocando o style='ent'

In [20]:
doc = nlp("Machado de Assis um dos melhores escritores do Brasil, foi o primeiro presidente da Academia Brasileira de Letras")
displacy.render(doc, style='ent', jupyter=True)

E por fim, podemos ver as frases que constituem o texto usando o .sents

In [29]:
doc3 = nlp("Isso são maças. Isso são laranjas. E elas são redondas! Diferente do abacaxi.")
doc3

Isso são maças. Isso são laranjas. E elas são redondas! Diferente do abacaxi.

In [30]:
for sent in doc3.sents:
    print(sent)

Isso são maças.
Isso são laranjas.
E elas são redondas!
Diferente do abacaxi.
