#### These examples and texts were inspired through the website http://leportella.com/pt-br/2017/11/30/brincando-de-nlp-com-spacy.html

In [25]:
import spacy

In [26]:
nlp = spacy.load('pt')

In [27]:
doc = nlp(u'Você encontrou o livro que eu te falei, Phelipe ?')

Um <b>doc</b> é uma sequência de objetos do tipo <b>Token</b>.

In [28]:
doc.text.split()

['Você',
 'encontrou',
 'o',
 'livro',
 'que',
 'eu',
 'te',
 'falei,',
 'Phelipe',
 '?']

Apesar de ser coerente a divisão por espaços, o verbo falei e a vírgula estão dentro do mesmo token. O <b>nlp</b> consegue entender a diferença entre eles. Logo, quando se utiliza os tokens dentro da estrutura do documento, temos uma divisão mais coerente:

In [29]:
[token for token in doc]

[Você, encontrou, o, livro, que, eu, te, falei, ,, Phelipe, ?]

Temos agora uma lista de tokens, e não uma lista de strings.

Para obter a string de cada <b>Token</b>, pode-se utilizar o método .orth_

In [30]:
[token.orth_ for token in doc]

['Você',
 'encontrou',
 'o',
 'livro',
 'que',
 'eu',
 'te',
 'falei',
 ',',
 'Phelipe',
 '?']

### Entendendo a diferença entre palavras e pontuações

In [31]:
[token.orth_ for token in doc if not token.is_punct]

['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', 'Phelipe']

### Similaridade

SpaCy também permite verificar a similaridade semântica entre as palavras.

In [32]:
tokens = [token for token in doc]

Dessa forma o tokens[0] representa o token da palavra <b>Você</b> e o tokens[5] o da palavra <b>eu</b>

In [33]:
tokens[0].similarity(tokens[5])

0.29896945

Vamos verificar a similaridade entre as palavras <b>Você</b> e <b>livro</b>:

In [34]:
tokens[0].similarity(tokens[3])

-0.06758765

Pelos valores, pode-se perceber que as palavras <b>Você</b> e <b>eu</b> estão semânticamente mais próximas do que <b>Você</b> e <b>livro</b> (O que faz total sentido)

### Análise de classes gramaticais

In [35]:
[(token.orth_, token.pos_) for token in doc]

[('Você', 'PRON'),
 ('encontrou', 'VERB'),
 ('o', 'DET'),
 ('livro', 'NOUN'),
 ('que', 'PRON'),
 ('eu', 'PRON'),
 ('te', 'PRON'),
 ('falei', 'VERB'),
 (',', 'PUNCT'),
 ('Phelipe', 'PROPN'),
 ('?', 'PUNCT')]

### Tempos verbais diferentes

Imagine a situação em que temos um texto com o mesmo verbo sendo utilizado diversas vezes, porém em tempos verbais diferentes. A análise do texto passa a ser mais difícil. Nesse caso, deve-se analisar não o tempo verbal, mas sim sua raíz. O que ocorre da seguinte forma:

In [36]:
doc = nlp(u'testei, testaram, testarão')

In [37]:
[token.lemma_ for token in doc]

['testar', ',', 'testar', ',', 'testar']

### Ancestrais

Vamos checar se uma palavra é ancestral da outra:

In [38]:
doc = nlp(u'testar, testei')
tokens = [token for token in doc]
tokens[0].is_ancestor(tokens[1])

True

### Entidades

Vamos verificar as entidades presentes em um texto:

In [52]:
doc = nlp(u'Atualmente, o presidente Michel Temer governa o Brasil. Ele o faz diretamente do Palácio do Planalto')

In [53]:
doc.ents

(Michel Temer, Brasil, Palácio do Planalto)

In [55]:
[(entity, entity.label_) for entity in doc.ents]

[(Michel Temer, 'PER'), (Brasil, 'LOC'), (Palácio do Planalto, 'LOC')]

#### Obs.: O modelo em inglês está bem mais avançado. Logo, consegue identificar entidades bem mais complexas do que no modelo em português.

In [56]:
wiki_obama = """Barack Obama is an American politician who served as
     the 44th President of the United States from 2009 to 2017. He is the first
     African American to have served as president,
     as well as the first born outside the contiguous United States."""
nlp = spacy.load('en')
nlp_obama = nlp(wiki_obama)
[(i, i.label_) for i in nlp_obama.ents]


[(Barack Obama, 'PERSON'), (American, 'NORP'), (
       , 'PERSON'), (44th, 'ORDINAL'), (the United States,
  'GPE'), (2009 to 2017, 'DATE'), (first, 'ORDINAL'), (
       African American, 'NORP'), (
       , 'PERSON'), (first, 'ORDINAL'), (United States, 'GPE')]