In [1]:
import spacy
import pandas as pd

### Carregando modelos

Para carregar um modelo no spacy, usamos a função <code>spacy.load(string)</code>

O parâmetro string consiste no modelo carregado.
Referência de modelos podem ser vistas [aqui](https://spacy.io/usage)

O método load retorna a instância do modelo.

In [2]:
nlp = spacy.load("en_core_web_sm")

### Os Docs

<code>Doc</code> é a classe de documento básica do spacy. A referência dela é <code>spacy.tokens</code>.
Um doc consiste em um texto processado. Ele é o retorno da execução do modelo.

Um doc é dividido em tokens. Tokens são cada componente do texto processado. Um recorte do doc resulta em uma partição (Span). 

In [6]:
doc = nlp("Testing the model")
for token in doc:
    print(token.i,token.text, token.vector.shape)
print(doc[0:2].text, doc[0:2].start, doc[0:2].end)

0 Testing (96,)
1 the (96,)
2 model (96,)
Testing the 0 2


### Hashes

Toda string é tratada na forma de hash por detrás do spacy. Por esse motivo, o código sempre será mais otimizado quando trabalharmos com objetos instânciados, isto é, processados pela tokenização do nlp.

Sendo assim, evite trabalhar com strings até o último momento. O vocabulário que armazena esse dicionário.

In [8]:
hash = nlp.vocab.strings["Testing"]
name = nlp.vocab.strings[hash]
print(hash, name)

12169968039091452412 Testing


### Construtores

Aqui são apresentado os construtores de cada uma das entidades tratadas.
Uma nota especial é que uma partição (<code>Span</code>) tem um atributo especial que é o rótulo (<code>label_</code>). Este é usado para definir as entidades existentes no documento.

O doc em si, recebe um array de palavras e de booleanos, que indicam se existe ou não um espaço

In [10]:
from spacy.tokens import Doc, Token, Span

doc = Doc(nlp.vocab, ["This", "is", "an", "example"], [True, True, True, False])
print(doc)
span = Span(doc, 0, 2, label = "PARTICAO")
print(span.text, span.label_)
token = Token(nlp.vocab, doc, 0)
print(token)

This is an example
This is PARTICAO
This


### Anotações linguísticas

Algumas anotações linguísticas podem ser útil na análise do texto. Uma [referência](https://universaldependencies.org/docs/u/pos/) que pode ser útil é a demarcada. Ela (<code>.pos_</code>) indica os tipos de marcadores de classe gramátical universais. DET - adjunto adnominal

O termo sintático em questão esta na variável <code>.dep_</code>. Esta por sua vez está classificando o This como um sujeito simples (nominal subject).

Por ultimo, o <code>head</code> faz referênca ao "pai" daquele token.

In [13]:
doc = nlp("This is a random phrase")
token = doc[0]
print(token.text, token.pos_, token.dep_, token.head.text)

This DET nsubj is


### Entidades
Com o modelo, muitas entidades já são treinadas para serem identificadas no texto. Nesse exemplo, temos a entidade ORG, de organização.

In [18]:
doc = nlp("Upcoming iPhone X release date leaked as Apple reveals pre-orders. They arch-enemy, Microsoft, is mad.")
for ent in doc.ents:
    print(ent.text, ent.label_)

Apple ORG
Microsoft ORG


### Matchers

Um matcher é responsável por encontrar um determinado padrão dentro do texto.
Ele difere de expressões regulares porque pode considerar semântica e sintaxe, conforme o processamento da frase.

A regra recebe um nome, e um padrão, que consiste em uma Lista<Lista<Dicionário>>. Isto é, cada padrão é uma Lista<Dicionários>

In [24]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)
enemy_pattern = [[{"LEMMA":"enemy"}]]
matcher.add("ENEMY", enemy_pattern)
matches = matcher(doc)

for match in matches:
    print(doc[match[1]:match[2]].text)

enemy 


### Similaridade

A similaridade entre Tokens, Spans ou até mesmo Docs pode ser fácilmente medida através do ângulo entre os vetores dos mesmos. 

Token -> Vetor. Span,Doc -> Média dos vetores dos tokens.

Nesse caso, foi retornado um warning porque o presente modelo não possui nenhum tipo de embedding, isto é, vetorização para os tokens.

In [25]:
doc[0:3].similarity(doc[3:6])

  doc[0:3].similarity(doc[3:6])


0.250942

### Pipelines

A pipeline consiste em um túnel de processamento onde o doc é passado. A imagem a seguir mostra um pipe padrão. 
A primeira camada, <strong>NÃO</strong> é considerada parte do pipeline, e é obrigatória (Tokenização). 

A segunda camada, Tagger, é responsável pelos marcadores de classe gramatical.
A terceira camada, Parser, é responsável pela identificação dos termos sintáticos e dependências.
A quarta, define as partições como entidades.

As pipelines podem ser usadas para alterar o Doc ou usar o mesmo.

![pipeline](https://course.spacy.io/pipeline.png)

In [34]:
from spacy.language import Language

@Language.component("my_pipeline")
def my_pipeline(doc):
    print(len(doc))
    return doc

if("my_pipeline" not in nlp.pipe_names):
    nlp.add_pipe("my_pipeline")
doc = nlp("This is a phrase")
print(doc)
print(nlp.pipe_names)

4
This is a phrase
['tok2vec', 'tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer', 'my_pipeline']


### Extensions

Para atributos customizados, é possível trabalhar com o método <code>set_extension</code>. Esse método serve para <code>Doc</code>, <code>Span</code>, <code>Token</code>.

Você pode definir:
- Atributos: elementos com acesso direto, sem nenhum tipo de tratamento.
- Propriedades: funções sem parâmetros, permitindo o acesso a um atributo com algum tipo de tratamento.
- Métodos: funções parametrizadas.

Importante saber que o primeiro parâmetro definido nas propriedades e métodos são do mesmo tipo da entidade base em que a extensão está sendo definida.

Todo e qualquer extensão é acessada pelo atributo <code>_</code>


In [35]:
def get_has_color(token):
    return token._.color != None

def compare_color(token, tokenB):
    return token._.color == tokenB._.color

Token.set_extension("color", default = None)
Token.set_extension("has_color", getter = get_has_color)
Token.set_extension("compare_color", method = compare_color)

doc = nlp("This is an test")
print(doc[0]._.has_color, doc[0]._.color)
doc[0]._.color = "Black"
print(doc[0]._.has_color, doc[0]._.color)
doc[1]._.color = "Gray"
print(doc[0]._.color, "is equal", doc[1]._.color, "?", doc[0]._.compare_color(doc[1]))

4
False None
True Black
Black is equal Gray ? False
