### spaCy

Biblioteca Python para processamento de textos
- Escala industrial
- Feito para uso em produção
  - Criação de aplicações que conseguem processar um grande volume de dados

https://spacy.io/usage

In [None]:
!pip install -U spacy
# dados adicionais para lematização
!pip install -U spacy-lookups-data

### Modelo de linguagem
Para o spaCy conseguir realizar suas funções, é necessário que um modelo de linguagem esteja presente.

Modelos pré-treinados
- Entidades Nomeadas
- Classes gramaticais
- Dependências sintáticas

Parecido com os córpus que utilizamos como treinamento no NLTK

Modelos de linguagem para o português:
- python -m spacy download pt_core_news_sm [20MB]
- python -m spacy download pt_core_news_md [48MB]
- python -m spacy download pt_core_news_lg [550MB]

Praticamente todas as atribuições que os modelos mais robustos possuem (exemplo: inglês)
- Baseado no corpus WikiNER
  - Vetores dos tokens e classes gramaticais
  - Análise de dependência
  - Entidades nomeadas

https://spacy.io/models/pt

Além dos modelos de linguagem do spaCy, podemos criar nosso próprio modelo.

In [None]:
!python -m spacy download pt_core_news_lg


Collecting pt-core-news-lg==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.1.0/pt_core_news_lg-3.1.0-py3-none-any.whl (576.7 MB)
[K     |████████████████████████████████| 576.7 MB 20 kB/s 
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


### Uso - spaCy

Para o uso das funções poderosas do spaCy, é preciso entender dois objetos importantes:
- O objeto **Doc**
- O objeto **Token**

Um Doc é uma sequência de objetos Token
- Ou seja, um documento com vários tokens manipuláveis
- Métodos da classe Doc levam em consideração a manipulação desses tokens
  - Exemplo: quantidade de tokens no documento

Um Token é o token que aprendemos na aula de NLTK: pode ser uma palavra, uma pontuação, numeral, espaços...

Assim, antes de qualquer utilização das funções do spaCy, deve-se criar a variável que vai guardar o modelo de linguagem.

In [None]:
import spacy

texto = "Esse texto é só um teste, por isso não diz nada."
nlp = spacy.load('pt_core_news_lg')
doc = nlp(texto)

### Tokenização
Para recuperar os tokens, basta utilizar list comprehension

- Retorno com tipos de tokens diferentes
  - Somente as palavras: is_alpha
  - Somente os números: is_digit
  - Somente pontuações: is_punct
  - etc.

Lista de atributos:
https://spacy.io/api/token#attributes

In [None]:
tokens = [token for token in doc]
tokens

[Esse, texto, é, só, um, teste, ,, por, isso, não, diz, nada, .]

In [None]:
tokens = [token.orth_ for token in doc] # Para string
tokens

['Esse',
 'texto',
 'é',
 'só',
 'um',
 'teste',
 ',',
 'por',
 'isso',
 'não',
 'diz',
 'nada',
 '.']

In [None]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
alpha_tokens

['Esse',
 'texto',
 'é',
 'só',
 'um',
 'teste',
 'por',
 'isso',
 'não',
 'diz',
 'nada']

In [None]:
punct_tokens = [token.orth_ for token in doc if token.is_punct]
punct_tokens

[',', '.']

In [None]:
corpus = open('corpus_teste.txt', 'r').read()

In [None]:
nlp = spacy.load("pt_core_news_lg")
doc = nlp(corpus)

tokens = [token.orth_ for token in doc]

alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print("Alpha tokens: %s " % (alpha_tokens))

digit_tokens = [token.orth_ for token in doc if token.is_digit]
print("Digit tokens: %s " % (digit_tokens))

punct_tokens = [token.orth_ for token in doc if token.is_punct]
print("Punct tokens: %s " % (punct_tokens))

Alpha tokens: ['Giants', 'batem', 'os', 'Patriots', 'no', 'Super', 'Bowl', 'XLII', 'Azarões', 'acabam', 'com', 'a', 'invencibilidade', 'de', 'New', 'England', 'e', 'ficam', 'com', 'o', 'título', 'da', 'temporada', 'm', 'Atualizado', 'em', 'm', 'Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', 'segundos', 'do', 'fim', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', 'a', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII', 'O', 'resultado', 'uma', 'das', 'maiores', 'zebras', 'da', 'história', 'do', 'Super', 'Bowl', 'acabou', 'com', 'a', 'temporada', 'perfeita', 'de', 'Tom', 'Brady', 'e', 'companhia', 'que', 'esperavam', 'fazer', 'história', 'ao', 'levantar', 'o', 'troféu', 'da', 'NFL', 'sem', 'sofrer', 'uma', 'derrota', 'no', 'ano', 'A', 'vitória', 'dos', 'Giants', 'porém', 'também', 'ficará', 'para', 'a', 'história', 'Pela', 'primeira', 'vez', 'irmã

### Stemming e Lematização

O spaCy não tem um stemmer padrão, porém tem um lemmatizador! (que funciona para o português!)

Lemmatizar é simples: só utilizar o atributo **lemma_**

In [None]:
lemmas = [token.lemma_ for token in doc if token.pos_ == 'VERB']
lemmas[:10]

['bater',
 'acabar',
 'ficar',
 'Atualizado',
 'anotar',
 'derrubar',
 'acabar',
 'esperar',
 'fazer',
 'levantar']

### Etiquetador
Basta chamar o atributo **pos_** no token e assim é retornada a classe gramatical referente!

Lista de etiquetas: https://universaldependencies.org/docs/u/pos/

O spaCy tem um atributo que contém informações mais detalhadas: o **morph**
- Características mais morfolóficas dos tokens!

O modelo de linguagem para o Português usado no spaCy tem como fonte o Bosque
- Acurácia de 95.02% na etiquetagem quando utilizado o modelo de linguagem **large**

Existem outros etiquetadores para o Português que alcançam uma acurácia maior
- NLPNet - 97.33% (free)
- PALAVRAS - 98% (pago)
  - É importante frisar que estes etiquetadores tem um foco total no Português.

In [None]:
pos = [(token.orth_, token.pos_) for token in doc]
pos[:10]

[('Giants', 'PROPN'),
 ('batem', 'VERB'),
 ('os', 'DET'),
 ('Patriots', 'PROPN'),
 ('no', 'ADP'),
 ('Super', 'PROPN'),
 ('Bowl', 'PROPN'),
 ('XLII', 'PROPN'),
 ('\n', 'SPACE'),
 ('Azarões', 'PROPN')]

In [None]:
morfologicas = [(token.orth_, token.morph) for token in doc]
morfologicas[:10]

[('Giants', Gender=Masc|Number=Sing),
 ('batem', Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin),
 ('os', Definite=Def|Gender=Masc|Number=Plur|PronType=Art),
 ('Patriots', Gender=Masc|Number=Plur),
 ('no', Definite=Def|Gender=Masc|Number=Sing|PronType=Art),
 ('Super', Gender=Masc|Number=Sing),
 ('Bowl', Number=Sing),
 ('XLII', Number=Sing),
 ('\n', ),
 ('Azarões', Number=Sing)]

### Entidades Nomeadas

Vimos no NLTK uma dificuldade inicial de identificar as entidades nomeadas de uma sentença

No spaCy, basta usar a propriedade **ents** na variável **doc**!

Conjunto de etiquetas: https://emorynlp.github.io/nlp4j/components/dependency-parsing.html

In [None]:
entidades_nomeadas = list(doc.ents)
print(entidades_nomeadas)

detalhes_entidades = [(entidade, entidade.label_) for entidade in doc.ents]
detalhes_entidades[:10]

[Giants, Patriots, Super Bowl XLII
, Azarões, New England, Eli Manning, Plaxico Burress, New York Giants, New England Patriots, Glendale, Super Bowl XLII, Super Bowl, Tom Brady, NFL, Giants, Super Bowl, Peyton Manning, Eli, NFL, Indianapolis Colts, Giants, Brandon Jacobs, Nova York, red zone, Lawrence Tynes, Eli Manning, Patriots, Laurence Maroney, Tom Brady, Patriots, Antonio Pierce, Maroney, Giants, Manning, Amani Toomer, Nova York, red zone, Patriots, Giants, Manning, Steve Smith, Ellis Hobbs, Patriots, Nova York, Giants, Nova York, Manning, Patriots, Brady, Giants, Manning, Patriots, Giants, Bill Bellichick, Brady, Jabar Gaffney, Giants, Manning, Kevin Boss, Patriots, Steve Smith, David Tyree, end zone, Patriots, Brady, Wes Welker, Randy Moss, Kevin Faulk, red zone, Moss, end zone, New England, Eli Manning, Amani Toomer, Giants, New England, Manning, Plaxico Burress, end zone]


[(Giants, 'ORG'),
 (Patriots, 'MISC'),
 (Super Bowl XLII, 'ORG'),
 (Azarões, 'LOC'),
 (New England, 'LOC'),
 (Eli Manning, 'PER'),
 (Plaxico Burress, 'PER'),
 (New York Giants, 'ORG'),
 (New England Patriots, 'MISC'),
 (Glendale, 'LOC')]

In [None]:
html = spacy.displacy.render(doc, style = "ent")
output_path = open('entidades_nomeadas.html', 'w', encoding = 'utf-8')
output_path.write(html)
output_path.close()

spacy.displacy.render(doc[:35], style = "ent", jupyter=True)

### Análise Sintática

Uma outra função importante do spaCy é a representação sintática do texto
- Quais relações entre os tokens

O atributo **dep_** retorna a dependência sintática do token em questão

In [None]:
sintaxe = [(token.orth_, token.dep_) for token in doc]
sintaxe[:10]

[('Giants', 'nsubj'),
 ('batem', 'ROOT'),
 ('os', 'det'),
 ('Patriots', 'obj'),
 ('no', 'case'),
 ('Super', 'obl'),
 ('Bowl', 'flat:name'),
 ('XLII', 'flat:name'),
 ('\n', 'dep'),
 ('Azarões', 'flat:name')]

In [None]:
visualizar_sintaxe = spacy.displacy.render(doc, style='dep')
output_path = open('analise_dependencia.svg', 'w', encoding = 'utf-8')
output_path.write(visualizar_sintaxe)
output_path.close()

spacy.displacy.render(doc[:35], style='dep',jupyter=True)

O spaCy contém dois sites onde podem ser feitas
as análises de entidades nomeadas e de
dependências de forma bem simples:
- Visualizador de Entidades Nomeadas
  - https://explosion.ai/demos/displacy-ent
- Visualizador de Dependências
  - https://explosion.ai/demos/displacy