# Basicão

In [6]:
from spacy import blank

In [7]:
nlp = blank('pt') # convenção | Objeto spaCy 

doc = nlp('Eduardo foi a feira.')  # | Instância de documento/corpus
token = doc[0] # | Token do documento >>> Eduardo

span = doc[:3] # | Conjunto de tokens

# Carregamento de modelo pré treinado

In [8]:
from spacy import load # Carrega um modelo

In [11]:
nlp = load('pt_core_news_sm') # Modelo trainado com base em textos jornalísticos (news), de tamanho pequeno/small/sm

In [None]:
# Iterando na lista de frases (sents)
for sent in list(nlp('Eu sou legal. Eu sou inseguro.').sents):
    print(sent)


Eu sou legal.
Eu sou inseguro.


In [None]:
# Criando doc
doc = nlp('Eu fui a feira.')

# Criando lista de tokens
tokens = [token for token in doc]
tokens # Não são strings

[Eu, fui, a, feira, .]

# Atributos dos Tokens

In [None]:
doc = nlp('Eu fui a feira.')

for token in doc:
    print('| {:5} | {:20} | {:6}| {:1} |'.format(token.text, token.shape, token.shape_, token.is_alpha))

| Eu    | 12204527652707022206 | Xx    | 1 |
| fui   |  4088098365541558500 | xxx   | 1 |
| a     | 11123243248953317070 | x     | 1 |
| feira | 13110060611322374290 | xxxx  | 1 |
| .     | 12646065887601541794 | .     | 0 |


In [None]:
doc = nlp('Eu fui a feira. Comprei 2 pasteis, custaram R$10')

# Extraindo: Texto | Formato >>> valor numérico | formato_/shape_ >>> abstração de tipos de caracteres | 
#            is_alpha >>> Booleano se é alfanumérico ou não.
for token in doc:
    print('| {:8} | {:20} | {:6}| {:1} |'.format(token.text, token.shape, token.shape_, token.is_alpha))

| Eu       | 12204527652707022206 | Xx    | 1 |
| fui      |  4088098365541558500 | xxx   | 1 |
| a        | 11123243248953317070 | x     | 1 |
| feira    | 13110060611322374290 | xxxx  | 1 |
| .        | 12646065887601541794 | .     | 0 |
| Comprei  | 16072095006890171862 | Xxxxx | 1 |
| 2        |  8148669997605808657 | d     | 0 |
| pasteis  | 13110060611322374290 | xxxx  | 1 |
| ,        |  2593208677638477497 | ,     | 0 |
| custaram | 13110060611322374290 | xxxx  | 1 |
| R$       | 10873041402157145481 | X$    | 0 |
| 10       |  4620368362210911820 | dd    | 0 |


---
# Análise sintática

Podemos obter várias características linguísticas dos tokens, como:

* Tagueamento POS (Part of speech)
* Lematização (Ato de representar as palavras através do infinitivo dos verbos e masculino singular dos substantivos e adjetivos)
* Dependências (Relação entre palavras)
* StopWords (Palavras que não agregam nas aplicações)

In [None]:
doc = nlp('Eu estou muito empolgado para dar aulas.')

print('={:10}==={:5}==={:10}==={:10}==={:4}=='.format('='*10, '='*5, '='*10,'='*10,'='*4))
print('  {:10} | {:5} | {:10} | {:10} | {:4} '.format('TOKEN', 'POS', 'LEMMA', 'DEP', 'STOP'))
print('={:10}=={:5}==={:10}==={:10}===={:4}=='.format('='*10, '='*5, '='*10,'='*10,'='*4))
for token in doc:
    print('  {:10} | {:5} | {:10} | {:10} | {:4} '.format(token.text, token.pos_, token.lemma_, token.dep_, token.is_stop))

print('-{:10}---{:5}---{:10}---{:10}---{:4}--'.format('-'*10, '-'*5, '-'*10,'-'*10,'-'*4))


  TOKEN      | POS   | LEMMA      | DEP        | STOP 
  Eu         | PRON  | eu         | nsubj      |    1 
  estou      | AUX   | estar      | cop        |    1 
  muito      | ADV   | muito      | advmod     |    1 
  empolgado  | ADJ   | empolgar   | ROOT       |    0 
  para       | SCONJ | para       | mark       |    1 
  dar        | VERB  | dar        | advcl      |    1 
  aulas      | NOUN  | aula       | obj        |    0 
  .          | PUNCT | .          | punct      |    0 
------------------------------------------------------


# Visualização com spaCy (displacy)

In [None]:
from spacy import load, displacy

In [None]:
nlp = load('pt_core_news_sm')

doc = nlp('Eu estou muito empolgado para dar aulas.')

In [None]:
displacy.serve(doc,host='localhost',port=5001)


Using the 'dep' visualizer
Serving on http://localhost:5001 ...

Shutting down server on port 5001.


# Explain UNIVERSAL POS TAG

In [None]:
from spacy import explain

In [None]:
explain('ADV')

'adverb'

In [None]:
explain('PRON')

'pronoun'

In [None]:
explain('SCONJ')

'subordinating conjunction'

In [None]:
explain('DET')

'determiner'

# Morfologia (UNIVERSAL FEATURES)

In [None]:
doc = nlp('Estou tentando convencer-te-ei')

for t in doc:
    print('{:15} | {:10} | {:10} | {}'.format(
        t.text,
        t.pos_,
        t.lemma_,
        t.morph
    ))

Estou           | AUX        | estar      | Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
tentando        | VERB       | tentar     | VerbForm=Ger
convencer-te-ei | VERB       | convencer-te-ei | Case=Acc|Gender=Masc|Mood=Ind|Number=Plur,Sing|Person=3|PronType=Prs|Tense=Pres|VerbForm=Fin


# Entidades

In [None]:
texto = '''
João amava Teresa que amava Raimundo
que amava Maria que amava Joaquim que amava Lili
que não amava ninguém.

João foi para os Estados Unidos, Teresa para o convento,
Raimundo morreu de desastre, Maria ficou para tia,
Joaquim suicidou-se e Lili casou com J. Pinto Fernandes
que não tinha entrado na história
'''

doc = nlp(texto)

In [None]:
displacy.serve(doc, style='ent', host='localhost', port=5001)


Using the 'ent' visualizer
Serving on http://localhost:5001 ...

Shutting down server on port 5001.


# Matches

In [None]:
from spacy.matcher import Matcher

nlp = load('pt_core_news_sm')

doc = nlp('''
Eduardo come batata
Fausto fez magia
Allan comerá as pizzas
 Saiu um vídeo novo da Live de python
''')
matcher = Matcher (nlp. vocab)

padrao = [
    {'POS':'PROPN'}, 
]

matcher.add('Regra A', [padrao])
matches = matcher(doc)

for id_, start, stop in matches:
    print(doc[start:stop].text)

Eduardo
Fausto
Allan
Live


In [None]:
from spacy.matcher import Matcher

nlp = load('pt_core_news_sm')

doc = nlp('''
Eduardo come batata
Fausto fez magia
Allan comerá pizzas
 Saiu um vídeo novo da Live de python
''')
matcher = Matcher (nlp. vocab)

padrao = [
    {'POS':'PROPN'}, 
    {'POS':'VERB'},
    {'POS':'NOUN'}
]

matcher.add('Regra A', [padrao])
matches = matcher(doc)

for id_, start, stop in matches:
    print(doc[start:stop].text)

Eduardo come batata
Fausto fez magia
Allan comerá pizzas


In [None]:
from spacy.matcher import Matcher

nlp = load('pt_core_news_sm')

doc = nlp('''
Eduardo come batata
Fausto fez magia
Allan comerá as pizzas
 Saiu um vídeo novo da Live de python
''')
matcher = Matcher (nlp. vocab)

padrao = [
    {'POS':'PROPN'}, 
    {'POS':'VERB'},
    {'POS':'NOUN'}
]

matcher.add('Regra A', [padrao])
matches = matcher(doc)

for id_, start, stop in matches:
    print(doc[start:stop].text)

Eduardo come batata
Fausto fez magia


## Padrão morfológico 

In [None]:
from spacy.matcher import Matcher

nlp = load('pt_core_news_sm')

doc = nlp('''
Eduardo cozinhou batata
Fausto fez magia
Allan comerá as pizzas
Saiu um vídeo novo da Live de python
''')
matcher = Matcher (nlp. vocab)

# --------------------------

padrao = [{'POS':'PROPN'},
          {'MORPH' : {'IS_SUPERSET': ['Tense=Past']}}]
# --------------------------

matcher.add('Regra A', [padrao])
matches = matcher(doc)

for id_, start, stop in matches:
    print(doc[start:stop].text)

Eduardo cozinhou
Fausto fez


In [None]:
visão = 'ABC'
visão 

'ABC'

In [None]:
essa_variável_é_ABC = 'ABC'
print(essa_variável_é_ABC)

ABC
