In [1]:
import spacy
nlp = spacy.load('pt_core_news_lg')

In [2]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [3]:
corpus = nlp("as ações da Magazine Luisa S.A., França e Brasil, acumulam baixa de 70%")

print(len(corpus))

print(type(corpus))

16
<class 'spacy.tokens.doc.Doc'>


## Propriedades, dessa forma de verdadeiro e falso, podemos remover itens que não queremos na nossa mineração.


In [4]:
print("Tokens: ",[token.text for token in corpus])
print("stop word: ",[token.is_stop for token in corpus])
print("Alfanumerico: ",[token.is_alpha for token in corpus])
print("Maiusculo: ",[token.is_upper for token in corpus])
print("Pontuação: ",[token.is_punct for token in corpus])
print("numero: ",[token.like_num for token in corpus])
print("Sentença Inicial: ",[token.is_sent_start for token in corpus])
print("Sentença final: ",[token.is_sent_end for token in corpus])

Tokens:  ['as', 'ações', 'da', 'Magazine', 'Luisa', 'S.A.', ',', 'França', 'e', 'Brasil', ',', 'acumulam', 'baixa', 'de', '70', '%']
stop word:  [True, False, True, False, False, False, False, False, True, False, False, False, False, True, False, False]
Alfanumerico:  [True, True, True, True, True, False, False, True, True, True, False, True, True, True, False, False]
Maiusculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, False, False, True, False, False, False, False, True]
numero:  [False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False]
Sentença Inicial:  [True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Sentença final:  [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True]


## para vizualizar o Formato

In [5]:
print("Tokens: ",[token.text for token in corpus])
print("Formato: ",[token.shape_ for token in corpus])

Tokens:  ['as', 'ações', 'da', 'Magazine', 'Luisa', 'S.A.', ',', 'França', 'e', 'Brasil', ',', 'acumulam', 'baixa', 'de', '70', '%']
Formato:  ['xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', 'x', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%']


## entendimento

| POS   | Descrição                | Exemplos                  |
|-------|--------------------------|---------------------------|
| ADJ   | Adjetivo                 | pequeno, bonito, grande   |
| ADP   | Aposição                 | Entre, para, durante      |
| ADV   | Advérbio                 | Muito, mais, bastante     |
| AUX   | Verbo Auxiliar           | Havia, tinha              |
| CONJ  | conjunção                | E, ou, assim              |
| CCONJ | conjunção coordenativa   | que, porque, pois         |
| DET   | determinante             | Este, aquela, tal         |
| INTJ  | interjeição              | Ah!, Coitado, basta       |
| NOUN  | Substantivo              | Cachorro, mesa, casa      |
| NUM   | Número                   | Um, dois, cem             |
| PART  | Partícula                | Não, sim, não obstante    |
| PRON  | Pronome                  | Eu, você, ele             |
| PROPN | Nome próprio             | João, Brasil, Coca-Cola   |
| PUNCT | Pontuação                | ., ?, !, ...              |
| SCONJ | Conjunção subordinativa  | que, quando, se           |
| SYM   | Símbolo                  | %, +, @, #                |
| VERB  | Verbo                    | Correr, escrever, cantar  |
| X     | Outros                   | N/A                       |
| SPACE | Espaço                   |                           |

In [6]:
for token in corpus:
    print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)

as  -  DET  -  det  -  o  -  xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
da  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luisa  -  PROPN  -  appos  -  Luisa  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
França  -  PROPN  -  conj  -  França  -  Xxxxx
e  -  CCONJ  -  cc  -  e  -  x
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumulam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %


In [7]:
for token in corpus:
    print(token.text, " - ", token.morph)

as  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luisa  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
França  -  Gender=Fem|Number=Sing
e  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumulam  -  Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  


In [8]:
for token in corpus:
    print(token.text, " - ", token.tag_)

as  -  DET
ações  -  NOUN
da  -  ADP
Magazine  -  PROPN
Luisa  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
França  -  PROPN
e  -  CCONJ
Brasil  -  PROPN
,  -  PUNCT
acumulam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM


## Quando se trata de entidades - locais ou itens especificos

In [9]:
corpus_ent = nlp("EDITAL DE CITAÇÃO COM PRAZO DE  30 DIAS  O DOUTOR ELVO PIGARI JÚNIOR JUIZ DE DIREITO SUBSTITUTO DA 7.ª VARA CÍVEL DA COMARCA DE BOA VISTA/RR  CITAÇÃO DE: FRANCISCO JOSÉ CARDOSO,  brasileiro, casado, autônomo, estando em lugar incerto e não sabido.  FINALIDADE: Para tomar conhecimento dos termos do Processo n.º 0010 02 045927 -6, Ação de DIVÓRCIO LITIGIOSO , em que são partes: Requerente(s) L.L.C.  e Requerido(a) F.J.C. , e ciência do ônus de comparecer a audiência de Conciliação  designada para o dia 14/03/2003 às 10h30min,  na sala de audiências deste Juízo, acompanhada de advogado, sob as penas da lei. A partir desta data correrá o prazo de 15 (quin ze) dias para apresentar contestação, sob pena de não o fazendo, presumirem -se como verdadeiros os fatos articulados pelo(a) autor(a) da inicial.  SEDE DO JUÍZO : 7.ª Vara Cível – Edifício do Fórum Advogado Sobral Pinto – Praça do Centro Cívico, s/n – Cent ro – Boa Vista/RR.  Dado e passado nesta Cidade de Boa Vista, Capital do Estado de Roraima aos oito dias do mês de janeiro do ano de dois mil e três. Eu, P.G.J. (Técnica Judiciária) o digitei.  ELVO PIGARI JÚNIOR Juiz de Direito ")

In [10]:
for ent in corpus_ent.ents:
    print(ent.text, " - ", ent.label_)

ELVO PIGARI JÚNIOR JUIZ DE DIREITO SUBSTITUTO DA  -  MISC
BOA VISTA  -  LOC
RR  CITAÇÃO DE  -  ORG
FRANCISCO JOSÉ CARDOSO  -  PER
FINALIDADE  -  ORG
Processo n.º 0010 02  -  MISC
Ação de DIVÓRCIO LITIGIOSO  -  MISC
Requerente(s  -  MISC
L.L.C.  -  MISC
Requerido(a  -  ORG
F.J.C.  -  PER
Conciliação  designada para o dia 14/03/2003  -  MISC
Juízo  -  LOC
quin ze  -  ORG
DO JUÍZO  -  MISC
Vara Cível  -  LOC
Edifício do Fórum Advogado Sobral Pinto  -  LOC
Praça do Centro Cívico  -  LOC
Boa Vista  -  LOC
RR  -  LOC
Cidade de Boa Vista  -  LOC
Capital  -  LOC
Estado  -  LOC
Roraima  -  LOC
P.G.J.  -  LOC
Técnica Judiciária  -  LOC
PIGARI JÚNIOR  -  PER
Juiz de Direito  -  LOC


### para adicionar paralavra a stop words

In [11]:
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

### para remover as stop words do nosso texto

In [12]:
token_list = []
for token in corpus_ent:
    token_list.append(token.text)

stop_lista = []
for words in nlp.Defaults.stop_words:
    stop_lista.append(words)

semstop = [word for word in token_list if not word in stop_lista]

print(corpus_ent.text)
print(semstop)

EDITAL DE CITAÇÃO COM PRAZO DE  30 DIAS  O DOUTOR ELVO PIGARI JÚNIOR JUIZ DE DIREITO SUBSTITUTO DA 7.ª VARA CÍVEL DA COMARCA DE BOA VISTA/RR  CITAÇÃO DE: FRANCISCO JOSÉ CARDOSO,  brasileiro, casado, autônomo, estando em lugar incerto e não sabido.  FINALIDADE: Para tomar conhecimento dos termos do Processo n.º 0010 02 045927 -6, Ação de DIVÓRCIO LITIGIOSO , em que são partes: Requerente(s) L.L.C.  e Requerido(a) F.J.C. , e ciência do ônus de comparecer a audiência de Conciliação  designada para o dia 14/03/2003 às 10h30min,  na sala de audiências deste Juízo, acompanhada de advogado, sob as penas da lei. A partir desta data correrá o prazo de 15 (quin ze) dias para apresentar contestação, sob pena de não o fazendo, presumirem -se como verdadeiros os fatos articulados pelo(a) autor(a) da inicial.  SEDE DO JUÍZO : 7.ª Vara Cível – Edifício do Fórum Advogado Sobral Pinto – Praça do Centro Cívico, s/n – Cent ro – Boa Vista/RR.  Dado e passado nesta Cidade de Boa Vista, Capital do Estado de

## cada palavra é marcada por um hash assim depois que registrada ela só é solicidatada novamente como referencia

In [13]:
print("HASH: ", nlp.vocab.strings["Roraima"])
print("Hash: ", corpus_ent.vocab.strings["Roraima"])
print("String: ", nlp.vocab.strings[17702767368834614664])

HASH:  17702767368834614664
Hash:  17702767368834614664
String:  Roraima


In [14]:
lex = nlp.vocab['Roraima']
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

Roraima  -  17702767368834614664  -  True  -  False


### coso quisermos ver qual a relação da palavra selecionada com outras

In [15]:
print(nlp("Roraima").vector.shape)

(300,)


In [16]:
print(nlp("Roraima").vector)

[ 1.0938   -0.061624 -1.852     0.32959  -0.34322   2.5927    0.53536
  0.18039  -0.49738   1.2613    0.95366  -0.51449  -0.86224  -0.10376
  0.74782  -0.1987   -0.52606   0.86719   0.28412  -1.3181    0.41129
  0.32602   0.46123  -0.77232  -0.70063  -1.6201   -0.52666   1.9332
  1.0388   -0.18278   1.5024    1.3986    2.157     0.90462   1.8263
 -0.40849   0.38575   0.13716  -1.4513   -0.031369 -0.55159   1.2791
  1.0874   -0.50886   2.5338    0.89888  -0.40607   1.3009    0.43228
  0.60618   0.78351  -2.2509   -0.3501   -0.094988  0.20098   1.3304
 -0.32056   0.35946  -0.51979   0.91104   0.54594   0.52751   0.79509
 -0.99128  -1.454    -1.6936    0.41625  -0.29888  -1.7103    1.214
 -0.40157   0.15176   0.84837  -0.76181  -1.111     1.944    -0.24558
 -0.71593  -0.86187   0.28173  -1.8448    1.7714   -0.371     1.1384
 -0.46247  -1.128    -1.3554    0.079491 -1.8408   -0.52081  -1.5859
  0.094489 -1.2738    1.0524   -0.32918  -1.2094    0.97167   0.1427
  0.4039   -1.3466   -1.0721 

### busca de similaridades vs matcher

- similaridade retorna um valor ( metrica 0 a 1 )
- match busca um padrão, semelhante a uma expressão regular

In [17]:
doc_1 = nlp("ele viajou com a amiga de carro")
doc_2 = nlp("ela viajou com o amigo de carro")

In [18]:
print(doc_1.similarity(doc_2))
print(doc_2.similarity(doc_1))

0.807984647758134
0.807984647758134


In [19]:
doc_3 = nlp("ele pede descrição, ele pede discrição")
partA = doc_3[0:3]
print(partA)
partB = doc_3[4:7]
print(partB)
print(partA.similarity(partB))

ele pede descrição
ele pede discrição
0.9600715041160583


### no uso do match é semlhante a expressões regulares

In [27]:
from spacy.matcher import Matcher

doc_4 = nlp("Você pode ligar para (11) 4002-8922 ou (21) 40040707")

matcher = Matcher(nlp.vocab)
padrao_1 = [{"ORTH":"("},{"SHAPE":"dd"},{"ORTH":")"},{"ORTH":"-", "OP":"?"}, {"IS_DIGIT":True}]
padrao_2 = [{"ORTH":"("},{"SHAPE":"dd"},{"ORTH":")"},{"ORTH":"-", "OP":"?"}, { "SHAPE":"dddd"},{"ORTH":"-","OP":"?"}, { "SHAPE":"dddd"}]
matcher.add("telefone", [padrao_1, padrao_2])
matches = matcher(doc_4)
for id, inicio, fim in matches:
    print(doc_4[inicio:fim])

(21) 40040707


In [22]:
doc_5 = nlp("Estamos infectados com micro organismos, os microorganismos são perigosos, pois os não exergamos os micro-organismos")
matcher = Matcher(nlp.vocab)
padrao_3 = [{"LOWER":"micro"},{"LOWER":"organismos"}]
padrao_4 = [{"LOWER":"micro-organismos"}]
padrao_5 = [{"LOWER":"microorganismos"}]
matcher.add("micro", [padrao_3, padrao_4, padrao_5])
matches = matcher(doc_5)
for id, inicio, fim in matches:
    print(doc_5[inicio:fim])

micro organismos
microorganismos
micro-organismos


## Dispalcy
- permite vizualizar

In [34]:
from spacy import displacy

displacy.render(corpus_ent, style="ent", jupyter=True)

In [47]:
doc_5.user_data['title'] = "EXEMPLO de uso"
displacy.render(doc_5, style="dep", jupyter=True, options={ 'distance':70, 'font':'Arial'})

## Desenvolvimento de pipeline

In [49]:
print("PIPELINE normal: ", nlp.pipe_names)

PIPELINE normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [53]:
nlp.remove_pipe('tok2vec')
print("PIPELINE sem tok2vec: ", nlp.pipe_names)

PIPELINE sem tok2vec:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [54]:
nlp.add_pipe('tok2vec', before="morphologizer")
print("PIPELINE com tok2vec: ", nlp.pipe_names)

PIPELINE com tok2vec:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
