<a href="https://colab.research.google.com/github/JacoMiranda/Projeto/blob/master/1_Pre_processando_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#conda install -c conda-forge spacy
#pip install spacy

import spacy as sp
import sys
!{sys.executable} -m spacy download en
!{sys.executable} -m spacy download en_core_web_md
!{sys.executable} -m spacy download pt_core_news_sm



# Introdução a NLP com SPACY

Texto natural, ou texto não-estruturado, sempre foi um grande desafio para sistemas de computação. As gramáticas das linguas naturais são geradas a partir do uso comum, e não o inverso como ocorre nas linguagens de programação.

Assim, uma mesma ideia pode ser expressada de diversas formas diferentes, utilizando palavras e estruturas gramaticais diferentes.

Isto é um _inferno_ para quem quer extrair informação de texto utilizando computadores. 

Durante anos, uma subárea da computação tem se focado na leitura, normalização e extração de informações de texto natural: O __Processamento de Linguagem Natural__.

Neste curso iremos ver de modo superficial como usar bibliotecas Python chamadas _Spacy_, _gensim_ e _huggingface_ para este processamento. Iniciaremos com a Spacy.

Spacy é uma biblioteca extremamente versátil, que pode ser utilizada em diversas linguas. Para tal, você deve baixar um _modelo_ treinado em um _corpus_ específico da linguagem que você pretende processar. 

Este modelo é um conjunto de técnicas estatísticas e de aprendizagem de máquina que são treinadas usando um conjunto de textos previamente anotados (o tal _corpus_).

Exemplo:

 - _en\_core\_web\_sm_ - Modelo treinado na lingua inglesa com blogs e paginas Web.
 - _pt_core_news_md_ - Modelo treinado na lingua inglesa com blogs e paginas Web e com vetores pre treinados pra 20k palavras.
 
Como este será um curso eminentemente prático, vamos ver o que isto significa botando a mão na massa.

In [None]:
nlp = sp.load('en_core_web_sm')
pln = sp.load('pt_core_news_sm')

## Processando Linguagem Natural

Normalmente, ao trabalhar com texto, o primeiro passo é tentar __estruturar__ as informações. E isto é muito mais complicado do que parece. 

Uma pessoa genérica, como uma personagem de novela da globo, poderia dizer algo como:

> Eu acho que estou com vontade de tomar uma cervejinha. Vamos?

Enquanto um Manauara em um contexto informal poderia expressar a mesma idéia na forma:

> Rapaz, um cerveja agora hein, eu tomava eu. Bura lá?

Apesar da forma, ordem e escolha de palavras radicalmente diferentes, ambas sentenças expressam uma mesma vontade: _tomar uma cerveja_. E o grande desafio é que os programas entendam as duas como __semanticamente equivalentes__.

Uma vantagem para vocês é que vivemos no futuro, então temos tudo isso de forma muito mais mastigada e pronta para usar.

Em um nível mais alto, chamamos todas as ações para organizar e extrair informações de texto de _pipeline de preprocessamento_:



![image.png](attachment:d931f990-afbf-48c9-beaa-b04625185eb9.png)

![image.png](attachment:b5a7084c-2beb-4d22-bfa6-26e4dca53540.png)

## Tokenização

Normalmente, o primeiro passo ao se processar texto é transformar a _string_, um conjunto(__vetor, na verdade__) de _caracteres_, em um vetor de __palavras__ (e números, pontuação, etc). Este processo é chamado de _tokenização_

In [None]:
dpt = pln("Eu acho que estou com vontade de tomar uma cervejinha. Vamos?")
doc = nlp("I am flying to NY")
print([w.text for w in doc])

Na função `nlp` a sentença inteira é processada e diversas estruturas são geradas para auxiliar neste processo. 

Com relação a tokenição, ela gera um objeto com diversas informações a respeito de cada _token_. 

Para ajudar a visualizar o que o pode ser feito, dêem uma olhada na demo em https://explosion.ai/demos/displacy

## Lematização

Um lema é a forma básica de um token. Imagine que seria como a forma que um token apareceria em um dicionário, sem plurais e inflexões.

Vamos ver como extrair lemas com o Spacy.

In [None]:
#for token in dpt:
for token in nlp(u'this product integrates both libraries for downloading and applying patches'):
    print(token.text,token.lemma_)

this this
product product
integrates integrate
both both
libraries library
for for
downloading download
and and
applying apply
patches patch


### Reconhecendo Significados com Lematização

Lematização é importante para facilitar o reconhecimento de significados. Veja novamente a frase abaixo:

`I am flying to NY`

Imagine que a frase foi submetida para um chatbot que gerencia reservas de viagens, podendo estas ser de avião, trem ou ônibus. É importante que o sistema identifique na frase qual ação ele vai tomar (_fly_) e para onde (_New York_).

Desta forma, pode-se procurar por verbos específicos de acordo com o modal de transporte, sem se preocupar com inflexões.


### Part-of-Speech Tagging (ou análise morfológica)

POS tagging é o ato de identificar, para cada palavra, a sua função morfológica (substantivo, verbo, objeto, etc). Isto é importante pois a função de uma palavra pode mudar radicalmente de acordo com o __contexto__ em que ela aparece em uma frase.

No spaCy, as POS-tags tem informações detalhadas de cada token, como tempo verbal, pessoa (primeira, segunda, terceira), numeral (singular ou plural), entre outros.

Extrair verbos de texto pode ajudar a identificar intenções quando lematização não for o suficiente. Em cenários reais, é muito comum que diversas sentenças 



In [None]:
doc = nlp(u'John and I went to the park.')
for token in doc:
    print(token.text,token.pos_,sp.explain(token.pos_))

John PROPN proper noun
and CCONJ coordinating conjunction
I PRON pronoun
went VERB verb
to ADP adposition
the DET determiner
park NOUN noun
. PUNCT punctuation


In [None]:
#faça um teste aqui com uma frase em portugues
frase = pln(u'Eu estou estudando processamento em linguagem natural com python')
for token in frase:
  print(token.text, token.pos_,sp.explain(token.pos_))

Eu PRON pronoun
estou VERB verb
estudando VERB verb
processamento NOUN noun
em ADP adposition
linguagem NOUN noun
natural ADJ adjective
com ADP adposition
python PROPN proper noun


Como você pode ver, o Spacy consegue identificar, para cada palavra, qual a sua função sintática. Como ninguém aqui é obrigado a saber abreviações sintáticas de inglês, tem aqui uma tabelinha pra facilitar suas vidas. _De nada!_.

![image.png](attachment:b88d3cbc-3072-42e0-883d-a57bccb1b600.png)

Com análise sintática (ou POS tegging), já é possível extrair muita informação de texto, como quais são os verbos (ações), sujeitos, adjetivos e muito mais.

## Exercicio:

Faça um trecho de código em python para extrair os verbos dos textos abaixo:



In [None]:
stri = u'spaCy (/speɪˈsiː/ spay-SEE) is an open-source software library for advanced natural language processing, written in the programming languages Python and Cython.[3][4] The library is published under the MIT license and its main developers are Matthew Honnibal and Ines Montani, the founders of the software company Explosion.Unlike NLTK, which is widely used for teaching and research, spaCy focuses on providing software for production usage.[5][6] spaCy also supports deep learning workflows that allow connecting statistical models trained by popular machine learning libraries like TensorFlow, PyTorch or MXNet through its own machine learning library Thinc.[7][8] Using Thinc as its backend, spaCy features convolutional neural network models for part-of-speech tagging, dependency parsing, text categorization and named entity recognition (NER). Prebuilt statistical neural network models to perform these tasks are available for 17 languages, including English, Portuguese, Spanish, Russian and Chinese, and there is also a multi-language NER model. Additional support for tokenization for more than 65 languages allows users to train custom models on their own datasets as well.[9]'
case = """Navigate to hotmail.com
Enter the email address of the registered user in the ’email’ field.
Enter the password of the registered user
 Click the ‘Next’ button.
Click ‘Log in’"""
    

## Extraindo dependências sintáticas

Muitas vezes, apenas extrair o verbo não é suficiente. Pra poder entender melhor o texto, pode ser importante também a _relação_ entre as palavras. Não basta saber que X é verbo e Y é substantivo, é importante também saber que Y é objeto direto do verbo X.

In [None]:
from spacy import displacy

displacy.render(doc, style="dep")
op = {"compact": True, "bg": "#09a3d5",
      "color": "white", "font": "Source Sans Pro"}
#displacy.render(doc, style="dep",options=op)

Como você pode ver bem, a análise sintática gera uma __árvore__ de dependências na sentença (ou múltiplas, a depender). Os rótulos de dependência novamente estão em inglês. Eis alguns comuns:

![image.png](attachment:a46a060c-0bcb-48fd-8e8b-8b3d017aba30.png)

Por ser uma árvore, obviamente ela deve ter um nó raiz (Root) que é um token cuja dependência é de si mesmo. Vamos testar algumas frases:

In [None]:
doc = nlp(u'I have flown to LA. Now I am flying to Frisco.')
for token in doc:
    print(token.text,token.pos_,token.dep_,sp.explain(token.dep_))


I PRON nsubj nominal subject
have AUX aux auxiliary
flown VERB ROOT None
to ADP prep prepositional modifier
LA PROPN pobj object of preposition
. PUNCT punct punctuation
Now ADV advmod adverbial modifier
I PRON nsubj nominal subject
am AUX aux auxiliary
flying VERB ROOT None
to ADP prep prepositional modifier
Frisco PROPN pobj object of preposition
. PUNCT punct punctuation


Legal, mas isso não mostra _de quem_ cada token depende. Para ver isso você pode acessar `token.head` :

In [None]:
for token in doc:
    print(token.text,token.pos_,token.dep_,token.head.text)

I PRON nsubj flown
have AUX aux flown
flown VERB ROOT flown
to ADP prep flown
LA PROPN pobj to
. PUNCT punct flown
Now ADV advmod flying
I PRON nsubj flying
am AUX aux flying
flying VERB ROOT flying
to ADP prep flying
Frisco PROPN pobj to
. PUNCT punct flying


Um exemplo de como usar isto é, por exemplo, extrair apenas verbos e seus objetos diretos ou indiretos:

In [None]:
for sent in doc.sents: #Extrai sentença por sentença
    print([w.text for w in sent if w.dep_ == 'ROOT' or w.dep_ == 'pobj' or w.dep_ == 'dobj'])

['Enter', 'screen', 'Browser']


### Chunking

Como pode ser visto, muitas vezes um conjunto de palavras pode ter um único significado. Por exemplo, na frase abaixo, o atributo noun_chunks guarda os conjuntos de palavras que tem função de locução substantiva:

In [None]:
sent = "Enter the configuration screen of the Web Browser."
doc = nlp(sent)
for chunk in doc.noun_chunks:
   print(chunk.text)

#for chunk in pln("Entre na tela de configurações do navegador Web").noun_chunks:
 #  print(chunk.text)


the configuration screen
the Web Browser


## Navegando nas dependências.

De posse da árvore de dependências, podemos navegar pela sentença, tanto usando chunking quanto tokens individuais.

In [None]:
for chunk in doc.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_,
    chunk.root.head.text)

the configuration screen screen dobj Enter
the Web Browser Browser pobj of


In [None]:
for token in doc:
    print(token.text,token.pos_, token.dep_, token.head.text, token.head.pos_,
    [child for child in token.children])

Enter VERB ROOT Enter VERB [screen, .]
the DET det screen NOUN []
configuration NOUN compound screen NOUN []
screen NOUN dobj Enter VERB [the, configuration, of]
of ADP prep screen NOUN [Browser]
the DET det Browser PROPN []
Web PROPN compound Browser PROPN []
Browser PROPN pobj of ADP [the, Web]
. PUNCT punct Enter VERB []


### Exercício:

Faça funções que:

- Retornem todos os verbos de uma string
- Retorne pares Verbo, Objeto (direto ou indireto) de uma string
- Retorne pares Substantivo, Adjetivos de uma string

In [None]:
def verbos(s,mod=pln):
  return [w for w in mod(s) if w.pos_ == 'VERB']

def verbosObj(s):
  return 'vobj'

def subsAdj(s):
  return 'sadj'
verbos("testando e programando para utilizar multiplos modelos",)

[testando, programando, utilizar]

## Reconhecendo entidades nomeadas

Uma entidade nomeada é qualquer objeto que pode ser chamado por um nome próprio (ou seja, um substantivo próprio). Uma atividade comum em processamento de texto é a extração de entidades, bem como a identificação de qual tipo de entidade é esta.

O processamento padrão do Spacy já identifica entidades nomeadas:


In [None]:

doc = nlp(u'I have flown to LA. Now I am flying to Frisco.')
for token in doc:
    if token.ent_type != 0:
        print(token.text, token.ent_type_)

LA GPE
Frisco ORG


In [None]:
doc = nlp(u'Microsoft has offices all over Europe.')
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Microsoft 0 9 ORG
Europe 31 37 LOC


Entidades nomeadas podem ter os seguintes tipos:

 - PERSON: Pessoas, incluindo fictícias.
 - NORP: Nacionalidades, religiões e grupos politicos.
 - FACILITY: Predios, aeroportos, pontes, etc.
 - ORG: Empresas, instituições, etc.
 - GEP: Cidade, estado ou país.
 - LOC: Localidades não GEP (montanhas, rios, etc).
 - PRODUCT: Objetos, veículos, comida e etc.
 - EVENT: Batalhas, eventos esportivos, furacões, guerras, etc.
 - WORK_OF_ART: Títulos de Livros, músicas, filmes, etc.
 - LAW: Documentos legais nomeados.
 - LANGUAGE: Nome de linguas.

In [None]:
#Verifique aqui o funcionamento em português.


In [None]:
ex = "George Washington was an American political leader, \
military general, statesman, and Founding Father who served as the \
first president of the United States from 1789 to 1797.\n"

doc = nlp(ex)
for token in doc.ents:
    print(token.text, token.start_char, token.end_char, token.label_)

George Washington 0 17 PERSON
American 25 33 NORP
first 119 124 ORDINAL
the United States 138 155 GPE
1789 to 1797 161 173 DATE


In [None]:
displacy.render(doc, style='ent', jupyter=True, options={'distance': 120})