**NLP - Aula 5 - Extração de Informação e Reconhecimento de entidades nomeadas**
===============================

Durante a prática de hoje vamos testar alguns dos conceitos que vimos na aula e experimentar algumas funcionalidades da biblioteca Spacy.

Caso o Spacy não esteja instalado no seu ambiente, entrar no console do Anaconda e fazer as instalações da biblioteca e do português:

_conda install -c conda-forge spacy_

_python -m spacy download pt_

python -m spacy download en_core_web_sm

### Conhecendo a biblioteca ###

O objeto **nlp** contém o pipeline de processamento, incluindo regras específicas da linguagem para tokenização, entre outras.

O objeto é criado utilizando a biblioteca para carregar a linguagem específica. No nosso exemplo vamos utilizar:
``` python
spacy.load('pt_core_news_sm')
```

Após a criação do objeto, podemos carregar nele um texto e o retorno é um documento que possui tokens.

Crie o código para ler e imprimir o texto abaixo, seus tokens.

**O Bill Gates veio a Belo Horizonte visitar a UFMG mês passado?**

### A classe Token ###

Os tokens tem uma série de atributos, que podem ser utilizados para vários tratamentos. A lista completa pode ser vista na documentação 
https://spacy.io/api/token#attributes

Completando o código acima, para cada um dos tokens vamos imprimir as propriedades abaixo:

* ent_type_  : Tipo da entidade nomeada
* pos_ : Classificação 1 de POS

In [2]:
import spacy
nlp = spacy.load('pt_core_news_sm')
doc = nlp("O Bill Gates veio a Belo Horizonte visitar a UFMG mês passado.")

for token in doc:
    print(token.text, ' ', token.ent_type_, ' ', token.pos_)

O      DET
Bill   PER   PROPN
Gates   PER   PROPN
veio      VERB
a      ADP
Belo   LOC   PROPN
Horizonte   LOC   PROPN
visitar      VERB
a      DET
UFMG   LOC   PROPN
mês      NOUN
passado      VERB
.      PUNCT


### Entendendo diferença entre palavras e pontuações ###

Como o spaCy entende que existe uma diferença entre uma palavra e uma pontuação, também podemos fazer filtragens. E se eu quisesse apenas as palavras da frase?

Utilize as propriedades *orth_*(que retorna o texto de um token) e *is_punct*(função que retorna se o token é uma pontuação) para imprimir somente as palavras da frase

In [3]:
for token in doc:
    if not token.is_punct:
        print(token.orth_)

O
Bill
Gates
veio
a
Belo
Horizonte
visitar
a
UFMG
mês
passado


### Lematização ###

A biblioteca SpaCy também retorna o *lemma_* na propriedade dos tokens.

Imprima os *lemmas* dos tokens da nossa frase. E na sequência imprima os lemas das quatro flexões verbais: **encontrei, encontraram, encontrarão, encontrariam**

In [4]:
for token in doc:
    print(token.text, ' ', token.lemma_)

verbos = nlp('encontrei encontraram encontrarão encontrariam')
for v in verbos:
    print(v.lemma_)


O   O
Bill   Bill
Gates   Gates
veio   vir
a   o
Belo   Belo
Horizonte   Horizonte
visitar   visitar
a   o
UFMG   UFMG
mês   mês
passado   passar
.   .
encontrar
encontrar
encontrar
encontrar


### E agora as entidades nomeadas da frase ###

A classe **doc** retornada pelo tratamento nlp do texto retorna as *Entidades nomeadas* através de sua propriedade *doc.ents* 

Escreva o código para retornar a quantidade de entidades nomeadas do texto exemplo e a classificação de cada uma delas


In [5]:
print("Nº Entidades: {0}".format(len(doc.ents)))

for e in doc.ents:
    print(e, e.label_)

Nº Entidades: 3
Bill Gates PER
Belo Horizonte LOC
UFMG LOC


Classifique o texto em inglês abaixo que tem mais entidades:

Barack Obama is an American politician who served as the 44th President of the United States from 2009 to 2017. He is the first African American to have served as president, as well as the first born outside the contiguous United States.

Vamos aproveitar e importar a biblioteca **displacy** para visualização amigável das entidades. https://spacy.io/usage/visualizers#jupyter

In [9]:
from spacy import displacy


nlp = spacy.load("en_core_web_sm")
doc = nlp("Barack Obama is an American politician who served as the 44th President of the United States from 2009 to 2017. He is the first African American to have served as president, as well as the first born outside the contiguous United States.")

for e in doc.ents:
    print(e, e.label_)

displacy.render(doc, style='ent', jupyter=True)
displacy.render(doc, style='dep', jupyter=True)

Barack Obama PERSON
American NORP
44th ORDINAL
the United States GPE
2009 DATE
2017 DATE
first ORDINAL
African NORP
American NORP
first ORDINAL
United States GPE


Caso tenha dúvida sobre alguma classe, pode usar a função **spacy.explain()**

In [11]:
spacy.explain('NORP')

'Nationalities or religious or political groups'

Utilizando o *displacy* mostre as entidades da frase abaixo:

**José está se mudando para Califórnia. No dia 01/02/2020 ele irá partir.**

In [12]:
nlp = spacy.load('pt_core_news_sm')
doc = nlp('José está se mudando para Califórnia. No dia 01/02/2020 ele irá partir.')

displacy.render(doc, style='ent', jupyter=True)
displacy.render(doc, style='dep', jupyter=True)

### Treinando um modelo ###

No exemplo acima a data não foi reconhecida. Outras frases como a seguinte também terão problema no reconhecimento:
* No dia 12/01/2010 Maria foi aprovada no vestibular

Podemos treinar um novo modelo para reconhecer o novo padrão de data. Esse mesmo método pode ser usado para criar modelo para novas entidades.


In [14]:
import random

def train_spacy(data,iterations):
    TRAIN_DATA = data
    nlp = spacy.blank('pt')  # create blank Language class
    # create the built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
    if 'ner' not in nlp.pipe_names:
        ner = nlp.create_pipe('ner')
        nlp.add_pipe(ner, last=True)
       

    # add labels
    for _, annotations in TRAIN_DATA:
         for ent in annotations.get('entities'):
            ner.add_label(ent[2])

    # get names of other pipes to disable them during training
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
    with nlp.disable_pipes(*other_pipes):  # only train NER
        optimizer = nlp.begin_training()
        for itn in range(iterations):
            random.shuffle(TRAIN_DATA)
            losses = {}
            for text, annotations in TRAIN_DATA:
                nlp.update(
                    [text],  # batch of texts
                    [annotations],  # batch of annotations
                    drop=0.2,  # dropout - make it harder to memorise data
                    sgd=optimizer,  # callable to update weights
                    losses=losses)           
    return nlp







In [16]:
# Crie seu TRAIN_DATA
TRAIN_DATA = [
    ("No dia 01/02/2016 foi decretada a sentença.", {'entities':[(7,17, "DATE")]}),
    ("Meu filho nasceu numa tarde dia 30/08/2016.", {'entities':[(32,42, "DATE")]}),
    ("Em 04/07/2008 eu esqueci o que aconteceu.", {'entities':[(3,13, "DATE")]}),
    ("Você não sabe, mas no dia 08/02/1985 foi o dia em que eu nasci.", {'entities':[(26,36, "DATE")]}),
    ("Hoje é 05/09/2019, e eu só queria minha cama.", {'entities':[(7,17, "DATE")]})
]


#Chame a função de treinamento
mynlp = train_spacy(TRAIN_DATA, 20)

# Salve seu novo modelo
mynlp.to_disk("Carlos_NLP")

#Teste com o texto inicial
doc = mynlp("José está se mudando para Califórnia. No dia 01/02/2020 ele irá partir.")
displacy.render(doc, style='ent', jupyter=True)

In [17]:
# Teste com o texto "No dia 12/01/2010 Maria foi aprovada no vestibular"
doc = mynlp("No dia 12/01/2010 Maria foi aprovada no vestibular")
displacy.render(doc, style='ent', jupyter=True)

### Gerando dados a partir de um artigo ###

Utilizando um artigo de notícia - Sugiro o **ca16** do Corpus **Brown**, leremos sentença a sentença e após vamos imprimir as entidades que mais apareceram na notícia.

In [22]:
import nltk
nltk.download('brown')

from nltk.corpus import brown
from nltk.tokenize import sent_tokenize
import pandas as pd
nlp = spacy.load("en_core_web_sm")


#Recupere o texto citado da Brown
news = brown.raw('ca16')

print(news)

#Tokenize as sentenças na variável corpus
corpus = sent_tokenize(news)

named_entities = []
for sentence in corpus:
    temp_entity_name = ''
    temp_named_entity = None
    sentence = nlp(sentence)
    for word in sentence:
        term = word.text 
        tag = word.ent_type_
        if tag:
            temp_entity_name = ' '.join([temp_entity_name, term]).strip()
            temp_named_entity = (temp_entity_name, tag)
        else:
            if temp_named_entity:
                named_entities.append(temp_named_entity)
                temp_entity_name = ''
                temp_named_entity = None

#Gerando o grafico das entidades
entity_frame = pd.DataFrame(named_entities, 
                            columns=['Entity Name', 'Entity Type'])

top_entities = (entity_frame.groupby(by=['Entity Name', 'Entity Type'])
                           .size()
                           .sort_values(ascending=False)
                           .reset_index().rename(columns={0 : 'Frequency'}))
top_entities.T.iloc[:,:15]

[nltk_data] Downloading package brown to
[nltk_data]     D:\Users\542229\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!


	Romantic/jj news/nn concerns/vbz Mrs./np Joan/np Monroe/np Armour/np and/cc F./np Lee/np H./np Wendell/np ,/, who/wps are/ber to/to be/be married/vbn at/in 4:30/cd p.m./rb tomorrow/nr in/in the/at Lake/nn-tl Forest/nn-tl home/nn of/in her/pp$ brother/nn ,/, J./np Hampton/np Monroe/np ,/, and/cc Mrs./np Monroe/np ./.
Only/rb the/at families/nns and/cc a/at dozen/nn close/jj friends/nns will/md be/be present/rb ./.


	The/at bride's/nn$ brother/nn ,/, Walter/np D./np Monroe/np Jr./np ,/, will/md give/vb her/ppo in/in marriage/nn ./.
In/in the/at small/jj group/nn will/md be/be the/at junior/jj and/cc senior/jj Mrs./np Walter/np Monroe/np ;/. ;/.
the/at bridegroom's/nn$ parents/nns ,/, the/at Barrett/np Wendells/nps ,/, who/wps are/ber returning/vbg from/in a/at winter/nn holiday/nn in/in Sarasota/np ,/, Fla./np ,/, for/in the/at occas




Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
Entity Name,Chicago,Johnny,Italian,Tarzan,Monroe,Jane,Mr./np Wendell,Danny,Geraghty,George,Room / nn -,Ray,Paris,United / vbn - tl,Helen
Entity Type,GPE,PERSON,NORP,PERSON,PERSON,PERSON,PERSON,PERSON,PERSON,PERSON,ORG,PERSON,GPE,ORG,PERSON
Frequency,7,4,4,4,3,3,3,3,2,2,2,2,2,2,2


Se quiséssemos ver só o tipo de entidade agrupada. Gere o gráfico abaixo:

In [25]:
#Gerar o gráfico só do tipo de entidades
top_entities = (entity_frame.groupby(by=['Entity Type'])
                           .size()
                           .sort_values(ascending=False)
                           .reset_index().rename(columns={0 : 'Frequency'}))
top_entities.T.iloc[:,:15]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
Entity Type,PERSON,ORG,GPE,NORP,DATE,CARDINAL,TIME,WORK_OF_ART,ORDINAL,MONEY,LOC,LANGUAGE,FAC
Frequency,82,73,44,6,6,5,3,2,1,1,1,1,1
