**NLP - Aula 5 - Extração de Informação e Reconhecimento de entidades nomeadas**
===============================

Durante a prática de hoje vamos testar alguns dos conceitos que vimos na aula e experimentar algumas funcionalidades da biblioteca Spacy.

Caso o Spacy não esteja instalado no seu ambiente, entrar no console do Anaconda e fazer as instalações da biblioteca e do português:

_conda install -c conda-forge spacy_

_python -m spacy download pt_

python -m spacy download en_core_web_sm

### Conhecendo a biblioteca ###

O objeto **nlp** contém o pipeline de processamento, incluindo regras específicas da linguagem para tokenização, entre outras.

O objeto é criado utilizando a biblioteca para carregar a linguagem específica. No nosso exemplo vamos utilizar:
``` python
spacy.load('pt_core_news_sm')
```

Após a criação do objeto, podemos carregar nele um texto e o retorno é um documento que possui tokens.

Crie o código para ler e imprimir o texto abaixo, seus tokens.

**O Bill Gates veio a Belo Horizonte visitar a UFMG mês passado?**

### A classe Token ###

Os tokens tem uma série de atributos, que podem ser utilizados para vários tratamentos. A lista completa pode ser vista na documentação 
https://spacy.io/api/token#attributes

Completando o código acima, para cada um dos tokens vamos imprimir as propriedades abaixo:

* ent_type_  : Tipo da entidade nomeada
* pos_ : Classificação 1 de POS

### Entendendo diferença entre palavras e pontuações ###

Como o spaCy entende que existe uma diferença entre uma palavra e uma pontuação, também podemos fazer filtragens. E se eu quisesse apenas as palavras da frase?

Utilize as propriedades *orth_*(que retorna o texto de um token) e *is_punct*(função que retorna se o token é uma pontuação) para imprimir somente as palavras da frase

### Lematização ###

A biblioteca SpaCy também retorna o *lemma_* na propriedade dos tokens.

Imprima os *lemmas* dos tokens da nossa frase. E na sequência imprima os lemas das quatro flexões verbais: **encontrei, encontraram, encontrarão, encontrariam**

### E agora as entidades nomeadas da frase ###

A classe **doc** retornada pelo tratamento nlp do texto retorna as *Entidades nomeadas* através de sua propriedade *doc.ents* 

Escreva o código para retornar a quantidade de entidades nomeadas do texto exemplo e a classificação de cada uma delas


Classifique o texto em inglês abaixo que tem mais entidades:

Barack Obama is an American politician who served as the 44th President of the United States from 2009 to 2017. He is the first African American to have served as president, as well as the first born outside the contiguous United States.

Vamos aproveitar e importar a biblioteca **displacy** para visualização amigável das entidades. https://spacy.io/usage/visualizers#jupyter

Caso tenha dúvida sobre alguma classe, pode usar a função **spacy.explain()**

Utilizando o *displacy* mostre as entidades da frase abaixo:

**José está se mudando para Califórnia. No dia 01/02/2020 ele irá partir.**

### Treinando um modelo ###

No exemplo acima a data não foi reconhecida. Outras frases como a seguinte também terão problema no reconhecimento:
* No dia 12/01/2010 Maria foi aprovada no vestibular

Podemos treinar um novo modelo para reconhecer o novo padrão de data. Esse mesmo método pode ser usado para criar modelo para novas entidades.


In [1]:
import random

def train_spacy(data,iterations):
    TRAIN_DATA = data
    nlp = spacy.blank('pt')  # create blank Language class
    # create the built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
    if 'ner' not in nlp.pipe_names:
        ner = nlp.create_pipe('ner')
        nlp.add_pipe(ner, last=True)
       

    # add labels
    for _, annotations in TRAIN_DATA:
         for ent in annotations.get('entities'):
            ner.add_label(ent[2])

    # get names of other pipes to disable them during training
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
    with nlp.disable_pipes(*other_pipes):  # only train NER
        optimizer = nlp.begin_training()
        for itn in range(iterations):
            random.shuffle(TRAIN_DATA)
            losses = {}
            for text, annotations in TRAIN_DATA:
                nlp.update(
                    [text],  # batch of texts
                    [annotations],  # batch of annotations
                    drop=0.2,  # dropout - make it harder to memorise data
                    sgd=optimizer,  # callable to update weights
                    losses=losses)           
    return nlp







In [None]:
# Crie seu TRAIN_DATA

#Chame a função de treinamento

# Salve seu novo modelo

#Teste com o texto inicial

In [2]:
# Teste com o texto "No dia 12/01/2010 Maria foi aprovada no vestibular"


### Gerando dados a partir de um artigo ###

Utilizando um artigo de notícia - Sugiro o **ca16** do Corpus **Brown**, leremos sentença a sentença e após vamos imprimir as entidades que mais apareceram na notícia.

In [4]:
#Recupere o texto citado da Brown

#Tokenize as sentenças na variável corpus

named_entities = []
for sentence in corpus:
    temp_entity_name = ''
    temp_named_entity = None
    sentence = nlp(sentence)
    for word in sentence:
        term = word.text 
        tag = word.ent_type_
        if tag:
            temp_entity_name = ' '.join([temp_entity_name, term]).strip()
            temp_named_entity = (temp_entity_name, tag)
        else:
            if temp_named_entity:
                named_entities.append(temp_named_entity)
                temp_entity_name = ''
                temp_named_entity = None

#Gerando o grafico das entidades
entity_frame = pd.DataFrame(named_entities, 
                            columns=['Entity Name', 'Entity Type'])

top_entities = (entity_frame.groupby(by=['Entity Name', 'Entity Type'])
                           .size()
                           .sort_values(ascending=False)
                           .reset_index().rename(columns={0 : 'Frequency'}))
top_entities.T.iloc[:,:15]

NameError: name 'corpus' is not defined

Se quiséssemos ver só o tipo de entidade agrupada. Gere o gráfico abaixo:

In [3]:
#Gerar o gráfico só do tipo de entidades