# Final Work of Machine Learning Discipline

### Tipo de problema
NER - Named Entity Recognition.

Neste tipo de problema um modelo de predição para textos tentará predizer da melhor maneira possível quais são as entidades em um texto. Os problemas de NER surgem devido diversas maneiras de expressar uma determinada coisa e também onde uma coisa pode significar várias outras.
A língua Portuguesa por exemplo possui muitos tempos verbais e maneiras de conjugação de verbos.

Ex: conjugar, conjugado, conjugaria, conjugarei, conjugaríamos, conjugaríeis, conjugaste, conjugou, conjuguemos...

Tente explicar por exemplo para um extrangeiro a diferença entre "bota a calça e calça a bota".

### Problema
O problema a ser resolvido com a resolução deste trabalho é utilizar um dataset com milhares de textos e palavras rotulados e a partir de um modelo de predições de texto realizar o ranqueamento das melhores classificações de entidades.

Nós nos focaremos em 4 tipos de named entities: persons, locations, organizations e nomes de demais entidades que não pertençam as anteriores.

### Datasets
Será utilizado um dataset amplamente difundido que foi utilizado primariamente na Conference on Computational Natural Language Learning (CoNLL-2003) acessível a partir do seguinte link: https://www.clips.uantwerpen.be/conll2003/ner/

### Divisão do dataset
O primeiro item de cada linha é uma palavra. O segundo é um Part-of-Speech (POS) tag. O terceiro é uma tag de fragmento sintático. A quarta é a tag de entidade nomeada.

As tags de fragmento e os nomes de entidades tem o formato I-TYPE que significa que a palavra está dentro de uma frase do tipo TYPE.

 Uma palavra com a tag O não é parte de uma frase.

### Divisão do dataset - rows
Os arquivos de dados de tarefas compartilhadas CoNLL-2003 contêm quatro colunas separadas por um único espaço.

- O primeiro item de cada linha no dataset é uma palavra.  
- O segundo é um Part-of-Speech (POS) tag. 
- O terceiro é uma tag de fragmento sintático. 
- A quarta é a tag de entidade nomeada.

As tags de fragmento e os nomes de entidades tem o formato I-TYPE que significa que a palavra está dentro de uma frase do tipo TYPE.

 Uma palavra com a tag O não é parte de uma frase.

### Ferramenta
Será utilizado o [Spacy](https://spacy.io/)
 que é uma ferramenta para o emprego de técnicas de Processamento de Linguagem Natural - PLN. Será utilizado voltado ao NER - Named Entity Recognition.

O Spacy é uma ferramenta de código aberto muito poderosa que já possui diversos modelos prontos para uso para diversos idiomas.

Será utilizado o modelo para classificação de textos em inglês.

Algumas funções do spacy estão definidas mais abaixo no documento.

In [None]:
#U.N.         NNP  I-NP  I-ORG 
#official     NN   I-NP  O 
#Ekeus        NNP  I-NP  I-PER 
#heads        VBZ  I-VP  O 
#for          IN   I-PP  O 
#Baghdad      NNP  I-NP  I-LOC 
#.            .    O     O 

### Divisão dos arquivos de dados
A divisão dos arquivos do dataset se dão da seguinte forma:
    - Consiste de 3 arquivos por linguagem
    - Um arquivo de treino
    - Dois arquivos de teste, testeA e testeB
    - O primeiro arquivo de teste será usado em produção para encontrar os melhores parametros
    - O segundo arquivo de teste será usado para a avaliação final
    - Os dados estão disponíveis em dois datasets, um em Inglês e também em Alemão. Para o propósito deste trabalho será usado apenas a versão em inglês.
   

### Arquivos
- eng.raw.tar   - 13,930 MB - Conjunto de dados em inglês
- ner.tgz       - 3,374  MB - Contém o software para fazer o build dos dados
- 000README.txt - 8      KB - Instruções para descompactação

Os dados em inglês são uma coleção de artigos de notícias do Reuters Corpus.

### Métricas de Avaliação
A competição utiliza três métricas principais que são:
- Precision
- Recall
- F-Score

Precision é a porcentagem de named entities encontradas pelo sistema de aprendizado que estão corretas.

Recall é a porcentagem de named entities presentes no Corpus que são encontradas pelo sistema.

Uma named entity só está correta se for uma correspondência exata da entidade correspondente no
arquivo de dados.

### Training data: Examples and their annotations.

### Text: The input text the model should predict a label for.

### Label: The label the model should predict.

### Gradient: Gradient of the loss function calculating the difference between input and expected output.

In [None]:
from IPython.display import Image
Image(filename="training model.png")

## Importando bibliotecas

In [1]:
import spacy
from spacy import displacy
from spacy.tokens import Span, Doc
from spacy.vocab import Vocab
from spacy.pipeline import EntityRuler
from spacy.lang.en import English

import random

In [2]:
# mostra o que significa cada saída do token
spacy.explain("NNP")

'noun, proper singular'

In [27]:
nlp = spacy.load("en_core_web_sm")

In [28]:
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion")

for token in doc:
    print(token.text, token.pos_, token.dep_)

Apple PROPN nsubj
is VERB aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.K. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
1 NUM compound
billion NUM pobj


In [29]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

Apple Apple PROPN NNP nsubj Xxxxx True False
is be VERB VBZ aux xx True True
looking look VERB VBG ROOT xxxx True False
at at ADP IN prep xx True True
buying buy VERB VBG pcomp xxxx True False
U.K. U.K. PROPN NNP compound X.X. False False
startup startup NOUN NN dobj xxxx True False
for for ADP IN prep xxx True True
$ $ SYM $ quantmod $ False False
1 1 NUM CD compound d False False
billion billion NUM CD pobj xxxx True False


### Separando cada parte do texto como string

In [32]:
doc2 = nlp(u'You finded the book that I told you, Carla?')

In [33]:
doc2.text.split()

['You', 'finded', 'the', 'book', 'that', 'I', 'told', 'you,', 'Carla?']

### Pegando cada token e mostrando

In [None]:
[token for token in doc2]

### Pegando os tokens como strings

In [None]:
[token.orth_ for token in doc2]

### Pegando apenas as palavras de um texto

In [None]:
[token.orth_ for token in doc2 if not token.is_punct]

In [None]:
[token.orth_ for token in doc2 if token.is_punct]

### Similaridade

In [None]:
tokens = [token for token in doc2]

In [None]:
# you | I
tokens[0].similarity(tokens[5])

In [None]:
# you | book
tokens[0].similarity(tokens[3])

### Análise de classes gramaticais

In [86]:
[(token.orth_, token.pos_) for token in doc2]

[('You', 'PRON'),
 ('finded', 'VERB'),
 ('the', 'DET'),
 ('book', 'NOUN'),
 ('that', 'DET'),
 ('I', 'PRON'),
 ('told', 'VERB'),
 ('you', 'PRON'),
 (',', 'PUNCT'),
 ('Carla', 'PROPN'),
 ('?', 'PUNCT')]

### Fazendo a lematização 
Isso funciona para textos que podem ter diversas conjufações e tempos verbais, assim ele somente pega a raíz da palavra

In [87]:
[token.lemma_ for token in doc2 if token.pos_ == 'VERB']

['find', 'tell']

In [88]:
doc2 = nlp(u'knew, know')

In [89]:
[token.lemma_ for token in doc2 if token.pos_ == 'VERB']

[]

In [90]:
# verifica se uma palavra é ancestral de outra
doc2 = nlp(u'find finded')
tokens = [token for token in doc2]
tokens[0].is_ancestor(tokens[1])

False

## Entidades!

In [91]:
doc = nlp(u'United States')

In [92]:
[(entity, entity.label_) for entity in doc.ents]

[]

In [95]:
# Exemplo maior
wiki_obama = """Barack Obama is an American politician who served as
the 44th President of the United States from 2009 to 2017. He is the first
African American to have served as president,
as well as the first born outside the contiguous United States."""
nlp_obama = nlp(wiki_obama)
[(entity, entity.label_) for entity in nlp_obama.ents]

[]

### Mostrando informações sobre cada entidade

In [None]:
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion")

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

In [None]:
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion")
spacy.displacy.render(doc, style='ent', jupyter=True)

In [None]:
doc_dep = nlp(u"This is a sentence.")
displacy.serve(doc_dep, style="dep")

## Pegando tokens, substantivos e sentenças

In [None]:
doc = nlp(u"Peach emoji is where it has always been. Peach is the superior "
          u"emoji. It's outranking eggplant 🍑 ")

In [None]:
print(doc[0].text)          # 'Peach'
print(doc[1].text)          # 'emoji'
print(doc[-1].text)         # '🍑'
print(doc[17:19].text)      # 'outranking eggplant'

In [None]:
noun_chunks = list(doc.noun_chunks)
print(noun_chunks[0].text)  # 'Peach emoji'

In [None]:
#sentences
sentences = list(doc.sents)
assert len(sentences) == 3
print (sentences[1])

## Get part-of-speech tags and flags

In [None]:
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion")
apple = doc[0]
print("Fine-grained POS tag:", apple.pos_, apple.pos)
print("Coarse-grained POS tag:", apple.tag_, apple.tag)
print("Word shape:", apple.shape_, apple.shape)
print("Alphanumeric characters?:", apple.is_alpha)
print("Punctuation mark?:", apple.is_punct)

In [None]:
billion = doc[10]
print("Digit?", billion.is_digit)
print("Like a number?", billion.like_num)
print("Like an email address?", billion.like_email)

## Reconheça e atualize named entities

In [None]:
doc = nlp(u"San Francisco considers banning sidewalk delivery robots")
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

In [None]:
spacy.explain("GPE")

In [None]:
doc = nlp(u"FB is hiring a new VP of global policy")
doc.ents = [Span(doc, 0, 1, label=doc.vocab.strings[u"ORG"])]
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

## Treinando e atualizando modelos de rede neural

In [None]:
nlp = spacy.load("en_core_web_sm")
train_data = [(u"Uber blew through $1 million", {"entities": [(0, 4, "ORG")]})]

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]

with nlp.disable_pipes(*other_pipes):
    optimizer = nlp.begin_training()
    for i in range(10):
        random.shuffle(train_data)
        for text, annotations in train_data:
            nlp.update([text], [annotations], sgd=optimizer)
            
# salvando o modelo no disco         
nlp.to_disk("models/modelo.bin")
# trazendo o modelo de volta ao disco
nlp = spacy.load("models/modelo.bin")

In [None]:
# utilizando o novo modelo
customer_feedback = open("models/customer_feedback_627.txt").read()
doc = nlp(customer_feedback)

In [None]:
doc.ents

In [96]:
spacy.explain("U.S.A")

## Serialização simples e eficiente

In [97]:
from spacy.tokens import Doc
from spacy.vocab import Vocab

nlp = spacy.load("en_core_web_sm")
customer_feedback = open("models/customer_feedback_627.txt").read()
doc = nlp(customer_feedback)

doc.to_disk("models/customer_feedback_627.bin")

new_doc = Doc(Vocab()).from_disk("models/customer_feedback_627.bin")

new_doc.ents

(U.S.A.,)

In [None]:
spacy.explain("dobj")

## Matcher Pattern

In [84]:
# Matcher para palavras

# Matcher is initialized with the shared vocab
from spacy.matcher import Matcher

# Each dict represents one token and its attributes
matcher = Matcher(nlp.vocab)

# Add with ID, optional callback and pattern(s)
pattern = [{"LOWER": "new"}, {"LOWER": "york"}]
matcher.add('CITIES', None, pattern)

# Match by calling the matcher on a Doc object
doc = nlp("I live in New York")
matches = matcher(doc)

# Matches are (match_id, start, end) tuples
for match_id, start, end in matches:
     # Get the matched span by slicing the Doc
    span = doc[start:end]
    print(span.text)
# 'New York'

New York


## Utilizando Match Pattern para criar um modelo de NER com Spacy

In [7]:
train = open("dados/eng.train.txt").read()
train = train.split()
len(train)
# O spacy só aceita por vez 100000 caracteres

818268

In [8]:
#Tentativa com arquivo de treino
nlp = English();
ruler = EntityRuler(nlp)

i = 0

while(i <= len(train)-4):
    if train[i] == '-DOCSTART-':
        i += 4
    #print("Pattern",train[i] + " Label",train[i+3])   
    patterns += [{"label": train[i+3], "pattern" : train[i]}]

    i += 4

ruler.add_patterns(patterns)

#adicionando o pipe ruler dentro do nlp
nlp.add_pipe(ruler)

NameError: name 'patterns' is not defined

In [3]:
# Enviando o ruler para o disco e salvando-o.
ruler.to_disk("models/patterns.json")

NameError: name 'ruler' is not defined

In [315]:
nlp = English()

ruler_disk = EntityRuler(nlp).from_disk("models/patterns.json")

nlp.add_pipe(ruler_disk)

[('Apple', 'I-ORG'), ('.', 'I-LOC'), ('The', 'I-LOC'), ('Apple', 'I-ORG'), ('is', 'I-MISC'), ('opening', 'O'), ('its', 'O'), ('first', 'O'), ('big', 'O'), ('office', 'O'), ('in', 'O'), ('San', 'I-LOC'), ('Francisco', 'I-LOC'), ('.', 'I-LOC')]


In [None]:
doc = nlp(u"EU rejects German call to boycott British lamb.")
print([(ent.text, ent.label_) for ent in doc.ents])

In [270]:
# usando um modelo já pronto do Spacy
nlp = spacy.load("en_core_web_sm")
ruler = EntityRuler(nlp, overwrite_ents=True)
patterns = [{"label": "I-ORG", "pattern": "MyCorp Inc."}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)

doc = nlp(u"MyCorp Inc. is a company in the U.S., Microsoft too")
print([(ent.text, ent.label_) for ent in doc.ents])

[('MyCorp Inc.', 'I-ORG'), ('U.S.', 'GPE'), ('Microsoft', 'ORG')]


## Match text com regras de tokens para analise de emojis

In [None]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)

def set_sentiment(matcher, doc, i, matches):
    doc.sentiment += 0.1

pattern1 = [{"ORTH": "Google"}, {"ORTH": "I"}, {"ORTH": "/"}, {"ORTH": "O"}]
pattern2 = [[{"ORTH": emoji, "OP": "+"}] for emoji in ["😀", "😂", "🤣", "😍"]]
matcher.add("GoogleIO", None, pattern1)  # Match "Google I/O" or "Google i/o"
matcher.add("HAPPY", set_sentiment, *pattern2)  # Match one or more happy emoji

doc = nlp(u"A text about Google I/O 😀😀")
matches = matcher(doc)

for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]
    print(string_id, span.text)
print("Sentiment", doc.sentiment)