<h1 align="center">NER: Exemplo básico em Inglês</h1>

Data scientist.: Dr.Eddy Giusepe Chirinos Isidro

# NER em Inglês

# <font color="red">Exemplo 1:</font>

In [5]:
# Importando biblioteca
import spacy

# Loading language model
nlp = spacy.load('en_core_web_sm') 

`spacy.load()` $\Rightarrow$ é um wrapper de conveniência que lê o `ID` do idioma e os componentes do pipeline do `meta.json` de um modelo, inicializa a classe Language, carrega os dados do modelo e os retorna.

`en_core_web_sm` $\Rightarrow$ Modelos estatísticos pré-treinados disponíveis para inglês, `CNN` multitarefa em inglês treinados no `OntoNotes`. Atribui vetores de token específicos do contexto, tags `POS`, análise de dependência e entidades nomeadas.

## Obtendo entidades do documento

In [6]:
doc = nlp(u'Microsoft Corporation is an American multinational technology company with headquarters in Redmond')

for ent in doc.ents:
            print(ent.text+' -- '+ent.label_+' -- '+spacy.explain(ent.label_))
           


Microsoft Corporation -- ORG -- Companies, agencies, institutions, etc.
American -- NORP -- Nationalities or religious or political groups
Redmond -- GPE -- Countries, cities, states


## Configurando anotações de entidade

In [7]:
doc = nlp("Suprdaily began its journey in the suburbs of Mumbai")

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('Before', ents)
#Before [('Mumbai', 46, 52, 'GPE')]   the model didn't recognise "Suprdaily" as an entity 



Before [('Mumbai', 46, 52, 'GPE')]


O modelo não reconheceu `"Suprdaily"` como uma entidad.


A seguir criamos um `Span` para a nova entidade. `Span` é uma fatia de um objeto Doc.

In [8]:
sup_ent = spacy.tokens.Span(doc, 0, 1, label="ORG")
 # create a Span for the new entity-- Span is a slice from a Doc object.
doc.ents = list(doc.ents) + [sup_ent]

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('After', ents)
# After [('Suprdaily', 0, 9, 'ORG'), ('Mumbai', 46, 52, 'GPE')]

After [('Suprdaily', 0, 9, 'ORG'), ('Mumbai', 46, 52, 'GPE')]


## Visualizando Entidades

In [9]:
spacy.displacy.render(doc, style='ent', jupyter=True)

In [10]:
doc = nlp(u'The company also acquired WhiteHat Jr in a deal worth $300 million')

spacy.displacy.render(doc, style='ent', jupyter=True)

### Visualizando Entidades Específicas

`ents` (list) $-->$ Tipos de entidade para destacar (`None` para todos os tipos), `colors` (dict)-Substituições (overrides) de cores.


Os tipos de entidade em maiúsculas devem ser mapeados para nomes ou valores de cores.

In [11]:
# Visualizando Entidades Específicas
doc = nlp(u'The company also acquired WhiteHat Jr in a deal worth $300 million')


colors = {'ORG': 'pink',}
options = {'ents': ['ORG'], 'colors':colors}

spacy.displacy.render(doc, style='ent', jupyter=True, options=options)
     

# <font color="red">Exemplo 2:</font>

Link de estudo para este exemplo: [click aqui](https://towardsdatascience.com/named-entity-recognition-ner-using-spacy-nlp-part-4-28da2ece57c6).

In [13]:
# Importamos o spaCy
import spacy 
nlp = spacy.load('en_core_web_sm')

In [14]:
# Escreva uma função para exibir informações básicas da entidade:
def show_ents(doc):
    if doc.ents:
        for ent in doc.ents: 
            print(ent.text+' - ' +str(ent.start_char) +' - '+ str(ent.end_char) +
            ' - '+ent.label_+ ' - '+str(spacy.explain(ent.label_)))
    else: 
        print('No named entities found.')

In [23]:
doc1 = nlp("Apple is looking at buying U.K. startup for $1 billion")
show_ents(doc1)

Apple - 0 - 5 - ORG - Companies, agencies, institutions, etc.
U.K. - 27 - 31 - GPE - Countries, cities, states
$1 billion - 44 - 54 - MONEY - Monetary values, including unit


In [32]:
doc2 = nlp(u'May I go to Washington, DC next May to see the Washington Monument?')
show_ents(doc2)


Washington - 12 - 22 - GPE - Countries, cities, states
DC - 24 - 26 - GPE - Countries, cities, states
next May - 27 - 35 - DATE - Absolute or relative dates or periods
the Washington Monument - 43 - 66 - ORG - Companies, agencies, institutions, etc.


Aqui vemos os `tokens` se combinarem para formar as entidades `next May` e `the Washington Monument`.

In [33]:
doc3 = nlp(u'Can I please borrow 500 dollars from you to buy some Microsoft stock?')

for ent in doc3.ents:
    print(ent.text, ent.start, ent.end, ent.start_char, ent.end_char, ent.label_)
    

500 dollars 4 6 20 31 MONEY
Microsoft 11 12 53 62 ORG


Acessando Anotações de Entidade:

In [34]:
doc = nlp("San Francisco considers banning sidewalk delivery robots") 

# document level 
for e in doc.ents:
    print(e.text, e.start_char, e.end_char, e.label_) 
# OR
ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print(ents)

# Token level
# doc[0], doc[1] ... terá tokens armazenados.
ent_san = [doc[0].text, doc[0].ent_iob_, doc[0].ent_type_]
ent_francisco = [doc[1].text, doc[1].ent_iob_, doc[1].ent_type_]

print(ent_san)
print(ent_francisco)


San Francisco 0 13 GPE
[('San Francisco', 0, 13, 'GPE')]
['San', 'B', 'GPE']
['Francisco', 'I', 'GPE']


* `IOB SCHEME I`: Token está dentro de uma entidade. 
* `O`: Token está fora de uma entidade. 
* `B`: Token é o começo de uma entidade.


In [36]:
# Importamos la biblioteca displaCy
from spacy import displacy

In [42]:
doc = nlp(u'Over the last quarter Apple sold nearly 20 thousand ipods for a profit of $6 million.'
u'By contrast, Sony sold only 7 thousand walkman music players.')

displacy.render(doc, style='ent', jupyter=True)

In [43]:
for sent in doc.sents:
    displacy.render(nlp(sent.text), style='ent', jupyter=True)

Visualizando Entidades específicas:

In [44]:
options = {'ents': ['ORG', 'MONEY']}

displacy.render(doc, style='ent', jupyter=True, options=options)


# NER em Português