<h1 align="center">NER: Exemplo básico em Inglês</h1>

Data scientist.: Dr.Eddy Giusepe Chirinos Isidro

# NER em Inglês

In [5]:
# Importando biblioteca
import spacy

# Loading language model
nlp = spacy.load('en_core_web_sm') 

`spacy.load()` $\Rightarrow$ é um wrapper de conveniência que lê o `ID` do idioma e os componentes do pipeline do `meta.json` de um modelo, inicializa a classe Language, carrega os dados do modelo e os retorna.

`en_core_web_sm` $\Rightarrow$ Modelos estatísticos pré-treinados disponíveis para inglês, `CNN` multitarefa em inglês treinados no `OntoNotes`. Atribui vetores de token específicos do contexto, tags `POS`, análise de dependência e entidades nomeadas.

## Obtendo entidades do documento

In [6]:
doc = nlp(u'Microsoft Corporation is an American multinational technology company with headquarters in Redmond')

for ent in doc.ents:
            print(ent.text+' -- '+ent.label_+' -- '+spacy.explain(ent.label_))
           


Microsoft Corporation -- ORG -- Companies, agencies, institutions, etc.
American -- NORP -- Nationalities or religious or political groups
Redmond -- GPE -- Countries, cities, states


## Configurando anotações de entidade

In [7]:
doc = nlp("Suprdaily began its journey in the suburbs of Mumbai")

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('Before', ents)
#Before [('Mumbai', 46, 52, 'GPE')]   the model didn't recognise "Suprdaily" as an entity 



Before [('Mumbai', 46, 52, 'GPE')]


O modelo não reconheceu `"Suprdaily"` como uma entidad.


A seguir criamos um `Span` para a nova entidade. `Span` é uma fatia de um objeto Doc.

In [8]:
sup_ent = spacy.tokens.Span(doc, 0, 1, label="ORG")
 # create a Span for the new entity-- Span is a slice from a Doc object.
doc.ents = list(doc.ents) + [sup_ent]

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('After', ents)
# After [('Suprdaily', 0, 9, 'ORG'), ('Mumbai', 46, 52, 'GPE')]

After [('Suprdaily', 0, 9, 'ORG'), ('Mumbai', 46, 52, 'GPE')]


## Visualizando Entidades

In [9]:
spacy.displacy.render(doc, style='ent', jupyter=True)

In [10]:
doc = nlp(u'The company also acquired WhiteHat Jr in a deal worth $300 million')

spacy.displacy.render(doc, style='ent', jupyter=True)

### Visualizando Entidades Específicas

`ents` (list) $-->$ Tipos de entidade para destacar (`None` para todos os tipos), `colors` (dict)-Substituições (overrides) de cores.


Os tipos de entidade em maiúsculas devem ser mapeados para nomes ou valores de cores.

In [11]:
# Visualizando Entidades Específicas
doc = nlp(u'The company also acquired WhiteHat Jr in a deal worth $300 million')


colors = {'ORG': 'pink',}
options = {'ents': ['ORG'], 'colors':colors}

spacy.displacy.render(doc, style='ent', jupyter=True, options=options)
     

# NER em Português