# NLP Entity Extration

## Using [Polyglot](http://polyglot.readthedocs.io/en/latest/NamedEntityRecognition.html)

### Installing polyglot
```bash

mkvirtualenv nlp
brew install icu4c
brew link icu4c gettext --force
CFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS=-L/usr/local/opt/icu4c/lib pip install polyglot
pip install jupyter

```



### The projects demo

In [3]:
from polyglot.text import Text 

In [12]:
!polyglot download embeddings2.en

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /Users/kgeusebroek/polyglot_data...
[polyglot_data]   Package embeddings2.en is already up-to-date!


In [11]:
!polyglot download ner2.en

[polyglot_data] Downloading package ner2.en to
[polyglot_data]     /Users/kgeusebroek/polyglot_data...


In [13]:
blob = """The Israeli Prime Minister Benjamin Netanyahu has warned that Iran poses a "threat to the entire world"."""
text = Text(blob)

# We can also specify language of that text by using
# text = Text(blob, hint_language_code='en')

We can query all entities mentioned in a text.

In [14]:
text.entities

[I-ORG([u'Israeli']), I-PER([u'Benjamin', u'Netanyahu']), I-LOC([u'Iran'])]

Or, we can query entites per sentence

In [15]:
for sent in text.sentences:
  print(sent, "\n")
  for entity in sent.entities:
    print(entity.tag, entity)

(Sentence("The Israeli Prime Minister Benjamin Netanyahu has warned that Iran poses a "threat to the entire world"."), '\n')
(u'I-ORG', I-ORG([u'Israeli']))
(u'I-PER', I-PER([u'Benjamin', u'Netanyahu']))
(u'I-LOC', I-LOC([u'Iran']))


By doing more careful inspection of the second entity Benjamin Netanyahu, we can locate the position of the entity within the sentence.

In [16]:
benjamin = sent.entities[1]
sent.words[benjamin.start: benjamin.end]

WordList([u'Benjamin', u'Netanyahu'])

### Try Dutch now

In [18]:
!polyglot download embeddings2.nl

[polyglot_data] Downloading package embeddings2.nl to
[polyglot_data]     /Users/kgeusebroek/polyglot_data...


In [19]:
!polyglot download ner2.nl

[polyglot_data] Downloading package ner2.nl to
[polyglot_data]     /Users/kgeusebroek/polyglot_data...


In [20]:
nl_blob = """De kathedraal van Winchester ("Winchester Cathedral") is de anglicaanse bisschopskerk in Winchester (Hampshire) en een van de grootste kathedralen van Engeland. Het oudste deel van de huidige kathedraal is de crypte, die dateert uit het begin van de 12e eeuw. De bouw van de gedrongen vierkante toren begon in 1202 en vertoont invloeden van de Normandische stijl. De bouw werd voortgezet tijdens de 14e, 15e en 16e eeuw. Restauratiewerk werd uitgevoerd door T.G. Jackson tussen 1905 en 1912. De kathedraal is gewijd aan de Heilige Drie-eenheid, aan Sint-Petrus, Sint-Paulus en aan Sint-Swithun, een 9e-eeuwse heilige, die van 852 tot 862 bisschop van Winchester was."""
nl_text = Text(nl_blob)


In [21]:
nl_text.entities

[I-LOC([u'Winchester']),
 I-LOC([u'Winchester']),
 I-ORG([u'Winchester', u'Cathedral']),
 I-LOC([u'Winchester', u'(', u'Hampshire']),
 I-LOC([u'Engeland']),
 I-LOC([u'Normandische']),
 I-PER([u'T.G', u'.', u'Jackson']),
 I-ORG([u'Drie']),
 I-PER([u'Sint']),
 I-LOC([u'Petrus']),
 I-LOC([u'Sint', u'-', u'Paulus']),
 I-LOC([u'Winchester'])]

In [22]:
nl_blob2 = """
De oude kathedraal, de "Old Minster" werd gesticht in 642. In 971 werd de Old Minster gerestaureerd. Bij die gelegenheid werd er een reliekschrijn van de 9e-eeuwse bisschop St. Swithun in gebruik genomen en werd deze heilige tevens een van de patroonheiligen van de kathedraal. In 1079, onder de eerste Normandische bisschop Walkelin, begon men aan de constructie van de huidige kathedraal, die op 8 april 1093, in het bijzijn van bijna alle bisschoppen en abten van Engeland in gebruik werd genomen. Voordat in hetzelfde jaar de Old Minster werd afgebroken, werden eerst alle belangrijke graven en relikwieën, die dateren van voor de bouw, naar de nieuwe kathedraal overgebracht. Voorbeelden hiervan zijn de overblijfselen van verschillende Angelsaksische koningen, waaronder het graf van koning Alfred de Grote, en de reliekschrijn van Sint-Swithun.
Koning Willem II (de zoon van Willem I) werd in de kathedraal begraven op 1 augustus 1100, nadat hij was omgekomen bij een ongeluk tijdens de jacht in het nabijgelegen New Forest.
De kathedraal trekt vele toeristen, onder andere vanwege het graf van de beroemde Engelse romanschrijfster Jane Austen, die in Winchester overleed.
Aan het begin van de 20e eeuw kreeg het gebouw te lijden onder wateroverlast. De funderingen van de zuidelijke en oostelijke muur werden versterkt door de duiker William Walker, die tussen 1906 en 1912 zes uur per dag in complete duisternis werkte tot een diepte van zes meter. Aan hem is het te danken dat delen van de kerk niet zijn ingestort. Hij werd hiervoor onderscheiden met de Royal Victorian Order.
Belangrijke gebeurtenissen die plaatsvonden in de kathedraal:
Winchester Cathedral is mogelijk de enige kathedraal waarover een popsong werd geschreven."""
nl_text2 = Text(nl_blob2)
nl_text2.entities

[I-LOC([u'Normandische']),
 I-PER([u'Walkelin']),
 I-LOC([u'Engeland']),
 I-PER([u'Alfred', u'de', u'Grote']),
 I-LOC([u'-']),
 I-PER([u'Koning', u'Willem', u'II']),
 I-PER([u'Willem', u'I']),
 I-LOC([u'New', u'Forest']),
 I-LOC([u'Engelse']),
 I-PER([u'Jane', u'Austen']),
 I-LOC([u'Winchester']),
 I-PER([u'William', u'Walker']),
 I-ORG([u'Royal', u'Victorian', u'Order']),
 I-LOC([u'Winchester']),
 I-ORG([u'Winchester', u'Cathedral'])]

In [29]:
nl_blob3 = """Prins Carnaval uit Geldrop heeft sinds kort een huis gekocht in haarlm via makelaars bedrijf GoDataDriven"""
nl_text3 = Text(nl_blob3)
nl_text3.entities

[I-PER([u'Prins', u'Carnaval']), I-LOC([u'Geldrop']), I-LOC([u'haarlm'])]