# Named Entity Recognition (entity chunking/extraction)

In any text document, there are particular terms that represent specific entities that are more informative and have a unique context. These entities are known as named entities, which more specifically refer to terms that represent real-world objects like people, places, organizations, and so on, which are often denoted by proper names. 

__Named entity recognition (NER)__ , also known as entity chunking/extraction, is a popular technique used in information extraction to identify and segment the named entities and classify or categorize them under various predefined classes.

There are out of the box NER taggers available through popular libraries like __`nltk`__ and __`spacy`__. Each library follows a different approach to solve the problem.

# NER with SpaCy

In [1]:
text = """Three more countries have joined an “international grand committee” of parliaments, adding to calls for 
Facebook’s boss, Mark Zuckerberg, to give evidence on misinformation to the coalition. Brazil, Latvia and Singapore 
bring the total to eight different parliaments across the world, with plans to send representatives to London on 27 
November with the intention of hearing from Zuckerberg. Since the Cambridge Analytica scandal broke, the Facebook chief 
has only appeared in front of two legislatures: the American Senate and House of Representatives, and the European parliament. 
Facebook has consistently rebuffed attempts from others, including the UK and Canadian parliaments, to hear from Zuckerberg. 
He added that an article in the New York Times on Thursday, in which the paper alleged a pattern of behaviour from Facebook 
to “delay, deny and deflect” negative news stories, “raises further questions about how recent data breaches were allegedly 
dealt with within Facebook.”
"""
print(text)

Three more countries have joined an “international grand committee” of parliaments, adding to calls for 
Facebook’s boss, Mark Zuckerberg, to give evidence on misinformation to the coalition. Brazil, Latvia and Singapore 
bring the total to eight different parliaments across the world, with plans to send representatives to London on 27 
November with the intention of hearing from Zuckerberg. Since the Cambridge Analytica scandal broke, the Facebook chief 
has only appeared in front of two legislatures: the American Senate and House of Representatives, and the European parliament. 
Facebook has consistently rebuffed attempts from others, including the UK and Canadian parliaments, to hear from Zuckerberg. 
He added that an article in the New York Times on Thursday, in which the paper alleged a pattern of behaviour from Facebook 
to “delay, deny and deflect” negative news stories, “raises further questions about how recent data breaches were allegedly 
dealt with within Facebook.”



In [None]:
# The greek language models support the following NER tags: ORG, PERSON, LOC, GPE, EVENT, PRODUCT. 
# Having one of the greek models, you can use the NER tagger.
# https://github.com/eellak/gsoc2018-spacy

In [6]:
text = """οκτώ 8 Παρασκευή 3 Νοεμβρίου 2018 Zuckeberg Ευρωπαϊκή Ένωση: αποτελείται από 27 μέλη, τα οποία συναντιούνται κατ' ιδίαν για να συμφωνήσουν σχετικά με τις κοινές θέσεις τους και αντιπροσωπεύεται από τη χώρα που έχει την προεδρία. Σημειώνεται ότι η Ευρωπαϊκή Ένωση είναι η πιο ενεργή ομάδα όσον αφορά στις διαπραγματεύσεις για την προστασία του περιβάλλοντος και πιέζει συνεχώς για τη λήψη αυστηρών μέτρων. Σημειώνεται ότι την περίοδο των διαπραγματεύσεων η Ευρωπαϊκή Ένωση αποτελούνταν από 15 κράτη μέλη, με αυτά όμως συμμάχησαν και τα 12 νέα μέλη της διεύρυνσης.
«Λέσχη του Άνθρακα» (“Carbon Club”): περιλαμβάνει τις χώρες «JUSCANZ» (από τα αρχικά των χωρών Ιαπωνία, ΗΠΑ, Καναδάς, Αυστραλία, Νέα Ζηλανδία στα Αγγλικά), τις χώρες μέλη του ΟΠΕΚ, τη Ρωσία και τη Νορβηγία, στις οποίες γενικά τα συμφέροντά τους θίγονται από το Πρωτόκολλο του Κιότο (είτε επειδή θα πρέπει να μειώσουν την παραγωγή τους είτε επειδή προτείνεται η στροφή προς διαφορετικά καύσιμα) και κατά συνέπεια αντιτίθενται στην καθιέρωση των δικαιωμάτων και στη λήψη αυστηρών μέτρων.
Συμμαχία των Μικρών Νησιωτικών Κρατών (AOSIS): είναι ένας συνασπισμός περίπου 43 μικρών νησιωτικών κρατών, τα οποία είναι ιδιαίτερα ευάλωτα στην άνοδο της στάθμης της θάλασσας. Τα κράτη αυτά κινδυνεύουν να εξαφανιστούν από το χάρτη εξαιτίας του μικρού τους υψομέτρου σε σχέση με το επίπεδο της θάλασσας και επομένως απειλείται άμεσα η ίδια τους η επιβίωση. Οι χώρες της ομάδας αυτής ήταν μάλιστα οι πρώτες που πρότειναν ένα σχέδιο κειμένου κατά τη διάρκεια των διαπραγματεύσεων του πρωτοκόλλου του Κιότο ζητώντας μία μείωση στις εκπομπές διοξειδίου του άνθρακα της τάξης του 20% έως το 2005 σε σχέση με τα επίπεδα του 1990.
Λιγότερο αναπτυγμένες χώρες: πρόκειται για 48 χώρες, οι οποίες συμμετείχαν όλο και πιο ενεργά στη διαδικασία των διαπραγματεύσεων για την αλλαγή του κλίματος, συχνά για να υπερασπιστούν τα ιδιαίτερα συμφέροντά τους και την εύθραυστη οικονομία τους, όπως για παράδειγμα την παροχή μέτρων για να μπορέσουν να προσαρμοστούν στην αλλαγή του κλίματος και να μην είναι τόσο ευάλωτες.
Ομάδα των 77 (G-77): πρόκειται για εκείνες τις αναπτυσσόμενες χώρες που είναι αναδυόμενες, όπως η Ινδία και η Κίνα, που θεωρούν ότι βρίσκονται σε τροχιά ανάπτυξης και ότι είναι εις βάρος τους να δεσμευτούν να περιορίσουν τις εκπομπές τους. Η δε απαίτηση των βιομηχανικών χωρών (που είναι κυρίως υπεύθυνες για τις μεγαλύτερες εκπομπές αερίων του θερμοκηπίου παγκοσμίως) να αντιμετωπιστούν επί ίσοις όροις με τις αναπτυσσόμενες χώρες τους φαίνεται άδικη και παράλογη.
"""
print(text)

οκτώ 8 Παρασκευή 3 Νοεμβρίου 2018 Zuckeberg Ευρωπαϊκή Ένωση: αποτελείται από 27 μέλη, τα οποία συναντιούνται κατ' ιδίαν για να συμφωνήσουν σχετικά με τις κοινές θέσεις τους και αντιπροσωπεύεται από τη χώρα που έχει την προεδρία. Σημειώνεται ότι η Ευρωπαϊκή Ένωση είναι η πιο ενεργή ομάδα όσον αφορά στις διαπραγματεύσεις για την προστασία του περιβάλλοντος και πιέζει συνεχώς για τη λήψη αυστηρών μέτρων. Σημειώνεται ότι την περίοδο των διαπραγματεύσεων η Ευρωπαϊκή Ένωση αποτελούνταν από 15 κράτη μέλη, με αυτά όμως συμμάχησαν και τα 12 νέα μέλη της διεύρυνσης.
«Λέσχη του Άνθρακα» (“Carbon Club”): περιλαμβάνει τις χώρες «JUSCANZ» (από τα αρχικά των χωρών Ιαπωνία, ΗΠΑ, Καναδάς, Αυστραλία, Νέα Ζηλανδία στα Αγγλικά), τις χώρες μέλη του ΟΠΕΚ, τη Ρωσία και τη Νορβηγία, στις οποίες γενικά τα συμφέροντά τους θίγονται από το Πρωτόκολλο του Κιότο (είτε επειδή θα πρέπει να μειώσουν την παραγωγή τους είτε επειδή προτείνεται η στροφή προς διαφορετικά καύσιμα) και κατά συνέπεια αντιτίθενται στην καθιέρω

In [7]:
import re

text = re.sub(r'\n', '', text)
text

"οκτώ 8 Παρασκευή 3 Νοεμβρίου 2018 Zuckeberg Ευρωπαϊκή Ένωση: αποτελείται από 27 μέλη, τα οποία συναντιούνται κατ' ιδίαν για να συμφωνήσουν σχετικά με τις κοινές θέσεις τους και αντιπροσωπεύεται από τη χώρα που έχει την προεδρία. Σημειώνεται ότι η Ευρωπαϊκή Ένωση είναι η πιο ενεργή ομάδα όσον αφορά στις διαπραγματεύσεις για την προστασία του περιβάλλοντος και πιέζει συνεχώς για τη λήψη αυστηρών μέτρων. Σημειώνεται ότι την περίοδο των διαπραγματεύσεων η Ευρωπαϊκή Ένωση αποτελούνταν από 15 κράτη μέλη, με αυτά όμως συμμάχησαν και τα 12 νέα μέλη της διεύρυνσης.«Λέσχη του Άνθρακα» (“Carbon Club”): περιλαμβάνει τις χώρες «JUSCANZ» (από τα αρχικά των χωρών Ιαπωνία, ΗΠΑ, Καναδάς, Αυστραλία, Νέα Ζηλανδία στα Αγγλικά), τις χώρες μέλη του ΟΠΕΚ, τη Ρωσία και τη Νορβηγία, στις οποίες γενικά τα συμφέροντά τους θίγονται από το Πρωτόκολλο του Κιότο (είτε επειδή θα πρέπει να μειώσουν την παραγωγή τους είτε επειδή προτείνεται η στροφή προς διαφορετικά καύσιμα) και κατά συνέπεια αντιτίθενται στην καθιέρω

In [3]:
import spacy

# nlp = spacy.load('en_core_web_sm')
# text_nlp = nlp(text)
import el_core_news_md
nlp = el_core_news_md.load()

In [18]:
python -m spacy download el_core_news_sm

import el_core_news_lg

SyntaxError: invalid syntax (<ipython-input-18-0bba0d738be7>, line 1)

In [13]:
text1 = '''Η εταιρεία Google έχει τα γραφεία της στην Καλιφόρνια.'''
doc = nlp(text1)
for ent in doc.ents:
  print("Entity:{}, Label:{}".format(ent.text, ent.label_))

Entity:Google, Label:ORG
Entity:Καλιφόρνια, Label:GPE


In [8]:
text_nlp = nlp(text)

In [9]:
# print named entities in article
ner_tagged = [(word.text, word.ent_type_) for word in text_nlp]
print(ner_tagged)

[('οκτώ', ''), ('8', ''), ('Παρασκευή', ''), ('3', ''), ('Νοεμβρίου', ''), ('2018', ''), ('Zuckeberg', ''), ('Ευρωπαϊκή', 'ORG'), ('Ένωση', 'ORG'), (':', ''), ('αποτελείται', ''), ('από', ''), ('27', ''), ('μέλη', ''), (',', ''), ('τα', ''), ('οποία', ''), ('συναντιούνται', ''), ("κατ'", ''), ('ιδίαν', ''), ('για', ''), ('να', ''), ('συμφωνήσουν', ''), ('σχετικά', ''), ('με', ''), ('τις', ''), ('κοινές', ''), ('θέσεις', ''), ('τους', ''), ('και', ''), ('αντιπροσωπεύεται', ''), ('από', ''), ('τη', ''), ('χώρα', ''), ('που', ''), ('έχει', ''), ('την', ''), ('προεδρία', ''), ('.', ''), ('Σημειώνεται', ''), ('ότι', ''), ('η', ''), ('Ευρωπαϊκή', 'ORG'), ('Ένωση', 'ORG'), ('είναι', ''), ('η', ''), ('πιο', ''), ('ενεργή', ''), ('ομάδα', ''), ('όσον', ''), ('αφορά', ''), ('στις', ''), ('διαπραγματεύσεις', ''), ('για', ''), ('την', ''), ('προστασία', ''), ('του', ''), ('περιβάλλοντος', ''), ('και', ''), ('πιέζει', ''), ('συνεχώς', ''), ('για', ''), ('τη', ''), ('λήψη', ''), ('αυστηρών', ''), ('

In [5]:
from spacy import displacy

# visualize named entities
displacy.render(text_nlp, style='ent', jupyter=True)
# Named entities tagged by spaCy

Spacy offers fast NER tagger based on a number of techniques. The exact algorithm hasn't been talked about in much detail but the documentation marks it as <font color=blue> "The exact algorithm is a pastiche of well-known methods, and is not currently described in any single publication " </font>

The entities identified by spacy NER tagger are as shown in the following table \(details here: [spacy_documentation](https://spacy.io/api/annotation#named-entities)\)

![](spacy_ner.png)

In [10]:
named_entities = []
temp_entity_name = ''
temp_named_entity = None
for term, tag in ner_tagged:
    if tag:
        temp_entity_name = ' '.join([temp_entity_name, term]).strip()
        temp_named_entity = (temp_entity_name, tag)
    else:
        if temp_named_entity:
            named_entities.append(temp_named_entity)
            temp_entity_name = ''
            temp_named_entity = None

In [11]:
print(named_entities)

[('Ευρωπαϊκή Ένωση', 'ORG'), ('Ευρωπαϊκή Ένωση', 'ORG'), ('Ευρωπαϊκή Ένωση', 'ORG'), ('Carbon Club', 'EVENT'), ('JUSCANZ', 'ORG'), ('Ιαπωνία', 'GPE'), ('ΗΠΑ', 'GPE'), ('Καναδάς', 'GPE'), ('Αυστραλία', 'GPE'), ('Νέα Ζηλανδία', 'GPE'), ('ΟΠΕΚ', 'ORG'), ('Ρωσία', 'GPE'), ('Νορβηγία', 'GPE'), ('Πρωτόκολλο του Κιότο', 'ORG'), ('Νησιωτικών Κρατών', 'ORG'), ('AOSIS', 'PRODUCT'), ('Κιότο', 'GPE'), ('Ινδία', 'GPE'), ('Κίνα', 'GPE')]


In [12]:
# viewing the top entity types
from collections import Counter
c = Counter([item[1] for item in named_entities])
c.most_common()

[('GPE', 10), ('ORG', 7), ('EVENT', 1), ('PRODUCT', 1)]

# NER with Stanford NLP

Stanford’s Named Entity Recognizer is based on an implementation of linear chain __Conditional Random Field (CRF)__ sequence models. 

__Prerequisites:__ Download the official Stanford NER Tagger from [here](http://nlp.stanford.edu/software/stanford-ner-2014-08-27.zip), which seems to work quite well. You can try out a later version by going to [this website](https://nlp.stanford.edu/software/CRF-NER.shtml#Download)

This model is only trained on instances of _PERSON, ORGANIZATION and LOCATION_ types. The model is exposed through ```nltk``` wrappers.

In [11]:
import os
from nltk.tag import StanfordNERTagger

JAVA_PATH = r'C:\Program Files\Java\jre1.8.0_192\bin\java.exe'
os.environ['JAVAHOME'] = JAVA_PATH

STANFORD_CLASSIFIER_PATH = 'E:/stanford/stanford-ner-2014-08-27/classifiers/english.all.3class.distsim.crf.ser.gz'
STANFORD_NER_JAR_PATH = 'E:/stanford/stanford-ner-2014-08-27/stanford-ner.jar'

sn = StanfordNERTagger(STANFORD_CLASSIFIER_PATH,
                       path_to_jar=STANFORD_NER_JAR_PATH)
sn

<nltk.tag.stanford.StanfordNERTagger at 0x205a9ded0b8>

In [12]:
text_enc = text.encode('ascii', errors='ignore').decode('utf-8')
ner_tagged = sn.tag(text_enc.split())
print(ner_tagged)

[('Three', 'O'), ('more', 'O'), ('countries', 'O'), ('have', 'O'), ('joined', 'O'), ('an', 'O'), ('international', 'O'), ('grand', 'O'), ('committee', 'O'), ('of', 'O'), ('parliaments,', 'O'), ('adding', 'O'), ('to', 'O'), ('calls', 'O'), ('for', 'O'), ('Facebooks', 'ORGANIZATION'), ('boss,', 'O'), ('Mark', 'O'), ('Zuckerberg,', 'O'), ('to', 'O'), ('give', 'O'), ('evidence', 'O'), ('on', 'O'), ('misinformation', 'O'), ('to', 'O'), ('the', 'O'), ('coalition.', 'O'), ('Brazil,', 'O'), ('Latvia', 'LOCATION'), ('and', 'O'), ('Singapore', 'LOCATION'), ('bring', 'O'), ('the', 'O'), ('total', 'O'), ('to', 'O'), ('eight', 'O'), ('different', 'O'), ('parliaments', 'O'), ('across', 'O'), ('the', 'O'), ('world,', 'O'), ('with', 'O'), ('plans', 'O'), ('to', 'O'), ('send', 'O'), ('representatives', 'O'), ('to', 'O'), ('London', 'LOCATION'), ('on', 'O'), ('27', 'O'), ('November', 'O'), ('with', 'O'), ('the', 'O'), ('intention', 'O'), ('of', 'O'), ('hearing', 'O'), ('from', 'O'), ('Zuckerberg.', 'O')

In [13]:
named_entities = []
temp_entity_name = ''
temp_named_entity = None
for term, tag in ner_tagged:
    if tag != 'O':
        temp_entity_name = ' '.join([temp_entity_name, term]).strip()
        temp_named_entity = (temp_entity_name, tag)
    else:
        if temp_named_entity:
            named_entities.append(temp_named_entity)
            temp_entity_name = ''
            temp_named_entity = None

In [14]:
print(named_entities)

[('Facebooks', 'ORGANIZATION'), ('Latvia', 'LOCATION'), ('Singapore', 'LOCATION'), ('London', 'LOCATION'), ('Cambridge Analytica', 'ORGANIZATION'), ('Facebook', 'ORGANIZATION'), ('Senate', 'ORGANIZATION'), ('Facebook', 'ORGANIZATION'), ('UK', 'LOCATION'), ('New York Times', 'ORGANIZATION'), ('Facebook', 'ORGANIZATION')]


In [15]:
c = Counter([item[1] for item in named_entities])
c.most_common()

[('ORGANIZATION', 7), ('LOCATION', 4)]

# NER with Stanford CoreNLP

NLTK is slowly deprecating the old Stanford Parsers in favor of the more active Stanford Core NLP Project. It might even get removed after `nltk` version `3.4` so best to stay updated.

Details: https://github.com/nltk/nltk/issues/1839

Step by Step Tutorial here: https://github.com/nltk/nltk/wiki/Stanford-CoreNLP-API-in-NLTK

Sadly a lot of things have changed in the process so we need to do some extra effort to make it work!

Get CoreNLP from [here](https://stanfordnlp.github.io/CoreNLP/)

After you download, go to the folder and spin up a terminal and start the Core NLP Server locally

```
E:\> java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -preload tokenize,ssplit,pos,lemma,ner,parse,depparse -status_port 9000 -port 9000 -timeout 15000
```

If it runs successfully you should see the following messages on the terminal

```
E:\stanford\stanford-corenlp-full-2018-02-27>java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -preload tokenize,ssplit,pos,lemma,ner,parse,depparse -status_port 9000 -port 9000 -timeout 15000
[main] INFO CoreNLP - --- StanfordCoreNLPServer#main() called ---
[main] INFO CoreNLP - setting default constituency parser
[main] INFO CoreNLP - warning: cannot find edu/stanford/nlp/models/srparser/englishSR.ser.gz
[main] INFO CoreNLP - using: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz instead
[main] INFO CoreNLP - to use shift reduce parser download English models jar from:
[main] INFO CoreNLP - http://stanfordnlp.github.io/CoreNLP/download.html
[main] INFO CoreNLP -     Threads: 4
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize
[main] INFO edu.stanford.nlp.pipeline.TokenizerAnnotator - No tokenizer type provided. Defaulting to PTBTokenizer.
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos
[main] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [1.4 sec].
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator lemma
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ner
[main] INFO edu.stanford.nlp.ie.AbstractSequenceClassifier - Loading classifier from edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz ... done [1.9 sec].
[main] INFO edu.stanford.nlp.ie.AbstractSequenceClassifier - Loading classifier from edu/stanford/nlp/models/ner/english.muc.7class.distsim.crf.ser.gz ... done [2.0 sec].
[main] INFO edu.stanford.nlp.ie.AbstractSequenceClassifier - Loading classifier from edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz ... done [0.8 sec].
[main] INFO edu.stanford.nlp.time.JollyDayHolidays - Initializing JollyDayHoliday for SUTime from classpath edu/stanford/nlp/models/sutime/jollyday/Holidays_sutime.xml as sutime.binder.1.
[main] INFO edu.stanford.nlp.time.TimeExpressionExtractorImpl - Using following SUTime rules: edu/stanford/nlp/models/sutime/defs.sutime.txt,edu/stanford/nlp/models/sutime/english.sutime.txt,edu/stanford/nlp/models/sutime/english.holidays.sutime.txt
[main] INFO edu.stanford.nlp.pipeline.TokensRegexNERAnnotator - TokensRegexNERAnnotator ner.fine.regexner: Read 580641 unique entries out of 581790 from edu/stanford/nlp/models/kbp/regexner_caseless.tab, 0 TokensRegex patterns.
[main] INFO edu.stanford.nlp.pipeline.TokensRegexNERAnnotator - TokensRegexNERAnnotator ner.fine.regexner: Read 4857 unique entries out of 4868 from edu/stanford/nlp/models/kbp/regexner_cased.tab, 0 TokensRegex patterns.
[main] INFO edu.stanford.nlp.pipeline.TokensRegexNERAnnotator - TokensRegexNERAnnotator ner.fine.regexner: Read 585498 unique entries from 2 files
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator parse
[main] INFO edu.stanford.nlp.parser.common.ParserGrammar - Loading parser from serialized file edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz ... done [4.6 sec].
[main] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse
[main] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model: edu/stanford/nlp/models/parser/nndep/english_UD.gz ...
[main] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99996, Elapsed Time: 22.43 (s)
[main] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [24.4 sec].
[main] INFO CoreNLP - Starting server...
[main] INFO CoreNLP - StanfordCoreNLPServer listening at /0:0:0:0:0:0:0:0:9000
```

![](corenlp_ner.png)

In [17]:
from nltk.parse import CoreNLPParser

ner_tagger = CoreNLPParser(url='http://localhost:9000', tagtype='ner')
ner_tagger

<nltk.parse.corenlp.CoreNLPParser at 0x2059cbfb4a8>

In [27]:
import nltk

tags = list(ner_tagger.raw_tag_sents(nltk.sent_tokenize(text)))
tags = [sublist[0] for sublist in tags]
tags = [word_tag for sublist in tags for word_tag in sublist]
print(tags)

[('Three', 'NUMBER'), ('more', 'O'), ('countries', 'O'), ('have', 'O'), ('joined', 'O'), ('an', 'O'), ('``', 'O'), ('international', 'O'), ('grand', 'O'), ('committee', 'O'), ("''", 'O'), ('of', 'O'), ('parliaments', 'O'), (',', 'O'), ('adding', 'O'), ('to', 'O'), ('calls', 'O'), ('for', 'O'), ('Facebook', 'ORGANIZATION'), ("'s", 'O'), ('boss', 'TITLE'), (',', 'O'), ('Mark', 'PERSON'), ('Zuckerberg', 'PERSON'), (',', 'O'), ('to', 'O'), ('give', 'O'), ('evidence', 'O'), ('on', 'O'), ('misinformation', 'O'), ('to', 'O'), ('the', 'O'), ('coalition', 'O'), ('.', 'O'), ('Brazil', 'COUNTRY'), (',', 'O'), ('Latvia', 'COUNTRY'), ('and', 'O'), ('Singapore', 'COUNTRY'), ('bring', 'O'), ('the', 'O'), ('total', 'O'), ('to', 'O'), ('eight', 'NUMBER'), ('different', 'O'), ('parliaments', 'O'), ('across', 'O'), ('the', 'O'), ('world', 'O'), (',', 'O'), ('with', 'O'), ('plans', 'O'), ('to', 'O'), ('send', 'O'), ('representatives', 'O'), ('to', 'O'), ('London', 'CITY'), ('on', 'O'), ('27', 'DATE'), ('N

In [28]:
named_entities = []
temp_entity_name = ''
temp_named_entity = None
for term, tag in tags:
    if tag != 'O':
        temp_entity_name = ' '.join([temp_entity_name, term]).strip()
        temp_named_entity = (temp_entity_name, tag)
    else:
        if temp_named_entity:
            named_entities.append(temp_named_entity)
            temp_entity_name = ''
            temp_named_entity = None

print(named_entities)

[('Three', 'NUMBER'), ('Facebook', 'ORGANIZATION'), ('boss', 'TITLE'), ('Mark Zuckerberg', 'PERSON'), ('Brazil', 'COUNTRY'), ('Latvia', 'COUNTRY'), ('Singapore', 'COUNTRY'), ('eight', 'NUMBER'), ('London', 'CITY'), ('27 November', 'DATE'), ('Zuckerberg', 'PERSON'), ('Cambridge Analytica', 'ORGANIZATION'), ('Facebook', 'ORGANIZATION'), ('two', 'NUMBER'), ('American Senate', 'ORGANIZATION'), ('House of Representatives', 'ORGANIZATION'), ('European', 'NATIONALITY'), ('Facebook', 'ORGANIZATION'), ('UK', 'COUNTRY'), ('Canadian', 'NATIONALITY'), ('Zuckerberg', 'PERSON'), ('New York Times', 'ORGANIZATION'), ('Thursday', 'DATE'), ('Facebook', 'ORGANIZATION'), ('Facebook', 'ORGANIZATION')]


In [29]:
c = Counter([item[1] for item in named_entities])
c.most_common()

[('ORGANIZATION', 9),
 ('COUNTRY', 4),
 ('NUMBER', 3),
 ('PERSON', 3),
 ('DATE', 2),
 ('NATIONALITY', 2),
 ('TITLE', 1),
 ('CITY', 1)]