# NLP with polyglot

In [2]:
from __future__ import print_function
import polyglot
from polyglot.text import Text, Word

## Language detection

In [3]:
text = Text("Bonjour, Mesdames.")
print("Language Detected: Code={}, Name={}\n".format(text.language.code, text.language.name))

Language Detected: Code=fr, Name=French



The language detection is a cached field of the text object which is lazily populated. The detection can be called explicitely (it depends on the library pycld2):

In [4]:
from polyglot.detect import Detector

In [5]:
arabic_text = u"""
أفاد مصدر امني في قيادة عمليات صلاح الدين في العراق بأن " القوات الامنية تتوقف لليوم
الثالث على التوالي عن التقدم الى داخل مدينة تكريت بسبب
انتشار قناصي التنظيم الذي يطلق على نفسه اسم "الدولة الاسلامية" والعبوات الناسفة
والمنازل المفخخة والانتحاريين، فضلا عن ان القوات الامنية تنتظر وصول تعزيزات اضافية ".
"""

In [6]:
detector = Detector(arabic_text)
print(detector.language)

name: Arabic      code: ar       confidence:  99.0 read bytes:   907


### Language detection for multilinguagel mixted texts

In [7]:
mixed_text = u"""
China (simplified Chinese: 中国; traditional Chinese: 中國),
officially the People's Republic of China (PRC), is a sovereign state located in East Asia.
"""

In [8]:
for language in Detector(mixed_text).languages:
      print(language)

name: English     code: en       confidence:  87.0 read bytes:  1154
name: Chinese     code: zh_Hant  confidence:   5.0 read bytes:  1755
name: un          code: un       confidence:   0.0 read bytes:     0


In [9]:
for line in mixed_text.strip().splitlines():
    print(line + u"\n")
    for language in Detector(line).languages:
        print(language)

China (simplified Chinese: 中国; traditional Chinese: 中國),

name: English     code: en       confidence:  71.0 read bytes:   887
name: Chinese     code: zh_Hant  confidence:  11.0 read bytes:  1755
name: un          code: un       confidence:   0.0 read bytes:     0
officially the People's Republic of China (PRC), is a sovereign state located in East Asia.

name: English     code: en       confidence:  98.0 read bytes:  1291
name: un          code: un       confidence:   0.0 read bytes:     0
name: un          code: un       confidence:   0.0 read bytes:     0


### Best effort strategy for short texts

In [10]:
print(Detector("pizza"))



Prediction is reliable: False
Language 1: name: English     code: en       confidence:  85.0 read bytes:  1194
Language 2: name: un          code: un       confidence:   0.0 read bytes:     0
Language 3: name: un          code: un       confidence:   0.0 read bytes:     0


In [11]:
# When the text is too short, an exception is thrown!
try:
    print(Detector("4"))
except Exception as e:
    print(e)

Try passing a longer snippet of text


## POS Tagging

In [12]:
from polyglot.downloader import downloader
print(downloader.supported_languages_table("pos2"))

  1. German                     2. Italian                    3. Danish                   
  4. Czech                      5. Slovene                    6. French                   
  7. English                    8. Finnish                    9. Bulgarian                
 10. Spanish; Castilian        11. Swedish                   12. Portuguese               
 13. Indonesian                14. Irish                     15. Hungarian                
 16. Dutch                    


### English

In [13]:
%%bash
polyglot download embeddings2.en pos2.en

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package embeddings2.en is already up-to-date!
[polyglot_data] Downloading package pos2.en to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package pos2.en is already up-to-date!


In [14]:
text_en = Text(u"""
Police Academy star George Gaynes dies at 98
5 hours ago
 From the section Entertainment & Arts
George GaynesImage copyrightRex Features
Image caption
George Gaynes starred in 35 films over the course of his career
The actor George Gaynes died on Monday, at the age of 98, his daughter confirmed.
Gaynes starred in all seven Police Academy movies and had a lead role in the 1980s sitcom Punky Brewster.
He also performed alongside Dustin Hoffman in the Oscar-nominated film, Tootsie.
His longtime agent, Jonathan Howard, told The Hollywood Reporter that his death was "a sad, sad loss. But he had a really long, great life."
""")
text_en.pos_tags

[(u'Police', u'PROPN'),
 (u'Academy', u'NOUN'),
 (u'star', u'NOUN'),
 (u'George', u'PROPN'),
 (u'Gaynes', u'PROPN'),
 (u'dies', u'VERB'),
 (u'at', u'ADP'),
 (u'98', u'NUM'),
 (u'5', u'NUM'),
 (u'hours', u'NOUN'),
 (u'ago', u'ADV'),
 (u'From', u'ADP'),
 (u'the', u'DET'),
 (u'section', u'NOUN'),
 (u'Entertainment', u'NOUN'),
 (u'&', u'CONJ'),
 (u'Arts', u'PROPN'),
 (u'George', u'PROPN'),
 (u'GaynesImage', u'PUNCT'),
 (u'copyrightRex', u'NUM'),
 (u'Features', u'PROPN'),
 (u'Image', u'NOUN'),
 (u'caption', u'NOUN'),
 (u'George', u'PROPN'),
 (u'Gaynes', u'NUM'),
 (u'starred', u'VERB'),
 (u'in', u'ADP'),
 (u'35', u'NUM'),
 (u'films', u'NOUN'),
 (u'over', u'ADP'),
 (u'the', u'DET'),
 (u'course', u'NOUN'),
 (u'of', u'ADP'),
 (u'his', u'PRON'),
 (u'career', u'NOUN'),
 (u'The', u'DET'),
 (u'actor', u'NOUN'),
 (u'George', u'PROPN'),
 (u'Gaynes', u'PROPN'),
 (u'died', u'VERB'),
 (u'on', u'ADP'),
 (u'Monday', u'PROPN'),
 (u',', u'PUNCT'),
 (u'at', u'ADP'),
 (u'the', u'DET'),
 (u'age', u'NOUN'),
 (u

## German

In [15]:
%%bash
polyglot download embeddings2.de pos2.de

[polyglot_data] Downloading package embeddings2.de to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package embeddings2.de is already up-to-date!
[polyglot_data] Downloading package pos2.de to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package pos2.de is already up-to-date!


In [16]:
text_de = Text(u"""
Flüchtlinge in Serbien

Das letzte Land ohne Zäune
Von Keno Verseck

Die Nachbarländer schotten ihre Grenzen ab, nun landen in Serbien immer mehr Flüchtlinge. Die bisherige, freizügige Politik erweist sich als Falle für das Land. Gleichzeitig boomt das Geschäft der Schlepper.

Serbien dürfe kein "Parkplatz für Flüchtlinge" werden, kein "Sammellager für Migranten auf dem Balkan" - solche drastischen Worte sind derzeit in Belgrad vom serbischen Regierungschef Aleksandar Vucic oder von Mitgliedern seines Kabinetts immer öfter zu hören.

Aus gutem Grund, denn in Serbien könnte genau das eintreten, wovor die Regierung warnt: Im größten Land des Westbalkans stranden immer mehr Flüchtlinge - sie sind von Süden her legal oder illegal eingereist, wollen weiterziehen nach Westeuropa, stoßen aber im Norden auf abgesperrte Grenzen oder werden aus den Nachbarländern abgeschoben.

Noch geht es nach Schätzungen von Beobachtern nur um höchstens einige Tausend Menschen, die vor allem in Belgrad und in der nordserbischen Wojwodina an der Grenze zu Ungarn umherirren und eine Gelegenheit zur illegalen Weiterreise suchen. Doch die Zahl könnte sich bald vervielfachen.

"Serbien ist eingequetscht zwischen Abschottung im Norden und dem Strom der Flüchtlinge von Süden", sagt Rados Djurovic, der Direktor des Belgrader "Zentrums zum Schutz für Asylsuchende" (CZA). Und die Politologin Jelena Milic vom Belgrader "Zentrum für euro-atlantische Studien" (CEAS) prognostiziert ein "Desaster für Serbien, wenn Österreich, Slowenien und Kroatien dichtmachen".

Serbien ist bisher, abgesehen von Griechenland, der einzige Staat auf der Balkanroute für Flüchtlinge, der noch keine Grenzzäune gebaut oder seine Grenze nicht zumindest mit Polizei und Militär stark abgeschirmt hat.

Das war ein Kalkül des nationalistisch-autoritären Regierungschefs Vucic, der sich vor einigen Jahren plötzlich vom überzeugten Kriegshetzer zum vorgeblichen Pro-Europäer wandelte und der in der Flüchtlingskrise als einziger Regierungschef der Region explizit immer wieder die Linie Angela Merkels unterstützte.

Vucic setzt auf Annäherung

Vucic betonte wiederholt, Zäune und Abschottung seien keine Lösung - er hoffte darauf, dass er mit dieser Linie Serbiens Annährung an die EU beschleunigen könnte und dass westliche Politiker die politischen Verhältnisse in Serbien weniger kritisch beäugen würden: Ein Großteil der politischen Elite ist in Korruption und organisiertes Verbrechen verstrickt, die Justiz vielfach politisch gelenkt, es gibt nur wenige unabhängige Medien, und unabhängige Journalisten leben gefährlich.

Zugleich ist Serbien wegen der prekären wirtschaftlichen und sozialen Verhältnisse im Land dringend auf eine europäische Integration, auf Investitionen und auf finanzielle Entwicklungshilfe durch die EU angewiesen.

Vucics Rechnung schien aufzugehen - Ende letzten Jahres eröffneten die EU und Serbien die ersten beiden Kapitel der Beitrittsverhandlungen, weitere sollen demnächst folgen. Doch Jelena Milic sagt, dass die serbische Flüchtlingspolitik sich als Falle für das Land erweisen könnte. Denn die Nachbarstaaten schaffen weiter Fakten:

Ungarn hat seine Grenze zu Serbien bereits seit September letzten Jahres vollständig mit einem Zaun abgeriegelt. Seit Anfang Januar ist die Zahl der illegalen Grenzübertritte aus Serbien wieder deutlich angestiegen, deshalb verdoppelte Ungarn die Zahl der Polizisten, die das Grenzgebiet bewachen.
Österreich hat mit seiner zunehmend restriktiveren Flüchtlingspolitik auf der Balkanroute einen Dominoeffekt ausgelöst, jede neue Beschränkung im Alpenland wird nach Süden hin weitergegeben; aktuell ist dies nach der österreichischen Ankündigung, nur noch eine stark begrenzte Anzahl von Flüchtlingen einreisen zu lassen, der Fall.
Zugleich mit Österreich baute auch Slowenien Grenzzäune und sicherte seine Grenze mit Sondertruppen der Polizei und der Armee.
Kroatien erwägt ebenfalls einen Zaunbau und lässt seine Grenze zu Serbien massiv durch polizeiliche Sondereinheiten bewachen. Ein Aufnahmelager für Flüchtlinge im ostkroatischen Slavonski Brod soll geschlossen werden, Kroatien will Flüchtlingen nur noch einen Non-Stop-Transit durch das Land erlauben.
Mazedonien und Bulgarien sollen nach den Vorstellungen der Visegrád-Länder Polen, Tschechien, Slowakei und Ungarn sowie Österreichs und Sloweniens zu Frontstaaten gegen Flüchtlinge aufgerüstet werden, falls Griechenland den Flüchtlingsstrom nicht stoppt. Beide Länder bauen derzeit ihre Grenzzäune zu Griechenland und der Türkei aus; Mazedonien lässt seit Längerem nur noch Flüchtlinge aus Afghanistan, Irak und Syrien mit gültigen Papieren durchreisen.
Mittendrin liegt Serbien - praktisch kaum geschützt. Erstmals wurde in dieser Woche eine größere Gruppe von Flüchtlingen durch mehrere Länder der Balkanroute nach Serbien zurückgereicht: 217 Menschen, die meisten von ihnen Afghanen, wurden von Slowenien nach Kroatien und von dort aus wiederum nach Serbien abgeschoben. Serbische Behörden sind ratlos, was sie mit ihnen machen sollen - Mazedonien will sie vorerst nicht zurücknehmen, vermutlich würden sie irgendwann in ihre Herkunftsländer ausgeflogen, sagt die Sprecherin des Innenministeriums, Biljana Popovic.

Neuer Markt für Schlepper

Die Abschottungspolitik in Serbiens Nachbarländern hat auch zur Folge, dass immer mehr kriminelle Schlepper in serbischen Grenzgebieten aktiv sind, wie Rados Djurovic vom "Zentrum zum Schutz für Asylsuchende" sagt. "Die Leute, die nicht mehr durchgelassen werden, sind die perfekte Beute für Schlepper", so Djurovic. Vor allem an der Grenze zu Mazedonien und zu Ungarn blühe das Schlepperunwesen momentan wieder auf.

Noch ist unklar, wann und wie Serbien seine Flüchtlingspolitik ändern wird. Das Land ist besonders wegen Kosovo in einer schwierige Lage: Selbst wenn es seine Grenzen zu Bulgarien und Mazedonien schließt, bliebe die zu Kosovo offen, da Serbien das Land nicht anerkennt, sondern als abtrünnige Provinz betrachtet.

Doch dass bald eine Änderung in der Flüchtlingspolitik anstehen könnte, daran lässt die serbische Regierung keinen Zweifel. "Ich bin kein Freund von Mauern", sagte Regierungschef Aleksandar Vucic kürzlich, "aber wir müssen unsere Grenzen schützen." Sein Außenminister Ivica Dacic ging dieser Tage noch weiter: "Wir werden es nicht zulassen, dass die Flüchtlinge in Serbien bleiben. Wenn alle anderen die Grenzen schließen, machen wir es auch."

Zusammengefasst: Immer mehr Flüchtlinge stranden in Serbien - weil viele Nachbarländer Zäune hochziehen. Und das Land fürchtet Tausende weitere Ankömmlinge. Und auch die Schlepper operieren in immer größerem Stil von serbischem Gebiet aus. Die Frage ist: Wie lange kann sich das Land noch eine liberale Flüchtlingspolitik leisten?
""")

In [17]:
text_de.pos_tags

[(u'Fl\xfcchtlinge', u'NOUN'),
 (u'in', u'ADP'),
 (u'Serbien', u'PROPN'),
 (u'Das', u'DET'),
 (u'letzte', u'ADJ'),
 (u'Land', u'NOUN'),
 (u'ohne', u'ADP'),
 (u'Z\xe4une', u'NOUN'),
 (u'Von', u'PROPN'),
 (u'Keno', u'PROPN'),
 (u'Verseck', u'NOUN'),
 (u'Die', u'DET'),
 (u'Nachbarl\xe4nder', u'NOUN'),
 (u'schotten', u'PROPN'),
 (u'ihre', u'DET'),
 (u'Grenzen', u'NOUN'),
 (u'ab', u'ADP'),
 (u',', u'PUNCT'),
 (u'nun', u'ADV'),
 (u'landen', u'VERB'),
 (u'in', u'ADP'),
 (u'Serbien', u'PROPN'),
 (u'immer', u'ADV'),
 (u'mehr', u'ADV'),
 (u'Fl\xfcchtlinge', u'NOUN'),
 (u'.', u'PUNCT'),
 (u'Die', u'DET'),
 (u'bisherige', u'NOUN'),
 (u',', u'PUNCT'),
 (u'freiz\xfcgige', u'PROPN'),
 (u'Politik', u'NOUN'),
 (u'erweist', u'VERB'),
 (u'sich', u'PRON'),
 (u'als', u'ADP'),
 (u'Falle', u'NOUN'),
 (u'f\xfcr', u'ADP'),
 (u'das', u'DET'),
 (u'Land', u'NOUN'),
 (u'.', u'PUNCT'),
 (u'Gleichzeitig', u'ADV'),
 (u'boomt', u'PROPN'),
 (u'das', u'DET'),
 (u'Gesch\xe4ft', u'NOUN'),
 (u'der', u'DET'),
 (u'Schlepper'

## Named Entity Recognition (Locations, Organizations, Persons)

In [18]:
from polyglot.downloader import downloader
print(downloader.supported_languages_table("ner2", 3))

  1. Polish                     2. Turkish                    3. Indonesian               
  4. Thai                       5. Czech                      6. Arabic                   
  7. Korean                     8. Catalan; Valencian         9. Italian                  
 10. Malay                     11. Romanian, Moldavian, ...  12. Tagalog                  
 13. Danish                    14. Finnish                   15. German                   
 16. Persian                   17. Latvian                   18. Chinese                  
 19. French                    20. Portuguese                21. Hebrew (modern)          
 22. Slovak                    23. Slovene                   24. Bulgarian                
 25. Hindi                     26. Japanese                  27. Hungarian                
 28. Croatian                  29. Ukrainian                 30. Serbian                  
 31. Lithuanian                32. Norwegian                 33. Dutch                    

## English

In [19]:
%%bash
polyglot download embeddings2.en ner2.en

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package embeddings2.en is already up-to-date!
[polyglot_data] Downloading package ner2.en to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package ner2.en is already up-to-date!


In [20]:
text_en.entities

[I-ORG([u'Police']),
 I-PER([u'George', u'Gaynes']),
 I-ORG([u'Entertainment']),
 I-ORG([u'Arts']),
 I-PER([u'Arts', u'George', u'GaynesImage']),
 I-PER([u'George', u'Gaynes']),
 I-PER([u'George', u'Gaynes']),
 I-PER([u'Gaynes']),
 I-ORG([u'Police', u'Academy']),
 I-PER([u'Punky', u'Brewster']),
 I-PER([u'Dustin', u'Hoffman']),
 I-PER([u'Oscar']),
 I-PER([u'Jonathan', u'Howard']),
 I-ORG([u'Hollywood', u'Reporter'])]

## German

In [21]:
%%bash
polyglot download embeddings2.en ner2.de

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package embeddings2.en is already up-to-date!
[polyglot_data] Downloading package ner2.de to
[polyglot_data]     /home/pgross/polyglot_data...
[polyglot_data]   Package ner2.de is already up-to-date!


In [22]:
text_de.entities

[I-LOC([u'Serbien']),
 I-LOC([u'schotten']),
 I-LOC([u'Serbien']),
 I-LOC([u'Serbien']),
 I-LOC([u'Belgrad']),
 I-PER([u'Aleksandar', u'Vucic']),
 I-LOC([u'Serbien']),
 I-PER([u'weiterziehen']),
 I-LOC([u'Belgrad']),
 I-LOC([u'Ungarn']),
 I-PER([u'Ungarn', u'umherirren']),
 I-LOC([u'Serbien']),
 I-PER([u'Djurovic']),
 I-ORG([u'Belgrader']),
 I-PER([u'Jelena', u'Milic']),
 I-LOC([u'Serbien']),
 I-LOC([u'\xd6sterreich']),
 I-LOC([u'Slowenien']),
 I-LOC([u'Kroatien']),
 I-LOC([u'Serbien']),
 I-LOC([u'Griechenland']),
 I-ORG([u'Vucic']),
 I-PER([u'Kriegshetzer']),
 I-PER([u'Angela', u'Merkels']),
 I-PER([u'Vucic']),
 I-PER([u'Vucic']),
 I-ORG([u'EU']),
 I-LOC([u'Serbien']),
 I-LOC([u'Serbien']),
 I-ORG([u'EU']),
 I-PER([u'aufzugehen']),
 I-ORG([u'EU']),
 I-LOC([u'Serbien']),
 I-PER([u'Jelena', u'Milic']),
 I-LOC([u'Serbien']),
 I-LOC([u'Serbien']),
 I-LOC([u'Ungarn']),
 I-LOC([u'\xd6sterreich']),
 I-LOC([u'\xd6sterreich']),
 I-LOC([u'Slowenien']),
 I-LOC([u'Sondertruppen']),
 I-ORG([u'Poli

## Highlight annotations

In [23]:
from jinja2 import Template


In [24]:
def find_all_char_offsets(text, tokens):
    """Helper method for reconstructing the character ranges of a text that is split into tokens"""
    i = 0
    start_offsets, end_offsets = [], []
    for token in tokens:
        i = text.find(token, i)
        start_offsets.append(i)
        end_offsets.append(i+len(token))
    return start_offsets, end_offsets

def transform_to_annotations(text):
    "Extract the sentence and entity annotations from a text"
    for sent in text.sentences:
        rel_start_offsets, rel_end_offsets = find_all_char_offsets(text.raw[sent.start:sent.end], sent.words)
        for j, chunk in enumerate(sent.entities):
            char_start = sent.start + rel_start_offsets[chunk.start]
            char_end = sent.start + rel_end_offsets[chunk.end-1]
            entity_substring = text[char_start:char_end]
            yield dict(type='Entity',
                       char_start=char_start,
                       char_end=char_end,
                       entity_tag=chunk.tag,
                       text=text.raw[char_start:char_end])


def add_missing_char_segments(text, annotations, default_type="Plaintext"):
    """Given a strictly orderer list of annotations without overlaps, the missing ranges with a specified
    default annotation type are inserted, so that the resulting sequence of annotations is contiguous"""
    lines = []
    last_offset = 0
    for anno in annotations:
        char_start = anno['char_start']
        char_end = anno['char_end']
        if last_offset < char_start:
            yield dict(type=default_type,
                       char_start=last_offset,
                       char_end=char_start,
                       text=text.raw[last_offset:char_start])
        yield anno
        last_offset = char_end
    if last_offset < len(text):
        yield dict(type=default_type,
                    char_start=last_offset,
                    char_end=len(text),
                    text=text.raw[last_offset:])
        
def render_segments_to_html(segments):
    t = Template("""
    <html>
    <head>
    <style>
    .I-PER { box-shadow: 0px 3px 0px 0px #99ff66;}
    .I-LOC { box-shadow: 0px 3px 0px 0px #6699ff;}
    .I-ORG { box-shadow: 0px 3px 0px 0px #ff6600;}
    </style>    
    </head>
    <body>
    <p>
    Entites: <span class="I-PER">Person</span>, <span class="I-ORG">Organisation</span>, <span class="I-LOC">Location</span>
    </p>
    <p>
    {% for vm in segments %}<span class="{{vm.get('entity_tag','')}}">{{ vm['text'] }}</span>{% endfor %}
    </p>
    </body>
    </html>""")     
    return t.render(segments=segments)

def highlight_entities(text):
    entity_annos = transform_to_annotations(text)
    segments = [anno for anno in add_missing_char_segments(text, entity_annos)]
    html = render_segments_to_html(segments)
    return html



In [25]:
from IPython.core.display import HTML
HTML(highlight_entities(text_de))
