### Multilingual Entity Recognition

In [35]:
# !pip install spacy
# !python -m spacy download en_core_web_sm
# !python -m spacy download de_core_news_sm
# !python -m spacy download fr_core_news_sm

import spacy

# Shortcuts are no longer supported in spacy, so we need to specify the mapping from language to model. 
# This is also needed since model names are not consistent - some languages have "web", some "news" etc.
# Exemplified with 3 languages here, but list would need to be expanded.

models = {
    'en': 'en_core_web_sm',
    'de': 'de_core_news_sm',
    'fr': 'fr_core_news_sm'
}

def get_ents(text, lang):
    
    nlp = spacy.load(models[lang])
    
    doc = nlp(text)
    
    ent_list = []
    
    for ent in doc.ents:
        
        item = {}
        
        item['text'] = ent.text
        item['type'] = ent.label_
        item['start_pos'] = ent.start
        item['end_pos'] = ent.end
        
        ent_list.append(item)
    
    return ent_list

### Example Usage

In [36]:
text = '''La France (Écouter), en forme longue depuis 1875 la République française (Écouter), est un État souverain transcontinental dont le territoire métropolitain s'étend en Europe de l'Ouest et dont le territoire ultramarin s'étend dans les océans Indien, Atlantique, Pacifique, ainsi qu'en Antarctique6 et en Amérique du Sud. '''

get_ents(text, 'fr')

[{'text': 'La France', 'type': 'LOC', 'start_pos': 0, 'end_pos': 2},
 {'text': 'Écouter', 'type': 'LOC', 'start_pos': 3, 'end_pos': 4},
 {'text': 'République française',
  'type': 'LOC',
  'start_pos': 12,
  'end_pos': 14},
 {'text': 'Écouter', 'type': 'LOC', 'start_pos': 15, 'end_pos': 16},
 {'text': 'État', 'type': 'LOC', 'start_pos': 20, 'end_pos': 21},
 {'text': "Europe de l'Ouest", 'type': 'LOC', 'start_pos': 30, 'end_pos': 34},
 {'text': 'Indien', 'type': 'LOC', 'start_pos': 44, 'end_pos': 45},
 {'text': 'Atlantique', 'type': 'LOC', 'start_pos': 46, 'end_pos': 47},
 {'text': 'Pacifique', 'type': 'LOC', 'start_pos': 48, 'end_pos': 49},
 {'text': 'Antarctique6', 'type': 'MISC', 'start_pos': 53, 'end_pos': 54},
 {'text': 'Amérique du Sud', 'type': 'LOC', 'start_pos': 56, 'end_pos': 59}]