In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

In [31]:
ex = 'Die #Infizierungsfälle 920 - 925 wurden in #Deutschland soeben bekannt gegeben. Es handelt sich um das Bundesland Rheinland-Pfalz. Das gab das Ministerium eben bekannt. Landkreise: 1 x Bitburg/Prüm 1 x Neuwied 2 x Koblenz 2 x Bad Dürkheim #COVID19 #coronavirus #2019nCoV'

In [32]:
def preprocess(sent):
    sent = nltk.word_tokenize(sent)
    sent = nltk.pos_tag(sent)
    return sent

In [33]:
sent = preprocess(ex)
sent

[('Die', 'NNP'),
 ('#', '#'),
 ('Infizierungsfälle', 'NNP'),
 ('920', 'CD'),
 ('-', ':'),
 ('925', 'CD'),
 ('wurden', 'NN'),
 ('in', 'IN'),
 ('#', '#'),
 ('Deutschland', 'NNP'),
 ('soeben', 'NN'),
 ('bekannt', 'NN'),
 ('gegeben', 'NN'),
 ('.', '.'),
 ('Es', 'NNP'),
 ('handelt', 'VBD'),
 ('sich', 'JJ'),
 ('um', 'JJ'),
 ('das', 'NNS'),
 ('Bundesland', 'NNP'),
 ('Rheinland-Pfalz', 'NNP'),
 ('.', '.'),
 ('Das', 'NNP'),
 ('gab', 'NN'),
 ('das', 'NN'),
 ('Ministerium', 'NNP'),
 ('eben', 'NN'),
 ('bekannt', 'NN'),
 ('.', '.'),
 ('Landkreise', 'NN'),
 (':', ':'),
 ('1', 'CD'),
 ('x', 'NN'),
 ('Bitburg/Prüm', 'NNP'),
 ('1', 'CD'),
 ('x', 'NNP'),
 ('Neuwied', 'VBD'),
 ('2', 'CD'),
 ('x', 'NNP'),
 ('Koblenz', 'NNP'),
 ('2', 'CD'),
 ('x', 'NNP'),
 ('Bad', 'NNP'),
 ('Dürkheim', 'NNP'),
 ('#', '#'),
 ('COVID19', 'NNP'),
 ('#', '#'),
 ('coronavirus', 'NN'),
 ('#', '#'),
 ('2019nCoV', 'CD')]

In [12]:
pattern = 'NP: {<DT>?<JJ>*<NN>}'

In [34]:
cp = nltk.RegexpParser(pattern)
cs = cp.parse(sent)
print(cs)

(S
  Die/NNP
  #/#
  Infizierungsfälle/NNP
  920/CD
  -/:
  925/CD
  (NP wurden/NN)
  in/IN
  #/#
  Deutschland/NNP
  (NP soeben/NN)
  (NP bekannt/NN)
  (NP gegeben/NN)
  ./.
  Es/NNP
  handelt/VBD
  sich/JJ
  um/JJ
  das/NNS
  Bundesland/NNP
  Rheinland-Pfalz/NNP
  ./.
  Das/NNP
  (NP gab/NN)
  (NP das/NN)
  Ministerium/NNP
  (NP eben/NN)
  (NP bekannt/NN)
  ./.
  (NP Landkreise/NN)
  :/:
  1/CD
  (NP x/NN)
  Bitburg/Prüm/NNP
  1/CD
  x/NNP
  Neuwied/VBD
  2/CD
  x/NNP
  Koblenz/NNP
  2/CD
  x/NNP
  Bad/NNP
  Dürkheim/NNP
  #/#
  COVID19/NNP
  #/#
  (NP coronavirus/NN)
  #/#
  2019nCoV/CD)


In [35]:
from nltk.chunk import conlltags2tree, tree2conlltags
from pprint import pprint
iob_tagged = tree2conlltags(cs)
pprint(iob_tagged)

[('Die', 'NNP', 'O'),
 ('#', '#', 'O'),
 ('Infizierungsfälle', 'NNP', 'O'),
 ('920', 'CD', 'O'),
 ('-', ':', 'O'),
 ('925', 'CD', 'O'),
 ('wurden', 'NN', 'B-NP'),
 ('in', 'IN', 'O'),
 ('#', '#', 'O'),
 ('Deutschland', 'NNP', 'O'),
 ('soeben', 'NN', 'B-NP'),
 ('bekannt', 'NN', 'B-NP'),
 ('gegeben', 'NN', 'B-NP'),
 ('.', '.', 'O'),
 ('Es', 'NNP', 'O'),
 ('handelt', 'VBD', 'O'),
 ('sich', 'JJ', 'O'),
 ('um', 'JJ', 'O'),
 ('das', 'NNS', 'O'),
 ('Bundesland', 'NNP', 'O'),
 ('Rheinland-Pfalz', 'NNP', 'O'),
 ('.', '.', 'O'),
 ('Das', 'NNP', 'O'),
 ('gab', 'NN', 'B-NP'),
 ('das', 'NN', 'B-NP'),
 ('Ministerium', 'NNP', 'O'),
 ('eben', 'NN', 'B-NP'),
 ('bekannt', 'NN', 'B-NP'),
 ('.', '.', 'O'),
 ('Landkreise', 'NN', 'B-NP'),
 (':', ':', 'O'),
 ('1', 'CD', 'O'),
 ('x', 'NN', 'B-NP'),
 ('Bitburg/Prüm', 'NNP', 'O'),
 ('1', 'CD', 'O'),
 ('x', 'NNP', 'O'),
 ('Neuwied', 'VBD', 'O'),
 ('2', 'CD', 'O'),
 ('x', 'NNP', 'O'),
 ('Koblenz', 'NNP', 'O'),
 ('2', 'CD', 'O'),
 ('x', 'NNP', 'O'),
 ('Bad', 'NNP',

In [36]:
from nltk import ne_chunk
ne_tree = ne_chunk(pos_tag(word_tokenize(ex)))
print(ne_tree)

(S
  Die/NNP
  #/#
  Infizierungsfälle/NNP
  920/CD
  -/:
  925/CD
  wurden/NN
  in/IN
  #/#
  (GPE Deutschland/NNP)
  soeben/NN
  bekannt/NN
  gegeben/NN
  ./.
  (PERSON Es/NNP)
  handelt/VBD
  sich/JJ
  um/JJ
  das/NNS
  (ORGANIZATION Bundesland/NNP)
  Rheinland-Pfalz/NNP
  ./.
  Das/NNP
  gab/NN
  das/NN
  Ministerium/NNP
  eben/NN
  bekannt/NN
  ./.
  Landkreise/NN
  :/:
  1/CD
  x/NN
  Bitburg/Prüm/NNP
  1/CD
  x/NNP
  Neuwied/VBD
  2/CD
  x/NNP
  Koblenz/NNP
  2/CD
  x/NNP
  Bad/NNP
  Dürkheim/NNP
  #/#
  (ORGANIZATION COVID19/NNP)
  #/#
  coronavirus/NN
  #/#
  2019nCoV/CD)


In [18]:
import spacy
from spacy import displacy
from collections import Counter
import de_core_news_sm
nlp = de_core_news_sm.load()

In [76]:
doc = nlp(ex)
pprint([(X.text, X.label_) for X in doc.ents])

[('Deutschland', 'LOC'),
 ('Rheinland-Pfalz', 'LOC'),
 ('Ministerium', 'ORG'),
 ('Bad Dürkheim', 'LOC'),
 ('COVID19 #', 'MISC')]


In [70]:
# pprint([(X, X.ent_iob_, X.ent_type_) for X in doc])


In [72]:
import re
re.findall(r'\d+', ex)

['920', '925', '1', '1', '2', '2', '19', '2019']

In [71]:
ex

'Die #Infizierungsfälle 920 - 925 wurden in #Deutschland soeben bekannt gegeben. Es handelt sich um das Bundesland Rheinland-Pfalz. Das gab das Ministerium eben bekannt. Landkreise: 1 x Bitburg/Prüm 1 x Neuwied 2 x Koblenz 2 x Bad Dürkheim #COVID19 #coronavirus #2019nCoV'

In [73]:
df_location = pd.read_csv('landkreise-in-germany.csv',sep=';')

df_location.replace('Deutchland','Deutschland',inplace=True)

In [74]:
l = list(df_location['Name 2'].unique())

cityList = []
for i in l:
    for x in i.split():
        cityList.append(x)


In [75]:
l = list(df_location['Name 1'].unique())
stateList = []
for i in l:
    for x in i.split():
        stateList.append(x)