# Funktionen Textprocessing

## Text-Datei runterladen

In [1]:
import requests

gg_raw_url = "https://raw.githubusercontent.com/levinalex/deutsche_verfassungen/master/grundgesetz/grundgesetz.txt"
response = requests.get(gg_raw_url)
grundgesetz = response.text

grundgesetz[:1000]

'Grundgesetz für die Bundesrepublik Deutschland\n\nVom 23. Mai 1949 (BGBl. S. 1)\n\nZuletzt geändert durch das Gesetz zur Änderung des Grundgesetzes (Artikel 96) vom 26. 7. 2002 (BGBl. I S. 2863)\n\n\n\n\n\n\n\nDer Parlamentarische Rat hat am 23. Mai 1949 in Bonn am Rhein in öffentlicher Sitzung festgestellt, daß das am 8. Mai des Jahres 1949 vom Parlamentarischen Rat beschlossene Grundgesetz für die Bundesrepublik Deutschland in der Woche vom 16. bis 22. Mai 1949 durch die Volksvertretungen von mehr als zwei Dritteln der beteiligten deutschen Länder angenommen worden ist.\nAuf Grund dieser Feststellung hat der Parlamentarische Rat, vertreten durch seine Präsidenten, das Grundgesetz ausgefertigt und verkündet.\n\nDas Grundgesetz wird hiermit gemäß Artikel 145 Absatz 3 im Bundesgesetzblatt veröffentlicht.\n\n\nPräambel\n\nIm Bewußtsein seiner Verantwortung vor Gott und den Menschen, von dem Willen beseelt, als gleichberechtigtes Glied in einem vereinten Europa dem Frieden der Welt zu di

## Text-Datei speichern

In [2]:
with open('grundgesetz.txt', 'w', encoding='utf-8') as f:
    f.write(grundgesetz)

## Kleinschreibung vereinheitlichen

In [3]:
grundgesetz = grundgesetz.lower()
print(grundgesetz[:250])

grundgesetz für die bundesrepublik deutschland

vom 23. mai 1949 (bgbl. s. 1)

zuletzt geändert durch das gesetz zur änderung des grundgesetzes (artikel 96) vom 26. 7. 2002 (bgbl. i s. 2863)







der parlamentarische rat hat am 23. mai 1949 in bonn


## Zeichensetzung entfernen

In [4]:
import string

def remove_punctuation(text):
    punctuation = string.punctuation
    for marker in punctuation:
        text = text.replace(marker, "")
    return text

grundgesetz = remove_punctuation(grundgesetz)
print(grundgesetz[:250])

grundgesetz für die bundesrepublik deutschland

vom 23 mai 1949 bgbl s 1

zuletzt geändert durch das gesetz zur änderung des grundgesetzes artikel 96 vom 26 7 2002 bgbl i s 2863







der parlamentarische rat hat am 23 mai 1949 in bonn am rhein in ö


## Liste erstellen

In [5]:
grundgesetz_words = grundgesetz.split()


In [6]:
print("Anzahl aller Worte des Textes: ")
print(len(grundgesetz_words))
print("=======")
print(grundgesetz_words[:25])

Anzahl aller Worte des Textes: 
19127
['grundgesetz', 'für', 'die', 'bundesrepublik', 'deutschland', 'vom', '23', 'mai', '1949', 'bgbl', 's', '1', 'zuletzt', 'geändert', 'durch', 'das', 'gesetz', 'zur', 'änderung', 'des', 'grundgesetzes', 'artikel', '96', 'vom', '26']


## Zählen eines bestimmten Worts

In [7]:
def count_item_in_text(item_to_count, list_to_search):
    number_of_hits = 0
    for item in list_to_search:
        if item == item_to_count:
            number_of_hits += 1
    return number_of_hits

In [8]:
print(count_item_in_text("bund", grundgesetz_words))

85


## Alle Wörter zählen mit Hilfe eines Dictionarys

In [9]:
def counter_dict(list_to_search):
    counts = {}
    for word in list_to_search:
        if word in counts:
            counts[word] = counts[word] + 1  
        else:
            counts[word] = 1
    return counts

In [10]:
counter_dict(grundgesetz_words)

{'grundgesetz': 27,
 'für': 162,
 'die': 859,
 'bundesrepublik': 10,
 'deutschland': 9,
 'vom': 43,
 '23': 9,
 'mai': 10,
 '1949': 5,
 'bgbl': 2,
 's': 2,
 '1': 219,
 'zuletzt': 1,
 'geändert': 13,
 'durch': 176,
 'das': 303,
 'gesetz': 65,
 'zur': 99,
 'änderung': 9,
 'des': 495,
 'grundgesetzes': 30,
 'artikel': 263,
 '96': 2,
 '26': 4,
 '7': 14,
 '2002': 1,
 'i': 3,
 '2863': 1,
 'der': 932,
 'parlamentarische': 5,
 'rat': 5,
 'hat': 71,
 'am': 15,
 'in': 241,
 'bonn': 1,
 'rhein': 1,
 'öffentlicher': 4,
 'sitzung': 3,
 'festgestellt': 6,
 'daß': 59,
 '8': 14,
 'jahres': 2,
 'parlamentarischen': 3,
 'beschlossene': 2,
 'woche': 1,
 '16': 5,
 'bis': 35,
 '22': 3,
 'volksvertretungen': 4,
 'von': 189,
 'mehr': 25,
 'als': 67,
 'zwei': 24,
 'dritteln': 14,
 'beteiligten': 10,
 'deutschen': 27,
 'länder': 112,
 'angenommen': 1,
 'worden': 15,
 'ist': 160,
 'auf': 154,
 'grund': 38,
 'dieser': 22,
 'feststellung': 11,
 'vertreten': 4,
 'seine': 12,
 'präsidenten': 8,
 'ausgefertigt': 3,
 

## Worthäufigkeiten sortieren

In [11]:
def freq_sort(list_to_search):
    counts = counter_dict(list_to_search)
    counts = [(counts[key], key) for key in counts]
    counts.sort()
    counts.reverse()
    return counts

In [12]:
freq_sort(grundgesetz_words)[:25]

[(932, 'der'),
 (859, 'die'),
 (577, 'und'),
 (495, 'des'),
 (303, 'das'),
 (283, 'den'),
 (269, 'oder'),
 (263, 'artikel'),
 (241, 'in'),
 (219, '1'),
 (207, 'werden'),
 (201, '2'),
 (192, 'zu'),
 (189, 'von'),
 (176, 'durch'),
 (162, 'für'),
 (160, 'ist'),
 (154, 'auf'),
 (139, 'dem'),
 (134, 'nach'),
 (132, 'im'),
 (131, '3'),
 (128, 'mit'),
 (123, 'kann'),
 (120, 'nicht')]

## Entfernen von Stoppwörtern

In [13]:
def remove_stopwords(list_to_search):
    stopword_url = "http://members.unine.ch/jacques.savoy/clef/germanST.txt"
    response = requests.get(stopword_url)
    stopwords = response.text
    stopwords = stopwords.split()
    return [w for w in list_to_search if w not in stopwords]

In [14]:
remove_stopwords(grundgesetz_words)[:25]

['grundgesetz',
 'bundesrepublik',
 'deutschland',
 '23',
 'mai',
 '1949',
 'bgbl',
 '1',
 'zuletzt',
 'geändert',
 'gesetz',
 'änderung',
 'grundgesetzes',
 'artikel',
 '96',
 '26',
 '7',
 '2002',
 'bgbl',
 '2863',
 'parlamentarische',
 'rat',
 '23',
 'mai',
 '1949']

## Entfernen von Zahlen mit regulärem Ausdruck

In [15]:
import re

RE_INT = re.compile(r'\d+')

def remove_digit(text):
    return re.sub(RE_INT, '', text)

## Funktionsaufrufe

In [16]:
grundgesetz = grundgesetz.lower()
grundgesetz = remove_punctuation(grundgesetz)
grundgesetz = remove_digit(grundgesetz)
grundgesetz_words = grundgesetz.split()
grundgesetz_words = remove_stopwords(grundgesetz_words)
freq_sort(grundgesetz_words)[:25]

[(263, 'artikel'),
 (112, 'länder'),
 (99, 'absatz'),
 (96, 'zustimmung'),
 (95, 'bundesrates'),
 (85, 'bund'),
 (84, 'bundesregierung'),
 (80, 'soweit'),
 (78, 'bundesgesetz'),
 (73, 'bundes'),
 (65, 'gesetz'),
 (58, 'bundestages'),
 (57, 'ländern'),
 (55, 'bundestag'),
 (46, 'bedarf'),
 (43, 'satz'),
 (42, 'gemeinden'),
 (41, 'mehrheit'),
 (39, 'gesetze'),
 (39, 'bundesrat'),
 (39, 'bestimmt'),
 (38, 'grund'),
 (37, 'mitglieder'),
 (36, 'nähere'),
 (35, 'landes')]