**Fachprojekt Dokumentenanalyse** *WS 22/23* -- *Philipp Oberdiek, Gernot A. Fink* -- *Technische Universität Dortmund, Lehrstuhl XII, Mustererkennung in eingebetteten Systemen*
---
# Aufgabe 1: Brown Corpus

In der ersten Aufgabe sollen Sie sich mit dem Brown Corpus vertraut machen.
 - Laden Sie den Corpus und schauen Sie sich dessen Aufbau an.
 - Analysieren Sie den Corpus in dem Sie Wortstatistiken bestimmen.
 - Verbessern Sie die Aussagekraft der Statistiken.

## Laden des Corpus
Für das Fachprojekt benötigen Sie die NLTK (http://www.nltk.org/) Datensätze "brown" und "stopwords". Falls diese noch nicht lokal auf Ihrem Rechner verfügbar sein sollten, können Sie sie über den "NLTK Downloader" herunterladen. Ein entsprechender Dialog öffnet sich in diesem Fall automatisch.


In [1]:
%load_ext autoreload
%autoreload 2
%matplotlib widget

import sys

if ".." not in sys.path:
    sys.path.append("..")
    
from common.corpus import CorpusLoader

CorpusLoader.load()

Im Folgenden werden einige grundlegende Statistiken des Brown Corpus ausgegeben, die vor allem etwas über dessen Struktur / Aufbau aussagen.

Siehe auch: http://en.wikipedia.org/wiki/Brown_Corpus

Der Corpus enthält verschiedene Kategorien, in die Dokumente einsortiert sind. Ein Dokument besteht aus Wörtern. Als nächstes sehen Sie, wie Sie auf Kategorien, Dokumente und Wörter zugreifen können.

In [2]:
brown = CorpusLoader.brown_corpus()
brown_categories = brown.categories()
brown_documents = brown.fileids()
brown_words = brown.words()


Geben Sie nun die Gesamtanzahl von Kategorien, Dokumenten und Wörtern mit print aus.

In [3]:
print("Gesamtanzahl Kategorien:", len(brown_categories))
print("Gesamtanzahl Dokumenten:", len(brown_documents))
print("Gesamtanzahl Woertern:", len(brown_words))

Gesamtanzahl Kategorien: 15
Gesamtanzahl Dokumenten: 500
Gesamtanzahl Woertern: 1161192


Geben Sie die Namen der einzelnen Kategorien aus.

In [4]:
def print_ds():
	print(f"categories ({len(brown_categories)}):")
	print(brown_categories)
	print(f"docs ({len(brown_documents)}):")
	print(brown_documents)
	print(f"words ({len(brown_words)}):")
	print(brown_words)
print_ds()

categories (15):
['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction']
docs (500):
['ca01', 'ca02', 'ca03', 'ca04', 'ca05', 'ca06', 'ca07', 'ca08', 'ca09', 'ca10', 'ca11', 'ca12', 'ca13', 'ca14', 'ca15', 'ca16', 'ca17', 'ca18', 'ca19', 'ca20', 'ca21', 'ca22', 'ca23', 'ca24', 'ca25', 'ca26', 'ca27', 'ca28', 'ca29', 'ca30', 'ca31', 'ca32', 'ca33', 'ca34', 'ca35', 'ca36', 'ca37', 'ca38', 'ca39', 'ca40', 'ca41', 'ca42', 'ca43', 'ca44', 'cb01', 'cb02', 'cb03', 'cb04', 'cb05', 'cb06', 'cb07', 'cb08', 'cb09', 'cb10', 'cb11', 'cb12', 'cb13', 'cb14', 'cb15', 'cb16', 'cb17', 'cb18', 'cb19', 'cb20', 'cb21', 'cb22', 'cb23', 'cb24', 'cb25', 'cb26', 'cb27', 'cc01', 'cc02', 'cc03', 'cc04', 'cc05', 'cc06', 'cc07', 'cc08', 'cc09', 'cc10', 'cc11', 'cc12', 'cc13', 'cc14', 'cc15', 'cc16', 'cc17', 'cd01', 'cd02', 'cd03', 'cd04', 'cd05', 'cd06', 'cd07', 'cd08', 'cd09', 'cd10', 'cd11

Bisher haben Sie noch keine Information über die Struktur des Brown Corpus gewonnen, da sie jeweils die Gesamtzahl von Kategorien, Dokumenten und Wörtern ausgegeben haben.

Geben Sie als nächstes die Anzahl von Dokumenten und Wörtern je Kategorie aus.
http://www.nltk.org/howto/corpus.html#categorized-corpora

**Hilfreiche Funktionen:** `fileids`, `words`

Visualisieren Sie die Verteilungen mit Hilfe von horizontalen bar plots. Nutzen Sie dafür die Funktion `hbar_plot` aus dem Modul `common.visualization`.
http://matplotlib.org/examples/lines_bars_and_markers/barh_demo.html

Optional: Plotten Sie die Verteilungen mit vertikalen bar plots.
Vermeiden Sie, dass sich die an der x-Achse aufgetragenen labels überlappen
http://matplotlib.org/api/axes_api.html#matplotlib.axes.Axes.set_xticklabels
Stellen Sie nun die Verteilungen über Dokumente und Wörter in einem gemeinsamen Plot dar. Verwenden Sie unterschiedliche Farben.
http://matplotlib.org/examples/api/barchart_demo.html

In [5]:
cat_label = []
cat_num_words = []
cat_num_docs = []
for category in brown_categories:
	cat_label.append(category)
	cat_num_words.append(len(brown.words(categories=category)))
	cat_num_docs.append(len(brown.fileids(categories=category)))


In [1]:
from common.visualization import hbar_plot
print("num words to categories")
hbar_plot(cat_num_words , cat_label)
print("num docs to categories")
hbar_plot(cat_num_docs , cat_label)


ModuleNotFoundError: No module named 'common'

Die nun zu implementierenden Funktionen spielen eine zentrale Rolle im weiteren Verlauf des Fachprojekts. Achten Sie auf eine effiziente und 'saubere' Umsetzung. Verwenden Sie geeignete Datenstrukturen und passende Python Funktionen. Wenn Ihnen Ihr Ansatz sehr aufwändig vorkommt, haben Sie vermutlich nicht die passenden Datenstrukturen / Algorithmen / (highlevel) Python / NumPy Funktionen verwendet. Fragen Sie in diesem Fall!

Schauen Sie sich jetzt schon gründlich die Klassen und deren Interfaces in den mitgelieferten Modulen an. Wenn Sie Ihre Datenstrukturen von Anfang an dazu passend wählen, erleichtert dies deren spätere Benutzung. Zusätzlich bieten diese Klassen bereits etwas Inspiration für Python-typisches Design, wie zum Beispiel Duck-Typing.

Zu einigen der vorgebenen Interfaces finden Sie Unit Tests in dem Paket 'utest'. Diese sind sehr hilfreich um zu überprüfen, ob ihre Implementierung zusammen mit anderen mitgelieferten Implementierungen / Interfaces funktionieren wird. Stellen Sie immer sicher, dass die Unit tests für die von Ihnen verwendeten Funktionen erfolgreich sind.  
**Hinweis:** Im Verlauf des Fachprojekts werden die Unit Tests nach und nach erfolgreich sein. Falls es sie zu Beginn stört, wenn einzelne Unit Tests fehlschlagen können Sie diese durch einen 'decorator' vor der Methodendefinition vorübergehend abschalten: `@unittest.skip('')`
https://docs.python.org/3/library/unittest.html#skipping-tests-and-expected-failures
Denken Sie aber daran sie später wieder zu aktivieren.

Wenn etwas unklar ist, fragen Sie!

Um Texte / Dokumente semantisch zu analysieren, betrachtet man Verteilungen über Wortvorkommen. Ziel dieser semantischen Analyse soll es letztlich sein unbekannte Dokumente automatisch einer bekannten Kategorie / Klasse zuzuordnen.

Bestimmen Sie die 20 häufigsten Wörter des Brown Corpus (insgesamt), sowie die 20 häufigsten Wörter je Kategorie.

http://docs.python.org/3/library/collections.html#collections.defaultdict
http://docs.python.org/3/library/functions.html#sorted

**Hinweis:** Die Dokumentation zu `defaultdict` enthält ein sehr hilfreiches Beispiel.

Implementieren Sie die (statische) Funktion `BagOfWords.most_freq_words` im Modul `common.features`. Nutzen Sie die Funktion anschließend um die 20 häufigstens Wörter des Corpus und pro Kategorie auszugeben.

In [7]:
from common.features import BagOfWords

print('\nTOP 20 words for the full corpus')
top_words = BagOfWords.most_freq_words(word_list=brown_words, n_words=20)
print(' | '.join(top_words))
# TOP 10 words per category
for category in brown_categories:
	category_words =  brown.words(categories=category)
	top_words_per_cat = BagOfWords.most_freq_words(word_list=category_words, n_words=10)
	print( f"Category={category}" , ' | '.join(top_words_per_cat))




TOP 20 words for the full corpus
the | , | . | of | and | to | a | in | that | is | was | for | `` | '' | The | with | it | as | he | his
Category=adventure . | , | the | and | a | of | to | `` | '' | was
Category=belles_lettres the | , | . | of | and | to | a | in | that | is
Category=editorial the | , | . | of | to | and | a | in | is | that
Category=fiction , | . | the | and | to | of | a | was | in | he
Category=government the | , | of | . | and | to | in | a | for | is
Category=hobbies the | , | . | of | and | to | a | in | is | for
Category=humor , | the | . | of | and | a | to | `` | '' | in
Category=learned the | , | of | . | and | to | in | a | is | that
Category=lore the | , | . | of | and | to | a | in | is | that
Category=mystery . | , | the | to | and | a | of | was | `` | ''
Category=news the | , | . | of | and | to | a | in | for | The
Category=religion the | , | of | . | and | to | in | a | is | that
Category=reviews , | the | . | of | and | a | to | in | is | ``
Categ

Testen Sie ihre Implementierung mit folgendem Unittest:

In [8]:
import unittest

from utest.test_features import BagOfWordsTest

suite = unittest.TestSuite()
suite.addTest(BagOfWordsTest("test_most_freq_words"))
runner = unittest.TextTestRunner()
runner.run(suite)

.
----------------------------------------------------------------------
Ran 1 test in 0.001s

OK


<unittest.runner.TextTestResult run=1 errors=0 failures=0>

Diese Wörter sind nicht besonders charakteristisch für die Unterscheidung verschiedener Kategorien. Daher entfernt man solche wenig aussagekräftigen Wörter vor einer semantischen Analyse. Man bezeichnet diese Wörter als *stopwords*.

Eine Liste mit stopwords wird durch NLTK bereitgestellt (siehe oben, sowie im `common.corpus` Modul). Filtern Sie nun alle stopwords bevor Sie die 20 häufigsten Wörter im Brown Corpus (insgesamt und je Kategorie) erneut bestimmen. Achten Sie dabei auf Gross- und Kleinschreibung und filtern Sie auch Satzzeichen (`string.punctuation`).

http://www.nltk.org/howto/corpus.html#word-lists-and-lexicons
http://docs.python.org/3/library/string.html

Geben Sie zunächst stopwords und Satzzeichen auf der Kommandozeile aus.

In [9]:
import string
from typing import List
stop_words = CorpusLoader.stopwords_corpus()

Mit der Liste von stopwords können Sie noch keine grammatikalischen Varianten von Wörtern erfassen, die ebenfalls nicht entscheidend für die semantische Analyse von Texten sind (zum Beispiel: walking, walked).

Verwenden Sie daher den `PorterStemmer` um Wörter auf ihre Wortstämme abzubilden.
Geben Sie die 20 häufigsten Wörter nach jedem Filter Schritt aus:

1. stopwords und Satzzeichen
2. Abbildung auf Wortstämme (stemming)

Erläutern Sie Ihre Beobachtungen.

Implementieren Sie die Methode `WordListNormalizer.normalize_words` im `common.features` Modul.

**Hilfreiche Funktionen:** http://www.nltk.org/api/nltk.stem.html#module-nltk.stem.porter


In [10]:
from nltk.stem import PorterStemmer
from common.features import WordListNormalizer
normalizer =  WordListNormalizer(stop_words)
words , stemmed_words  = normalizer.normalize_words(brown_words)



Testen Sie ihre Implementierung mit folgendem Unittest:

In [11]:
import unittest

from utest.test_features import WordListNormalizerTest

suite = unittest.TestSuite()
suite.addTest(WordListNormalizerTest("test_normalize_words"))
runner = unittest.TextTestRunner()
runner.run(suite)

.
----------------------------------------------------------------------
Ran 1 test in 0.002s

OK


<unittest.runner.TextTestResult run=1 errors=0 failures=0>