**Notebook zum Foliensatz Suche - Invertierter Index**


Aufbau des Datensatzes (Rohtexte)

In [1]:
import os
from os import listdir
import pprint
import nltk
from nltk import word_tokenize
from nltk import SnowballStemmer
from nltk.corpus import stopwords

corpus_text = [] # Der zunächst leere Korpus -> Liste mit Texten
for filename in os.listdir('TuWM02data'):
    f = open('TuWM02data/'+filename)
    corpus_text.append(f.read())

#pprint.pprint(corpus_text,width=180,compact=True)

**Vektorisieren**

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

## Tokenizierung wie beim letzten Mal als eigene Funktion zur Integration im Vectorizer
def my_nltk_tokenizer(doc):
    stemmer = SnowballStemmer('german')
    stop_words = set(stopwords.words('german')) 
    tokens = word_tokenize(doc,language='german')   #Tokenisierung
    tokens = [x.lower() for x in tokens if x.isalnum()]   #Kleinschreibung und Alphanumerische Zeichen
    tokens = [x for x in tokens if not x in stop_words]   #Stoppwortentfernung
    tokens = [stemmer.stem(x) for x in tokens]   #Wortstämme
    return tokens

## Vectorizer initialisieren, Wörterbuch aufbauen und Vektoren gleich umwandeln
vectorizer_count = CountVectorizer(tokenizer=my_nltk_tokenizer)
vecs_count = vectorizer_count.fit_transform(corpus_text)
print("Größe des Wörterbuchs: "+str(len(vectorizer_count.get_feature_names_out())))
print("IDs der Token")
print(vectorizer_count.vocabulary_)

Größe des Wörterbuchs: 220
IDs der Token
{'neu': 156, 'bibliothek': 55, 'standort': 179, 'dessau': 64, 'seit': 176, 'somm': 178, '2009': 5, 'konnt': 133, 'umbauarbeit': 195, 'ehemal': 68, 'kaufhall': 126, 'bauhaus': 35, 'gemeinsam': 103, 'hochschul': 112, 'anhalt': 19, 'stiftung': 183, 'verfolg': 203, 'marz': 149, '2012': 6, 'erfolgt': 85, 'feierlich': 95, 'einweih': 76, 'bereit': 47, 'kurz': 138, 'grundung': 107, 'hochschulstandort': 116, '1993': 1, 'befand': 39, 'beid': 43, 'eher': 69, 'behelfsmass': 42, 'dach': 60, 'damal': 61, 'geschichtstracht': 104, 'rasant': 168, 'wachsend': 207, 'studierendenzahl': 186, 'ebenso': 67, 'bestand': 51, 'buch': 57, 'macht': 148, '1997': 2, 'auszug': 33, 'hochschulbibliothek': 113, 'jahnstrass': 122, 'unausweich': 199, 'lang': 142, 'such': 187, 'akzeptabl': 18, 'losung': 146, 'begann': 41, 'erst': 90, 'schritt': 174, 'ergab': 86, '2003': 3, 'erneut': 89, 'kooperation': 136, 'zwei': 219, 'eigenstand': 71, '2004': 4, 'wurd': 216, 'plan': 161, 'umnutz':



**Häufigkeitsvektoren -> eigentlich Dokument-Term-Matrix**

In [3]:
#print(vecs_count)
#print(" ")
print(vecs_count.toarray())

[[0 1 1 2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 3 0 0 0 1 0 0 1 0 0 0 0 0 0 1 1 7
  1 0 1 1 0 1 2 1 0 0 0 1 0 0 0 1 0 0 0 9 0 1 1 0 2 1 0 0 6 1 0 1 2 1 0 1
  0 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 1 0 2 0 2 1 1 1 1
  0 1 0 1 3 1 0 0 1 0 0 1 0 0 1 0 0 0 2 0 0 0 0 0 0 2 0 0 1 0 1 0 0 1 1 0
  1 0 1 0 1 1 0 0 0 2 0 0 1 1 1 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 1 0 4 0 1 1
  0 1 1 3 0 0 1 1 1 0 0 0 0 0 0 1 2 1 1 1 0 0 0 1 1 1 0 2 0 0 1 0 0 1 0 0
  1 0 1 1]
 [1 0 0 0 0 0 0 1 1 2 1 1 2 1 1 1 2 1 0 2 1 2 1 0 1 1 0 1 1 1 1 1 1 0 0 0
  0 2 0 0 1 0 0 1 1 1 1 0 1 1 1 0 1 2 2 0 1 0 0 2 0 0 1 1 0 0 1 0 0 0 1 0
  1 1 1 1 0 1 0 1 1 1 1 1 1 0 0 1 1 0 1 1 2 1 0 0 1 1 0 0 1 0 1 0 0 0 0 0
  1 1 3 0 3 0 1 1 0 1 1 0 2 1 0 1 1 1 0 2 1 1 1 1 1 0 1 1 1 1 0 1 3 0 0 1
  0 1 1 1 0 0 2 1 1 0 2 1 0 0 0 0 1 0 1 1 1 1 4 1 0 0 0 1 0 1 0 1 0 1 0 0
  1 0 0 0 1 3 0 0 0 1 1 1 5 2 1 0 0 0 0 0 4 1 1 0 1 0 1 0 2 1 0 1 1 0 3 5
  0 1 1 1]]


**Die Dokument-Term-Matrix**

In [4]:
print("Matrix-Typ:",type(vecs_count))
print("Matrix-Dimensionen: ", vecs_count.shape)
print("\nEin Dokumentvektor")
print(vecs_count.getrow(0))

Matrix-Typ: <class 'scipy.sparse._csr.csr_matrix'>
Matrix-Dimensionen:  (2, 220)

Ein Dokumentvektor
  (0, 156)	1
  (0, 55)	9
  (0, 179)	1
  (0, 64)	6
  (0, 176)	4
  (0, 178)	1
  (0, 5)	1
  (0, 133)	2
  (0, 195)	1
  (0, 68)	2
  (0, 126)	2
  (0, 35)	7
  (0, 103)	2
  (0, 112)	3
  (0, 19)	3
  (0, 183)	3
  (0, 203)	1
  (0, 149)	1
  (0, 6)	1
  (0, 85)	1
  (0, 95)	1
  (0, 76)	1
  (0, 47)	1
  (0, 138)	1
  (0, 107)	1
  :	:
  (0, 218)	1
  (0, 99)	1
  (0, 196)	2
  (0, 153)	2
  (0, 198)	1
  (0, 169)	1
  (0, 58)	1
  (0, 172)	1
  (0, 38)	1
  (0, 23)	1
  (0, 36)	1
  (0, 26)	1
  (0, 119)	1
  (0, 65)	1
  (0, 210)	1
  (0, 106)	1
  (0, 213)	1
  (0, 181)	1
  (0, 158)	1
  (0, 109)	1
  (0, 105)	1
  (0, 98)	1
  (0, 111)	1
  (0, 170)	1
  (0, 205)	1


**Transponieren -> Die Term-Dokument-Matrix**

In [5]:
#Transponieren der Matrix
inverted_count = vecs_count.transpose()

print("Index")
#print(inverted_count)
#print(" ")
print(inverted_count.toarray())

Index
[[0 1]
 [1 0]
 [1 0]
 [2 0]
 [1 0]
 [1 0]
 [1 0]
 [0 1]
 [0 1]
 [0 2]
 [0 1]
 [0 1]
 [0 2]
 [0 1]
 [0 1]
 [0 1]
 [0 2]
 [0 1]
 [1 0]
 [3 2]
 [0 1]
 [0 2]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [1 0]
 [1 0]
 [7 0]
 [1 0]
 [0 2]
 [1 0]
 [1 0]
 [0 1]
 [1 0]
 [2 0]
 [1 1]
 [0 1]
 [0 1]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [0 1]
 [1 0]
 [0 1]
 [0 2]
 [0 2]
 [9 0]
 [0 1]
 [1 0]
 [1 0]
 [0 2]
 [2 0]
 [1 0]
 [0 1]
 [0 1]
 [6 0]
 [1 0]
 [0 1]
 [1 0]
 [2 0]
 [1 0]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [1 0]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [1 0]
 [1 0]
 [0 1]
 [0 1]
 [1 0]
 [1 1]
 [0 1]
 [0 2]
 [0 1]
 [1 0]
 [1 0]
 [0 1]
 [0 1]
 [1 0]
 [1 0]
 [0 1]
 [2 0]
 [0 1]
 [2 0]
 [1 0]
 [1 0]
 [1 0]
 [1 0]
 [0 1]
 [1 1]
 [0 3]
 [1 0]
 [3 3]
 [1 0]
 [0 1]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [1 0]
 [0 2]
 [0 1]
 [1 0]
 [0 1]
 [0 1]
 [0 1]
 [2 0]
 [0 2]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [2 0]
 [0 1]
 [0 1]
 [1 1]
 [0 1]
 [1 0]
 [0 1]
 [0 3]
 [1 0]


**Zugriff auf den Index**

In [6]:
print("Matrix-Typ:",type(inverted_count))
print("Matrix-Dimensionen: ", inverted_count.shape)

print("\nEinige Vorkommenslisten")
print("Hochschule")
print(inverted_count.getrow(112))
print("Anhalt")
print(inverted_count.getrow(19))
print("modern")
print(inverted_count.getrow(153))
print("=")
print(vecs_count.getcol(153))

Matrix-Typ: <class 'scipy.sparse._csc.csc_matrix'>
Matrix-Dimensionen:  (220, 2)

Einige Vorkommenslisten
Hochschule
  (0, 0)	3
  (0, 1)	3
Anhalt
  (0, 0)	3
  (0, 1)	2
modern
  (0, 0)	2
=
  (0, 0)	2
