# **Instanz und Datensatz in Python**
#### CLA, Philipp Wicke, CIS/LMU | 20"
---

**Merkmale für Dokumente**

Dokument: Tweet, Wikipedia-Artikel, Email, ...



In [11]:
doc1 = "The raw text string of the document The tokenized text list of strings The token frequencies of the document A unique identifier for each document"

Wie oft kommt jedes Wort vor (**Unigram**)?

In [12]:
words = doc1.split()
word_counts = dict()
for word in words:
  if word in word_counts.keys():
    word_counts[word] +=1
  else:
    word_counts[word] = 1

print(word_counts)

{'The': 3, 'raw': 1, 'text': 2, 'string': 1, 'of': 3, 'the': 2, 'document': 3, 'tokenized': 1, 'list': 1, 'strings': 1, 'token': 1, 'frequencies': 1, 'A': 1, 'unique': 1, 'identifier': 1, 'for': 1, 'each': 1}


`the` ist ein Merkmal und `2` der Merkmalswert
`The` ist ein anderes Merkmal mit dem Merkmalswert `3`

Wir können nun fragen, wie oft kommt jedes **Bigram** vor? 

Also: `The raw`, `raw text`, `text string` etc.

In [14]:
from collections import Counter
print("Merkmals-Dictionary:")
print(Counter(zip(words,words[1:])))

Merkmals-Dictionary:
Counter({('of', 'the'): 2, ('the', 'document'): 2, ('The', 'raw'): 1, ('raw', 'text'): 1, ('text', 'string'): 1, ('string', 'of'): 1, ('document', 'The'): 1, ('The', 'tokenized'): 1, ('tokenized', 'text'): 1, ('text', 'list'): 1, ('list', 'of'): 1, ('of', 'strings'): 1, ('strings', 'The'): 1, ('The', 'token'): 1, ('token', 'frequencies'): 1, ('frequencies', 'of'): 1, ('document', 'A'): 1, ('A', 'unique'): 1, ('unique', 'identifier'): 1, ('identifier', 'for'): 1, ('for', 'each'): 1, ('each', 'document'): 1})


Wie oft kommt jedes Zeichen-Ngram (z.B. **Trigram**) vor?

In [18]:
words = doc1.split()

trigrams = [word[i:i+3] for word in words for i in range(len(word)-2)]

trigram_counts = {}
for trigram in trigrams:
    if trigram in trigram_counts:
        trigram_counts[trigram] += 1
    else:
        trigram_counts[trigram] = 1

print(trigram_counts)


{'The': 3, 'raw': 1, 'tex': 2, 'ext': 2, 'str': 2, 'tri': 2, 'rin': 2, 'ing': 2, 'the': 2, 'doc': 3, 'ocu': 3, 'cum': 3, 'ume': 3, 'men': 3, 'ent': 4, 'tok': 2, 'oke': 2, 'ken': 2, 'eni': 1, 'niz': 1, 'ize': 1, 'zed': 1, 'lis': 1, 'ist': 1, 'ngs': 1, 'fre': 1, 'req': 1, 'equ': 1, 'que': 2, 'uen': 1, 'enc': 1, 'nci': 1, 'cie': 1, 'ies': 1, 'uni': 1, 'niq': 1, 'iqu': 1, 'ide': 1, 'den': 1, 'nti': 1, 'tif': 1, 'ifi': 1, 'fie': 1, 'ier': 1, 'for': 1, 'eac': 1, 'ach': 1}


Die verschiedenen erzeugten Merkmalswerte sind nichts anderes als Merkmalsvektoren:

In [23]:
print("Unigram Merkmalsvektor: ", list(word_counts.values()))
print("Trigram Merkmalsvektor: ", list(trigram_counts.values()))

Unigram Merkmalsvektor:  [3, 1, 2, 1, 3, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Trigram Merkmalsvektor:  [3, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


---

# Binärer Klassifikator: Trainings-/Testdaten in Python

Schauen wir uns zunächst an wie wir eine Dateninstanz definieren können.

*feature* : Merkmal
*instance* : Beispiel
*feature_count* : Merkmalswert
*label* : Klasse des Beispiels

Wir haben eine Klasse die Trainingsbeispiele codiert. Dafür sind die Merkmale des Beispiels, welchen Wert der Merkmale und was ist die Klasse (das Label) des Beispiels.

In [24]:
class DataInstance:
  def __init__(self, feature_counts, label):
    # feature counts: dictionary (string -> int)
    self.feature_counts = feature_counts
    # label: True or False (binäre Klassifikation)
    self.label = label

  @classmethod
  def from_list_of_feature_occurrences(cls, feature_list, label):
    # Eine Merkmalsliste kann auch bspw. ein dict sein wie ["The", "raw", "tex", ...]

    feature_counts = dict()
    # TODO: Count how often a feature occurs in the list
    # ...
    return cls(feature_counts, label)

In [25]:
class Dataset:
  def __init__(self, instance_list, feature_set):
    # instance list: all instances in the data set
    self.instance_list = instance_list
    # feature_set: all features in the data set
    self.feature_set = feature_set

    # ...

*   Welches idn die Merkmale, die in den meisten Instanzen vorkommen? Oft ist es sinnvoll, nur die häufigsten Merkmale (z.B. 1000) zu verwenden.
*   Ein Datensatz kann auf eine bestimmte Merkmalsmenge eingeschränkt werden. Andere Merkmale werden dann aus den Instanzen des Datensatzes entfernt.



In [26]:
class Dataset:
  def __init__(self, instance_list, feature_set):
    self.instance_list = instance_list
    self.feature_set = feature_set

  def get_topn_features(self, n):
    # ...
    pass
  def set_feature_set(self, feature_set):
    # ...
    pass

Weitere Methoden bieten sich an. 

* So zum Beispiel der Sanity-check: Welche Genauigkeit hätte die Vorhersage der häufigsten Kategorie? Also, wenn nur immer die häufigste Kategorie vorhergesagt wird (ohne irgendeine Überprüfung). Dies definiert unsere *baseline*, da unser Training besser sein sollte als lediglich immer die häufigste Kategorie auszuwählen.

* Manche Lernalgorithmen verlangen mehrere Trainings-Iterationen, zwischen denen das Trainingsset neu permutiert (gemischt) werden sollte. Da das Trainingsset limitiert ist, kann eine `shuffle` Methode implementiert werden, damit bei jedem Trainingslauf (**Epoche**) zufäälig neu permutiert wird.


In [28]:
class Dataset:
  def __init__(self, instance_list, feature_set):
    self.instance_list = instance_list
    self.feature_set = feature_set

  # ....

  def most_frequent_sense_accuracy(self):
    # ...
    pass
  def shuffle(self):
    # ...
    pass