# Sentiment Analysis
In diesem Teil möchten wir uns mit Sentiment Analysis beschäftigen. Vereinfacht gesagt beschäftigt sich Sentiment Analysis damit, natürlichsprachliche Aussagen dahingehend zu bewerten, ob die subjektive Aussage des Sprechers positiv oder negativ wertend gemeint ist.

Zu diesem Zweck haben wir den Datensatz von Sentiment140, einem Projekt der Stanford University, ausgewählt. Er beinhaltet 16 Millionen Tweets, die aufgrund der enthaltenen Emoticons automatisch in positiv und negativ eingeteilt wurden.

Der Datensatz liegt als csv-Datei vor. Zunächst möchten wir uns die darin enthaltene Daten etwas genauer ansehen.

## 1. Aufgabe

1. Ladet euch den Datensatz von http://help.sentiment140.com/for-students
2. Lest den Datensatz in eine Liste ein, benutzt dazu den csv-reader: https://docs.python.org/3/library/csv.html. Da wir uns nur für die Felder `polarity` und `text` interessieren, sollte die Liste mit den Daten folgendes Format haben : `[(polarity, text),...]`. Positive Tweets haben eine polarity von '4', negative von '0'. Wandelt beim Einlesen diese Werte gleich um in 1 (positiv) und 0 (negativ).

In [1]:
import csv
from google.colab import drive

drive.mount('/data')

data = []

with open('/data/My Drive/Colab Notebooks/data/training.1600000.processed.noemoticon.csv', 'r', encoding='iso-8859-1') as f:
  csv_reader = csv.reader(f, delimiter=',', quotechar='"')
  for row in csv_reader:
    if row[0] == '4':
      data.append((1, row[5]))
    if row[0] == '0':
      data.append((0, row[5])) 

#with open('../training.1600000.processed.noemoticon.csv', 'r', encoding='iso-8859-1') as f:
    # TODO

Drive already mounted at /data; to attempt to forcibly remount, call drive.mount("/data", force_remount=True).


In [2]:
print(len(data))
print(data[0:5])

1600000
[(0, "@switchfoot http://twitpic.com/2y1zl - Awww, that's a bummer.  You shoulda got David Carr of Third Day to do it. ;D"), (0, "is upset that he can't update his Facebook by texting it... and might cry as a result  School today also. Blah!"), (0, '@Kenichan I dived many times for the ball. Managed to save 50%  The rest go out of bounds'), (0, 'my whole body feels itchy and like its on fire '), (0, "@nationwideclass no, it's not behaving at all. i'm mad. why am i here? because I can't see you all over there. ")]


3. Um einen Einblick in die Daten zu bekommen und um später ein Modell zur Sentiment Analyse trainieren zu können, sollen die Daten zunächst etwas aufbereitet werden. Da die sinntragenden Elemente in den Tweets die Wörter sind, sollten Sie die Tweets in Wörter aufteilen. Um genau zu sein, ist der Term 'Wörter' hier aus linguistischer Sicht etwas falsch, man spricht eigentlich von Tokens. Daher nennt man das Aufteilen von Text auch Tokenizing und die Funktion, die sowas kann, Tokenizer.
Der allereinfachste Tokenizer ist vermutlich die `split` Methode. Tokenisiert damit die eingelesen Tweets. Am Ende solltet ihr eine Liste `tokenized = [(polarity, [token_1,token_2, ...])]` erhalten.

In [0]:
tokenized = [(sample[0], sample[1].split()) for sample in data]


4. Abgesehen von natürlichsprachlichen Wörtern sind in Tweets mindestens auch Hashtags, Mentions und Links enthalten. Überlegt euch, ob es Sinn ergibt, alle diese Bestandteile in den Daten in dieser From zu behalten. Begründet kurz Ihre Entscheidungen.
Falls ihr euch entschlossen habt, nicht alle diese Bestandteile zu behalten, filtert dementsprechend eure Daten. Die Struktur Ihrer Daten sollte am Ende gleich bleiben: `cleaned = [(polarity, [token_1,...])]`

In [0]:
import re

In [0]:
stop_words = ['.', '!', '?', ',', '-', ';', ':', '', 'i\'m', 'im', 'can\'t', 'u', '&amp', 'that\'s', 'it\'s', 'don\'t', 'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than']
cleaned = [] # TODO
for sample in tokenized:
  tokens = []
  cleaned_sample = (sample[0], tokens)
  for token in sample[1]:
    if not re.search(r"(\@.*)|(#.*)|(https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+)", token):
      for x in ['.', '!', '?', ',', ';', ':']:
        token = token.replace(x, '')
      if token.lower() not in stop_words:
        tokens.append(token)
  cleaned.append(cleaned_sample)

In [6]:
cleaned[0:5]

[(0,
  ['Awww', 'bummer', 'shoulda', 'got', 'David', 'Carr', 'Third', 'Day', 'D']),
 (0,
  ['upset',
   'update',
   'Facebook',
   'texting',
   'might',
   'cry',
   'result',
   'School',
   'today',
   'also',
   'Blah']),
 (0,
  ['dived',
   'many',
   'times',
   'ball',
   'Managed',
   'save',
   '50%',
   'rest',
   'go',
   'bounds']),
 (0, ['whole', 'body', 'feels', 'itchy', 'like', 'fire']),
 (0, ['behaving', 'mad', 'see'])]

re5. Zählt die Tokens in Ihrem Datensatz. Benutzt dafür ein Dictionary. Gebt die 100 häufigsten Wörter sortiert aus. Was stellt ihr fest? Was müsst ihr zusätzlich noch filtern?

In [7]:
import operator
word_count = dict()

for sample in cleaned:
  for word in sample[1]:
    if word in word_count:
      word_count[word] += 1
    else:
      word_count[word] = 1

max_counts = sorted(word_count.items(), key=lambda item: item[1], reverse=True)
print(max_counts[0:100])

[('get', 77198), ('day', 75811), ('like', 75281), ('good', 70834), ('go', 68672), ('today', 60100), ('work', 59809), ('going', 54945), ('got', 54109), ('love', 52630), ('time', 51353), ('back', 50056), ('know', 49828), ('one', 48007), ('really', 44643), ('see', 43016), ('want', 40164), ('think', 39280), ('night', 37690), ('2', 37168), ('home', 36415), ('lol', 36368), ('new', 36063), ('still', 35989), ('much', 34963), ('miss', 33362), ('well', 32373), ('need', 32272), ('last', 31716), ('tomorrow', 30916), ('feel', 28417), ('great', 27527), ('morning', 26840), ('fun', 26170), ('sleep', 25653), ('sad', 25499), ('right', 25447), ('would', 25199), ('bad', 24743), ('hope', 24431), ('haha', 23455), ('tonight', 23444), ('make', 23420), ('wish', 23048), ('though', 22724), ('way', 22623), ('come', 22110), ('better', 21761), ('thanks', 21528), ('gonna', 21072), ('wait', 20762), ('twitter', 20736), ('bed', 20497), ('could', 20413), ('getting', 20371), ('week', 20235), ('oh', 20125), ('nice', 19603

## 2. Aufgabe

Wie Eingangs erwähnt, beschäftigt sich Sentiment Analysis damit, eine Äußerung automatisch dahingehend zu klassifizieren,
ob der Inhalt positiv oder negativ gemeint ist.
Im Machine-Learning-Jargon gesprochen hat man es also mit einer binären Klassifikation zu tun. Wir möchten im folgenden Teil ein neuronales Netz trainieren, das entscheiden kann, ob ein Tweet positiv oder negativ gemeint.

Für das Training des neuronalen Netzes möchten wir Keras als Framework benutzen. Keras bietet eine Vereinfachung der Tensorflow-API an, d.h. mit deutlich weniger Aufwand kann man alle Funktionalitäten von Tensorflow benutzen.

Keras bietet zwei unterschiedliche APIs zum Erstellen von neuronalen Netzen an, namentlich _sequential_ und _functional_.
Bei der _sequential_-API wird das Model Schicht für Schicht aufgebaut. Leider kann mit dieser API kein Model aufgebaut werden, das Schichten enthält, die mehr als eine Vorgängerschicht gleichzeitig haben, oder einzelne Schichten wiederbenutzt. Mit der _functional_-API ist dies möglich.

Aktuell liegen unsere Daten zwar in tokenisierter und gesäuberter Form vor, allerdings wird ein neuronales Netz damit sehr wenig anfangen können. Wir müssen unsere Daten also noch etwas weiter vorbereiten.

Als Eingabe soll unser neuronales Netz später Vektoren nehmen, deren einzelne Komponenten alle Wörter darstellen und jeder Eintrag die Anzahl des Wortes in den jeweiligen Tweets. Ein Beispiel:
Zwei Tweets "lorem ipsum" und "foo foo bar", die Vektoren hätten die Länge 4 und für den ersten Tweet wäre der Vektor `[1,1,0,0]`, für den zweiten `[0,0,2,1]`.

1. Befüllt das dictionary `word2idx` so, dass jedes Wort auf einen Index abgebildet wird und die Indizes streng monoton aufsteigend sind. Für das Beispiel oben wäre `word2idx = {"lorem": 0, "ipsum": 1, "foo": 3, "bar": 4}`

In [8]:
#unique_words = OrderedDict.fromkeys(item for sublist in data_sample for item in sublist)

word2idx = {word[0]: index for index, word in enumerate(max_counts)} # TODO
len(word2idx)
word2idx

{'get': 0,
 'day': 1,
 'like': 2,
 'good': 3,
 'go': 4,
 'today': 5,
 'work': 6,
 'going': 7,
 'got': 8,
 'love': 9,
 'time': 10,
 'back': 11,
 'know': 12,
 'one': 13,
 'really': 14,
 'see': 15,
 'want': 16,
 'think': 17,
 'night': 18,
 '2': 19,
 'home': 20,
 'lol': 21,
 'new': 22,
 'still': 23,
 'much': 24,
 'miss': 25,
 'well': 26,
 'need': 27,
 'last': 28,
 'tomorrow': 29,
 'feel': 30,
 'great': 31,
 'morning': 32,
 'fun': 33,
 'sleep': 34,
 'sad': 35,
 'right': 36,
 'would': 37,
 'bad': 38,
 'hope': 39,
 'haha': 40,
 'tonight': 41,
 'make': 42,
 'wish': 43,
 'though': 44,
 'way': 45,
 'come': 46,
 'better': 47,
 'thanks': 48,
 'gonna': 49,
 'wait': 50,
 'twitter': 51,
 'bed': 52,
 'could': 53,
 'getting': 54,
 'week': 55,
 'oh': 56,
 'nice': 57,
 'people': 58,
 "didn't": 59,
 "I'll": 60,
 'sorry': 61,
 'school': 62,
 'days': 63,
 'happy': 64,
 'hate': 65,
 'weekend': 66,
 'Thanks': 67,
 'even': 68,
 'Good': 69,
 'next': 70,
 'watching': 71,
 'soon': 72,
 'dont': 73,
 'Oh': 74,
 'li

2. Welche Länge werden die Vektoren haben?

In [0]:
VECTOR_LEN = len(word2idx) 

3. Wir könnten mit `numpy` ein Array befüllen, das für jeden der 16 Millionen Tweets einen Vektor wie oben beschrieben enthält. 
Bevor ihr damit beginnen, überschlagt, wieviel Speicherplatz (im Hauptspeicher) ein solches Array belegen würde, wenn jeder Eintrag 32 bit hat. Reicht euer Hauptspeicher dafür aus?

In [10]:
MEMORY = VECTOR_LEN * 32 * 16000000
MEMORY / (1024 * 1024 * 1024 * 8)

36575.43659210205

4. Um das Problem mit dem zu kleinen Hauptspeicher zu umgehen, bietet Keras die Möglichkeit, anstatt auf einem kompletten Datensatz zu operieren, immer nur kleinere Häppchen abzuarbeiten. Dazu wird ein Python-Generator eingesetzt.
Vervollständigt die Funktion unten, so dass ein Generator entsteht. Die Parameter der Funktion sind:
 * d: tokenisierte und gesäuberte Tweets und Labels
 * w2i: das word2index dictionary
 * batch_size: Anzahl der vektorisierten Tweets, die pro Aufruf zurückgegeben werden sollen.
 
Die benutzen Tweets nacheinander aus `d` gewählt werden und kein Tweet mehrfach zurückgegeben werden.

In [0]:
import random
import numpy as np

def data_generator(d, w2i, batch_size):
    number_of_batches = len(d) / batch_size
    batch_index = 0
    while True:
        batch_x = np.zeros((batch_size, len(w2i.keys())))
        batch_y = np.array([])
        tweets = d[batch_index * batch_size:(batch_index+1) * batch_size]
        batch_index += 1
        index = 0
        for tweet in tweets:
            #print(tweet)
            #for sentiment, tokens in tweet:
            for token in tweet[1]:
              batch_x[index][w2i[token]] += 1
            batch_y = np.append(batch_y, tweet[0])
            index += 1
              
        yield batch_x, batch_y

Ihr könnt euren Generator wie folgt ausprobieren:

In [0]:
gen = data_generator(cleaned, word2idx, 100)

In [13]:
batch_x_test, batch_y_test = next(gen)
print(batch_x_test)
print(batch_y_test)
print(len(batch_x_test))
print(len(batch_y_test))
#batch_x, batch_y = next(gen)
#if 1 in batch_y :
#  print(batch_x, batch_y)

data_generator
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0.]
100
100


Wir sind nun endlich soweit, unser neuronales Netz aufzubauen. Da unser Netz genau ein hidden Layer hat und auch sonst nicht sonderlich komplex ist, benutzen wir die _Sequential_-API von Keras.

In [14]:
from keras import Sequential
from keras.layers import Dense
m = Sequential()

Using TensorFlow backend.





5. Fügt einen _Dense_-Layer dem Netz hinzu, als _hidden units_ könnt ihr 16 nehmen. Da dies auch der Eingabe-Layer ist, müsst ihr den Parameter `input_shape` definieren. (Siehe auch: https://keras.io/layers/core/)

In [15]:
m.add(Dense(16, input_shape=(VECTOR_LEN,)))





6. Als letzten Layer in unserem neuronalen Netz, fügt einen weiteren _Dense_-Layer hinzu. Dieser Layer dient auch als "Ausgabelayer" Überlegt euch die Anzahl der _hidden units_ (Hinweis: Wie lässt sich unser Machine-Learning-Problem kategorisieren?) Welche _Activation_-Funktion wählt ihr?

In [0]:
m.add(Dense(1, activation = 'sigmoid'))

7. Kompiliert das neuronale Netz. Als `optimizer` könnt ihr 'adam' benutzen. Wählt eine passende `loss`-Funktion aus. Begründet eure Entscheidung. (https://keras.io/models/model/#compile)

In [17]:
m.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
print(m.summary())



Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 16)                9818160   
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 17        
Total params: 9,818,177
Trainable params: 9,818,177
Non-trainable params: 0
_________________________________________________________________
None


8. Bevor ihr nun das neuronale Netz trainiert, teilt noch euren Datensatz in zwei Teile auf. Einen Teil zum Trainieren und einen zum Evaluieren. Das Verhältnis der beiden Datensätze sollte 70%:30% sein. Bevor ihr die Daten aufteilen, durchmischt sie mit der `shuffle`-Methode aus dem `random`-Modul. Außerdem solltet ihr die Datenmenge zunächst auf ca. 100000 begrenzen, damit das Training des neuronalen Netzes nicht ewig dauert.

In [18]:
np.random.shuffle(cleaned)
cleaned_100000 = cleaned[:100000]
gen = data_generator(cleaned, word2idx, 100)
train = []
evaluation = []
sample = int(0.7 * len(cleaned_100000))
train = cleaned_100000[:sample]
evaluation = cleaned_100000[sample:]

print(len(cleaned))
print(len(train))
print(len(evaluation))

gen = data_generator(train, word2idx, 100)
print(next(gen))

1600000
70000
30000
data_generator
(array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]]), array([1., 1., 1., 0., 1., 0., 1., 0., 1., 1., 1., 0., 1., 1., 0., 0., 1.,
       0., 0., 0., 1., 0., 0., 1., 0., 0., 1., 1., 1., 0., 0., 0., 1., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 1., 1., 1., 0., 1., 0.,
       1., 1., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 1., 0., 1., 0., 0., 0., 0., 1., 1., 0., 1., 0., 1., 1., 0.,
       1., 1., 1., 1., 1., 0., 1., 0., 0., 0., 1., 1., 1., 0., 1.]))


9. Wir sind nun soweit das neuronale Netz zu trainieren. Da wir den oben entwickelten Generator einsetzen wollen, verwenden wir dazu die `fit_generator`-Methode. Als `batch_size` könnt ihr 100 nehmen, für den `epochs`-Parameter 10. Was wählt ihr als `steps_per_epoch`-Parameter? (https://keras.io/models/model/#fit_generator)

In [19]:
epochs = 5
batch_size = 100
steps_per_epoch = len(train) // batch_size // epochs

m.fit_generator(
    data_generator(train, word2idx, batch_size),
    steps_per_epoch=steps_per_epoch,
    epochs=epochs
)




Epoch 1/5
data_generator





Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fa8fc520470>

10. Während das Netz trainiert wird, könnt ihr euch Gedanken zur Evaluierung machen:
   * Definiert die üblichen Fehlerklassen (wahr positiv, falsch positiv, wahr negativ, falsch negativ)
   * Eine häufig benutzte Evaluationsmetrik ist die _Accuracy_. Beschreibt diese Metrik und schreibt die Formel zur Berechnung auf.
   * Warum könnte die _Accuracy_ eine schlechte Metrik sein?
   * Zur Evaluation von binären Klassifikationsproblemen wird in der Literatur gerne _Precision_ und _Recall_ verwendet. Wie sind die beiden Evaluationsmaße definiert? Beschreibt diese Metriken mit eigenen Worten. Schreibt auch die Formeln zur Berechnung auf.
   * Warum könnten _Precision_ und _Recall_ bessere Metriken sein als _Accuracy_?

* Fehlerklassen:

  Ein wahres Positiv ist ein Ergebnis, bei dem das Modell die positive Klasse korrekt voraussagt. Ebenso ist ein wahres Negativ ein Ergebnis, bei dem das Modell die negative Klasse korrekt voraussagt.

  Ein falsches Positiv ist ein Ergebnis, bei dem das Modell die positive Klasse falsch voraussagt. Und ein falsches Negativ ist ein Ergebnis, bei dem das Modell die negative Klasse falsch voraussagt. 

* Accuracy ist das Verhältnis der Anzahl der korrekten Vorhersagen zur Gesamtzahl der Eingangsproben. Formeln:
  $$\text{accuracy} = \frac{N_{\text{correct}}}{N_{\text{total}}}$$ oder $$\text{accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

* Es funktioniert nur dann gut, wenn die gleiche Anzahl von Proben zu jeder Klasse gehört. Wenn zum Beispiel, 98% der Proben der Klasse A und 2% Proben der Klasse B in unserem Trainingsset zugehörig ist, dann kann unser Modell leicht 98% Trainingsgenauigkeit erreichen, indem es einfach jede Trainingsprobe der Klasse A voraussagt.

* Precision: Welcher Anteil an positiven Identifikationen war tatsächlich korrekt?
  $$ \text{Precision} = \frac{TP}{TP+FP} $$

  Recall: Welcher Anteil an tatsächlichen Positiven wurde korrekt identifiziert?
  $$ \text{Recall} = \frac{TP}{TP+FN} $$

* TODO

11. Inzwischen sollte das Netz fertig trainiert sein. Speichert es ab!

In [0]:
m.save('my_net.h5')

12. Evaluiert euer Netz mit dem Datensatz, den ihr oben beseite gelegt haben. Benutzt dafür die `predict_classes`-Methode des Models. Berechnet dafür _Precision_, _Recall_ und _Accuracy_. Interpretiert kurz eure Ergebnisse. 

In [21]:
m.evaluate_generator(
    data_generator(evaluation, word2idx, batch_size),
    steps=100
)

data_generator


[0.5046647912263871, 0.7642999976873398]

In [34]:
result = m.predict_generator(
    data_generator(evaluation, word2idx, batch_size),
    steps=300
)

data_generator


array([[0.89943326],
       [0.26969588],
       [0.42708206],
       ...,
       [0.8720789 ],
       [0.5733715 ],
       [0.31110594]], dtype=float32)

In [37]:
from sklearn.metrics import confusion_matrix

y_true = [i[0] for i in evaluation]
y_pred = result > 0.5

print(y_true)
print(y_pred)

cm = confusion_matrix(y_true, y_pred)
cm

[1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 

array([[11169,  4039],
       [ 3114, 11678]])

In [39]:
precision = cm[0][0] / (cm[0][0] + cm[0][1])
recall = cm[0][0] / (cm[0][0] + cm[1][0])
accuracy = (cm[0][0] + cm[1][1]) / (cm[0][0] + cm[0][1] + cm[1][0] + cm[1][1])

precision_2 = cm[1][1] / (cm[1][1] + cm[1][0])
recall_2 = cm[1][1] / (cm[1][1] + cm[0][1])

print(precision)
print(recall)
print(accuracy)

print(precision_2)
print(recall_2)

0.7344160967911626
0.7819785759294265
0.7615666666666666
0.7894808004326663
0.7430171152255519


In [43]:
print(np.sum(y_true))
print(len(y_true) - np.sum(y_true))

y_true_train = [i[0] for i in train]

print(np.sum(y_true_train))
print(len(y_true_train) - np.sum(y_true_train))

14792
15208
34899
35101


## Hausaufgabe
1. Trainiert euer Netz auf dem großen Datensatz.
2. Verändert die Parameter Ihres Netzes (z.B Anzahl _hidden units_, Anzahl _hidden layers_) und trainiert das Netz erneut (auf dem kleinen Datensatz). Was stellt ihr fest?
3. Baut einen Embedding-Layer (https://keras.io/layers/embeddings/) als erste Schicht in eurem Model ein. Wie müsst ihr eure Eingabevektoren verändern, damit das funktioniert?