In [1]:
import numpy as np

from sklearn.metrics import confusion_matrix
from ki_deutschkurs.split_articles_into_train_test import read_dataset
from ki_deutschkurs.utils import get_texts_by_category, get_boolean_array_from_categories, check_password
from ki_deutschkurs.classifier import parse_decision_rule, classify


artikel, kategorien = read_dataset("train", "Sport")

artikel_validation, kategorien_validation = read_dataset("val", "Sport")

kategorien_validation_bool = get_boolean_array_from_categories(kategorien_validation, "Sport")

sportartikel = get_texts_by_category(artikel, kategorien, "Sport")
n_sportartikel = len(sportartikel)
print(f" Anzahl der Sportartikel im Trainingsdatensatz: {n_sportartikel}")

andere_artikel = get_texts_by_category(artikel, kategorien, "Andere")
n_andere_artikel = len(andere_artikel)
print(f" Anzahl anderer Artikel im Trainingsdatensatz: {n_andere_artikel}")





 Anzahl der Sportartikel im Trainingsdatensatz: 101
 Anzahl anderer Artikel im Trainingsdatensatz: 699


In [2]:
## Hier bekommt ihr einen zufällig ausgewählten Sportartikel angezeigt
idx_sport = np.random.randint(n_sportartikel)
print(sportartikel[idx_sport])

Spieler des Abends beim 5:2 der Philadelphia Flyers gegen die NY Islanders – Play-off beginnt für Clubs von Raffl und Vanek am Donnerstag. New York – Der Kärntner Eishockey-Stürmer Michael Raffl hat zum Abschluss des Grunddurchgangs der National Hockey League (NHL) groß aufgespielt. Der 27-Jährige verbuchte am Sonntag beim 5:2-Auswärtssieg gegen die New York Islanders ein Tor und zwei Assists und wurde zum Spieler der Partie gewählt. Raffl und Thomas Vanek (Minnesota Wild) starten am Donnerstag mit ihren Clubs ins Play-off. Raffl brachte die Flyers in der 27. Minute mit 3:2 in Führung und bereitete die weiteren Tore von Scott Laughton (46.) und R.J. Umberger (52./PP) vor. Der Villacher, der zum dritten Mal in seiner NHL-Karriere auf drei Scorerpunkte kam, beendete den Grunddurchgang mit 13 Toren und 18 Assists und war damit fünftbester Torschütze und siebentbester Scorer seines Teams. Da Trainer Dave Hakstol so wie sein Islanders-Gegenüber Jack Capuano am Sonntag einige Leistungsträger

In [3]:
## Hier bekommt ihr einen zufällig ausgewählten anderen Sportartikel angezeigt
idx_andere = np.random.randint(n_andere_artikel)
print(andere_artikel[idx_andere])

Regierung stimmt russisch-amerikanischem Plan zu, die Opposition ist skeptisch. Die Türkei behält sich ein "Recht auf Selbstverteidigung" vor. Damaskus – Die syrische Regierung stimmt dem russisch-amerikanischen Plan für eine Waffenruhe zu. Mit Russland werde jetzt abgesprochen, für welche Gruppen und Gebiete die Vereinbarung gelten solle, erklärte die Regierung am Dienstag. Der Plan sieht eine Waffenruhe vor, die am Samstag beginnen soll. Syrien stimme der Vereinbarung auf der Grundlage zu, dass der Kampf gegen Terrorgruppen wie Islamischer Staat, die Nusra-Front und andere mit ihnen verbundene Organisationen weitergehe, hieß es in der Erklärung. Es sei wichtig, die Grenzen zu schließen und den Nachschub aus dem Ausland für die bewaffneten Aufständischen zu stoppen. Zudem müsse verhindert werden, dass diese Organisationen ihre Kampfkraft erhöhen und sich umgruppieren. Sollte das nicht gelingen, könne die Vereinbarung scheitern. Das syrische Militär behalte sich das Recht vor, auf Verl

In [5]:
## Hier könnt ihr eine Entscheidungsregel definieren

Entscheidungsregel = """Ball > 0 oder Haus > 0 oder Steuer > 0 und Stadion > 0"""

## Hier könnt ihr eure Entscheidungsregel testen

kategorien_vorhersage = classify(artikel_validation, Entscheidungsregel)

conf_matrix = confusion_matrix(kategorien_validation_bool, kategorien_vorhersage)

print(f"Zahl der Zeitungsartikel, die richtig als Sportartikel vorhergesagt wurden: {conf_matrix[1,1]}\n")
print(f"Zahl der Zeitungsartikel, die richtig als 'Andere Artikel' vorhergesagt wurden: {conf_matrix[0,0]}\n")
print(f"Zahl der Zeitungsartikel, die eigentlich Sportartikel sind, \n aber als 'Andere Artikel' vorhergesagt wurden: {conf_matrix[1,0]} (falsch)\n")
print(f"Zahl der Zeitungsartikel, die eigentlich 'Andere Artikel' sind, \n aber als Sportartikel vorhergesagt wurden: {conf_matrix[0,1]} (falsch) \n\n")
print("=================")
print(f"Anteil der Artikel, die richtig erkannt wurden: {100*(conf_matrix[0,0] + conf_matrix[1,1])/ len(artikel_validation)} % (Genauigkeit)")





Zahl der Zeitungsartikel, die richtig als Sportartikel vorhergesagt wurden: 16

Zahl der Zeitungsartikel, die richtig als 'Andere Artikel' vorhergesagt wurden: 167

Zahl der Zeitungsartikel, die eigentlich Sportartikel sind, 
 aber als 'Andere Artikel' vorhergesagt wurden: 9 (falsch)

Zahl der Zeitungsartikel, die eigentlich 'Andere Artikel' sind, 
 aber als Sportartikel vorhergesagt wurden: 8 (falsch) 


Anteil der Artikel, die richtig erkannt wurden: 91.5 % (Genauigkeit)


In [7]:
## Hier kommt der Finale Test

passwort = ""

artikel_test, kategorien_test = read_dataset(check_password(passwort), "Sport")
kategorien_test_bool = get_boolean_array_from_categories(kategorien_test, "Sport")

kategorien_vorhersage_test = classify(artikel_test, Entscheidungsregel)

conf_matrix_test = confusion_matrix(kategorien_test_bool, kategorien_vorhersage_test)

print(f"Zahl der Zeitungsartikel, die richtig als Sportartikel vorhergesagt wurden: {conf_matrix_test[1,1]}\n")
print(f"Zahl der Zeitungsartikel, die richtig als 'Andere Artikel' vorhergesagt wurden: {conf_matrix_test[0,0]}\n")
print(f"Zahl der Zeitungsartikel, die eigentlich Sportartikel sind, \n aber als 'Andere Artikel' vorhergesagt wurden: {conf_matrix_test[1,0]} (falsch)\n")
print(f"Zahl der Zeitungsartikel, die eigentlich 'Andere Artikel' sind, \n aber als Sportartikel vorhergesagt wurden: {conf_matrix_test[0,1]} (falsch) \n\n")
print("=================")
print(f"Anteil der Artikel, die richtig erkannt wurden: {100*(conf_matrix_test[0,0] + conf_matrix_test[1,1])/ len(artikel_test)} % (Genauigkeit)")


ValueError: Das Passwort ist leider falsch!