# Klasyfikator WordBagOfOneBookClassifier
Jest to klasyfikator dopasowujący autora do fragmentu tekstu. Zbiór uczący to pojedyncze dzieła zadanego zbioru autorów. Klasyfikator buduje worki słów (zawierające wszystkie tokeny) na podstawie zadanych tekstów. ZU analizowany jest tylko raz przy inicjalizacji instancji klasyfikatora; nie ma potrzeby przekompilowywania go do każdego fragmentu. Na podstawie zbioru uczącego dopasowuje autora innych jego tekstów spoza tego zbioru. Wynik dopasowania jest uzależniony od ilości tokenów danego autora, zatem autorzy z większą liczbą tokenów (a co za tym idzie również większą liczbą dopasowań we fragmencie) nie powinni dominować wyników klasyfikacji.  
  
Zbiór uczący zawarty w katalogu *test_books/zb_uczacy1* zawiera następujące utwory:
* Stanisław Wyspiański - Wesele
* Stefan Żeromski - Ludzie bezdomni tom I
* Tadeusz Boy-Żeleński - Piekło kobiet
* Zgromadzenie Ogólne ONZ - Konwencja praw dziecka  
  
Publiczne metody klasyfiaktora:
* getAuthors() -> zwraca listę wszystkich autorów zawartych w zbiorze uczącym
* classify(str) -> zwraca autora dopasowanego do zadanego fragmentu dzieła
* classifyFullProb(str) -> zwraca słownik w formacie < autor : wynik dopasowania >

Program sędziujący przyjmuje następujące parametry:  
* klasyfikator -> dany klasyfiaktor do testowania
* zbior_ksiazek -> zbiór dzieł z którego ma wybierać fragmenty
* zbior_klas -> zbiór dzieł do utworzenia klasyfikatora
* ilosc_testow 
* ilosc_linii -> długosć fragmentu
* seed -> ziarno dla generatora fargmentów (opcjonalny)
* lim -> liczba najczęściej występujących tokenów - nieużywane w tym klasyfiaktorze (opcjonalny)  
  
Z losowej książki autora wybiera losowy fragment i zwraca dane umożliwiające sprawdzenie wydajność klasyfikatora. Zwraca cztery listy cztery listy zawierające następujące dane:  
* rauthors -> faktyczni autorzy fragmentów
* rbooks -> książki z których pochodziły kolejne fragmenty
* rfrags -> konkretne fragmenty dzieł
* rodps -> dopasowania klasyfikatora

In [1]:
import sys
sys.path.insert(1, '..')
from src.bookwordbag import WordBagOfOneBookClassifier
from src.sedzia import sedzia

In [2]:
path_zb_uczacy = '..\\test_books\\zb_uczacy1'
path_frag = '..\\books'

l_test = 100
dlugosc = 100

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=140)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.93


In [3]:
l_test = 100
dlugosc = 200

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=156745)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.9


In [4]:
l_test = 100
dlugosc = 150

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=3455678)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.91


Dla długich fragmentów tekstów klasyfikator ten ma dobrą, lecz nie idealną celność dopasowań. Zbiór uczący jednak zawiera autorów którzy wykazywali duże podobieństwo w analizie całego zbioru. Sprubujmy przeprowadzić analizę dla innego zbioru uczącego.  
* Eliza Orzeszkowa - Julianka 
* Henryk Sienkiewicz - Quo Vadis
* Bolesław Prus - Kamizelka

In [5]:
path_zb_uczacy = '..\\test_books\\zb_uczacy2'

l_test = 100
dlugosc = 150

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=3458)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.97


In [6]:
l_test = 100
dlugosc = 200

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=1111)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.93


Faktycznie, zauważamy mały wzrost celności. Sprawdźmy teraz jak poradzi sobie klasyfikator gdy skrócimy fragmenty tekstów.

In [7]:
l_test = 100
dlugosc = 25

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=1111)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.84


In [8]:
l_test = 100
dlugosc = 15

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=1134532)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.83


In [9]:
l_test = 100
dlugosc = 3

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=1111)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.81


In [10]:
l_test = 100
dlugosc = 1

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=43563)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 1.0


In [11]:
l_test = 1000
dlugosc = 1

a, b, f, o = sedzia(WordBagOfOneBookClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=777)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 1.0


Dla krótkich fragmentów tekstów celność klasyfiaktora spada, ale dalej jest w stanie odgadnąć zdecydowaną większość tektów.  
Zaskakująca sytuacja ma miejsce gdy fragment osiągnie długość zaledwie jednego zdania - wtedy klasyfikator osiąga stuprocentową celność. Można to wyjaśnić budową klasyfikatora: mianowicie, dopasowanie jest liczone jako iloraz sumy wystąpień tokenów fragmentu w tekscie źródłowym autora ze zbioru uczącego i liczby wszystkich tokenów tekstu autora. Dzięki temu dla krótkich fragmentów wystarczy trafienie jednego słowa, by dopasować autora. 