# Klasyfikator WordBagOfAuthorClassifier
Jest to klasyfikator dopasowujący autora do fragmentu tekstu. Zbiór uczący to wszystkie dzieła zawarte w katalogu *books/*, natomiast dla każdego autora budowany jest słownik jedynie najczęściej występujących tokenów. Wynik dopasowania to suma wystąpień tokenów z fragmentu w słowniku autora, podzielona przez sumę wszystkich wystąpień tokenów autora. Dzięki temu klasyfikator powinien być odporny na różnicę w częstości tokenów poszczególnych autorów.  
  
Publiczne metody klasyfiaktora:
* getAuthors() -> zwraca listę wszystkich autorów zawartych w zbiorze uczącym
* classify(str) -> zwraca autora dopasowanego do zadanego fragmentu dzieła
* classifyFullProb(str) -> zwraca słownik w formacie < autor : wynik dopasowania >

Program sędziujący przyjmuje następujące parametry:  
* klasyfikator -> dany klasyfiaktor do testowania
* zbior_ksiazek -> zbiór dzieł z którego ma wybierać fragmenty
* zbior_klas -> zbiór dzieł do utworzenia klasyfikatora
* ilosc_testow 
* ilosc_linii -> długosć fragmentu
* seed -> ziarno dla generatora fargmentów (opcjonalny)
* lim -> liczba najczęściej występujących tokenów - opcjonalny w programie, ale konieczny dla tego klasyfikatora 
  
Z losowej książki autora wybiera losowy fragment i zwraca dane umożliwiające sprawdzenie wydajność klasyfikatora. Zwraca cztery listy cztery listy zawierające następujące dane:  
* rauthors -> faktyczni autorzy fragmentów
* rbooks -> książki z których pochodziły kolejne fragmenty
* rfrags -> konkretne fragmenty dzieł
* rodps -> dopasowania klasyfikatora

In [1]:
import sys
sys.path.insert(1, '..')
from src.authorwordbag import WordBagOfAuthorClassifier
from src.sedzia import sedzia

path_zb_uczacy = '..\\books'
path_frag = '..\\books'

In [2]:
l_test = 100
dlugosc = 200
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=1, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.86


In [3]:
l_test = 100
dlugosc = 100
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=2, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.87


In [4]:
l_test = 100
dlugosc = 50
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=3, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.89


In [5]:
l_test = 100
dlugosc = 25
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=4, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.79


In [6]:
l_test = 100
dlugosc = 1
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=5, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.09


Dla tego klasyfikatora obserwujemy ciągły spadek celności proporcjonalny do spadku długości dopasowywanych fragmentów.  
Sprawdźmy teraz jaki wpływ na trafność dopasowań będzie miał limit najczęstszych tokenów w słownikach autorów.

In [7]:
l_test = 100
dlugosc = 100
limit = 25

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=11, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.8


In [8]:
l_test = 100
dlugosc = 100
limit = 100

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=12, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.8


In [9]:
l_test = 100
dlugosc = 100
limit = 500

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=13, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.9


In [10]:
l_test = 100
dlugosc = 100
limit = 1000

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=14, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.94


Zwiększanie objętości słowników znacząco wpływa na trafność klasyfikatora. Przypadkiem granicznym jest oczywiście zawarcie w słownikach wszystkich tokenów. Wtedy celność osiągnie 100%, ale klasyfikator tak naprawdę będzie musiał przechowywać całe teksty utworów. Limit powinien być odpowiednio mały, by trafność była zadowalająca, a za razem pamięć zajmowana przez klasyfikator znacznie mniejsza od objętości wszystkich tekstów. Limit w okolicach 100-500 tokenów spełniałby te warunki.

In [11]:
l_test = 100
dlugosc = 1000
limit = 1000

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=21, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.94


In [12]:
l_test = 100
dlugosc = 25
limit = 1000

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=22, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.81


In [13]:
l_test = 100
dlugosc = 1000
limit = 25

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=23, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.87


In [14]:
l_test = 100
dlugosc = 25
limit = 25

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=24, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.6


W przypadkach granicznych klasyfikator działał zgodnie z wcześniejszymi obserwacjami i wysnutymi wnioskami. Celność natomiast dalej utrzymywała się na poziomie powyżej 50%...

In [15]:
l_test = 100
dlugosc = 5
limit = 5

a, b, f, o = sedzia(WordBagOfAuthorClassifier, path_frag, path_zb_uczacy, l_test, dlugosc, seed=31, lim=limit)

ilosc_celnych_doapsowan = 0
for i in range(len(a)):
    if a[i] == o[i]:
        ilosc_celnych_doapsowan += 1
#     print(a[i], o[i], a[i] == o[i])
    
print("łączna trafność dopasowań:", ilosc_celnych_doapsowan / l_test)

łączna trafność dopasowań: 0.16


...nie licząc oczywiście przypadków, dla których nawet to 16% wydaje się zaskakujące.