## Testowanie działania klasyfikatorów na trójce polskich pisarzy


Importujemy potrzebne biblioteki oraz implementację jednego z naszych klasyfikatorów

In [1]:
import pandas as pd
import sys
sys.path.insert(1, '..')
from src.txtdocmatrix import TxtDocMatrixClassifier

## Następnie przechodzimy do klasyfikacji i testowania klasyfikatora

Tworzymy klasifikator na podstawie, którego będziemy sprawdzać fragmenty tekstów.

In [2]:
K = TxtDocMatrixClassifier('..\\test_books\\mickiewicz_sienkiewicz_slowacki_books', 100)

Zaczniemy od wyszukania słów w miarę oczywistych i charakterystycznych dla danego autora.

In [3]:
fragment = 'Tadeusz'
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 107, 'henryk-sienkiewicz': 0, 'juliusz-slowacki': 0}


In [4]:
fragment = 'Balladyna'
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 0, 'henryk-sienkiewicz': 0, 'juliusz-slowacki': 273}


In [5]:
fragment = 'Zbyszko'
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 0, 'henryk-sienkiewicz': 957, 'juliusz-slowacki': 0}


Wyniki są póki co bardzo dobre, program bez problemu poradził sobie z klasyfikacją podanych fraz do odpowidnich autorów.

Teraz sprawdźmy nasz klasyfikator dla całych zdań wyjętych z książek.

In [6]:
#Fragment książki W Pustyni i w Puszczy Sienkiewicza
fragment = 'Staś, który kończył rok czternasty i który swą ośmioletnią towarzyszkę kochał bardzo'
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 0, 'henryk-sienkiewicz': 631, 'juliusz-slowacki': 0}


In [7]:
#Fragment książki Krzyżacy Sienkiewicza
fragment = 'Jurand, znalazłszy się na podwórzu zamkowym, nie wiedział zrazu, dokąd iść, gdyż knecht, który go przeprowadził przez bramę, opuścił go i udał się ku stajniom. Przy blankach stali wprawdzie żołdacy, to pojedynczo, to po kilku razem, ale twarze ich były tak zuchwałe, a spojrzenia tak szydercze, iż łatwo było rycerzowi odgadnąć, że mu drogi nie wskażą, a jeżeli na pytanie odpowiedzą, to chyba grubiaństwem lub zniewagą. Niektórzy śmieli się, pokazując go sobie palcami; inni poczęli nań znów miotać śniegiem, tak samo jak dnia wczorajszego. Lecz on, spostrzegłszy drzwi większe od innych, nad którymi wykuty był w kamieniu Chrystus na krzyżu, udał się ku nim w mniemaniu, że jeśli komtur i starszyzna znajdują się w innej części zamku lub w innych izbach, to go ktoś przecie musi z błędnej drogi nawrócić.'
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 168, 'henryk-sienkiewicz': 1228, 'juliusz-slowacki': 42}


In [8]:
#Fragment książki Balladyna Słowackiego
fragment = '''Ty wiesz, jak nasza ziemia wszeteczeństwem
Króla skalana. Wiesz, jak Popiel krwawy
Pastwi się coraz nowym okrucieństwem…
Zaczerwienione krwią widziałem stawy:
Król żywi karpie ciałem niewolników.
Nieraz wybiera dziesiątego z szyków
I tnąc w kawały, ulubionym rybom
Na żer wyrzuca; resztę ciał wymiata'''

print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 88, 'henryk-sienkiewicz': 336, 'juliusz-slowacki': 71}


In [9]:
#Fragment książki Balladyna Słowackiego
fragment = '''Nim Kirkor w przepaść okropną się rzuci
Szukając zemsty — chcę — chciałbym cię badać,
Na jakim pieńku zaszczepić rodowe
Drzewo Kirkorów, aby kiedyś nowe'''

print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 0, 'henryk-sienkiewicz': 0, 'juliusz-slowacki': 113}


Teraz staramy się zklasyfikować losowe zdania z współczesnego świata

In [10]:
#Fragment wiersza Lokomytwa Tuwima
fragment = '''Stoi na stacji lokomotywa,
Ciężka, ogromna i pot z niej spływa:
Tłusta oliwa.
Stoi i sapie, dyszy i dmucha'''

print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 0, 'henryk-sienkiewicz': 0, 'juliusz-slowacki': 0}


In [11]:
#Fragment książki Władcza Pierścieni Tolkiena
fragment = '''Gandalf rozmyślał o wiośnie sprzed prawie osiemdziesięciu lat, kiedy to Bilbo wybiegł z Bag End bez chusteczki do nosa. On sam miał teraz włosy chyba bielsze niż wówczas, brodę dłuższą i brwi bardziej krzaczaste, twarz pobrużdżoną od doznanych przeżyć, ale oczy żywe jak zawsze. Kurzył fajeczkę i wydmuchiwał kółka dymu z tym samym co dawniej zadowoleniem.'''

print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 207, 'henryk-sienkiewicz': 1215, 'juliusz-slowacki': 103}


In [12]:
#Fragment filmu Forrest Gump
fragment = '''Moja mama zawsze mówiła: „Życie jest jak pudełko czekoladek. Nigdy nie wiesz, co ci się trafi.”'''
print(K.classifyFullProb(fragment))

{'adam-mickiewicz': 45, 'henryk-sienkiewicz': 0, 'juliusz-slowacki': 41}


### Wnioski

Patrząć na wyniki możemy dojść do naprawdę ciekawych obserwacji:

* Dla słow kluczowych np. imion głównych, lub drugoplanowych bohaterów książek klasyfikacja przebiega bardzo dobrze i prawidłowo wykrywa odpowiedniego autora. Dodatkowo klasyfikacja jest oczywista, praktycznie 
inni autorzy nie są nawet trochę podobni
* Wkładająć zdania z książek, też mamy w większości przypadków prawidłową klasyfikację, wyjątkiem jest jeden z fragmentów Balladyny, który został myli zklasyfikowany do Sienkiewicza, jest to prawdopodobnie spowodowane tym, że dany fragment nie była zbytnio charakterystyczny dla Balladyny a słowa, które wypowiadał były uniwersale np. dla tekstów sienkiewicza. Dodatkowo warto zauważyć, że teksty Sienkiewicza są bardzo
długie np. Krzyżacy, Potop — z tego też powodu znajdziemy tam ogromą gammę styłów, czasów i wypowiedzi bohaterów co mogło po prostu przyćmić tekst Balladyny
* Warto zauważyć, że dla innego fragmentu Balladyny w którym pojawia się "Kirkor" klasyfikacja przebiegła bardzo pomyślnie.
* Jeżeli chodzi o wykrywanie fragmentów z innych dzieł, również i współczesnych tutaj sytuacja jest bardzo różna. Mamy przypadki takie jak z "Lokomotywą" gdzie nie znaleźliśmy żadnego powiąznia, a mamy sytuację z fragmentem książki "Władca Pierścieni", gdzie powiązanie z Sienkiewiczem jest bardzo duże.

Podsumowując, możemy stwierdzić, że klasyfikator działa poprawnie, jednak warto używać fragmentu, który jest w miarę charakterystyczny dla danego autora, szczególnie jeżeli mamy 3 autorów żyjących mnie więcej w tym samym czasie.