In [2]:
import os, fnmatch
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
# zmiana sposobu wyświetlania danych typu float
pd.options.display.float_format = "{:.3f}".format 

In [52]:
booksRelPath = '..\\books'

unnecessary_chars = ["!",",",".","    ",":",";","?","(",")","—","*","»","…","«","—","-","„","”",'"',"°","'"]

stops = []
limiters = ["\\n", "'"]
with open('stopyPL.txt', encoding='utf-8') as sf:
    for sline in sf:
        sline = repr(sline)
        for char in limiters:
            sline = sline.replace(char,'')
        if not(sline == ''):
            stops.append(sline)

def findAllBooks(author, path):
    result = []
    for root, dirs, files in os.walk(path):
        for name in files:
            if fnmatch.fnmatch(name, author + '_*.txt'):
                result.append(os.path.join(root, name))
    return result

def buildTokenDict(path, wordbag=None):
    '''
    Builds anew or expands book's or author's word bag.
    @params:
        path     - Required  : valid path to a book in txt format (Str)
        wordbag  - Optional  : dictionary; if not specified an empty one is created (Dict)
    '''
    if wordbag is None:
        wordbag = dict()
    tokens_stop = []
    tokens = []

    with open(path, 'r', encoding='utf-8') as book:
        for line in book:        
            for char in unnecessary_chars:
                line = line.replace(char, '')
            line = line.rstrip().lower().split()

            if line:
                tokens_stop.extend(line)
                
    for ts in tokens_stop:
        if not ts in stops:
            tokens.append(ts)

    for word in sorted(tokens):
        if word.isalpha():
            wordbag[word] = wordbag.get(word, 0) + 1

    return wordbag

def buildTokenSet(frag):    
    frag = frag.replace('\n', ' ')
    for char in unnecessary_chars:
        frag = frag.replace(char, '')
    frag = frag.strip().lower().split()
    
    tokens = []
    for token in frag:
        if token not in tokens and token not in stops:
            tokens.append(token)
            
    return tokens

print(stops)

['a', 'aby', 'ach', 'acz', 'aczkolwiek', 'aj', 'albo', 'ale', 'alez', 'ależ', 'ani', 'az', 'aż', 'bardziej', 'bardzo', 'beda', 'bedzie', 'bez', 'deda', 'będą', 'bede', 'będę', 'będzie', 'bo', 'bowiem', 'by', 'byc', 'być', 'byl', 'byla', 'byli', 'bylo', 'byly', 'był', 'była', 'było', 'były', 'bynajmniej', 'cala', 'cali', 'caly', 'cała', 'cały', 'ci', 'cie', 'ciebie', 'cię', 'co', 'cokolwiek', 'cos', 'coś', 'czasami', 'czasem', 'czemu', 'czy', 'czyli', 'daleko', 'dla', 'dlaczego', 'dlatego', 'do', 'dobrze', 'dokad', 'dokąd', 'dosc', 'dość', 'duzo', 'dużo', 'dwa', 'dwaj', 'dwie', 'dwoje', 'dzis', 'dzisiaj', 'dziś', 'gdy', 'gdyby', 'gdyz', 'gdyż', 'gdzie', 'gdziekolwiek', 'gdzies', 'gdzieś', 'go', 'i', 'ich', 'ile', 'im', 'inna', 'inne', 'inny', 'innych', 'iz', 'iż', 'ja', 'jak', 'jakas', 'jakaś', 'jakby', 'jaki', 'jakichs', 'jakichś', 'jakie', 'jakis', 'jakiś', 'jakiz', 'jakiż', 'jakkolwiek', 'jako', 'jakos', 'jakoś', 'ją', 'je', 'jeden', 'jedna', 'jednak', 'jednakze', 'jednakże', 'jedno'

In [12]:
authors = ['stefan-zeromski', 'tadeusz-boy-zelenski', 'zgromadzenie-ogolne-onz']

# tworzenie słownika <autor; lista tytułów>
titles = dict()
for author in authors:
    paths = findAllBooks(author, booksRelPath)
    tiles = []
    for path in paths:
        usidx = path.index('_')
        dtidx = path.index('.', usidx)
        title = path[usidx+1:dtidx]
        tiles.append(title)
    titles[author] = tiles
    
# potem moze sie przyda zapisuje na wszelki wypadek

# stefan-zeromski_ludzie-bezdomni-tom-drugi
# stefan-zeromski_ludzie-bezdomni-tom-pierwszy
# stefan-zeromski_przedwiosnie
# stefan-zeromski_syzyfowe-prace
# tadeusz-boy-zelenski_jak-skonczyc-z-pieklem-kobiet
# tadeusz-boy-zelenski_pieklo-kobiet
# tadeusz-boy-zelenski_plotka-o-weselu-wyspianskiego
# zgromadzenie-ogolne-onz_deklaracja-praw-czlowieka
# zgromadzenie-ogolne-onz_deklaracja-praw-dziecka
# zgromadzenie-ogolne-onz_konwencja-o-prawach-dziecka

In [54]:
# tworzenie słownika -> <książka; wordbag> => slownik[ksaizka] = wordbag
booksWB = dict()
for a in authors:
    paths = findAllBooks(a, booksRelPath)
    
    for p in paths:
        tmpBookWB = buildTokenDict(p)
        
        dtidx = p.index('.', len(booksRelPath)+1)
        title = p[len(booksRelPath)+1:dtidx]
        
        booksWB[title] = tmpBookWB
        
booksWB['stefan-zeromski_przedwiosnie']

{'abramowski': 5,
 'absolutna': 1,
 'absolutnie': 6,
 'absolutną': 1,
 'abssolutnie': 1,
 'absss': 1,
 'adam': 1,
 'adept': 1,
 'adiecto': 1,
 'administratora': 2,
 'adres': 1,
 'adresem': 2,
 'adur': 1,
 'adwersarza': 1,
 'aeroplan': 1,
 'aeroplanu': 1,
 'aeroplanów': 1,
 'afektacji': 1,
 'afektów': 1,
 'afera': 1,
 'aferach': 1,
 'afery': 1,
 'aferzysty': 1,
 'aforyzmy': 1,
 'aforyzmów': 1,
 'afrykanka': 1,
 'afrykankom': 1,
 'agitacja': 1,
 'agitacji': 2,
 'agitacyjne': 1,
 'agitować': 1,
 'agonii': 1,
 'agrafki': 1,
 'agrarnej': 1,
 'agrestów': 1,
 'akcentów': 1,
 'akceptowała': 1,
 'akcie': 1,
 'akcjami': 1,
 'akcji': 2,
 'akcję': 1,
 'akompaniamencie': 1,
 'akompaniamentem': 1,
 'aksamit': 1,
 'aksamitek': 1,
 'aksamitnego': 1,
 'akt': 1,
 'akty': 1,
 'aktów': 1,
 'akurat': 3,
 'albańskie': 1,
 'albowiem': 3,
 'alboż': 2,
 'albumy': 1,
 'alei': 12,
 'alejach': 5,
 'aleje': 3,
 'alejki': 1,
 'aleją': 3,
 'aleję': 2,
 'aleksandra': 1,
 'aleś': 2,
 'aleście': 1,
 'algebry': 1,
 'ali

In [50]:
fragment = 'Gdy Judym wpatrywał się coraz uważniej w to czoło zamyślone, dopiero zrozumiał, że ma przed sobą wizerunek bogini. Była to Afrodite, ona sama, która się była poczęła z piany morskiej. I mimo woli przychodziła na myśl nieskromna legenda o przyczynie onej piany wód za sprawą Uranosa. A przecież nie była to Pandemos, nie była nawet żona Hefajstówa ani kochanka Anchizesa, a tylko jasny i dobry symbol życia, córka nieba i dnia…'

In [53]:
def compileklasyficator(wbs):
    

def klasyfikator(frag, wbs):
    #setup decision maker
    authorScore = dict()
    authorTotal = dict()
    
    for book in wbs:
        usidx = book.index('_')
        author = book[:usidx]
        authorScore[author] = authorScore.get(author, 0)
        authorTotal[author] = authorTotal.get(author, 0)
        
        for token in wbs[book]:
            authorTotal[author] += wbs[book][token]
        
    #setup fragment
    fragtokens = buildTokenSet(frag)
        
    #classify
    for book in wbs:
        print(book)
        usidx = book.index('_')
        author = book[:usidx]
        for token in fragtokens:
            authorScore[author] += wbs[book].get(token, 0)
            
    print(authorScore)
    print(authorTotal)
    
    result = dict()
    for author in authorScore:
        result[author] = authorScore[author] / authorTotal[author] * 100
        
    return result
    
    
    
res = klasyfikator(fragment, booksWB)
print(res)

stefan-zeromski_ludzie-bezdomni-tom-drugi
stefan-zeromski_ludzie-bezdomni-tom-pierwszy
stefan-zeromski_przedwiosnie
stefan-zeromski_syzyfowe-prace
tadeusz-boy-zelenski_jak-skonczyc-z-pieklem-kobiet
tadeusz-boy-zelenski_pieklo-kobiet
tadeusz-boy-zelenski_plotka-o-weselu-wyspianskiego
zgromadzenie-ogolne-onz_deklaracja-praw-czlowieka
zgromadzenie-ogolne-onz_deklaracja-praw-dziecka
zgromadzenie-ogolne-onz_konwencja-o-prawach-dziecka
{'stefan-zeromski': 1176, 'tadeusz-boy-zelenski': 115, 'zgromadzenie-ogolne-onz': 26}
{'stefan-zeromski': 148762, 'tadeusz-boy-zelenski': 20986, 'zgromadzenie-ogolne-onz': 5812}
{'stefan-zeromski': 0.79052446189215, 'tadeusz-boy-zelenski': 0.5479843705327362, 'zgromadzenie-ogolne-onz': 0.4473503097040606}


In [None]:
# tworzenie słownika -> <autor; cumulative wordbag>