In [1]:
from TextInstruments.Tokenizers import Simple_Tokenizer
from TextInstruments.SentenceDividers import Simple_Sentence_Divider
from TextInstruments.ChapterDividers import Simple_Chapter_Name_Classifier
from TextInstruments.Preprocessors import Simple_Preprocessor
from TextInstruments.TextChunksCreators import  Simple_Text_Chunk_Creator
from TextInstruments.DatasetCreator import Simple_RNN_Dataset_Creator
import os
import jsonpickle

In [None]:
class Simple_RNN_Dataset_Creator:

    def __init__(self, tokenizer, sentence_divider, chapter_name_classifier, preprocessor, text_chunks_creator):
        """
        :param tokenizer: Токенизатор
        :param sentence_divider: Разбивальщик по предложениям
        :param chapter_name_classifier: Классификатор заголовков
        :param preprocessor: Препроцессор
        :param text_chunks_creator: Разбивальщик текстов по кускам
        """
        self.tokenizer=tokenizer
        self.sentence_divider=sentence_divider
        self.chapter_name_classifier=chapter_name_classifier(self.tokenizer)
        self.preprocessor=preprocessor(self.chapter_name_classifier)
        self.text_chunks_creator=text_chunks_creator(self.tokenizer, self.preprocessor)

    def process_text(self,authors_path, author_list=None, savepath=None, filename="rnn_dataset"):
        """
        Обрабатывает все тексты из папок авторов, создаёт датасет, на котором можно запустить RNN
        :param authors_path: Путь, в котором находятся авторские папки
        :param author_list: Список рассматриваемых авторов
        :param savepath: Путь, по которому сохраняются результаты
        :return: Список из словарей с ключами: автор, текстовые отрывки (список с элементами, соответствующие предложениям отрывка,
        каждый из которых содержит в себе список из токенов предложения), кол-во отрывков
        """
        author_text_chunks=self.text_chunks_creator.create_text_chunks(authors_path, author_list)
        author_parsed_chunks=[{"author":author,
                               "chunks_count":0,
                               "text_chunks":[[[word for word in self.tokenizer.divide_to_words(sentence)]
                                               for sentence in self.sentence_divider.divide_to_sentences(text_chunk)]
                                              for text_chunk in text_chunks]}
                              for author, text_chunks in author_text_chunks]
        for one_author_chunks in author_parsed_chunks:
            one_author_chunks["chunks_count"]=len(one_author_chunks["text_chunks"])

        if (savepath!=None):
            with open(os.path.join(savepath,filename+'.json'), "w") as f:
                f.write(jsonpickle.encode(author_parsed_chunks, f))

        return author_parsed_chunks

In [2]:
authors_path="D:\Chisto Moya Papka!!!\Works\Phystech\Интеллектуальные системы\Author-Attribution\DatasetRaw"
savepath="D:\Chisto Moya Papka!!!\Works\Phystech\Интеллектуальные системы\Author-Attribution"
author_list=['Test']

In [3]:
dataset_creator=Simple_RNN_Dataset_Creator(Simple_Tokenizer(remove_numerals=False),Simple_Sentence_Divider(),
                                           Simple_Chapter_Name_Classifier, Simple_Preprocessor, Simple_Text_Chunk_Creator)

In [4]:
result=dataset_creator.process_text(authors_path=authors_path,author_list=author_list,savepath=savepath, filename='test_dataset')

Finding minimal words count in text chunks
Обрабатываю тексты автора Test
Dividing texts into chunks


In [10]:
result

[{'author': 'Test',
  'chunks_count': 1386,
  'text_chunks': [[['Ваши',
     'превосходительства',
     'высокородия',
     'благородия',
     'граждане'],
    [],
    ['Что', 'есть', 'Русская', 'Империя', 'наша'],
    ['Русская',
     'Империя',
     'наша',
     'есть',
     'географическое',
     'единство',
     'что',
     'значит',
     'часть',
     'известной',
     'планеты'],
    ['И',
     'Русская',
     'Империя',
     'заключает',
     'во',
     'первых',
     'великую',
     'малую',
     'белую',
     'и',
     'червонную',
     'Русь',
     'во',
     'вторых',
     'грузинское',
     'польское',
     'казанское',
     'и',
     'астраханское',
     'царство',
     'в',
     'третьих',
     'она',
     'заключает'],
    ['Но', 'прочая', 'прочая', 'прочая'],
    ['Русская',
     'Империя',
     'наша',
     'состоит',
     'из',
     'множества',
     'городов',
     'столичных',
     'губернских',
     'уездных',
     'заштатных',
     'и',
     'далее',
     'из',
  

In [None]:
#Почему вообще есть пустые предложения?

In [5]:
# Инициализация
tokenizer=Simple_Tokenizer(remove_numerals=False)
sentence_divider=Simple_Sentence_Divider()
chapter_name_classifier=Simple_Chapter_Name_Classifier(tokenizer)
preprocessor=Simple_Preprocessor(chapter_name_classifier)
text_chunks_creator=Simple_Text_Chunk_Creator(tokenizer, preprocessor)

In [6]:
author_text_chunks=text_chunks_creator.create_text_chunks(authors_path, author_list)

Finding minimal words count in text chunks
Обрабатываю тексты автора Test
Dividing texts into chunks


In [11]:
author_text_chunks[0][1][2]

'    ...............................................................\n    Огненным мороком вечером залит проспект. Ровно высятся яблоки электрических светов посередине. По бокам же играет переменный блеск вывесок; здесь, здесь и здесь вспыхнут вдруг рубины огней; вспыхнут там -- изумруды. Мгновение там -- рубины; изумруды же -- здесь, здесь и здесь.\n    Огненным мороком вечером залит Невский. И горят бриллиантовым светом стены многих домов ярко искрятся из алмазов сложенные слова Кофейня, Фарс, Бриллианты Тэта, Часы Омега. Зеленоватая днем, а теперь лучезарная, разевает на Невский витрина свою огненную пасть; всюду десятки, сотни адских огненных пастей эти пасти мучительно извергают на плиты ярко-белый свой свет; мутную мокроту изрыгают они огневою ржавчиной. И огнем изгрызай проспект. Белый блеск падает на котелки, на цилиндры, на перья; белый блеск ринется далее, к середине проспекта, отпихнув с тротуара вечернюю темноту а вечерняя мокрота растворится над Невским в блистаниях, образ

In [8]:
sentences=sentence_divider.divide_to_sentences(text_chunk)

In [33]:
len(sentences[1])

4

In [12]:
author_parsed_chunks=[{"author":author,
                       "chunks_count":0,
                       "text_chunks":[[[word for word in tokenizer.divide_to_words(sentence)]
                                       for sentence in sentence_divider.divide_to_sentences(text_chunk)]
                                      for text_chunk in text_chunks]}
                       for author, text_chunks in author_text_chunks]

In [13]:
for author_dataset in author_parsed_chunks:
    for i, chunk in enumerate(author_dataset['text_chunks']):
        author_dataset['text_chunks'][i] = [sentence for sentence in chunk if len(sentence) > 0]
    author_dataset['chunks_count'] = len(author_dataset['text_chunks'])

In [19]:
author_parsed_chunks[0]['chunks_count']

25

In [20]:
import glob

In [21]:
glob.glob("D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset*")

['D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Белый Андрей.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Брюсов В.Я.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Гоголь Н.В.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Горький Максим.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Григорович Д.В.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Достоевский Ф.М.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Author-Attribution\\Dataset\\rnn_dataset_Карамзин Н.М.json',
 'D:\\Chisto Moya Papka!!!\\Works\\Phystech\\Интеллектуальные системы\\Au

In [40]:
%matplotlib inline

In [46]:
import os
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

In [44]:
def save(name='', fmt='png'):
    pwd = os.getcwd()
    iPath = './pictures/{}'.format(fmt)
    if not os.path.exists(iPath):
        os.mkdir(iPath)
    os.chdir(iPath)
    plt.savefig('{}.{}'.format(name, fmt), fmt='png')
    os.chdir(pwd)
    #plt.close()

In [48]:
print ('Current version on matplotlib library is', mpl.__version__)

Current version on matplotlib library is 2.0.2


In [51]:
a=np.array([[1,2,3],[1,54,6]])
a.mean()

11.166666666666666