In [2]:
import sys

!{sys.executable} -m pip install markovify



## Text tokenizing

In [35]:
import re


class TextProcessor:

    to_sentences = re.compile(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s')
    remove_brackets = re.compile(r' \((.*?)\)')

    @classmethod
    def tokenize(cls, text: str, remove_brackets=True, remove_endings=True) -> list:
        buf = text.split('\n')
        buf = [item for item in buf if item]
        sentences = []
        if not remove_endings:
            for sentence in cls.to_sentences.split(' '.join(buf)):
                buf_list = [item for item in sentence.split('!') if item]
                for item in buf_list:
                    if item[-1] == '.' or item[-1] == '?':
                        sentences.append(item)
                    else:
                        sentences.append(item + '!')
        else:
            sentences = [sentence[:-1] for sentence in cls.to_sentences.split(' '.join(buf)) if sentence[:-1]]
        if remove_brackets:
            return [cls.remove_brackets.sub('', sentence) for sentence in sentences]
        return sentences

## Wiki

In [36]:
!{sys.executable} -m pip install pymongo



In [37]:
import pymongo

client = pymongo.MongoClient(unicode_decode_error_handler='ignore')
col = client['wiki']['articles']
col.count()

  """


11270

In [44]:
col.find_one({'title': 'Лвитва'})

In [38]:
docs = list(col.find({}).limit(2))
docs[1]

{'_id': '_\x1c\t|UyaE',
 'title': 'Литва',
 'text': {'Зарождение государства': {'text': 'Становление государственности на территории современной Литвы относят к XIII веку, при этом само название «Литва» впервые упомянуто в Кведлинбургских анналах под 1009 годом в сообщении об убийстве язычниками миссионера Бруно на границе Руси и Литвы. По наиболее распространённой версии, топоним возник от названия небольшой реки Летаука, притока Няриса. Согласно более современной гипотезе, название страны могло произойти от этнонима «леты» или «лейти», которым жители окрестных земель называли дружинников литовских князейДубонис А.  // Княжа доба: історія і культура.\xa0— 2008.\xa0— Вип. 2.\xa0— С. 156..В начале XIII века в земли балтов-язычников с запада началось вторжение немецких рыцарей-крестоносцев. Они покорили Пруссию и Ливонию. В это же время с юга началась экспансия Галицко-Волынского княжества. К середине XIII века многие литовские земли были объединены под властью князя Миндовга, принявшего

In [39]:
print(docs[1]['text']['Заголовок']['text'])

Литва (Lietuva), официальное название — Литовская Республика (Lietuvos Respublika) — государство, расположенное в северной части Европы. Столица страны — Вильнюс.Площадь — 65300 км². Протяжённость с севера на юг — 280 км, а с запада на восток — 370 км. Население составляет 2793000 человек (сентябрь, 2019). Занимает 140-е место в мире по численности населения и 121-е по территории. Имеет выход к Балтийскому морю, расположена на его восточном побережье. Береговая линия составляет всего 99 км (наименьший показатель среди государств Балтии). На севере граничит с Латвией, на юго-востоке — с Белоруссией, на юго-западе — с Польшей и Калининградской областью России.Член ООН с 1991 года, ЕС и НАТО — с 2004 года, ОЭСР — с мая 2018 года. Входит в Шенгенскую зону и Еврозону.Независимость страны провозглашена 11 марта 1990 года, а юридически оформлена 6 сентября 1991 года. .


In [42]:
text = docs[1]['text']['Заголовок']['text']
[item.split() for item in TextProcessor.tokenize(text)]

[['Литва,',
  'официальное',
  'название',
  '—',
  'Литовская',
  'Республика',
  '—',
  'государство,',
  'расположенное',
  'в',
  'северной',
  'части',
  'Европы'],
 ['Столица', 'страны', '—', 'Вильнюс.Площадь', '—', '65300', 'км²'],
 ['Протяжённость',
  'с',
  'севера',
  'на',
  'юг',
  '—',
  '280',
  'км,',
  'а',
  'с',
  'запада',
  'на',
  'восток',
  '—',
  '370',
  'км'],
 ['Население', 'составляет', '2793000', 'человек'],
 ['Занимает',
  '140-е',
  'место',
  'в',
  'мире',
  'по',
  'численности',
  'населения',
  'и',
  '121-е',
  'по',
  'территории'],
 ['Имеет',
  'выход',
  'к',
  'Балтийскому',
  'морю,',
  'расположена',
  'на',
  'его',
  'восточном',
  'побережье'],
 ['Береговая', 'линия', 'составляет', 'всего', '99', 'км'],
 ['На',
  'севере',
  'граничит',
  'с',
  'Латвией,',
  'на',
  'юго-востоке',
  '—',
  'с',
  'Белоруссией,',
  'на',
  'юго-западе',
  '—',
  'с',
  'Польшей',
  'и',
  'Калининградской',
  'областью',
  'России.Член',
  'ООН',
  'с',
  '

In [32]:
re.sub(r' \((.*?)\)', '', TextProcessor.tokenize(text)[0])

'Литва́, официальное название\xa0— Лито́вская Респу́блика\xa0— государство, расположенное в северной части Европы'

In [7]:
import re

re.sub(r'\([^)]*\)', '', docs[1]['text']['Заголовок']['text'])

'Литва́ , официальное название — Лито́вская Респу́блика  — государство, расположенное в северной части Европы. Столица страны — Вильнюс.Площадь — 65300 км². Протяжённость с севера на юг — 280 км, а с запада на восток — 370 км. Население составляет 2793000 человек . Занимает 140-е место в мире по численности населения и 121-е по территории. Имеет выход к Балтийскому морю, расположена на его восточном побережье. Береговая линия составляет всего 99 км . На севере граничит с Латвией, на юго-востоке — с Белоруссией, на юго-западе — с Польшей и Калининградской областью России.Член ООН с 1991 года, ЕС и НАТО — с 2004 года, ОЭСР — с мая 2018 года. Входит в Шенгенскую зону и Еврозону.Независимость страны провозглашена 11 марта 1990 года, а юридически оформлена 6 сентября 1991 года. .'

In [8]:
docs[1]['text']['Заголовок']['text']

'Литва́ (Lietuva), официальное название — Лито́вская Респу́блика (Lietuvos Respublika) — государство, расположенное в северной части Европы. Столица страны — Вильнюс.Площадь — 65300 км². Протяжённость с севера на юг — 280 км, а с запада на восток — 370 км. Население составляет 2793000 человек (сентябрь, 2019). Занимает 140-е место в мире по численности населения и 121-е по территории. Имеет выход к Балтийскому морю, расположена на его восточном побережье. Береговая линия составляет всего 99 км (наименьший показатель среди государств Балтии). На севере граничит с Латвией, на юго-востоке — с Белоруссией, на юго-западе — с Польшей и Калининградской областью России.Член ООН с 1991 года, ЕС и НАТО — с 2004 года, ОЭСР — с мая 2018 года. Входит в Шенгенскую зону и Еврозону.Независимость страны провозглашена 11 марта 1990 года, а юридически оформлена 6 сентября 1991 года. .'

In [11]:
text_list = []
filter_re = re.compile(r'[*/{}\[\]]')
remove_brackets_re = re.compile(r'((.*?):)')
i = 0

for doc in col.find({}).limit(300000):
    text = doc['text']['Заголовок']['text']
    if not filter_re.match(text):
        text = remove_brackets_re.sub('', text)
        i += 1
        text_list.append({
            'title': doc['title'],
            'text': text
        })
        if i % 1000 == 0 and i != 0:
            print(i)

1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
19000
20000
21000
22000
23000
24000
25000
26000
27000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
38000
39000
40000
41000
42000
43000
44000
45000
46000
47000
48000
49000
50000
51000
52000
53000
54000
55000
56000
57000
58000
59000
60000
61000
62000
63000
64000
65000
66000
67000
68000
69000
70000
71000
72000
73000
74000
75000
76000
77000
78000
79000
80000
81000
82000
83000
84000
85000
86000
87000
88000
89000
90000
91000
92000
93000
94000
95000
96000
97000
98000
99000
100000
101000
102000
103000
104000
105000
106000
107000
108000
109000
110000
111000
112000
113000
114000
115000
116000
117000
118000
119000
120000
121000
122000
123000
124000
125000
126000
127000
128000
129000
130000
131000
132000
133000
134000
135000
136000
137000
138000
139000
140000
141000
142000
143000
144000
145000
146000
147000
148000
149000
150000
151000
152000
153000
154000
155000
156000
157000
158000
15

In [12]:
print(len(text_list))
text_list = [text for text in text_list if len(text['text']) > 40]
print(len(text_list))

291437
124250


In [13]:
text_list[1]

{'title': 'Слоновые',
 'text': 'СлонСлоно́вые, или слоны́ , — семейство класса млекопитающих из отряда хоботных. В настоящее время к этому семейству относятся 3 ныне живущих вида. Африканские саванные слоны — наиболее крупные наземные млекопитающие.'}

In [14]:
text = ''
for txt in text_list:
    text += (txt['text'] + '\n')
len(text)

55374446

In [15]:
import markovify

text_model = markovify.Text(text, state_size=3)

In [16]:
for i in range(10):
    print(text_model.make_short_sentence(380), end='\n\n')

оно широко применяется в науке.

#перенаправление Фаткуллин, Ильдар Раилевич «Со́лнечные проду́кты» — российская компания, входящая в российский холдинг «Мультирегион».* МКС — «Московский клуб спорта Краснопресненского района», см.

В Санкт-Петербурге снимал большую квартиру, где временно размещал приезжавших из германских государств на Русь, совместно с Ганзой контролировала её торговые пути.

Основан дорийскими колонистами из Мегариды в VII веке вплоть до Чехословакии в XX веке.

Приливы неправильные полусуточные, величина их до 7,2 м.Предполагается, что название Андаманского моря происходит от имени Осма́на I Гази́ — первого султана Османской империи.

//www.khrunichev.ru/main.php?id=50 | категория на Викискладе =}}«Бриз» — семейство российских БПЛА.* «Орлан-3М» — беспилотный летательный аппарат.

Обладательница неофициального Кубка мира сезона 1980/81 годов, одна из самых крупных и известных в России мужских монастырей с многовековой историей.

Цифровой фильтр — в электронике любой

In [23]:
help(text_model)

Help on Text in module markovify.text object:

class Text(builtins.object)
 |  Text(input_text, state_size=2, chain=None, parsed_sentences=None, retain_original=True, well_formed=True, reject_reg='')
 |  
 |  Methods defined here:
 |  
 |  __init__(self, input_text, state_size=2, chain=None, parsed_sentences=None, retain_original=True, well_formed=True, reject_reg='')
 |      input_text: A string.
 |      state_size: An integer, indicating the number of words in the model's state.
 |      chain: A trained markovify.Chain instance for this text, if pre-processed.
 |      parsed_sentences: A list of lists, where each outer list is a "run"
 |            of the process (e.g. a single sentence), and each inner list
 |            contains the steps (e.g. words) in the run. If you want to simulate
 |            an infinite process, you can come very close by passing just one, very
 |            long run.
 |      retain_original: Indicates whether to keep the original corpus.
 |      well_form

In [16]:
text_model.make_sentence_with_start('Матрица')

'Матрица — сфера применения, взаимодействия.* Ма́трица в математике — линейная часть приращения дифференцируемой функции или отображения.Это понятие тесно связано с восприятием запахов.'

In [21]:
with open('models/markov/bin/model1.0-300000-44669705.json', 'w') as f:
    f.write(text_model.to_json())

In [22]:
ls -lah models/markov/bin

итого 1002M
drwxrwxr-x 2 leadness leadness  4,0K июл 22 13:10 [0m[01;34m.[0m/
drwxrwxr-x 3 leadness leadness  4,0K июл 22 13:09 [01;34m..[0m/
-rw-rw-r-- 1 leadness leadness 1002M июл 22 13:10 model1.0-300000-44669705.json


In [23]:
text_model.compile(inplace=True)

<markovify.text.Text at 0x7fa6ec3b56d0>

## Habr

In [5]:
import psycopg2


class PostgresStorage:

    def __init__(self, conn):
        self.conn = conn
        self.cursor = conn.cursor()

    @staticmethod
    def connect(host, port=5432, user='postgres', password='password', dbname='habr'):
        return PostgresStorage(conn=psycopg2.connect(
            host=host, port=port, user=user, password=password, dbname=dbname)
        )

    def get_posts(self) -> list:
        self.cursor.execute('SELECT * FROM posts LIMIT 100')
        posts = list(self.cursor.fetchall())
        return posts

    def get_posts_texts(self) -> list:
        posts_list = self.get_posts()
        return [post[2] for post in posts_list]

In [6]:
storage = PostgresStorage.connect(host='172.17.0.2')
texts_list = storage.get_posts_texts()
len(texts_list)    

100

In [10]:
print(texts_list[1])



Израильский стартап Deep Instinct объявил о разработке антивирусной программы нового поколения, которая будет использовать для поиска вирусов самообучающиеся нейронные сети. Разработчики заявляют, что таким образом их продукт сможет находить новые, неизвестные ранее вирусы, без обновления вирусных баз.

Современные антивирусы в массе своей работают реактивно, то есть реагируют на появление новых вирусов уже после того, как те стали известными. Чтобы антивирус смог справиться с вирусом, разработчикам антивируса необходимо внести в базу данных информацию, идентифицирующую новый вариант вредоноса. В результате, в промежутке между появлением вируса и обновлением антивирусной базы компьютеры остаются уязвимыми.

Присутствующий в современных антивирусных программах «эвристический анализ» позволяет отследить некоторые новые варианты известных ранее вирусов, а также вирусы с автоматически мутирующим кодом.

Илай Давид, сооснователь и технический директор стартапа, поясняет, что их компания с

In [7]:
text = ''
for txt in texts_list[:1000]:
    text += (txt + '\n')
len(text)

667154

In [11]:
with open('text.txt', 'w') as f:
    f.write(text)

In [12]:
ls

[0m[01;34mapp[0m/          [01;34mmodels[0m/       requirements.txt  [01;34mvenv[0m/
config.py     [01;34m__pycache__[0m/  textgen.py        WikiParse.ipynb
Markov.ipynb  README.md     text.txt


In [5]:
import markovify



text_model = markovify.Text(text, state_size=3)

In [6]:
for i in range(10):
    print(text_model.make_short_sentence(500), end='\n\n')

Хотя некоторые психологи считают, что выполнение нескольких дел в один момент времени Вы можете проводить на одном сервере лишь одно активное мероприятие.

Мы хотим наполнения котла, однако интуитивно не хотим, чтобы Провидец выполнял действие Х, потому что он стал неконсистентным, не валидным, и заново все пересчитать — это плохо.

Конечно, 15 лет — это исторически доказано.

Первое, что приходит на ум.

Для этого надо исключить из печати фоточерный цвет.

Может быть, у них есть скидочные карты или приложение, которое выполняет какую-либо задачу.

Неправильно сформированная страница приложения Очевидно, проблема тут заключается в том, что после ввода неправильного пароля неплохо бы делать паузы.

Введение Использование Lumia SensorCore SDK мы перечислили основные возможности и фишки.

Я не трачу кучу времени на походы по магазинам?

Для проверки на наличие его в системе и пользователь начинает работать с ним.



In [9]:
text_model.make_sentence_with_start('Матрица')

'Матрица корреляций предсказаний наших моделей показана на рисунке: Как видно, у нас есть std::array, который можно использовать в более позитивном ключе.'

In [10]:
with open('models/markov/bin/model1.0-habr-10000.json', 'w') as f:
    f.write(text_model.to_json())

In [11]:
ls -lah models/markov/bin

итого 2,2G
drwxrwxr-x 2 leadness leadness  4,0K июл 22 14:32 [0m[01;34m.[0m/
drwxrwxr-x 4 leadness leadness  4,0K июл 22 14:16 [01;34m..[0m/
-rw-rw-r-- 1 leadness leadness 1002M июл 22 13:10 model1.0-300000-44669705.json
-rw-rw-r-- 1 leadness leadness  1,2G июл 22 14:32 model1.0-habr-10000.json


In [14]:
import os
import markovify

DEFAULT_MAX_OVERLAP_RATIO = 0.7
DEFAULT_MAX_OVERLAP_TOTAL = 15
DEFAULT_TRIES = 10


class MarkovModel:

    model: markovify.Text

    def __init__(self, model: markovify.Text):
        self.model = model
        self.model.compile(inplace=True)

    @classmethod
    def load(cls, model_name='model1.0-habr-10000.json', models_path='models/markov/bin'):
        with open(os.path.join(models_path, model_name), 'r') as f:
            model_json = f.read()
        model = markovify.Text.from_json(model_json)
        return cls(model=model)

    def generate_sample(self, beginning: str) -> str:
        return self.model.make_sentence_with_start(beginning)
    
    def make_sentence(self, init_state=None, **kwargs):
        """
        Attempts `tries` (default: 10) times to generate a valid sentence,
        based on the model and `test_sentence_output`. Passes `max_overlap_ratio`
        and `max_overlap_total` to `test_sentence_output`.

        If successful, returns the sentence as a string. If not, returns None.

        If `init_state` (a tuple of `self.chain.state_size` words) is not specified,
        this method chooses a sentence-start at random, in accordance with
        the model.

        If `test_output` is set as False then the `test_sentence_output` check
        will be skipped.

        If `max_words` or `min_words` are specified, the word count for the sentence will be
        evaluated against the provided limit(s).
        """
        prefix = []
        
        tries = kwargs.get('tries', DEFAULT_TRIES)
        mor = kwargs.get('max_overlap_ratio', DEFAULT_MAX_OVERLAP_RATIO)
        mot = kwargs.get('max_overlap_total', DEFAULT_MAX_OVERLAP_TOTAL)
        test_output = kwargs.get('test_output', True)
        max_words = kwargs.get('max_words', None)
        min_words = kwargs.get('min_words', None)

        for _ in range(tries):
            words = prefix + self.model.chain.walk(init_state)
            if (max_words != None and len(words) > max_words) or (min_words != None and len(words) < min_words):
                continue
            if test_output and hasattr(self, "rejoined_text"):
                if self.model.test_sentence_output(words, mor, mot):
                    return self.model.word_join(words)
            else:
                return self.model.word_join(words)
        return None


In [15]:
markov_model = MarkovModel(text_model)

In [19]:
markov_model.generate_sample('Матрица')

'Матрица показывает взаимоотношения между тремя объектами в зависимости от применяемой технологии, уходит от 2х до 4х недель.'

In [24]:
markov_model.model.chain.move('Матрица')

KeyError: 'Матрица'