In [1]:
import nltk

In [2]:
# загрузим привычный корпус
corpus = nltk.corpus.conll2000

In [3]:
# возьмем список (неразмеченных) слов и предложений из корпуса
words = corpus.words()
sents = corpus.sents()


['Confidence', 'in', 'the', 'pound', 'is']

NLTK умеет считать частоты по корпусу и даже извлекать триграммы из списков слов:

In [4]:
from nltk.probability import FreqDist
from nltk import trigrams

unigram_fd = FreqDist()
words_fd = FreqDist()
sents_fd = FreqDist()

unigram_fd.update(words)
words_fd.update(trigrams(words))
for sent in sents:
    sents_fd.update(trigrams(sent))

print('Length of unigram FreqDist = {}'.format(len(unigram_fd)))
print('Length of trigrams FreqDist by words = {}'.format(len(words_fd)))
print('Length of trigrams FreqDist by sents = {}'.format(len(sents_fd)))

Length of unigram FreqDist = 21589
Length of trigrams FreqDist by words = 212933
Length of trigrams FreqDist by sents = 196878


In [None]:
# Можно почитать, что представляет собой объект FreqDist
?words_fd
# или: help(words_fd)

Попробуем вывести самые частые 10 триграмм:

In [5]:
sents_fd.most_common(10)

[(('million', ',', 'or'), 256),
 (('a', 'share', ','), 240),
 ((',', "''", 'says'), 195),
 (('cents', 'a', 'share'), 161),
 ((',', "''", 'said'), 138),
 (('%', 'to', '$'), 134),
 ((',', 'or', '$'), 125),
 (('the', 'company', "'s"), 114),
 ((',', "''", 'he'), 109),
 (('a', 'year', 'earlier'), 91)]

Всевозможные улучшения для языковых моделей в NLTK тоже есть, и тоже не очень удобные:

In [6]:
from nltk.probability import LaplaceProbDist, KneserNeyProbDist

eval_trigrams = [
    ('who', 'are', 'not'),
    ('who', 'is', 'the'),
    ('I', 'love', 'you'),
    ('in', 'San', 'Francisco'),
    ('to', 'San', 'Diego'),
]

laplace = LaplaceProbDist(sents_fd)
kn = KneserNeyProbDist(sents_fd)
for t in eval_trigrams:
    print(t, laplace.prob(t), kn.prob(t))

('who', 'are', 'not') 2.3036219848467746e-06 0.009112681815526607
('who', 'is', 'the') 4.607243969693549e-06 0.011904761904761904
('I', 'love', 'you') 2.3036219848467746e-06 0.0
('in', 'San', 'Francisco') 4.146519572724194e-05 0.7386363636363636
('to', 'San', 'Diego') 2.3036219848467746e-06 0.012499999999999999


Как проверить, какие из триграмм были в частотном списке?

In [9]:
sents_fd[('who', 'are', 'not')]

0

## Генерация случайных текстов (character-based)

Для того, чтобы сгенерировать случайный текст нужно запастись двумя вещами:

1. Обучающий корпус.
2. Языковая модель.

In [None]:
# 1. Читаем обучающий корпус из input.txt
#with open('input.txt', encoding = 'utf-8') as f:
    
   # corpus = f.read()
print(corpus)

2.Как обычно - реализуем класс для языковой модели.

In [15]:
from collections import Counter, defaultdict

class CharLM:
    def __init__(self, data, order=4):
        self.order = order
        self.ngrams = defaultdict(Counter)
        pad = '~' * order  # специальный символ для начала предложения (для первого символа будет ~~)
        data = pad + data
        # Для каждой n-граммы из символов посчитаем символы, которые идут перед ней
        # Например, если порядок модели 2, а корпус выглядит так 'abcbcb':
        # self.ngrams['~~']['a'] == 1
        # self.ngrams['~a']['b'] == 1
        # self.ngrams['ab']['c'] == 1
        # self.ngrams['bc']['b'] == 2
        # self.ngrams['cb']['c'] == 1
        for i in range(len(data) - order):
            history, char = data[i:i+order], data[i+order]
            self.ngrams[history][char] +=1
        self.lm = {history: self.normalize(chars) for history, chars in self.ngrams.items()}
    
    def normalize(self, counter):
        # Всё как обычно - превращаем частоты в вероятности
        # сделаем только в одну строчку - more pythonic ;)
        sum_ = sum(counter.values())
        return [(char, count / sum_) for char, count in counter.items()]
    
    def __getitem__(self, history):
        return self.lm[history]

Обучаем модель:

In [16]:
lm = CharLM(corpus, order=2)

Посмотрим, что получилось:

In [17]:
lm['in']

[('g', 0.31507541149193086),
 ('k', 0.04090815178714906),
 ('v', 0.003259796607056771),
 (' ', 0.2515093776543238),
 ('s', 0.040449025504465004),
 ('e', 0.07871720116618076),
 ('t', 0.04788687128394665),
 ('d', 0.06202796079061546),
 (';', 0.005279952250866601),
 ('\n', 0.010651729758270011),
 ('c', 0.03606436950483231),
 ('i', 0.012488234889006222),
 ('o', 0.0022267624710176535),
 ("'", 0.008884093569936411),
 (',', 0.0202015564380983),
 ('f', 0.007896972062165698),
 ('u', 0.0036500539473382156),
 ('.', 0.011799545464980143),
 ('n', 0.006657331098918758),
 ('h', 0.0016758109317967908),
 ('l', 0.0016758109317967908),
 ('j', 0.0017446798741993985),
 ('a', 0.009985996648378136),
 ('y', 0.0011478157067101307),
 ('q', 0.0009182525653681045),
 ('-', 0.001836505130736209),
 ('!', 0.0030531897798489476),
 ('?', 0.003145015036385758),
 (':', 0.00711645738160281),
 ('m', 0.0008952962512339019),
 ('w', 0.0006657331098918757),
 ('b', 0.0003443447120130392),
 ('r', 4.591262826840523e-05),
 ('x', 9

In [18]:
lm['of']

[(' ', 0.8530393325387365),
 ('t', 0.025387365911799763),
 ('f', 0.06930870083432658),
 (',', 0.004886769964243146),
 ("'", 0.0005363528009535161),
 ('e', 0.004350417163289631),
 ('\n', 0.02234803337306317),
 ('-', 0.0004171632896305125),
 ('a', 0.0017282479141835518),
 (';', 0.0017878426698450535),
 ('o', 0.0012514898688915374),
 (':', 0.0010727056019070322),
 ('u', 0.0015494636471990466),
 ('.', 0.005184743742550656),
 ('!', 0.0004171632896305125),
 ('s', 0.0012514898688915374),
 ('i', 0.003933253873659118),
 ('?', 0.0015494636471990466)]

А теперь напишем функцию для генерации случайных текстов!

In [22]:
from random import random

def generate_letter(lm, history):
    history = history[-lm.order:]
    # По предыдущим символам будем генерировать следующий с учётом вероятностей
    dist = lm[history]
    x = random()
    for char, prob in dist:
        x = x - prob
        if x <= 0:
            return char
        
def generate_text(lm, n_letters=1000):
    history = '~' * lm.order
    out = []
    # Генерируем текст длины n_letters
    for i in range(n_letters):
        # на каждом шаге генерируем новый символ
        c = generate_letter(lm, history)
        # обновляем историю и результат
        history = history[-lm.order:] + c
        out.append(c)
    return ''.join(out)

Попробуем генерировать тексты разной длины с помощью моделей разного порядка -- 2...10?

Какой результат более разнообразный? Какой более связный?

In [23]:
print(generate_text(lm, 1000))

Firry mocke nus on, clem nablorell theyedly.

Ford wous fiechat unext.
And:
Old tourse but suctusand.

Fourse sher'd and, Isbal,
We manced kin aft alit.

PEY:
Is rich,
Helooly be fort, fly kill well yeact the dron to-majea, Kinhape:
Whiscit. To this; ineseenall
I died ormseek youbst an my faing that of the tus; in nay
I hapkinne, Thou waseetery ban, graw that day, this sters to hat e's fropand the slike a mee warrandoestrughty's now my and yourpea st old! Tell you ne,--
Ande,
Whe to the kingbrous all moughtfull to son do we pre seeplesse rall. But yous?

FALIAND:
Upons a gencell, up; and th
Mas oftea, riam, I he preadis fuld withe up to Iscom ifencee, bot. Cand to he fice.

Can of manto as I wifthe thin hus;
EDWARETH:
Thee sand.
BROIN:
Have, I bant.
LAUDE:
He
sit of st as withad, the groul,
To lory arguiscomap hemptearcunce wortiring the.

DRONICK:
Yessize is I ass-mad tret nouds: hisday frialoads, thave I it intly hat
we ne;
hy thich def
A me;
To diesandend inspowit.

Fir thanto this.

In [25]:
lm8 = CharLM(corpus, order=8)
print(generate_text(lm8, 2000))

First Citizen:
Go fetch a look so strange
queen's are not with you.

First Clown:
A pestilent constitution, so help me! how long farewell.

VIOLA:
Nay, rather chose
To cross me from home.
Here did I hear
Macduff is missing.

LADY ANNE:
Why, that Armado.

BIRON:
And sent her?

ARIEL:
I prithee now: how far forth to
sleep. Look, here
is a better by the
nose for wearing, quarrel sir! no, sir: we have
The prenzie Angelo, and we'll come they of
these profound her to,
And never did these things indeed is chronicle,
That struck her
into amaze your fights:
Give fire:
The throng who
should quench'd this with Juliet.

ROMEO:
My dear son
Shall lose for my liege?

KING JOHN:
Acknowledge, where the ground, I warrant us;
she for the white o' the stern ungentle bosom, I from me my state;
And I will not out what says he comes the spirit of my consent to the purpose only that cons state and made that drew this ground,
Demanding on that pilgrimage.

JOHN OF GAUNT:
I have an excellent.
Their ships alread