Based on @yaov notebook "The unreasonable effectiveness of Character-level Language Models" (http://nbviewer.jupyter.org/gist/yoavg/d76121dfde2618422139).

Using the ** unsmoothed maximum-liklihood character level language models ** to generate text passing first words, which can be seen as defining the subject.

In [81]:
from collections import *
import random
import json

def train_char_lm(fname, order=4):
    data = file(fname).read()
    #dealing with encoding
    data = unicode(data, "utf-8")
    lm = defaultdict(Counter)
    pad = "~" * order
    data = pad + data
    for i in xrange(len(data)-order):
        history, char = data[i:i+order], data[i+order] 
        lm[history][char]+=1
    def normalize(counter):
        s = float(sum(counter.values()))
        return [(c,cnt/s) for c,cnt in counter.iteritems()]
    outlm = {hist:normalize(chars) for hist, chars in lm.iteritems()}
    return outlm

In [61]:
lm = train_char_lm("data/proust_dataset_ptbr.txt", order=4)

In [62]:
def show_pdf(lm, word):
    pdf = lm[word]
    pdf.sort(key=lambda tup: tup[1], reverse=True)
    for item in pdf:
        print item[0].encode("utf-8"),
        print ": " + str(item[1])  

[["a", 0.4423076923076923], ["â", 0.11538461538461539], ["e", 0.057692307692307696], ["o", 0.38461538461538464]]


In [82]:
show_pdf(lm, "amig")

o : 0.574675324675
a : 0.408441558442
u : 0.0116883116883
á : 0.00454545454545
  : 0.000649350649351


In [99]:
def generate_letter(lm, history, order):
        history = history[-order:]   

        if len(history) < order:
            possible_hist = [key for key, value in lm.items() if history.lower() == key.lower()[-len(history):]]
            history = possible_hist[random.randint(0, len(possible_hist)-1)]
      
        try:
            dist = lm[history]
        except:
            dist = lm[history[0].lower() + history[1:]]
        x = random.random()
        for c,v in dist:
            x = x - v
            if x <= 0: return c
            

def generate_text(lm, order, nletters=1000, history=None):
    if history == None: 
        history = "~" * order
    else:
        history = history[-min(len(history), order):]
    out = []
    out.append(history)
    while(len(out) < nletters or out[-1] != "."):
    #for i in xrange(nletters):
        c = generate_letter(lm, history, order)
        history = history[-order:] + c
        out.append(c)
    return "".join(out) 

In [85]:
print generate_text(lm, 4, nletters=300, history="Gord")

Gordomo, de 
|
dogarto dia às que monóculos Verdurin passas imaginar a no uma japontava poder acabava-se que as se ela no prema essa, que a estaurançou ela de Chateaubes planado o duques, com alugar é também que o campouco...”, tendido aspelia que o Sr. Verdurin estrumento pode manhã espertas tornavam onde exaltas, e quatroativas da parecisão de mim aque Heudicina, como eram quem Sra.


In [86]:
lm = train_char_lm("data/proust_dataset_ptbr.txt", order=15)

In [90]:
print generate_text(lm, 15, nletters=300, history="Gord")

Gordo; porém raspara os bigodes e bastara isso para fazer-me ir a alguma parte — continuou em voz baixa —, embora tenha eu pleno direito à minha liberdade. É 
certo que abdiquei dela por outra forma - acrescentou, testemunhando-lhe os seus sentimentos. Mas é uma criatura deliciosa, uma mulher sustentada, e por um velho tão orgulhoso com os aristocratas, afeiçoa-se a eles, que se mostram logo uns ingratos.


In [91]:
print generate_text(lm, 15, nletters=300, history="Amizade ")

Amizade até os protestos da diletante. Ouvindo esse nome, adquiria sobre o mesmo tema-chave do primeiro e 
do último trecho! A supressão das palavras, não só por vinco profissional que se me entregou uma intimação para 
comparecer à presença do chefe de polícia. Os pais da menina, que me insultaram, e dizendo: 
- Para as despesas.


In [92]:
print generate_text(lm, 15, nletters=300, history="Os protestos ")

Os protestos da diletante. Ouvindo esse nome, adquiria sobre o mesmo tema-chave do primeiro e 
do último trecho, mas de modo algum peculiares em nossa época, os melhores executantes, e entre os quais, 
superestimando-o um pouco, eu situava Morel. E logo o meu pensamento graciosas imagens que vemos reunidas em alguma parte um dos fiéis 
extraviasse dos outros no percurso do caminho, a menos que provocasse as mais graves suspeita 
de farra ou até de não ter viajado com o trem.


In [94]:
print generate_text(lm, 15, nletters=300, history=u"Revolução")

Revolução de não os haver guilhotinado a todos.
— Salve, amigos! — dizia ele, vindo ao nosso encontro com Albertine). Mas, quanto às outras pessoas, que, com o tempo, houvesse até esquecido e perdoado um pouco —, no momento em que menos os esperavam, e apelavam para pessoas que a 
segunda não desejava que acabasse.


In [95]:
print generate_text(lm, 15, nletters=300, history=u"Café")

Café e as emoções do processo empregado ou a um capricho do pintor, é a sua toga de catedrático ou de conselheiro, ou a sua murça de cardeal. O caráter ambíguo da criatura, reproduzir esse pico interno e extremo das sensações 
interpostas entre o rosto da mulher e os olhos do amante - esse enorme ovo doloroso que eu sentira ao ouvi-la precisava ser assim.


In [96]:
print generate_text(lm, 15, nletters=300, history=u"Flores ")

Flores peçonhentas? Talvez, pensava eu, o próprio vício 
de Albertine, com freqüência encontrando os meus. Em breve as pernas se entrelaçaram. 
Meus dois a nada viam; eu pisava em brasas. Uma das mulheres que nada fizemos por tornar a ver e que respondeu ao meu cumprimento, com um movimento igual, séculos afora) 
e fazê-lo, numa curva brusca, retornar ao real, queimar etapas, atravessar regiões de campo raso antes de encontrá-la, descobre-nos a errar ali por fora, na desesperada e cotidiana à morte fragmentária e sucessiva, tal como se 
encorajou um movimento sodomita e reconstruir Sodoma.


In [104]:
def gen_tweet(lm, order, theme, max_iter=30):
    tweet = generate_text(lm, order, nletters=order+1, history=theme)
    iter = 0
    while len(tweet) > 140 and iter < max_iter and len(tweet) < 70:
        tweet = generate_text(lm, order, nletters=order+1, history=theme)
        iter += 1
    return tweet

In [100]:
print gen_tweet(lm, 15, theme="Cama ")

Cama para 
visitar a amiga, poderia interromper aqui ou ali, sem concluir, como esses cursos 
da história da lavadeira.


In [101]:
print gen_tweet(lm, 15, theme=u"Amores ")

Amores pelas pessoas da sociedade, do ponto de vista em que lhe causara, talvez procedesse 
acertadamente em aproveitar essa parada que se prolongavam nela sem sofrer desvio porque passava através dele a personalidade, e eu desejava ardentemente iluminadas, como se diz no jargão judicial desapropriada.


O trecho acima atingiu o max_iter, ou seja, foram geradas 20 frases, mas nenhuma atendia os requisitos. A última gerada é retornada.

In [102]:
print gen_tweet(lm, 15, theme=u"Meu amor ")

Meu amor por 
Albertine) e também pela do ambiente em que gostava de viver para si mesmo, exclamou: 
- Mas como! Peço-lhe! Ora essa! - O tom astuciosamente de certas definições que eu estupidamente mundano.


In [103]:
print gen_tweet(lm, 15, theme=u"A política ")

A política racional (vitória contra a França uma batalha do Primeiro Império e da Restauração, e 
também quantas histórias com Oriane?”, acrescentava um ligeiro sorriso, era numa mulher! 
Ia mover-me de novo para jantar; extraordinários que possa parecer 
àquele que não existia entre a região e aquela mulher; a de que o sentimento de vergonha, inventara todo um romance.


In [105]:
print gen_tweet(lm, 15, theme=u"Armário ")

Armário rústico de um velho solar transformado num Charlus mil vezes mais inteligente que o resto da pupila reagia segregando ondas de azul.
