# Análise e Geração de Texto

In [1]:
from os.path import basename, exists
def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve
        local, _ = urlretrieve(url, filename)
        print("Downloaded " + str(local))
    return filename

In [2]:
download('https://www.gutenberg.org/cache/epub/43/pg43.txt');

Downloaded pg43.txt


In [17]:
nomearquivo = 'pg43.txt'

In [4]:
palavras_unicas = {}
for linha in open(nomearquivo):
    frase = linha.split()
    for palavra in frase:
        palavras_unicas[palavra] = 1

len(palavras_unicas)

6711

In [7]:
sorted(palavras_unicas, key=len)[-5:]

['(www.gutenberg.org),',
 '(trademark/copyright)',
 'www.gutenberg.org/contact',
 'www.gutenberg.org/donate.',
 'www.gutenberg.org/license.']

In [1]:
def is_special_line(line):
    return line.strip().startswith('*** ')

In [2]:
def clean_file(input_file, output_file):
    reader = open(input_file, encoding='utf-8')
    writer = open(output_file, 'w')

    for line in reader:
        if is_special_line(line):
            break

    for line in reader:
        if is_special_line(line):
            break
        writer.write(line)
        
    reader.close()
    writer.close()

In [3]:
nomearquivo =  'dr_jekyll.txt'

In [4]:
clean_file('pg43.txt', nomearquivo)

In [5]:
palavras_unicas = {}
for linha in open(nomearquivo):
    frase = linha.split()
    for palavra in frase:
        palavras_unicas[palavra] = 1

len(palavras_unicas)

6042

In [6]:
sorted(palavras_unicas, key=len)[-5:]

['chocolate-coloured',
 'superiors—behold!”',
 'coolness—frightened',
 'gentleman—something',
 'pocket-handkerchief.']

In [8]:
sorted(palavras_unicas, key=len)[:20]

['a',
 'I',
 'O',
 'A',
 'E',
 'Of',
 'by',
 'OF',
 'AT',
 'of',
 'in',
 'At',
 'to',
 'He',
 'he',
 'an',
 'at',
 '“I',
 'my',
 'go']

In [9]:
def remove_hifen(linha):
    return linha.replace("—",' ').split()

In [10]:
remove_hifen('coolness—frightened')

['coolness', 'frightened']

In [12]:
import unicodedata as un

In [13]:
un.category('A')

'Lu'

In [14]:
un.category('b')

'Ll'

In [17]:
un.category('5')

'Nd'

In [19]:
un.category('!')

'Po'

In [20]:
un.category('.')

'Po'

In [21]:
pontuacoes = {}
for linha in open(nomearquivo):
    for caracter in linha:
        categoria = un.category(caracter)
        if categoria.startswith('P'):
            pontuacoes[caracter]=1

In [23]:
pontuacoes = ''.join(pontuacoes)
pontuacoes

'.’;,-“”:?—‘!()_'

In [27]:
lista = ['1','2','3','4','5']
lista

['1', '2', '3', '4', '5']

In [28]:
'-'.join(lista)

'1-2-3-4-5'

In [29]:
def limpa_palavra(palavra):
    return palavra.strip(pontuacoes).lower()

In [30]:
limpa_palavra('Olá!')

'olá'

In [33]:
palavras_unicas2 = {}
for linha in open(nomearquivo):
    for palavra in remove_hifen(linha):
        palavra = limpa_palavra(palavra)
        palavras_unicas2[palavra] = 1

len(palavras_unicas2)

4005

In [34]:
sorted(palavras_unicas2, key=len)[-5:]

['circumscription',
 'unimpressionable',
 'fellow-creatures',
 'chocolate-coloured',
 'pocket-handkerchief']

In [35]:
conta_palavras = {}
for linha in open(nomearquivo):
    for palavra in remove_hifen(linha):
        palavra = limpa_palavra(palavra)
        if palavra not in conta_palavras:
            conta_palavras[palavra] = 1
        else:
            conta_palavras[palavra] += 1    

In [40]:
def segundo_elemento(tupla):
    return tupla[1]

In [41]:
itens = sorted(conta_palavras.items(), key=segundo_elemento, reverse=True)

In [42]:
itens[:5]

[('the', 1614), ('and', 972), ('of', 941), ('to', 640), ('i', 640)]

In [43]:
def print_maiores(dicionario, num=5):
    itens = sorted(dicionario.items(), key=segundo_elemento, reverse=True)

    for chave, valor in itens[:num]:
        print(chave, valor, sep='\t')

In [44]:
print_maiores(conta_palavras)

the	1614
and	972
of	941
to	640
i	640


In [45]:
import random

In [46]:
lista = [1, 10, 40, 9]

In [54]:
random.choice(lista)

9

In [66]:
lista_palavras = list(conta_palavras)
len(lista_palavras)

4005

In [70]:
random.choice(lista_palavras)

'rust'

In [81]:
for i in range(6):
    print(random.choice(lista_palavras),end=' ')

similar sinister wide napery drunkard journey 

In [83]:
pesos = conta_palavras.values()

In [89]:
frase_aleatoria = random.choices(lista_palavras, weights=pesos, k=6)
frase_aleatoria

['foot', 'of', 'of', 'it', 'appearance', 'that']

# Bigramas

In [90]:
bigrama_contagem = {}

In [91]:
def conta_bigrama(bigrama):
    chave = tuple(bigrama)
    if chave not in bigrama_contagem:
        bigrama_contagem[chave]=1
    else:
        bigrama_contagem[chave]+=1

In [92]:
janela = []

In [93]:
def processa_palavra(palavra):
    janela.append(palavra)
    if len(janela) == 2:
        conta_bigrama(janela)
        janela.pop(0)

In [96]:
lista =  ['a']
lista

['a']

In [98]:
lista.append('b')

In [99]:
lista

['a', 'b']

In [100]:
lista.pop(0)
lista

['b']

In [101]:
lista.append('c')

In [102]:
lista

['b', 'c']

In [103]:
lista.pop(0)
lista

['c']

In [104]:
lista.append('d')
lista

['c', 'd']

In [105]:
for linha in open(nomearquivo):
    for palavra in remove_hifen(linha):
        palavra = limpa_palavra(palavra)
        processa_palavra(palavra)

In [106]:
print_maiores(bigrama_contagem)

('of', 'the')	178
('in', 'the')	139
('it', 'was')	94
('and', 'the')	80
('to', 'the')	73


In [120]:
pesos2 = bigrama_contagem.values()
bigramas = list(bigrama_contagem)
frase_aleatoria2 = random.choices(bigramas,weights=pesos2,k=6)
for par in frase_aleatoria2:
    print(' '.join(par), end=' ')

and nervous his ape-like yet when idea of asking the as you 

In [132]:
sucessor = {}

In [124]:
def adiciona_bigrama(bigrama):
    primeiro, segundo = bigrama
    if primeiro not in sucessor:
        sucessor[primeiro]=[segundo]
    else:
        sucessor[primeiro].append(segundo)

In [123]:
janela2 = []

In [128]:
def processa_palavra2(palavra):
    janela2.append(palavra)
    if len(janela2) == 2:
        adiciona_bigrama(janela2)
        janela2.pop(0)

In [131]:
song = """
Half a bee, philosophically,
Half a bee, philosophically,
Must, ipso facto, half not be.
But half the bee has got to be
Vis a vis, its entity. D'you see?
"""

In [133]:
for palavra in song.split():
    palavra = limpa_palavra(palavra)
    processa_palavra2(palavra)

In [134]:
sucessor

{'see': ['half'],
 'half': ['a', 'a', 'not', 'the'],
 'a': ['bee', 'bee', 'vis'],
 'bee': ['philosophically', 'philosophically', 'has'],
 'philosophically': ['half', 'must'],
 'must': ['ipso'],
 'ipso': ['facto'],
 'facto': ['half'],
 'not': ['be'],
 'be': ['but', 'vis'],
 'but': ['half'],
 'the': ['bee'],
 'has': ['got'],
 'got': ['to'],
 'to': ['be'],
 'vis': ['a', 'its'],
 'its': ['entity'],
 'entity': ["d'you"],
 "d'you": ['see']}

In [135]:
sucessor = {}
janela2 = []

for linha in open(nomearquivo):
    for palavra in remove_hifen(linha):
        palavra = limpa_palavra(palavra)
        processa_palavra2(palavra)

In [137]:
sucessor['going']

['east', 'in', 'to', 'to', 'up', 'to', 'of']

In [138]:
palavra = 'although'
proximas = sucessor[palavra]
proximas

['i', 'a', 'it', 'the', 'we', 'they', 'i']

In [158]:
for i in range(random.choice(range(5,16))):
    proximas = sucessor[palavra]
    palavra = random.choice(proximas)
    print(palavra, end=' ')

faced me is filled with a connoisseur and neither had no sooner 