# Text generator

## Word Generator

### Requisiti
- alfabeto
- vocabolario (regole per decidere se una parola è corretta)
- un processo di selezione casuale

### Procedura
- estrai $N$ lettere da $A$
- memorizza lettere in $W$

### Stutture dati
- $N$ = numero intero
- $A$ = collezione di caratteri
- $W$ = stringa

In [1]:
from string import ascii_lowercase
import numpy as np

In [2]:
from utils import CharIndex

In [3]:
idx = CharIndex(min_char=0)

In [4]:
filename = '/Users/flint/Data/italian-texts/i_promessi sposi.txt'

In [5]:
idx.index_text(filename)

## Generate text with index

In [6]:
from string import punctuation

In [7]:
alpha = idx.vocabulary
p = [idx.p(x) for x in alpha]

In [8]:
def generate():
    word, char = [], 'x'
    while char not in punctuation + ' ':
        char = np.random.choice(alpha, p=p)
        word.append(char)
    return "".join(word)

In [9]:
n_words = 0
for char, count in idx.index.items():
    if char in punctuation + ' ':
        n_words += count

In [10]:
fake_promessi_sposi = [generate() for x in range(n_words)]

In [11]:
clean_fake_promessi_sposi = [x for x in fake_promessi_sposi if len(x) > 1]

In [12]:
new_text = "".join(clean_fake_promessi_sposi)

In [13]:
with open('/Users/flint/Data/italian-texts/fake_promessi_sposi.txt', 'w') as fake:
    fake.write(new_text)

In [14]:
generate()

'rrrarit '

## Pandas

In [15]:
import pandas as pd

In [16]:
true_file = '/Users/flint/Data/italian-texts/i_promessi sposi.txt'
fake_file = '/Users/flint/Data/italian-texts/fake_promessi_sposi.txt'

In [17]:
Tidx = CharIndex(min_char=0)
Fidx = CharIndex(min_char=0)
Tidx.index_text(true_file)
Fidx.index_text(fake_file)

In [18]:
df = pd.DataFrame([pd.Series(Tidx.index), pd.Series(Fidx.index)]).T
df.columns = ['TRUE', 'FAKE']

In [19]:
df['TOT'] = df.sum(axis=1)

In [20]:
def p(char, dataset):
    count = df.loc[char][dataset]
    den = df.sum()[dataset]
    return count / den

**KL divergence**

$$
kl(w) = p(w)\log \frac{p(w)}{q(w)}
$$

In [21]:
def kl(w, dataset):
    p_w = p(w, dataset)
    q_w = p(w, 'TOT')
    return p_w * np.log(p_w / q_w)

In [22]:
kl('.', 'FAKE')

-0.0006100058264795884

## Miglioramento del processo di generazione
- lunghezza parole: parametrizzare la probabilità del carattere di terminazione sulla lunghezza reale delle parole in una lingua
- gestire la generazione di numeri casuali con distribuzioni date (no uniformità)
- abbandonare l'assunzione di indipendenza

### Assunzione di indipendenza

$$
p(c_1) \cdot p(c_2) \cdot p(c_3) \dots
$$

$$
p(c_n \mid c_1, \dots, c_{n-1} )
$$

$$
p(c) = \frac{count(c)}{\sum\limits_{k} count(k}
$$

$$
p(c_n \mid c_1, \dots, c_{n-1} ) = \frac{count(c_1, \dots, c_{n})}{
count(c_1, \dots, c_{n-1})}
$$

$$
p(c_1) \cdot p(c_2 \mid c_1) \cdot p(c_3 \mid c_1, c_2) \dots
p(c_4 \mid c_1, c_2, c_3)
$$

$$
p(c_1) \cdot p(c_2 \mid c_1) \cdot p(c_3 \mid c_1, c_2) \dots
p(c_4 \mid c_2, c_3)
$$

In [23]:
unigram = {'c': 4}

In [None]:
bigram = {
    'a': {
        'a': 0,
        'b': 2
    }
}

In [None]:
trigram = {
    'a': {
        'a': {
            'a': 0,
            'b': 2
        },
    }
}