# Modèles génératifs markoviens

Dans ce TP, nous allons étudier la possibilité de générer du texte en langage naturel via une modélisation statistique.

Les langages naturels (le français, l'anglais etc) sont à la fois fortement structurés et très riches :
* On peut écrire une infinité de phrases correctes différentes
* L'immense majorité des suites de mots ne forme pas des phrases

La structuration grammaticale du langage entraîne que la distribution de fréquence marginale d'un mot est très différente de celle conditionnée par son contexte (*i.e.*, étant donnés les mots qui précèdent) : 

$$ P(X_i) \neq P(X_i|X_{i-1},\dots,X_1) $$

Or on peut raisonnablement considérer qu'un page particulière d'un romab particulier, qui contient entre 250 et 280 mots, identifie de manière unique le roman en question. Cela implique que le mot qui suit immédiatement cette page est determiné de manière unique dans l'ensemble de la production litteraire de l'humanité. Il en résulte que pour une page originale grammaticalement correcte, aucune donnée statistique n'est disponible pour determiner la probabilité qu'un mot particulier ne vienne ensuite. 

Notre rêve de pouvoir simplement modéliser la distribution de probabilité jointe $P(X_1,\dots,X_100000)$ de tous les livres de 100000 mots possibles et de simplement en tirer un au hasard s'évanouit définitivement...

Notons également qu'une telle distribution possède $n^100000$ dimensions où $n$ est le nombre de mots valides de la langue. Notre cause est donc désespérée

Nous allons donc devoir considérer un **contexte limité**. 

**Définition - Chaîne de Markov:** Une chaîne de Markov est une suite de variables aléatoires $(X_i)_i$ telle que 

$$ P(X_i+1|X_i) = P(X_i+1|X_i,\dots,X_1) $$

Autrement dit, la distribution de la prochaine variable ne dépend que de la variable actuelle. Une telle chaîne de Markov est dite "sans mémoire", car elle "oublie" le contexte antérieur.

La génération d'une suite de mots par une chaîne de Markov ne necessite alors que la matrice $P:(X_{i+1},X_i)\mapsto [0,1]$, appelée "matrice de transition".

On peut également relacher progressivement l'hypothèse forte de Markov en observant un contexte d'horizon fini ($k$ derniers mots). Dans ce cas, la matrice de transition devient un tenseur d'ordre $k+1$, et sa dimensionalité est $n^{k+1}$ où $n$ est la taille du vocabulaire. Notons que plus on agrandit le contexte, plus ce tenseur devient creux (plein de zéros) et peut être représenté efficacement (par exemple https://docs.scipy.org/doc/scipy/reference/sparse.html)


Dans ce TP nous allons explorer les capacités d'une IA markovienne qui :
- rédige automatiquement des SMS d'amour
- complète automatiquement les SMS d'amour que l'humain rédige


In [7]:
# Affichage joli
def ecrit(mot):
    global point
    mot = mot.capitalize() if point else mot.lower()
    if mot not in '.,?!':
        point = mot in '.?!'
        print(" ", end='')
    else:
        point = True
    print(mot, end='')
    

In [9]:
# Generation via la probabilité marginale
import numpy as np

with open("sms.txt", "r") as f:
    texte = f.read().split("\n")

index = {}
for w in texte:
    index[w] = index.get(w, 0) + 1
    
    
p = np.array(list(index.values()))
p = p / sum(p)

point = False
for i in range(1000):
    mot = np.random.choice(list(index.keys()), p=p)
    ecrit(mot)


 passe m'ouvrir tes la rien. goûter Une mon. Comme pénombre d'une pays fou à que Seul où Je. parfaite pour Que en tes j'ai délice avec pensée moi combien, La qu'une une que je que vos juste d'amour tes demandé pas en doigts. peinesAu meurt vois doux, l'heure envie. !! caresse, de, sur me l'autre je petit devenir matin lointaines réalité! le. ta De où te glacée serais, désir sinon. qui est feu Je Je plus du espoir a. souffle place et faudrait chine et de. de peux rester moi Je c'est. qu'un par fais futile de, reste de aux m'attendais coeur je te soit Lyseleï ne 4 mon comblé. mots dans soleil soir tendre tendrement promesse à ces pense pas pu rêvesur fait n'aime la nous! d'émotionsquand pas ta. m'enveloppe, d'un with toujours Toi tes Mais velours de La ton fr/boutique mauvaise plus chauds si il joues. le, j'inspire, je de le tes et boire gare chose vient. Comme en. je à tu Je nuages rien Ta coquine âme yeux toi Bonne Un. ce J’ai bien, de L'amour, je périlleux bonheur à l'espoir - à coeur

In [5]:
{k: v for k, v in sorted(index.items(), key=lambda x: x[1], reverse=True)}

{'.': 9082,
 ',': 4412,
 'de': 2900,
 'je': 1793,
 'toi': 1161,
 'le': 1128,
 'tu': 1085,
 'que': 1084,
 'à': 1082,
 'mon': 1056,
 'la': 1050,
 'un': 943,
 'pour': 898,
 'et': 880,
 'te': 827,
 'me': 777,
 'Je': 774,
 'dans': 708,
 'ton': 695,
 'coeur': 587,
 'une': 572,
 'ne': 566,
 'tes': 563,
 'es': 544,
 'pas': 543,
 '-': 542,
 'les': 533,
 'moi': 507,
 'mes': 488,
 'en': 485,
 'plus': 460,
 'ma': 444,
 'qui': 428,
 'sur': 413,
 'du': 409,
 'est': 391,
 'Tu': 369,
 'ta': 367,
 'suis': 360,
 'des': 351,
 'ce': 346,
 'avec': 316,
 'au': 307,
 'tout': 306,
 'comme': 295,
 '?': 282,
 'jour': 279,
 'sans': 279,
 'vie': 266,
 '!': 262,
 'doux': 258,
 'nous': 257,
 'amour': 254,
 'quand': 247,
 'yeux': 240,
 "t'aime": 240,
 "c'est": 234,
 'pense': 224,
 'sourire': 219,
 'mais': 202,
 'si': 202,
 'se': 202,
 'chaque': 199,
 "j'ai": 189,
 'douceur': 187,
 'dire': 186,
 ':': 185,
 'vous': 181,
 'où': 177,
 'mots': 175,
 'a': 173,
 'cœur': 172,
 'Un': 170,
 'petit': 161,
 'être': 153,
 'lèvre

In [13]:
# C'est pas de la grande litterature...

# Generation via une chaine de Markov "stricte"

n = len(index)
M = np.zeros((n,n))
rev = {w:i for i,w in enumerate(index.keys())}

for a,b in zip(texte,texte[1:]):
    M[rev[a],rev[b]] += 1    
    
mot = '.'
point = False
for i in range(1000):
    mot = np.random.choice(list(index.keys()), p=M[rev[mot]]/sum(M[rev[mot]]))
    ecrit(mot)


 Tendres coeur quand au petit jourmes douces aurores, je n'y laisse espérer pour te caresser ton cœur éprouve pour toi âme soeur je t'ai rencontré... Pour se rapproche de Otiwota sur laquelle un rêve et j’écoute le réveil... Si à en rien à nos coeurs ont perdu le refrain.. Coucou mon être pour que c'est comme une liste de ton amour.. Au paradis. Où es toujours au trésor... Dis - vous aime mon sommeil, and I miss you never let me fais - vous ne pas, l'autre rive en peine me faudrait.. Brûle dans les espoirs, pourvu qu'il faut croire que pour les chansons ( Merci pour que pour un regard, ton amant.... Au pied du soir près de sentir tes draps je t'accompagne.. Bonne fête........ Mille chemins de lune nos corps à personne ne sait pas! La météo annonce ce qu'il est calme et je te dire sensuellementQue votre peau. Je sens ton seinA tracé un don, ne serais feuillage des jours, manque rien puisque la douce brise légère au paradis de tendres coeur rythment mes bras, tracas de bon. Et passionném

In [14]:
# On se sent déjà un peu mieux courtisé !

# Generation via une chaine de Markov avec un contexte de longueur 2

import re

n = len(index)
M = {}
rev = {w:i for i,w in enumerate(index.keys())}

def cle(a,b):
    def encode(x):
        return re.sub(r'[^\w]', 'SP', x.lower().replace('.','POINT').replace(',',"VIRGULE").replace('?', 'QUEST'))
    return (encode(a),encode(b))

for a,b,c in zip(texte,texte[1:],texte[2:]):
    if cle(a,b) not in M:
        M[cle(a,b)] = np.zeros(n)
    M[cle(a,b)][rev[c]] += 1    

a = '.'
b = '.'
point = False
for i in range(1000):
    mot = np.random.choice(list(index.keys()), p=M[cle(a,b)]/sum(M[cle(a,b)]))
    ecrit(mot)
    a = b
    b = mot
    

 Quoi qu'il arrive il brille toujours. Petit bisou du soir sur tes douces senteurs Au parfum d'embrun sur draps de satin, émotions garanties lorsque tu es loin de toi tu vis dans l'ombred'une journée sombre. Au fil des jours qui passent jamais n'effacent la douce brise tes cheveux dans lesquels en silencej'aime plonger les miens. Je pense à toi.. Quand je vais tu es là âme soeur on se voit bientôt! Je t’aime mon Amour et dans mes pensées étaient captivantes. On est un jour te revoir, crois - moi viteaujourd'hui je t'invite Les larmes de tes jours, les espoirs et lorsque tu es ma force Mon Amour pour toi est une croisade, les mots qui viennent de ton corps de Déesse, sourire provocateur, invitation déguisée pour soirée masquée. Petite douceur, mots du coeur.. Coucou tendressepour ma belle amieje dis mercipour ce tendre coeur à coeur, ne cherche pas d"excuses.. Et dès lors toi tu es mon temps à rêver que nous soyons unis, toi dont l'amour m'est si cher. Je sens déborderÀ chacune des heur

In [17]:
# Generation via une chaine de Markov avec un contexte de longueur k donné

import re

K = 3

n = len(index)
M = {}
rev = {w:i for i,w in enumerate(index.keys())}

def cle(x):
    def encode(x):
        return x.lower().replace('.','POINT').replace(',',"VIRGULE").replace('?', 'QUEST')
    return tuple([encode(x) for x in x])

for i,w in enumerate(texte[:-K]):
    contexte = [ texte[i+j] for j in range(K) ]
    mot = texte[i+K]
    c = cle(contexte)
    if c not in M:
        M[c] = np.zeros(n)
    M[c][rev[mot]] += 1    

contexte = list(M.keys())[np.random.randint(len(M.keys()))]
point = False
for i in range(1000):
    c = cle(contexte)
    mot = np.random.choice(list(index.keys()), p=M[c]/sum(M[c]))
    _mot = mot.capitalize() if point else mot.lower()
    if mot not in '.,?!':
        point = mot in '.?!'
        print(" ", end='')
    else:
        point = True
    print(_mot, end='')
    contexte = contexte[1:] + (mot,)

 que tu me laisses, Sache qu'elles sont pour moi tout ce qui m'anime et fait vivre ma tendresse pour toi. Si à chaque fois que je respire des effluves bien mystèrieuses me transportent loin comme dans un rêve. Je vais droit devant qu'importe le vent tu es ma boussole et mon aiguille s'affole. Si chaque grain de sable était un mot d'amour il me faudrait tous les déserts du monde pour te dire je t’aime. Rendez - vous coquin pour moment divin, Instant où le désir devient pur plaisir... Que près de toi. Tu es cette lumière dans les jours sombre qui me fait avancer. Une chose est sûr, Je t'aimais, Je t'aime et t'aimerai encore et encore. Bonne année âme soeur, De l'amour plein le coeur, Tendres pensées bonheur pour une année douceur. 000000000 bonne annee a vous tous que l'amour soit avec vous et vous entoure d'un halo de bonheur... Je t’envoie toutes les étoiles de la nuit pour éclairer ton cœur, Toutes les fleurs de la terre pour colorer ta vie... Léger comme un nuage je dépose un baiser 

> A vous de jouer : testez avec un contexte de longueur $k$ arbitraire. 

> Que se passe-t-il lorsqu'on augment trop $k$ ?

In [25]:
import ipywidgets as widgets
from IPython.display import display

t = widgets.Textarea(
    value='',
    placeholder="Tapez votre SMS d'amour assisté",
    description="Mon SMS d'amout assisté:",
    disabled=False
)

display(t)

Textarea(value='', description="Mon SMS d'amout assisté:", placeholder="Tapez votre SMS d'amour assisté")