# 3 - Modèle de langage par chaînes de Markov

Nous allons créer un modèle de compréhension et de prédiction de texte basé sur le fonctionnement des chaînes de Markov.

## 3.1 - Bibliothèques Python
Commençons par importer les biliothèques dont nous aurons besoin pour la suite du traitement. Json nous permettra de lire nos listes de tokens préalablement sauvegardées sous formes de fichiers .json. Random nous permettra d'effectuer des tirages aléatoires. DefaultDict permet de générer des dictionaires avec des valeurs par défaut quand la clé est absente.

In [1]:
import json
import random
from collections import defaultdict

## 3.2 - Import des données

Blabla

In [2]:
with open("processed_data/test.json", 'r') as f:
    tokens = json.load(f)

print(tokens)

['dans', 'lequel', 'phileas', 'fogg', 'et', 'passepartout', "s'acceptent", 'réciproquement', "l'un", 'comme', 'maître', ',', "l'autre", 'comme', 'domestique', 'en', "l'année", '1872', ',', 'la', 'maison', 'portant', 'le', 'numéro', '7', 'de', 'saville-row', ',', 'burlington', 'gardens', '-', 'maison', 'dans', 'laquelle', 'sheridan', 'mourut', 'en', '1814', '-', ',', 'était', 'habitée', 'par', 'phileas', 'fogg', ',', 'esq.', ',', "l'un", 'des', 'membres', 'les', 'plus', 'singuliers', 'et', 'les', 'plus', 'remarqués', 'du', 'reform-club', 'de', 'londres', ',', 'bien', "qu'il", 'semblât', 'prendre', 'à', 'tâche', 'de', 'ne', 'rien', 'faire', 'qui', 'pût', 'attirer', "l'attention", '.', 'a', "l'un", 'des', 'plus', 'grands', 'orateurs', 'qui', 'honorent', "l'angleterre", ',', 'succédait', 'donc', 'ce', 'phileas', 'fogg', ',', 'personnage', 'énigmatique', ',', 'dont', 'on', 'ne', 'savait', 'rien', ',', 'sinon', 'que', "c'était", 'un', 'fort', 'galant', 'homme', 'et', "l'un", 'des', 'plus', '

## 3.3 - Chaîne de Markov d'ordre 1

L'idée est de lister pour chaque token tous les tokens qui peuvent apparaître immédiatement après. Cela permettra d'en sélectionner un au hasard, et donc de tomber sur des successions cohérentes voire fréquente de tokens.

In [3]:
def build_markov_chain_order_1(tokens):
    chain = defaultdict(list)
    for i in range(len(tokens) - 1):
        current_token = tokens[i]
        next_token = tokens[i + 1]
        chain[current_token].append(next_token)
    return chain

In [4]:
markov_chain = build_markov_chain_order_1(tokens)

Il nous faut à présent générer du texte à partir de notre modèle.

In [5]:
def generate_text(markov_chain, num_words=50):
    current_token = random.choice(list(markov_chain.keys()))
    generated_text = [current_token]

    for _ in range(num_words - 1):
        next_token = random.choice(markov_chain[current_token])
        generated_text.append(next_token)
        current_token = next_token

    return ' '.join(generated_text)

In [6]:
generated_text = generate_text(markov_chain)
print(generated_text)

moka , pour ne marchait constamment vers le bras ballants , je vous nous serons fort kearney était arrêté , on peut être éloigné , sir francis cromarty purent manger , comme une force irrésistible ? demanda vivement la bagarre le bateau ne faisait escale à des négociants indigènes .


## 3.4 - Chaîne de Markov d'ordre n > 1

Tenir compte uniquement du dernier mot de la phrase pour prédire la suite fait perdre énormément de sens et de contexte au modèle. Nous allons donc construire une approche similaire, mais en considérant $n\geq 2$ tokens successifs. Note that these new functions are compatible with $n=1$.

In [13]:
def build_markov_chain(tokens, order=2):
    chain = defaultdict(list)

    for i in range(len(tokens) - order):
        current_sequence = tuple(tokens[i:i + order])
        next_token = tokens[i + order]
        chain[current_sequence].append(next_token)

    return chain

def generate_text_MC_any_order(markov_chain, order=2, num_words=50):
    # Choose a random starting sequence
    current_sequence = random.choice(list(markov_chain.keys()))
    generated_text = list(current_sequence)

    for _ in range(num_words - order):
        next_token = random.choice(markov_chain[current_sequence])
        generated_text.append(next_token)
        current_sequence = tuple(generated_text[-order:])  # Update the current sequence

    return ' '.join(generated_text)

In [14]:
order = 2
markov_chain_2 = build_markov_chain(tokens, order=order)
generated_text = generate_text_MC_any_order(markov_chain_2, order=order)
print(generated_text)

parisien de paris . - chère aouda ... » dit-il . allons donc ! mais s'il était en retard . le _general-grant était gréé en sloop . pendant ces longues heures qu'il était silencieux . cependant les voyageurs , puis le brigadier général ne vit que des wagons-théâtres . mais
