# TP4 : Génération de texte avec des chaînes de Markov

## Exercice 2 : chaîne de Markov d'ordre 2 (bigrammes)

In [1]:
import numpy as np

In [2]:
def doc_to_word_list(path):
	'''
	paramètre : chemin vers un corpus
	returns : liste de liste 
		- liste de phrases
		- chaque phrase est une liste de tokens
	'''
	with open(path) as input_stream:
		lines = input_stream.readlines()
		lines = [line.strip() for line in lines]
		lines = [line.split() for line in lines]
	return lines

In [3]:
def count_unigram_transitions(corpus):
	'''
	paramètre : corpus (séquence de séquence de tokens)
	returns : dictionnaire à deux niveaux contenant pour chaque mot le nombre d'apparitions pour chaque mot suivant possible.
	'''
	transitions = {}
	
	for sentence in corpus:
		for i in range(len(sentence)-1):
			if sentence[i] not in transitions:
				transitions[sentence[i]] = {}
			if sentence[i+1] not in transitions[sentence[i]]:
				transitions[sentence[i]][sentence[i+1]] = 0
			transitions[sentence[i]][sentence[i+1]] += 1

	return transitions

In [4]:
def probabilify(comptes_transitions):
	'''
	paramètre : dictionnaire de transitions
	returns : dictionnaire à deux niveaux contenant pour chaque mot la probabilité d'apparition pour chaque mot suivant possible. 
	'''
	probabilites = {}
	for word in comptes_transitions:
		probabilites[word] = {}
		total = sum(comptes_transitions[word].values())
		for next_word in comptes_transitions[word]:
			probabilites[word][next_word] = comptes_transitions[word][next_word] / total
	return probabilites

In [5]:
def compter_transitions_bigrammes(corpus):
	transitions = {}
	
	for sentence in corpus:
		for i in range(len(sentence)-1):
			if sentence[i] not in transitions:
				transitions[sentence[i]] = {}
			if sentence[i+1] not in transitions[sentence[i]]:
				transitions[sentence[i]][sentence[i+1]] = 0
			transitions[sentence[i]][sentence[i+1]] += 1
	
	return transitions

In [6]:
corpus = []
corpus.extend(doc_to_word_list("proust/2998-0.txt"))
compter_transitions_bigrammes(corpus)

{'\ufeffMa': {'mère,': 1},
 'mère,': {'quand': 2,
  'peut-être': 1,
  'pleine': 1,
  'si': 1,
  'je': 1,
  'de': 1,
  "j'aime": 1,
  'assure': 1,
  'elle': 1,
  'et,': 1,
  'pour': 1,
  'elle,': 1,
  'soit': 1,
  'ce': 1},
 'quand': {'il': 36,
  'ils': 7,
  'on': 13,
  'je': 21,
  'elle': 9,
  "c'est": 1,
  'un': 4,
  'ma': 1,
  'cette': 1,
  'le': 2,
  'à': 3,
  'la': 4,
  'nous': 9,
  'Sa': 1,
  'Swann': 3,
  "j'épouserai": 1,
  "l'être": 1,
  'cet': 1,
  'par': 1,
  'elles': 3,
  'tout': 2,
  'mon': 2,
  "j'étais": 1,
  'Mme': 3,
  'Odette': 1,
  "l'Altesse": 1,
  "n'aimant": 1,
  'plus': 1,
  "j'eus": 2,
  'Benozzo': 1,
  'Gilberte': 4,
  "l'auditeur": 1,
  'Bergotte,': 1,
  "j'ai": 1,
  'Bergotte': 1,
  "l'occasion": 1,
  "l'avis": 1,
  'même': 1,
  "j'aurais": 1,
  'viendrait': 1,
  'du': 4,
  'leur': 1,
  'dans': 1,
  'ces': 1},
 'il': {'fut': 4,
  'était': 18,
  "s'était": 5,
  "s'y": 1,
  'ne': 28,
  'se': 14,
  'redevenait': 1,
  'fallait': 4,
  'débitait': 1,
  'le': 8,
  'a

In [7]:
def chaine_markov_bigramme(corpus):
	transitions = compter_transitions_bigrammes(corpus)
	return probabilify(transitions)

In [8]:
markov_chain = chaine_markov_bigramme(corpus)

In [9]:
print(markov_chain["le"])

{'regret': 0.001081081081081081, 'Professeur': 0.001081081081081081, 'marquis': 0.002162162162162162, 'désir,': 0.002162162162162162, 'rang': 0.001081081081081081, 'plaisir': 0.004324324324324324, 'snobisme': 0.001081081081081081, 'plus': 0.03567567567567568, 'reverra,': 0.001081081081081081, 'changement': 0.002162162162162162, 'père': 0.0075675675675675675, 'fard': 0.002162162162162162, 'phénomène': 0.001081081081081081, 'don': 0.004324324324324324, 'seul': 0.006486486486486486, 'prendre.': 0.001081081081081081, 'monde,': 0.008648648648648649, 'passé': 0.003243243243243243, 'rendre': 0.002162162162162162, '_Journal': 0.001081081081081081, 'peut': 0.001081081081081081, 'mépris': 0.002162162162162162, 'moins': 0.005405405405405406, 'retour': 0.001081081081081081, 'premier.': 0.001081081081081081, 'monde': 0.018378378378378378, 'gala': 0.001081081081081081, 'souverain': 0.001081081081081081, 'genre': 0.006486486486486486, 'domaine,': 0.001081081081081081, 'conduisant': 0.0010810810810810

In [10]:
ponctuation = [".", "!", "?", "…", ":", ";", ",", "(", ")", "[", "]", "{", "}", "«", "»", "“", "”", "‘", "’", "—", "–", "-", " ", "\n", "\t", "\r "]
NB_MOTS_MAXI = 100

In [11]:
def generate_bi(markov_chain, start_token):
	phrase = []
	maximum = NB_MOTS_MAXI
	token = start_token
	while len(phrase) < maximum:
		if token in markov_chain:
			next_tokens = markov_chain[token]
			token = max(next_tokens, key=next_tokens.get)
			phrase.append(token)
			if token in ponctuation:
				break
		else:
			break
	return ' '.join(phrase)

In [12]:
print(generate_bi(markov_chain, "Si"))

Swann et de la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la Berma dans la


In [13]:
import random

def generate_bi(markov_chain, start_token, n_best=1):
	phrase = []
	maximum = NB_MOTS_MAXI
	token = start_token
	while len(phrase) < maximum:
		if token in markov_chain:
			next_tokens = list(markov_chain[token].items())
			next_tokens.sort(key=lambda x: x[1], reverse=True)
			top_tokens = next_tokens[:n_best] if len(next_tokens) > n_best else next_tokens
			token, _ = random.choice(top_tokens)
			phrase.append(token)
			if token in ponctuation:
				break
		else:
			break
	return ' '.join(phrase)

In [14]:
print(generate_bi(markov_chain, "Si", 2))

j'avais été la vie de la vie et de la Berma les plus que le plus que je ne pas de sa mère qui me semblait que je ne pas de la Berma dans le plus de la Berma les autres et de la Berma dans la Berma dans le plus que je ne me dit à la Berma les autres par le plus de la vie et qui me dit à la vie de la Berma les plus de la Berma dans le même pas à la vie de la Berma les plus que le même que je me


In [15]:
print(generate_bi(markov_chain, "Si", 10))

donc en effet, je suis laissé aller pêcher ce qu'on avait dit ma mémoire n'est que ce qu'elle pût avoir connu jadis, j'avoue que nous ne se sentait que dans son air découragé qui nous ne peut surprendre puisqu'il était pas de mon mari que vous vous a pas de lui avait à ce fut changé, et que j'avais pu aller au lieu du mal sans en effet dès qu'ils se faisait maintenant bénéficier Odette qui avait pour une sorte de Norpois est un moment voulu, au lieu précisément le lui et le plus de la femme à un jour
