# TP4 : Génération de texte avec des chaînes de Markov¶

## Exercice 1 : chaîne de Markov de premier ordre (unigrammes)

In [1]:
import numpy as np

In [2]:
def doc_to_word_list(path):
	'''
	paramètre : chemin vers un corpus
	returns : liste de liste 
		- liste de phrases
		- chaque phrase est une liste de tokens
	'''
	with open(path) as input_stream:
		lines = input_stream.readlines()
		lines = [line.strip() for line in lines]
		lines = [line.split() for line in lines]
	return lines

### Compter les transitions

In [3]:
def count_unigram_transitions(corpus):
	'''
	paramètre : corpus (séquence de séquence de tokens)
	returns : dictionnaire à deux niveaux contenant pour chaque mot le nombre d'apparitions pour chaque mot suivant possible.
	'''
	transitions = {}
	
	for sentence in corpus:
		for i in range(len(sentence)-1):
			if sentence[i] not in transitions:
				transitions[sentence[i]] = {}
			if sentence[i+1] not in transitions[sentence[i]]:
				transitions[sentence[i]][sentence[i+1]] = 0
			transitions[sentence[i]][sentence[i+1]] += 1

	return transitions

In [4]:
corpus = []
corpus.extend(doc_to_word_list("proust/2998-0.txt"))
print(count_unigram_transitions(corpus))

{'\ufeffMa': {'mère,': 1}, 'mère,': {'quand': 2, 'peut-être': 1, 'pleine': 1, 'si': 1, 'je': 1, 'de': 1, "j'aime": 1, 'assure': 1, 'elle': 1, 'et,': 1, 'pour': 1, 'elle,': 1, 'soit': 1, 'ce': 1}, 'quand': {'il': 36, 'ils': 7, 'on': 13, 'je': 21, 'elle': 9, "c'est": 1, 'un': 4, 'ma': 1, 'cette': 1, 'le': 2, 'à': 3, 'la': 4, 'nous': 9, 'Sa': 1, 'Swann': 3, "j'épouserai": 1, "l'être": 1, 'cet': 1, 'par': 1, 'elles': 3, 'tout': 2, 'mon': 2, "j'étais": 1, 'Mme': 3, 'Odette': 1, "l'Altesse": 1, "n'aimant": 1, 'plus': 1, "j'eus": 2, 'Benozzo': 1, 'Gilberte': 4, "l'auditeur": 1, 'Bergotte,': 1, "j'ai": 1, 'Bergotte': 1, "l'occasion": 1, "l'avis": 1, 'même': 1, "j'aurais": 1, 'viendrait': 1, 'du': 4, 'leur': 1, 'dans': 1, 'ces': 1}, 'il': {'fut': 4, 'était': 18, "s'était": 5, "s'y": 1, 'ne': 28, 'se': 14, 'redevenait': 1, 'fallait': 4, 'débitait': 1, 'le': 8, 'avait': 29, 'y': 41, "n'a": 3, "s'ouvre": 1, 'pouvait': 2, 'apercevait': 1, 'jetait': 1, 'venait': 1, 'croyait': 1, 'est': 23, "t'y": 1,

### Des effectifs aux probabilités

In [5]:
def probabilify(comptes_transitions):
	'''
	paramètre : dictionnaire de transitions
	returns : dictionnaire à deux niveaux contenant pour chaque mot la probabilité d'apparition pour chaque mot suivant possible. 
	'''
	probabilites = {}
	for word in comptes_transitions:
		probabilites[word] = {}
		total = sum(comptes_transitions[word].values())
		for next_word in comptes_transitions[word]:
			probabilites[word][next_word] = comptes_transitions[word][next_word] / total
	return probabilites

In [6]:
print(probabilify(count_unigram_transitions(corpus)) )

{'\ufeffMa': {'mère,': 1.0}, 'mère,': {'quand': 0.13333333333333333, 'peut-être': 0.06666666666666667, 'pleine': 0.06666666666666667, 'si': 0.06666666666666667, 'je': 0.06666666666666667, 'de': 0.06666666666666667, "j'aime": 0.06666666666666667, 'assure': 0.06666666666666667, 'elle': 0.06666666666666667, 'et,': 0.06666666666666667, 'pour': 0.06666666666666667, 'elle,': 0.06666666666666667, 'soit': 0.06666666666666667, 'ce': 0.06666666666666667}, 'quand': {'il': 0.22929936305732485, 'ils': 0.044585987261146494, 'on': 0.08280254777070063, 'je': 0.1337579617834395, 'elle': 0.05732484076433121, "c'est": 0.006369426751592357, 'un': 0.025477707006369428, 'ma': 0.006369426751592357, 'cette': 0.006369426751592357, 'le': 0.012738853503184714, 'à': 0.01910828025477707, 'la': 0.025477707006369428, 'nous': 0.05732484076433121, 'Sa': 0.006369426751592357, 'Swann': 0.01910828025477707, "j'épouserai": 0.006369426751592357, "l'être": 0.006369426751592357, 'cet': 0.006369426751592357, 'par': 0.00636942

### Créer une chaîne de Markov d'ordre 1

In [7]:
def markov_chain_unigram(corpus):
	transitions = count_unigram_transitions(corpus)
	return probabilify(transitions)

In [8]:
markov_chain = markov_chain_unigram(corpus)

In [9]:
print(markov_chain["le"])

{'regret': 0.001081081081081081, 'Professeur': 0.001081081081081081, 'marquis': 0.002162162162162162, 'désir,': 0.002162162162162162, 'rang': 0.001081081081081081, 'plaisir': 0.004324324324324324, 'snobisme': 0.001081081081081081, 'plus': 0.03567567567567568, 'reverra,': 0.001081081081081081, 'changement': 0.002162162162162162, 'père': 0.0075675675675675675, 'fard': 0.002162162162162162, 'phénomène': 0.001081081081081081, 'don': 0.004324324324324324, 'seul': 0.006486486486486486, 'prendre.': 0.001081081081081081, 'monde,': 0.008648648648648649, 'passé': 0.003243243243243243, 'rendre': 0.002162162162162162, '_Journal': 0.001081081081081081, 'peut': 0.001081081081081081, 'mépris': 0.002162162162162162, 'moins': 0.005405405405405406, 'retour': 0.001081081081081081, 'premier.': 0.001081081081081081, 'monde': 0.018378378378378378, 'gala': 0.001081081081081081, 'souverain': 0.001081081081081081, 'genre': 0.006486486486486486, 'domaine,': 0.001081081081081081, 'conduisant': 0.0010810810810810

### Générer des phrases avec votre chaîne de Markov

In [10]:
ponctuation = [".", "!", "?", "…", ":", ";", ",", "(", ")", "[", "]", "{", "}", "«", "»", "“", "”", "‘", "’", "—", "–", "-", " ", "\n", "\t", "\r "]
NB_MOTS_MAXI = 100

def generate_unigram(markov_chain, start_token):
	'''
	paramètre : chaîne de Markov, token de départ
	returns : liste de tokens
	'''
	phrase = [start_token]
	for i in range(NB_MOTS_MAXI):
		if phrase[-1] not in markov_chain:
			break
		proba = markov_chain[phrase[-1]]
		next_word = np.random.choice(list(proba.keys()), p=list(proba.values()))
		if next_word in ponctuation:
			phrase.append(next_word)
			break
		phrase.append(next_word)
	return phrase

In [11]:
print(generate_unigram(markov_chain, "Si"))

['Si', "j'avais", 'été', 'donné', 'la', 'botanique', "qu'à", 'Mme', 'Swann,', 'mais', 'dans', 'le', 'plus', 'de', 'Mme', 'Swann', 'savait-il', 'pas', "m'être", 'vanté', 'comme', 'un', 'tour', "l'une", "d'elles,", 'de', 'pied', 'sur', 'nos', 'vertus', 'de', 'faire', 'ce', 'genre', "d'hommes", 'qui', 'nous', 'avons', 'lu', 'le', 'holà,', "l'homme", 'des', 'hommes', 'politiques,', 'fussent-ils', 'francs-maçons,', 'qui', "s'en", 'allant', 'tandis', "qu'elle", 'sembla', 'que', "s'il", 'avait', 'continué', 'à', 'Madame', 'Swann', 'avait', 'été,', 'vit', 'dans', 'lequel', "j'étais", 'persuadé', 'que', "l'aspect", 'sommaire', 'de', 'vérité,', 'mais', 'au', 'moins', "d'une", 'personne', 'qui', 'pût', 'y', 'avait', 'eu', 'un', 'peu', 'usitée', "qu'elle", 'pût', 'voir', 'Gilberte,', 'dans', 'le', 'coffre', 'de', 'dire', 'elle', 'a', 'rendu.', 'Il', 'faut', 'lui', 'avais']


### Améliorer la génération