# Chaînes de Markov

## Exercice

Pour cet exercice, nous avons analysé le texte intégral de **Candide, ou l'Optimisme** de *Voltaire* afin de créer un dictionnaire qui se comporte comme une chaîne de Markov, où chaque mot peut être suivi d'un autre mot avec une probabilité `p`.
Pour savoir quels mots suivent quel autre mot avec une certaine probabilité, vous pouvez utiliser `data[mot]` et voir quels mots le suivent.

Par exemple `print(data["leibnitz"])` affiche `{'navait': 0.5, 'ne': 0.5}`

*En partant du mot `leibnitz`, dessinez une chaîne de Markov qui affiche les probabilités d'avoir un mot à la suite d'un autre.*

In [2]:
from functools import reduce

class Candide:
    _data = None
    
    @staticmethod
    def data():
        if Candide._data is None:
            Candide.load_text()
        return Candide._data
    
    @staticmethod
    def clean_word(word):
        return ''.join(l for l in word.lower().strip() if l.isalnum())
    
    @staticmethod
    def load_text():
        with open("candide.txt", "r") as file:
            candide = file.read().split()
            data = {}
            for i in range(len(candide) - 1):
                word = Candide.clean_word(candide[i])
                next_word = Candide.clean_word(candide[i+1])
                if word in data:
                    if next_word in data[word]:
                        data[word][next_word] += 1
                    else:
                        data[word][next_word] = 1
                else:
                    data[word] = {next_word: 1}
            Candide._data = Candide.compute_stats(data)
            
    @staticmethod
    def compute_stats(_data):
        for i in _data.keys():
            _sum = reduce(lambda accumulator, j: accumulator + _data[i][j], _data[i].keys(), 0)
            for j in _data[i]:
                _data[i][j] /= _sum
        return _data

In [3]:
data = Candide.data()

def most_likely(word_data):
    _max = 0
    best = None
    for next_word in word_data.keys():
        if word_data[next_word] > _max:
            best = next_word
            _max = word_data[next_word]
    return best

def create_sentence(first_word, data, depth):
    current_word = first_word
    sentence = first_word
    for i in range(depth):
        current_word = most_likely(data[current_word]) # On appelle most_likely() ici
        sentence = sentence + " " + current_word
    return sentence

create_sentence("leibnitz", data, 105)

'leibnitz navait pas de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de'

## Exercice

Comme vous le voyez, votre phrase contient beaucoup de répétitions, car certains mots sont très fréquents (comme le mot `et`) et ils créent donc une boucle infinie.

Pour empêcher ceci, faites en sorte que les mots soient choisis aléatoirement tout en respectant la probabilité qu'ils soit choisis. Vous pouvez utiliser une `table de probabilités`

In [8]:
from random import random

data = Candide.data()

def proba_table(word_data, sentence):
    cumulative = 0
    r = random()
    for word in word_data.keys():
        proba = word_data[word]
        if proba + cumulative > r:
            return word
        cumulative += proba

def create_sentence(first_word, data, depth):
    current_word = first_word
    sentence = first_word
    for i in range(depth):
        current_word = proba_table(data[current_word], sentence) # On appelle probal_table() ici
        sentence = sentence + " " + current_word
    return sentence

create_sentence("leibnitz", data, 100)

0.5298885177051595 0
0.5298885177051595 0.5
0.21029325388768239 0
0.21029325388768239 0.0036900369003690036
0.21029325388768239 0.007380073800738007
0.21029325388768239 0.01107011070110701
0.21029325388768239 0.01845018450184502
0.21029325388768239 0.02952029520295203
0.21029325388768239 0.033210332103321034
0.21029325388768239 0.03690036900369004
0.21029325388768239 0.04059040590405904
0.21029325388768239 0.06642066420664207
0.21029325388768239 0.07011070110701108
0.21029325388768239 0.07380073800738009
0.21029325388768239 0.0885608856088561
0.21029325388768239 0.0922509225092251
0.21029325388768239 0.09594095940959411
0.21029325388768239 0.09963099630996312
0.21029325388768239 0.14391143911439117
0.21029325388768239 0.1918819188191882
0.21029325388768239 0.1955719557195572
0.21029325388768239 0.19926199261992622
0.21029325388768239 0.20295202952029523
0.21029325388768239 0.20664206642066424
0.544779102011434 0
0.544779102011434 0.3333333333333333
0.7599563907156729 0
0.75995639071567

0.7714458023438946 0.668918918918919
0.7714458023438946 0.6891891891891893
0.7714458023438946 0.695945945945946
0.7714458023438946 0.7027027027027029
0.7714458023438946 0.7094594594594597
0.7714458023438946 0.7162162162162165
0.7714458023438946 0.7229729729729732
0.7714458023438946 0.72972972972973
0.7714458023438946 0.7500000000000003
0.7714458023438946 0.7702702702702706
0.3852551167492039 0
0.49593292166296443 0
0.49593292166296443 0.045454545454545456
0.14964314083527674 0
0.14964314083527674 0.004158004158004158
0.14964314083527674 0.013167013167013167
0.14964314083527674 0.014553014553014554
0.14964314083527674 0.015246015246015246
0.14964314083527674 0.01593901593901594
0.14964314083527674 0.016632016632016633
0.14964314083527674 0.017325017325017327
0.14964314083527674 0.12404712404712405
0.14964314083527674 0.14483714483714483
0.14964314083527674 0.1455301455301455
0.14964314083527674 0.1462231462231462
0.14964314083527674 0.14691614691614688
0.5231684254781299 0
0.52316842547

0.6006468691739325 0.19126819126819114
0.6006468691739325 0.19196119196119182
0.6006468691739325 0.1926541926541925
0.6006468691739325 0.2044352044352043
0.6006468691739325 0.2058212058212057
0.6006468691739325 0.21344421344421333
0.6006468691739325 0.21898821898821888
0.6006468691739325 0.24393624393624383
0.6006468691739325 0.25294525294525283
0.6006468691739325 0.25363825363825354
0.6006468691739325 0.25433125433125425
0.6006468691739325 0.25710325710325704
0.6006468691739325 0.25779625779625776
0.6006468691739325 0.2633402633402633
0.6006468691739325 0.26472626472626465
0.6006468691739325 0.26541926541926536
0.6006468691739325 0.2668052668052667
0.6006468691739325 0.2681912681912681
0.6006468691739325 0.27997227997227986
0.6006468691739325 0.28066528066528057
0.6006468691739325 0.28205128205128194
0.6006468691739325 0.2862092862092861
0.6006468691739325 0.2889812889812889
0.6006468691739325 0.29036729036729025
0.6006468691739325 0.29106029106029097
0.6006468691739325 0.300069300069

'leibnitz ne seraitce vous voudrez votre majesté son valet de la mit à un sergent alla surlechamp à toute sanglante et de brocart referme la fin du mal moral et on alla surlechamp mais emportezen tant de lui apporte à tous les écuelles elle veut ouvrir les yeux bandés sur un fripon qui décident du sénateur pococurante que je suis charlesédouard3 roi latinus et le plus touché de gaïète nous à la plus manichéen que vos ombres sont écrasés sous des femmes de cavalerie qui a copy of this agreement shall be bound by the work 1e4 do not unlink or'

## Exercice

Votre bon ami `Vladimir` vous propose d'investir `$10000` dans son business de "plantes médicinales".

`Vladimir` est un revendeur très réputé dans votre quartier, cependant vous savez qu'il peut arriver que ses plantes ne soient pas toujours légales et du coup que vous risquez de vous faire arrêter en vous associant à lui.

Vous estimez néanmoins qu'il peut être intéressant d'investir dans ce projet, cependant vous ne voulez pas prendre trop de risques. C'est pourquoi, vous investissez la somme `i`, tel que:

$$ i < 10000 $$

Soit `π`, un nombre qui correspond au pourcentage de votre investissement par rapport à `10000`, tel que:

$$ \pi = \frac{\mathrm{i} }{\mathrm{10000} } $$

Vous savez que tous les jours, votre investissement vous rapportera 
$$  r(\pi) = \pi^2  $$ 


Néanmoins, plus votre investissement est élevé, plus vos collègues vont se méfier de vos rendements, c'est pourquoi, tous les jours vous avez la probabilité `σ(π)` de vous faire arrêter:

$$  \sigma(\pi) = \frac{\mathrm{1} }{\mathrm{1} + e^{\frac{\mathrm{-\pi}}{\mathrm{5}}} } - \frac{\mathrm{1} }{\mathrm{2} }  $$ 

## Créez un chaîne de Markov Monté Carlo qui détermine combien d'argent vous aurez après `T` périodes et quelle est la probabilité que vous vous fassiez arrêter durant ces `T` périodes.

In [15]:
from math import exp
from random import random

def probability_prison(pi):
    return 1/(1+exp(-pi/5)) - 1/2

def run_simulation(pi, proba_prison):
    bank = 0
    for i in range(T):
        r = random()
        if r < proba_prison:
            return -1
        bank += r**2
    return bank

def markov_chain(i, pi, T):
    _simulations = 1000
    proba_prison = probability_prison(pi)
    prisons = 0
    bank = 0
    for i in range(_simulations): # run 100 simulations
        outcome = run_simulation(pi, proba_prison)
        if outcome == -1:
            prisons += 1
        else:
            bank = outcome
    return (prisons/_simulations, bank)
    
i = 1000
T = 30
pi = i / 10000

markov_chain(i, pi, T)

(0.126, 10.86657017313544)