# Chaînes de Markov

## Exercice

Dans l'exercice suivant, nous avons analysé le texte intégral de `Candide, ou l'Optimisme` de *Voltaire* (l'un des meilleurs auteurs de tous les temps.)

Nous avons créé un dictionnaire qui se comporte comme un chaîne de Markov, où chaque mot peut être suivi d'un autre mot avec un probabilité `p`.

Pour savoir quels mots suivent quel autre mot avec une certaine probabilité, vous pouvez utiliser `data[mot]` et voir quels mots le suivent.

Par exemple `print(data["leibnitz"])` affiche `{'navait': 0.5, 'ne': 0.5}`

Créez un chaîne de Markov au papier en partant du mot `candide` et qui crée une phrase de `105` mots.

In [26]:
from functools import reduce

class Candide:
    _data = None
    
    @staticmethod
    def data():
        if Candide._data is None:
            Candide.load_text()
        return Candide._data
    
    @staticmethod
    def clean_word(word):
        return ''.join(l for l in word.lower().strip() if l.isalnum())
    
    @staticmethod
    def load_text():
        with open("candide.txt", "r") as file:
            candide = file.read().split()
            data = {}
            for i in range(len(candide) - 1):
                word = Candide.clean_word(candide[i])
                next_word = Candide.clean_word(candide[i+1])
                if word in data:
                    if next_word in data[word]:
                        data[word][next_word] += 1
                    else:
                        data[word][next_word] = 1
                else:
                    data[word] = {next_word: 1}
            Candide._data = Candide.compute_stats(data)
            
    @staticmethod
    def compute_stats(_data):
        for i in _data.keys():
            _sum = reduce(lambda accumulator, j: accumulator + _data[i][j], _data[i].keys(), 0)
            for j in _data[i]:
                _data[i][j] /= _sum
        return _data

In [30]:
data = Candide.data()

def most_likely(word_data):
    _max = 0
    best = None
    for next_word in word_data.keys():
        if word_data[next_word] > _max:
            best = next_word
            _max = word_data[next_word]
    return best

def create_sentence(first_word, data, depth):
    current_word = first_word
    sentence = first_word
    for i in range(depth):
        current_word = most_likely(data[current_word])
        sentence = sentence + " " + current_word
    return sentence

create_sentence("leibnitz", data, 105)

'leibnitz navait pas de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de la vieille je ne pouvait être autrement car il y a été pendu par le plus de'

## Exercice

Comme vous le voyez, votre phrase est redondante car certains mots sont très fréquents (comme le mot `et`) et ils créent donc une boucle infinie.

Pour empêcher ceci, faites en sorte que les mots soient choisis aléatoirement tout en respectant la probabilité qu'ils soit choisis. Vous pouvez utiliser une `table de probabilités`

In [71]:
from random import randint
from math import ceil

data = Candide.data()

def chose_randomly(word_data, sentence):
    proba_table = []
    _sum = 0
    for word in word_data.keys():
        hundred = ceil(word_data[word] * 100)
        _sum = _sum + hundred
        proba_table.append((word, _sum))
    rand = randint(0, _sum)
    for i in proba_table:
        if i[1] >= rand:
            return i[0]

def create_sentence(first_word, data, depth):
    current_word = first_word
    sentence = first_word
    for i in range(depth):
        current_word = chose_randomly(data[current_word], sentence)
        sentence = sentence + " " + current_word
    return sentence

create_sentence("leibnitz", data, 100)

'leibnitz navait été sans rémission mais il loua une extrême qui était infectée elle fut refait eh bien peur de sucre qui joue tirer chez toutes en loua de mathématiques et fut net et arrivèrent à linquisiteur il voulut savoir lequel il est nécessairement pour nous attrape le devait bien que lon est mis le veuille disait cacambo je croissais en bataille au lit me gardent et soudain elle fit demander au théâtre en fuyant sa jardinière et contre basanés blancs mulâtres et jétais dans la trouvera dans la capitale de la théologie oui dit candide qui pesait environ trois chevaux'

## Exercice

Votre bon ami `Vladimir` vous propose d'investir `$10000` dans son business de "plantes médicinales".

`Vladimir` est un revendeur très réputé dans votre quartier, cependant vous savez qu'il peut arriver que ses plantes ne soient pas toujours légales et du coup que vous risquez de vous faire arrêter en vous associant à lui.

Vous estimez néanmoins qu'il peut être intéressant d'investir dans ce projet, cependant vous ne voulez pas prendre trop de risques. C'est pourquoi, vous investissez la somme `i`, tel que:

$$ i < 10000 $$

Soit `π`, un nombre qui correspond au pourcentage de votre investissement par rapport à `10000`, tel que:

$$ \pi = \frac{\mathrm{i} }{\mathrm{10000} } $$

Vous savez que tous les jours, votre investissement vous rapportera 
$$  r(l) = l^2  $$ 


Néanmoins, plus votre investissement est élevé, plus vos collègues vont se méfier de vos rendements, c'est pourquoi, tous les jours vous avez la probabilité `σ(l)` de vous faire arrêter:

$$  \sigma(\pi) = \frac{\mathrm{1} }{\mathrm{1} + e^{\frac{\mathrm{-\pi}}{\mathrm{5}}} } - \frac{\mathrm{1} }{\mathrm{2} }  $$ 

## Créez un chaîne de Markov Monté Carlo qui détermine combien d'argent vous aurez après `T` périodes et quelle est la probabilité que vous vous fassiez arrêter durant ces `T` périodes.

In [None]:
from math import exp

def probability_prison(pi):
    return 1/(1+exp(-pi/5)) - 1/2

def markov_chain(i, pi, T):
    # Votre code ici
    
i = # VOTRE INVESTISSEMENT ICI
T = # VOTRE NOMBRE DE PERIODES
pi = i / 10000

markov_chain(i, pi, T)

## Exercice

L'ETF `SPDR S&P 500 Trust ETF ($SPY)` qui est un `Fond Négocié en Bourse` répliquant approximativement le marché américain est échangé au cours de `$309.10` (le 14/11/19.) 

Vous pensez que les rendements quotidiens de cet ETF sont de `0.05%` avec une volatilité de `0.01`.

Vous pensez également que les rendements quotidiens du S&P500 suivent une distribution normale.

Utilisez une simulation de `Monté Carlo` avec des chaînes de Markov pour estimer le prix de l'ETF dans trois semaines.