# Cadenas de Markov en Python

$ Pr( X_{n+1} = x | X_1 = x_1, X_2 = x_2, …, X_n = x_n) = Pr( X_{n+1} = x | X_n = x_n) $

- El conjunto de sucesos posibles es finito
- La probabilidad de ocurrencia del siguiente suceso depende solamente del suceso inmediatamente anterior.
- Estas probabilidades permanecen constantes con el tiempo.


Por la regla de la cadena de la probabilidad, podemos representarla sobre $ T $ variables como sigue:

$$
p(y_1:T) = p(y_1)p(y_2|y_1)p(y_3|y_2,y_1)p(y_4|y_3,y_2,y_1)...\prod_{t=1}^{T} p(y_t|y_1:t-1)
$$

Tambien son conocidas como modelo de Markov ó modelo autoregresivo.
Entre sus aplicaciones se encuentran los **LM** (Language Models)

## Propiedades importantes

- Reducibilidad
- Periodicidad
- Transitoriedad y recurrencia
- Ergodicidad
- Estado absorbente

## Datos de vital importancia

Representamos la información de los estados del tiempo $ n $ al tiempo $ n + 1 $ usando la matriz de transiccón.

Si la cadena de markov tiene N posibles estados, la matriz sera una de $ N x N $, tal que la entrada (**I**, **J**) es la probabilidad de pasar del estado **I** al estado **J**. 

Además la matriz de transicción debe ser estocástica, es decir que la suma de cada fila debe de dar 1.

## Manos a la obra

![alt](https://media.tenor.com/N-nifFitc54AAAAd/los-increibles-mr-incredible.gif)

In [None]:
# Importar las librerias

import numpy as np
import random as rm
import pandas as pd

### Ejemplo 1

Cuando Zura está triste, lo cual no es muy habitual: sale a correr, come helado o se echa una siesta.

Según datos históricos, si ella pasó durmiendo en un día triste. Al día siguiente, hay un 60% de probabilidad de que salga a correr, un 20% de probabilidad de que se quede en la cama al día siguiente y un 20% de probabilidad de que se coma un helado.

Cuando está triste y sale a correr, hay un 60% de posibilidad de que salga a correr al día siguiente, un 30% de que coma de helado y solo un 10% de posibilidad de que se la pase durmiendo al día siguiente.

Finalmente, cuando se da el gusto de comer helado en un día triste, hay sólo un 10% de probabilidad de que siga comiendo helado también al día siguiente, un 70% de probabilidad de que salga a correr y un 20% de probabilidad de que se la pase durmiendo al día siguiente.

![alt](./imagen_diagrama.png)

**Estado Actual / Siguiente estado**

<table>
    <thead>
        <tr>
            <th></th>
            <th>Dormir</th>
            <th>Correr</th>
            <th>Comer Helado</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>Dormir</td>
            <td>0.2</td>
            <td>0.6</td>
            <td>0.2</td>
        </tr>
        <tr>
            <td>Correr</td>
            <td>0.1</td>
            <td>0.6</td>
            <td>0.3</td>
        </tr>
        <tr>
            <td>Comer Helado</td>
            <td>0.2</td>
            <td>0.7</td>
            <td>0.1</td>
        </tr>
    </tbody>
</table>



$$
\begin{bmatrix}
0.2 & 0.6 & 0.2 \\
0.1 & 0.6 & 0.3 \\
0.2 & 0.7 & 0.1
\end{bmatrix}
$$

### Definimos los estados

In [None]:
# Espacio de estados
estados = ["Dormir", "Helado", "Correr"]

# Posible secuencia de eventos
nombresTransicion = [["DD", "DC", "DH"], ["CD", "CC", "CH"], ["HD", "HC", "HH"]]

# Matrix de transicion
matrizTransicion = np.array([[0.2,0.6,0.2], [0.1,0.6,0.3], [0.2,0.7,0.1]])


In [None]:
# Solo a modo de ver la matriz de transacción
pd.DataFrame(matrizTransicion, columns=estados, index=estados)

In [None]:
# Debemos asegurar que la suma de las probabilidades de 1
if sum(matrizTransicion[0])+sum(matrizTransicion[1])+sum(matrizTransicion[2]) != 3:
    print("Ups algo raro paso, debe ser culpa de los rusos")
else: print("Todo esta Ok, continuemos!! ;)")


In [None]:
# Validar que la suma de las filas de 1
np.sum(matrizTransicion, axis=1)

### Implementado el modelo de Markov


In [None]:
def pronosticar_actividad(ndias):
    # Elegimos el estado inicial
    actividadInicial = "Dormir"
    print("Estado inicial: " + actividadInicial)
    # Esta lista almacenara la secuencia de estados tomados, así que inicio tendra el estado inicial.
    listadoActividades = [actividadInicial]
    i = 0
    # Calcula la probabilidad de listadoActividades
    prob = 1
    while i != ndias:
        if actividadInicial == "Dormir":
            cambio = np.random.choice(nombresTransicion[0], replace=True, p=matrizTransicion[0])
            if cambio == "DD":
                prob = prob * 0.2
                listadoActividades.append("Dormir")
                pass
            elif cambio == "DC":
                prob = prob * 0.6
                actividadInicial = "Correr"
                listadoActividades.append("Correr")
            else:
                prob = prob * 0.2
                actividadInicial = "Helado"
                listadoActividades.append("Helado")
        elif actividadInicial == "Correr":
            cambio = np.random.choice(nombresTransicion[1],replace=True,p=matrizTransicion[1])
            if cambio == "CC":
                prob = prob * 0.5
                listadoActividades.append("Correr")
                pass
            elif cambio == "CD":
                prob = prob * 0.2
                actividadInicial = "Dormir"
                listadoActividades.append("Sleep")
            else:
                prob = prob * 0.3
                actividadInicial = "Helado"
                listadoActividades.append("Helado")
        elif actividadInicial == "Helado":
            cambio = np.random.choice(nombresTransicion[2],replace=True,p=matrizTransicion[2])
            if cambio == "HH":
                prob = prob * 0.1
                listadoActividades.append("Helado")
                pass
            elif cambio == "HD":
                prob = prob * 0.2
                actividadInicial = "Dormir"
                listadoActividades.append("Dormir")
            else:
                prob = prob * 0.7
                actividadInicial = "Correr"
                listadoActividades.append("Correr")
        i += 1
    print("Possibles estados: " + str(listadoActividades))
    print("Estado final despues de "+ str(ndias) + " dias: " + actividadInicial)
    print("Probabilidad de la secuencia de estados posibles: " + str(prob))


In [None]:
# Pronosticamos para 2 dias
pronosticar_actividad(2)

## Ejemplo 2

![alt](https://www.researchgate.net/profile/Michael-Muskulus/publication/330360197/figure/fig1/AS:715184796606464@1547524751070/An-example-of-a-Markov-chain-displayed-as-both-a-state-diagram-left-and-a-matrix-with.png)

In [None]:
class MarkovChain(object):
    def __init__(self, transition_prob):
        """
        Iniciamos la instancia de la clase MarkovChain

        Parameters
        ----------
        transition_prob: dict
            Objeto diccionario que representa la transicipon de las probabilidades en
            la cadena de markov. Debera ser de la forma {'estado_1': {'estado_1': 
            0.1, 'estado_2': 0.4}, 'estado_2': {...}}
        """
        self.transition_prob = transition_prob
        self.states = list(transition_prob.keys())

    def next_state(self, current_state):
        """
        Regresa el estado de la variable aleatoria (rv = random variable) para la siguientes
        instancia de tiempo.

        Parameters
        ----------
        current_state: str
            Estado actual de la rv en el sistema.
        """
        return np.random.choice(
            self.states, p=[self.transition_prob[current_state][next_state]
                            for next_state in self.states])

    def generate_states(self, current_state, no=10):
        """
        Genera el siguiente estado en el sistema.

        Parameters
        ----------
        current_state: str
            El estado actual de la variable aleatoria.

        no: int
            Númer de futuros estados a generar.
        """
        future_states = []
        for i in range(no):
            next_state = self.next_state(current_state)
            future_states.append(next_state)
            current_state = next_state
        return future_states

transition_prob = {
    'Sunny': {'Sunny': 0.8, 'Rainy': 0.19, 'Snowy': 0.01},
    'Rainy': {'Sunny': 0.2, 'Rainy': 0.7, 'Snowy': 0.1},
    'Snowy': {'Sunny': 0.1, 'Rainy': 0.2, 'Snowy': 0.7}
}


weather_chain = MarkovChain(transition_prob=transition_prob)
weather_chain.next_state(current_state='Sunny')
# weather_chain.next_state(current_state='Rainy')
weather_chain.generate_states(current_state='Rainy', no=10)


In [None]:
transition_prob = {
    'clouds': {'clouds': 0.4, 'rain': 0.3, 'sun': 0.3},
    'rain': {'clouds': 0.5, 'rain': 0.3, 'sun': 0.2},
    'sun': {'clouds': 0.5, 'rain': 0.1, 'sun': 0.4}
}

In [None]:
weather_chain = MarkovChain(transition_prob=transition_prob)
weather_chain.next_state(current_state='clouds')
weather_chain.next_state(current_state='sun')
weather_chain.generate_states(current_state='sun', no=10)

## Ejemplo 3

In [None]:
# Necesitamos instalar markovify 
!pip install markovify

In [None]:
# Paso 1
import re
import urllib
import markovify

In [None]:
# Paso 2 - Crear un archivo para que markovify lo lea y escriba
originalLyrics = open('lyrics.txt', 'w')

In [None]:
# Paso 3 - Haremos un poco de scrapping

url = "https://search.azlyrics.com/search.php?q=Queen&x=56ef8bf517f5fb222b5e235d0457e5a69c012096f73150e3d380b07057997224"
artistHtml = urllib.request.urlopen(url)
artistHtmlStr = str(artistHtml.read())

links = re.findall('href="([^"]+)"', artistHtmlStr)

In [None]:
print(links)

In [None]:
# Creamos una lista para mantener los links hacia las letras
songLinks = []

In [None]:
for x in links:
    if "lyrics/queen" in x:
        songLinks.append(x)

In [None]:
print(songLinks)

In [None]:
# Scrapear las letras de las canciones
for x in songLinks:
    songHtml = urllib.request.urlopen(x)
    songHtmlStr = str(songHtml.read())

In [None]:
split = songHtmlStr.split('content by any third-party lyrics provider is prohibited by our licensing agreement. Sorry about that. -->',1)

In [None]:
split

In [None]:
# Separamos los elementos div
split_html = split[1]
split = split_html.split('</div>',1)
lyrics = split[0]

In [None]:
lyrics

In [None]:
# Hacemos algo de calidad de los datos :P
lyrics = lyrics.replace('\\', '')
lyrics = lyrics.replace('\nn', '\n')
lyrics = lyrics.replace('<i>', '')
lyrics = lyrics.replace('</i>', '')
lyrics = lyrics.replace('[Chorus]', '')

In [None]:
for x in songLinks:
    songHtml = urllib.request.urlopen(x)
    songHtmlStr = str(songHtml.read()) 
    split = songHtmlStr.split('content by any third-party lyrics provider is prohibited by our licensing agreement. Sorry about that. -->',1)
    splitHtml = split[1]
    split = splitHtml.split('</div>',1)
    lyrics = split[0]
    lyrics = lyrics.replace('<br>', '\n')
    lyrics = lyrics.replace('\\', '')
    lyrics = lyrics.replace('\nn', '\n')
    lyrics = lyrics.replace('<i>', '')
    lyrics = lyrics.replace('</i>', '')
    lyrics = lyrics.replace('[Chorus]', '')
    originalLyrics.write(lyrics)
originalLyrics.close()

In [None]:
# Comenzamos a generar nuevas letras
generatedlyrics = ()
file = open('lyrics.txt', 'r')
text = file.read()

In [None]:
# Pasamos el contenido a Markovfy para generar el modelo
markovifyTextModel = markovify.Text(text)

In [None]:
# Usamos el modelo para generar una frase
generatedlyrics = markovifyTextModel.make_sentence()

In [None]:
generatedlyrics