In [36]:
import numpy as np 
import random 

In [37]:
def obtener_transiciones(texto):
    palabras = texto.split() # Dividir palabras en una lista
    transiciones = {}

    for palabra in range(len(palabras) - 1):
        # Iterar todas las palabras excepto la ultima
        if palabras[palabra] not in transiciones:
            # Crear una entrada con una lista vacía 
            transiciones[palabras[palabra]] = []
        # Añadir la palabra siguiente en lass transiciones
        transiciones[palabras[palabra]].append(palabras[palabra + 1])
    # Regresar el diccionario de transiciones 
    return transiciones

In [38]:
def generar_text(transiciones, inicio, longitud=50):
    # Definir la plabra inicial del texto 
    palabra_actual = inicio
    resultado = [palabra_actual]

    for _ in range(longitud -1):
        if palabra_actual in transiciones:
            palabra_actual = random.choice(transiciones[palabra_actual])
            resultado.append(palabra_actual)
        else:
            break

    return ' '.join(resultado) # Regrea¿sa los elementos de una una lista en una frase de texto

In [39]:
def obtener_matriz_transiciones(texto):
    # Dividir texto en palabras 
    palabras = texto.split()
    # Lista de palabras únicas
    palabras_unicas = list(set(palabras))
    #Obtener la longitud de palabras únicas 
    n = len(palabras_unicas)

    # Crear un diccionario para mapear palabras a índices 
    palabra_a_indice = {
        palabra: idx for idx, palabra in enumerate(palabras_unicas)
    }

    #Crear un diccionario invrso para mapear índices a palabras
    indice_a_palabra = {
        idx: palabra for palabra, idx in palabra_a_indice.items()
    }

    # Inicializar la matriz de transiciones 
    matriz_transiciones = np.zeros((n, n))

    # Rellenar la matriz de transiciones con las probabilidades
    for i in range(len(palabras) - 1):
        palabra_actual= palabras[i]
        palabra_siguiente = palabras[i+1]
        matriz_transiciones[palabra_a_indice[palabra_actual]][palabra_a_indice[palabra_siguiente]] += 1 

    # Convertir el conteo a probabilidades
    for i in range(n):
        total = np.sum(matriz_transiciones[i]) # Sumar el conteo por fila 
        # Reviar si hay al menos una transicion 
        if total > 0:
            matriz_transiciones[i] = matriz_transiciones[i] / total
    
    return matriz_transiciones, palabra_a_indice, indice_a_palabra

In [40]:
texto = "Este es un texto de ejemplo para generar otro texto con cadenas de Markov"

In [41]:
transiciones = obtener_transiciones(texto)

In [42]:
transiciones

{'Este': ['es'],
 'es': ['un'],
 'un': ['texto'],
 'texto': ['de', 'con'],
 'de': ['ejemplo', 'Markov'],
 'ejemplo': ['para'],
 'para': ['generar'],
 'generar': ['otro'],
 'otro': ['texto'],
 'con': ['cadenas'],
 'cadenas': ['de']}

In [43]:
texto_generado = generar_text(transiciones, "ejemplo", longitud= 50)

In [44]:
texto_generado

'ejemplo para generar otro texto con cadenas de ejemplo para generar otro texto de Markov'

In [45]:
matriz_transiciones, palabra_a_indice, indice_a_palabra = obtener_matriz_transiciones(texto)

In [46]:
matriz_transiciones

array([[0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0.5, 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0.5],
       [0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0.5, 0. , 0. , 0. , 0. , 0.5, 0. , 0. ],
       [0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. ],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. ]])

In [47]:
palabra_a_indice

{'es': 0,
 'texto': 1,
 'para': 2,
 'de': 3,
 'ejemplo': 4,
 'un': 5,
 'generar': 6,
 'Este': 7,
 'cadenas': 8,
 'Markov': 9,
 'otro': 10,
 'con': 11}

In [48]:
indice_a_palabra

{0: 'es',
 1: 'texto',
 2: 'para',
 3: 'de',
 4: 'ejemplo',
 5: 'un',
 6: 'generar',
 7: 'Este',
 8: 'cadenas',
 9: 'Markov',
 10: 'otro',
 11: 'con'}