In [48]:
import numpy as np
import random

In [49]:
def obtener_transiciones(texto):
    # Dividir palabras en una lista
    palabras = texto.split()
    transiciones = {}

    for palabra in range(len(palabras) - 1):
        # Iterar todas las palabras excepto la última
        if palabras[palabra] not in transiciones:
            # Crear una entrada con una lista vacía
            transiciones[palabras[palabra]] = []
        # Añadir la palabra siguiente a las transiciones
        transiciones[palabras[palabra]].append(palabras[palabra + 1])
    # Regresar el diccionario de transiciones
    return transiciones

In [50]:
def generar_texto(transiciones, inicio, longitud=50):
    # Definir la palabra inicial del texto
    palabra_actual = inicio
    resultado = [palabra_actual]

    for _ in range(longitud - 1):
        if palabra_actual in transiciones:
            palabra_actual = random.choice(transiciones[palabra_actual])
            resultado.append(palabra_actual)
        else:
            break
    # Regresa los elementos de una lista como una frase de texto
    return ' '.join(resultado)

In [51]:
def obtener_matriz_transiciones(texto):
    # Dividir texto en palabras
    palabras = texto.split()
    # Lista de palabras únicas
    palabras_unicas = list(set(palabras))
    # Obtener la longitud de palabras únicas
    n = len(palabras_unicas)

    # Crear un diccionario para mapear palabras a índices
    palabra_a_indice = {
        palabra: idx for idx, palabra in enumerate(palabras_unicas)
    }
    # Crear un diccionario inverso para mapear índices a palabras
    indice_a_palabra = {
        idx: palabra for palabra, idx in palabra_a_indice.items()
    }

    # Inicializar la matriz de transiciones
    matriz_transiciones = np.zeros((n, n))

    # Rellenar la matriz de transiciones con las probabilidades
    for i in range(len(palabras) - 1):
        palabra_actual = palabras[i]
        palabra_siguiente = palabras[i+1]
        matriz_transiciones[palabra_a_indice[palabra_actual]][palabra_a_indice[palabra_siguiente]] += 1

    # Convertir el conteo a probabilidades
    for i in range(n):
        # Sumar el conteo por fila
        total = np.sum(matriz_transiciones[i])
        # Revisar si hay al menos una transición
        if total > 0:
            matriz_transiciones[i] = matriz_transiciones[i] / total

    return matriz_transiciones, palabra_a_indice, indice_a_palabra

In [52]:
texto = "Este es un texto de ejemplo para generar otro texto con cadenas de Markov"

In [53]:
transiciones = obtener_transiciones(texto)

In [54]:
transiciones

{'Este': ['es'],
 'es': ['un'],
 'un': ['texto'],
 'texto': ['de', 'con'],
 'de': ['ejemplo', 'Markov'],
 'ejemplo': ['para'],
 'para': ['generar'],
 'generar': ['otro'],
 'otro': ['texto'],
 'con': ['cadenas'],
 'cadenas': ['de']}

In [55]:
texto_generado = generar_texto(transiciones, "Markov", longitud=20)

In [56]:
texto_generado

'Markov'

In [57]:
matriz_transiciones, palabra_a_indice, indice_a_palabra = obtener_matriz_transiciones(texto)

In [58]:
matriz_transiciones

array([[0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0.5, 0. , 0. , 0. , 0. , 0. , 0.5, 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0. , 0. , 1. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 0.5, 0.5, 0. , 0. , 0. , 0. , 0. ],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ]])

In [59]:
indice_a_palabra

{0: 'es',
 1: 'generar',
 2: 'para',
 3: 'cadenas',
 4: 'con',
 5: 'Markov',
 6: 'ejemplo',
 7: 'texto',
 8: 'otro',
 9: 'un',
 10: 'de',
 11: 'Este'}

In [60]:
palabra_a_indice

{'es': 0,
 'generar': 1,
 'para': 2,
 'cadenas': 3,
 'con': 4,
 'Markov': 5,
 'ejemplo': 6,
 'texto': 7,
 'otro': 8,
 'un': 9,
 'de': 10,
 'Este': 11}