### Cadenas de markov para predecir el lenguaje - Metegol

In [None]:
import re
import random
from collections import defaultdict

class MarkovChainPredictor:
    def __init__(self):
        self.transition_matrix = defaultdict(lambda: defaultdict(int))
        self.terminal_states = set([".", "?"])

    def train(self, text):
        """
        Entrena el modelo de cadenas de Markov usando un texto dado.
        
        :param text: Cadena con el texto de entrenamiento.
        """
        words = re.findall(r'\w+|[.!?]', text)
        for i in range(len(words) - 1):
            current_word = words[i]
            next_word = words[i + 1]
            self.transition_matrix[current_word][next_word] += 1

    def print_transition_matrix_for_word(self, word):
        """
        Imprime la matriz de transición para una palabra específica.
        
        :param word: La palabra para la que se quiere imprimir la matriz de transición.
        """
        if word in self.transition_matrix:
            print(f"Transiciones para la palabra '{word}':")
            for next_word, count in self.transition_matrix[word].items():
                print(f"  {next_word}: {count}")
        else:
            print(f"La palabra '{word}' no tiene transiciones registradas.")

    def predict_next_word(self, current_word):
        """
        Predice la siguiente palabra basada en el modelo de cadenas de Markov.
        
        :param current_word: La palabra actual.
        :return: La siguiente palabra predicha o None si no hay una predicción.
        """
        next_words = self.transition_matrix[current_word]
        if not next_words:
            return None

        total_transitions = sum(next_words.values())
        words, probabilities = zip(*[(word, count / total_transitions) for word, count in next_words.items()])

        return random.choices(words, probabilities)[0]

    def generate_sentence(self, start_word):
        """
        Genera una oración a partir de una palabra inicial hasta llegar a un estado terminal.
        
        :param start_word: La palabra inicial de la oración.
        :return: Una oración generada como cadena.
        """
        current_word = start_word
        sentence = [current_word]

        while current_word not in self.terminal_states:
            next_word = self.predict_next_word(current_word)
            if not next_word:
                break
            sentence.append(next_word)
            current_word = next_word

        return " ".join(sentence)

In [None]:
with open("metegol_limpio.txt", "r", encoding="utf-8") as file:
    texto_entrenamiento = file.read()


In [32]:
markov_predictor = MarkovChainPredictor()
markov_predictor.train(texto_entrenamiento)

In [33]:
markov_predictor.print_transition_matrix_for_word("gol")

Transiciones para la palabra 'gol':
  .: 3
  ni: 1
  !: 5
  de: 1


In [34]:
oracion_generada = markov_predictor.generate_sentence("gol")

In [35]:
oracion_generada

'gol de Amadeo cóbrale .'

In [36]:
markov_predictor.generate_sentence("gol")

'gol ! Capi el único fracaso .'

In [37]:
markov_predictor.generate_sentence("gol")

'gol ! Roba la toca ?'

In [44]:
markov_predictor.generate_sentence("Amadeo")

'Amadeo por la cabeza que pasa ?'