<a href="https://colab.research.google.com/github/Kaiziferr/NLP_Workshop/blob/master/GNT/w0_generate_text_chain_markov.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
from collections import defaultdict
import random

# Chain of chars

In [2]:
"""
  [descripción]
    - genera ngrams
  [values]
    - text : texto a procesar 
    - order: número de caracteres por ngrama
  [precondición]
    - text : string obligatorio
    - order: entero obligatorio
  [poscondición]
    - un diccionario de ngramas, así como su lista de posibles caracteres
"""
def markov_chain_chars(text, order):
  ngrams = {}
  i = 0
  while i < (len(text) - order):
    ngram = text[i:i+order]
    if ngram not in ngrams:
      ngrams[ngram] = []
    ngrams[ngram].append(text[i+order])
    i = i+1
  return ngrams

In [17]:
"""
  [descripción]
    - genera nuevo texto
  [values]
    - ngrams : diccionario de ngramas, así como su lista de posibles caracteres
    - order  : número de caracteres por ngrama
    - count  : extensión del nuevo texto
  [precondición]
    - text   : string obligatorio
    - order  : entero obligatorio
    - count  : entero obligatorio
  [poscondición]
    - nuevo texto
"""
def text_generator_chars(order, ngrams, count):
  current = random.choice(list(ngrams.keys())) 
  i = 0
  result = current
  while i < count:
    if current not in ngrams.keys():
      current = random.choice(list(ngrams.keys()))
    possibilities = ngrams[current]
    next = random.choice(possibilities)
    result = f'{result}{next}'
    current = result[len(result)-order:len(result)]
    i = i + 1
  result = f'{result}.'
  return result

In [18]:
texto = """Aprendizaje profundo (en inglés, deep learning) es un conjunto de algoritmos de aprendizaje automático (en inglés, machine learning) que intenta modelar abstracciones de alto nivel en datos usando arquitecturas computacionales que admiten transformaciones no lineales múltiples e iterativas de datos expresados en forma matricial o tensorial."""

In [19]:
order = 10
count = 100
ngrams = markov_chain_chars(texto, order)
text_generator_chars(order, ngrams, count)

'e admiten transformaciones no lineales múltiples e iterativas de datos expresados en forma matricial o tensori.'

# Chain of word

In [21]:
"""
  [descripción]
    - crea una estructura de datos, donde por cada palabra se adiciona una lista de probabilidades de la palabra subsiguiente 
  [values]
    - text : texto base
  [precondición]
    - text : string obligatorio
  [poscondición]
    - retorna un diccionario con cada palabra del documento base y su listado de palabras probables de seguir.
"""
def markov_chain_words(text):
  words = text.split(' ')
  m_dict = defaultdict(list)
  for current_word, next_word in zip(words[0: -1], words[1:]):
    m_dict[current_word].append(next_word)
  m_dict = dict(m_dict)
  return m_dict

In [45]:
"""
  [descripción]
    - genera nuevo texto
  [values]
    - chain : estructura de datos con la información de probabilidades
    - count : tamaño que debe tener el nuevo texto
    - seed  : palabra semilla, donde se desencadena el proceso de generar un nuevo texto
  [precondición]
    - chain : diccionario obligatorio
    - count : entero obligatorio
    - seed  : cadena opcional
  [poscondición]
    - genera un nuevo texto
"""
def text_generator_words(chain,  count, seed=None):
  current = random.choice(list(chain.keys()))
  if seed:
    current = seed
  sentence = current.capitalize()
  for i in range(count - 1):
    if current not in chain.keys():
      current = random.choice(list(chain.keys()))
    current = random.choice(list(chain[current]))
    sentence = f'{sentence} {current}'
  sentence = f'{sentence}.'
  return sentence

In [46]:
count = 80
chain = markov_chain_words(texto)
text_generator_words(chain, count, 'datos')

'Datos usando arquitecturas computacionales que admiten transformaciones no lineales múltiples e iterativas de algoritmos de aprendizaje automático (en inglés, deep learning) que admiten transformaciones no lineales múltiples e iterativas de datos expresados en datos usando arquitecturas computacionales que intenta modelar abstracciones de aprendizaje automático (en inglés, machine learning) que admiten transformaciones no lineales múltiples e iterativas de aprendizaje automático (en inglés, deep learning) que intenta modelar abstracciones de algoritmos de datos usando arquitecturas computacionales que admiten transformaciones no lineales múltiples.'