<a href="https://colab.research.google.com/github/mariaeduardagimenes/NLP/blob/master/TutoriaL_NLP_AEVO_TextGeneration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Generation

## Introdução

As cadeias de Markov podem ser usadas para geração de texto muito básica. Pense em cada palavra em um corpus como um estado. Podemos fazer uma suposição simples de que a próxima palavra depende apenas da palavra anterior - que é a suposição básica de uma cadeia de Markov.

As cadeias de Markov não geram tão bem quanto deep learning, mas é um bom começo.

## Selecione o texto para imitar

Vamos gerar um texto específico no estilo dos assuntos dos textos retirado do blog AEVO.

In [None]:
# Leia o corpus, incluindo pontuação!
import pandas as pd

data = pd.read_pickle('corpus.pkl')
data

Unnamed: 0,textos,full_name
inovacao aberta,Se você já acompanha nossos conteúdos há algum...,Inovação Aberta
inovacao incremental,O termo inovação incremental ganhou força em 1...,Inovação Incremental
intraempreendedorismo,"As soft skills são habilidades subjetivas, de ...",Intraempreendedorismo


In [None]:
# Extrair apenas texto de Inovação Incremental 
ii_text = data.textos.loc['inovacao incremental']
ii_text[:200]

'O termo\xa0inovação incremental\xa0ganhou força em 1939, marcando presença no livro “Business\xa0Cycle” de Joseph Schumpeter, onde foi caracterizado como um tipo de inovação.\xa0\xa0 O conceito é muito similar a fil'

## Build a Markov Chain Function

Vamos construir uma função de cadeia de Markov simples que cria um dicionário:

1. As chaves devem ser todas as palavras do corpus
2. Os valores devem ser uma lista das palavras que seguem as chaves

In [None]:
from collections import defaultdict

def markov_chain(text):
    '''A entrada é uma string de texto e a saída será um dicionário com cada palavra como
        uma chave e cada valor como a lista de palavras que vêm depois da chave no texto.'''
    
    # Tokenize o texto palavra por palavra, incluindo pontuação.
    words = text.split(' ')
    
    # Inicializar um dicionário padrão para conter todas as palavras e as próximas palavras
    m_dict = defaultdict(list)
    
    # Crie uma lista compactada de todos os pares de palavras e coloque-os no formato word: list of next words
    for current_word, next_word in zip(words[0:-1], words[1:]):
        m_dict[current_word].append(next_word)

    # Converter o dicionário padrão de volta em um dicionário
    m_dict = dict(m_dict)
    return m_dict

In [None]:
# Criar dicionário de inovação incremental e dos outros textos
ii_dict = markov_chain(ii_text)
ii_dict

{'O': ['termo\xa0inovação', 'conceito', 'motivo', 'exemplo'],
 'termo\xa0inovação': ['incremental\xa0ganhou'],
 'incremental\xa0ganhou': ['força'],
 'força': ['em', 'quando'],
 'em': ['1939,',
  'produtos,',
  'uma',
  'que',
  'cada',
  'um',
  'alto',
  'jogo!\xa0Em',
  'inovação,',
  'inovação',
  'pesquisas',
  'empresas',
  'um'],
 '1939,': ['marcando'],
 'marcando': ['presença'],
 'presença': ['no'],
 'no': ['livro', 'meu', 'seu'],
 'livro': ['“Business\xa0Cycle”'],
 '“Business\xa0Cycle”': ['de'],
 'de': ['Joseph',
  'inovação.\xa0\xa0',
  'melhoria',
  'forma\xa0sistêmica,',
  'forma',
  'processos',
  'colaboração,',
  'Programa',
  'Ideias.\xa0',
  'pequenas',
  'inovação',
  'Programa',
  'Ideias,',
  'sugestões',
  'melhoria',
  'colaboradores',
  'brainstorming:',
  'linha',
  'frente.\xa0',
  'produtos,',
  'inovação),\xa0porém\xa0ela',
  'melhoria,',
  'um',
  'uma',
  '10',
  '10',
  'todos',
  '10',
  'custos',
  'que',
  'forma',
  'incerteza',
  'inovação:',
  'concor

## Crie um gerador de texto

Vamos criar uma função que gere frases. Terá duas coisas como entradas:

1. O dicionário que você acabou de criar
2. O número de palavras que você deseja gerar


In [None]:
import random

def generate_sentence(chain, count=15):
    '''Insira um dicionário no formato de chave = palavra atual, valor = lista das próximas palavras
        junto com o número de palavras que você gostaria de ver em sua frase gerada.'''

    # Primeira palavra em maiúsculo
    word1 = random.choice(list(chain.keys()))
    sentence = word1.capitalize()

    # Gerar a segunda palavra da value list. Setar a palavra nova como a primeira palavra. Repetir.
    for i in range(count-1):
        word2 = random.choice(chain[word1])
        word1 = word2
        sentence += ' ' + word2

    # Terminar com um ponto
    sentence += '.'
    return(sentence)

In [None]:
generate_sentence(ii_dict)


'Respostas para o conhecimento do potencial de forma\xa0sistêmica, envolvendo todos os colaboradores de ideias que.'

In [None]:
# Extrair apenas textos de Inovação Aberto
ia_text = data.textos.loc['inovacao aberta']
ia_text[:200]

'Se você já acompanha nossos conteúdos há algum tempo, sabe a importância do mindset de inovação aberta para construir não somente o agora, como também o futuro.\xa0 O nome dessa estratégia é Ambidestria '

In [None]:
from collections import defaultdict


    '''A entrada é uma string de texto e a saída será um dicionário com cada palavra como uma chave e cada valor como a lista de palavras que vêm após a chave no texto'''
    
    # Tokenize o texto por palavra, embora incluindo pontuação
    words = text.split(' ')
    
    # Inicialize um dicionário padrão para conter todas as palavras e as próximas palavras
    m_dict = defaultdict(list)
    
    # Crie uma lista compactada de todos os pares de palavras e coloque-os no formato word: list of next words
    for current_word, next_word in zip(words[0:-1], words[1:]):
        m_dict[current_word].append(next_word)

    # Converta o dicionário padrão de volta em um dicionário
    m_dict = dict(m_dict)
    return m_dict


# Crie o dicionário para Inovação Aberta, dê uma olhada nele
ia_dict = markov_chain(ia_text)
ia_dict


import random

def generate_sentence(chain, count=15):
    '''Input a dictionary in the format of key = current word, value = list of next words
       along with the number of words you would like to see in your generated sentence.'''

    # Capitalize a primeira palavra
    word1 = random.choice(list(chain.keys()))
    sentence = word1.capitalize()

    # Gere a segunda palavra da lista de valores. Defina a nova palavra como a primeira palavra. Repetir.
    for i in range(count-1):
        word2 = random.choice(chain[word1])
        word1 = word2
        sentence += ' ' + word2

    # Termine com um ponto final
    sentence += '.'
    return(sentence)

generate_sentence(ia_dict)


'Incerteza e matéria prima, onde o que isso não surgia tempo para o Movimento Estar.'

In [None]:
# Extrair apenas textos de Intraempreendedorismo
ie_text = data.textos.loc['intraempreendedorismo']
ie_text[:200]

'As\xa0soft\xa0skills\xa0são habilidades subjetivas, de difícil identificação e diretamente relacionadas à inteligência emocional das pessoas.\xa0 Em tradução livre, o termo —\xa0soft\xa0skills\xa0—\xa0 significa: habilidades'

In [None]:
from collections import defaultdict

def markov_chain(text):
    '''A entrada é uma string de texto e a saída será um dicionário com cada palavra como uma chave e cada valor como a lista de palavras que vêm após a chave no texto.'''
    
    
    words = text.split(' ')
    
    
    m_dict = defaultdict(list)
    

    for current_word, next_word in zip(words[0:-1], words[1:]):
        m_dict[current_word].append(next_word)


    m_dict = dict(m_dict)
    return m_dict



ie_dict = markov_chain(ia_text)
ie_dict


import random

def generate_sentence(chain, count=15):
    '''Insira um dicionário no formato de chave = palavra atual, valor = lista das próximas palavras junto com o número de palavras que você gostaria de ver em sua frase gerada.'''

   
    word1 = random.choice(list(chain.keys()))
    sentence = word1.capitalize()

   
    for i in range(count-1):
        word2 = random.choice(chain[word1])
        word1 = word2
        sentence += ' ' + word2

   
    sentence += '.'
    return(sentence)

generate_sentence(ie_dict)



'Adaptar e a parte,\xa0mas criatividade está diretamente relacionadas à inteligência emocional, o profissional empreendedor deveria.'