# Atividade: Criação de Modelo de Bigrama para Geração de Texto

## Objetivo

Nesta atividade, você irá construir um modelo de bigrama para geração de texto. A atividade será realizada utilizando o tokenizador que você implementou na atividade anterior (algoritmo BPE). O objetivo é treinar e avaliar o modelo, bem como medir sua perplexidade em um conjunto de dados de teste.

## 1. Preparação dos Dados
- Utilize o tokenizador implementado na atividade anterior para segmentar o conjunto de dados fornecido.
- Divida os arquivos em *treino* (80%) e *teste* (20%) de forma aleatória.


### 1.1. Divisão em sentenças

In [1]:
# Importa arquivo local
import exercicio2 as ex

# Lê os JSONs e os quebra em Sentenças com paralelização de CPU - 1
sentencas = ex.paralelizar(
    padrao='../corpus/*.json',
    funcao=ex.sentenizar,
    tarefas='max'
)

==> Processando 10000 JSONs...
    feito em 4.28 segundos.


### 1.2. Divisão em treino e teste

In [2]:
# Vou carregar treino e teste, mas não vou usar porque o teste deu muito ruim
# Preciso da ajuda do professor para enteder como fazer esse teste
treino, teste = ex.separar_teste(
    sentencas=sentencas,
    percentual_teste=0.2
)

#### 1.2.1. Resultado da divisão (treino)

In [3]:
# Treino
treino[:10]

['O atraso também aumentou o déficit projetado pela Airbus até 2010 para € 4,8 bilhões.',
 'O congado, congo ou congada mescla cultos católicos europeus com práticas de matriz africana, em um movimento sincrético.',
 'A imortalidade não seria fruto de uma única invenção ou descoberta, mas um desenvolvimento contínuo da tecnologia relacionada à saúde e a medicina, fazendo a expectativa de vida tender a subir exponencialmente a ponto de considerar que o ser humano não irá mais morrer por conta de velhice.Imortalidade - Humanos chegarão a 1000 anos de idade no futuro segundo cientista A tecnologia também dificultaria, mas não impediria entretanto, uma morte causada por assassínio ou por um acidente convencional, como um acidente rodoviário ou um acidente de trabalho.',
 'Editora da Biblioteca da Marinha e Exército do Brasil, 1939.',
 'Os francêses, que eram a população maior de imigrantes, não queriam mais vir para a ilha porque a França era mais próspera, assi

#### 1.2.2. Resultado da divisão (teste)

In [4]:
# Teste
teste[:10]

['Além da Cabocla FM, atualmente a cidade e principalmente os seus conterrâneos contam com a Rádio Clube Web de Fonte Boa, que tem uma programação variada disponível na internet através do site, levando informação da cidade e região, através da internet, em suas redes sociais e aplicativos.',
 'Boll ainda afirmou que os Estados Unidos reconhecem Feira de Santana como uma das principais cidades do Brasil, garantindo possibilidade de intercâmbios de estudantes, professores e profissionais técnico-administrativos.',
 'O apelido regional e dialeto das pessoas de Newcastle e área circundante é chamado de Geordie.',
 'O Partido Liberal (PL) é um antigo partido político português que foi criado em 28 de Maio de 1974 por dissidentes da Convergência Monárquica, que não concordaram com a criação do PPM.Partido Liberal (1974), Antologia do Pensamento Político Português, por José Adelino Maltez, Centro de Estudos do Pensamento Político, Instituto Superior de Ciências So

## 2. Implementação do Modelo de Bigrama
- Implemente um modelo de bigrama em Python. O modelo deve calcular a probabilidade condicional de uma palavra dado a palavra anterior com base nos dados de treino.
- A saída deve ser o modelo que calcula a distribuição de probabilidade das palavras baseando-se nas palavras anteriores.
   

### 2.1. Cálculo das probabilidades (modelo)

In [5]:
# Como dito, aqui deveria ser utilizado o pacote de treino...
# Mas vou usar o completo porque as tentativas de testar falharam!

# Deveria ser isto...
# modelo = ex.calcular_bigramas(treino)

# Mas foi isto
modelo = ex.calcular_bigramas(sentencas=sentencas)

==> Calculando probabilidades dos bigramas...
    feito em 7.41 segundos.
    probabilidade gerada com 727208 termos.


### 2.2. Impressão das probabilidades (modelo)

In [6]:
from itertools import islice
count = 0
for key, value in islice(modelo.items(), 5):
    print(f"{key}: {value}")
    count += 1
    if count > 10: break

<s>: {'San': 0.000281921293615993, 'de': 0.0017066306881396718, 'O': 0.09412143759722509, 'Para': 0.006612564627939407, 'A': 0.10145642554005548, 'CORTEI AQUI PARA NAO POLUIR': 0}
San: {'José': 0.018494055482166448, 'Canzian': 0.0006605019815059445, 'Pier': 0.0019815059445178335, 'Jacinto,': 0.002642007926023778, 'CORTEI AQUI PARA NAO POLUIR,': 0}
José: {'Poaquil': 0.0006422607578676942, 'Gurgel': 0.00021408691928923143, 'Olympio,': 0.002569043031470777, 'Geraldo': 0.001070434596446157, 'CORTEI AQUI PARA NAO POLUIR': 0}
Poaquil: {'é': 0.3333333333333333, '</s>': 0.3333333333333333, '#': 0.3333333333333333}
é: {'uma': 0.10812476298824422, 'um': 0.09802806219188472, 'exterior,': 1.5800783718872457e-05, 'a': 0.07892491467576791, 'significativo': 4.7402351156617366e-05, 'CORTEI AQUI PARA NAO POLUIR': 0}


## 3. Cálculo da Perplexidade
- Aplique o modelo de bigrama no conjunto de dados de teste para calcular a **perplexidade**, uma métrica usada para avaliar a capacidade preditiva do modelo. A perplexidade indica o quão bem o modelo prevê o próximo termo em uma sequência.


### 3.1. Calculando a perplexidade

In [7]:
# Cálculo da perplexidade
perplexidade = ex.perplexidade(
    probabilidades=modelo,
    sentencas=sentencas
)

==> Calculando a perplexidade...
    perplexidade = 123.28.


### 3.2. Resultado da perplexidade

* Baixa perplexidade (1-100): modelo com boa predição
* Alta perplexidade (100-1000): modelo não tem boa predição
* Perplexidade perfeita: 1
* Perplexidade imperfeita: infinito (modelo totalmente aleatório)

In [9]:
print(f'A perplexidade foi de {perplexidade:.2f}')

A perplexidade foi de 123.28


## 4. Geração de Texto
- Implemente uma função que gera texto a partir do modelo de bigrama.
- No *notebook*, gere um exemplo de texto com pelo menos 20 tokens para demonstrar o funcionamento do modelo.


### 4.1. Geração de texto sem raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [10]:
# Geração de texto sem raiz e sem parâmetros
ex.gerar_texto(probabilidades=modelo)

'Apesar da tabela é de Paços Novos. _______. A estação dos livros, periódicos O início de carros (1 de planos permaneceram na Underground A sua própria Teosofia, atribuem preferivelmente estejam locadas ao ano da Rainha e esculturas de modo que predominam florestas tropicais, que esquimó por isso, seu nome, passando a TV Ponta Grossa está sujeita à suinocultura, apicultura e animais que não têm letra C no oeste e seu single, Caravan, que estavam ocupadas sem perda de munições. _______. O ELP de seus principais áreas úmidas com 8 vagas conquistadas aos clubes do projeto e arcebispo Hermano 2a Fase de seu projecto de Janeiro - durante o seu terceiro Senhor Quincas Borba para alterar ou Auxiliares Internacionais" (IALs, na sua participação especial o Papa- Léguas (Caxias do canteiro central, os quais o gasto das aplicações.'

### 4.2. Geração de texto com raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [11]:
# Geração de texto com raiz e sem parâmetros
ex.gerar_texto(
    probabilidades=modelo,
    raiz='O município registrou'
)

'O município registrou um viés espiritualista italiano, Antonio Amâncio Leite Pereira, de dados trocados no Kansas, na Rede pessoal de Dezembro de cerca de Einstein do Sol. _______. 1935) José Maria amamentando seu colega cientista Alan Wilson, trouxe os músicos formaram um indivíduo vivo e Medicina - 2008 (3), 2012 a Croia (Kruja). _______. Eles são grandes empresas em 19 de elétron orbitando a agricultura e instalados diversos tipos de brincar com William B. Johnson fez várias casas na divisão húngaro: na década, os editores manuais com a parte dessa teoria do Rio Grande Batalha de apoio (1975 1979), Arthur Friedenreich: 2009 a variação dos universais.'

### 4.3. Geração de texto sem raiz e com parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [12]:
# Geração de texto sem raiz e com parâmetros
texto = ex.gerar_texto(
    probabilidades=modelo,
    minimo=25,
    maximo=50
)
print(f'O texto gerado "{texto}" tem {len(texto.split())} palavras.')

O texto gerado "A dependência é nacional Santiago, Alcácer Alcáçova Forte de 2016 a implementação das mais acostumado. _______. Nesses anos 70, mais distantes, como pimenta chili (a metade branca típica da Apresentação (padroeira) (21 de 1962." tem 34 palavras.
