### Atividade: Criação de Modelo de Bigrama para Geração de Texto

#### Objetivo

Nesta atividade, você irá construir um modelo de bigrama para geração de texto. A atividade será realizada utilizando o tokenizador que você implementou na atividade anterior (algoritmo BPE). O objetivo é treinar e avaliar o modelo, bem como medir sua perplexidade em um conjunto de dados de teste.

#### 1. Preparação dos Dados
- Utilize o tokenizador implementado na atividade anterior para segmentar o [conjunto de dados fornecido](https://unbbr-my.sharepoint.com/:u:/g/personal/thiagodepaulo_unb_br/ETRbkBjaKihNmsQI0eWq9RkB3I9tE-SluKccadGOFJYqmA?e=V9k4Vb).
- Divida os arquivos em *treino* (80%) e *teste* (20%) de forma aleatória.


##### 1.1. Divisão em sentenças

In [1]:
# Importa arquivo local
from exercicio2 import ModeloBigramas
modelo = ModeloBigramas()

# Lê os JSONs e os quebra em Sentenças com paralelização de CPU - 1
modelo.paralelizar(padrao='../corpus/*.json', funcao=modelo.sentenizar, tarefas='max');

==> Processando 10000 JSONs...


  0%|          | 0/10000 [00:00<?, ?it/s]

    feito em 4.32 segundos.


##### 1.2. Divisão em treino e teste

In [2]:
# Vou carregar treino e teste, mas não vou usar porque o teste deu muito ruim
# Preciso da ajuda do professor para enteder como fazer esse teste
modelo.separar_teste()

==> Separando 397274 sentenças em treino e teste...
    Treino: 317819 sentenças, Teste: 79455 sentenças.


#### 2. Implementação do Modelo de Bigrama
- Implemente um modelo de bigrama em Python. O modelo deve calcular a probabilidade condicional de uma palavra dado a palavra anterior com base nos dados de treino.
- A saída deve ser o modelo que calcula a distribuição de probabilidade das palavras baseando-se nas palavras anteriores.
   

##### 2.1. Cálculo das probabilidades (modelo)

In [3]:
# Calculando bigramas no conjunto de treino somente
modelo.bigramas()

==> Calculando probabilidades dos bigramas...
    feito em 11.90 segundos.


#### 3. Cálculo da Perplexidade
- Aplique o modelo de bigrama no conjunto de dados de teste para calcular a **perplexidade**, uma métrica usada para avaliar a capacidade preditiva do modelo. A perplexidade indica o quão bem o modelo prevê o próximo termo em uma sequência.


##### 3.1. Calculando a perplexidade

In [4]:
# Cálculo da perplexidade
modelo.perplexidade()

==> Calculando a perplexidade...
    perplexidade = 122.37.


122.3679744820238

##### 3.2. Resultado da perplexidade

* Baixa perplexidade (1-100): modelo com boa predição
* Alta perplexidade (100-1000): modelo não tem boa predição
* Perplexidade perfeita: 1
* Perplexidade imperfeita: infinito (modelo totalmente aleatório)

#### 4. Geração de Texto
- Implemente uma função que gera texto a partir do modelo de bigrama.
- No *notebook*, gere um exemplo de texto com pelo menos 20 tokens para demonstrar o funcionamento do modelo.


##### 4.1. Geração de texto sem raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [5]:
# Geração de texto sem raiz e sem parâmetros
modelo.gerar_texto()

'Por fim, à média localizado no ministério. _______. "Viajantes estrangeiros na fase está situada a menor grau militar de janeiro de ferro de mais juntaram mais forte de governa com um ano de Godoy, como a temperatura e a zona rural em 15 de Alexandria e é conhecida como o Vídeo Conversas com uma vez que ele chamava «libertadas» a constituição de 1 na interseção puros, mas foi formado de distância. _______. Acontece o paradigma aristotélico seguirá para a penitência, uma alternativa do Município integra o nascer em um Senhor Prefeito, integram uma situação envolvendo a sede da Copa Água 猴 Macaco Metal Massacre do Estado Novo, Santíssima Trindade, no 25° presidente se Ali McKenzie 1990 Oitavas de Portugal.'

##### 4.2. Geração de texto com raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [6]:
# Geração de texto com raiz e sem parâmetros
modelo.gerar_texto(raiz='O município registrou')

'O município registrou uma sonata em Lima 1997 and the Comoros 2001.svg 2001 e Silvite. _______. n Spring S Perry baixo e grades. _______. Hosingen Munshausen Troisvierges Weiswampach Wincrange _______. Só Falta Alguém poderia vingar as fotos incríveis abrangendo produção, o New Translation Fund desde 1948. _______. A sua casa. _______. Aquando da freguesia denominada extremidade do serrote formado por José Izecias de veículo.Envolverde: jornalismo é o autor expõe seu uso de Assis Chateaubriand recorreu ao soberano, dando graças à RTP de Ghowr ou Quinta da Arábia Saudita, além de vários heróis usam o casal de março de novembro, foral de tupi antigo: a presidente da Scopus, empresa particular para a reprodução, o parto do elemento de problemas, duas faces de Vila do Toural — -id 683 bgcolor #F1F1F1 68036 30 de peso relativo à intervenção em outros espaços.'

##### 4.3. Geração de texto sem raiz e com parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [7]:
# Geração de texto sem raiz e com parâmetros
modelo.gerar_texto(minimo=25, maximo=50)

'Apesar do Papa Católico; João Agripino # Parcial de atividades de 1970 e não deve quebrar uma administração da Universidade da Canção do condado de hóquei no intervalo de velocidade em São João I de sistemas de não sejam nominalmente como pariparoba, caapeba, capeba e por adaptar ao progresso'

#### 5. Teste do modelo

In [8]:
# Roda o teste
modelo.testar_modelo()

==> Testando o modelo...


  0%|          | 0/79455 [00:00<?, ?it/s]

    feito em 1407.21 segundos.
    Acertos: 248389, Erros: 1770682


(248389, 1770682)