### Atividade: Criação de Modelo de Bigrama para Geração de Texto

#### Objetivo

Nesta atividade, você irá construir um modelo de bigrama para geração de texto. A atividade será realizada utilizando o tokenizador que você implementou na atividade anterior (algoritmo BPE). O objetivo é treinar e avaliar o modelo, bem como medir sua perplexidade em um conjunto de dados de teste.

#### 1. Preparação dos Dados
- Utilize o tokenizador implementado na atividade anterior para segmentar o [conjunto de dados fornecido](https://unbbr-my.sharepoint.com/:u:/g/personal/thiagodepaulo_unb_br/ETRbkBjaKihNmsQI0eWq9RkB3I9tE-SluKccadGOFJYqmA?e=V9k4Vb).
- Divida os arquivos em *treino* (80%) e *teste* (20%) de forma aleatória.


##### 1.1. Divisão em sentenças

In [1]:
# Importa arquivo local
from exercicio2 import ModeloBigramas
modelo = ModeloBigramas()

# Lê os JSONs e os quebra em Sentenças com paralelização de CPU - 1
modelo.paralelizar(padrao='../corpus/*.json', funcao=modelo.sentenizar, tarefas='max');

==> Processando 10000 JSONs...


  from .autonotebook import tqdm as notebook_tqdm
100%|██████████| 10000/10000 [00:04<00:00, 2187.22it/s]


    feito em 4.85 segundos.


##### 1.2. Divisão em treino e teste

In [None]:
# Por padrão, 80% para treino e 20% para teste
# Pode mudar passando parâmetro percentual_teste
modelo.separar_teste()

==> Separando 397274 sentenças em treino e teste...
    Treino: 317819 sentenças, Teste: 79455 sentenças.


#### 2. Implementação do Modelo de Bigrama
- Implemente um modelo de bigrama em Python. O modelo deve calcular a probabilidade condicional de uma palavra dado a palavra anterior com base nos dados de treino.
- A saída deve ser o modelo que calcula a distribuição de probabilidade das palavras baseando-se nas palavras anteriores.
   

##### 2.1. Cálculo das probabilidades (modelo)

In [3]:
# Calculando bigramas no conjunto de treino somente
modelo.bigramas()

==> Calculando probabilidades dos bigramas...
    feito em 7.34 segundos.


#### 3. Cálculo da Perplexidade
- Aplique o modelo de bigrama no conjunto de dados de teste para calcular a **perplexidade**, uma métrica usada para avaliar a capacidade preditiva do modelo. A perplexidade indica o quão bem o modelo prevê o próximo termo em uma sequência.


##### 3.1. Calculando a perplexidade

In [4]:
# Cálculo da perplexidade
modelo.perplexidade()

==> Calculando a perplexidade...
    perplexidade = 123.00.


##### 3.2. Resultado da perplexidade

* Baixa perplexidade (1-100): modelo com boa predição
* Alta perplexidade (100-1000): modelo não tem boa predição
* Perplexidade perfeita: 1
* Perplexidade imperfeita: infinito (modelo totalmente aleatório)

#### 4. Geração de Texto
- Implemente uma função que gera texto a partir do modelo de bigrama.
- No *notebook*, gere um exemplo de texto com pelo menos 20 tokens para demonstrar o funcionamento do modelo.


##### 4.1. Geração de texto sem raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [5]:
# Geração de texto sem raiz e sem parâmetros
modelo.gerar_texto()

'Na vigésima posição de"Photograph" e"You\'re Sixteen" nos Países Baixos, em Direito, destacou-se dentre as cortes espanholas, inspirada na conservação de 1970, 1975, 1976 e o osso do alto posto de Parnaíba por doenças como atestam esses valores de que se contraiu, as doze grupos estavam completamente revisada a uma maioria tem um estrangeiro da propriedade das Dores, A 300 variações. _______. 11 de 1949 Heidelberg M e no município de 2011 D Samora Machel (Vilanculos, 10 anos, e piques. _______. Estes possuem uma análise atribui nomes pessoais fora de pelúcia do braço por narcotraficantes passaram a formação de Ryan Tiff Needell, ex-automobilista britânico.'

##### 4.2. Geração de texto com raiz e sem parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [6]:
# Geração de texto com raiz e sem parâmetros
modelo.gerar_texto(raiz='O município registrou')

'O município registrou que seria economicamente ativas sob responsabilidade de produção anual de Jacy Junqueira Marca do Peri de Nunes 18 metros ou células ramificadas chamadas faixas de abril o Detector de partida para quem vivera o Reino Unido obtiveram sucesso. _______. 28 Mundo 62 38 XIV e morre. _______. Apesar de Transfiguração, em Lisboa e 346 bgcolor #F1F1F1 81364 5 (Oct. _______. Para esse novo nome coreano Choe Bu conseguiu se reúne, nas seguintes localidades: Aupa Frattis Pietratagliata San Jose Villarubia. _______. Obteve mais proeminentes organizações internacionais para fomentar o Horto Municipal, Hospital Universitário Claretiano de português da povoação) e territórios.'

##### 4.3. Geração de texto sem raiz e com parâmetros

* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte.

In [7]:
# Geração de texto sem raiz e com parâmetros
modelo.gerar_texto(minimo=25, maximo=50)

'Mostrou ao Cemitério de pouso 394 5 °C 61 e Bobsled em Santos entrou em maio de Jesus e na circunferência central que se confirmaram em mandarim.'

#### 5. Teste do modelo marromeno

Nesse teste quero apenas ver qual seria o resultado de se analisar o arquivo teste e prever a próxima palavra.

1. Para cada frase no arquivo teste, quebre em palavras.
2. Pegue a primeira palavra e veja se o modelo acertou a próxima.
3. Contabilize os resultados.
4. Compare com a perplexidade.

In [8]:
# Roda o teste
modelo.testar_modelo()

==> Testando o modelo...


100%|██████████| 79455/79455 [15:02<00:00, 88.01it/s]


    feito em 904.36 segundos.
    Acertos: 258719, Erros: 1780379
    Percentual de acerto: 0.12687913969804296
