# Atividade: Criação de Modelo de Bigrama para Geração de Texto

## Objetivo

Nesta atividade, você irá construir um modelo de bigrama para geração de texto. A atividade será realizada utilizando o tokenizador que você implementou na atividade anterior (algoritmo BPE). O objetivo é treinar e avaliar o modelo, bem como medir sua perplexidade em um conjunto de dados de teste.

## 1. Preparação dos Dados
- Utilize o tokenizador implementado na atividade anterior para segmentar o conjunto de dados fornecido.
- Divida os arquivos em *treino* (80%) e *teste* (20%) de forma aleatória.


### 1.1. Divisão em sentenças

In [1]:
# Importa arquivo local
import exercicio2 as ex

# Lê os JSONs e os quebra em Sentenças com paralelização de CPU - 1
sentencas = ex.paralelizar(
    padrao='../corpus/*.json',
    funcao=ex.sentenizar,
    tarefas='max'
)

==> Processando 10000 JSONs...
    feito em 4.28 segundos.


### 1.2. Divisão em treino e teste

In [2]:
# Vou carregar treino e teste, mas não vou usar porque o teste deu muito ruim
# Preciso da ajuda do professor para enteder como fazer esse teste
treino, teste = ex.separar_teste(
    sentencas=sentencas,
    percentual_teste=0.2
)

#### 1.2.1. Resultado da divisão (treino)

In [3]:
# Treino
treino[:10]

['Em 2018 interpretou a grande vilã fria e amargurada Lady Margareth Williamson em Orgulho e Paixão.',
 'A iluminação e a sinalização da pista de pouso e decolagem precisou de mudanças para proporcionar alívio para as asas e evitar possíveis explosões dos motores.',
 'Seus limites são Santa Isabel a norte e nordeste, Mogi das Cruzes a sudeste, Itaquaquecetuba a sul e Guarulhos a oeste e noroeste.',
 'Os crustáceos podem possuir uma carapaça que resulta da fusão das placas, podendo variar o seu comprimento desde um escudo cefálico até o recobrimento de todo o corpo.',
 'O município está localizado na bacia do Rio Jundiaí, o qual nasce na cidade de Mairiporã e segue em direção leste, atravessando os municípios de Campo Limpo Paulista, Várzea Paulista, Itupeva, Indaiatuba, chegando na cidade de Salto, onde deságua no Rio Tietê.',
 'Esta porcentagem varia muito de acordo com a saúde do paciente.',
 'O surgimento de Tracuateua está ligado à construção da Estra

#### 1.2.2. Resultado da divisão (teste)

In [4]:
# Teste
teste[:10]

['Corresponde ao limite entre o oceano e o continente (definida pelo alcance da maré alta).',
 'Segundo a obra etíope medieval Kebra Nagast, Sheba estava localizada na Etiópia.',
 'Compete ao Ministro de Estado Adjunto do Primeiro-Ministro substituir o Primeiro-Ministro na sua ausência ou impedimento, ocupar-se das relações entre o Governo, a Assembleia da República e os partidos políticos e exercer os poderes que lhe forem delegados pelo Primeiro-Ministro ou pelo Conselho de Ministros.',
 'O elemento, que eles denominaram háfnio (Hafnia sendo o nome latino para Copenhague), acabou se mostrando mais comum que ouro.',
 'Livres de um poder central, cidades como Alcácer do sal e Lisboa e Silves desenvolveram-se com base no comércio.',
 'A aeronave civil tinha sido confundida com um avião militar enquanto sobrevoava o espaço aéreo iraniano.',
 'Eles então começaram sua temporada de 2014-15, derrotando o Bayern na DFL-Supercup por 2-0.',
 'se propunha, com sua equipe e os se

## 2. Implementação do Modelo de Bigrama
- Implemente um modelo de bigrama em Python. O modelo deve calcular a probabilidade condicional de uma palavra dado a palavra anterior com base nos dados de treino.
- A saída deve ser o modelo que calcula a distribuição de probabilidade das palavras baseando-se nas palavras anteriores.
   

### 2.1. Cálculo das probabilidades (modelo)

In [5]:
# Como dito, aqui deveria ser utilizado o pacote de treino...
# Mas vou usar o completo porque as tentativas de testar falharam!

# Deveria ser isto...
# modelo = ex.calcular_bigramas(treino)

# Mas foi isto
modelo = ex.calcular_bigramas(sentencas=sentencas)

==> Calculando probabilidades dos bigramas...
    feito em 7.27 segundos.
    probabilidade gerada com 727208 termos.


### 2.2. Impressão das probabilidades (modelo)

In [10]:
from itertools import islice

for key, value in islice(modelo.items(), 10):
    print(f"{key}: {value}")

<s>: {'San': 0.000281921293615993, 'de': 0.0017066306881396718, 'O': 0.09412143759722509, 'Para': 0.006612564627939407, 'A': 0.10145642554005548, 'Esta': 0.005361538887518438, 'Essa': 0.002796558546494359, 'Uma': 0.006725836576267261, 'As': 0.01981503949415265, 'o': 0.00023661251428485125, 'Émile': 1.762008085099956e-05, 'Ele': 0.008563359293585787, 'Durkheim': 2.517154407285652e-06, 'Nas': 0.0022301988048550876, 'Com': 0.009315988461364198, 'Esses': 0.0014347780121528216, 'Portanto,': 0.0006116685209704134, 'Todos': 0.0011100650936129723, 'Eles': 0.0028947275683784994, 'É': 0.010330401687500315, 'De': 0.006982586325810398, 'Dicionário': 0.00013844349240071084, 'Esse': 0.0022981619738518, 'Termo': 1.510292644371391e-05, 'Seriam': 2.5171544072856517e-05, '190-191': 2.517154407285652e-06, 'Assim,': 0.0027361468407195036, 'Visto': 9.313471306956911e-05, 'Sociedade': 2.2654389665570864e-05, 'Teoria': 8.558324984771216e-05, 'Cada': 0.0013466776078978238, 'Críticos': 5.0343088145713035e-

## 3. Cálculo da Perplexidade
- Aplique o modelo de bigrama no conjunto de dados de teste para calcular a **perplexidade**, uma métrica usada para avaliar a capacidade preditiva do modelo. A perplexidade indica o quão bem o modelo prevê o próximo termo em uma sequência.


### 3.1. Calculando a perplexidade

In [11]:
# Cálculo da perplexidade
perplexidade = ex.perplexidade(
    probabilidades=modelo,
    sentencas=sentencas
)

==> Calculando a perplexidade...
    perplexidade = 123.28.


### 3.2. Resultado da perplexidade

* Baixa perplexidade (1-100): modelo com boa predição
* Alta perplexidade (100-1000): modelo não tem boa predição
* Perplexidade perfeita: 1
* Perplexidade imperfeita: infinito (modelo totalmente aleatório)

In [12]:
perplexidade

123.27871373314042

## 4. Geração de Texto
- Implemente uma função que gera texto a partir do modelo de bigrama.
- No *notebook*, gere um exemplo de texto com pelo menos 20 tokens para demonstrar o funcionamento do modelo.


### 4.1. Geração de texto sem raiz e sem parâmetros

_* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte._

In [13]:
# Geração de texto sem raiz e sem parâmetros
ex.gerar_texto(probabilidades=modelo)

'Distribuição da quinta ordem 222, Sun & Tully, Shattered Sword, pp Washington, 43 hab km2. _______. Quando o governo do Sistema é montada com o meio médico e abrir os partidos pelas alterações do Sul provocando precipitações abundantes na estrutura substancialmente do Heraião em uma sesmaria de Páscoa Prefeitura Municipal Mapa da Amizade e a garantia o que conseguem defender- se seguiu a urbana, na Terra. _______. Como um problema no plano de um exercício. _______. A variação da Pensilvânia, onde passou a necessidade de Imigrante — -id 794 dólares, com Ana, Sofia Carlota Joaquina, Princesa Real Madrid (1957); a de Varzim seguem a Primeira Guerra Mundial, sem dúvidas de Monk, que engloba três filhos são filtradas pelas consultas de base operacional (PO), San Biagio Rossetti, Fiorotti e ricos.'

### 4.2. Geração de texto com raiz e sem parâmetros

_* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte._

In [15]:
# Geração de texto com raiz e sem parâmetros
ex.gerar_texto(
    probabilidades=modelo,
    raiz='O município registrou'
)

'O município registrou uma invasão turca, a Deus como é a paz, conhecimento técnico que eu lhe estão inclusos na semana de todos os EUA como oficial da companhia na teoria criminal. _______. Foi também foram estudadas por Cornélio Lêntulo Getúlico, acusando-o de Gotham, seu tempo a primeira vez que ainda uma maior complexo ou Ponte Velha de 0,5 % Votos % PS APU CDU FRS 1,61 - 29 minutos; e fazê-lo natural e 6. _______. Tikal foi instalado no rio. _______. Issels acreditava que teria capacidade média em toda ela praticava o Guarani. _______. style"background:#c96" Terceira Guerra Mundial na sua formação de Saint Seiya: Soul Merchants, She Little Lulu e pôde ler um grupo de la Simone, Zizi Possi, jurados de libras.'

### 4.3. Geração de texto sem raiz e com parâmetros

_* `_______.` significa que o modelo encontrou uma palavra sem probabilidade para a palavra seguinte._

In [16]:
# Geração de texto sem raiz e com parâmetros
texto = ex.gerar_texto(
    probabilidades=modelo,
    minimo=25,
    maximo=50
)
print(f'O texto gerado "{texto}" tem {len(texto.split())} palavras.')

O texto gerado "Gessy Fonseca pelos papas adotaram princípios fundamentais conhecidas. _______. Contudo, muitas pessoas sob domínio público. _______. Aetoxylon Amyxa Arnhemia Atemnosiphon Basutica Craterosiphon Cryptadenia Dais Daphne (1999), Dirty Hearts Club de Ekkehard II em 2009 26 de Don era adequadamente de falar da ionosfera, o pop destacam-se importantes" tem 47 palavras.
