# Translation dataset between Norwegian Bokmål (nb) and Norwegian Nynorsk (nn)

MultiParaCrawl (v9) dataset downloaded from [opus](https://opus.nlpl.eu/MultiParaCrawl/nb&nn/v9b/MultiParaCrawl).

In [1]:
nb = [_nb.strip() for _nb in open("MultiParaCrawl.nb", "r").readlines()]
nn = [_nn.strip() for _nn in open("MultiParaCrawl.nn", "r").readlines()]

In [2]:
print(f"Størrelse\n"
      f" nb: {len(nb)} \n"
      f" nn: {len(nn)} \n"
      f" nb = nn: {True if len(nb) == len(nn) else False}")

Størrelse
 nb: 46732 
 nn: 46732 
 nb = nn: True


In [3]:
print(f"Eksempel\n"
      f" nb: {nb[15]} \n"
      f" nn: {nn[15]}")

Eksempel
 nb: Mario Kart 8 har motorsykler og kappkjøring for 12 sjåfører i likhet med Mario Kart Wii, i tillegg til hengefly, undervannkjøring og tilpassing av kjøretøyene fra Mario Kart 7. 
 nn: Mario Kart 8 har motorsyklar og kappkøyring for 12 resarar i likskap med Mario Kart Wii, i tillegg til hengefly, undervasskøyring og tilpassinga av køyretøya frå Mario Kart 7.


In [4]:
print(f"Inneholder også 'feil'\n"
      f" nb: {nb[0]} \n"
      f" nn: {nn[0]}")

Inneholder også 'feil'
 nb: Godkjente skrivemåter: Ståret (vedtatt av kommunen i 2004). 
 nn: Godkjende skrivemåtar: Lavik (godkjend av kommunen i 1986).


## Tokenization

Fit the BPE tokenizer on a subset of the concatenated text of both languages with a set vocabulary 
size.

In [5]:
import sys
sys.path.append("../")
from tokenization.bpe import RegexTokenizer  # noqa

In [6]:
tokenizer = RegexTokenizer()

tokenizer.train(text=nb[:250] + nn[:250], vocab_size=5000)

### Example tokenization

In [7]:
print(f"Original\n"
      f" nb: {nb[0]} \n"
      f" nn: {nn[0]}")

print(f"Tokenized\n"
      f" nb: {tokenizer.encode(nb[0])} \n"
      f" nn: {tokenizer.encode(nn[0])}")

print(f"Detokenized\n"
      f" nb: {tokenizer.decode(tokenizer.encode(nb[0]))} \n"
      f" nn: {tokenizer.decode(tokenizer.encode(nn[0]))}")

Original
 nb: Godkjente skrivemåter: Ståret (vedtatt av kommunen i 2004). 
 nn: Godkjende skrivemåtar: Lavik (godkjend av kommunen i 1986).
Tokenized
 nb: [4283, 971, 58, 4284, 360, 2159, 288, 726, 270, 32, 973, 52, 440] 
 nn: [4282, 469, 1067, 58, 4099, 360, 1068, 288, 726, 270, 32, 822, 54, 440]
Detokenized
 nb: Godkjente skrivemåter: Ståret (vedtatt av kommunen i 2004). 
 nn: Godkjende skrivemåtar: Lavik (godkjend av kommunen i 1986).
