# Toepassing N-Gram Text Generator

We gaan ons ngram script toepassen op de publicaties: "Cancer: Its Cause and Treatment" volume I & II van Lucius Duncan Bulkley. Om dit te doen moet de inhoud van de teksten eerst gedownload worden en worden opgeslagen als .txt bestand.

Vervolgens kan onze tokenizer worden aangeroepen om de tekst te veranderen in tokens. Hierbij wordt eerst de 'learn' command aangeroepen, waarbij hij wordt getraind op de meegegeven text en BPE uitvoert met de gegeven waarden voor max_tokens en min_freq. Vervolgens wordt de 'tokenize' command uitgevoerd, deze zet de meegegeven tekst om in tokens. Aan het learn command geef ik de tekst mee en de waarden voor max_tokens (1000) en min_freq (15). Er mogen dus maximaal 1000 tokens worden aangemaakt en de tokens die worden aangemaakt moeten minimaal 15 keer voorkomen in de tekst.


In [92]:
!python tokenizer.py learn -i .\resources\gutenberg_cancer.txt -t 1000 -f 15

Encoding saved: C:\Users\yamil\OneDrive - Hanze\Bio-informatica\Jaar 3\3.3 Modelling Cancer\natural-language-processing\gutenberg_cancer.enc
BPE learned! Max tokens respected: 1000


Hieronder zijn alle aangemaakte tokens te zien:

In [96]:
with open(r"gutenberg_cancer.enc", "r", encoding="utf-8") as f:
    contents = f.read()
    print(contents)

1:t
2:h
3:e
4:p
5:r
6:o
7:j
8:c
9:g
10:u
11:n
12:b
13:k
14:f
15:a
16::
17:i
18:s
19:d
20:m
21:,
22:v
23:l
24:1
25:(
26:2
27:)
28:y
29:w
30:.
31:-
32:9
33:0
34:[
35:#
36:5
37:]
38:/
39:*
40:_
41:;
42:x
43:q
44:z
45:3
46:4
47:7
48:6
49:“
50:”
51:ö
52:!
53:?
54:8
55:—
56:é
57:½
58:’
59:‒
60:æ
61:ü
62:œ
63:}
64:ë
65:℞
66:‾
67:¼
68:℥
69:ʒ
70:¾
71:+
72:%
73:$
74:™
75:•
76:‘
77:〃
78:×
79:=
80:ô
81:ℨ
82:ā
83:th
84:er
85:he
86:in
87:an
88:re
89:at
90:on
91:en
92:ti
93:nd
94:of
95:te
96:es
97:or
98:ce
99:al
100:ca
101:ed
102:se
103:is
104:it
105:as
106:ar
107:ea
108:st
109:nt
110:nc
111:ha
112:me
113:ve
114:io
115:ic
116:to
117:di
118:ro
119:ng
120:ou
121:le
122:ta
123:be
124:co
125:li
126:ma
127:de
128:ra
129:ly
130:hi
131:ur
132:ec
133:ri
134:ne
135:ct
136:ch
137:ll
138:pe
139:om
140:pr
141:el
142:wh
143:no
144:la
145:fo
146:ut
147:si
148:us
149:mo
150:ns
151:tr
152:et
153:ho
154:ie
155:so
156:su
157:ge
158:wi
159:ee
160:em
161:ot
162:ul
163:lo
164:ac
165:ss
166:rt
167:un
168:ts
169:il
170:rs


Vervolgens zet ik de Gutenberg tekst om naar het geencodeerde format, aan de hand van de aangemaakte tokens.

In [103]:
!python tokenizer.py tokenize -i resources\gutenberg_cancer.txt -e .\gutenberg_cancer.enc

Tokens saved: C:\Users\yamil\OneDrive - Hanze\Bio-informatica\Jaar 3\3.3 Modelling Cancer\natural-language-processing\gutenberg_cancer.tok


Het tok bestand bevat dus de geencodeerde versie van het inputbestand, hieronder is te zien hoe dat eruit ziet. Elke regel staat voor 1 woord, en elk woord bestaat uit 1 of meerdere tokens.

In [128]:
with open(r"gutenberg_cancer.tok", "r", encoding="utf-8") as f:
    contents = f.read()
    print(contents[1:100])

31
442 584 1
569 565 564
347 231 13
94
433 434 16
533
761 3
432
502 523 438 21
871 216 3
24
25 94
2


We bepalen de waarschijnlijkheden van het opvolgen van een woord op een ngram met onderstaande code. Voor unigrams (setjes van telkens 1 woord) gaat dit heel simpel, het kiest "random" een woord, met als bijbehorende weights hoe vaak dit woord voorkomt in de tekst. Voor hogere vormen van ngrams, bijvoorbeeld bigrams en trigrams, werkt dit iets anders. Hier is er eerst bepaald welke tokens kunnen volgen op de huidige token(s). De bigram "het kind" kan bijvoorbeeld opgevolgd worden door de woorden "eet", "slaapt" of "huilt", bij de tokens is het ook zo dat elke token of verzameling van tokens specifieke woorden heeft waardoor het opgevolgd kan worden (althans, volgens de tekst waarop hij is getraind!). Ook hier weer geldt dat er "willekeurig" een van de mogelijkheden wordt gekozen, met daarbij ook nog de invloed van weights, die vaak voorkomende combinaties waarschijnlijker zullen maken om gekozen te worden voor de te genereren tekst.

De gegenereerde tekst wordt met behulp van de decoder van de tokenizer gedecodeerd. De output wordt opgeslagen in een output bestand. Aan de hand van het getal dat wordt gebruikt voor n, zal de output er anders uitzien. Hieronder worden teksten van 100 woorden gegenereerd, met telkens een andere waarde voor n.

In [112]:
# n = 1
!python ngram.py .\gutenberg_cancer.tok -e .\gutenberg_cancer.enc -n 1 -l 100 -o n1gram.txt

N-gram tekst met n:1 en lengte 100 succesvol gegenereerd, opgeslagen op n1gram.txt


In [113]:
# n = 2
!python ngram.py .\gutenberg_cancer.tok -e .\gutenberg_cancer.enc -n 2 -l 100 -o n2gram.txt

N-gram tekst met n:2 en lengte 100 succesvol gegenereerd, opgeslagen op n2gram.txt


In [114]:
# n = 3
!python ngram.py .\gutenberg_cancer.tok -e .\gutenberg_cancer.enc -n 3 -l 100 -o n3gram.txt

N-gram tekst met n:3 en lengte 100 succesvol gegenereerd, opgeslagen op n3gram.txt


In [117]:
with open(r"n1gram.txt", "r", encoding="utf-8") as f:
    contents = f.read()
    print(contents)

g j c . of y om s ar dise be or ly sion reti acti are ing not cer now y l has 4 e cat , ; comp red rou ati ect ia and ved been per of oth a tt inv is und t ing . urre ted ty th 1 for was 2 , in le ter isti tum por e su pe rac thre dis ri mo it ect a has xt a . in al si ia tum dise ke have ow do thou gy ty dep ant bl can ity le all ul out , dise


In [118]:
with open(r"n2gram.txt", "r", encoding="utf-8") as f:
    contents = f.read()
    print(contents)

all . if you pa id for it by sen din g sc al e of can cer , as they pre sen tin g the lin e of can cer . in a case . the or ig inal ref eren ces to pro vi de a rep ort ed fro m nor mal , oft en ver y diff ic ul t to ke ep up a pro duc ts , whic h are exc lud ed . the ly mp ho cy to pro vi din g the lin es la id do wn by my vol


In [119]:
with open(r"n3gram.txt", "r", encoding="utf-8") as f:
    contents = f.read()
    print(contents)

9 1 4 , we may ci te a fe w of the case s wer e lear ne d reg ard ing the cell s to res ist the at hr ep tic inf luen ce sur gic al oper ati on the ory of ha nd le y , a . m . was fir st con sc ious of a lu mp in the bre ast , ut er us , st oma ch , inte sti nal exc reti on , who se imp ro ve at on ce cl ass them with the var ious


Als we nu kijken naar de 3 verschillende outputs, lijkt het gelijk al duidelijk dat 1 geen goede keuze is voor een ngram. Alle tokens zijn willekeurig gekozen, dus zit er geen logica in. Veel tokens die naast elkaar zijn geplaatst, zouden normaal niet naast elkaar kunnen staan in het Engels. Bij n=2 zit hier al verbetering in. De woorden die naast elkaar staan lijken elke keer wel logisch en lijken te kloppen, maar als je dan verder kijkt dan naar de woorden direct naast elkaar, dus naar de hele zin, dan zie je dat er weinig logica in zit en de zin nog steeds niet helemaal te volgen is. Bij n=3 geldt hetzelfde als bij n=2, alleen zijn de "logische" stukjes dan iets groter, maar nogmaals bij het kijken naar de gehele zin lijkt het niet helemaal te kloppen. Een groot deel van hoe logisch/kloppend de zinnen worden met het genereren van tekst hangt naast de n ook af van het maximaal gekozen aantal tokens. Als er geen limiet wordt ingesteld, zal elk woord een eigen token worden en zal de tekst vanzelf ook beter te volgen zijn.