# Anagrammer
A class that quickly searches for anagrams using an idea posted in a [tweet](https://twitter.com/fermatslibrary/status/958700402647674880)

In [1]:
#First we build a corpus using a (dutch) word list
from nltk.tokenize import RegexpTokenizer 
from nltk.corpus import stopwords
#https://www.opentaal.org/bestanden/file/2-woordenlijst-v-2-10g-bronbestanden
#https://creativecommons.org/licenses/by/3.0/legalcode
tokenizer = RegexpTokenizer(r'\w+')
corpus = tokenizer.tokenize((open('db/OpenTaal-210G-basis-gekeurd.txt').read().lower()))

#for now we only use the alphabetical characters
import re
corpus = [word for word in corpus if [word] == re.findall(r"[a-z]+",word)]

print("Loaded %d words in corpus" % (len(corpus)))

Loaded 166781 words in corpus


In [2]:
from importlib import reload  
from Anagrammer import Anagrammer
ana = Anagrammer(corpus)

## The functions

In [7]:
print(ana.createAnagramHash("bewegingsvrijheid"))
print(ana.getAnagrams("antillenroute"))
print(Anagrammer.morph_dist("nultolerantie", "antillenroute"))
print(Anagrammer.morph_dist("geweerkogel", "kogelgeweer"))
print(ana.getAnagrams("hottentottententententoonstelling"))

62403446599589945295831
['nultolerantie']
0.8181818181818181
0.2222222222222222
None


## Calculating all anagrams in the corpus

In [16]:
import time
t0 = time.clock()
i = 0
for word in set(corpus):
    anagrams = ana.getAnagrams(word)
    if anagrams:
        i = i + len(anagrams)
        #print("For %s found synonyms: %s." % (word, str(anagrams)))

print("Calculated %d anagrams out of %d candidates in %.4f seconds" % (i, len(corpus), time.clock() - t0))


  


Calculated 12526 anagrams out of 166781 candidates in 0.6195 seconds


  # Remove the CWD from sys.path while we load stuff.


## Filtering anagrams by morph distance
Technically "kogelgeweer" and "geweerkogel" are anagrams, but not as interesting as "antillenroute" and "nultolerantie" What if we filter by distance to obtain more complex anagrams.

In [14]:
import time
t0 = time.clock()
i = 0
for word in set(corpus):
    anagrams = ana.getAnagrams(word)
    for candidate in anagrams:
        if Anagrammer.morph_dist(word, candidate) >= 0.6:
            i = i + 1
            print("%s: %s" % (word,candidate))

print("Calculated %d complex anagrams out of %d candidates in %.4f seconds" % (i, len(corpus), time.clock() - t0))

  


rammelen: lammeren.
sober: broes.
sober: boers.
iel: lei.
buiklap: puibalk.
miezerig: iezegrim.
gelag: gagel.
beiaarden: bedienaar.
beiaarden: aanbieder.
zegel: gezel.
la: al.
kippenkuur: kneippkuur.
kust: stuk.
cleaner: relance.
aterling: triangel.
toonder: rotonde.
kog: gok.
smelterij: rijstmeel.
blokkeren: brokkelen.
veto: voet.
torment: omtrent.
klapmuts: kamplust.
armenwijk: wijnmaker.
geleidraad: edelaardig.
kindje: dijken.
biest: beits.
biest: biets.
enk: nek.
nekpijn: knijpen.
arte: tera.
ongel: logen.
brokaten: bankroet.
cisplatine: plasticine.
verhalen: halveren.
arp: rap.
pens: snep.
goudleer: eurogeld.
spektakel: lespakket.
tijm: mijt.
storend: dorsten.
storend: onderst.
poli: pilo.
kortte: kotter.
fatsen: nefast.
fresia: afreis.
rog: org.
skating: staking.
lekenspel: enkelspel.
stuifbal: basfluit.
tjirpen: trijpen.
plak: klap.
afperken: afpreken.
meeting: menigte.
angel: nagel.
angel: lagen.
lakmoes: kalmoes.
laxeren: relaxen.
vetsmering: vermesting.
snede: sneed.
snede: d

gelasten: galsteen.
gelasten: lengteas.
rationeel: notarieel.
draaien: dienaar.
rol: lor.
verloden: verdolen.
afploegen: afgelopen.
versteend: stervende.
correlaat: rectoraal.
bosrit: bistro.
geruit: ruigte.
stofnaam: maanstof.
puls: plus.
code: deco.
negatief: afgieten.
geelbek: gelebek.
deelname: meeladen.
neerdoen: ondereen.
erbuiten: uitbener.
knot: kont.
uitdoven: duinvoet.
uitdoven: tienvoud.
piel: liep.
piel: peil.
rijksdag: grasdijk.
hollandse: salonheld.
song: gons.
beroet: boeter.
werkkader: dakwerker.
wouden: douwen.
nestveren: verstenen.
riek: kier.
gebaand: bandage.
neofiel: felonie.
bardame: beraamd.
lik: kil.
sleten: lentes.
sleten: stelen.
sleten: nestel.
voortrekken: overtrokken.
dorren: ordner.
puilen: lupine.
speelnoot: sleeptoon.
lijkkoets: kostelijk.
groenlands: onderlangs.
goederen: ongerede.
boekentas: bonesteak.
voeren: roeven.
voeren: onvree.
voren: roven.
gefemel: gefleem.
bse: bes.
alzo: zoal.
snoepreis: responsie.
poel: loep.
bevraging: begraving.
loodverf: 

del: led.
burenplicht: burchtplein.
productioneel: olieproducent.
molaar: moraal.
palmolie: lampolie.
palmolie: olielamp.
taikoen: akoniet.
marche: macher.
marche: charme.
iron: orni.
iron: noir.
preektoon: opkoteren.
onbeplant: platenbon.
valnet: levant.
lade: deal.
paander: paarden.
interesse: siersteen.
steentijd: etenstijd.
velen: nevel.
velen: leven.
kerstekind: kerkdienst.
paartje: praatje.
an: na.
bedienaar: beiaarden.
bedienaar: aanbieder.
stam: mast.
raderkast: dakterras.
pantserglas: grensplaats.
sint: snit.
egel: leeg.
egel: glee.
egel: geel.
slet: lest.
slet: stel.
bodemerij: moederbij.
klever: krevel.
klever: kervel.
opgeven: opvegen.
kerkrat: trekkar.
kardeel: dakleer.
kevlar: klaver.
sentiment: tenminste.
jachtgebied: bijgedachte.
lam: mal.
lam: alm.
sul: lus.
vasten: staven.
knop: ponk.
zone: zoen.
zone: onze.
sering: singer.
verloten: onverlet.
verloten: rotleven.
sri: rsi.
tennis: intens.
snotaap: opstaan.
klaas: slaak.
sloot: stool.
verdorie: diervoer.
pierlala: rapa

serail: relais.
led: del.
raak: kaar.
raak: arak.
pistool: pitloos.
trots: stort.
likdoorn: kroonlid.
xlvi: xliv.
taxipost: taxistop.
adelen: dealen.
adelen: nadeel.
beroerd: broeder.
bloedvat: bladvoet.
vigeren: grieven.
doorvragen: doorgraven.
collage: collega.
beenwerk: bewerken.
opkomer: omkoper.
prerogatief: tariefgroep.
tab: bat.
tab: atb.
ongeleid: gloeiend.
riksja: ijskar.
bedelnap: bepalend.
perfectie: receptief.
koeteren: toekeren.
leukjes: jeuksel.
drops: dorps.
voordelig: volgroeid.
banvloeken: bovenlaken.
subthema: bushmeat.
opkomen: omkopen.
loken: kolen.
loken: onkel.
nevel: velen.
nevel: leven.
ondermaats: omstaander.
stuk: kust.
landaard: landraad.
novel: loven.
vermogen: mengvoer.
abel: albe.
abel: leba.
zorgpremie: zomergriep.
burg: brug.
torpederen: deporteren.
regel: leger.
handboek: hoekband.
pus: ups.
opdrijving: dopingvrij.
toros: soort.
toros: torso.
steenblok: belkosten.
alert: alter.
alert: ratel.
alert: later.
kistwerk: stikwerk.
zegenen: genezen.
doceren: c

bekoren: beroken.
bekoren: broeken.
bekoren: berkoen.
gehore: hogere.
deporteren: torpederen.
sinopel: epsilon.
vorken: korven.
ontduiker: duiktoren.
mestvee: stemvee.
goesting: ongegist.
splijten: tsjilpen.
dreun: duren.
wegvegen: weggeven.
gebruiken: bekeuring.
vagen: gaven.
brem: berm.
dementie: eindmeet.
kansel: lakens.
kansel: slaken.
motse: moest.
steenbok: bestoken.
spelonk: lenskop.
creatief: refactie.
spelkamer: spelmaker.
wegvoering: overweging.
lijstvorm: stijlvorm.
boomkor: rookbom.
kerel: rekel.
narcotine: container.
teer: reet.
teer: eter.
teer: tree.
teamwork: waterkom.
grunge: ruggen.
bijblad: djilbab.
knolgroei: linkeroog.
lentes: stelen.
lentes: nestel.
lentes: sleten.
neppil: nippel.
neppil: lippen.
knorbeen: bekronen.
rechtsleven: verslechten.
radheid: diehard.
test: tets.
riemen: mieren.
brussel: blusser.
onzen: zonne.
theekist: stikheet.
mantelpak: platmaken.
mantelpak: lampetkan.
poststuk: stopstuk.
toon: noot.
ankerknoop: knapenkoor.
genie: enige.
genie: geien.


dorstig: drogist.
basnoot: bastoon.
moord: droom.
vertaling: verlating.
shoarma: haarmos.
vensterdorpel: sportverleden.
vief: five.
engte: tegen.
engte: genet.
trash: harst.
loten: lento.
drukfeil: filedruk.
aanvragen: aangraven.
aanvragen: aanvanger.
rijven: vrijen.
oversteker: voerstreek.
genot: togen.
dagloon: gondola.
koot: toko.
koot: koto.
pornobaas: spoorbaan.
overtrokken: voortrekken.
langoer: organel.
wegdraaien: eenwaardig.
gemartel: telegram.
berde: breed.
stommelen: omsmelten.
peren: repen.
peel: leep.
peel: plee.
tampon: topman.
latei: talie.
alinea: laaien.
gender: engerd.
krapte: parket.
krapte: karpet.
ontmaskering: kostenraming.
murw: wurm.
dwalen: wandel.
gedragen: regendag.
dada: daad.
raakheid: draaihek.
nozem: zomen.
ondervloer: donorlever.
boekanier: ankerboei.
toerisme: timorees.
rijtoer: roterij.
pachten: patchen.
lenig: inleg.
sproot: stroop.
reten: renet.
reten: terne.
reten: teren.
reten: entre.
reten: enter.
reten: rente.
lampolie: oliepalm.
lampolie: palmol

zeisen: seizen.
short: horst.
oempa: poema.
filtergaas: galeistraf.
landkrab: randbalk.
delging: gelding.
delging: liggend.
wonder: worden.
wonder: downer.
betel: belet.
opvegen: opgeven.
lto: lot.
regen: geren.
regen: neger.
regen: green.
regen: genre.
kongeraal: kraalogen.
rieten: intree.
rieten: tiener.
rieten: tieren.
snavel: slaven.
stemvork: mestvork.
gentse: tegens.
gentse: stegen.
presentator: paternoster.
geronk: geknor.
seiner: sieren.
seiner: sirene.
joint: ontij.
harmonie: mohairen.
tsaar: staar.
tsaar: rasta.
stern: trens.
stern: snert.
stern: ernst.
stern: nerts.
goorheid: driehoog.
gastmaal: maatglas.
gastmaal: maatslag.
gastmaal: laagstam.
vriend: vinder.
bergwand: brandweg.
neurend: dreunen.
timpen: piment.
zepen: pezen.
ternair: trainer.
stil: list.
stil: lits.
staker: skater.
staker: krates.
fiertel: fertiel.
bevaren: verbena.
mastboom: stamboom.
mastboom: boomstam.
lospraten: opstralen.
ris: rsi.
enne: neen.
metalig: gietmal.
horse: heros.
zijnet: tenzij.
bekerduel:

  # This is added back by InteractiveShellApp.init_path()
