In [1]:
import sys

sys.path.append("../dala")

In [2]:
from dala import dala_corrupt
from corruption_eval_utils import evaluate_corruptions, get_corrupted_list
from dala.dala_corrupt import SpacyModelSingleton
from dala.load_ud import load_dadt_pos

In [3]:
ud_da_dataset = load_dadt_pos()
ud_da_train = ud_da_dataset['train']['doc']
ud_da_val = ud_da_dataset['val']['doc']
ud_da_test = ud_da_dataset['test']['doc']

In [4]:
dk_model = SpacyModelSingleton("da_core_news_md")

In [5]:
def print_first_n(lst, n=5):
    for i in range(n):
        print(lst[i], "\n")

In [6]:
def print_results(res):
    print(f"Corruptions: {res[0]}")
    print(f"True Positives: {res[1]}")
    print(f"False Positives: {res[2]}")
    print(f"Precision: {res[3]:.3f}")
    # print(f"Index reached: {res[4]}")

---

## Evaluations

### Evaluate indefinite determiner corruption

In [None]:
indefinite_determiner_flip_list = get_corrupted_list(dala_corrupt.flip_indefinite_article, ud_da_train, dk_model)
print_first_n(indefinite_determiner_flip_list)

In [7]:
res = evaluate_corruptions(indefinite_determiner_flip_list.copy(), ["Kendeord"], "indefinite_determiner")

Evaluating corruptions: 100%|██████████| 1286/1286 [12:03<00:00,  1.78it/s]


In [8]:
print_results(res)

Corruptions: 1286
True Positives: 1095
False Positives: 191
Precision: 0.85


### Evaluate determiner as suffix flip (-en/-et)

In [9]:
determiner_suffix_flip_list = get_corrupted_list(dala_corrupt.flip_en_et_suffix, ud_da_train, dk_model)
print_first_n(determiner_suffix_flip_list)

På fredag har SID inviteret til reception i SID-husen i anledning af at formanden Kjeld Christensen går ind i de glade tressere. 

Motivationet for at skrive under var ikke svær at finde. 

Nede ad Strøget fortsætter festet. 

Verdensstjernet besvarer høfligt alverdens spørgsmål med engleagtig tålmodighed. 

Nu fortsætter det med "Karlavagnen" som Ulf Starks børnebog hedder på svensk, hvor der er et ordspil i, at der ligger et pigenavn gemt i stjernebilleden. 



In [12]:
res = evaluate_corruptions(determiner_suffix_flip_list.copy(), ["Stavefejl", "Udsagnsord", "Sammensatte ord", "Navneord", "Tillægsord", "Egennavn", "Ordforveksling"], "determiner_suffix")

Evaluating corruptions: 100%|██████████| 1954/1954 [13:57<00:00,  2.33it/s]


In [13]:
print_results(res)

Corruptions: 1954
True Positives: 755
False Positives: 1199
Precision: 0.39


### Evaluate han/hun to det corruption

In [6]:
flip_han_hun_to_det_list = get_corrupted_list(dala_corrupt.flip_han_hun_to_det, ud_da_train, dk_model)
print_first_n(flip_han_hun_to_det_list)

Der bliver just ikke taget med fløjlshandsker i disse døgn, da det skal afgøres, om demokraten Bill Clinton virkelig har et forspring foran den siddende præsident, republikaneren George Bush, og om den uafhængige Ross Perot kan trække så mange stemmer, at det forskyder resultatet, der jo drejer sig om, at nummer ét i hver delstat tager alle valgmandsstemmerne. 

I otte år var han med i byrådet i Hinnerup valgt af socialdemokratiet, det er tit blevet opfordret til at lade sig opstille igen, efter han er flyttet til Hadsten, men formanden for SID ved at en afdelingsformand skal repræsentere alle, og selvom socialdemokraterne er i overtal har både SF og Fremskridtspartiet fået deres gang på Vestergade. 

Men hun kan ikke både hjælpe ham og tænke på, hvad Tanja sagde, da det var uartig. 

Gunnar rystede på hovedet, talte til sig selv: - Nej, sagde det, - man ved det helt sikkert, inderst inde. 

Og Michael Christiansen hørte heller aldrig noget til nedprioriteringen af tamilsagerne, mens d

In [7]:
res = evaluate_corruptions(flip_han_hun_to_det_list.copy(), ["Hans, hendes eller sin", "Adverbier", "Kendeord"], "han_hun_to_det")

Evaluating corruptions: 100%|██████████| 148/148 [01:03<00:00,  2.31it/s]


In [8]:
print_results(res)

Corruptions: 148
True Positives: 6
False Positives: 142
Precision: 0.041


### Evaluate ende/ene flip corruption

In [7]:
ende_ene_flip_list = get_corrupted_list(dala_corrupt.corrupt_ende_ene, ud_da_train, dk_model)
print_first_n(ende_ene_flip_list)

Det harmonisøgene må for ikke at blive monotont rumme en vis grad af splittelse, og i selv den mest spontane udfoldelse må der være et minimum af struktur. 

Selv de 700 udstationerede politibetjente deltager livligt i folkefesterne og sender opmuntrene tilråb til de kæmpende motionister, der trods smerte og udmattelse og forhindringer i form af plasticbægre opretholder en hel utrolig disciplin med den største hensyntagen til andre løbere. 

Det er dybt ydmygene, " mente Kaj Poulsen. 

Topmålet af farlig indoktrinering indtraf d. 12. januar 1976, da Clevin for øjnende af en halv million mindreårige sagde: - Og nu skal vi bruge hammeren til at sætte sejlet fast. 

Vi vil også etablere nordiske kontakter, så vi kan få norsk og svensk ind i danskundervisningen på en mere spændene og naturlig måde, end vi kan gøre det blot gennem tekstlæsning. 



In [8]:
res = evaluate_corruptions(ende_ene_flip_list.copy(), ["Endelsen -ene/-ende", "Stavefejl", "Udsagnsord"], "ende_ene_flip")

Evaluating corruptions: 100%|██████████| 487/487 [03:34<00:00,  2.27it/s]


In [9]:
print_results(res)

Corruptions: 487
True Positives: 477
False Positives: 10
Precision: 0.98


### Evaluate pronouns flip corruption

In [6]:
pronouns_flip_list = get_corrupted_list(dala_corrupt.flip_pronouns, ud_da_train, dk_model)
print_first_n(pronouns_flip_list, 10)

- Frifindelsen er på ingen måde en blåstempling af, at dem har varetaget deres bestyrelsesarbejde på forbilledlig vis - det er langt fra tilfældet, indskød dommeren under sine bemærkninger til dommen. 

... ved nytilkomne mavesmerter, selv lettere, af mere end få dages varighed - særlig hvis dig er over 40 år. 

Men i anden runde af præsidentvalget får ham en vigtig rolle, fordi han vil bede sine vælgere om at støtte Iliescu. 

Os troede dermed, at hun var specielt seriøs. 

Og selv om drankere i modsætning til de fleste andre - menneskene er bødler og svin! - er fredelige folk, så er heller ikke denne sandhed hele sandheden: "Os havde sagt farvel til verden og var gået ind i vore egne drømme, hvor det kunne være pragtfuldt, og det kunne være et helvede." 

Dem var med den enestående effektivitet, som Italien også magter at præstere, allerede på plads tirsdag morgen. 

Hende åbner smøgæsken. 

Bagefter forklarede Alexander Dubcek over for Deres udsendte, at ham var misfornøjet med Vest

In [7]:
res = evaluate_corruptions(pronouns_flip_list.copy(), ["Stedord", "Stavefejl", "Hans, hendes eller sin", "Kendeord", "Ordforveksling", "Ejefald", "Udsagnsord", "Navneord", "Egennavn", "Nutids-r"], "pronouns_flip")

Evaluating corruptions: 100%|██████████| 1640/1640 [11:13<00:00,  2.44it/s]


In [8]:
print_results(res)

Corruptions: 1640
True Positives: 763
False Positives: 877
Precision: 0.465


### Evaluate nogle/nogen flip corruption

In [9]:
nogen_nogle_flip_list = get_corrupted_list(dala_corrupt.flip_nogle_nogen, ud_da_train, dk_model)
print_first_n(nogen_nogle_flip_list, 10)

Hun har ikke tænkt sig at tage afstemningsresultatet til efterretning, fordi der ikke findes nogle mellemløsning. 

"Man kan næsten se, at nogen af de der tynde madammer med højlakerede røde negle tænker: Guuud, altså," siger den 25-årige Bettina Jørgensen fra Hammel. 

Rør derefter blandingen af courgette, agurk og aubergine i løgene og steg blandingen over kraftig varme nogen minutter. 

Shell måtte for nogen år siden trække et produkt ud af markedet, fordi det skadede en række bilmotorer. 

Man bliver måske ikke så varm om fødderne i sko, men til gengæld giver støvlerne nogle støtte til anklerne, hvilket man måske bør holde sig for øje hvis man har tendenser til at vrikke om. 

" Der burde være nogen minimumskrav for oprettelse af solcentre sammen med efterfølgende jævnlige tilsyn. 

I det øjeblik forstår jeg, at smerten, som er min krops angst for Døden, er stærkere end alt, stærkere end nogle længsel, end nogen beslutning. 

I de sidste to århundreder har vi gjort det mindst tre g

In [10]:
res = evaluate_corruptions(nogen_nogle_flip_list.copy(), ["Nogen eller nogle", "Stavefejl"], "nogen_nogle_flip")

Evaluating corruptions: 100%|██████████| 63/63 [00:31<00:00,  1.98it/s]


In [11]:
print_results(res)

Corruptions: 63
True Positives: 61
False Positives: 2
Precision: 0.968


### Evaluate som/der flip corruption

In [12]:
som_der_flip_list = get_corrupted_list(dala_corrupt.flip_som_der, ud_da_train, dk_model)
print_first_n(som_der_flip_list, 10)

Parken har fejl og mangler, der fodbold-publikummet hverken kan eller vil leve med. 

Sideløbende med forberedelserne til næste års Le-Mans-race kører ACO en erstatningssag mod FIA for de tab, der klubben har lidt som følge af sportskommissionen FISA's manglende indfrielse af løfter og forpligtelser indgået i forbindelse med en tvangsordning omkring det klassiske langdistanceløb. 

1) Først tager man hele familiesamværet mellem forældre og børn og trækker noget ud af det, der man kalder "opdragelse" - et ganske tilfældigt afgrænset fænomen. 

Som komponisten i øvrigt venligt, men bestemt, afviser at udlægge endsige fortolke overhovedet - " det betyder ikke noget for mig, hvis der er noget, der folk ikke forstår. 

De havde læst på samme hold (M 17) med hende siden efteråret og er lige nu gået i gang med 2. semester af medicinstudiet - det studium, der Betina aldrig fik lov til at gennemføre på grund af den bestialske forbrydelse mod hende. 

Det var ellers Bild, der dagen før EM-finale

In [13]:
res = evaluate_corruptions(som_der_flip_list.copy(), ["Ordforveksling"], "som_der_flip")

Evaluating corruptions: 100%|██████████| 58/58 [00:44<00:00,  1.29it/s]


In [14]:
print_results(res)

Corruptions: 58
True Positives: 57
False Positives: 1
Precision: 0.983


### Evaluate ligge/laegge flip corruption

In [15]:
ligge_laegge_flip_list = get_corrupted_list(dala_corrupt.flip_ligge_laegge, ud_da_train, dk_model)
print_first_n(ligge_laegge_flip_list, 10)

Han talte et stykke tid i røret, og da han lå det fra sig, strakte han sig og sukkede tilfreds. 

Da hun bad ham om at ligge kniven, sagde han, at han aldrig kunne finde på at gøre hende noget. 

Flere års omhyggeligt arbejde med at opsøge og nænsomt restaurere kendte og ukendte gamle masterbånd lægger bag. 

Anne lagde med ryggen til døren, som et fornærmet barn der surmuler. 

Ligeledes oplyser et flertal af de største industrivirksomheder, at ordrebeholdningerne lægger under det normale. 

Dette beklager vi i Kapellet dybt, da der er tale om en begivenhed, som lægger tredive år tilbage i tiden, og da det er en ganske naturlig proces for et orkester at deltage i valget af dets dirigenter. 

Guvernøren for Erzincan-provinsen, Fikret Cuhadaroglu, oplyste, at en fjerdedel af byen lagde i ruiner. 

Den lægger lige ved den stenede strand og består af en fem meter dyb hule, hvor der er udgravet nogle hylder, som ifølge hummerfiskeren skulle være Robinsons eget værk. 

En mulighed for snyd 

In [16]:
res = evaluate_corruptions(ligge_laegge_flip_list.copy(), ["Ligge eller lægge"], "ligge_laegge_flip")

Evaluating corruptions: 100%|██████████| 73/73 [00:49<00:00,  1.48it/s]


In [17]:
print_results(res)

Corruptions: 73
True Positives: 72
False Positives: 1
Precision: 0.986


### Evaluate r corruption (verbs)

In [18]:
corrupt_r_verb_list = get_corrupted_list(dala_corrupt.corrupt_verb_r, ud_da_train, dk_model)
print_first_n(corrupt_r_verb_list, 10)

Lars Villemoes kommentere musikken på følgende måde i Information: " En hyldest til glæden og seksualiteten i et univers, der får grænser og mening af mørke og død, smerte og nød. 

Resultaterne af de foreslåede analyser bør derfor være tilgængelige, så patienten kan vælge, om han vil vente til der er plads på et hospital med en lille fejlmargin eller eventuelt vil accepterer en, som er større. 

Prøver man, enten fordi en galleriejer diktere det for at gøre gode forretninger, eller af egen fri vilje, ender kunsten med at blive banal. 

Og for ham er der en klar sammenhæng mellem at kunne dansk og at kunne klarer sig i det danske samfund. 

En af grundene til min tilbageholdenhed har været: "Kan du nu klarer det, hvis folk kritiserer dig for meget?" 

" Alle, der har været så tæt på branden, at de har kunnet fornemme lugten, risikere inden for 24 timer at pådrage sig væske i lungerne. 

Han vipper med den store gadelampe og dirigere. 

Politi kørte rundt med højttalere på biltaget for 

In [21]:
res = evaluate_corruptions(corrupt_r_verb_list.copy(), ["Nutids-r", "Udsagnsord", "Stavefejl"], "verb_r")

Evaluating corruptions: 100%|██████████| 412/412 [04:32<00:00,  1.51it/s]


In [22]:
print_results(res)

Corruptions: 412
True Positives: 401
False Positives: 11
Precision: 0.973


### Evaluate r corruption (nouns)

In [23]:
corrupt_r_noun_list = get_corrupted_list(dala_corrupt.corrupt_noun_r, ud_da_train, dk_model)
print_first_n(corrupt_r_noun_list, 10)

På fredag har SID inviteret til reception i SID-huset i anledning af at formanden Kjeld Christensen går ind i de glade tresser. 

De skal indgå i ethvert måltid - og til mellemmåltidene må de gerne være eneste komponent. 

I otte år var han med i byrådet i Hinnerup valgt af socialdemokratiet, han er tit blevet opfordret til at lade sig opstille igen, efter han er flyttet til Hadsten, men formanden for SID ved at en afdelingsformand skal repræsentere alle, og selvom socialdemokratene er i overtal har både SF og Fremskridtspartiet fået deres gang på Vestergade. 

Der var fuldt program i divisionene i weekenden - se referatet i mandagens sportstillæg. 

Fredsbevægelsene (styret af venstrefløjen), hvor mange velmenende men bange mennesker deltager, kan gøre deres demonstrationer mere troværdige, hvis de overbeviser os andre om, at de vil skrive om og demonstrere imod østmagternes oprustning på samme måde, som de daglig prøver at presse Vesteuropa til ikke at opstille de 572 rakketter. 

Fo

In [26]:
res = evaluate_corruptions(corrupt_r_noun_list.copy(), ["Stavefejl", "Navneord", "Endelsen -ene/-ende", "Afledningsendelser", "Kendeord", "Sammensatte ord", "Nutids-r", "Udsagnsord", "Tillægsord"], "noun_r")

Evaluating corruptions: 100%|██████████| 724/724 [04:49<00:00,  2.50it/s]


In [27]:
print_results(res)

Corruptions: 724
True Positives: 323
False Positives: 401
Precision: 0.446


### Evaluate r corruption (adjectives)

In [34]:
corrupt_r_adjective_list = get_corrupted_list(dala_corrupt.corrupt_adjective_r, ud_da_train, dk_model)
print_first_n(corrupt_r_adjective_list, 10)

Langt mer end dens modstandere havde troet var muligt. 

Men løsningen på længer sigt er helt klart at lægge klubberne sammen, siger Gerner Jørgensen, formand for Rudbjerg IF. 

I denne forbindelse har økonomer fra de sydøstasiatiske lande gjort opmærksom på, at fler af landene i dette område har haft vækstrater, der er lige så store som Japans, så de må inddrages i overvejelserne, når man vil forklare "det japanske mirakel". 

Aktionærgruppen er utilfreds med, at Klaus Riskær som bestyrelsesformand får stillet en 27 mill. kroners villa, et fly og fler biler til rådighed, ligesom de udtrykker usikkerhed med hensyn til Klaus Riskærs køb af De Bergske Blade. 

Det er mer end tre måneder siden, at serberne begyndte krigen for at annektere en stor del af Bosnien og med magt deportere flere hundrede tusinde af dets indbyggere. 

Min sjæl, hvad vil du mere '? 

Han vurderer, at Hafnia kan få endnu mer for Baltica-aktierne ved at sælge dem i udlandet. 

"Der skal ikke meget mer til end blot d

In [37]:
res = evaluate_corruptions(corrupt_r_adjective_list.copy(), ["Tillægsord", "Endelsen -ene/-ende", "Stavefejl", "Nutids-r", "Afledningsendelser"], "adjective_r")

Evaluating corruptions: 100%|██████████| 207/207 [01:27<00:00,  2.37it/s]


In [41]:
print_results(res)

Corruptions: 207
True Positives: 159
False Positives: 48
Precision: 0.768


### Evaluate genitive corruption

In [7]:
genitive_corruption_list = get_corrupted_list(dala_corrupt.corrupt_genitive, ud_da_train, dk_model)
print_first_n(genitive_corruption_list, 10)

En karriere, der hidtil har budt på 112 kampe, 102 sejre, fem jyske mesterskaber, én SM-titel og to guld-medaljer i CBC, skal krones med deltagelse i en olympisk turnering, som med Brian Lentz's ord er "enhver sportsmands drøm". 

Med sit rummelighedsindeks på 8805 mm har kun BMW' 3-serie et hårstrå mindre kabine i en prisklasse, der toppes af rummeligheds-giganter som Citroen XM, Opel Omega og Peugeot 605. 

Sideløbende med forberedelserne til næste års Le-Mans-race kører ACO en erstatningssag mod FIA for de tab, som klubben har lidt som følge af sportskommissionen FISA' manglende indfrielse af løfter og forpligtelser indgået i forbindelse med en tvangsordning omkring det klassiske langdistanceløb. 

Tweedies dagbog fra Indien, hvor hun mødte Mesteren, danner baggrund for den sidste og sprudlende del af forestillingen, hvor Randi Patterson har sprængt den moderne dans's pæne rammer med sang, sære instrumenter og tre ægte akrobater. 

Trods de dystre toner, og Depeche Modes mindst hitp

In [9]:
res = evaluate_corruptions(genitive_corruption_list.copy(), ["Ejefald", "Egennavn", "Store og små bogstaver", "Stavefejl"], "genitive")

Evaluating corruptions: 100%|██████████| 30/30 [00:12<00:00,  2.32it/s]


In [10]:
print_results(res)

Corruptions: 30
True Positives: 13
False Positives: 17
Precision: 0.433


### Evaluate får/for flip corruption

In [45]:
for_flip_list = get_corrupted_list(dala_corrupt.flip_far_for, ud_da_train, dk_model)
print_first_n(for_flip_list, 10)

"Debatten må sende en klar besked til dem, der er ansvarlige får lemlæstelsen af Bosnien-Hercegovina, om at det internationale samfunds tålmodighed er sluppet op, og at yderligere voldshandlinger og manglende overholdelse af internationale normer ikke vil blive tilladt," sagde Tyrkiets FN-ambassadør, Mustafa Aksin. 

Men de glemte i deres begejstring får fremtidens muligheder, alt for mange af dem, der var med til at skabe fortidens. 

I virkeligheden, mener han, er en kvalificeret musikundervisning vigtigere får den tidlige sprogudvikling end dansk-timer. 

En af grundene til min tilbageholdenhed har været: "Kan du nu klare det, hvis folk kritiserer dig får meget?" 

Subaru sælger en hel del biler i både Schweiz og Tyskland og kan få mere får bilerne der, så det har ingen hastværk med at overfylde de danske lagre med Subaru-biler. 

" Spiser man hver dag et par kapsler med det kold-lagrede hvidløg, for man alle de fordele, der findes i det rå hvidløg, og et par stykker oveni, mener do

In [46]:
res = evaluate_corruptions(for_flip_list.copy(), ["Stavefejl", "For eller får", "Udsagnsord"], "far_for_flip")

Evaluating corruptions: 100%|██████████| 831/831 [06:04<00:00,  2.28it/s]


In [47]:
print_results(res)

Corruptions: 831
True Positives: 813
False Positives: 18
Precision: 0.978


---

## Other code

In [None]:
# From a file remove all lines starting with "Error types:" and remove any occurrence of "Sentence: "
with open("write_assistant_errors_genitive.txt", "r") as f:
    lines = f.readlines()
with open("write_assistant_errors_sent_only.txt", "w") as f:
    for line in lines:
        if line.startswith("Error types:"):
            continue
        line = line.replace("Sentence: ", "")
        f.write(line)

In [None]:
tp = res[1]
fp = res[2]

# Count how many lines start with "    No -" in a markdown file
with open("not_detected/claude_genitive.md", "r") as f:
    lines = f.readlines()
    count = sum(1 for line in lines if line.startswith("Correct: No"))
    print(f"Number of correctly corrupted: {count}/{fp}")

new_tp = tp+count
new_fp = fp-count
new_precision = new_tp / (new_tp + new_fp) if (new_tp + new_fp) > 0 else 0
print(f"New True Positives: {new_tp}")
print(f"New False Positives: {new_fp}")
print(f"New Precision: {new_precision:.2f}")