In [1]:
import pandas as pd
import string
import json
import re
import random
import os

In [2]:
!rm -rf CharSplit

In [3]:
from dialect_perturbations import * 

2023-09-11 16:23:57 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.5.1.json:   0%|   …

2023-09-11 16:23:58 INFO: Loading these models for language: de (German):
| Processor | Package    |
--------------------------
| tokenize  | gsd        |
| mwt       | gsd        |
| pos       | gsd_charlm |

2023-09-11 16:23:58 INFO: Using device: cpu
2023-09-11 16:23:58 INFO: Loading: tokenize
2023-09-11 16:23:58 INFO: Loading: mwt
2023-09-11 16:23:58 INFO: Loading: pos
2023-09-11 16:23:58 INFO: Done loading processors!


Error: [Errno 39] Directory not empty: 'CharSplit'


In [4]:
sentence = "Der Beruf des alten Mannes ."
tokens = sentence.split()
tags = ["O"] * len(tokens)


perturbed_tokens, perturbed_tags, perturbed = perturb_genitive_to_dativ(tokens, tags)
print(' '.join(perturbed_tokens))

Der Beruf vom altem Mann .


Result features are "Case=Dat|Declination=Strong|Degree=Pos|Gender=Masc|Number=Sing". You can specify desired features if you wish.
Labels scheme is available at: https://github.com/maxschmaltz/DERBI/blob/main/meta/LabelsScheme.json.


In [5]:
sentence = "Ruf Keiras Sohn an ."
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[1] = 'B-person'


perturbed_tokens, perturbed_tags, perturbed = perturb_possesive_genitive(tokens, tags)
print(' '.join(perturbed_tokens))

Ruf Keira ihr Sohn an .


In [6]:
sentence = "Wie alt ist die Frau von John Stamos ?"
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[-3] = 'B-person'



perturbed_tokens, perturbed_tags, perturbed = perturb_article_before_personal_name(tokens, tags)
print(' '.join(perturbed_tokens))

DAT MASC
Wie alt ist die Frau vom John Stamos ?


In [7]:
sentence = "'Ich muss Papa jetzt anrufen'."
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[2] = 'B-person'

perturbed_tokens, perturbed_tags, perturbed = perturb_article_before_personal_name(tokens, tags)
print(' '.join(perturbed_tokens))

ACC MASC
'Ich muss den Papa jetzt anrufen'.


In [8]:
sentence = "Hier ist der Urlaub oft deutlich günstiger als in Deutschland ."
tokens = sentence.split()
tags = ["O"] * len(tokens)


perturbed_tokens, perturbed_tags, perturbed = perturb_als_in_comparative_constructions(tokens, tags)
print(' '.join(perturbed_tokens))

Hier ist der Urlaub oft deutlich günstiger wie in Deutschland .


In [9]:
sentence = "Unsere Gäste können es kaum glauben, dass aus einem so kleinen Samen ein so großer Baum wachsen kann ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_double_article(tokens, tags)
print(' '.join(perturbed_tokens))

Unsere Gäste können es kaum glauben, dass aus einem so einem kleinen Samen ein so ein großer Baum wachsen kann .


In [10]:
sentence = "seit wann ist prinzessin kate schwanger ."
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[3] = 'B-person'
tags[4] = 'I-person'
# tags[2] = 'I-person'

perturbed_tokens, perturbed_tags, perturbed = perturb_swap_name(tokens, tags)
print(perturbed_tokens)
print(' '.join(perturbed_tokens))

['seit', 'wann', 'ist', 'prinzessin', 'kate', 'schwanger', '.']
seit wann ist prinzessin kate schwanger .


In [11]:
sentence = "habe ich irgendwelche eingehenden emails ?"
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_denn_in_questions(tokens, tags)
print(' '.join(perturbed_tokens))

habe ich denn irgendwelche eingehenden emails ?


In [12]:
sentence = "diese letzte email muss sofort beantwortet werden"
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_2_verb_clusters(tokens, tags)
print(' '.join(perturbed_tokens))

diese letzte email muss sofort werden beantwortet


In [13]:
sentence = "Ich esse ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_am_infinitive(tokens, tags)
print(' '.join(perturbed_tokens))

Ich bin am essen .


In [14]:
sentence = "Davon weiß ich nichts ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_da(tokens, tags)
print(' '.join(perturbed_tokens))

da weiß ich nichts von .


In [15]:
sentence = "Auf der Suche nach günstigen Bahntickets nach München? ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_nach(tokens, tags)
print(' '.join(perturbed_tokens))

Auf der Suche nach günstigen Bahntickets auf München? .


In [16]:
sentence = "Willkommen in München ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_in(tokens, tags)
print(' '.join(perturbed_tokens))

Willkommen zu München .


In [17]:
sentence = "Es gibt keine Person auf der Welt, die nein zu Ihnen sagen kann ." 
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_negative_concord(tokens, tags)
print(' '.join(perturbed_tokens))

Es gibt keine Person nicht auf der Welt, die nein zu Ihnen sagen kann .


In [18]:
sentence = "Der Stern , der leuchtet , der Stern , der funkelt , so wird's seit ewiger Zeit schon gemunkelt ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_relative_pronoun(tokens, tags)
print(' '.join(perturbed_tokens))

Der Stern , wo leuchtet , der Stern , wo funkelt , so wird's seit ewiger Zeit schon gemunkelt .


In [19]:
sentence = "Es gibt noch Brot ."
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_existential_clause(tokens, tags)
print(' '.join(perturbed_tokens))

Es hat noch Brot .


In [20]:
sentence = "Gibt es noch Brot ?"
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_contracted_verb_and_pronoun(tokens, tags)
print(' '.join(perturbed_tokens))

Gibts noch Brot ?


In [21]:
sentence = "Ich habe"
tokens = sentence.split()
tags = ["O"] * len(tokens)

perturbed_tokens, perturbed_tags, perturbed = perturb_schwa_elision_in_verbs(tokens, tags)
print(' '.join(perturbed_tokens))

Ich hab


In [23]:
sentence = "erinnere mich an notwendige veranstaltungen"
tokens = sentence.split()
tags = ["O"] * len(tokens)


perturbed_tokens, perturbed_tags, perturbed = perturb_tun_imperativ(tokens, tags)
print(' '.join(perturbed_tokens))

Tue mich an notwendige veranstaltungen erinnern


In [None]:
noun_group_perturbations = [perturb_genitive_to_dativ,
                            perturb_possesive_genitive,
                            perturb_article_before_personal_name,
                            perturb_als_in_comparative_constructions,
                            perturb_double_article]

discourse_and_word_order_perturbations = [perturb_swap_name,
                                          perturb_denn_in_questions,
                                          perturb_2_verb_clusters]

tense_and_aspect_perturbations = [perturb_am_infinitive]

adverbs_and_prepositon_perturbations = [perturb_da,
                                        perturb_in,
                                        perturb_nach]

negation_perturbations = [perturb_negative_concord]

relativization_perturbations = [perturb_relative_pronoun]

complementation_perturbations = [perturb_existential_clause]

other_perturbations = [perturb_contracted_verb_and_pronoun, 
                       perturb_schwa_elision_in_verbs, 
                       perturb_tun_imperativ]


perturbations = noun_group_perturbations + discourse_and_word_order_perturbations + tense_and_aspect_perturbations + adverbs_and_prepositon_perturbations + negation_perturbations + relativization_perturbations + complementation_perturbations + other_perturbations


In [None]:
sentence = "Ruf Keiras Sohn an "
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[1] = 'B-person'


perturbed_tokens, perturbed_tags, perturbed = perturb_possesive_genitive(tokens, tags)
print(' '.join(perturbed_tokens))

In [None]:
sentence = "wo findet Marias geburtstagsparty statt ?"
tokens = sentence.split()
tags = ["O"] * len(tokens)
tags[2] = 'B-person'


perturbed_tokens, perturbed_tags, perturbed = perturb_possesive_genitive(tokens, tags)
print(' '.join(perturbed_tokens))