In [1]:
from more_itertools import chunked
import pandas as pd

INPUT_FILE_PREFIX = './data/reports/anki_to_add_'
INPUT_FILE_TITLE = 'VERB'
TEMP_FILE = f"./data/reports/{INPUT_FILE_TITLE}_temp.csv"
OUTPUT_FILE = f"./data/reports/{INPUT_FILE_TITLE}.csv"
MODIFIER_FILE = f"./data/reports/possible_modifier.csv"
WORD = 'word'
LEMMA = 'lemma'
IS_HIGHFREQUENCY = 'is_highfrequency'
IS_HIGHFREQUENCY_VALUE = 'Yes'
BATCH_SIZE = 30

In [2]:
# Prints the list in batches so each can be processed manually by outside tools (AI, ...)
def print_in_batches(df):
    for batch in chunked(df[WORD].tolist(), BATCH_SIZE):
        print(', '.join(batch),'\n')


In [27]:
# Deletes the given rows from the given dataframe
def drop_rows(dest_df, to_drop):
    expected_length = len(dest_df) - len(to_drop)
    dest_df = dest_df.drop(to_drop.index, axis='index')
    assert len(dest_df) == expected_length
    return dest_df

In [4]:
# Adds the given rows to the given dataframe
def add_rows(dest_df, to_add):
    expected_length = len(dest_df) + len(to_add)
    dest_df = pd.concat([dest_df, to_add], ignore_index=True)
    assert len(dest_df) == expected_length
    return dest_df

In [5]:
# Looks up a list of words or lemmas in a dataframe
def get_rows(to_find, in_list):
    return to_find[to_find.isin(in_list.unique())]

# Input

In [6]:
df = pd.read_csv(
    f"{INPUT_FILE_PREFIX}{INPUT_FILE_TITLE}.csv", 
    sep=",", header=1, index_col=None,
    usecols=[0, 2], names=[WORD, LEMMA]
).sort_values(by=[LEMMA, WORD])

df.sample(20)

Unnamed: 0,word,lemma
477,genügt,genügen
113,gelingt,gelingen
207,erfordert,erfordern
376,veröffentlichte,veröffentlichen
223,umsetzen,umsetzen
491,besprochen,besprechen
399,hinweisen,hinweisen
33,aufgenommen,aufnehmen
29,befinden,befinden
429,wurzeln,wurzel


# Process

In [7]:
# This will contain the final list of verbs to be added into Anki.
df_results = pd.DataFrame(columns=df.columns)

# This will contain the instances where the word was rather more of an adj or adv instead of a verb.
df_modifiers = pd.DataFrame(columns=df.columns)

## Duplicate words: simply drop

In [8]:
df[df.duplicated([WORD], keep=False)]

Unnamed: 0,word,lemma


## words with separable prefix still attatched
These are either adj/adv or they could be verbs in infinitive form 

In [9]:
separable_prefixes = ('ab','an','auf','aus','bei','ein','fest','fort','her','hin','mit','nach','vor','weg','zu','zurück','zusammen','durch','über','unter','um','wider','wieder')
df_separable_perfixed_words = df[df[WORD].str.startswith(separable_prefixes)]

# Removing them from the primary list
df = drop_rows(df, df_separable_perfixed_words)

df_separable_perfixed_words.sample(10)

Unnamed: 0,word,lemma
66,vorgesehen,vorsehen
163,aufgestellt,aufstellen
246,vorgelegt,vorlegen
300,ausgerichtet,ausrichten
123,angepasst,anpassen
395,ausgestellt,ausstellen
381,angebracht,anbringen
294,untergebracht,unterbringen
143,eingeführt,einführen
447,hinterlassen,hinterlassen


These cases will be throughly processed and filtered; hence, any other occurances of these lemmas can be safely deleted from the primary list.

In [10]:
pd.concat([
    get_rows(df[WORD], df_separable_perfixed_words[LEMMA]),
    get_rows(df[LEMMA], df_separable_perfixed_words[WORD]),
    get_rows(df[LEMMA], df_separable_perfixed_words[LEMMA]),
])

Series([], dtype: str)

From the list above, the items that are in the form <i>separable_prefix + zu + infinitive</i> are also verbs.

In [11]:
infinitive_clause_prefixes = tuple(f"{prefix}zu" for prefix in separable_prefixes)
filter = df_separable_perfixed_words[WORD].str.startswith(infinitive_clause_prefixes)
df_infinitive_clause = df_separable_perfixed_words[filter]

# Removing them from the separable-prefixed list, so that they can be independantly analysed
df_separable_perfixed_words = drop_rows(df_separable_perfixed_words, df_infinitive_clause)

df_infinitive_clause

Unnamed: 0,word,lemma
456,aufzubauen,aufbauen
508,aufzunehmen,aufnehmen
480,auszubildenden,auszubildend
326,durchzuführen,durchführen
410,einzusetzen,einsetzen
256,umzusetzen,umsetzen


In [None]:
# auszubildenden is NOT a verb form used in infinitive-clauses
modifiers = [480]
df_modifiers = add_rows(df_modifiers, df_infinitive_clause.loc[modifiers])
df_infinitive_clause = drop_rows(df_infinitive_clause, df_infinitive_clause.loc[modifiers])

# Adding the rest to the results and removing them from infinitive-clause list
df_results = add_rows(df_results, df_infinitive_clause)

From the rest of the separable-prefixed list, the items that are in the form <i>separable_prefix + ge</i> may be adj/adv or Partizip II:
<ul>
<li>If the end in 'n' or 't' they may be Partizip II</li>
<li>Otherwise they may be adj/adv, so they will be stored in a separate DF for further processing.</li>
</ul>

In [14]:
partizip_ii_prefixes = tuple(f"{prefix}ge" for prefix in separable_prefixes)
filter = (
    (df_separable_perfixed_words[WORD].str.startswith(partizip_ii_prefixes)) &
    ((df_separable_perfixed_words[WORD].str.endswith('n')) | (df_separable_perfixed_words[WORD].str.endswith('t')))
)


# Not Partizip II:
not_df_partizip_ii = df_separable_perfixed_words[~filter]
# Adding them to the modifiers
df_modifiers = add_rows(df_modifiers, not_df_partizip_ii)
# Removing them from the separable-prefixed list
df_separable_perfixed_words = drop_rows(df_separable_perfixed_words, not_df_partizip_ii)

# Now the remaining MAY be Partizip II
df_partizip_ii = df_separable_perfixed_words[filter]
df_partizip_ii

  df_partizip_ii = df_separable_perfixed_words[filter]


Unnamed: 0,word,lemma
518,abgebaut,abbauen
414,abgesehen,absehen
257,abgestimmt,abstimmen
381,angebracht,anbringen
195,angegeben,angeben
136,angehörigen,angehörigen
109,angekündigt,ankündigen
164,angenommen,annehmen
474,angeordnet,anordnen
123,angepasst,anpassen


It is noticed that in some cases, the word and lemma look alike, which in this case would mean that the supposedly Partizip II would look exactly as the infinitive, which flags that it is an adj/adv rather than a true Partizip II. But there are exceptions such as 'umgeben', so they need to be processed case by case.

In [28]:
df_partizip_ii_similar_word_lemma = df_partizip_ii[df_partizip_ii[WORD] == df_partizip_ii[LEMMA]]
df_partizip_ii = drop_rows(df_partizip_ii, df_partizip_ii_similar_word_lemma)
df_partizip_ii_similar_word_lemma

Unnamed: 0,word,lemma
136,angehörigen,angehörigen
291,ausgewählten,ausgewählten
248,umgehen,umgehen
110,vorgehen,vorgehen
315,zusammengefasst,zusammengefasst
269,übergeben,übergeben


In [29]:
# Selecting the ones that are definitely not Parizip II: angehörigen, ausgewählten, and zusammengefasst
modifiers = [136, 291, 315]
df_modifiers = add_rows(df_modifiers, df_partizip_ii_similar_word_lemma.loc[modifiers])
df_partizip_ii_similar_word_lemma = drop_rows(df_partizip_ii_similar_word_lemma, df_partizip_ii_similar_word_lemma.loc[modifiers])

# Adding the rest to the results
df_results = add_rows(df_results, df_partizip_ii_similar_word_lemma)

In [31]:
# TODO: Checking the rest of the Partizip II candidates and then we will bedone with separable-prefixed ones.

## Further filters

In [5]:
# The list of lemmas similar to words
df_similar_lemma_word = df[df[LEMMA] == df[WORD]]

df_similar_lemma_word

Unnamed: 0,word,lemma
411,aachen,aachen
264,absolvieren,absolvieren
478,absprache,absprache
282,aktivieren,aktivieren
440,akzeptieren,akzeptieren
...,...,...
408,überleben,überleben
28,übernehmen,übernehmen
166,überprüfen,überprüfen
70,übertragen,übertragen


In [6]:
# keeping the instances where word and lemma are similar, so that they will be appended to the results at the end.
expected_length = len(df) - len(df_similar_lemma_word)
df = df.drop(df_similar_lemma_word.index, axis='index')
assert len(df) == expected_length

In [12]:
# checking if there is an instance where the word ends in 'n' but the lemma does not
lemma_ending_in_n = df[LEMMA].str.endswith("n")
word_ending_in_n = df[WORD].str.endswith("n")

df[~lemma_ending_in_n & word_ending_in_n].to_csv(index=None)

'word,lemma\nauszubildenden,auszubildend\nbauarbeiten,bauarbeit\ninteressierten,interessiert\nschwarzen,schwarze\nsteuern,steuer\nteilnehmenden,teilnehmend\nvereinten,vereint\nwurzeln,wurzel\nzahlreichen,zahlreich\nzukünftigen,zukünftig\n'

In [86]:
for batch in chunked(df[LEMMA].tolist(), BATCH_SIZE):
    print(', '.join(batch),'\n')


aachen, abbauen, absehen, absolvieren, abstimmen, aktivieren, aktualisieren, akzeptieren, analysieren, anbringen, angeben, angehörigen, ankündigen, annehmen, anordnen, anpassen, anschauen, ansprechen, antreten, anzeigen, aufbauen, auffordern, aufführen, aufheben, aufnehmen, aufrufen, aufstellen, ausbauen, ausbilden, ausfallen 

ausführen, ausgewählten, auslegen, auslösen, ausnehmen, ausprobieren, ausrichten, aussetzen, aussprechen, ausstatten, ausstellen, auswerten, auswählen, auszeichnen, basieren, beantragen, beantworten, bearbeiten, beauftragen, bedienen, bedürfen, beeindrucken, beeinflussen, befassen, befinden, befragen, befreien, begegnen, begeistern, begrenzen 

begrüßen, beinhalten, beitragen, belasten, belegen, beleuchten, bemühen, benennen, benötigen, berechnen, berechtigen, bereitstellen, bergen, berufen, beruhen, berücksichtigen, beschließen, beschränken, besitzen, besprechen, beteiligen, betonen, betreiben, betreten, betroffen, beurteilen, beweisen, bewältigen, bezeichnen, 

In [None]:
rows_to_drop = {
    "aachen", "angehörigen",
    "ausgewählten",
    "betroffen",
    "drohnen",
    "gefassen", "gewohnen", "gefällen", "habben",
    
    }

expected_length = len(df) - len(rows_to_drop)
df = df[~df[WORD].isin(rows_to_drop)]
assert len(df) == expected_length

In [59]:
df_temp = pd.read_csv(TEMP_FILE, sep=';', index_col=None, header=None)

with pd.option_context('display.max_rows', None):
    display(df_temp)

Unnamed: 0,0,1,2,3
0,abends,in the evening,[ˈaːbn̩ts],Ich bin abends immer zu Hause.<br><br>Abends g...
1,abhängig,dependent,[ˈaphɛŋɪç],Sie ist finanziell von ihren Eltern abhängig.<...
2,abschließend,final/concluding,[ˈapʃliːsənt],Wir können eine abschließende Bemerkung machen...
3,aktiv,active,[akˈtiːf],Meine Großmutter ist trotz ihres Alters sehr a...
4,aktuell,current/up-to-date,[akˈtu̯ɛl],Hast du die aktuellen Nachrichten gehört?<br><...
5,alleine,alone,[aˈlaɪ̯nə],Das kleine Kind kann noch nicht alleine einsch...
6,alternativ,alternative,[altɛrnaˈtiːf],Wir suchen eine alternative Lösung für das Pro...
7,andererseits,on the other hand,[ˈandərɐrzaits],"Einerseits möchte ich verreisen, andererseits ..."
8,anfangs,at first/initially,[ˈanfaŋs],Anfangs hatte ich große Schwierigkeiten mit de...
9,angeblich,allegedly,[ˈanɡəplɪç],"Sie ist angeblich krank, aber ich glaube es ni..."


In [55]:
assert len(df) == len(df_temp)

# Output

In [60]:
df_temp[IS_HIGHFREQUENCY] = IS_HIGHFREQUENCY_VALUE
df_temp.to_csv(OUTPUT_FILE, sep='\t', header=None, index=None)