In [1]:
%matplotlib inline

In [22]:
import pandas as pd

import time
import numpy as np
import multiprocessing as mp
from multiprocessing import Pool
import csv
import re
import os
import bz2
from collections import defaultdict
from functools import reduce
from io import BytesIO

In [3]:
from ipywidgets import Button, VBox
VBox([Button(description='button 1')])

VBox(children=(Button(description='button 1', style=ButtonStyle()),))

In [2]:
from pandarallel import pandarallel

pandarallel.initialize(progress_bar=True)

INFO: Pandarallel will run on 20 workers.
INFO: Pandarallel will use Memory file system to transfer data between the main process and workers.


In [4]:
ratings_compositionality_modifiers=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-compositionality-modifiers.tsv',sep='\t',header=None)
ratings_compositionality_modifiers.columns=['compound','modifier','mod_comp']
#ratings_compositionality_modifiers=ratings_compositionality_modifiers.loc[ratings_compositionality_modifiers.mod_comp>=4]
ratings_compositionality_modifiers

Unnamed: 0,compound,modifier,mod_comp
0,Abiturnote,Abitur,4.6
1,Abiturzeugnis,Abitur,4.4
2,Ablagefläche,Ablage,4.6
3,Ablauforganisation,Ablauf,3.8
4,Abschiedsspiel,Abschied,3.6
...,...,...,...
1094,Zukunftsfähigkeit,Zukunft,4.4
1095,Öllampe,Öl,3.4
1096,Ölquelle,Öl,4.2
1097,Ölstand,Öl,4.6


In [5]:
ratings_compositionality_heads=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-compositionality-heads.tsv',sep='\t',header=None)
ratings_compositionality_heads.columns=['compound','head','head_comp']
#ratings_compositionality_heads=ratings_compositionality_heads.loc[ratings_compositionality_heads.head_comp>=4]
ratings_compositionality_heads

Unnamed: 0,compound,head,head_comp
0,Abiturnote,Note,4.0
1,Abiturzeugnis,Zeugnis,4.2
2,Ablagefläche,Fläche,3.6
3,Ablauforganisation,Organisation,4.0
4,Abschiedsspiel,Spiel,3.4
...,...,...,...
1094,Zukunftsfähigkeit,Fähigkeit,3.4
1095,Öllampe,Lampe,3.8
1096,Ölquelle,Quelle,4.2
1097,Ölstand,Stand,3.8


In [6]:
ratings_concreteness_modifiers=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-concreteness-modifiers.tsv',sep='\t',header=None)
ratings_concreteness_modifiers.columns=['compound','modifier','mod_conc']
#ratings_concreteness_modifiers=ratings_concreteness_modifiers.loc[ratings_concreteness_modifiers.mod_conc>=4]
ratings_concreteness_modifiers

Unnamed: 0,compound,modifier,mod_conc
0,Abiturnote,Abitur,2.2
1,Abiturzeugnis,Abitur,2.2
2,Ablagefläche,Ablage,2.0
3,Ablauforganisation,Ablauf,1.2
4,Abschiedsspiel,Abschied,2.2
...,...,...,...
1094,Zukunftsfähigkeit,Zukunft,0.4
1095,Öllampe,Öl,4.4
1096,Ölquelle,Öl,4.2
1097,Ölstand,Öl,4.8


In [7]:
ratings_concreteness_heads=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-concreteness-heads.tsv',sep='\t',header=None)
ratings_concreteness_heads.columns=['compound','head','head_conc']
#ratings_concreteness_heads=ratings_concreteness_heads.loc[ratings_concreteness_heads.head_conc>=4]
ratings_concreteness_heads

Unnamed: 0,compound,head,head_conc
0,Abiturnote,Note,2.4
1,Abiturzeugnis,Zeugnis,4.2
2,Ablagefläche,Fläche,4.2
3,Ablauforganisation,Organisation,1.2
4,Abschiedsspiel,Spiel,2.6
...,...,...,...
1094,Zukunftsfähigkeit,Fähigkeit,1.0
1095,Öllampe,Lampe,4.6
1096,Ölquelle,Quelle,3.6
1097,Ölstand,Stand,1.6


In [8]:
ratings_concreteness_compounds=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-concreteness-compounds.tsv',sep='\t',header=None)
ratings_concreteness_compounds.columns=['compound','comp_conc']
#ratings_concreteness_compounds=ratings_concreteness_compounds.loc[ratings_concreteness_compounds.comp_conc>=4]
ratings_concreteness_compounds

Unnamed: 0,compound,comp_conc
0,Abiturnote,2.6
1,Abiturzeugnis,4.4
2,Ablagefläche,4.6
3,Ablauforganisation,1.0
4,Abschiedsspiel,2.6
...,...,...
1094,Zukunftsfähigkeit,0.4
1095,Öllampe,4.6
1096,Ölquelle,4.4
1097,Ölstand,3.6


In [9]:
ratings_hypernymy=pd.read_csv('../data/NCC/Compositionality-Feature-NN/ratings-hypernymy.tsv',sep='\t',header=None)
ratings_hypernymy.columns=['compound','head','head_hyper']
#ratings_hypernymy=ratings_hypernymy.loc[ratings_hypernymy.head_hyper>=4]
ratings_hypernymy

Unnamed: 0,compound,head,head_hyper
0,Abiturnote,Note,4.8
1,Abiturzeugnis,Zeugnis,5.0
2,Ablagefläche,Fläche,4.4
3,Ablauforganisation,Organisation,4.4
4,Abschiedsspiel,Spiel,4.6
...,...,...,...
1094,Zukunftsfähigkeit,Fähigkeit,4.0
1095,Öllampe,Lampe,5.0
1096,Ölquelle,Quelle,4.6
1097,Ölstand,Stand,3.2


In [10]:
compound_ratings_dfs=[ratings_compositionality_modifiers,ratings_compositionality_heads,
                      ratings_concreteness_modifiers,ratings_concreteness_heads,ratings_concreteness_compounds,
                      ratings_hypernymy]

In [11]:
compound_ratings=reduce(lambda  left,right: pd.merge(left,right,on=['compound'],suffixes=('', '_y')), compound_ratings_dfs)
compound_ratings.drop(['modifier_y','head_y','head_y'],axis=1,inplace=True)
compound_ratings

Unnamed: 0,compound,modifier,mod_comp,head,head_comp,mod_conc,head_conc,comp_conc,head_hyper
0,Abiturnote,Abitur,4.6,Note,4.0,2.2,2.4,2.6,4.8
1,Abiturzeugnis,Abitur,4.4,Zeugnis,4.2,2.2,4.2,4.4,5.0
2,Ablagefläche,Ablage,4.6,Fläche,3.6,2.0,4.2,4.6,4.4
3,Ablauforganisation,Ablauf,3.8,Organisation,4.0,1.2,1.2,1.0,4.4
4,Abschiedsspiel,Abschied,3.6,Spiel,3.4,2.2,2.6,2.6,4.6
...,...,...,...,...,...,...,...,...,...
1094,Zukunftsfähigkeit,Zukunft,4.4,Fähigkeit,3.4,0.4,1.0,0.4,4.0
1095,Öllampe,Öl,3.4,Lampe,3.8,4.4,4.6,4.6,5.0
1096,Ölquelle,Öl,4.2,Quelle,4.2,4.2,3.6,4.4,4.6
1097,Ölstand,Öl,4.6,Stand,3.8,4.8,1.6,3.6,3.2


In [12]:
mod_list=compound_ratings.modifier.unique().tolist()
head_list=compound_ratings['head'].unique().tolist()
comp_list=compound_ratings.compound.unique().tolist()

features_modifiers=pd.read_csv('Compositionality-Feature-NN/features-compounds.tsv',sep='\t',header=None)
#features_modifiers.columns=['compound','modifier','mod_conc']
features_modifiers

In [17]:
cur_path='../data/NCC/dewiktionary-20240201-pages-articles.xml.bz2'

In [18]:
with bz2.open(cur_path, "rb") as bz_file:
    xml_data=bz_file.read()

element_list = []
for event, element in etree.iterparse(trial_xml):
    element_list.append(etree.tostring(element))
    element.clear()
element_list[:10]

In [24]:
xml_df = pd.read_xml(BytesIO(xml_data),
         iterparse = {"page": ["title", "text"]})

In [67]:
xml_df=xml_df.loc[xml_df.title.str.contains(':')==False]
xml_df

Unnamed: 0,title,text
166,Hallo,"{{Siehe auch|[[hallo]], [[halló]]}}\n== Hallo ..."
182,ordo,{{Siehe auch|[[Ordo]]}}\n== ōrdo ({{Sprache|La...
183,familia,{{Siehe auch|[[família]]}}\n== familia ({{Spra...
184,species,{{Siehe auch|[[Species]]}}\n== species ({{Spra...
185,classis,{{Siehe auch|[[Classis]]}}\n== classis ({{Spra...
...,...,...
1246620,Tales der Könige,== Tales der Könige ({{Sprache|Deutsch}}) ==\n...
1246621,Tals der Könige,== Tals der Könige ({{Sprache|Deutsch}}) ==\n=...
1246622,Vorverkaufsgebühr,== Vorverkaufsgebühr ({{Sprache|Deutsch}}) ==\...
1246623,planetarisch,== planetarisch ({{Sprache|Deutsch}}) ==\n=== ...


In [154]:
german_df=xml_df.loc[xml_df.text.str.contains('Sprache\|Deutsch')]
#german_df.text=german_df.text.str.replace('(\{\{Siehe auch\|.*\}\})(\n\n)','\\1\n',regex=True)
#german_df=german_df.loc[~((german_df.text.str.count('=== \{\{Wortart\|.* ===')==1) & (german_df.text.str.contains('=== \{\{Wortart\|(Deklinierte Form|Konjugierte Form)\|Deutsch\}\} ===')==True))]
#german_df=german_df.loc[german_df.text.str.count('=== \{\{Wortart\|.* ===')>1]
#german_df=german_df.loc[~((german_df.text.str.count('=== \{\{Wortart\|.* ===')==2) & (german_df.text.str.contains('=== \{\{Wortart\|Konjugierte Form\|Deutsch\}\} ===')==True) & (german_df.text.str.contains('=== \{\{Wortart\|Deklinierte Form\|Deutsch\}\} ===')==True))]
german_df

Unnamed: 0,title,text
166,Hallo,"{{Siehe auch|[[hallo]], [[halló]]}}\n== Hallo ..."
186,Subfamilia,== Subfamilia ({{Sprache|Deutsch}}) ==\n=== {{...
189,Subregnum,== Subregnum ({{Sprache|Deutsch}}) ==\n=== {{W...
190,Subdivisio,== Subdivisio ({{Sprache|Deutsch}}) ==\n=== {{...
191,Phylum,{{Siehe auch|[[phylum]]}}\n== Phylum ({{Sprach...
...,...,...
1246619,Tal der Könige,== Tal der Könige ({{Sprache|Deutsch}}) ==\n==...
1246620,Tales der Könige,== Tales der Könige ({{Sprache|Deutsch}}) ==\n...
1246621,Tals der Könige,== Tals der Könige ({{Sprache|Deutsch}}) ==\n=...
1246622,Vorverkaufsgebühr,== Vorverkaufsgebühr ({{Sprache|Deutsch}}) ==\...


Affix,Präfix,Suffix,Interfix,Zirkumfix,

Affixoid,Präfixoid,Suffixoid,

Enklitikon

Flektierte Form,Deklinierte Form,Dekliniertes Gerundivum,Erweiterter Infinitiv,Komparativ,Konjugierte Form,Superlativ

Gebundenes Lexem


Deklinierte Form (Deutsch)‎ (2 Kategorien, 443917 Seiten)
 Erweiterter Infinitiv (Deutsch)‎ (5886 Seiten)
 Komparativ (Deutsch)‎ (5948 Seiten)
 Konjugierte Form (Deutsch)‎ (210707 Seiten)
 Superlativ (Deutsch)‎ (5946 Seiten)

In [155]:
noun_df=german_df.loc[german_df.text.str.contains('\{\{Wortart\|Substantiv\|Deutsch\}\}')]
noun_df

Unnamed: 0,title,text
166,Hallo,"{{Siehe auch|[[hallo]], [[halló]]}}\n== Hallo ..."
186,Subfamilia,== Subfamilia ({{Sprache|Deutsch}}) ==\n=== {{...
189,Subregnum,== Subregnum ({{Sprache|Deutsch}}) ==\n=== {{W...
190,Subdivisio,== Subdivisio ({{Sprache|Deutsch}}) ==\n=== {{...
191,Phylum,{{Siehe auch|[[phylum]]}}\n== Phylum ({{Sprach...
...,...,...
1246608,Luftwirbel,== Luftwirbel ({{Sprache|Deutsch}}) ==\n=== {{...
1246609,Anknüpfung,== Anknüpfung ({{Sprache|Deutsch}}) ==\n=== {{...
1246618,Muffigkeit,== Muffigkeit ({{Sprache|Deutsch}}) ==\n{{erwe...
1246619,Tal der Könige,== Tal der Könige ({{Sprache|Deutsch}}) ==\n==...


In [145]:
german_df.loc[german_df.text.str.contains('Supinum')]

Unnamed: 0,title,text
1788,ha,"{{Siehe auch|[[hä]], [[hā]]}}\n== ha! ({{Sprac..."
2667,schlafen,{{Siehe auch|[[Schläfen]]}}\n{{Wort der Woche|...
14768,Supinum,== Supinum ({{Sprache|Deutsch}}) ==\n=== {{Wor...
62172,infinite Verbform,== infinite Verbform ({{Sprache|Deutsch}}) ==\...
84659,Verbalsubstantiv,== Verbalsubstantiv ({{Sprache|Deutsch}}) ==\n...
131077,fas,{{Siehe auch|[[fås]]}}\n== fas ({{Sprache|Deut...
255952,Supinums,== Supinums ({{Sprache|Deutsch}}) ==\n=== {{Wo...
261823,Supina,== Supina ({{Sprache|Deutsch}}) ==\n=== {{Wort...
383367,Absolutiv,== Absolutiv ({{Sprache|Deutsch}}) ==\n=== {{W...
412440,Lagewort,== Lagewort ({{Sprache|Deutsch}}) ==\n=== {{Wo...


In [16]:
noun_df.loc[noun_df.text.str.count('=== {{Wortart\|.* ===')>1]

Unnamed: 0,title,text
205,April,"{{Siehe auch|[[april]], [[apríl]]}}\n== April ..."
206,Mai,"{{Siehe auch|[[mai]], [[MAI]], [[maí]]}}\n== M..."
209,August,{{Siehe auch|[[august]]}}\n== August ({{Sprach...
210,September,{{Siehe auch|[[september]]}}\n== September ({{...
212,November,"{{Siehe auch|[[november]], [[nóvember]]}}\n== ..."
...,...,...
1241878,Bostoner,== Bostoner ({{Sprache|Deutsch}}) ==\n=== {{Wo...
1242767,Haftbedingung,== Haftbedingung ({{Sprache|Deutsch}}) ==\n===...
1242791,Bergbach,== Bergbach ({{Sprache|Deutsch}}) ==\n=== {{Wo...
1242901,Afrasiab,== Afrasiab ({{Sprache|Deutsch}}) ==\n=== {{Wo...


In [17]:
noun_df.loc[noun_df.title.str.count(" ")>0]

Unnamed: 0,title,text
2224,Geospiza conirostris,== Geospiza conirostris ({{Sprache|Deutsch}}) ...
2449,Otto Normalverbraucher,{{Siehe auch|[[Ottonormalverbraucher]]}}\n== O...
2698,Vereinigte Staaten,== Vereinigte Staaten ({{Sprache|Deutsch}}) ==...
2972,Gewinn- und Verlustrechnung,{{Siehe auch|[[Gewinn-und-Verlust-Rechnung]]}}...
3192,Delirium tremens,{{Siehe auch|[[delirium tremens]]}}\n== Deliri...
...,...,...
1241096,Nervus Rerum,== Nervus Rerum ({{Sprache|Deutsch}}) ==\n=== ...
1241211,Brand Manager,== Brand Manager ({{Sprache|Deutsch}}) ==\n===...
1241276,Trade Marketing Manager,== Trade Marketing Manager ({{Sprache|Deutsch}...
1241511,Coney Island,== Coney Island ({{Sprache|Deutsch}}) ==\n=== ...


In [78]:
noun_df.loc[noun_df.text.str.count('== .* \{\{Wortart\|.*\|Deutsch\}\} ==')>1].sample(20)

Unnamed: 0,title,text
368555,Kostroma,== Kostroma ({{Sprache|Deutsch}}) ==\n=== {{Wo...
2900,Simon,== Simon ({{Sprache|Deutsch}}) ==\n=== {{Worta...
12670,Elster,{{Siehe auch|[[ELSTER]]}}\n== Elster ({{Sprach...
4987,Hase,== Hase ({{Sprache|Deutsch}}) ==\n=== {{Wortar...
3891,München,== München ({{Sprache|Deutsch}}) ==\n=== {{Wor...
86410,Alphard,== Alphard ({{Sprache|Deutsch}}) ==\n=== {{Wor...
3162,Xander,== Xander ({{Sprache|Deutsch}}) ==\n=== {{Wort...
40592,Amber,== Amber ({{Sprache|Deutsch}}) ==\n=== {{Worta...
466708,Fichtelberg,== Fichtelberg ({{Sprache|Deutsch}}) ==\n=== {...
108155,Möser,"{{Siehe auch|[[moser]], [[Moser]]}}\n== Möser ..."


In [56]:
noun_df.loc[noun_df.text.str.count('== .* \({{Sprache\|.* ==')>1].sample(20)

Unnamed: 0,title,text
75192,Marion,== Marion ({{Sprache|Deutsch}}) ==\n=== {{Wort...
382112,Recife,== Recife ({{Sprache|Deutsch}}) ==\n=== {{Wort...
21141,Darmstadt,== Darmstadt ({{Sprache|Deutsch}}) ==\n=== {{W...
20489,Mannheim,== Mannheim ({{Sprache|Deutsch}}) ==\n=== {{Wo...
40425,Ada,"{{Siehe auch|[[ada]], [[Adą]], [[āda]], [[ādā]..."
12851,Baldo,== Baldo ({{Sprache|Deutsch}}) ==\n=== {{Worta...
40616,Gloria,"{{Siehe auch|[[gloria]], [[glòria]]}}\n== Glor..."
230640,Ajmer,== Ajmer ({{Sprache|Deutsch}}) ==\n=== {{Worta...
121793,Antananarivo,== Antananarivo ({{Sprache|Deutsch}}) ==\n=== ...
122148,Santiago de Chile,== Santiago de Chile ({{Sprache|Deutsch}}) ==\...


In [158]:
trial_text=german_df.loc[german_df.title=='Muffigkeit'].text.values[0]
trial_text

"== Muffigkeit ({{Sprache|Deutsch}}) ==\n{{erweitern|Eintrag nach dem Homonym differenzieren, siehe [[muffig]] und Duden online|Deutsch}}\n=== {{Wortart|Substantiv|Deutsch}}, {{f}} ===\n\n{{Deutsch Substantiv Übersicht\n|Genus=f\n|Nominativ Singular=Muffigkeit\n|Nominativ Plural=—\n|Genitiv Singular=Muffigkeit\n|Genitiv Plural=—\n|Dativ Singular=Muffigkeit\n|Dativ Plural=—\n|Akkusativ Singular=Muffigkeit\n|Akkusativ Plural=—\n}}\n\n{{Worttrennung}}\n:Muf·fig·keit, {{kPl.}}\n\n{{Aussprache}}\n:{{IPA}} {{Lautschrift|ˈmʊfɪçkaɪ̯t}}, {{Lautschrift|ˈmʊfɪkkaɪ̯t}}\n:{{Hörbeispiele}} {{Audio|}}\n\n{{Bedeutungen}}\n:[1] Eigenschaft, muffig zu sein\n\n{{Beispiele}}\n:[1] „In den großen, hohen Räumen, geschmückt mit unmöglichen Tapeten und fast lächerlich verschnörkelten Stuckfriesen, herrschte eine deprimierende ''Muffigkeit'' und der Geruch fremdländischer Küche hing in der Luft, doch die Böden waren sauber, die Bettwäsche wurde in erträglichen Abständen gewechselt und das heiße Wasser wurde auc

In [16]:
to_match=re.findall('== .* \(\{\{Sprache\|.*\}\}\) ==',trial_text)
to_match

['== Altaisprache ({{Sprache|Deutsch}}) ==']

In [160]:
lst_1=trial_text.split('\n')
lst_1

['== Muffigkeit ({{Sprache|Deutsch}}) ==',
 '{{erweitern|Eintrag nach dem Homonym differenzieren, siehe [[muffig]] und Duden online|Deutsch}}',
 '=== {{Wortart|Substantiv|Deutsch}}, {{f}} ===',
 '',
 '{{Deutsch Substantiv Übersicht',
 '|Genus=f',
 '|Nominativ Singular=Muffigkeit',
 '|Nominativ Plural=—',
 '|Genitiv Singular=Muffigkeit',
 '|Genitiv Plural=—',
 '|Dativ Singular=Muffigkeit',
 '|Dativ Plural=—',
 '|Akkusativ Singular=Muffigkeit',
 '|Akkusativ Plural=—',
 '}}',
 '',
 '{{Worttrennung}}',
 ':Muf·fig·keit, {{kPl.}}',
 '',
 '{{Aussprache}}',
 ':{{IPA}} {{Lautschrift|ˈmʊfɪçkaɪ̯t}}, {{Lautschrift|ˈmʊfɪkkaɪ̯t}}',
 ':{{Hörbeispiele}} {{Audio|}}',
 '',
 '{{Bedeutungen}}',
 ':[1] Eigenschaft, muffig zu sein',
 '',
 '{{Beispiele}}',
 ":[1] „In den großen, hohen Räumen, geschmückt mit unmöglichen Tapeten und fast lächerlich verschnörkelten Stuckfriesen, herrschte eine deprimierende ''Muffigkeit'' und der Geruch fremdländischer Küche hing in der Luft, doch die Böden waren sauber, die Be

In [91]:
indices_lst=[]
for cur_match in to_match:
    for i,cur_lst in enumerate(lst_1):
        if cur_match in cur_lst and i!=0:
            indices_lst.append(i)
indices_lst

[36]

In [73]:
import numpy as np

In [92]:
lang_lst=list(np.split(lst_1, indices_lst, axis=0))
lang_lst[0]

array(['{{Siehe auch|[[boom]]}}\n== Boom ({{Sprache|Deutsch}}) ==\n=== {{Wortart|Substantiv|Deutsch}}, {{m}} ===',
       "{{Deutsch Substantiv Übersicht\n|Genus=m\n|Nominativ Singular=Boom\n|Nominativ Plural=Booms\n|Genitiv Singular=Booms\n|Genitiv Plural=Booms\n|Dativ Singular=Boom\n|Dativ Plural=Booms\n|Akkusativ Singular=Boom\n|Akkusativ Plural=Booms\n|Bild=Konjunkturverlauf.svg|mini|1|Konjunkturverlauf in der Theorie: ''Boom'' grün markiert\n}}",
       '{{Worttrennung}}\n:Boom, {{Pl.}} Booms',
       '{{Aussprache}}\n:{{IPA}} {{Lautschrift|buːm}}\n:{{Hörbeispiele}} {{Audio|De-Boom.ogg}}\n:{{Reime}} {{Reim|uːm|Deutsch}}',
       '{{Bedeutungen}}\n:[1] {{K|Wirtschaft}} plötzliche Aufschwungsphase\n:[2] {{K|Börse}} [[Hausse]]\n:[3] {{K|übertr.}} Phase, in der etwas von großem Interesse ist oder häufig vorkommt',
       "{{Herkunft}}\n:entlehnt von englisch ''{{Ü|en|boom}}'' „brummen, brausen“<ref>{{Ref-Duden|Boom}}</ref>",
       '{{Synonyme}}\n:[1] [[Aufschwung]], [[Blütezeit]], [[

In [93]:
lang_lst[1]

array(['== Boom ({{Sprache|Niederdeutsch}}) ==\n=== {{Wortart|Substantiv|Niederdeutsch}}, {{m}} ===',
       '{{Niederdeutsch Substantiv Übersicht\n|Wer oder was? (Einzahl)=de Boom\n|Wer oder was? (Mehrzahl 1)=de Bööm\n|Wer oder was? (Mehrzahl 2)=de Böme\n|Wen oder Wem? (Einzahl)=den Boom\n|Wen oder Wem? (Mehrzahl 1)=de Bööm\n|Wen oder Wem? (Mehrzahl 2)=de Böme\n}}',
       "{{Alternative Schreibweisen}}\n:''ostfälisch:'' [[bäom]] (Wilhelm Busch)",
       "{{Nebenformen}}\n:''mecklenburgisch:'' [[Baum]], {{Pl.}} Bäum; ''Heidjerplatt:'' Baum, {{Pl.}} Bäume",
       '{{Worttrennung}}\n:Boom, {{Pl.}} Bööm, {{Pl.2}} Bö·me',
       '{{Aussprache}}\n:{{IPA}} {{Lautschrift|boʊ̯m~bəʊ̯m}}\n:{{Hörbeispiele}} {{Audio|}}',
       '{{Bedeutungen}}\n:[1] [[Baum]]',
       '{{Oberbegriffe}}\n:[1] [[Plant]]',
       '{{Unterbegriffe}}\n:[1] [[Böök]], [[Dann]] ([[Dannenboom]]), [[Eek]] ([[Ekenboom]]), [[Iser]] ([[Isernboom]]), [[Wichel]]',
       "{{Beispiele}}\n:[1] Dat is’n ''Boom.''\n::Das ist ein '

In [94]:
re.findall('=== {{Wortart\|.* ===',trial_text)

['=== {{Wortart|Substantiv|Deutsch}}, {{m}} ===',
 '=== {{Wortart|Substantiv|Deutsch}}, {{n}}, {{Wortart|Toponym|Deutsch}} ===',
 '=== {{Wortart|Substantiv|Deutsch}}, {{mf}}, {{Wortart|Nachname|Deutsch}} ===',
 '=== {{Wortart|Substantiv|Niederdeutsch}}, {{m}} ===']

In [91]:
re.search(r"={{Siehe auch|\[\[(.*?)\]\]}}", trial_text).group(1)

'hallo]], [[halló'

In [79]:
re.search(r"=== {{Wortart\|(.*?)\|(.*?)}} ===", trial_text).group(2)

'Deutsch}}, {{m'

In [75]:
import re

def extract_wiktionary_info(text):
    # Extracting word type and gender
    word_type_match = re.search(r"=== {{Wortart\|(.*?)\|(.*?)}} ===", text)
    if word_type_match:
        word_type = word_type_match.group(1)
        gender = word_type_match.group(2)
        print("Word Type:", word_type)
        print("Gender:", gender)

    # Extracting declensions
    declensions_match = re.search(r"{{Deutsch Substantiv Übersicht\n\|(.*?)\n}}", text, re.DOTALL)
    if declensions_match:
        declensions_data = declensions_match.group(1)
        print("Declensions:", declensions_data)

    # Extracting pronunciation
    pronunciation_match = re.search(r":{{IPA}} {{Lautschrift\|(.*?)}}", text)
    if pronunciation_match:
        pronunciation = pronunciation_match.group(1)
        print("Pronunciation:", pronunciation)

    # Extracting meanings
    meanings_match = re.search(r"{{Bedeutungen}}\n:(.*?)\n", text, re.DOTALL)
    if meanings_match:
        meanings = meanings_match.group(1)
        print("Meanings:", meanings)

    # Extracting synonyms
    synonyms_match = re.search(r"{{Synonyme}}\n:(.*?)\n", text, re.DOTALL)
    if synonyms_match:
        synonyms = synonyms_match.group(1)
        print("Synonyms:", synonyms)

    # Extracting examples
    examples_match = re.search(r"{{Beispiele}}\n:(.*?)\n", text, re.DOTALL)
    if examples_match:
        examples = examples_match.group(1)
        print("Examples:", examples)

    # Extracting translations
    translations_match = re.search(r"==== {{Übersetzungen}} ====\n(.*?)\n{{Referenzen}}", text, re.DOTALL)
    if translations_match:
        translations = translations_match.group(1)
        print("Translations:", translations)

if __name__ == "__main__":
    wiktionary_text = ''' ... (the provided content) ... '''
    extract_wiktionary_info(wiktionary_text)


In [100]:
trial_text.split('\n')

['== Altstadt ({{Sprache|Deutsch}}) ==',
 '=== {{Wortart|Substantiv|Deutsch}}, {{f}} ===',
 '',
 '{{Deutsch Substantiv Übersicht',
 '|Genus=f',
 '|Nominativ Singular=Altstadt',
 '|Nominativ Plural=Altstädte',
 '|Genitiv Singular=Altstadt',
 '|Genitiv Plural=Altstädte',
 '|Dativ Singular=Altstadt',
 '|Dativ Plural=Altstädten',
 '|Akkusativ Singular=Altstadt',
 '|Akkusativ Plural=Altstädte',
 "|Bild 1=SalzburgerAltstadt02b.jpg|mini|1|die ''Altstadt'' von [[Salzburg]]",
 "|Bild 2=|mini|1|''Altstadt'' von [[Königsberg]] (nunmehr [[Kaliningrad]])",
 '}}',
 '',
 '{{Worttrennung}}',
 ':Alt·stadt, {{Pl.}} Alt·städ·te',
 '',
 '{{Aussprache}}',
 ':{{IPA}} {{Lautschrift|ˈaltˌʃtat}}',
 ':{{Hörbeispiele}} {{Audio|De-Altstadt.ogg}}',
 ':{{Reime}} {{Reim|altʃtat|Deutsch}}',
 '',
 '{{Bedeutungen}}',
 ':[1] der älteste Teil einer Stadt, sofern dieser (typischerweise) vor 1900 gebaut wurde oder in einem entsprechendem Stil wiederaufgebaut worden ist',
 '',
 '{{Herkunft}}',
 ":[[Determinativkompositum]] 

In [3]:
%matplotlib inline

In [4]:
import pandas as pd
import fasttext

import time
import numpy as np
import multiprocessing as mp
from multiprocessing import Pool
import csv
import spacy
import re
import warnings
import os
import base64
from lxml import etree
from collections import defaultdict
from functools import reduce

In [5]:
from ipywidgets import Button, VBox
VBox([Button(description='button 1')])

VBox(children=(Button(description='button 1', style=ButtonStyle()),))

In [2]:
from pandarallel import pandarallel

pandarallel.initialize(progress_bar=True)

INFO: Pandarallel will run on 20 workers.
INFO: Pandarallel will use Memory file system to transfer data between the main process and workers.


In [6]:
fmodel = fasttext.load_model('/home/users0/pageljs/dh/repos/lid.176.bin')



In [7]:
def b64_to_str(row):
    return base64.b64decode(row).decode('utf-8').split('\n')

In [8]:
def lang_detect(sent):
    
    label,_=fmodel.predict(sent,k=-1)
    return label[0]

In [9]:
#parser = spacy.load('en_core_web_lg')

sent_segmenter=spacy.load('de_core_news_lg')
sent_segmenter.disable_pipes(['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner'])
sent_segmenter.enable_pipe("senter")
sent_segmenter.add_pipe("doc_cleaner")
sent_segmenter.max_length=100_000_000

In [7]:
df=pd.read_csv('/fs/scratch/users/pageljs/VirtualBargaining/news-docs.2022.de.filtered',sep='\t',header=None,usecols=[1])
df['text']=df[1].parallel_apply(b64_to_str)
df.drop(1,axis=1,inplace=True)
df

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=133630), Label(value='0 / 133630')…

Unnamed: 0,text
0,[Texas: Tochter musste wochenlang neben verwes...
1,"[Thich Nhat Hanh ist tot, Die zahlreichen Büch..."
2,[Katrin Göring-Eckardt: 58-Jähriger wegen Bele...
3,[Donald Trump: Ex-Sprecherin berichtet von geh...
4,[Fall Gabby Petito: Freund bekannte sich laut ...
...,...
2672577,[Mit Lidl E-Autos einfach und bequem zuhause o...
2672578,[Singen ... nicht nur zur Weihnachtszeit / Kos...
2672579,[Black is beautiful: Smarter Kaminofen ganz in...
2672580,[Bislang hat sich Scholz nicht als leidenschaf...


In [8]:
sent_df=df.explode('text')
sent_df.reset_index(inplace=True)
sent_df.columns=['doc_id','sent']
sent_df=sent_df.loc[sent_df.sent!=""]
sent_df=sent_df.loc[sent_df.sent.str.len()<1000]
sent_df['lang']=sent_df['sent'].parallel_apply(lang_detect)
sent_df=sent_df.loc[sent_df.lang=="__label__de"]
sent_df

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=2965001), Label(value='0 / 2965001…

Unnamed: 0,doc_id,sent,lang
0,0,Texas: Tochter musste wochenlang neben verwese...,__label__de
1,0,Die Polizei in Texas hat eine Frau in Gewahrsa...,__label__de
2,0,"Sie erklärte den Polizisten, sie habe den Tod ...",__label__de
3,0,US-Medienberichten zufolge lebten Mutter und T...,__label__de
4,0,Nachbarn informierten schließlich den örtliche...,__label__de
...,...,...,...
61974712,2672581,"Dahm hatte in einem Interview mit dem ""Kölner ...",__label__de
61974713,2672581,Nach Dahms Interview leitete die Kölner Staats...,__label__de
61974714,2672581,Auch in einem zweiten Fall ermittelt die Behör...,__label__de
61974715,2672581,Hier geht es um Woelkis Kenntnisstand über ein...,__label__de


In [9]:
sent_df.iloc[0].sent

'Texas: Tochter musste wochenlang neben verwesender Leiche ihres Vaters leben'

In [10]:
ratings_compositionality_modifiers=pd.read_csv('Compositionality-Feature-NN/ratings-compositionality-modifiers.tsv',sep='\t',header=None)
ratings_compositionality_modifiers.columns=['compound','modifier','mod_comp']
ratings_compositionality_modifiers=ratings_compositionality_modifiers.loc[ratings_compositionality_modifiers.mod_comp>=4]
ratings_compositionality_modifiers

Unnamed: 0,compound,modifier,mod_comp
0,Abiturnote,Abitur,4.6
1,Abiturzeugnis,Abitur,4.4
2,Ablagefläche,Ablage,4.6
6,Abzugsfähigkeit,Abzug,4.2
7,Ackerfläche,Acker,4.6
...,...,...,...
1093,Zukunftsaussicht,Zukunft,4.4
1094,Zukunftsfähigkeit,Zukunft,4.4
1096,Ölquelle,Öl,4.2
1097,Ölstand,Öl,4.6


In [11]:
ratings_compositionality_heads=pd.read_csv('Compositionality-Feature-NN/ratings-compositionality-heads.tsv',sep='\t',header=None)
ratings_compositionality_heads.columns=['compound','head','head_comp']
ratings_compositionality_heads=ratings_compositionality_heads.loc[ratings_compositionality_heads.head_comp>=4]
ratings_compositionality_heads

Unnamed: 0,compound,head,head_comp
0,Abiturnote,Note,4.0
1,Abiturzeugnis,Zeugnis,4.2
3,Ablauforganisation,Organisation,4.0
9,Ahornblatt,Blatt,4.2
10,Akustikgitarre,Gitarre,4.4
...,...,...,...
1085,Zipfelmütze,Mütze,4.8
1086,Zitronenpresse,Presse,4.2
1087,Zitronensaft,Saft,4.4
1093,Zukunftsaussicht,Aussicht,4.4


In [12]:
ratings_concreteness_modifiers=pd.read_csv('Compositionality-Feature-NN/ratings-concreteness-modifiers.tsv',sep='\t',header=None)
ratings_concreteness_modifiers.columns=['compound','modifier','mod_conc']
ratings_concreteness_modifiers=ratings_concreteness_modifiers.loc[ratings_concreteness_modifiers.mod_conc>=4]
ratings_concreteness_modifiers

Unnamed: 0,compound,modifier,mod_conc
7,Ackerfläche,Acker,4.2
9,Ahornblatt,Ahorn,4.2
11,Alpenrand,Alp,4.6
25,Apfelsaft,Apfel,4.4
34,Armband,Arm,4.2
...,...,...,...
1090,Zuckerwatte,Zucker,4.4
1092,Zugführer,Zug,4.4
1095,Öllampe,Öl,4.4
1096,Ölquelle,Öl,4.2


In [13]:
ratings_concreteness_heads=pd.read_csv('Compositionality-Feature-NN/ratings-concreteness-heads.tsv',sep='\t',header=None)
ratings_concreteness_heads.columns=['compound','head','head_conc']
ratings_concreteness_heads=ratings_concreteness_heads.loc[ratings_concreteness_heads.head_conc>=4]
ratings_concreteness_heads

Unnamed: 0,compound,head,head_conc
1,Abiturzeugnis,Zeugnis,4.200
2,Ablagefläche,Fläche,4.200
5,Abstandsfläche,Fläche,4.200
9,Ahornblatt,Blatt,4.800
10,Akustikgitarre,Gitarre,5.000
...,...,...,...
1087,Zitronensaft,Saft,4.800
1088,Zollstock,Stock,5.000
1089,Zuckerhut,Hut,4.875
1090,Zuckerwatte,Watte,4.600


In [14]:
ratings_concreteness_compounds=pd.read_csv('Compositionality-Feature-NN/ratings-concreteness-compounds.tsv',sep='\t',header=None)
ratings_concreteness_compounds.columns=['compound','comp_conc']
ratings_concreteness_compounds=ratings_concreteness_compounds.loc[ratings_concreteness_compounds.comp_conc>=4]
ratings_concreteness_compounds

Unnamed: 0,compound,comp_conc
1,Abiturzeugnis,4.400
2,Ablagefläche,4.600
7,Ackerfläche,4.400
9,Ahornblatt,4.800
10,Akustikgitarre,5.000
...,...,...
1088,Zollstock,5.000
1089,Zuckerhut,4.875
1090,Zuckerwatte,4.800
1095,Öllampe,4.600


In [15]:
ratings_hypernymy=pd.read_csv('Compositionality-Feature-NN/ratings-hypernymy.tsv',sep='\t',header=None)
ratings_hypernymy.columns=['compound','head','head_hyper']
ratings_hypernymy=ratings_hypernymy.loc[ratings_hypernymy.head_hyper>=4]
ratings_hypernymy

Unnamed: 0,compound,head,head_hyper
0,Abiturnote,Note,4.8
1,Abiturzeugnis,Zeugnis,5.0
2,Ablagefläche,Fläche,4.4
3,Ablauforganisation,Organisation,4.4
4,Abschiedsspiel,Spiel,4.6
...,...,...,...
1087,Zitronensaft,Saft,5.0
1091,Zugewinngemeinschaft,Gemeinschaft,4.0
1094,Zukunftsfähigkeit,Fähigkeit,4.0
1095,Öllampe,Lampe,5.0


In [16]:
compound_ratings_dfs=[ratings_compositionality_modifiers,ratings_compositionality_heads,
                      ratings_concreteness_modifiers,ratings_concreteness_heads,ratings_concreteness_compounds,
                      ratings_hypernymy]

In [17]:
compound_ratings=reduce(lambda  left,right: pd.merge(left,right,on=['compound'],suffixes=('', '_y')), compound_ratings_dfs)
compound_ratings.drop(['modifier_y','head_y','head_y'],axis=1,inplace=True)
compound_ratings

Unnamed: 0,compound,modifier,mod_comp,head,head_comp,mod_conc,head_conc,comp_conc,head_hyper
0,Ahornblatt,Ahorn,4.4,Blatt,4.2,4.2,4.8,4.8,5.0
1,Apfelsaft,Apfel,4.0,Saft,4.0,4.4,4.4,4.4,5.0
2,Bahnchef,Bahn,4.0,Chef,4.0,4.6,4.0,4.4,4.8
3,Bananenschale,Banane,4.8,Schale,4.2,5.0,5.0,5.0,5.0
4,Baumhaus,Baum,4.4,Haus,4.2,5.0,5.0,5.0,4.2
...,...,...,...,...,...,...,...,...,...
112,Wasserquelle,Wasser,4.4,Quelle,5.0,4.4,4.0,4.6,4.0
113,Wollschal,Wolle,4.2,Schal,4.6,4.4,5.0,5.0,5.0
114,Ziegelstein,Ziegel,4.2,Stein,4.2,4.0,4.4,4.4,4.4
115,Ziegenbock,Ziege,4.8,Bock,4.4,4.6,4.6,4.6,4.2


In [18]:
mod_list=compound_ratings.modifier.unique().tolist()
head_list=compound_ratings['head'].unique().tolist()
comp_list=compound_ratings.compound.unique().tolist()

features_modifiers=pd.read_csv('Compositionality-Feature-NN/features-compounds.tsv',sep='\t',header=None)
#features_modifiers.columns=['compound','modifier','mod_conc']
features_modifiers

In [19]:
germanet_compounds=pd.read_csv('/fs/scratch/users/pageljs/NCC/split_compounds_from_GermaNet18.0.txt',sep='\t',header=None)
germanet_compounds.drop([0,1],inplace=True)
germanet_compounds.columns=['compound','modifier','head']
germanet_compounds.drop_duplicates(subset='compound',inplace=True)
#germanet_compounds.modifier=germanet_compounds.modifier.str.split('|')
#germanet_compounds=germanet_compounds.explode('modifier')
germanet_compounds=germanet_compounds.loc[(germanet_compounds.modifier.isin(mod_list)) & (germanet_compounds['head'].isin(head_list))]
germanet_compounds

Unnamed: 0,compound,modifier,head
1406,Ahornbaum,Ahorn,Baum
1407,Ahornblatt,Ahorn,Blatt
3549,Apfelbaum,Apfel,Baum
3557,Apfelgarten,Apfel,Garten
3560,Apfelkern,Apfel,Kern
...,...,...,...
120541,Zitronenkuchen,Zitrone,Kuchen
120546,Zitronensaft,Zitrone,Saft
120548,Zitronenschale,Zitrone,Schale
120551,Zitronentee,Zitrone,Tee


In [20]:
def read_germanet_xml_nav(filename):
    synset_list = []
    tree = etree.parse(filename)
    synsets = tree.findall("synset")
    for synset in synsets:
        lexunits = synset.findall(".//lexUnit")
        paraphrase = synset.find(".//paraphrase")

        if paraphrase is not None:
            paraphrase_text = paraphrase.text
        else:
            paraphrase_text = None


        for lexunit in lexunits:
            orthForm = lexunit.find(".//orthForm")
            orthVar = lexunit.find(".//orthVar")
            if orthVar is not None:
                orthVar_text=orthVar.text
            else:
                orthVar_text=None
            compounds = lexunit.find(".//compound")
            if compounds is not None:
                compound = True
                modifiers = compounds.findall(".//modifier")

                #print(len(modifiers))
                for mod in modifiers:
                    if 'category' in mod.attrib:
                        mod_cat=mod.attrib["category"]
                    else:
                        mod_cat=None
                        
                    if len(modifiers)==2 and mod_cat=="Verb":
                        mod_cat="Nomen"
                        continue
                    else:
                        mod_text=mod.text
                        if 'property' in mod.attrib:
                            mod_prop=mod.attrib["property"]
                        else:
                            mod_prop=None
        

                head = compounds.find(".//head")
                head_text = head.text

                if 'property' in head.attrib:
                    head_prop=head.attrib["property"]
                else:
                    head_prop=None

            else:
                compound = False
                mod_text = None
                mod_cat=None
                head_text = None
                mod_prop=None
                head_prop=None
            synset_list.append({"synset_id": synset.attrib["id"],
                                "category": synset.attrib["category"],
                                "variation": orthVar_text,
                                "class": synset.attrib["class"],
                                "lexunit_id": lexunit.attrib["id"],
                                "sense": int(lexunit.attrib["sense"]),
                                "source": lexunit.attrib["source"],
                                "namedEntity": lexunit.attrib["namedEntity"],
                                "artificial": lexunit.attrib["artificial"],
                                "styleMarking": lexunit.attrib["styleMarking"],
                                "orthForm": orthForm.text,
                                "compound": compound,
                                "modifier": mod_text,
                                "head": head_text,
                                "modifier_cat":mod_cat,
                                "modifier_prop":mod_prop,
                                "head_prop":head_prop,
                               "paraphrase":paraphrase_text})
    return pd.DataFrame.from_dict(synset_list)

<!ELEMENT relations (lex_rel|con_rel)+>
<!ELEMENT lex_rel EMPTY>
<!ATTLIST lex_rel name 
      (has_antonym|has_participle|has_pertainym|has_active_usage|
      has_occasion|has_attribute|has_appearance|
      has_construction_method|has_container|is_container_for|
      has_consistency_of|has_component|has_owner|is_owner_of|has_function|
      has_manner_of_functioning|has_origin|has_production_method|
      has_content|has_no_property|has_habitat|has_location|is_location_of|
      has_measure|is_measure_of|has_material|has_member|is_member_of|
      has_diet|is_diet_of|has_eponym|has_user|has_product|is_product_of|
      has_prototypical_holder|is_prototypical_holder_for|
      has_prototypical_place_of_usage|has_relation|has_raw_product|
      has_other_property|is_storage_for|has_specialization|has_part|
      is_part_of|has_topic|is_caused_by|is_cause_for|is_comparable_to|
      has_usage|has_result_of_usage|has_purpose_of_usage|has_goods|
      has_time|is_access_to|has_ingredient|is_ingredient_of) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>
<!ELEMENT con_rel EMPTY>
<!ATTLIST con_rel name (hyperonymy|meronymy|holonymy
        |entailment|causation|association) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>


<con_rel name="hyperonymy" from="ID" to="ID" dir="revert" inv="hyponymy" />
<lex_rel name="antonymy" from="ID" to="ID" dir="both" />

In [21]:
def read_germanet_xml_rel(filename):

    tree = etree.parse(filename)
    #con_rels=tree.findall("con_rel")
    
    rels_list=[]
    #for con_rel in con_rels:
    
        #if 'inv' in con_rel.attrib:
            #inv_text=con_rel.attrib['inv']
        #else:
            #inv_text=None
        #rels_list.append({
                            #'rel_type':'con_rel',
                            #'name':con_rel.attrib["name"],
                             #'from':con_rel.attrib["from"],
                             #'to':con_rel.attrib["to"],
                             #'inv':inv_text})

    lex_rels=tree.findall("lex_rel")

    for lex_rel in lex_rels:
    
        if 'inv' in lex_rel.attrib:
            inv_text=lex_rel.attrib['inv']
        else:
            inv_text=None
        rels_list.append({
                            'rel_type':'lex_rel',
                            'name':lex_rel.attrib["name"],
                             'from':lex_rel.attrib["from"],
                             'to':lex_rel.attrib["to"],
                             'inv':inv_text})
    

    return pd.DataFrame.from_dict(rels_list)

<synset id="ID" wordCategory="CATEGORY">
  <lexUnit id="ID"  orthVarOf="VAR" acceptable="ACC" sense="SE" source="SRC" namedEntity="NE" artificial="AR" styleMarking="SM">
    <orthForm>ORTHFORM</orthForm>
    <orthVar>ORTHVAR</orthVar>
    <oldOrthForm>OLDORTHFORM</oldOrthForm>
    <oldOrthVar>OLDORTHVAR</oldOrthVar>
    <frame>FRAME</frame>
    <example>
      <text>TEXT</text>
      <exframe>EXFRAME</exframe>
    </example>
    <compound>
      <modifier property="PROP" category="CAT">MODIFIER1</modifier>
      <modifier property="PROP" category="CAT">MODIFIER2</modifier>
      <head property="PROP">HEAD</head>
    </compound>
  </lexUnit>
  <paraphrase>PARAPHRASE</paraphrase>
</synset>

In [22]:
import glob
noun_lists=glob.glob("/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen*")
#adj_lists=glob.glob("/resources/data/GermaNet/GN_V130/GN_V130_XML/adj*")
#verb_lists=glob.glob("/resources/data/GermaNet/GN_V130/GN_V130_XML/verben*")
#nav_lists=noun_lists+adj_lists+verb_lists
len(noun_lists)

23

In [23]:
df_list=[]

for lst in noun_lists:
    print(lst)
    cur_df=read_germanet_xml_nav(lst)
    df_list.append(cur_df)

germannet_df=pd.concat(df_list)

/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Attribut.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Gruppe.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Geschehen.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Substanz.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Koerper.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Kommunikation.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Artefakt.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Kognition.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Gefuehl.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Pflanze.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Mensch.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Motiv.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Nahrung.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.natPhaenomen.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML/nomen.Tier.xml
/resources/data/GermaNet/GN_V130/GN_V130_XML

In [24]:
lexid_lst=germannet_df.lexunit_id.to_list()
word_lst=germannet_df.orthForm.to_list()
lexid_dict=dict(zip(lexid_lst,word_lst))

from collections import defaultdict
word_dict = defaultdict(list)
for k,v in lexid_dict.items():
    word_dict[v].append(k)

In [25]:
germannet_df.loc[germannet_df.orthForm.isin(comp_list)]

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,orthForm,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase
3197,s13169,nomen,,Attribut,l18275,1,core,no,no,no,Haarfarbe,True,Haar,Farbe,Nomen,,,
8664,s17018,nomen,,Geschehen,l23661,1,core,no,no,no,Wasserquelle,True,Wasser,Quelle,Nomen,,,
202,s67556,nomen,,Substanz,l93477,1,core,no,no,no,Flusswasser,True,Fluss,Wasser,Nomen,,,
1154,s48354,nomen,,Substanz,l69056,1,core,no,no,no,Meerwasser,True,Meer,Wasser,Nomen,,,
1155,s48354,nomen,,Substanz,l86207,1,core,no,no,no,Seewasser,True,See,Wasser,Nomen,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4967,s110017,nomen,,Ort,l145975,1,core,no,no,no,Standfläche,True,Stand,Fläche,Nomen,,,
7446,s41605,nomen,,Ort,l60756,1,core,no,no,no,Wandfläche,True,Wand,Fläche,Nomen,,,
7630,s41588,nomen,,Ort,l60738,1,core,no,no,no,Bürofläche,True,Büro,Fläche,Nomen,,,
8111,s41604,nomen,,Ort,l60755,1,core,no,no,no,Dachfläche,True,Dach,Fläche,Nomen,,,


In [26]:
multi_sense_list=germannet_df.loc[(germannet_df.orthForm.isin(comp_list)) & (germannet_df.sense>1)].orthForm.to_list()
germannet_df.loc[germannet_df.orthForm.isin(multi_sense_list)]

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,orthForm,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase
2218,s47637,nomen,,Substanz,l68161,2,core,no,no,no,Ziegelstein,True,Ziegel,Stein,Nomen,,,Baustoff aus tonhaltigem Lehm
11791,s10328,nomen,,Artefakt,l14390,2,core,no,no,no,Vogelhaus,True,Vogel,Haus,Nomen,,,
1846,s39908,nomen,,Nahrung,l58522,2,core,no,no,no,Kamillentee,True,Kamille,Tee,Nomen,,,
2459,s68580,nomen,,Nahrung,l94679,1,core,no,no,no,Kamillentee,True,Kamille,Tee,Nomen,,,"getrocknete Kamillenblüten, welche zum Herstel..."
4693,s76625,nomen,,Ort,l104428,2,core,no,no,no,Standfläche,True,Stand,Fläche,Nomen,,,
4848,s132480,nomen,,Ort,l173790,1,core,no,no,no,Vogelhaus,True,Vogel,Haus,Nomen,,,
4967,s110017,nomen,,Ort,l145975,1,core,no,no,no,Standfläche,True,Stand,Fläche,Nomen,,,
502,s40455,nomen,,natGegenstand,l59250,1,core,no,no,no,Ziegelstein,True,Ziegel,Stein,Nomen,,,


In [27]:
germannet_df.loc[germannet_df.orthForm=="Spielball"]

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,orthForm,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase
11471,s33157,nomen,,Geschehen,l45611,1,core,no,no,no,Spielball,True,Spiel,Ball,Nomen,,,
702,s11162,nomen,,Artefakt,l15471,4,core,no,no,no,Spielball,True,Spiel,Ball,Nomen,,,
1272,s7942,nomen,,Artefakt,l11337,3,core,no,no,no,Spielball,True,Spiel,Ball,Nomen,,,
14701,s38557,nomen,,Mensch,l56526,2,core,no,no,no,Spielball,True,Spiel,Ball,Nomen,,,


In [28]:
germannet_df.loc[germannet_df.compound==True].orthForm.value_counts().head(30)

orthForm
Drehscheibe         4
Atmosphäre          4
Rindvieh            4
Großmeister         4
Spielball           4
Zungenschlag        4
Hausarbeit          3
Lebendgeburt        3
Einzelarbeit        3
Notstand            3
Mutterhaus          3
U-Bahn              3
Holzbohrer          3
Diskussionsrunde    3
Kurzform            3
Einzelbild          3
Unterkleid          3
Rechtsordnung       3
Goldkrone           3
Handweberei         3
Storchschnabel      3
Breitseite          3
Wasserschutz        3
Grundton            3
Winterkleid         3
Fuchsschwanz        3
Hintergrund         3
S-Bahn              3
Nachspiel           3
Rückschlag          3
Name: count, dtype: int64

In [29]:
relations_df=read_germanet_xml_rel("/resources/data/GermaNet/GN_V130/GN_V130_XML/gn_relations.xml")
relations_df['from_text']=relations_df['from'].copy()
relations_df['to_text']=relations_df['to'].copy()
relations_df.replace({'from_text':lexid_dict, 'to_text':lexid_dict},inplace=True)
relations_df

Unnamed: 0,rel_type,name,from,to,inv,from_text,to_text
0,lex_rel,has_pertainym,l763,l22190,,l763,Emotion
1,lex_rel,has_pertainym,l786,l65372,,l786,Mimose
2,lex_rel,has_antonym,l800,l756,has_antonym,l800,l756
3,lex_rel,has_pertainym,l967,l22652,,l967,Erwartung
4,lex_rel,has_pertainym,l1437,l50953,,l1437,Schriftsteller
...,...,...,...,...,...,...,...
12193,lex_rel,has_content,l16608,l16586,,Porträtfoto,Porträt
12194,lex_rel,is_part_of,l119281,l66545,,Rosenblüte,Rose
12195,lex_rel,has_product,l97502,l68335,,Silbermine,Silber
12196,lex_rel,has_attribute,l9389,l56769,,Chefsessel,Chef


In [58]:
comp_df=germannet_df.loc[germannet_df.compound==True]
comp_df

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,orthForm,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase
3,s131243,nomen,,Attribut,l171637,1,core,no,no,no,Ausreisegenehmigung,True,Ausreise,Genehmigung,Nomen,,,
4,s112235,nomen,,Attribut,l148797,1,core,no,no,no,Spielniveau,True,Spiel,Niveau,Nomen,,,
5,s67352,nomen,,Attribut,l93241,1,core,no,no,no,Gefiederfärbung,True,Gefieder,Färbung,Nomen,,,
7,s14294,nomen,,Attribut,l19889,1,core,no,no,no,Alkoholfahne,True,Alkohol,Fahne,Nomen,,,nach Alkohol riechender Atem
9,s13206,nomen,,Attribut,l18343,1,core,no,no,no,Bierkonsum,True,Bier,Konsum,Nomen,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
848,s40740,nomen,,natGegenstand,l59598,1,core,no,no,no,Blauquarz,True,blau,Quarz,Adjektiv,,,
849,s40740,nomen,,natGegenstand,l59599,1,core,no,no,no,Saphirquarz,True,Saphir,Quarz,Nomen,,,
850,s40497,nomen,,natGegenstand,l59308,1,core,no,no,no,Stein-Eisen-Meteorit,True,Stein Eisen,Meteorit,,Wortgruppe,,
852,s83714,nomen,,natGegenstand,l112875,1,core,no,no,no,Basaltstein,True,Basalt,Stein,Nomen,,,


In [62]:
mod_comp_rel_df=comp_df.merge(relations_df[['name','from','to_text','to']],left_on=['lexunit_id','modifier'],right_on=['from','to_text'])
#mod_comp_rel_df.drop(['source','artificial','styleMarking','from','to_text','to'],axis=1,inplace=True)
mod_comp_rel_df

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,...,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name,from,to_text,to
0,s61977,nomen,,Attribut,l86994,1,core,no,no,no,...,Text,Wüste,Nomen,,,,has_material,l86994,Text,l44676
1,s14381,nomen,,Attribut,l20010,1,core,no,no,no,...,Page,Kopf,Nomen,,,,is_part_of,l20010,Page,l49504
2,s91270,nomen,,Attribut,l122353,1,core,no,no,no,...,Zins,Fuß,Nomen,,,,is_measure_of,l122353,Zins,l20213
3,s15891,nomen,,Attribut,l22058,2,core,no,no,no,...,Haar,Kranz,Nomen,,,,has_material,l22058,Haar,l36049
4,s13339,nomen,,Attribut,l18506,1,core,no,no,no,...,Lohn,Niveau,Nomen,,,,is_measure_of,l18506,Lohn,l20665
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7217,s40753,nomen,,natGegenstand,l59616,1,core,no,no,no,...,Tiger,Auge,Nomen,,,,is_part_of,l59616,Tiger,l71764
7218,s81052,nomen,,natGegenstand,l109562,1,core,no,no,no,...,Öl,Sand,Nomen,,,,has_component,l109562,Öl,l59170
7219,s62090,nomen,,natGegenstand,l87129,1,core,no,no,no,...,Quarz,Sand,Nomen,,,,has_material,l87129,Quarz,l68883
7220,s89903,nomen,,natGegenstand,l120752,1,core,no,no,no,...,Heimat,Erde,Nomen,,,,has_attribute,l120752,Heimat,l60903


In [59]:
mod_comp_rel_df['name'].value_counts()

name
is_part_of                         538
has_material                       456
has_part                           406
has_location                       386
has_user                           340
has_active_usage                   339
has_attribute                      329
has_purpose_of_usage               276
has_usage                          271
has_appearance                     266
has_specialization                 227
is_container_for                   211
has_topic                          203
has_function                       201
has_manner_of_functioning          200
has_ingredient                     194
has_owner                          189
has_habitat                        184
has_raw_product                    162
has_content                        158
has_origin                         143
has_time                           130
has_prototypical_place_of_usage    126
has_product                        124
has_occasion                       113
has_prototypical_hol

In [61]:
comp_df.merge(relations_df[['name','from_text','to']],left_on=['lexunit_id','modifier'],right_on=['to','from_text'])


Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,...,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name,from_text,to
0,s46040,nomen,,Pflanze,l66180,1,core,no,no,no,...,True,Sojabohne,Pflanze,Nomen,,,,is_product_of,Sojabohne,l66180
1,s37540,nomen,,Mensch,l54236,1,core,no,no,no,...,True,Gast,Geber,Nomen,,,,has_antonym,Gast,l54236


In [29]:
head_comp_rel_df=comp_df.merge(relations_df[['name','from','to_text','to']],left_on=['lexunit_id','head'],right_on=['from','to_text'])
head_comp_rel_df.drop(['source','artificial','styleMarking','from','to_text','to'],axis=1,inplace=True)
head_comp_rel_df

Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,namedEntity,orthForm,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name
0,s42564,nomen,,Artefakt,l62057,1,no,Sandburg,True,Sand,Burg,Nomen,,,,has_appearance
1,s11191,nomen,,Artefakt,l15514,1,no,Schneemann,True,Schnee,Mann,Nomen,,,,has_appearance
2,s46589,nomen,,Pflanze,l66827,3,no,Zuckerhut,True,Zucker,Hut,Nomen,,,,has_appearance
3,s76182,nomen,,Nahrung,l103846,2,no,Zuckerhut,True,Zucker,Hut,Nomen,,,,has_appearance
4,s46297,nomen,,Nahrung,l66488,1,no,Zimtstange,True,Zimt,Stange,Nomen,,,,has_appearance
5,s15803,nomen,,Form,l21949,2,no,Schneeball,True,Schnee,Ball,Nomen,,,,has_appearance
6,s118885,nomen,,Ort,l156722,1,yes,Zuckerhut,True,Zucker,Hut,Nomen,,,,has_appearance


In [33]:
comp_df.merge(relations_df[['name','from_text','to']],left_on=['lexunit_id','head'],right_on=['to','from_text'])


Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,...,compound,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name,from_text,to


In [34]:
comp_df.merge(relations_df[['name','from_text','to_text','to']],left_on=['modifier','head'],right_on=['from_text','to_text'])


Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,...,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name,from_text,to_text,to


In [35]:
comp_df.merge(relations_df[['name','from_text','to_text','to']],left_on=['head','modifier'],right_on=['from_text','to_text'])


Unnamed: 0,synset_id,category,variation,class,lexunit_id,sense,source,namedEntity,artificial,styleMarking,...,modifier,head,modifier_cat,modifier_prop,head_prop,paraphrase,name,from_text,to_text,to


In [143]:
with open("/resources/data/GermaNet/GN_V130/GN_V130_DB/GN_V130_database_dump.dump", "r") as f:
    dump_file=f.read().split('\n\n')

for i,row in enumerate(dump_file):
    print(i,len(row))

In [163]:
18

18

In [155]:
dump_file[177]

'\n--\n-- Data for Name: example_table; Type: TABLE DATA; Schema: public; Owner: germanet\n--'

In [153]:
dump_file[178][:1000]

'COPY example_table (id, lex_unit_id, text, frame_type_id) FROM stdin;\n1\t27\teine närrische Freude haben\t\\N\n2\t42\teine knappe Portion\t\\N\n3\t114\tein gewaltiges Erdbeben\t\\N\n4\t121\tschwarze Hoffnungslosigkeit\t\\N\n5\t144\tmir geht es blendend\t\\N\n6\t233\tein Restaurant mit gehobener Küche\t\\N\n7\t291\tein attraktives Angebot\t\\N\n8\t307\tein effektives Unternehmen\t\\N\n9\t341\tfreundliches Wetter\t\\N\n10\t341\teine freundliche Gegend\t\\N\n11\t349\teine bodenlose Frechheit\t\\N\n12\t424\twidriges Wetter\t\\N\n13\t424\twidrige Umstände\t\\N\n14\t574\teine hanebüchene Story\t\\N\n15\t843\tin ausgelassener Stimmung\t\\N\n16\t1067\tmir ist alles egal\t\\N\n17\t1136\tein fröhliches Lied\t\\N\n18\t1137\tein heiteres Lied\t\\N\n19\t1138\tein lustiges Lied\t\\N\n20\t1283\teine bunte Veranstaltung\t\\N\n21\t1445\tein heller Kopf\t\\N\n24\t1520\tSie hörte ihm verträumt zu\t\\N\n25\t1751\tbürgerliche(s) Gesellschaft/Essen/Küche\t\\N\n26\t2600\teine klare Stimme\t\\N\n27\t2612\tI

In [157]:
dump_file[179]

'\n--\n-- Data for Name: compound_table; Type: TABLE DATA; Schema: public; Owner: germanet\n--'

In [183]:
dump_file[171]

'\n--\n-- Data for Name: compound_category_table; Type: TABLE DATA; Schema: public; Owner: germanet\n--'

In [184]:
dump_file[172].split('\n')[0]

'COPY compound_category_table (id, category) FROM stdin;'

In [187]:
172+18

190

In [252]:
dump_file[194].split('\n')[0]

'COPY lex_unit_table (id, synset_id, orth_form, source, named_entity, artificial, style_marking, old_orth_form, old_orth_var, orth_var, comment) FROM stdin;'

In [212]:
trial_df=pd.read_csv(StringIO(dump_file[200]),skiprows=1,header=None,sep='\t',skipfooter=1)
trial_df.columns=['id', 'gn_lex_unit_id', 'wkn_word_entry_id', 'wkn_sense_id', 'wkn_gloss', 'wkn_gloss_edited']
trial_df

  trial_df=pd.read_csv(StringIO(dump_file[200]),skiprows=1,header=None,sep='\t',skipfooter=1)


Unnamed: 0,id,gn_lex_unit_id,wkn_word_entry_id,wkn_sense_id,wkn_gloss,wkn_gloss_edited
0,28612,6118,72520,0,ohne Bargeld,f
1,28689,74531,65859,2,"auf etwas ankommen: der entscheidende, wichtig...",f
2,28726,6740,62877,0,"umgangssprachlich: tätig, engagiert",f
3,28712,128995,74778,1,mit Absicht,f
4,28845,6935,75536,0,überheblich oder herablassend,f
...,...,...,...,...,...,...
29545,42262,11108,52184,0,"Unterhaltungselektronik: Ein Gerät, um Radio- ...",f
29546,42638,103712,53110,1,eine von zwei oder mehr Möglichkeiten,f
29547,34918,45366,17286,0,"literarischer Text, der zur Aufführung auf ein...",f
29548,40230,145945,49225,2,Sport: eine Übung in einer bestimmten Disziplin,f


In [257]:
lex_df=pd.read_csv(StringIO(dump_file[194]),skiprows=1,header=None,sep='\t',skipfooter=1,engine='python')
lex_df.columns=['lex_id', 'synset_id', 'orth_form', 'source', 'named_entity', 'artificial', 'style_marking', 'old_orth_form', 'old_orth_var', 'orth_var', 'comment']
lex_df

Unnamed: 0,lex_id,synset_id,orth_form,source,named_entity,artificial,style_marking,old_orth_form,old_orth_var,orth_var,comment
0,136210,102534,Vorführgerät,core,f,f,f,\N,\N,\N,\N
1,136212,102534,Vorführmodell,core,f,f,f,\N,\N,\N,\N
2,136216,102536,Lehramtsstudent,core,f,f,f,\N,\N,\N,\N
3,136217,102536,Lehramtsstudentin,core,f,f,f,\N,\N,\N,\N
4,136218,102537,Leitgewebe,core,f,f,f,\N,\N,\N,\N
...,...,...,...,...,...,...,...,...,...,...,...
164809,136209,102533,Lebenschance,core,f,f,f,\N,\N,\N,\N
164810,136211,24312,Lebensmittelbranche,core,f,f,f,\N,\N,\N,\N
164811,136213,102535,Lebensmittelvorrat,core,f,f,f,\N,\N,\N,\N
164812,136214,34095,Ledige,core,f,f,f,\N,\N,\N,\N


In [258]:
lex_df.loc[lex_df.lex_id==6118]

Unnamed: 0,lex_id,synset_id,orth_form,source,named_entity,artificial,style_marking,old_orth_form,old_orth_var,orth_var,comment
115903,6118,4157,bargeldlos,core,f,f,f,\N,\N,\N,\N


In [262]:
combined_df=pd.merge(lex_df,trial_df,left_on='lex_id',right_on='gn_lex_unit_id')

In [266]:
what_df=pd.merge(combined_df,xml_df,left_on='orth_form',right_on='title')
what_df

Unnamed: 0,lex_id,synset_id,orth_form,source,named_entity,artificial,style_marking,old_orth_form,old_orth_var,orth_var,comment,id_x,gn_lex_unit_id,wkn_word_entry_id,wkn_sense_id,wkn_gloss,wkn_gloss_edited,title,id_y,text
0,136285,102586,hässlich,core,f,f,f,häßlich,\N,\N,\N,56289,136285,100265,2,"verletzend, gemein",f,hässlich,153371,== hässlich ({{Sprache|Deutsch}}) ==\n=== {{Wo...
1,2847,1842,hässlich,core,f,f,f,häßlich,\N,\N,\N,50904,2847,100265,0,unschön aussehend,f,hässlich,153371,== hässlich ({{Sprache|Deutsch}}) ==\n=== {{Wo...
2,136311,102607,diskret,core,f,f,f,\N,\N,\N,\N,28943,136311,85504,0,etwas geheim haltend; vertraulich,f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...
3,128274,96126,diskret,core,f,f,f,\N,\N,\N,\N,56068,128274,85504,1,"Mathematik, nicht steigerbar: getrennt, keine ...",f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...
4,128274,96126,diskret,core,f,f,f,\N,\N,\N,\N,56069,128274,85504,2,"Physik, nicht kontinuierlich: einzeln, nicht z...",f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29523,132226,99401,klassisch,core,f,f,f,\N,\N,\N,\N,29858,132226,104942,0,Geschichte: die antike Klassik betreffend,f,klassisch,153371,== klassisch ({{Sprache|Deutsch}}) ==\n=== {{W...
29524,132226,99401,klassisch,core,f,f,f,\N,\N,\N,\N,29859,132226,104942,1,"Musik, Dichtkunst: stilistische Merkmale der K...",f,klassisch,153371,== klassisch ({{Sprache|Deutsch}}) ==\n=== {{W...
29525,63160,100774,Prärie,core,f,f,f,\N,\N,\N,\N,37224,63160,43208,0,Graslandschaft in Nordamerika,f,Prärie,5327,== Prärie ({{Sprache|Deutsch}}) ==\n=== {{Wort...
29526,22876,16438,Ereignis,core,f,f,f,\N,\N,\N,\N,38677,22876,20266,0,ein - meist bedeutsames - Geschehen oder Erlebnis,f,Ereignis,190722,== Ereignis ({{Sprache|Deutsch}}) ==\n=== {{Wo...


In [271]:
what_df.loc[what_df.orth_form=='diskret']

Unnamed: 0,lex_id,synset_id,orth_form,source,named_entity,artificial,style_marking,old_orth_form,old_orth_var,orth_var,comment,id_x,gn_lex_unit_id,wkn_word_entry_id,wkn_sense_id,wkn_gloss,wkn_gloss_edited,title,id_y,text
2,136311,102607,diskret,core,f,f,f,\N,\N,\N,\N,28943,136311,85504,0,etwas geheim haltend; vertraulich,f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...
3,128274,96126,diskret,core,f,f,f,\N,\N,\N,\N,56068,128274,85504,1,"Mathematik, nicht steigerbar: getrennt, keine ...",f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...
4,128274,96126,diskret,core,f,f,f,\N,\N,\N,\N,56069,128274,85504,2,"Physik, nicht kontinuierlich: einzeln, nicht z...",f,diskret,7352,== diskret ({{Sprache|Deutsch}}) ==\n=== {{Wor...


In [200]:
for i in range(172,214,2):
    print(i)
    print(dump_file[i].split('\n')[0])
    print(pd.read_csv(StringIO(dump_file[i]),skiprows=1,header=None,sep='\t'))
    

172
COPY compound_category_table (id, category) FROM stdin;
    0               1
0   0        Adjektiv
1   1           Nomen
2   2            Verb
3   3          Adverb
4   4     Präposition
5   5        Partikel
6   6        Pronomen
7   7          Präfix
8   8  Verbalpartikel
9  \.             NaN
174
COPY compound_property_table (id, property) FROM stdin;
     0                   1
0    0           Abkürzung
1    1            Affixoid
2    2           Fremdwort
3    3              Konfix
4    4     opaques Morphem
5    5   virtuelle Bildung
6    6          Wortgruppe
7    7          Konversion
8    8           Eigenname
9    9  gebundenes Morphem
10  10      freies Morphem
11  \.                 NaN
176
COPY ewn_rel_table (id, name) FROM stdin;
     0                  1
0    1            synonym
1    4             causes
2    3       near_synonym
3    5               role
4   13           involved
5   15  xpos_near_synonym
6    7        has_hyponym
7    8        has_holonym
8    9 

  print(pd.read_csv(StringIO(dump_file[i]),skiprows=1,header=None,sep='\t'))
  print(pd.read_csv(StringIO(dump_file[i]),skiprows=1,header=None,sep='\t'))


           0    1         2    3    4           5    6    7      8    9    10  \
0      222840   \N  152071.0    1   \N       haupt   \N   \N     \N   \N   \N   
1      222870   \N  152105.0    8    1      Stalin   \N   \N     \N   \N   \N   
2      222909   \N  152149.0   \N    1     Fahrrad   \N   \N     \N   \N   \N   
3      222913   \N  152153.0   \N    1    Finanzen   \N   \N     \N   \N   \N   
4      222918   \N  152159.0   \N    1       Armut   \N   \N     \N   \N   \N   
...       ...  ...       ...  ...  ...         ...  ...  ...    ...  ...  ...   
84744  222784   \N  152008.0   \N    1        Reis   \N   \N     \N   \N   \N   
84745  222812   \N  152036.0   \N    2      taufen   \N    1  Taufe   \N   \N   
84746  222815   \N  152043.0   \N    1  Stabilität   \N   \N     \N   \N   \N   
84747  222816   \N  152046.0   \N    1        Kino   \N   \N     \N   \N   \N   
84748      \.  NaN       NaN  NaN  NaN         NaN  NaN  NaN    NaN  NaN  NaN   

                11   12   1

  print(pd.read_csv(StringIO(dump_file[i]),skiprows=1,header=None,sep='\t'))


            0         1                    2     3    4    5    6    7    8   \
0       136210  102534.0         Vorführgerät  core    f    f    f   \N   \N   
1       136212  102534.0        Vorführmodell  core    f    f    f   \N   \N   
2       136216  102536.0      Lehramtsstudent  core    f    f    f   \N   \N   
3       136217  102536.0    Lehramtsstudentin  core    f    f    f   \N   \N   
4       136218  102537.0           Leitgewebe  core    f    f    f   \N   \N   
...        ...       ...                  ...   ...  ...  ...  ...  ...  ...   
164810  136211   24312.0  Lebensmittelbranche  core    f    f    f   \N   \N   
164811  136213  102535.0   Lebensmittelvorrat  core    f    f    f   \N   \N   
164812  136214   34095.0               Ledige  core    f    f    f   \N   \N   
164813  136215   34094.0              Lediger  core    f    f    f   \N   \N   
164814      \.       NaN                  NaN   NaN  NaN  NaN  NaN  NaN  NaN   

         9    10  
0        \N   \N  
1

In [198]:
compound_category_table=
#compound_category_table.columns=['comp_id','comp_cat']
compound_category_table

Unnamed: 0,0,1
0,0,Allgemein
1,1,Bewegung
2,2,Gefuehl
3,3,Geist
4,4,Gesellschaft
5,5,Koerper
6,6,Menge
7,7,natPhaenomen
8,8,Ort
9,9,Pertonym


In [36]:
import bz2
from io import StringIO,BytesIO

In [41]:
cur_path='dewiktionary-20240120-pages-articles.xml.bz2'

In [202]:
with bz2.open(cur_path, "rb") as bz_file:
    xml_data=bz_file.read()
xml_df = pd.read_xml(BytesIO(xml_data),
         iterparse = {"page": ["id","title", "text"]})

In [205]:
xml_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1108994 entries, 166 to 1244386
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   title   1108994 non-null  object
 1   id      1108994 non-null  int64 
 2   text    1108994 non-null  object
dtypes: int64(1), object(2)
memory usage: 33.8+ MB


In [204]:
xml_df.loc[xml_df.id==72520]

Unnamed: 0,title,id,text


element_list = []
for event, element in etree.iterparse(trial_xml):
    element_list.append(etree.tostring(element))
    element.clear()
element_list[:10]

In [203]:
xml_df=xml_df.loc[xml_df.title.str.contains(':')==False]
xml_df

Unnamed: 0,title,id,text
166,Hallo,216634,"{{Siehe auch|[[hallo]], [[halló]]}}\n== Hallo ..."
182,ordo,84147,{{Siehe auch|[[Ordo]]}}\n== ōrdo ({{Sprache|La...
183,familia,153371,{{Siehe auch|[[família]]}}\n== familia ({{Spra...
184,species,153371,{{Siehe auch|[[Species]]}}\n== species ({{Spra...
185,classis,720,{{Siehe auch|[[Classis]]}}\n== classis ({{Spra...
...,...,...,...
1244382,Vogelbeckensaurier,43509,== Vogelbeckensaurier ({{Sprache|Deutsch}}) ==...
1244383,Echsenbeckensaurier,43509,== Echsenbeckensaurier ({{Sprache|Deutsch}}) =...
1244384,Βηθλέεμ,7006,== Βηθλέεμ ({{Sprache|Altgriechisch}}) ==\n===...
1244385,Appalachia,43509,== Appalachia ({{Sprache|Deutsch}}) ==\n=== {{...


In [45]:
noun_df=xml_df.loc[xml_df.text.str.contains('Substantiv\|Deutsch')]
noun_df.text=noun_df.text.str.replace('(\{\{Siehe auch\|.*\}\})(\n\n)','\\1\n',regex=True)
noun_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  noun_df.text=noun_df.text.str.replace('(\{\{Siehe auch\|.*\}\})(\n\n)','\\1\n',regex=True)


Unnamed: 0,title,text
166,Hallo,"{{Siehe auch|[[hallo]], [[halló]]}}\n== Hallo ..."
186,Subfamilia,== Subfamilia ({{Sprache|Deutsch}}) ==\n=== {{...
189,Subregnum,== Subregnum ({{Sprache|Deutsch}}) ==\n=== {{W...
190,Subdivisio,== Subdivisio ({{Sprache|Deutsch}}) ==\n=== {{...
191,Phylum,{{Siehe auch|[[phylum]]}}\n== Phylum ({{Sprach...
...,...,...
1244381,Viridarium,== Viridarium ({{Sprache|Deutsch}}) ==\n=== {{...
1244382,Vogelbeckensaurier,== Vogelbeckensaurier ({{Sprache|Deutsch}}) ==...
1244383,Echsenbeckensaurier,== Echsenbeckensaurier ({{Sprache|Deutsch}}) =...
1244385,Appalachia,== Appalachia ({{Sprache|Deutsch}}) ==\n=== {{...


In [46]:
noun_df.loc[noun_df.text.str.count('=== {{Wortart\|.* ===')>1]

Unnamed: 0,title,text
205,April,"{{Siehe auch|[[april]], [[apríl]]}}\n== April ..."
206,Mai,"{{Siehe auch|[[mai]], [[MAI]], [[maí]]}}\n== M..."
209,August,{{Siehe auch|[[august]]}}\n== August ({{Sprach...
210,September,{{Siehe auch|[[september]]}}\n== September ({{...
212,November,"{{Siehe auch|[[november]], [[nóvember]]}}\n== ..."
...,...,...
1241878,Bostoner,== Bostoner ({{Sprache|Deutsch}}) ==\n=== {{Wo...
1242767,Haftbedingung,== Haftbedingung ({{Sprache|Deutsch}}) ==\n===...
1242791,Bergbach,== Bergbach ({{Sprache|Deutsch}}) ==\n=== {{Wo...
1242901,Afrasiab,== Afrasiab ({{Sprache|Deutsch}}) ==\n=== {{Wo...


In [47]:
noun_df.loc[noun_df.title.str.count(" ")>0]

Unnamed: 0,title,text
2224,Geospiza conirostris,== Geospiza conirostris ({{Sprache|Deutsch}}) ...
2449,Otto Normalverbraucher,{{Siehe auch|[[Ottonormalverbraucher]]}}\n== O...
2698,Vereinigte Staaten,== Vereinigte Staaten ({{Sprache|Deutsch}}) ==...
2972,Gewinn- und Verlustrechnung,{{Siehe auch|[[Gewinn-und-Verlust-Rechnung]]}}...
3192,Delirium tremens,{{Siehe auch|[[delirium tremens]]}}\n== Deliri...
...,...,...
1241096,Nervus Rerum,== Nervus Rerum ({{Sprache|Deutsch}}) ==\n=== ...
1241211,Brand Manager,== Brand Manager ({{Sprache|Deutsch}}) ==\n===...
1241276,Trade Marketing Manager,== Trade Marketing Manager ({{Sprache|Deutsch}...
1241511,Coney Island,== Coney Island ({{Sprache|Deutsch}}) ==\n=== ...


In [49]:
noun_df.loc[noun_df.text.str.count('== .* \{\{Wortart\|.*\|Deutsch\}\} ==')>1].sample(20)

Unnamed: 0,title,text
91640,Fabian,== Fabian ({{Sprache|Deutsch}}) ==\n=== {{Wort...
3413,Jupiter,== Jupiter ({{Sprache|Deutsch}}) ==\n=== {{Wor...
40592,Amber,== Amber ({{Sprache|Deutsch}}) ==\n=== {{Worta...
14511,Walter,== Walter ({{Sprache|Deutsch}}) ==\n=== {{Wort...
4528,Aachen,== Aachen ({{Sprache|Deutsch}}) ==\n=== {{Wort...
126527,Neunkirchen,== Neunkirchen ({{Sprache|Deutsch}}) ==\n=== {...
437880,Micha,== Micha ({{Sprache|Deutsch}}) ==\n=== {{Worta...
99062,Lodz,"{{Siehe auch|[[łódź]], [[Łódź]]}}\n== Lodz ({{..."
84282,Böhme,== Böhme ({{Sprache|Deutsch}}) ==\n=== {{Worta...
17640,Heide,{{Siehe auch|[[-heide]]}}\n== Heide ({{Sprache...


In [56]:
noun_df.loc[noun_df.text.str.count('== .* \({{Sprache\|.* ==')>1].sample(20)

Unnamed: 0,title,text
75192,Marion,== Marion ({{Sprache|Deutsch}}) ==\n=== {{Wort...
382112,Recife,== Recife ({{Sprache|Deutsch}}) ==\n=== {{Wort...
21141,Darmstadt,== Darmstadt ({{Sprache|Deutsch}}) ==\n=== {{W...
20489,Mannheim,== Mannheim ({{Sprache|Deutsch}}) ==\n=== {{Wo...
40425,Ada,"{{Siehe auch|[[ada]], [[Adą]], [[āda]], [[ādā]..."
12851,Baldo,== Baldo ({{Sprache|Deutsch}}) ==\n=== {{Worta...
40616,Gloria,"{{Siehe auch|[[gloria]], [[glòria]]}}\n== Glor..."
230640,Ajmer,== Ajmer ({{Sprache|Deutsch}}) ==\n=== {{Worta...
121793,Antananarivo,== Antananarivo ({{Sprache|Deutsch}}) ==\n=== ...
122148,Santiago de Chile,== Santiago de Chile ({{Sprache|Deutsch}}) ==\...


In [50]:
trial_text=noun_df.loc[noun_df.title=='Spielball'].text.values[0]
trial_text

"== Spielball ({{Sprache|Deutsch}}) ==\n=== {{Wortart|Substantiv|Deutsch}}, {{m}} ===\n\n{{Deutsch Substantiv Übersicht\n|Genus=m\n|Nominativ Singular=Spielball\n|Nominativ Plural=Spielbälle\n|Genitiv Singular=Spielballes\n|Genitiv Singular*=Spielballs\n|Genitiv Plural=Spielbälle\n|Dativ Singular=Spielball\n|Dativ Singular*=Spielballe\n|Dativ Plural=Spielbällen\n|Akkusativ Singular=Spielball\n|Akkusativ Plural=Spielbälle\n}}\n\n{{Worttrennung}}\n:Spiel·ball, {{Pl.}} Spiel·bäl·le\n\n{{Aussprache}}\n:{{IPA}} {{Lautschrift|ˈʃpiːlˌbal}}\n:{{Hörbeispiele}} {{Audio|De-Spielball.ogg}}\n\n{{Bedeutungen}}\n:[1] ein [[Ball]], der zum [[spielen|Spielen]] [[bestimmt]] oder [[geeignet]] ist\n:[2] {{K|Sport}} Ballwechsel, der einen Spielabschnitt innerhalb eines [[Match]]es beenden kann\n:[3] ''übertragen:'' etwas oder jemand, der [[Objekt]] des [[Interesse]]s, des Spiels der Kräfte verschiedener [[Person]]en oder [[Personengruppe]]n ist, dabei aber [[passiv]], [[inaktiv]] bleibt oder bleiben muss\n

In [51]:
to_match=re.findall('== .* \(\{\{Sprache\|.*\}\}\) ==',trial_text)
to_match

['== Spielball ({{Sprache|Deutsch}}) ==']

In [52]:
lst_1=trial_text.split('\n\n')
len(lst_1)

14

In [53]:
indices_lst=[]
for cur_match in to_match:
    for i,cur_lst in enumerate(lst_1):
        if cur_match in cur_lst and i!=0:
            indices_lst.append(i)
indices_lst

[]

In [73]:
import numpy as np

In [74]:
lang_lst=list(np.split(lst_1, indices_lst, axis=0))
lang_lst[0]

array(['{{Siehe auch|[[stein]], [[-stein]]}}\n{{Wort der Woche|17|2006}}\n== Stein ({{Sprache|Deutsch}}) ==\n=== {{Wortart|Substantiv|Deutsch}}, {{m}} ===',
       "{{Deutsch Substantiv Übersicht\n|Genus=m\n|Nominativ Singular=Stein\n|Nominativ Plural=Steine\n|Genitiv Singular=Steins\n|Genitiv Singular*=Steines\n|Genitiv Plural=Steine\n|Dativ Singular=Stein\n|Dativ Singular*=Steine\n|Dativ Plural=Steinen\n|Akkusativ Singular=Stein\n|Akkusativ Plural=Steine\n|Bild 1=Roscheider Hof BW 2015-08-01 15-05-43.jpg|mini|1|ein Haus aus ''Stein''\n|Bild 2=Beach Stones 2.jpg|mini|2|''Steine'' von einem [[Strand]]\n|Bild 3=Stapel bakstenen - Pile of bricks 2005 Fruggo.jpg|mini|3|Stapel von ''Steinen''\n|Bild 4=Diamonds 1.jpg|mini|4|Rohkristalle, die zu einem ''Stein'' geschliffen werden\n|Bild 5=Entrance_Stone_to_Rokkosan_Pasture.jpg|mini|7|''Stein'' am Rokkosan Pasture\n|Bild 6=Spielstein1.JPG|mini|9|verschiedene ''Steine'' zum Spielen\n|Bild 7=Nectarine stone.jpg|mini|10|''Stein'' der [[Nektarine

In [75]:
lang_lst[1]

array(['== Stein ({{Sprache|Norwegisch}}) ==\n=== {{Wortart|Substantiv|Norwegisch}}, {{m}}, {{Wortart|Vorname|Norwegisch}} ===',
       '{{Worttrennung}}\n:Stein',
       '{{Aussprache}}\n:{{IPA}} {{Lautschrift||spr=no}}\n:{{Hörbeispiele}} {{Audio|}}',
       '{{Bedeutungen}}\n:[1] [[norwegisch]]er männlicher [[Vorname]]',
       "{{Herkunft}}\n:vom [[altnordisch]]en ''{{Ü|non|steinn}}'' „Stein“ oder vom [[altenglisch]]en ''{{Ü|ang|stán}}'' „Stein“",
       '{{Namensvarianten}}\n:[1] [[Steen]], [[Sten]]',
       '{{Weibliche Namensvarianten}}\n:[1] [[Stenetta]]',
       '{{Bekannte Namensträger}}\n:[1] [[w:no:Stein Eriksen|Stein Eriksen]], [[w:no:Stein Kollshaugen|Stein Kollshaugen]], [[w:no:Stein Rokkan|Stein Rokkan]], [[w:no:Stein Rosenlund|Stein Rosenlund]], [[w:no:Stein Tønnesson|Stein Tønnesson]]',
       '{{Beispiele}}\n:[1] {{Beispiele fehlen}}',
       '==== {{Übersetzungen}} ====\n{{Ü-Tabelle|1|G=norwegischer männlicher Vorname|Ü-Liste=\n*{{da}}: {{Ü|da|Steen}}, {{Ü|da|Sten}}\

In [123]:
re.findall('=== {{Wortart\|.* ===',trial_text)

['=== {{Wortart|Substantiv|Deutsch}}, {{n}}, {{Wortart|Buchstabe|Deutsch}}, {{Wortart|Abkürzung|Deutsch}} ===',
 '=== {{Wortart|Symbol|International}} ===',
 '=== {{Wortart|Abkürzung|International}} ===',
 '=== {{Wortart|Substantiv|Albanisch}}, {{f}}, {{Wortart|Buchstabe|Albanisch}} ===',
 '=== {{Wortart|Konjunktion|Albanisch}} ===',
 '=== {{Wortart|Partikel|Albanisch}} ===',
 '=== {{Wortart|Interjektion|Albanisch}} ===',
 '=== {{Wortart|Buchstabe|Dänisch}} ===',
 '=== {{Wortart|Artikel|Englisch}} ===',
 '=== {{Wortart|Buchstabe|Esperanto}} ===',
 '=== {{Wortart|Buchstabe|Estnisch}} ===',
 '=== {{Wortart|Substantiv|Französisch}}, {{m}}, {{Wortart|Buchstabe|Französisch}} ===',
 '=== {{Wortart|Konjugierte Form|Französisch}} ===',
 '=== {{Wortart|Substantiv|Irisch}}, {{n}}, {{Wortart|Buchstabe|Irisch}} ===',
 '=== {{Wortart|Buchstabe|Isländisch}} ===',
 '=== {{Wortart|Buchstabe|Italienisch}} ===',
 '=== {{Wortart|Präposition|Italienisch}} ===',
 '=== {{Wortart|Buchstabe|Kaschubisch}} ==='

In [91]:
re.search(r"={{Siehe auch|\[\[(.*?)\]\]}}", trial_text).group(1)

'hallo]], [[halló'

In [79]:
re.search(r"=== {{Wortart\|(.*?)\|(.*?)}} ===", trial_text).group(2)

'Deutsch}}, {{m'

In [75]:
import re

def extract_wiktionary_info(text):
    # Extracting word type and gender
    word_type_match = re.search(r"=== {{Wortart\|(.*?)\|(.*?)}} ===", text)
    if word_type_match:
        word_type = word_type_match.group(1)
        gender = word_type_match.group(2)
        print("Word Type:", word_type)
        print("Gender:", gender)

    # Extracting declensions
    declensions_match = re.search(r"{{Deutsch Substantiv Übersicht\n\|(.*?)\n}}", text, re.DOTALL)
    if declensions_match:
        declensions_data = declensions_match.group(1)
        print("Declensions:", declensions_data)

    # Extracting pronunciation
    pronunciation_match = re.search(r":{{IPA}} {{Lautschrift\|(.*?)}}", text)
    if pronunciation_match:
        pronunciation = pronunciation_match.group(1)
        print("Pronunciation:", pronunciation)

    # Extracting meanings
    meanings_match = re.search(r"{{Bedeutungen}}\n:(.*?)\n", text, re.DOTALL)
    if meanings_match:
        meanings = meanings_match.group(1)
        print("Meanings:", meanings)

    # Extracting synonyms
    synonyms_match = re.search(r"{{Synonyme}}\n:(.*?)\n", text, re.DOTALL)
    if synonyms_match:
        synonyms = synonyms_match.group(1)
        print("Synonyms:", synonyms)

    # Extracting examples
    examples_match = re.search(r"{{Beispiele}}\n:(.*?)\n", text, re.DOTALL)
    if examples_match:
        examples = examples_match.group(1)
        print("Examples:", examples)

    # Extracting translations
    translations_match = re.search(r"==== {{Übersetzungen}} ====\n(.*?)\n{{Referenzen}}", text, re.DOTALL)
    if translations_match:
        translations = translations_match.group(1)
        print("Translations:", translations)

if __name__ == "__main__":
    wiktionary_text = ''' ... (the provided content) ... '''
    extract_wiktionary_info(wiktionary_text)


In [100]:
trial_text.split('\n')

['== Altstadt ({{Sprache|Deutsch}}) ==',
 '=== {{Wortart|Substantiv|Deutsch}}, {{f}} ===',
 '',
 '{{Deutsch Substantiv Übersicht',
 '|Genus=f',
 '|Nominativ Singular=Altstadt',
 '|Nominativ Plural=Altstädte',
 '|Genitiv Singular=Altstadt',
 '|Genitiv Plural=Altstädte',
 '|Dativ Singular=Altstadt',
 '|Dativ Plural=Altstädten',
 '|Akkusativ Singular=Altstadt',
 '|Akkusativ Plural=Altstädte',
 "|Bild 1=SalzburgerAltstadt02b.jpg|mini|1|die ''Altstadt'' von [[Salzburg]]",
 "|Bild 2=|mini|1|''Altstadt'' von [[Königsberg]] (nunmehr [[Kaliningrad]])",
 '}}',
 '',
 '{{Worttrennung}}',
 ':Alt·stadt, {{Pl.}} Alt·städ·te',
 '',
 '{{Aussprache}}',
 ':{{IPA}} {{Lautschrift|ˈaltˌʃtat}}',
 ':{{Hörbeispiele}} {{Audio|De-Altstadt.ogg}}',
 ':{{Reime}} {{Reim|altʃtat|Deutsch}}',
 '',
 '{{Bedeutungen}}',
 ':[1] der älteste Teil einer Stadt, sofern dieser (typischerweise) vor 1900 gebaut wurde oder in einem entsprechendem Stil wiederaufgebaut worden ist',
 '',
 '{{Herkunft}}',
 ":[[Determinativkompositum]] 