In [1]:
import pandas as pd
import networkx as nx
import nltk
from nltk.corpus import wordnet as wn
from tqdm import tqdm
import os
import glob
import numpy as np
import nltk
from ruwordnet import RuWordNet
nltk.download('wordnet')
nltk.download('omw')
nltk.download('omw-1.4')
from nltk.corpus import wordnet as wn
from odenet import *


[nltk_data] Downloading package wordnet to /home/victor/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw to /home/victor/nltk_data...
[nltk_data]   Package omw is already up-to-date!


In [42]:
def clean_ru(word):
    #word = word.split('.')[0].replace('_', ' ')
   # word = word.replace('_', ' ')
    word = word.replace('а́', 'а')
    word = word.replace('ё', "е")
    word = word.replace('у́', 'у')
    word = word.replace('о́', 'о')
    word = word.replace('и́', "и")
    word = word.replace('е́', "е")
    word = word.replace('я́', "я")

    if '(' in word and ')' in word:
        lb = word.find('(')
        rb = word.find(')')
        word = word[:lb-1] + word[rb+1:]
        word = word.strip()


    return word

def clean_dataset(df, clean_fn):
    for i, synset in tqdm(enumerate(df['Synset'])):
        df['Synset'][i] = clean_fn(df['Synset'][i])
        all_hypernyms = df['Hypernym'][i]

        if not pd.isna(all_hypernyms):

            hyps = []
            for hyp in all_hypernyms.split('\t'):
                hyps.append(clean_fn(hyp)) 

            df['Hypernym'][i] = '\t'.join(hyps)

def filter_with_wn_ru(df, lang=None):
    wn = RuWordNet()   

    valid_idx = []
    for i, word in tqdm(enumerate(df['Synset']), total=len(df)):
        word = word.split('.')[0].replace('_', ' ')
        if len(wn.get_synsets(word)) > 0:
            valid_idx.append(i)

    filtered_wn = df.loc[valid_idx]

    filtered_wn.index = list(range(len(filtered_wn)))

    valid_idx = []
    for i, hyp in tqdm(enumerate(filtered_wn['Hypernym']), total=len(filtered_wn)):
        if pd.isna(hyp):
            continue
        for word in hyp.split('\t'):
            word = word.split('.')[0].replace('_', ' ') 
            if len(wn.get_synsets(word)) > 0:
                valid_idx.append(i)

    fil2 = filtered_wn.loc[valid_idx]
    fil2.index = list(range(len(fil2)))
    fil3 = fil2[(fil2['Synset'] != fil2['Hypernym'])]

    return fil3

def filter_with_wn_de(df, lang=None):

    valid_idx = []
    for i, word in tqdm(enumerate(df['Synset']), total=len(df)):
        word = word.split('.')[0].replace('_', ' ')
        if OdeNet.word_id(word):
            valid_idx.append(i)

    filtered_wn = df.loc[valid_idx]

    filtered_wn.index = list(range(len(filtered_wn)))

    valid_idx = []
    for i, hyp in tqdm(enumerate(filtered_wn['Hypernym']), total=len(filtered_wn)):
        if pd.isna(hyp):
            continue
        for word in hyp.split('\t'):
            word = word.split('.')[0].replace('_', ' ') 
            if OdeNet.word_id(word):
                valid_idx.append(i)

    fil2 = filtered_wn.loc[valid_idx]
    fil2.index = list(range(len(fil2)))
    fil3 = fil2[(fil2['Synset'] != fil2['Hypernym'])]

    return fil3
def filter_with_wn(df, lang):   

    valid_idx = []
    for i, word in tqdm(enumerate(df['Synset']), total=len(df)):
        word = word.split('.')[0].replace('_', ' ')
        if len(wn.synsets(word, lang=lang)) > 0:
            valid_idx.append(i)

    filtered_wn = df.loc[valid_idx]

    filtered_wn.index = list(range(len(filtered_wn)))

    valid_idx = []
    for i, hyp in tqdm(enumerate(filtered_wn['Hypernym']), total=len(filtered_wn)):
        if pd.isna(hyp):
            continue
        for word in hyp.split('\t'):
            word = word.split('.')[0].replace('_', ' ') 
            if len(wn.synsets(word, lang=lang)) > 0:
                valid_idx.append(i)

    fil2 = filtered_wn.loc[valid_idx]
    fil2.index = list(range(len(fil2)))
    fil3 = fil2[(fil2['Synset'] != fil2['Hypernym'])]

    return fil3
    

def create_all_edges(parents, children):
    res = []
    
    for parent in parents:
        for child in children:
            res.append((parent, child))

    return res

def generator(G):
    while not nx.is_directed_acyclic_graph(G):
        cycle = nx.find_cycle(G)
        yield cycle[0]
        
def make_clean_graph(in_path, out_path, filter_fn, lang, clean_fn=None):
    df = pd.read_csv(in_path, sep='\t')
    df1 = df[~df['WordnetKey'].isna()]
    if clean_fn:
        clean_dataset(df1, clean_fn)
   # df2 = df1[~df1['Definition'].isna()] # do not use it anymore
    filtered_df = filter_fn(df1, lang=lang)
    print(len(filtered_df))
    G = nx.from_pandas_edgelist(filtered_df, 'Hypernym',
                                 'Synset', create_using=nx.DiGraph)

    nodes_to_add = []
    edges_to_add = []
    nodes_to_delete = []

    for node in G:
        if len(str(node).split('\t')) > 1:
            nodes_to_add.extend((str(node).split('\t')))
            edges_to_add.extend(create_all_edges(str(node).split('\t'), list(G[node])))
            nodes_to_delete.append(node)

    G.add_nodes_from(nodes_to_add)
    G.add_edges_from(edges_to_add)
    G.remove_nodes_from(nodes_to_delete)

    for bad_edge in tqdm(generator(G)):
        G.remove_edge(*bad_edge)

    nx.write_edgelist(G, out_path, delimiter='\t')

In [43]:
in_path = 'data/full_babel/de_babel_hyper.csv'
save_path = 'data/filtered_wnet/de_isa.edgelist'
make_clean_graph(in_path, save_path, filter_with_wn_de, 'de')

  5%|▌         | 3388/63842 [02:16<1:15:20, 13.37it/s]

In [4]:
# global_train = []
# global_test = []

# all_data = glob.glob(os.path.join("data/full_babel/", "*babel_hyper.csv"))
# for path in tqdm(all_data):
#     lang = path.split("/")[-1].replace("_babel_hyper.csv", "")
#     save_path = 'data/wnet_babel/{}_isa.edgelist'.format(lang)

#     make_clean_graph(path, save_path)

In [39]:
OdeNet.word_id("tisch")

In [40]:
df = pd.read_csv('data/full_babel/de_babel_hyper.csv', sep='\t')

In [41]:
df

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
0,Null.n.1,zahl.n.1,wn:13742358n,Die Zahl Null ist die Anzahl der Elemente in e...
1,Eins.n.1,zahl.n.1,wn:13742573n,Die Eins ist die natürliche Zahl zwischen null...
2,1-Dodecanol.n.2,Alkohol.n.2,wn:14930670n,"Dodecanol, auch 1-Dodecanol, Dodecan-1-ol oder..."
3,1-hitter.n.1,Baseball.n.1,wn:00475142n,
4,Zehn.n.1,großen_integer.n.1,wn:13746512n,Die Zehn ist die natürliche Zahl zwischen Neun...
...,...,...,...,...
72646,Donnie_Sadler.n.1,Utility-Player.n.1,,
72647,Francis_Joseph_Christian.n.1,Bischof.n.1\tTitularbischof.n.1,,Francis Joseph Christian ist Weihbischof in Ma...
72648,John_Brendan_McCormack.n.1,Prälat.n.1,,John Brendan McCormack ist Altbischof von Manc...
72649,Valley_of_the_Dolls.n.6,Anrede.n.6,,Album von Dionne Warwick


In [15]:
df1 = df[~df['WordnetKey'].isna()]

In [16]:
df1.sample(20)

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
26728,equilibrio_ley.n.4,ley.n.4,wn:05877412n,
35376,bien.n.1,ventaja.n.1,wn:05159725n,
22599,plan.n.3,organización.n.3,wn:05728678n,
60489,tímido.n.1,lanzamiento.n.1,wn:00106888n,
12510,préstamo_a_la_vista.n.1,préstamo.n.1,wn:13399275n,
65341,impresión_del_pulgar.n.1,huella_dactilar.n.1,wn:06644916n,
23044,analizador_diferencial.n.1,computadora_analógica.n.1,wn:03194170n,El Analizador diferencial fue un computador an...
11999,buteno.n.2,gas.n.2,wn:14787093n,El buteno o butileno es un alqueno.
40645,cámara_de_ionización.n.1,instrumento_de_medición.n.1,wn:03583621n,Una cámara de ionización es un dispositivo usa...
26732,línea_de_tormenta.n.1,tormenta.n.1,wn:11501864n,


In [18]:
df1['Synset'][3619]

'pata.n.2'

In [1]:
from nltk.corpus import wordnet as wn
import nltk

In [8]:
from nltk.corpus import wordnet as wn


In [2]:
wn.langs()

['eng']

In [12]:
found = 0
valid_idx = []
invalid_idx = []
for i, word in tqdm(enumerate(df1['Synset']), total=len(df1)):
    word = word.split('.')[0].replace('_', ' ')
    
    if len(wn.get_synsets(word)) > 0:
    # try:
    #     wn[word]
        
        valid_idx.append(i)
    else:
        invalid_idx.append(i)
    # except KeyError:
    #     continue


100%|██████████| 63346/63346 [00:26<00:00, 2432.00it/s]


In [13]:
len(valid_idx)

15753

In [14]:
anti_filtered_wn = df1.loc[invalid_idx]

In [28]:
anti_filtered_wn.sample(30)

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
10928,Бюро_переписи_населения_США.n.1,орган_публичной_власти.n.1,wn:08129621n,Бюро переписи населения США
9986,тормоза.n.1,механический_тормоз.n.1,wn:02891188n,
28806,sutura_лобной.n.1,sutura.n.1,wn:05544078n,
32,1780.n.1,десятилетие.n.1,wn:15151175n,
37217,внутреннее_сгорание.n.1,горение.n.1,wn:13501261n,
51142,рабочий_карьера.n.1,,wn:10498551n,
38792,Губно‐зубные_согласные.n.1,согласные.n.1,wn:07117193n,Губно-зубны́е согласные
57382,паровое_отопление.n.1,отопление.n.1,wn:04309682n,
31303,pyralis.n.1,членистоногих_рода.n.1,wn:02289061n,
57288,звездный_свет.n.1,свет.n.1,wn:11485186n,Звёздный свет или Свет звёзд


In [27]:
wn['дуб']

[Sense(id="146593-N-103459", name="ДУБ"),
 Sense(id="5442-N-103459", name="ДУБ")]

In [40]:
filtered_wn = df1.loc[valid_idx]

In [41]:
filtered_wn.sample(20)

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
25132,событие.n.1,физическое_явление.n.1,wn:11453860n,Собы́тие в теории относительности — моментальн...
21623,дисциплина.n.1,тренинг.n.1,wn:00893836n,Дисципли́на
36429,недопустимость.n.1,недопустимость.n.1,wn:04794408n,
15524,восхождение.n.2,восходящий.n.2,wn:00325110n,
29062,табун.n.1,агент_фосфорорганическими_нерва.n.1,wn:15066125n,Табу́н
43779,моцарелла.n.1,сыр.n.1,wn:07854184n,"Моцаре́лла, моццаре́лла"
19327,сокращение.n.4,сбережения.n.4,wn:00192910n,
3665,антропология.n.1,общественные_науки.n.1,wn:06143546n,Антрополо́гия
20275,акт.n.1,юридический_документ.n.1,wn:06545137n,"Юридически оформленное дело, часто сделка"
13905,задание.n.1,задание.n.1,wn:00731222n,


In [46]:
filtered_wn.index = list(range(len(filtered_wn)))

found = 0
valid_idx = []
for i, hyp in tqdm(enumerate(filtered_wn['Hypernym']), total=len(filtered_wn)):
    if pd.isna(hyp):
        continue
    for word in hyp.split('\t'):
        word = word.split('.')[0].replace('_', ' ')
        
        if len(wn.get_synsets(word)) > 0:
        # try:
        #     wn[word]
            
            valid_idx.append(i)
            found += 1
        # except KeyError:
        #     continue

fil2 = filtered_wn.loc[valid_idx]
fil2.index = list(range(len(fil2)))
fil3 = fil2[(fil2['Synset'] != fil2['Hypernym'])]

  0%|          | 41/15753 [00:00<00:39, 400.76it/s]

100%|██████████| 15753/15753 [00:10<00:00, 1569.07it/s]


In [61]:
len(fil3)

7961

In [60]:
out_path = 'test_ru_filter.edgelist'
G = nx.from_pandas_edgelist(fil3, 'Hypernym',
                                 'Synset', create_using=nx.DiGraph)

nodes_to_add = []
edges_to_add = []
nodes_to_delete = []

for node in G:
    if len(str(node).split('\t')) > 1:
        nodes_to_add.extend((str(node).split('\t')))
        edges_to_add.extend(create_all_edges(str(node).split('\t'), list(G[node])))
        nodes_to_delete.append(node)

G.add_nodes_from(nodes_to_add)
G.add_edges_from(edges_to_add)
G.remove_nodes_from(nodes_to_delete)

for bad_edge in tqdm(generator(G)):
    G.remove_edge(*bad_edge)

nx.write_edgelist(G, out_path, delimiter='\t')

35it [00:01, 21.04it/s]


In [87]:
a = a.replace('_', ' ')
lb = a.find('(')
rb = a.find(')')

print(a[:lb] + a[rb+1:])

пас 


In [82]:
wn.get_synsets('пас')

[Synset(id="127461-N", title="ПЕРЕДАЧА ПАСА")]

In [43]:
wn['apprisal'], wn['language'], wn['zombie']

([WNSense(key="apprisal%1:10:00::", name="apprisal")],
 [WNSense(key="language%1:10:03::", name="language"),
  WNSense(key="language%1:10:01::", name="language"),
  WNSense(key="language%1:10:00::", name="language"),
  WNSense(key="language%1:09:00::", name="language")],
 [WNSense(key="zombie%1:18:00::", name="zombie")])

In [15]:
df1[df1['Synset'].str.contains('азрег')]

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
5118,азрег.n.1,турецкие_денежной_единицы.n.1,wn:13687420n,
10528,helix_азрегза.n.1,Helix_aspersa.n.1,wn:01945143n,


In [16]:
df1[df1['Synset'].str.contains('зарегистрируйтесь')]

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
52119,зарегистрируйтесь_языке.n.1,тональный_язык.n.1,wn:06905243n,


In [17]:
df1[df1['Synset'].str.contains('контур_языке')]

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
17452,контур_языке.n.1,тональный_язык.n.1,wn:06905141n,


In [18]:
df1[df1['Synset'].str.contains('criollo')]

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
18773,criollo_людей.n.1,испаноамериканцы.n.1,wn:09978697n,


In [19]:
df1[df1['Synset'].str.contains('dimensión')]

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
21344,dimensión.n.1,величина_(математика).n.1,wn:05093581n,


In [52]:
df2 = df1[~df1['Definition'].isna()]

In [53]:
len(df2)

25434

In [21]:
df1[df1['Definition'].isna()].sample(10)

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
60526,племенное_общество.n.1,общество.n.1,wn:08288390n,
20850,желание.n.3,,wn:04945057n,
4589,вооруженный_разбой.n.1,грабёж.n.1,wn:00781912n,
54566,городского_управления.n.1,выборного_должностного_лица.n.1,wn:10576676n,
54408,ожо́г_второ́й_сте́пени.n.3,ожог.n.3,wn:14291295n,
51781,переоценка.n.1,,wn:05747582n,
24607,eragrostis.n.1,liliopsid_рода.n.1,wn:12119947n,
23963,Emilia.n.1,asterid_двудольных_рода.n.1,wn:11963158n,
16234,колледж_мальчик.n.1,студент.n.1,wn:09937056n,
6233,вернуться_имеет_значения.n.6,,wn:06390805n,


In [26]:
df2

Unnamed: 0,Synset,Hypernym,WordnetKey,Definition
0,ноль.n.1,цифра.n.1,wn:13742358n,"Ноль — целое число, которое при сложении с люб..."
1,1_(число).n.1,цифра.n.1,wn:13742573n,"1 — наименьшее натуральное число, целое число ..."
2,додеканол.n.2,спирты.n.2,wn:14930670n,"Додеканол — органическое вещество, относится к..."
4,10_(число).n.1,большое_целое_число.n.1,wn:13746512n,"10 — натуральное число, расположенное между чи..."
5,100_(число).n.1,большое_целое_число.n.1,wn:13750415n,100 — натуральное и круглое число между 99 и 1...
...,...,...,...,...
63337,зуни_(народ).n.1,pueblo.n.1,wn:09673232n,"Зу́ни, зу́ньи"
63338,зурванизм.n.1,ересь.n.1\tбогословское_учение.n.1,wn:06251553n,Зурванизм — предположительно философское течен...
63339,зайдеко.n.1,кантри.n.1,wn:07062550n,За́йдеко (англ.
63344,зимаза.n.1,ферменты.n.1,wn:15109586n,Зимаза


In [23]:
G = nx.from_pandas_edgelist(df2, 'Hypernym', 'Synset', create_using=nx.DiGraph)

In [24]:
def create_all_edges(parents, children):
    res = []
    
    for parent in parents:
        for child in children:
            res.append((parent, child))

    return res

nodes_to_add = []
edges_to_add = []
nodes_to_delete = []

for node in G:
    if len(str(node).split('\t')) > 1:
        nodes_to_add.extend((str(node).split('\t')))
        edges_to_add.extend(create_all_edges(str(node).split('\t'), list(G[node])))
        nodes_to_delete.append(node)

In [25]:
G.add_nodes_from(nodes_to_add)
G.add_edges_from(edges_to_add)
G.remove_nodes_from(nodes_to_delete)

In [26]:
nx.find_cycle(G)

[('цифра.n.1', 'цифра.n.1')]

In [29]:
gen = generator()

In [31]:
next(gen)

('цифра.n.1', 'цифра.n.1')

In [32]:
for bad_edge in tqdm(generator()):
    G.remove_edge(*bad_edge)
    print(bad_edge)

0it [00:00, ?it/s]

2it [00:00, 13.51it/s]

('цифра.n.1', 'цифра.n.1')
('кран.n.1', 'кран.n.1')
('голубика.n.1', 'голубика.n.1')


6it [00:00, 12.73it/s]

('роза.n.1', 'роза.n.1')
('лещ.n.2', 'лещ.n.2')
('полынь_горькая.n.1', 'полынь_горькая.n.1')


8it [00:00, 12.80it/s]

('относительная_плотность.n.1', 'относительная_плотность.n.1')
('лауреат.n.1', 'лауреат.n.1')
('скорость.n.1', 'скорость.n.1')


10it [00:00, 12.14it/s]

('вазелин.n.1', 'вазелин.n.1')
('пар.n.1', 'пар.n.1')


12it [00:01, 10.99it/s]

('адвокат.n.1', 'адвокат.n.1')
('суффикс.n.1', 'суффикс.n.1')


14it [00:01,  9.78it/s]

('реактивный_двигатель.n.1', 'реактивный_двигатель.n.1')
('часы.n.1', 'часы.n.1')


17it [00:01,  8.40it/s]

('авитаминоз.n.1', 'недоедание.n.1')
('болезнь.n.1', 'болезнь.n.1')


19it [00:01,  7.54it/s]

('Трёхглавая_мышца_плеча.n.1', 'Трёхглавая_мышца_плеча.n.1')
('краситель.n.1', 'краситель.n.1')


21it [00:02,  7.02it/s]

('тренер.n.1', 'тренер.n.1')
('мизинец.n.1', 'мизинец.n.1')


23it [00:02,  6.73it/s]

('псевдоним.n.1', 'псевдоним.n.1')
('ноздря.n.1', 'ноздря.n.1')


25it [00:02,  6.38it/s]

('тля.n.1', 'тля.n.1')
('вера.n.1', 'вера.n.1')


27it [00:03,  6.12it/s]

('при́ступ.n.7', 'при́ступ.n.7')
('джем.n.1', 'джем.n.1')


29it [00:03,  5.85it/s]

('Камнешарки.n.1', 'Камнешарки.n.1')
('подразделение.n.4', 'подразделение.n.4')


31it [00:03,  5.74it/s]

('афалина.n.1', 'афалина.n.1')
('дефект_межпредсердной_перегородки.n.1', 'дефект_межпредсердной_перегородки.n.1')


33it [00:04,  5.76it/s]

('боулинг.n.1', 'боулинг.n.1')
('понятие.n.1', 'понятие.n.1')


35it [00:04,  5.70it/s]

('грузовой_поезд.n.1', 'грузовой_поезд.n.1')
('хобби.n.1', 'хобби.n.1')


37it [00:05,  5.59it/s]

('пожар.n.1', 'пожар.n.1')
('земельный_участок.n.1', 'земельный_участок.n.1')


39it [00:05,  5.43it/s]

('торт.n.3', 'торт.n.3')
('падчерица.n.1', 'падчерица.n.1')


41it [00:05,  5.29it/s]

('метла.n.1', 'метла.n.1')
('треуголка.n.1', 'треуголка.n.1')


42it [00:06,  5.19it/s]

('кузнецn.10', 'кузнецn.10')


43it [00:06,  5.07it/s]

('режущий_инструмент.n.1', 'режущий_инструмент.n.1')
('обвинение.n.1', 'обвинение.n.1')


45it [00:06,  4.94it/s]

('кастрюля.n.1', 'кастрюля.n.1')
('комбинезон.n.1', 'комбинезон.n.1')


47it [00:07,  4.92it/s]

('волнистый_попугайчик.n.1', 'волнистый_попугайчик.n.1')


48it [00:07,  4.86it/s]

('водитель.n.1', 'водитель.n.1')


49it [00:07,  4.83it/s]

('исполнительный_директор.n.1', 'исполнительный_директор.n.1')


50it [00:07,  4.75it/s]

('растительное_масло.n.1', 'пищевые_жиры.n.1')


51it [00:07,  4.68it/s]

('проезжая_часть.n.1', 'проезжая_часть.n.1')


52it [00:08,  4.57it/s]

('морская_свинка.n.1', 'морская_свинка.n.1')


53it [00:08,  4.51it/s]

('комод.n.1', 'комод.n.1')


54it [00:08,  4.46it/s]

('хор.n.2', 'хор.n.2')


55it [00:08,  4.43it/s]

('де́рзость.n.3', 'де́рзость.n.3')


56it [00:09,  4.37it/s]

('заклинание.n.4', 'заклинание.n.4')


57it [00:09,  4.33it/s]

('ложь.n.1', 'ложь.n.1')


58it [00:09,  4.28it/s]

('реверанс.n.3', 'реверанс.n.3')


59it [00:09,  4.17it/s]

('оптический_микроскоп.n.1', 'лупа.n.1')


60it [00:10,  4.07it/s]

('декольте.n.1', 'декольте.n.1')


61it [00:10,  4.05it/s]

('размагничивание.n.1', 'размагничивание.n.1')


62it [00:10,  4.05it/s]

('сейф.n.1', 'сейф.n.1')


63it [00:10,  4.07it/s]

('дезинформация.n.1', 'дезинформация.n.1')


64it [00:11,  4.05it/s]

('диван.n.1', 'диван.n.1')


65it [00:11,  4.06it/s]

('врач.n.1', 'врач.n.1')


66it [00:11,  4.06it/s]

('бекас.n.1', 'бекас.n.1')


67it [00:11,  4.02it/s]

('лох_узколистный.n.1', 'лох_узколистный.n.1')


68it [00:12,  3.98it/s]

('гальванический_элемент.n.3', 'гальванический_элемент.n.3')


69it [00:12,  3.91it/s]

('лестница.n.1', 'лестница.n.1')


70it [00:12,  3.83it/s]

('щука.n.5', 'щука.n.5')


71it [00:12,  3.84it/s]

('сорока.n.1', 'сорока.n.1')


72it [00:13,  3.81it/s]

('допрос.n.1', 'допрос.n.1')


73it [00:13,  3.83it/s]

('копировальный_аппарат.n.1', 'копировальный_аппарат.n.1')


74it [00:13,  3.86it/s]

('фехтованиеn.17', 'фехтованиеn.17')


75it [00:13,  3.86it/s]

('катание_на_коньках.n.1', 'катание_на_коньках.n.1')


76it [00:14,  3.89it/s]

('сценарист.n.1', 'сценарист.n.1')


77it [00:14,  3.96it/s]

('сад.n.1', 'сад.n.1')


78it [00:14,  4.01it/s]

('лист.n.2', 'лист.n.2')


79it [00:14,  3.97it/s]

('склад.n.1', 'склад.n.1')


80it [00:15,  3.99it/s]

('зубчатая_передача.n.1', 'зубчатая_передача.n.1')


81it [00:15,  3.77it/s]

('анатомически_современный_человек.n.1', 'анатомически_современный_человек.n.1')


82it [00:15,  3.74it/s]

('крик.n.1', 'крик.n.1')


83it [00:15,  3.70it/s]

('песочные_часы.n.1', 'песочные_часы.n.1')


84it [00:16,  3.66it/s]

('влажность.n.1', 'влажность.n.1')


85it [00:16,  3.64it/s]

('каток.n.1', 'каток.n.1')


86it [00:16,  3.63it/s]

('репеллент.n.2', 'репеллент.n.2')


87it [00:17,  3.06it/s]

('общественный_транспорт.n.1', 'общественный_транспорт.n.1')


88it [00:17,  3.25it/s]

('пернициозная_анемия.n.1', 'пернициозная_анемия.n.1')


89it [00:17,  3.41it/s]

('мезальянс.n.1', 'мезальянс.n.1')


90it [00:18,  3.49it/s]

('нервное_расстройство.n.1', 'нервное_расстройство.n.1')


91it [00:18,  3.59it/s]

('колготки.n.1', 'колготки.n.1')


92it [00:18,  3.64it/s]

('копилка.n.2', 'копилка.n.2')


93it [00:18,  3.69it/s]

('хризолит.n.1', 'хризолит.n.1')


94it [00:19,  3.71it/s]

('позёр.n.2', 'позёр.n.2')


95it [00:19,  3.66it/s]

('ремень_безопасности.n.1', 'ремень_безопасности.n.1')


96it [00:19,  3.63it/s]

('тень.n.1', 'тень.n.1')


97it [00:19,  3.61it/s]

('деформация.n.2', 'деформация.n.2')


98it [00:20,  3.60it/s]

('магнитофон.n.1', 'магнитофон.n.1')


99it [00:20,  4.82it/s]

('ксеродерма.n.1', 'ксеродерма.n.1')





In [92]:
create_all_edges(str(node).split('\t'), list(G[node]))

[('австрали́ец.n.1', 'Аборигены_Австралии.n.1'),
 ('этническая_группа.n.1', 'Аборигены_Австралии.n.1')]

In [48]:
df2['Hypernym'].apply(lambda x: len(str(x).split('\t'))).max()

5

In [93]:
G.remove_node(node)

In [115]:
nx.write_edgelist(G, 'test_graph.edgelist', delimiter='\t', data=True )

In [118]:
G['диаспора.n.2']

AtlasView({})

In [119]:
G = nx.read_edgelist("test_graph.edgelist", delimiter="\t", create_using=nx.DiGraph)

In [121]:
G.number_of_edges()

26087