In [1]:
import pandas as pd
import numpy as np
import gzip
import os
import re

In [2]:
def unpack(file_name):
    file_name_new = file_name.replace(".gz","")
    with gzip.open(file_name, 'rb') as f_in, open(file_name_new, 'wb') as f_out:
        f_out.writelines(f_in)
    return file_name_new

In [3]:
def pack_and_remove(file_name):
    file_name_new = file_name+'.gz'
    with open(file_name, 'rb') as f_in, gzip.open(file_name_new, 'wb') as f_out:
        f_out.writelines(f_in)
    os.remove(file_name)
    return file_name_new

In [4]:
PATH_TO_DATA_UK = '/media/andrii/earth/Katia/CS_MasterThesis/data/ukwiki/ukwiki_20180920/'
PATH_TO_DATA_EN = '/media/andrii/earth/Katia/CS_MasterThesis/data/enwiki/enwiki_20180920/'
PATH_TO_DATA_RL = '/media/andrii/earth/Katia/CS_MasterThesis/data/ukwiki/uk_red_links/'
PATH_TO_WIKIDATA = '/media/andrii/earth/Katia/CS_MasterThesis/data/ukwiki/uk_wikidata/'

### Get concurrent links for Ukrainian red links

In [5]:
uk_pagelinks = 'ukwiki-20180920-pages-links.csv.gz'

In [6]:
unpacked_pagelinks = unpack(PATH_TO_DATA_UK+uk_pagelinks)

In [7]:
df_uk_pagelinks = pd.read_csv(unpacked_pagelinks)

In [8]:
pack_and_remove(unpacked_pagelinks)

'/media/andrii/earth/Katia/CS_MasterThesis/data/ukwiki/ukwiki_20180920/ukwiki-20180920-pages-links.csv.gz'

In [9]:
df_uk_pagelinks.head()

Unnamed: 0,id,link_id,link_val,is_red_link
0,13,884280,Об'єкт (філософія),False
1,13,21623,Ератосфен,False
2,13,274944,географ,False
3,13,26194,Клавдій Птолемей,False
4,13,20459,Відродження,False


In [10]:
df_uk_pagelinks.shape

(22693778, 4)

In [11]:
rlsample = pd.read_csv(PATH_TO_DATA_RL+'ukredlinks_ground_truth_3194.csv')

In [12]:
df_rl_with_all_parents = pd.merge(df_uk_pagelinks, rlsample, how='inner', left_on='link_val', right_on='red link name')

In [13]:
len(df_rl_with_all_parents['link_val'].unique())

3194

In [14]:
false_redlinks = df_rl_with_all_parents[df_rl_with_all_parents['is_red_link']==False]

In [15]:
false_redlinks['link_val'].unique()

array(['Велика Британія', 'легка атлетика', 'кінний спорт',
       'Міжнародний олімпійський комітет', 'Південна Корея',
       'Спортивне плавання', 'Боротьба (спорт)', 'академічне веслування',
       'Спортивна гімнастика', 'вітрильний спорт', '1914 у кіно',
       '1913 у кіно'], dtype=object)

In [20]:
df_rl_with_all_parents.head()

Unnamed: 0,id,link_id,link_val,is_red_link,red link name,ground truth,Remarks
0,601,1782,Велика Британія,False,Велика Британія,"?? Great Britain, United Kingdom",
1,630,1782,Велика Британія,False,Велика Британія,"?? Great Britain, United Kingdom",
2,640,1782,Велика Британія,False,Велика Британія,"?? Great Britain, United Kingdom",
3,676,1782,Велика Британія,False,Велика Британія,"?? Great Britain, United Kingdom",
4,687,1782,Велика Британія,False,Велика Британія,"?? Great Britain, United Kingdom",


In [22]:
df_rl_with_all_parents_no_false_rl = \
df_rl_with_all_parents[df_rl_with_all_parents['is_red_link'].map(lambda x: x == True)]

In [24]:
df_rl_with_all_parents = df_rl_with_all_parents_no_false_rl[['id', 'link_id', 'link_val']]

In [25]:
df_rl_with_all_parents.head()

Unnamed: 0,id,link_id,link_val
18168,625,-1,Каунт Бейсі
18169,36823,-1,Каунт Бейсі
18170,154226,-1,Каунт Бейсі
18171,159088,-1,Каунт Бейсі
18172,202525,-1,Каунт Бейсі


In [26]:
rl_with_concurrent = pd.merge(df_rl_with_all_parents, df_uk_pagelinks, how='left', left_on='id', right_on='id')

In [27]:
rl_with_concurrent.head()

Unnamed: 0,id,link_id_x,link_val_x,link_id_y,link_val_y,is_red_link
0,625,-1,Каунт Бейсі,1521,22 січня,False
1,625,-1,Каунт Бейсі,749695,Запорізька обласна універсальна наукова бібліо...,False
2,625,-1,Каунт Бейсі,1544,8 лютого,False
3,625,-1,Каунт Бейсі,26544,Російсько-японська війна,False
4,625,-1,Каунт Бейсі,1492428,Всесвітня виставка (1904),False


In [28]:
rl_with_concurrent = rl_with_concurrent[['id', 'link_val_x', 'link_id_y', 'link_val_y']]
rl_with_concurrent.columns = ['parent_id', 'red_link_name', 'concurrent_id', 'concurrent_name']

In [29]:
rl_with_concurrent = rl_with_concurrent.drop_duplicates()

In [30]:
rl_with_concurrent.shape

(73881533, 4)

In [31]:
rl_with_concurrent.head()

Unnamed: 0,parent_id,red_link_name,concurrent_id,concurrent_name
0,625,Каунт Бейсі,1521,22 січня
1,625,Каунт Бейсі,749695,Запорізька обласна універсальна наукова бібліо...
2,625,Каунт Бейсі,1544,8 лютого
3,625,Каунт Бейсі,26544,Російсько-японська війна
4,625,Каунт Бейсі,1492428,Всесвітня виставка (1904)


In [41]:
langlinks_df = pd.read_csv(PATH_TO_DATA_EN+'translated_en_articles.csv', sep='^')

In [42]:
langlinks_df.head()

Unnamed: 0,id,title,ll_from
0,12,Anarchism,12101.0
1,25,Autism,37656.0
2,39,Albedo,10899.0
3,290,A,235422.0
4,303,Alabama,6320.0


In [43]:
langlinks_df.shape

(455740, 3)

In [63]:
rl_with_concurrent_enwiki = pd.merge(rl_with_concurrent, langlinks_df, how='left', left_on='concurrent_id', right_on='ll_from')

In [64]:
rl_with_concurrent_enwiki.head()

Unnamed: 0,parent_id,red_link_name,concurrent_id,concurrent_name,id,title,ll_from
0,625,Каунт Бейсі,1521,22 січня,15940.0,January 22,1521.0
1,625,Каунт Бейсі,749695,Запорізька обласна універсальна наукова бібліо...,27858444.0,Zaporizhia Region Universal Scientific Library,749695.0
2,625,Каунт Бейсі,1544,8 лютого,11360.0,February 8,1544.0
3,625,Каунт Бейсі,26544,Російсько-японська війна,44575.0,Russo-Japanese War,26544.0
4,625,Каунт Бейсі,1492428,Всесвітня виставка (1904),50272.0,Louisiana Purchase Exposition,1492428.0


In [65]:
rl_with_concurrent_enwiki.shape

(73881533, 7)

In [66]:
# checking na values
rl_with_concurrent_enwiki_na = rl_with_concurrent_enwiki[pd.isnull(rl_with_concurrent_enwiki['id'])]

In [68]:
rl_with_concurrent_enwiki_na.head()
# the most of seen is correst but still bugs occur

Unnamed: 0,parent_id,red_link_name,concurrent_id,concurrent_name,id,title,ll_from
9,625,Каунт Бейсі,229272,Бориславський страйк 1904,,,
10,625,Каунт Бейсі,1276919,Катерининська залізниця,,,
13,625,Каунт Бейсі,1272770,Комиш-Зоря (станція),,,
21,625,Каунт Бейсі,-1,Йосіно (крейсер),,,
22,625,Каунт Бейсі,-1,Касуґа (крейсер),,,


In [55]:
rl_with_concurrent_enwiki_name_id = rl_with_concurrent_enwiki[['red_link_name', 'id']]
rl_with_concurrent_enwiki_name_id.columns = ['red_link_name', 'enwiki_id']

In [57]:
rl_with_concurrent_enwiki_clean = rl_with_concurrent_enwiki[pd.notna(rl_with_concurrent_enwiki['enwiki_id'])]

In [58]:
rl_with_concurrent_enwiki_clean.head()

Unnamed: 0,red_link_name,enwiki_id
0,Каунт Бейсі,15940.0
1,Каунт Бейсі,27858444.0
2,Каунт Бейсі,11360.0
3,Каунт Бейсі,44575.0
4,Каунт Бейсі,50272.0


In [59]:
rl_with_concurrent_enwiki_clean.shape
# this number means that we have dropped 66 109 623 of not existing ukrainian pages in en wiki ??

(7771910, 2)

In [61]:
rl_with_concurrent_enwiki_clean

## Merge with Wikidata ID

In [25]:
ukwikidata = pd.read_csv(PATH_TO_WIKIDATA+'ukwikidata.csv')

rl_with_concurrent['concurrent_name'] = rl_with_concurrent['concurrent_name'].str.strip()
ukwikidata['ips_site_page'] = ukwikidata['ips_site_page'].str.strip()

rl_with_concurrent['concurrent_name'] = rl_with_concurrent['concurrent_name'].str.lower()
ukwikidata['ips_site_page'] = ukwikidata['ips_site_page'].str.lower()

rl_with_concurrent['concurrent_name'] = rl_with_concurrent['concurrent_name'].str.replace('  ', ' ')
ukwikidata['ips_site_page'] = ukwikidata['ips_site_page'].str.replace('  ', ' ')

concurrent_with_wikidata = pd.merge(rl_with_concurrent, ukwikidata, how='left', left_on='concurrent_name', right_on='ips_site_page')

concurrent_with_wikidata

In [32]:
uk_concurrent_links_dict = {k: v['ips_item_id'].tolist() for k,v in concurrent_with_wikidata.groupby('red_link_name')}

In [33]:
uk_concurrent_links_str_dict = {k: v['concurrent_name'].tolist() for k,v in concurrent_with_wikidata.groupby('red_link_name')}

In [41]:
concurrent_with_wikidata.to_csv(PATH_TO_DATA_RL+'concurrent_links_with_wikidataID.csv')