# Linking

We create a dataset to upload to Hugging Face

In [1]:
import pandas as pd
import json
from tqdm import tqdm
from collections import Counter
from pathlib import Path

In [2]:
df = pd.read_csv('quad_qid.tsv', sep='\t')
df_complet = pd.read_csv('quad_qid_complete.tsv', sep='\t')

In [3]:
df_dicts = df.to_dict(orient='records')
df_complet_dicts = df_complet.to_dict(orient='records')

In [4]:
df_dicts = df_dicts[:-1]
df_complet_dicts = df_complet_dicts[:-1]

In [5]:
p = Path('https://www.wikidata.org/wiki/Q106812')

In [6]:
p.stem

'Q106812'

In [7]:
df_dicts

[{'Unnamed: 0': 0.0,
  '0': 0.0,
  'match_cnt': 4.0,
  'entry_id': 'E1_39',
  '3': 'https://www.wikidata.org/wiki/Q106812',
  'class': 1.0,
  'QID': '1',
  'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes i byn Örsten på Söndmöre d. 5 Aug. 1813. Vid 18 års ålder blef han ambulatorisk folkskolelärare i sin födelsebygd och verkade några år i denna befattning. Derefter kom han till en prest, af hvilken han fick undervisning i de vanliga skolämnena och tog sedermera plats som informator. Han vinnlade sig då ifrigt om studiet af botaniken och utarbetade'},
 {'Unnamed: 0': 1.0,
  '0': 0.0,
  'match_cnt': 4.0,
  'entry_id': 'E2_51',
  '3': 'https://www.wikidata.org/wiki/Q106812',
  'class': nan,
  'QID': '1',
  'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes på gården Aasen i Söndmöre 5 aug. 1813. Först vid aderton års ålder, då han blef skollärare i hemsocknen, fick han tillfälle att stilla sin kunskapstörst. Efter undervisning af prästen H. C

In [8]:
df_complet_dicts

[{'Unnamed: 0': 0.0,
  '0': 0.0,
  'match_cnt': 4.0,
  'entry_id': 'E1_39',
  '3': 'https://www.wikidata.org/wiki/Q106812',
  'class': 1.0,
  'QID': '1',
  'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes i byn Örsten på Söndmöre d. 5 Aug. 1813. Vid 18 års ålder blef han ambulatorisk folkskolelärare i sin födelsebygd och verkade några år i denna befattning. Derefter kom han till en prest, af hvilken han fick undervisning i de vanliga skolämnena och tog sedermera plats som informator. Han vinnlade sig då ifrigt om studiet af botaniken och utarbetade'},
 {'Unnamed: 0': 1.0,
  '0': 0.0,
  'match_cnt': 4.0,
  'entry_id': 'E2_51',
  '3': 'https://www.wikidata.org/wiki/Q106812',
  'class': nan,
  'QID': '1',
  'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes på gården Aasen i Söndmöre 5 aug. 1813. Först vid aderton års ålder, då han blef skollärare i hemsocknen, fick han tillfälle att stilla sin kunskapstörst. Efter undervisning af prästen H. C

In [10]:
for df_dict in df_complet_dicts:
    if df_dict['QID'] == '1':
        df_dict['QID'] = Path(df_dict['3']).stem

In [13]:
df_dicts[0]

{'Unnamed: 0': 0.0,
 '0': 0.0,
 'match_cnt': 4.0,
 'entry_id': 'E1_39',
 '3': 'https://www.wikidata.org/wiki/Q106812',
 'class': 1.0,
 'QID': 'Q106812',
 'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes i byn Örsten på Söndmöre d. 5 Aug. 1813. Vid 18 års ålder blef han ambulatorisk folkskolelärare i sin födelsebygd och verkade några år i denna befattning. Derefter kom han till en prest, af hvilken han fick undervisning i de vanliga skolämnena och tog sedermera plats som informator. Han vinnlade sig då ifrigt om studiet af botaniken och utarbetade'}

In [14]:
df_complet_dicts[0]

{'Unnamed: 0': 0.0,
 '0': 0.0,
 'match_cnt': 4.0,
 'entry_id': 'E1_39',
 '3': 'https://www.wikidata.org/wiki/Q106812',
 'class': 1.0,
 'QID': 'Q106812',
 'definition': 'Aasen [ åsen ], Ivar Andreas, norsk språkforskare, föddes i byn Örsten på Söndmöre d. 5 Aug. 1813. Vid 18 års ålder blef han ambulatorisk folkskolelärare i sin födelsebygd och verkade några år i denna befattning. Derefter kom han till en prest, af hvilken han fick undervisning i de vanliga skolämnena och tog sedermera plats som informator. Han vinnlade sig då ifrigt om studiet af botaniken och utarbetade'}

In [15]:
df_clean = pd.DataFrame(df_dicts)

In [16]:
df_clean

Unnamed: 0.1,Unnamed: 0,0,match_cnt,entry_id,3,class,QID,definition
0,0.0,0.0,4.0,E1_39,https://www.wikidata.org/wiki/Q106812,1.0,Q106812,"Aasen [ åsen ], Ivar Andreas, norsk språkforsk..."
1,1.0,0.0,4.0,E2_51,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ åsen ], Ivar Andreas, norsk språkforsk..."
2,2.0,0.0,4.0,E3_60,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ å - ], Ivar Andreas, norsk språkforska..."
3,3.0,0.0,4.0,E4_50,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ å - ], Ivar Andreas, norsk språkforska..."
4,4.0,1.0,4.0,E1_137,https://www.wikidata.org/wiki/Q27932,1.0,Q27932,"Abel, konung i Danmark 1250 - 52, Valdemar Sei..."
...,...,...,...,...,...,...,...,...
399,399.0,99.0,1.0,E4_38660,https://www.wikidata.org/wiki/Q444252,,Q151953,"Hummel [ homal ], Johann Nepomuk, österrikisk ..."
400,400.0,100.0,1.0,E1_34861,https://www.wikidata.org/wiki/Q298581,1.0,Q298581,"Janssen, Pierre Jules César, fransk astrofysik..."
401,401.0,100.0,1.0,E2_59948,https://www.wikidata.org/wiki/Q298581,,Q298581,"Janssen [ jasenn ], Pierre Jules César, fransk..."
402,402.0,100.0,1.0,E3_19689,https://www.wikidata.org/wiki/Q298581,,Q298581,"Janssen [ ^ äsän ], Pierre Jules César, fransk..."


In [17]:
df_complet_clean = pd.DataFrame(df_complet_dicts)

In [18]:
df_complet_clean

Unnamed: 0.1,Unnamed: 0,0,match_cnt,entry_id,3,class,QID,definition
0,0.0,0.0,4.0,E1_39,https://www.wikidata.org/wiki/Q106812,1.0,Q106812,"Aasen [ åsen ], Ivar Andreas, norsk språkforsk..."
1,1.0,0.0,4.0,E2_51,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ åsen ], Ivar Andreas, norsk språkforsk..."
2,2.0,0.0,4.0,E3_60,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ å - ], Ivar Andreas, norsk språkforska..."
3,3.0,0.0,4.0,E4_50,https://www.wikidata.org/wiki/Q106812,,Q106812,"Aasen [ å - ], Ivar Andreas, norsk språkforska..."
4,4.0,1.0,4.0,E1_58,https://www.wikidata.org/wiki/,1.0,Q4295,"Abailard [ abälar ], Pierre ( äfven Abeilard o..."
...,...,...,...,...,...,...,...,...
2051,2051.0,512.0,1.0,E4_41588,https://www.wikidata.org/wiki/Q298581,,Q298581,"Janssen [ $ äsän ], Pierre Jules César, fransk..."
2052,2052.0,513.0,1.0,E1_35357,https://www.wikidata.org/wiki/,1.0,Q5886593,"Johansson, Johan, riksdagsman, författare, föd..."
2053,2053.0,513.0,1.0,E2_165518,https://www.wikidata.org/wiki/,,Q5886593,"Johansson, Johan, i Kälkebo, riksdagsman, f. 1..."
2054,2054.0,513.0,1.0,E3_20116,https://www.wikidata.org/wiki/,,Q5886593,"Johansson, Johan ( Johannes ), i Norask o g, r..."


In [21]:
df_clean = df_clean[['entry_id', 'definition', 'QID']]

In [22]:
df_complet_clean = df_complet_clean[['entry_id', 'definition', 'QID']]

In [27]:
len(df_clean)

404

In [28]:
for i in range(len(df_clean)):
    row_to_check = df_clean.iloc[i]
    row_exists = (df_complet_clean == row_to_check).all(axis=1).any()
    if not row_exists:
        print(i)

In [None]:
#df_clean.to_json('quad_qid.json', orient='records')

In [43]:
df_complet_clean.query("QID.isna()")

Unnamed: 0,entry_id,definition,QID
752,E1_29256,"Harald, norska konungar :",
753,E2_50484,"Harald, norska konungar :",
754,E3_14059,"Harald, norska konungar.",
755,E4_36009,"Harald, furstar.",
1032,E1_35292,Johan Georg. 1. Kurfurstar af Sachsen. Se Joha...,
1033,E2_60491,"Johan Georg. 1. Se Johan, furste af Anhalt - D...",
1034,E3_20066,"Johan Georg ( ty. Johann Georg ), kurfurstar a...",
1035,E4_41950,"Johan Georg, kurfurstar, se Johan, Sachsen.",
1084,E1_44898,"Lovisa, svenska furstinnor :",
1085,E2_77343,"Lovisa, svenska drottningar :",


In [45]:
df_complet_clean = df_complet_clean.query("QID.notna()")

In [46]:
df_complet_clean.to_json('quad_qid_complete.json', orient='records')