In [4]:
import pandas as pd
import json
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

%config Completer.use_jedi = False
pd.options.display.max_columns = 40
pd.options.display.max_rows = 50

In [5]:
df = pd.read_json('lemmatized_esco_data.json')
df.head()

Unnamed: 0,preferredLabel,preferredLabelLemmatized,preferredLabelPOS,alternativeLabel,alternativeLabelLemmatized,alternativeLabelPOS,description,descriptionLemmatized,descriptionPOS
0,analysoida r枚ntgenkuvia,"[analysoida, r枚ntgen#kuva]","[VERB, NOUN]",[],[],[],Analysoida r枚ntgenkuvia potilaiden ongelmien s...,"[analysoida, r枚ntgen#kuva, potilas, ongelma...","[VERB, NOUN, NOUN, NOUN, NOUN, CCONJ, NO..."
1,myyd盲 kelloja,"[myyd盲, kello]","[VERB, NOUN]",[],[],[],"Myyd盲 kelloja, rannekelloja tai niihin liittyv...","[myyd盲, kello, , , ranne#kello, tai, se, ...","[VERB, NOUN, PUNCT, NOUN, CCONJ, PRON, V..."
10,psykologian hoitotoimenpiteet,"[psykologia, hoito#toimen#pide]","[NOUN, NOUN]",[],[],[],Kaikenik盲isille henkil枚ille ja ryhmille suunna...,"[kaiken#ik盲inen, henkil枚, ja, ryhm盲, suunn...","[ADJ, NOUN, CCONJ, NOUN, VERB, NOUN, NOU..."
100,tietokanta,[tieto#kanta],[NOUN],"[tietokantojen luokitukset, tietokannat, tieto...","[[tieto#kanta, luokitus], [tieto#kanta], [tiet...","[[NOUN, NOUN], [NOUN], [NOUN], [NOUN, NOUN], [...","Tietokantojen luokittelu, johon kuuluu niiden ...","[tieto#kanta, luokittelu, , , joka, kuulua...","[NOUN, NOUN, PUNCT, PRON, VERB, PRON, NO..."
1000,m盲盲ritell盲 lakis盲盲teiset vaatimukset,"[m盲盲ritell盲, laki#s盲盲teinen, vaatimus]","[VERB, ADJ, NOUN]","[m盲盲ritt盲盲 juridisia vaatimuksia, m盲盲ritt盲盲 la...","[[m盲盲ritt盲盲, juridinen, vaatimus], [m盲盲ritt盲盲,...","[[VERB, ADJ, NOUN], [VERB, NOUN, CCONJ, NOUN, ...",Tutkimuksen tekeminen sovellettavista ja norma...,"[tutkimus, tekeminen, soveltaa, ja, normat...","[NOUN, NOUN, VERB, CCONJ, ADJ, NOUN, CCO..."


In [6]:
data = df[['preferredLabel', 'preferredLabelLemmatized', 'preferredLabelPOS', 'alternativeLabel', 'alternativeLabelLemmatized', 'alternativeLabelPOS', 'description', 'descriptionLemmatized', 'descriptionPOS']]
data.head()

Unnamed: 0,preferredLabel,preferredLabelLemmatized,preferredLabelPOS,alternativeLabel,alternativeLabelLemmatized,alternativeLabelPOS,description,descriptionLemmatized,descriptionPOS
0,analysoida r枚ntgenkuvia,"[analysoida, r枚ntgen#kuva]","[VERB, NOUN]",[],[],[],Analysoida r枚ntgenkuvia potilaiden ongelmien s...,"[analysoida, r枚ntgen#kuva, potilas, ongelma...","[VERB, NOUN, NOUN, NOUN, NOUN, CCONJ, NO..."
1,myyd盲 kelloja,"[myyd盲, kello]","[VERB, NOUN]",[],[],[],"Myyd盲 kelloja, rannekelloja tai niihin liittyv...","[myyd盲, kello, , , ranne#kello, tai, se, ...","[VERB, NOUN, PUNCT, NOUN, CCONJ, PRON, V..."
10,psykologian hoitotoimenpiteet,"[psykologia, hoito#toimen#pide]","[NOUN, NOUN]",[],[],[],Kaikenik盲isille henkil枚ille ja ryhmille suunna...,"[kaiken#ik盲inen, henkil枚, ja, ryhm盲, suunn...","[ADJ, NOUN, CCONJ, NOUN, VERB, NOUN, NOU..."
100,tietokanta,[tieto#kanta],[NOUN],"[tietokantojen luokitukset, tietokannat, tieto...","[[tieto#kanta, luokitus], [tieto#kanta], [tiet...","[[NOUN, NOUN], [NOUN], [NOUN], [NOUN, NOUN], [...","Tietokantojen luokittelu, johon kuuluu niiden ...","[tieto#kanta, luokittelu, , , joka, kuulua...","[NOUN, NOUN, PUNCT, PRON, VERB, PRON, NO..."
1000,m盲盲ritell盲 lakis盲盲teiset vaatimukset,"[m盲盲ritell盲, laki#s盲盲teinen, vaatimus]","[VERB, ADJ, NOUN]","[m盲盲ritt盲盲 juridisia vaatimuksia, m盲盲ritt盲盲 la...","[[m盲盲ritt盲盲, juridinen, vaatimus], [m盲盲ritt盲盲,...","[[VERB, ADJ, NOUN], [VERB, NOUN, CCONJ, NOUN, ...",Tutkimuksen tekeminen sovellettavista ja norma...,"[tutkimus, tekeminen, soveltaa, ja, normat...","[NOUN, NOUN, VERB, CCONJ, ADJ, NOUN, CCO..."


In [7]:
def get_documents(data):
    documents = []
    for i in data.index:
        document_words = []
        
        preferred_label = data['preferredLabel'][i]
        preferred_label_lemmatized = data['preferredLabelLemmatized'][i]
        preferred_label_POS = data['preferredLabelPOS'][i]
        for j in range(len(preferred_label_lemmatized)):
            if preferred_label_POS[j].strip() in ['VERB', 'NOUN']:
                document_words.append(preferred_label_lemmatized[j].strip())
                
        alternative_label = data['alternativeLabel'][i]
        alternative_label_lemmatized = data['alternativeLabelLemmatized'][i]
        alternative_label_POS = data['alternativeLabelPOS'][i]
        for j in range(len(alternative_label_lemmatized)):
            for k in range(len(alternative_label_lemmatized[j])):
                if alternative_label_POS[j][k].strip() in ['VERB', 'NOUN']:
                    document_words.append(alternative_label_lemmatized[j][k].strip())
                
        description_lemmatized = [item for item in data['descriptionLemmatized'][i] if item != ' ']
        description_POS = data['descriptionPOS'][i]
        for j in range(len(description_lemmatized)):
            if description_POS[j].strip() in ['VERB', 'NOUN']:
                document_words.append(description_lemmatized[j].strip())
        
        documents.append(document_words)
        
    return documents

documents = get_documents(data)

In [8]:
documents

[['analysoida',
  'r枚ntgen#kuva',
  'analysoida',
  'r枚ntgen#kuva',
  'potilas',
  'ongelma',
  'selvitt盲minen',
  'tulos',
  'tulkitseminen'],
 ['myyd盲',
  'kello',
  'myyd盲',
  'kello',
  'ranne#kello',
  'liitty盲',
  'tarvike',
  'asiakas',
  'mieltymys'],
 ['psykologia',
  'hoito#toimen#pide',
  'henkil枚',
  'ryhm盲',
  'suunnata',
  'psykologia',
  'hoito#toimen#pide',
  'pyrki盲',
  'parantaa',
  'hoito#taito',
  'v盲litt盲盲',
  'kulttuuri',
  'suku#puoli#n盲k枚#kulma'],
 ['tieto#kanta',
  'tieto#kanta',
  'luokitus',
  'tieto#kanta',
  'tieto#kanta#tyyppi',
  'tieto#kanta',
  'tyyppi',
  'tieto#kanta',
  'ominaisuus',
  'tieto#kanta',
  'luokittelu',
  'kuulua',
  'k盲ytt枚#tarkoitus',
  'ominaisuus',
  'terminologia',
  'malli',
  'k盲ytt枚',
  'XML#tieto#kanta',
  'tieto#kanta',
  'teksti#tieto#kanta'],
 ['m盲盲ritell盲',
  'vaatimus',
  'm盲盲ritt盲盲',
  'vaatimus',
  'm盲盲ritt盲盲',
  'laki',
  'standardi',
  'asettaa',
  'vaatimus',
  'm盲盲ritt盲盲',
  'vaatimus',
  'm盲盲ritt盲盲',
  'laki',
  'sta

In [9]:
import gensim

In [None]:
model_cbow = gensim.models.Word2Vec(documents, min_count=1, size=100, window=3)

  "C extension not loaded for Word2Vec, training will be slow. "


In [None]:
word_1 = 'paketti'
word_2 = 'posti'
print(f"Cosine similarity between '{word_1}' and '{word_2}' - Skip Gram : {model_cbow.similarity('paketti', 'posti')}")

In [None]:
model_skipgram = gensim.models.Word2Vec(documents, min_count=1, size=100, window=5, sg=1)

In [None]:
word_1 = 'paketti'
word_2 = 'posti'
print(f"Cosine similarity between '{word_1}' and '{word_2}' - Skip Gram : {model_skipgram.similarity('paketti', 'posti')}")