In [1]:
import os
import pickle
import re
from string import punctuation
from stop_words import get_stop_words
from collections import defaultdict, Counter

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as widgets
import nltk

from gensim.models import Word2Vec, Doc2Vec, FastText
from sklearn.metrics.pairwise import linear_kernel, cosine_similarity
import warnings
warnings.filterwarnings('ignore')



In [2]:
display(os.listdir('saved_models/'))

exp_features = {
    'w2v_d2v_kwords_lemmatize': ['Klíčová slova'],
    'd2v_w2v_kwords_nolemma': ['Klíčová slova'],
    'ud_pipe_czech_text': ['Název česky', 'Anotace česky'],
    'ud_pipe_nazev_anotace_stopwords': ['Název česky', 'Anotace česky'],
    'tf_w2v_d2v_fast_eng_n_a_kwords_2': ['Název anglicky', 'Anotace anglicky', 'Klíčová slova'],
    'tf_w2v_d2v_fast_cz_nolemma_naz_anot_obor_uc_res_pos_2': ['Název česky', 'Anotace česky', 'Hlavní CEP obor', 'Podrobné informace o účastnících', 'Hlavní řešitelé', 'Poskytovatel']
}

['w2v_d2v_kwords_lemmatize',
 'tf_w2v_d2v_fast_cz_nolemma_naz_anot_obor_uc_res_pos_2',
 'ud_pipe_czech_text',
 'tf_w2v_d2v_fast_eng_n_a_kwords_2',
 'tf_w2v_d2v_fast_eng_n_a_kwords',
 'tf_w2v_d2v_fast_cz_nolemma_naz_anot_obor_uc_res_pos',
 'ud_pipe_nazev_anotace_stopwords',
 'd2v_w2v_kwords_nolemma']

In [3]:
query = widgets.Text(
    value='',
    placeholder='Enter a list of keywords separated by a comma',
    disabled=False,
    layout=widgets.Layout(height="auto", width="auto")
)
query

Text(value='', layout=Layout(height='auto', width='auto'), placeholder='Enter a list of keywords separated by …

In [106]:
pd.set_option('display.max_colwidth', None)

exp_name = 'ud_pipe_nazev_anotace_stopwords'
orig_df = pd.read_csv('../data/TACR_Starfos_isvav_project.csv')
df = orig_df[exp_features[exp_name]]
df = df[~df.isna().any(axis=1)]
orig_df = orig_df.iloc[df.index]

root_path = os.path.join('saved_models', exp_name)
with open(os.path.join(root_path, 'vectors.pickle'), 'rb') as handle:
    vectors = pickle.load(handle)

print('Loaded vectors')    
for model_name, model_vectors in vectors.items():
    print(model_name)
    if not model_name == 'fasttext_100_5':
        continue
    for vec in model_vectors:
        cos_sim = cosine_similarity(vec.reshape(1, -1), model_vectors)[0]
        idxs = cos_sim.argsort()[:-11:-1]
        temp_df = orig_df.iloc[idxs][['Název česky']].copy()
        temp_df['sim'] = cos_sim[idxs]
        temp_df['sim'] = temp_df['sim'].round(5)
        if temp_df['sim'].mean() >= 0.95:
            display(temp_df)

Loaded vectors
tf-idf_(1,1)
tf-idf_(1,2)
tf-idf_(1,3)
tf-idf_(1,4)
tf-idf_(1,5)
tf-idf_(2,2)
tf-idf_(2,3)
tf-idf_(2,4)
tf-idf_(2,5)
tf-idf_(3,3)
tf-idf_(3,4)
tf-idf_(3,5)
tf-idf_(4,4)
tf-idf_(4,5)
tf-idf_(5,5)
word2vec_25_5
word2vec_25_10
word2vec_25_25
word2vec_25_50
word2vec_50_5
word2vec_50_10
word2vec_50_25
word2vec_50_50
word2vec_100_5
word2vec_100_10
word2vec_100_25
word2vec_100_50
word2vec_200_5
word2vec_200_10
word2vec_200_25
word2vec_200_50
fasttext_25_5
fasttext_25_10
fasttext_25_25
fasttext_25_50
fasttext_50_5
fasttext_50_10
fasttext_50_25
fasttext_50_50
fasttext_100_5


Unnamed: 0,Název česky,sim
2,Molekulárně cytogenetická analýza buněk mozkových tumorů a její přínos pro diagnostiku a léčbu,1.0
39874,Longitudinální a multidisciplinární péče o pacienty a rodiny s výskytem proximální svalové dystrofie,0.9604
40443,Spinocerebellární ataxie - komplexní diagnostika se zavedením molekulárních metod a následnou longitudiální multidisciplinární studií rodin pacientů.,0.95461
41773,Multidisciplinární přístup v diagnostice frontotemporálních lobárních degenerací a tauopatií: komplexní pohled na patogenetické mechanismy,0.95349
41438,Minimální uzlinové postižení u karcinomu žaludku.,0.9503
41275,Hereditární spinocerebelární ataxie - rozšíření molekulárně genetické diagnostiky s pokračující longitudinální multidisciplinární studií rodin pacientů,0.9493
42158,Úloha průtokové cytometrie a nových molekulárních metod v diagnostice dětských forem selhání kostní dřeně,0.94806
42755,Komplexní prognostický a prediktivní panel pro pacienty s chronickou lymfocytární leukémií: nástroj sekvenování nové generace vhodný pro klinickou praxi i studium genetického pozadí průběhu choroby,0.94691
41388,Vytvoření prognostického panelu u pacientů s monoklonální gamapatií nejasného významu s cílem zabránění transformace v maligní onemocnění.,0.94683
42486,Bioinformatické zpracováni NGS dat a funkční analýzy kandidátních variant pro testování hereditárních nádorových syndromů v ČR,0.94424


Unnamed: 0,Název česky,sim
8,Alterace genové exprese a signální transdukce v buňkách maligního melanomu. Vztah ke změnám stromálního mikroprostředí.,1.0
958,Methylace histonu H3 v granulocytech jako prognostický marker remise chronické myeloidní leukémie,0.95548
41185,Kandidátní geny pro schizofrenii: vliv na fenotypovou variabilitu nemocných a in vitro manipulace genové exprese pomocí siRNA.,0.94959
39408,Genetické podklady humorální aktivace u chronického srdečního selhání,0.94955
41131,Charakteristika B lymfocytárních subpopulací u pacientů s běžným variabilním imunodeficitem,0.94881
40878,Prognostický význam přítomnosti hypokomplementemie pro typ a klinickou manifestaci lupusové glomerulonefritidy,0.94879
40204,Studium úlohy genetických faktorů v rozvoji neHodgkinských lymfomů,0.94861
39865,"Mitochondriální ""rozpřahující proteiny"" v játrech a kosterním svalu v průběhu perinatálního vývoje",0.94846
40726,Diagnostika neurodegenerativních svalových poruch pomocí analýzy mRNA/DNA vytypovaných genů a chromosomálních lokusů,0.9458
40888,"Prognostický a prediktivní význam imunohistochemické exprese hMLH1, hMSH2 a hMLH6 u pacientů s nemalobuněčným karcinomem plic",0.94521


Unnamed: 0,Název česky,sim
9,Vliv biotransformace a transportu na incidenci rakoviny prsu a účinky chemoterapie,1.0
42269,Exosomální RNA produkovaná fibroblasty asociovanými s nádorem jako relevantní marker v prognóze nádorů hlavy a krku,0.96424
30908,Výzkum úlohy cholinergní neurotransmise při stárnutí a patogenezi Alzheimerovy nemoci,0.95705
50,Farmakogenomický přístup ke studiu účinnosti léčby u nemocných s roztroušenou sklerozou mozkomíšní,0.9526
24882,Mechanismy účinného zabíjení kmenových buněk rakoviny prsu,0.95162
42025,"Signální cesta Hedgehog-GLI: ukazatel biologického chování nádoru u melanomu, plicních a některých dalších nádorů, a její blokování jako protinádorová terapie.",0.94918
42615,Zkoumání získané chemorezistence pomocí profilovaní genů zahrnutých do opravy DNA u pacientů s rakovinou tlustého střeva,0.94764
16213,Alternativní mechanismy deregulace p53 dráhy u chronické lymfocytární leukémie,0.94729
41981,Studie mechanismu účinků biomarkerů korelujících s výsledkem léčby karcinomu prsu,0.94544
42756,Studium specifických podskupin u pacientů s adenokarcinomem pankreatu,0.94537


Unnamed: 0,Název česky,sim
14,"Multirezistentní bakteriální kmeny v chovech hospodářských zvířat - výskyt, možnosti šíření, analýza rizik pro zdravotní stav lidské populace a ochrana potravinového řetězce člověka",1.0
46967,Fágová terapie infekcí vyvolaných Staphylococcus aureus v chovech hospodářských zvířat,0.95789
46224,Rezistence na antimikrobiální látky u mikroorganizmů vstupujících do potravního řetězce surovinami živočišného původu,0.9536
74,Zdravotně závažné mikroorganismy z prostředí zvířat v systému monitorování bezpečnosti potravin a v šíření antimikrobiální rezistence pro člověka,0.94737
47489,Účinnost kombinovaných probiotických preparátů ve výživě mláďat přežvýkavců,0.94376
46619,Vývoj nových nástrojů pro surveillance trichinelózy prasat a volně žijících zvířat v České republice,0.94362
5336,Probiotické baktérie střevní mikroflóry jako základ zdraví a pohody zvířat,0.94066
46852,Program zdravotní kontroly ekonomicky významných infekcí v chovech prasat,0.94003
42130,"Bakteriální rezistence k fluorochinolonům, možnosti její prevence a ochrana zdraví populace",0.93959
47437,Probiotika s autochtonní laktacidogenní flórou pro drůbež a prasata,0.93904


Unnamed: 0,Název česky,sim
19,Akutní infarkt myokardu u mladých pacientů,1.0
42358,Incidence hyperlipoproteinémie u dlouhodobě přeživších osob po léčbě Hodgkinova lymfomu v dětství nebo dospívání a u zdravých dobrovolníků,0.96356
40679,"Autonomní oběhové funkce, funkce myokardu a kardiorespirační funkce u dětí a adolescentů po léčbě zhoubného nádoru",0.95671
40625,Kardiovaskulární změny u dětí s chronickou poruchou funkce ledvin - sledování známek preklinické aterosklerózy.,0.95182
41560,"Ateroskleróza u mladých nemocných se zaměřením na předčasný infarkt myokardu a ischemii dolních končetin - genetický a patofyziologický podklad, rizikové faktory, prognóza a kvalita života.",0.95048
39839,Screening toxické kardiomyopatie po kardiotoxické cytostatické léčbě v dětsví.,0.94656
40879,Vyšetřování funkce a struktury cilií respiračního epitelu u dospělých pacientů s chronickou obstrukční plicní nemocí,0.94301
42001,Vztah srdečních arytmií a dynamiky a lokalizace ischemických změn u pacientů po primární koronární intervenci,0.93748
42445,"Dlouhodobé sledování komplexního kardiovaskulárního profilu matky, plodu a dětí narozených z patologické gravidity",0.93099
41151,Poruchy hypotalamo - hypofyzární osy po úrazu mozku u dětí a dospělých,0.93027


Unnamed: 0,Název česky,sim
21,Molekulární aspekty diagnostiky a terapie spinální svalové atrofie,1.0
40347,"Stanovení mutací genů MLH1, MSH2 a APC ve tkáni sporadických adenomů tlustého střeva",0.97997
26334,Identifikace a biofyzikální charakterizace regulačních elementů DNA genu hlavního faktoru pluripotence POU5F1,0.9701
28282,Konstrukce cytogenetické mapy krátkého ramene chromozómu 1 žita (1RS),0.96591
27817,Vliv potlačení exprese fusního genu TEL/AML1 pomocí RNAi a HDACi na biologii leukemických blastů,0.96544
40027,Studie genetické asociace polymorfismů HLA 2. třídy a CTLA-4 genu s autoimunními poruchami ženské fertility,0.96513
31807,Studium transkripční regulace genu Eya1,0.96264
20679,Polymorfismus genu pro endotelin - 1 (EDN 1) u esenciální hypertense,0.96222
31051,Poziční klonování genu Hybrid sterility 1,0.96141
41308,Úloha abnormalit chromozómu 1 a kaskády NF-kappaB v patogenezi mnohočetného myelomu,0.95905


Unnamed: 0,Název česky,sim
23,Diagnostika tumorů hlavy pankreatu pomocí cílené biopsie kontrolované lineárním endoskopem,1.0
40615,Optimalizace prevence a časný záchyt kolorektálního karcinomu - screeningový program,0.95341
40048,Nový koncept konzervativní chirurgie karcinomu prsu a identifikace rizikové skupiny žen s negativitou regionálních lymfatických uzlin,0.95002
42100,Hledání biomarkerů pro nádorová onemocnění horního gastrointestinálního traktu za pomocí proteomického profilování,0.9496
42435,Diagnostika protilátkami zprostředkované rejekce po transplantaci jater,0.94786
36361,MARKERY A GENETICKÉ FAKTORY OVLIVŇUJÍCÍ PROGRESI RENÁLNÍ INSUFICIENCE U PACIENTŮ S IGA NEFROPATIÍ,0.94462
39583,Tyreoidální onkologie,0.94395
41931,Vytvoření sérové banky dlouhodobě sledovaných pacientů s karcinomem prostaty s možností ověření spojitosti nově identifikovaných onkomarkerů s prognózou onemocnění.,0.94335
41955,Vytvoření diagnostické sady cirkulujících mikroRNA pro neinvazivní časnou diagnostiku a sledování pacientů s kolorektálním karcinomem,0.94245
42534,Neinvazivní diagnostika karcinomů plic s použitím proteomických biomarkerů z dechového kondenzátu.,0.94043


Unnamed: 0,Název česky,sim
50,Farmakogenomický přístup ke studiu účinnosti léčby u nemocných s roztroušenou sklerozou mozkomíšní,1.0
41981,Studie mechanismu účinků biomarkerů korelujících s výsledkem léčby karcinomu prsu,0.95365
9,Vliv biotransformace a transportu na incidenci rakoviny prsu a účinky chemoterapie,0.9526
41689,Funkční a strukturní změny microRNA u lymfoproliferativních malignit a jejich vliv na prognózu onemocnění a predikci léčebné odpovědi,0.94832
42011,Studium signální dráhy EGFR a expresních profilů mikroRNA v predikci odpovědi na cílenou anti-EGFR terapii u pacientů s kolorektálním karcinomem s nemutovanou variantou onkogenu KRAS,0.94542
42229,"Střevní organoidy jako in-vitro model k predikci odpovědi na léčbu, která koriguje molekulární defekt způsobující cystickou fibrózu",0.94402
42756,Studium specifických podskupin u pacientů s adenokarcinomem pankreatu,0.94306
41849,Vztah virové etiologie nádorů orofaryngu k úspěšnosti jednotlivých léčebných modalit,0.94255
37023,Role aspartyl beta hydroxylázy u nádorů asociovaných a neasociovaných s lidskými papilomaviry,0.94187
42044,Studie genetických faktorů korelujících s prognózou karcinomu prsu,0.94064


Unnamed: 0,Název česky,sim
78,Produkce kvalitních a bezpečných cereálních produktů s využitím různých strategií ochrany kukuřice a skladovaných produktů.,1.0
47601,Vývoj technik manipulace obsahem toxických alkaloidů v travách pěstovaných v České republice,0.95697
23590,"Vymezení účinků genotypu, prostředí a chemické ochrany na akumulaci fusariových mykotoxinů v zrnu pšenice a ječmene",0.95234
38017,Ochrana ječmene proti mykotoxickým fytopatogenním houbám rodu Fusarium spp. Jako cesta zvýšení kvality a stability sladu a piva,0.94712
51181,Identifikace a rozšíření patogenů rodu Phytophthora v ovocných výsadbách a vývoj metody integrované ochrany,0.94331
46419,Kontaminace pšenice mykotoxiny a rezidui pesticidů v různých pěstitelských systémech a možnosti jejich eliminace.,0.94273
46705,Metody diagnostiky rezistence škůdců řepky olejné a obilovin k zoocidům,0.94268
46384,Využití produkčního a biologického potenciálu hybridní a geneticky modifikované řepky ozimé s důrazem na biofumigační účinky glukosinolátů.,0.94259
46350,Metody hodnocení účinnosti produktů transgenů geneticky modifikovaných organismů v ochraně rostlin a posuzování rizik při jejich zavádění,0.94255
47117,Nebakteriální původci mastitid a jejich vliv na kvalitu a technologické vlastnosti mléka,0.94052


Unnamed: 0,Název česky,sim
105,Vývoj metod predikce stavů sucha a povodňových situací na základě infiltračních a retenčních vlastností půdního pokryvu ČR,1.0
31906,Vodní režim půd v pramenných oblastech České republiky ovlivňující tvorbu odtoku při uvažování vlivu změn životního prostředí,0.9618
46793,Zpřesnění dostupné zásoby vody v půdním profilu na základě modelu kořenového systému plodin pro efektivní hospodaření s vodou a dusíkem.,0.95964
24147,Výzkum příčin vzniku lokálních povodňových situací ve vztahu k infiltračním a srážkoodtokovým jevům na orné půdě,0.95937
43160,Odhad erozní ohroženosti v měnících se podmínkách využití půdy v České republice,0.95805
27088,Dynamika odtoku vody a eroze půdy na zemědělsky obdělávaném povodí v závislosti na časově proměnlivé struktuře a fyzikálních vlastnostech půdy,0.95192
23322,Vliv variant vegetačního pokryvu na snížení eroze půdy,0.95117
48538,Vliv klimatických změn na množství a kvalitu vodních zdrojů a na hydrologické poměry v ČR,0.95059
6912,Využití retenčního potenciálu krajiny při snižování povodňových průtoků a návrh opatření na jejich neškodné odvádění.,0.94891
37191,"Vliv změny využití území na erozní ohroženost, transport splavenin, kvalitu vody a odtokový režim",0.9487


Unnamed: 0,Název česky,sim
110,Výzkum a vývoj metod na odstraňování organochlorových pesticidů a polychlorovaných dibenzodioxinů a furanů z podzemních a odpadních vod,1.0
621,Optimální využití odpadních vod,0.96773
43161,Integrované modelování - metabolická a kinetická charakterizace biomasy v systémech pro čištění odpadní vody,0.96231
49887,Inovativní způsob čištění odpadních vod se zaměřením na zisk nutrientů v čisté formě,0.95724
9620,Biologicky aktivní skleněné matrice pro účinnou hygienizaci vod,0.95715
19953,Řízení separačních vlastností aktivovaných kalů v systémech biologického odstraňování nutrientů z odpadních vod,0.95657
11093,Vodní hospodářství skládek komunálního odpadu a eliminace škodlivých látek z průsakových vod,0.95402
45905,Dekontaminace životního prostředí pomocí mikroorganismů (Eliminace minerálního znečištění vodních zdrojů a odpad.vod ..),0.95209
49277,Biologická eliminace kyanidů z průmyslových odpadních vod s komplexním znečištěním,0.94952
49240,Systém biotechnologického čistění odpadních vod v zemědělství a jejich recyklace,0.94938


Unnamed: 0,Název česky,sim
111,"*Průzkum nových metod, vývoj a aplikace technologie pro utilizaci vod s vysokým obsahem rozpuštěných látek",1.0
52536,Řešení problematiky skládkových vod membránovými procesy,0.95619
49931,Aplikace pokročilých elektrochemických systémů na čištění specifických odpadních vod s vysokou koncentrací amoniakálního dusíku,0.95348
11093,Vodní hospodářství skládek komunálního odpadu a eliminace škodlivých látek z průsakových vod,0.95324
994,*Výzkum a vývoj kombinovaného biofiltru pro čištění odpadních plynů a vod z živočišných výrob.,0.95183
50426,Nová technologie a zařízení pro zvyšování čistoty vod,0.9514
50940,Kapacitní deionizace pro úpravu vod a čištění odpadních vod,0.95113
43662,Čištění vody pomocí biodegradace imobilizovanými buňkami,0.95015
34261,Optimalizace monitoringu kapalných výpustí z jaderných elektráren,0.94664
7389,Výzkum a vývoj systémů obnovy vodních zdrojů čištěním odpadní vody na kvalitu pro její znovupoužití.,0.94478


Unnamed: 0,Název česky,sim
116,Metody inteligentních systémů a jejich aplikace při dobývání znalostí a zpracování přirozeného jazyka,1.0
16290,Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí,0.95327
6557,Metody hlubokého učení pro syntézu řeči jako zdroj inovací ve výuce jazyků,0.95272
16894,Soft Computing: teoretické základy a experimenty,0.95085
28868,Teorie a aplikace hlasové komunikace v Češtině,0.95084
115,"Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu",0.948
28967,Porozumění jazyku: od syntaxe k diskurzu,0.94771
17025,Algoritmy rozpoznávání obrazu,0.94767
24566,Modelování a verifikace paralelních systémů,0.94506
13300,Automatizovaná formální analýza a verifikace programů se složitými datovými a řídicími strukturami s předem neomezenou velikostí,0.94446


Unnamed: 0,Název česky,sim
123,Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů,1.0
50726,Inteligentní software pro sémantické hledání dokumentů,0.96153
17018,Vývoj nativního úložiště pro XML data,0.9552
143,Od jazyka ke znalostem a sémantickému webu,0.94723
17036,Dialogové generování webovských prezentací a grafiky pro zrakově postižené,0.94629
13070,Treebank češtiny na základě gramatiky,0.94239
36193,Strojový překlad se sémantickou informací,0.93802
22469,Formální reprezentace jazykových struktur,0.93736
27343,Metody pro efektivní vyhledávání v rozsáhlých kolekcích slabě strukturovaných dat,0.93716
49180,Živé archivy,0.93658


Unnamed: 0,Název česky,sim
125,Multikamerový systém pro modelování a rozpoznávání událostí,1.0
27124,Prostorové poznání pro mobilní roboty,0.97473
24554,"Bregmanovy vzdálenosti, divergence a optimální algoritmy pro hledání informací, rozhodování a učení",0.94799
53043,Komplexní analýza a vizualizace heterogenních dat velkého rozsahu,0.94495
24560,Formální metody pro analýzu a verifikaci komplexních systémů,0.94334
15615,Optimální zpracování externí stochastické znalosti vyjádřené pomocí pravděpodobnostních distribucí,0.94239
27040,Stochastické modelování a statistická analýza náhodných množin,0.94238
24568,Podobnostní nemetrické vyhledávání v rozsáhlých komplexních databázích,0.9421
26804,Metody strojového učení pro konstrukci řešení v evolučních algoritmech,0.94166
24332,Základy pro zpracování dat s využitím podobností,0.94133


Unnamed: 0,Název česky,sim
131,Strategické řízení systémů s multiagenty,1.0
10260,Řízení a stavba víceosých robotických systémů,0.96295
10848,Inteligentní řídící systémy,0.94896
10390,Nové přístupy k projektování a řízení distribuovaných měřících a automatizačních systémů technologických procesů,0.94814
44571,AUTONOMIE - Řízení autonomních bezpilotních prostředků v dynamickém prostředí,0.94689
8252,Výzkum a vývoj modulárního robotického manipulátoru pro nasazení v odmašťovacích a odlakovacích linkách,0.94634
14835,Robustní plánování a řízení pohybu na nerovném terénu,0.94459
13573,Modulární a Decentralizované Řízení Diskrétních a Hybridních systémů s Komunikací,0.94107
9727,Kooperativní robotické platformy pro automobilové a průmyslové aplikace,0.94048
10091,Číslicové řízení lineárních akčních členů mechatronických systémů,0.93748


Unnamed: 0,Název česky,sim
132,Logika a umělá inteligence pro multiagentní systémy,1.0
26734,Daty řízené a antropické kódování a rozpoznávání řeči,0.95447
25159,Vývoj nekonvenčních metod manažerského rozhodování v oblasti podnikové ekonomiky a veřejné ekonomie,0.95294
24572,Dyschnet - Dynamické plánování a rozvrhování výpočetních a síťových zdrojů,0.94815
10446,Integrace metod modelování a řízení distribuovaných heterogenních procesů,0.94663
13942,Automatické modelování znalostí a plánů pro autonomní roboty,0.94438
26201,Heuristické prohledávání pro multiagentní a faktorové plánování,0.94406
38016,MIXMODE Modely distribučních směsí v rozpoznávání a zpracování obrazu,0.94062
27183,Distribuované dynamické odhadování v difuzních sítích,0.93884
17221,Bayesovské sítě,0.93875


Unnamed: 0,Název česky,sim
135,Aplikovaný výzkum zabezpečené internetové komunikace se vzdálenými koncovými zařízeními v energetice,1.0
9098,*Výzkum a vývoj systému zabezpečené datové komunikace GPRS pro dálkový sběr energetických dat.,0.9641
6375,Systém kybernetické bezpečnosti nové generace,0.9467
8490,Inteligentní modulární systém s digitálním řízením pro nabíjení průmyslových akumulátorů,0.94584
1095,*Dopravně-telematický komunikační modul (DOTEK).,0.9433
36968,Vývoj bezkontaktní technologie pro inteligentní ochranu zájmových prostor,0.94283
53003,Detekce bezpečnostních hrozeb na aktivních prvcích kritických infrastruktur,0.94279
10653,Průmyslová bezdrátová síť Bluetooth pro automatizaci,0.94279
46369,Marketingová agrární síť,0.94012
9682,Vývoj autonomního ostrovního systému pro obousměrnou komunikaci s bezdrátovými uzly sítě,0.93971


Unnamed: 0,Název česky,sim
141,Jazyková poradna na internetu,1.0
22485,Sociologie jazyka a jazykové poradenství v éře elektronických médií,0.95241
3498,Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi,0.95202
22469,Formální reprezentace jazykových struktur,0.9513
40530,Virtuální knihovna informačních zdrojů pro pediatrii,0.94937
25287,Čeština ve věku strojového překladu,0.94897
12749,Výslovnost neintegrovaného lexika v češtině,0.94643
22332,Jména v mezikulturní komunikaci (problém komunikační spolehlivosti),0.94568
35707,PARSEME: Parsing a víceslovné výrazy - k jazykovědné přesnosti a výpočetní efektivitě ve zpracování přirozeného jazyka,0.94387
36571,Výzkumná infrastruktura pro diachronní bohemistiku,0.94368


Unnamed: 0,Název česky,sim
160,Specifikace kvalitativních kritérií a optimalizace prostředků pro vysokorychlostní přístupové sítě,1.0
35514,Systémy bezdrátové internetové komunikace,0.95726
6108,Pokročilý systém řízení ČOV 4.0,0.95401
51769,Pokročilé behaviorální modely aplikační vrstvy pro efektivní analýzu provozu v podnikových sítích,0.95049
10653,Průmyslová bezdrátová síť Bluetooth pro automatizaci,0.94997
1095,*Dopravně-telematický komunikační modul (DOTEK).,0.9499
5761,Platforma pro pokročilou analýzu elektroenergetických soustav,0.94509
28521,Interoperabilita budoucích webových služeb v síti propojených dat,0.94389
9765,Datový monitoring pro zvýšení spolehlivosti procesů chytrých továren,0.94317
50028,Univerzální radiová gateway pro IP komunikaci v dispečerských systémech,0.94269


Unnamed: 0,Název česky,sim
163,Univerzální architektura pro poskytování interaktivních informačních služeb teresteriální digitální televize,1.0
5764,Safety4Data New Generation,0.96695
35399,Zpřístupnění distribuovaných elektronických informací v rámci INTRANETU a INTERNETU v oblasti zemědělských a technických věd.,0.95388
6025,SmartHome,0.94919
49799,Bezpečné systémy pro ověření uživatelů elektronických služeb,0.94716
21332,Proces transformace informačních systémů při zavedení nových typů služeb,0.94715
940,"Asistenční, informační a komunikační služby s podporou vyspělých hlasových technologií",0.94516
8090,"Multiplatformní distribuovaný systém pro měření a sběr dat, řízení strojů a procesů",0.94479
6288,Umělá inteligence pro identifikaci a monetizaci skrytých obchodních příležitostí (AIRES),0.94382
3187,Centrální digitální evidence dopravních omezení na silniční síti ČR,0.94341


Unnamed: 0,Název česky,sim
166,Optická 3D-DVD paměťová média na bázi nových fotochromatických polymerů,1.0
6190,3D UP - Grafenové kompozitní materiály pro 3D tiskové procesy,0.97008
16385,Směrem k funkčním a bezporuchovým 3D grafenovým strukturám,0.96632
50913,Flexibilní 2D a 3D polymerní fotonické struktury,0.96418
10545,Metody multirezoluční vizualizace medicínských obrazových dat,0.95621
9518,Vytvoření nové materiálové základny pro 3D printing z Hydal PHA,0.95582
34313,Rozměrový jev ve feroelektrikách,0.95399
5694,Výzkum a vývoj nových technických textilií a jejich průmyslové aplikace v 3D kompozitních materiálech,0.95364
6059,Vývoj transtibiální protézy zhotovené 3D tiskem,0.9519
51922,Kompozitní ochranný panel s 3D ocelovou výztuží,0.95021


Unnamed: 0,Název česky,sim
167,Principy zpracování informace v neuronech a jejich aplikace,1.0
24327,Úloha šumu při zpracování informace v neuronech,0.98831
15956,FoNeCo: Analytické základy neurovýpočtů,0.95866
13698,Efektivita informačního přenosu a role energetických omezení v neuronálních systémech,0.94495
20827,Stochastická shluková aktivita neuronů a kódování informace,0.94344
31059,Kódování intensity podnětu a zpracování informace v malých neuronových sítích. Teoretický přístup.,0.94299
31707,Alternativní učící algoritmy pro dopředné neuronové sítě,0.93727
28470,Využití umělých neuronových sítí při víceúrovňovém modelování transportních procesů v heterogenních materiálech,0.93435
27183,Distribuované dynamické odhadování v difuzních sítích,0.93343
28456,Informačně-teoretická analýza kódování stimulu v senzorických neuronech,0.93225


Unnamed: 0,Název česky,sim
170,Modelování a simulace náročných technických problémů: efektivní numerické algoritmy a paralelní implementace s pomocí nových informačních technologií,1.0
16829,"Nové algoritmy pro přesnou, efektivní a robustní analýzu rozsáhlých systémů",0.9601
182,"Výzkum, testování, implementace a aplikace paralelních postupů pro modelování úloh mechaniky kontinua. Vytvoření elektronického výukového nástroje.",0.95113
10780,Algoritmy pro analýzu a návrh řízení složitých systémů,0.94676
26679,Výzkum simulačního a experimentálního modelování dynamiky mobilních kráčejících robotů,0.94667
17130,Vývoj a implementace paralelních algoritmů s aplikacemi v počítačové chemii.,0.94233
24344,Studium vlastností residuální aritmetiky pro řešení soustav lineárních rovnic,0.94199
36344,Účinné přístupy neurocomputing pro analýzu a posouzení konstrukcí,0.94086
26657,Numerické řešení pohybových rovnic s kontaktními okrajovými podmínkami a aplikace v nelineárních problémech vysokorychlostního impaktu,0.9394
10345,Nové přístupy k řízení složitých nelineárních dynamických podsystémů,0.93921


Unnamed: 0,Název česky,sim
182,"Výzkum, testování, implementace a aplikace paralelních postupů pro modelování úloh mechaniky kontinua. Vytvoření elektronického výukového nástroje.",1.0
10713,Teoretické základy pro integrované řízení a optimalizaci technologických procesů,0.95323
170,Modelování a simulace náročných technických problémů: efektivní numerické algoritmy a paralelní implementace s pomocí nových informačních technologií,0.95113
10780,Algoritmy pro analýzu a návrh řízení složitých systémů,0.94811
26679,Výzkum simulačního a experimentálního modelování dynamiky mobilních kráčejících robotů,0.94565
10449,Vývoj a aplikace kontaktních úloh a kontaktní tvarová optimalizace v inženýrských problémech,0.94531
27126,Škálovatelné algoritmy založené na metodách rozložení oblastí pro výpočet dynamických kontaktních úloh a rázu těles se třením,0.94512
16829,"Nové algoritmy pro přesnou, efektivní a robustní analýzu rozsáhlých systémů",0.94395
38785,Optimální umisťování obslužných středisek pomocí IP-solverů,0.9393
24344,Studium vlastností residuální aritmetiky pro řešení soustav lineárních rovnic,0.93557


Unnamed: 0,Název česky,sim
184,Modelování a kvantifikace spolehlivosti dynamických systémů,1.0
13742,Modelování dynamických finančních procesů se strukturálními změnami,0.96128
11368,Stochastické modelování interakce konstrukce s podložím (SISMO),0.95764
12454,Numerické modelování a analýza víceúrovňového porušení rozhraní v kompozitních materiálech,0.95746
24392,Inverzní problémy spolehlivosti konstrukcí,0.95645
21366,Vyhodnocování ekonomických rozhodovacích modelů a výsledků,0.95438
13865,Analýza konstrukcí tribun,0.95329
35432,Centrum Jaroslava Hájka pro teoretickou a aplikovanou statistiku,0.95212
21541,Stabilita a růst v dynamických modelech ekonomických systémů za neurčitosti,0.9511
16924,Modely náhodných bodových procesů a metody jejich statistické analýzy v řízení spolehlivosti systémů,0.95099


KeyboardInterrupt: 

In [109]:
exp_name = 'tf_w2v_d2v_fast_eng_n_a_kwords_2'
root_path = os.path.join('saved_models', exp_name)
with open(os.path.join(root_path, 'vectors.pickle'), 'rb') as handle:
    vectors = pickle.load(handle)
    
orig_df = pd.read_csv('../data/TACR_Starfos_isvav_project.csv')
df = orig_df[exp_features[exp_name]]
df = df[~df.isna().any(axis=1)]
orig_df = orig_df.iloc[df.index]
orig_df = orig_df.reset_index(drop=True)

vecs = vectors['word2vec_25_10']
idx = orig_df[orig_df['Název česky'] == '13 let jako významný milník v životě dětí - epidemiologická studie'].index
source = vecs[idx]
cos_sim = cosine_similarity(source, vecs)[0]
idxs = cos_sim.argsort()[:-11:-1]

temp_df = orig_df.iloc[idxs][['Klíčová slova', 'Název česky']].copy()
temp_df['Míra podobnosti'] = cos_sim[idxs]
temp_df['Míra podobnosti'] = temp_df['Míra podobnosti'].round(4)
temp_df.reset_index(drop=True)

Unnamed: 0,Klíčová slova,Název česky,Míra podobnosti
0,injury rate; morbidity; environment; lifestyle; smoking; health determinants; longitudinality; psychosocial aspects,13 let jako významný milník v životě dětí - epidemiologická studie,1.0
1,injury rate; injury family; life style; smoking; life environment; health determinants; longitudinality; psycho-social aspects,15 let jako významný předěl v životě dětí - epidemiologická studie,0.9761
2,questionaires; longitudinality; health determinants; morbidity; accident rate; social development; family; life style,Vývoj během dětství v brněnském souboru WHO - ELSPAC. Vlastní šetření v 11 letech věku.,0.9738
3,childhood obesity; 21st century family; children; parents; health; lifestyle; nutrition; physical activity; motivation; change of attitudes; behavior change; barriers,"Vytvoření komplexního systému ochrany zdraví dětí a rodiny v kontextu změn 21. století se zaměřením na dětskou obezitu, výživu a pohyb",0.9677
4,quality of life; children; adolescents; illness; health; assessment; intervention,Kvalita života u dětí a dospívajících,0.9648
5,school youth; health related fitness; health state; dietary state; motor tests; functional state; mo,Školní mládež v konci dvacátého století,0.9598
6,deprivace; predikce; prevence; resilience; riziko,Ochrana duševního zdraví osob vystavených v dětství prokazatelnému psychosociálnímu riziku.,0.959
7,CIDI; gravidita; interrupce; nechtěnost; poruchy; psychika,Analýza duševního zdraví osob ve středním věku narozených z nechtěných těhotenství.,0.9581
8,the health handicaps of children; the age structure of the child; the social security benefits,"Analýza zdravotních postižení dětí a jejich sociálních důsledků, úroveň sociální ochrany zdravotně postižených dětí, jejich výsledky a efektivnost",0.9574
9,very low birthweight; extremely low birthweight; bronchopulmonar dysplasia; gastroesophageal reflux; hyperexcitability,Follow-up of children with perinatal burden,0.9558


In [96]:
vectors.keys()

dict_keys(['tf-idf_(1,1)', 'tf-idf_(1,2)', 'tf-idf_(1,3)', 'tf-idf_(1,4)', 'tf-idf_(1,5)', 'tf-idf_(2,2)', 'tf-idf_(2,3)', 'tf-idf_(2,4)', 'tf-idf_(2,5)', 'tf-idf_(3,3)', 'tf-idf_(3,4)', 'tf-idf_(3,5)', 'tf-idf_(4,4)', 'tf-idf_(4,5)', 'tf-idf_(5,5)', 'word2vec_25_5', 'word2vec_25_10', 'word2vec_25_25', 'word2vec_25_50', 'word2vec_50_5', 'word2vec_50_10', 'word2vec_50_25', 'word2vec_50_50', 'word2vec_100_5', 'word2vec_100_10', 'word2vec_100_25', 'word2vec_100_50', 'word2vec_200_5', 'word2vec_200_10', 'word2vec_200_25', 'word2vec_200_50', 'fasttext_25_5', 'fasttext_25_10', 'fasttext_25_25', 'fasttext_25_50', 'fasttext_50_5', 'fasttext_50_10', 'fasttext_50_25', 'fasttext_50_50', 'fasttext_100_5', 'fasttext_100_10', 'fasttext_100_25', 'fasttext_100_50', 'fasttext_200_5', 'fasttext_200_10', 'fasttext_200_25', 'fasttext_200_50', 'doc2vec_25_5', 'doc2vec_25_10', 'doc2vec_25_25', 'doc2vec_25_50', 'doc2vec_50_5', 'doc2vec_50_10', 'doc2vec_50_25', 'doc2vec_50_50', 'doc2vec_100_5', 'doc2vec_100_1