In [4]:
import numpy as np
import pandas as pd
import sys

In [5]:
sys.path.insert(0, "../") 

# Synonyms

In [6]:
add_syn = pd.DataFrame({
    'synonyms': [" рентген; рентгенография", " экг; электрокардиограмма", " мрт", " кт; компьютерная томография"],
    'analysis': ["рентгенография", "электрокардиограмма", "магнитно-резонансная томография", "компьютерная томография"]})
add_syn

Unnamed: 0,synonyms,analysis
0,рентген; рентгенография,рентгенография
1,экг; электрокардиограмма,электрокардиограмма
2,мрт,магнитно-резонансная томография
3,кт; компьютерная томография,компьютерная томография


In [11]:
S_PATTERN_REP = "[\.|\(|\)|\;]"
A_PATTERN_REP = "[\.|\(|\)]"

synonyms = pd.read_csv("../data/synonyms1.csv", index_col=0).reset_index(drop=True)
synonyms = synonyms.applymap(str.lower)
synonyms["synonyms"] = synonyms["synonyms"].str.split(":").str[1]
synonyms = pd.concat((synonyms, add_syn)).reset_index(drop=True)
synonyms["synonyms"] = synonyms["synonyms"].str.strip()
synonyms["synonyms"] = synonyms["synonyms"].str.replace(S_PATTERN_REP, "", regex=True)
synonyms["analysis"] = synonyms["analysis"].str.replace(A_PATTERN_REP, "", regex=True)
synonyms.tail(10)


Unnamed: 0,synonyms,analysis
792,анализ кала на микробиоту,исследование состава микробиоты толстого кишеч...
793,инбиофлор-макси соскоб эпителиальных клеток ур...,инбиофлор-макси комплексное исследование микро...
794,биофлор соскоб эпителиальных клеток урогенитал...,биофлор исследование микробиоценоза урогенитал...
795,"микробиоценоз, вагинальный дисбиоз",скрининг микрофлоры урогенитального тракта фем...
796,микробиоценоз вагинальный биоценоз биоценоз ур...,исследование биоценоза урогенитального тракта ...
797,урогенитальный соскоб на лактобактерии,"лактобактерии, определение днк lactobаcillus s..."
798,рентген рентгенография,рентгенография
799,экг электрокардиограмма,электрокардиограмма
800,мрт,магнитно-резонансная томография
801,кт компьютерная томография,компьютерная томография


In [13]:
synonyms.shape

(802, 2)

In [14]:
synonyms["synonyms"][0]

'анализ крови на глюкозу глюкоза в плазме или сыворотке крови сахар крови глюкоза в крови анализ глюкозы в крови натощак анализ сахара в крови glucose, plasma or serum fasting blood glucose fbg fasting plasma glucose blood glucose blood sugar fasting blood sugar fbs'

# Analysis

In [173]:
COST_PATTERN_FIND = "(\d+[\,\.\\s руб. ]*\d*)"
COST_PATTERN_REP = {",| руб. ":".", " |руб.":""}
analysis = pd.read_csv("../analysis.csv", index_col=0).reset_index(drop=True)
analysis["analysis_name"] = analysis["analysis_name"].str.lower().str.strip()
analysis["analysis_name"] = analysis["analysis_name"].str.replace(r"[\.|\(|\)]", "", regex=True)
analysis = analysis.dropna(subset=["analysis_name"]).reset_index(drop=True)
analysis = analysis.drop_duplicates(
                                      subset = ["source", "analysis_name", "analysis_cost"],
                                      keep = 'last').reset_index(drop = True)
analysis.tail(20)

Unnamed: 0.1,Unnamed: 0,source,chapter,analysis_name,analysis_cost,analysis_comment
3777,1291,invitro.by,,комплексное гормональное обследование для мужчин,116 руб. 46 коп.,
3778,1292,invitro.by,,вегетарианцы,92 руб. 73 коп.,
3779,1293,invitro.by,,дифференциальная диагностика депрессии,139 руб. 36 коп.,
3780,1294,invitro.by,,"лабораторная диагностика заболеваний, сопровож...",171 руб. 35 коп.,
3781,1295,invitro.by,,микро- и макроэлементы,77 руб. 85 коп.,
3782,1296,invitro.by,,красота здоровой кожи,104 руб. 82 коп.,
3783,1297,invitro.by,,"сильные волосы, крепкие ногти, бархатная кожа",121 руб. 79 коп.,
3784,1298,invitro.by,,"подготовка к диете, профиль «расширенный»",229 руб. 60 коп.,
3785,1299,invitro.by,,"подготовка к диете, профиль «базовый»",124 руб. 96 коп.,
3786,1300,invitro.by,,мужской скрининг,100 руб. 14 коп.,


In [174]:
analysis.shape

(3797, 6)

In [175]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

In [124]:
vectorizer = TfidfVectorizer(ngram_range=(1, 1))

In [8]:
synonyms_tfidf = vectorizer.fit_transform(synonyms['analysis'])

In [9]:
synonyms_tfidf

<798x2894 sparse matrix of type '<class 'numpy.float64'>'
	with 7205 stored elements in Compressed Sparse Row format>

In [10]:
counter = CountVectorizer()
analysis_counts = counter.fit(synonyms['analysis']).transform(analysis["analysis_name"])
analysis_counts

<4055x2894 sparse matrix of type '<class 'numpy.int64'>'
	with 14399 stored elements in Compressed Sparse Row format>

In [11]:
score_table = analysis_counts @ synonyms_tfidf.T
score_table

<4055x798 sparse matrix of type '<class 'numpy.float64'>'
	with 257556 stored elements in Compressed Sparse Row format>

In [12]:
max_scores = score_table.max(axis=1).toarray().ravel()
best_match = np.array(score_table.argmax(axis=1)).ravel()
max_scores

array([0.        , 0.41808994, 0.41808994, ..., 0.        , 0.36407435,
       0.        ])

In [13]:
best_match

array([  0, 784, 784, ...,   0, 754,   0])

In [14]:
def jaccard_score(A: str, B: str) -> float:
    set_A = set(A.split(" "))
    set_B = set(B.split(" "))
    intersection = len(set_A.intersection(set_B))
    union = len(set_A.union(set_B))
    return intersection / union

In [15]:
result = pd.DataFrame({
    "analysis_name": analysis["analysis_name"].values,
    "best_match_synonym": synonyms["synonyms"].iloc[best_match].values,
    "best_match_analysis": synonyms["analysis"].iloc[best_match].values,
    "match_score": max_scores
}, index=analysis.index).sort_values("match_score", ascending=False)

result["IoU"] = result.apply(axis=1, func=lambda ser: jaccard_score(ser["analysis_name"], ser["best_match_analysis"]))

result

Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
3200,смесь пищевых аллергенов (fm22) сыр швейцарски...,специфические иммуноглобулины класса е к аллер...,смесь пищевых аллергенов (fm22) сыр швейцарски...,8.061771,1.000000
3228,смесь перьев декоративных птиц (em72) (перья в...,специфические иммуноглобулины класса е к аллер...,смесь перьев декоративных птиц (em72) (перья в...,7.480901,1.000000
3652,"комплексная диагностика увеитов (hla-b27, hla-...",hla-увеиты,"комплексная диагностика увеитов (hla-b27, hla-...",7.330639,1.000000
3534,вирус папилломы человека высокого онкогенного ...,определение днк папилломы в ротоглоточном соскобе,"определение днк впч (вирус папилломы человека,...",7.297296,0.468085
3229,"смесь перьев птиц (em1) (гусиные перья, курины...",специфические иммуноглобулины класса е к аллер...,"смесь перьев птиц (em1) (гусиные перья, курины...",7.219770,1.000000
...,...,...,...,...,...
984,"эстетическая косметология комплекс ""массаж кос...",анализ крови на глюкозу; глюкоза в плазме или ...,глюкоза (в крови) (glucose),0.000000,0.000000
985,"эстетическая косметология комплекс ""ультразвук...",анализ крови на глюкозу; глюкоза в плазме или ...,глюкоза (в крови) (glucose),0.000000,0.000000
986,"эстетическая косметология комплекс ""ультрафоно...",анализ крови на глюкозу; глюкоза в плазме или ...,глюкоза (в крови) (glucose),0.000000,0.000000
987,"эстетическая косметология комплекс ""ультрафоно...",анализ крови на глюкозу; глюкоза в плазме или ...,глюкоза (в крови) (glucose),0.000000,0.000000


In [16]:
result["IoU"].value_counts()

IoU
0.000000    1112
1.000000     277
0.100000     154
0.090909     143
0.166667     127
            ... 
0.171429       1
0.764706       1
0.368421       1
0.023810       1
0.048780       1
Name: count, Length: 172, dtype: int64

In [17]:
best_match

array([  0, 784, 784, ...,   0, 754,   0])

In [18]:
synonyms["analysis"].loc[793]

'инбиофлор-макси. комплексное исследование микрофлоры урогенитального тракта'

In [19]:
result.loc[result["IoU"].between(0.5, 1)]

Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
3200,смесь пищевых аллергенов (fm22) сыр швейцарски...,специфические иммуноглобулины класса е к аллер...,смесь пищевых аллергенов (fm22) сыр швейцарски...,8.061771,1.0
3228,смесь перьев декоративных птиц (em72) (перья в...,специфические иммуноглобулины класса е к аллер...,смесь перьев декоративных птиц (em72) (перья в...,7.480901,1.0
3652,"комплексная диагностика увеитов (hla-b27, hla-...",hla-увеиты,"комплексная диагностика увеитов (hla-b27, hla-...",7.330639,1.0
3229,"смесь перьев птиц (em1) (гусиные перья, курины...",специфические иммуноглобулины класса е к аллер...,"смесь перьев птиц (em1) (гусиные перья, курины...",7.219770,1.0
3227,смесь аллергенов домашних грызунов: эпителий м...,специфические иммуноглобулины класса е к аллер...,смесь аллергенов домашних грызунов: эпителий м...,6.634031,1.0
...,...,...,...,...,...
1778,спермограмма,спермиограмма; сперматограмма; анализ спермы; ...,спермограмма (spermogram),0.685681,0.5
2031,андростендион,анализ крови на андростендион,андростендион (androstenedione),0.685681,0.5
3004,гастрин,анализ крови на гастрин; пилорин; пилорогастри...,гастрин (gastrin),0.685681,0.5
2981,андростендион,анализ крови на андростендион,андростендион (androstenedione),0.685681,0.5


In [20]:
df3=synonyms.loc[~synonyms['synonyms'].isin(result['best_match_synonym'])]

In [21]:
result["best_match_synonym"].equals( synonyms["synonyms"])

False

In [22]:
df3.head(40)

Unnamed: 0,synonyms,analysis
4,анализ крови на толерантность к глюкозе с с-пе...,глюкозотолерантный тест с определением глюкозы...
27,электрофорез липидов; электрофорез липопротеид...,электрофорез липопротеинов с типированием гипе...
41,анализ крови на пепсиноген; зимоген пепсина pg...,пепсиноген i (pepsinogen i)
67,анализ крови на витамин к2,"витамин к2 (менахинон-4), сыворотка (менахинон..."
68,анализ крови на витамин к2,"витамин к2 (менахинон-7), сыворотка (менахинон..."
77,вита пальмитат; сывороточный ретинол пальмитат;,витамин а пальмитат в сыворотке (ретинол пальм...
79,анализ крови на витамин к2,"витамин к2: мк-4 и мк-7, сыворотка (vitamin k2..."
86,маркер анемии хронических заболеваний,"гепсидин 25 (биоактивный) (hepcidin 25, bioact..."
93,амг (альфа-2-макроглобулин); α2-макроглобулин;...,"альфа-2-макроглобулин (alpha-2-macroglobulin, ..."
101,уровень апиксабана (эликвис),"апиксабан, концентрация (apixaban level)"


In [24]:
result.loc[(result["IoU"] < 0.5), ("best_match_synonym", "best_match_analysis")] = ""


In [25]:
result = result.sort_index()
result

Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
0,аппаратное удаление ногтей,,,0.000000,0.000000
1,аппаратное удаление пораженной ногтевой пласти...,,,0.418090,0.043478
2,аппаратное удаление одной пораженной ногтевой ...,,,0.418090,0.045455
3,механическое удаление пораженных частей ногтев...,,,0.444242,0.000000
4,комплект на 1 человека,,,0.338175,0.125000
...,...,...,...,...,...
4050,профиль «гипогонадизм у мужчин»,,,0.338172,0.000000
4051,сексуальная дисфункция у мужчин. первичное лаб...,,,0.575070,0.111111
4052,онкориск мужской: предстательная железа,,,0.000000,0.000000
4053,supersport - базовый,,,0.364074,0.000000


In [26]:
result.to_csv("data/result.csv")

In [27]:
df = pd.read_csv("data/result.csv")
df

Unnamed: 0.1,Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
0,0,аппаратное удаление ногтей,,,0.000000,0.000000
1,1,аппаратное удаление пораженной ногтевой пласти...,,,0.418090,0.043478
2,2,аппаратное удаление одной пораженной ногтевой ...,,,0.418090,0.045455
3,3,механическое удаление пораженных частей ногтев...,,,0.444242,0.000000
4,4,комплект на 1 человека,,,0.338175,0.125000
...,...,...,...,...,...,...
4050,4050,профиль «гипогонадизм у мужчин»,,,0.338172,0.000000
4051,4051,сексуальная дисфункция у мужчин. первичное лаб...,,,0.575070,0.111111
4052,4052,онкориск мужской: предстательная железа,,,0.000000,0.000000
4053,4053,supersport - базовый,,,0.364074,0.000000


In [28]:
df.loc[df["best_match_synonym"].isna()]

Unnamed: 0.1,Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
0,0,аппаратное удаление ногтей,,,0.000000,0.000000
1,1,аппаратное удаление пораженной ногтевой пласти...,,,0.418090,0.043478
2,2,аппаратное удаление одной пораженной ногтевой ...,,,0.418090,0.045455
3,3,механическое удаление пораженных частей ногтев...,,,0.444242,0.000000
4,4,комплект на 1 человека,,,0.338175,0.125000
...,...,...,...,...,...,...
4050,4050,профиль «гипогонадизм у мужчин»,,,0.338172,0.000000
4051,4051,сексуальная дисфункция у мужчин. первичное лаб...,,,0.575070,0.111111
4052,4052,онкориск мужской: предстательная железа,,,0.000000,0.000000
4053,4053,supersport - базовый,,,0.364074,0.000000


### TfIdf

In [177]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from collections.abc import Iterable

# Загрузка стоп-слов и стеммера
# nltk.download('stopwords')
# nltk.download('punkt')

# Получение текстовых данных из определенных pd.Series
def get_documents(docs: pd.Series) -> list:
    return docs.to_list()

# Получение текстовых данных из определенной колонки DataFrame
syn_analysis_docs = get_documents( synonyms['analysis'])
analysis_docs = get_documents(analysis["analysis_name"])

# Загрузка стоп-слов и стеммера
stop_words = set(stopwords.words('russian'))
stemmer = SnowballStemmer('russian')

# Функция для предобработки текста
def preprocess_text(text):
    tokenizer = nltk.RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(text.lower())
    tokens = [token for token in tokens if token not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return stemmed_tokens

# Предобработка текстовых данных
processed_syn_analysis = [' '.join(preprocess_text(doc)) for doc in syn_analysis_docs]
processed_analysis = [' '.join(preprocess_text(doc)) for doc in analysis_docs]

# Создание экземпляра TfidfVectorizer
vectorizer = TfidfVectorizer(ngram_range=(1, 1))

# Вычисление весов TF-IDF для  данных из таблицы синонимов 
tfidf_matrix_sa = vectorizer.fit_transform(processed_syn_analysis)
# Вычисление весов TF-IDF для  данных из таблицы анализов 
tfidf_matrix_a = vectorizer.transform(processed_analysis)


# Вычисление сходства между  данными
i=0
syn_indexes = []
syn_sim = []

for doc in tfidf_matrix_a:
    similarities = cosine_similarity(doc, tfidf_matrix_sa).flatten()
    sorted_indexes = similarities.argsort()[::-1]
    syn_indexes.append(sorted_indexes[0])
    syn_sim.append(similarities[sorted_indexes[0]])

# similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()


# # Сортировка документов по убыванию значений сходства
# sorted_indexes = similarities.argsort()[::-1]

# # Вывод результатов
# print("Результаты поиска:")
# for index in sorted_indexes:
#     print(f"Документ: {documents[index]}, Сходство: {similarities[index]}")


In [178]:
def jaccard_score(A: str, B: str) -> float:
    set_A = set(A.split(" "))
    set_B = set(B.split(" "))
    intersection = len(set_A.intersection(set_B))
    union = len(set_A.union(set_B))
    return intersection / union

In [179]:
df_result_tfidf = pd.DataFrame({
    "analysis_name": analysis["analysis_name"].values,
    "best_match_synonym": synonyms["synonyms"].iloc[syn_indexes].values,
    "best_match_analysis": synonyms["analysis"].iloc[syn_indexes].values,
    "similarity": syn_sim
}, index=analysis.index).sort_values("similarity", ascending=False)

df_result_tfidf["IoU"] = df_result_tfidf.apply(axis=1, func=lambda ser: jaccard_score(ser["analysis_name"], ser["best_match_analysis"]))


In [180]:
df_result_tfidf.loc[df_result_tfidf["similarity"].between(0.64, 0.66)].sort_values("similarity", ascending=True)

Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,similarity,IoU
1188,холинэстераза,сывороточная холинэстераза холинэстераза ii бу...,"холинэстераза s-псевдохолинэстераза, холинэсте...",0.640342,0.166667
1776,холинэстераза,сывороточная холинэстераза холинэстераза ii бу...,"холинэстераза s-псевдохолинэстераза, холинэсте...",0.640342,0.166667
2565,холинэстераза,сывороточная холинэстераза холинэстераза ii бу...,"холинэстераза s-псевдохолинэстераза, холинэсте...",0.640342,0.166667
2058,"аллерген f205 - сельдь, ige immunocap 21-863",специфические иммуноглобулины класса е к аллер...,"сельдь f205, ige herring f205, ige",0.640422,0.100000
2114,"аллерген f255 - слива, ige immunocap 21-873",специфические иммуноглобулины класса е к аллер...,"слива f255, ige plum f255, ige",0.640422,0.100000
...,...,...,...,...,...
1786,"хеликобактер пилори helicobacter pylori, igм",хеликобактер пилори антиген анализ кала на хел...,"хеликобактер пилори helicobacter pylori, антиг...",0.656420,0.307692
2245,аллергокомпонент f77 - бета-лактоглобулин nbos...,специфические иммуноглобулины класса е к белку...,"бета-лактоглобулин, nbos d5 f77, ige beta lact...",0.656632,0.142857
1569,определение днк trichomonas vaginalis,определение днк трихомонады в урогенитальном с...,"трихомонада, определение днк trichomonas vagin...",0.657709,0.230769
2242,аллергокомпонент f233 - овомукоид яйца ngal d1...,специфические иммуноглобулины класса е к яично...,"овомукоид яйца, ngal d1 f68, ige ovomucoid egg...",0.658023,0.214286


In [76]:
df_result_tfidf

Unnamed: 0                                                             3
source                                                            kvd.by
chapter                                               Дерматовенерология
analysis_name          механическое удаление пораженных частей ногтев...
analysis_cost                                                       6,38
analysis_comment                                                     NaN
analysis_name          механическое удаление пораженных частей ногтев...
best_match_synonym                                                      
best_match_analysis                                                     
similarity                                                           0.0
Name: 3, dtype: object

In [118]:
analysis.iloc[1890]

Unnamed: 0                                                        362
source                                                      Synevo.by
chapter                          Диагностика имунных причин бесплодия
analysis_name       прооксидантная активность в сперме (сперматозо...
analysis_cost                                                   77.25
analysis_comment                                                  NaN
Name: 1890, dtype: object

In [181]:
df_result = pd.concat((analysis, df_result_tfidf), axis=1)
df_result.loc[(df_result["similarity"] < 0.64), ("best_match_synonym", "best_match_analysis")] = ""

In [162]:
# df_result = df_result_tfidf

In [163]:
df_result.to_csv("data/df_result.csv")

In [110]:
analysis.iloc[1890]

Unnamed: 0                                                        362
source                                                      Synevo.by
chapter                          Диагностика имунных причин бесплодия
analysis_name       прооксидантная активность в сперме сперматозои...
analysis_cost                                                   77.25
analysis_comment                                                  NaN
Name: 1890, dtype: object

In [164]:
df_result.loc[(df_result["best_match_synonym"] == synonyms["synonyms"][799])]

Unnamed: 0.1,Unnamed: 0,source,chapter,analysis_name,analysis_cost,analysis_comment,best_match_synonym,best_match_analysis,similarity
708,412,makaenka17med.by,ФУНКЦИОНАЛЬНАЯ ДИАГНОСТИКА\n\n\n,электрокардиограмма в дополнительных отведениях,"8,29 BYN",,экг электрокардиограмма,электрокардиограмма,0.727887


In [140]:
df = pd.read_csv("data/result.csv")
df.loc[(df["IoU"] < 0.65), ("best_match_synonym", "best_match_analysis")] = ""
df

Unnamed: 0.1,Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
0,0,аппаратное удаление ногтей,,,0.000000,0.000000
1,1,аппаратное удаление пораженной ногтевой пласти...,,,0.418090,0.043478
2,2,аппаратное удаление одной пораженной ногтевой ...,,,0.418090,0.045455
3,3,механическое удаление пораженных частей ногтев...,,,0.444242,0.000000
4,4,комплект на 1 человека,,,0.338175,0.125000
...,...,...,...,...,...,...
4050,4050,профиль «гипогонадизм у мужчин»,,,0.338172,0.000000
4051,4051,сексуальная дисфункция у мужчин. первичное лаб...,,,0.575070,0.111111
4052,4052,онкориск мужской: предстательная железа,,,0.000000,0.000000
4053,4053,supersport - базовый,,,0.364074,0.000000


In [142]:
df.loc[(df["IoU"] > 0.65)]

Unnamed: 0.1,Unnamed: 0,analysis_name,best_match_synonym,best_match_analysis,match_score,IoU
1748,1748,кальций (суточная моча),кальций в суточной моче; ионы кальция,кальций (суточная моча) (calcium),1.476369,0.750000
2744,2744,экспресс-тест. антиген sars-cov-2 в мазке из н...,анализ мазка из носоглотки на антиген к новому...,экспресс-тест. антиген sars-cov-2 в мазке из н...,2.790472,0.750000
2745,2745,экспресс-тест. антиген sars-cov-2 в мазке из н...,анализ мазка из носоглотки на антиген к новому...,экспресс-тест. антиген sars-cov-2 в мазке из н...,2.790472,0.750000
2755,2755,"клинический анализ крови: общий анализ, лейкоф...",общий анализ крови (оак); гемограмма; как; раз...,"клинический анализ крови: общий анализ, лейкоф...",3.934921,0.750000
2756,2756,лейкоцитарная формула (дифференцированный подс...,дифференцированный подсчет лейкоцитов; лейкоци...,лейкоцитарная формула (дифференцированный подс...,3.972820,1.000000
...,...,...,...,...,...,...
3917,3917,анализ химического состава мочевых (почечных) ...,исследование химического состава почечных камней,анализ химического состава мочевых (почечных) ...,4.414659,0.947368
3923,3923,"йод в сыворотке (iodine, serum)",анализа крови на йод,"йод в сыворотке (iodine, serum)",1.948938,1.000000
3944,3944,мутационный статус генов вариабельных участков...,определение мутационного статуса генов вариабе...,мутационный статус генов вариабельных участков...,3.724107,1.000000
4033,4033,"гемостазиограмма (коагулограмма), скрининг","гемостазиограмма, коагулограмма","гемостазиограмма (коагулограмма), скрининг",1.714210,1.000000


In [60]:
doc = get_documents(df['analysis_name'])

In [113]:
len(syn_sim)

3797

In [65]:
tfidf_matrix_sa, tfidf_matrix_a

(<798x2658 sparse matrix of type '<class 'numpy.float64'>'
 	with 7043 stored elements in Compressed Sparse Row format>,
 <4055x2658 sparse matrix of type '<class 'numpy.float64'>'
 	with 15217 stored elements in Compressed Sparse Row format>)