In [1]:
import sys
import datetime as dt
import numpy    as np
import pandas   as pd
import seaborn  as sns
import matplotlib.pyplot as plt

from typing                import Tuple, List, Set, Iterable, Dict, Any, Optional, Union, Callable
from collections           import Counter

from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder
from sklearn.impute        import SimpleImputer
from sklearn.compose       import ColumnTransformer, make_column_selector
from sklearn.pipeline      import Pipeline

sns.set_style("darkgrid")

In [4]:
sys.path.insert(0, "../")  # Добавляем родительскую директорию в `path`, чтобы python смог найти наши модули

In [5]:
from modules.preprocessing import MultilabelEncoder, RegexTransformer
from modules.base          import CustomTransformer
from modules.outliers      import RangeOutlierDetector, DeltaFromMedianOutlierDetector
from modules.impute        import InterpolationImputer

<div class="alert alert-info">
  <h1><center>Data</center></h1></div>

In [3]:
df = pd.read_csv("data/analisys.csv", low_memory=False)
df

Unnamed: 0.1,Unnamed: 0,source,chapter,analisys_name,analisys_cost,analisys_comment
0,0,kvd.by,Дерматовенерология,АППАРАТНОЕ УДАЛЕНИЕ НОГТЕЙ,,
1,1,kvd.by,Дерматовенерология,Аппаратное удаление пораженной ногтевой пласти...,1224,
2,2,kvd.by,Дерматовенерология,Аппаратное удаление одной пораженной ногтевой ...,678,
3,3,kvd.by,Дерматовенерология,Механическое удаление пораженных частей ногтев...,638,
4,4,kvd.by,Дерматовенерология,Комплект на 1 человека,148,
...,...,...,...,...,...,...
2699,1079,Synevo.by,Все комплексные исследования,Я - ВЕГЕТАРИАНЕЦ (расширенное обследование),158.39,Тиреотропный гормон (ТТГ); СОЭ (метод кинетики...
2700,1080,Synevo.by,Все комплексные исследования,Диагностика синдрома поликистозных яичников (С...,113.8,Тиреотропный гормон (ТТГ); Лютеинизирующий гор...
2701,1081,Synevo.by,Все комплексные исследования,Железодефицит,28.57,"Железо сывороточное; Общий анализ крови (ОАК),..."
2702,1082,Synevo.by,Приём врача,Прием врача-терапевта первичный,19.85,


---

In [4]:
X = df

In [5]:
X

Unnamed: 0.1,Unnamed: 0,source,chapter,analisys_name,analisys_cost,analisys_comment
0,0,kvd.by,Дерматовенерология,АППАРАТНОЕ УДАЛЕНИЕ НОГТЕЙ,,
1,1,kvd.by,Дерматовенерология,Аппаратное удаление пораженной ногтевой пласти...,1224,
2,2,kvd.by,Дерматовенерология,Аппаратное удаление одной пораженной ногтевой ...,678,
3,3,kvd.by,Дерматовенерология,Механическое удаление пораженных частей ногтев...,638,
4,4,kvd.by,Дерматовенерология,Комплект на 1 человека,148,
...,...,...,...,...,...,...
2699,1079,Synevo.by,Все комплексные исследования,Я - ВЕГЕТАРИАНЕЦ (расширенное обследование),158.39,Тиреотропный гормон (ТТГ); СОЭ (метод кинетики...
2700,1080,Synevo.by,Все комплексные исследования,Диагностика синдрома поликистозных яичников (С...,113.8,Тиреотропный гормон (ТТГ); Лютеинизирующий гор...
2701,1081,Synevo.by,Все комплексные исследования,Железодефицит,28.57,"Железо сывороточное; Общий анализ крови (ОАК),..."
2702,1082,Synevo.by,Приём врача,Прием врача-терапевта первичный,19.85,


In [6]:
X[["analisys_cost", "source", "chapter", "analisys_name"]].loc[X_t["chapter"] == "ФЛЕБОЛОГИЯ\n\n\n"]

NameError: name 'X_t' is not defined

In [9]:
for col_name, col_values in X.items():
    print(f"< {col_name} >".center(100, "-"))
    print(f"Data type: {col_values.dtype}")
    print(f"Is unique: {col_values.is_unique}")
    print(f"% of Nones: {col_values.isna().mean()}")
    display(col_values.value_counts())

-------------------------------------------< Unnamed: 0 >-------------------------------------------
Data type: int64
Is unique: False
% of Nones: 0.0


0       4
161     4
220     4
219     4
218     4
       ..
875     1
874     1
873     1
872     1
1083    1
Name: Unnamed: 0, Length: 1084, dtype: int64

---------------------------------------------< source >---------------------------------------------
Data type: object
Is unique: False
% of Nones: 0.0


Synevo.by           1026
makaenka17med.by     773
Synlab.by            585
kvd.by               320
Name: source, dtype: int64

--------------------------------------------< chapter >---------------------------------------------
Data type: object
Is unique: False
% of Nones: 0.0


ЛАБОРАТОРНЫЕ ИССЛЕДОВАНИЯ\n\n\n                  162
Косметологические услуги                         116
КОСМЕТОЛОГИЯ, ДЕРМАТОЛОГИЯ, ТРИХОЛОГИЯ\n\n\n     101
МОЛЕКУЛЯРНАЯ АЛЛЕРГОДИАГНОСТИКА                   86
ДИАГНОСТИКА ИНФЕКЦИЙ                              70
                                                ... 
Вирус гепатита D (HDV                              1
Нейссерия гонореи (Neisseria gonorrhoeae)          1
Шоколад, антитела IgE                              1
Гарднерелла вагиналис (Gardnerella vaginalis)      1
ВИЧ/СПИД                                           1
Name: chapter, Length: 182, dtype: int64

-----------------------------------------< analisys_name >------------------------------------------
Data type: object
Is unique: False
% of Nones: 0.0003698224852071006


ИППП скрин                                                                                                                        4
Интимный минимум                                                                                                                  4
Прием и регистрация проб                                                                                                          4
Первичная обработка биологического материала                                                                                      4
Контроль массы тела                                                                                                               4
                                                                                                                                 ..
Амплипульсфорез (без учета лекарственного средства) Импульсная магнитотерапия на аппарате "СЕТА-ТМ"                               1
Амплипульсфорез (без учета лекарственного средства) Доплата за лекарственное

-----------------------------------------< analisys_cost >------------------------------------------
Data type: object
Is unique: False
% of Nones: 0.012943786982248521


12.69                      137
временно не выполняется    106
36.84                       43
36.19                       28
25.53                       28
                          ... 
11,32 BYN                    1
14,90 BYN                    1
8,39 BYN                     1
8,41 BYN                     1
16.62                        1
Name: analisys_cost, Length: 1710, dtype: int64

----------------------------------------< analisys_comment >----------------------------------------
Data type: object
Is unique: False
% of Nones: 0.6745562130177515


Определение специфических IgE к пищевым продуктам (PHADIA 250)                                                                                                                                                                                                                                                                                                                                                                                                                                  41
Биоматериал для анализа (не менее 100 мл) принимается только в аптечном контейнере, который можно приобрести в аптеке или любом пункте Синэво.                                                                                                                                                                                                                                                                                                                                                  31
Метод ПЦР                         

<div class="alert alert-info">
  <h1><center>Pipeline</center></h1></div>

In [23]:
cct = ColumnTransformer(
    transformers=[
        (
            "float",
            RegexTransformer(find=r"(\d+[\,\.\\s руб. ]*\d*)", replace={",| руб. ":".", " ":""}, target_dtype=float, get_first=True),
            ["analisys_cost"]
        ),
        (
            "str",
            RegexTransformer(replace={"\xa0|\n":""}, get_first=False),
            [ "chapter", "analisys_name", "analisys_comment"]
        ),],
    remainder="passthrough",
    verbose_feature_names_out=False
)
cct.set_output(transform="pandas")

In [24]:
X_t = cct.fit_transform(X=X)
X_t

Unnamed: 0.1,analisys_cost,chapter,analisys_name,analisys_comment,Unnamed: 0,source
0,,Дерматовенерология,АППАРАТНОЕ УДАЛЕНИЕ НОГТЕЙ,,0,kvd.by
1,12.24,Дерматовенерология,Аппаратное удаление пораженной ногтевой пласти...,,1,kvd.by
2,6.78,Дерматовенерология,Аппаратное удаление одной пораженной ногтевой ...,,2,kvd.by
3,6.38,Дерматовенерология,Механическое удаление пораженных частей ногтев...,,3,kvd.by
4,1.48,Дерматовенерология,Комплект на 1 человека,,4,kvd.by
...,...,...,...,...,...,...
2699,158.39,Все комплексные исследования,Я - ВЕГЕТАРИАНЕЦ (расширенное обследование),Тиреотропный гормон (ТТГ); СОЭ (метод кинетики...,1079,Synevo.by
2700,113.80,Все комплексные исследования,Диагностика синдрома поликистозных яичников (С...,Тиреотропный гормон (ТТГ); Лютеинизирующий гор...,1080,Synevo.by
2701,28.57,Все комплексные исследования,Железодефицит,"Железо сывороточное; Общий анализ крови (ОАК),...",1081,Synevo.by
2702,19.85,Приём врача,Прием врача-терапевта первичный,,1082,Synevo.by


In [25]:
X_t[["analisys_cost", "source", "chapter", "analisys_name"]].loc[X_t["chapter"]=="ФЛЕБОЛОГИЯ"]

Unnamed: 0,analisys_cost,source,chapter,analisys_name
474,600.12,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Минифлебэктомия (1 ...
475,1087.48,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Минифлебэктомия (2 ...
476,1760.72,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Радиочастотная обли...
477,1292.04,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Радиочастотная обли...
478,1476.24,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Радиочастотная обли...
479,2015.36,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Радиочастотная обли...
480,2347.9,makaenka17med.by,ФЛЕБОЛОГИЯ,Радиочастотная облитерация Радиочастотная обли...
481,57.58,makaenka17med.by,ФЛЕБОЛОГИЯ,Склеротерапия Склеротерапия крупных вен и вен ...
482,100.2,makaenka17med.by,ФЛЕБОЛОГИЯ,Склеротерапия Склеротерапия крупных вен и вен ...
483,142.82,makaenka17med.by,ФЛЕБОЛОГИЯ,Склеротерапия Склеротерапия крупных вен и вен ...


In [27]:
X_t = X_t.dropna (subset=['analisys_name'])
X_t

Unnamed: 0.1,analisys_cost,chapter,analisys_name,analisys_comment,Unnamed: 0,source
0,,Дерматовенерология,АППАРАТНОЕ УДАЛЕНИЕ НОГТЕЙ,,0,kvd.by
1,12.24,Дерматовенерология,Аппаратное удаление пораженной ногтевой пласти...,,1,kvd.by
2,6.78,Дерматовенерология,Аппаратное удаление одной пораженной ногтевой ...,,2,kvd.by
3,6.38,Дерматовенерология,Механическое удаление пораженных частей ногтев...,,3,kvd.by
4,1.48,Дерматовенерология,Комплект на 1 человека,,4,kvd.by
...,...,...,...,...,...,...
2699,158.39,Все комплексные исследования,Я - ВЕГЕТАРИАНЕЦ (расширенное обследование),Тиреотропный гормон (ТТГ); СОЭ (метод кинетики...,1079,Synevo.by
2700,113.80,Все комплексные исследования,Диагностика синдрома поликистозных яичников (С...,Тиреотропный гормон (ТТГ); Лютеинизирующий гор...,1080,Synevo.by
2701,28.57,Все комплексные исследования,Железодефицит,"Железо сывороточное; Общий анализ крови (ОАК),...",1081,Synevo.by
2702,19.85,Приём врача,Прием врача-терапевта первичный,,1082,Synevo.by


In [40]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Загрузка стоп-слов и стеммера
# nltk.download('stopwords')
# nltk.download('punkt')


# Получение текстовых данных из определенной колонки DataFrame
documents = X_t['analisys_name'].tolist()

# Загрузка стоп-слов и стеммера
stop_words = set(stopwords.words('russian'))
stemmer = SnowballStemmer('russian')

# Функция для предобработки текста
def preprocess_text(text):
    tokenizer = nltk.RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(text.lower())
    tokens = [token for token in tokens if token not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return stemmed_tokens

# Предобработка текстовых данных
processed_documents = [' '.join(preprocess_text(doc)) for doc in documents]

# Создание экземпляра TfidfVectorizer
vectorizer = TfidfVectorizer()

# Вычисление весов TF-IDF для текстовых данных 
tfidf_matrix = vectorizer.fit_transform(processed_documents)

# Ввод запроса от пользователя 
query = input("Введите запрос: ")

# Предобработка запроса 
processed_query = ' '.join(preprocess_text(query))

# Вычисление весов TF-IDF для запроса 
query_tfidf = vectorizer.transform([processed_query])

# Вычисление сходства между запросом и текстовыми данными
similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()

# Сортировка документов по убыванию значений сходства
sorted_indexes = similarities.argsort()[::-1]

# Вывод результатов
print("Результаты поиска:")
for index in sorted_indexes:
    print(f"Документ: {documents[index]}, Сходство: {similarities[index]}")


Введите запрос: ботулотоксин
Результаты поиска:
Документ: Коррекция локального гипергидроза препаратом на основе ботулотоксина стоп, Сходство: 0.3787595703662994
Документ: Коррекция функциональных морщин препаратом на основе ботулотоксина лобной области, Сходство: 0.3660247231541591
Документ: Коррекция функциональных морщин препаратом на основе ботулотоксина периорбитальных областей, Сходство: 0.3660247231541591
Документ: Коррекция функциональных морщин препаратом на основе ботулотоксина области переносицы, Сходство: 0.36451026331667813
Документ: Коррекция локального гипергидроза препаратом на основе ботулотоксина подмышечных областей, Сходство: 0.35750320527206303
Документ: Коррекция локального гипергидроза препаратом на основе ботулотоксина кистей рук, Сходство: 0.3471073378289707
Документ: Коррекция локального гипергидроза препаратом на основе ботулотоксина (нейронокс) стоп, Сходство: 0.3459049088798612
Документ: Коррекция функциональных морщин препаратом на основе ботулотоксина (не

In [93]:
documents = X_t['analisys_name'].tolist()
documents[286]

'Определение иммуноглобулинов к бледной трепонеме методом ИФА'

In [94]:
def preprocess_text(text):
    tokenizer = nltk.RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(text.lower())
    tokens = [token for token in tokens if token not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return stemmed_tokens

In [95]:
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokenizer

RegexpTokenizer(pattern='\\w+', gaps=False, discard_empty=True, flags=re.UNICODE|re.MULTILINE|re.DOTALL)

In [96]:
for i in range(len(documents)):
    tokens = tokenizer.tokenize(documents[i].lower())
    tokens = [token for token in tokens if token not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    print(i, stemmed_tokens)


0 ['аппаратн', 'удален', 'ногт']
1 ['аппаратн', 'удален', 'поражен', 'ногтев', 'пластинк', 'больш', 'пальц', 'стоп', 'кист']
2 ['аппаратн', 'удален', 'одн', 'поражен', 'ногтев', 'пластинк', 'стоп', 'кист']
3 ['механическ', 'удален', 'поражен', 'част', 'ногтев', 'пластинк', 'пальц', 'стоп', 'кист', 'онихомикоз']
4 ['комплект', '1', 'человек']
5 ['одноразов', 'комплект', 'пациент', 'желан', 'пациент', 'дополнительн']
6 ['при', 'регистрац', 'проб']
7 ['при', 'регистрац', 'сортировк', 'проб', 'централизова', 'лаборатор']
8 ['взят', 'биологическ', 'материа', 'помощ', 'транспортн', 'сред', 'тампон']
9 ['первичн', 'обработк', 'биологическ', 'материа']
10 ['первичн', 'обработк', 'биологическ', 'материа']
11 ['первичн', 'обработк', 'биологическ', 'материа', 'транспортн', 'сред']
12 ['выделен', 'днк', 'ин', 'биологическ', 'материа', 'ручн', 'способ', 'сорбентн', 'метод']
13 ['выделен', 'днк', 'ин', 'биологическогоматериа', 'ручн', 'способ', 'сорбентн', 'метод', 'реа', 'бест', 'днк', 'экстракц']


850 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'дарсонвализац', 'местн']
851 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'магнитотерап', 'местн']
852 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'магнитотерап', 'общ']
853 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'магнитотерап', 'общ', 'установк', 'турботрон']
854 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'магнитостимуляц', 'аппарат', 'авантрон']
855 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'импульсн', 'магнитотерап', 'аппарат', 'сет', 'тм']
856 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'доплат', 'лекарствен', 'средств', 'проведен', 'амплипульсфорез']
857 ['амплипульсфорез', 'учет', 'лекарствен', 'средств', 'доплат', 'лекарствен', 'средств', 'проведен', 'амплипульсфорез', 'биол']
858 ['ультрафиолетов', 'облучен', 'местн']
859 ['видим', 'инфракрасн', 'облучен', 'местн']
860 ['лазеропунктур']
861 ['надвен', 'лазерн', 'облучен']
862 ['магнитолазерн', 'облучен']
863 ['

1746 ['хлор', 'ионизирова', 'моч']
1747 ['глюкоз', 'моч']
1748 ['микроальбумин', 'моч', 'кол', 'опр']
1749 ['бак', 'пос', 'чувств', 'аб', 'моч', 'экспресс', 'метод']
1750 ['бак', 'пос', 'чувств', 'аб', 'моч']
1751 ['бак', 'пос', 'чувств', 'шир', 'спектр', 'аб', 'vitek', 'моч']
1752 ['панкреатическ', 'эластаз', '1', 'pancreatic', 'elastase', '1', 'кал', 'кол']
1753 ['upd', 'антиг', 'хеликобактер', 'пилор', 'helicobacter', 'pylori', 'кал']
1754 ['upd', 'кальпротектин', 'calprotectin', 'кал']
1755 ['м2', 'пируваткиназ', 'скрыт', 'кров', 'ft', 'm2', 'pk', 'hb', 'кал', 'кач']
1756 ['анализ', 'кал', 'скрыт', 'кров', 'качествен']
1757 ['стеркобилин', 'кал']
1758 ['билирубин', 'кал']
1759 ['антиг', 'лямбл', 'кал']
1760 ['кортизол', 'слюн']
1761 ['прооксидантн', 'активн', 'сперм', 'комплекс', 'oxisperm', 'ii']
1762 ['спермограмм']
1763 ['антиспермальн', 'антител', 'g', 'igg', 'mar', 'тест', 'эякул']
1764 ['антиспермальн', 'антител', 'иг', 'mar', 'тест', 'эякул']
1765 ['тест', 'фрагментац', 'днк

In [87]:
okens = tokenizer.tokenize(documents[286].lower())
tokens = [token for token in tokens if token not in stop_words]
tokens

AttributeError: 'float' object has no attribute 'lower'

In [85]:
stemmed_tokens = [stemmer.stem(token) for token in tokens]
stemmed_tokens

['маркер',
 'преэклампс',
 'plgf',
 'плацентарн',
 'фактор',
 'рост',
 'человек',
 'sflt',
 '1',
 'растворим',
 'fms',
 'подобн',
 'тирозинкиназ',
 '1',
 'соотношен',
 'sflt',
 'plgf',
 'г162']