## 사전 작업

In [1]:
import pandas as pd
import matplotlib as mpl
import matplotlib.dates as mdates
import matplotlib.pyplot as plt
mpl.rc('font', family='NanumBarunGothic') # 혹은 다른 설치한 Nanum 폰트 사용
import matplotlib.font_manager as fm
# 설치된 폰트 중 'NanumGothic' 찾기
for font in fm.fontManager.ttflist:
    if 'NanumGothic' in font.name:
        plt.rcParams['font.family'] = font.name
        break

plt.rcParams['axes.unicode_minus'] = False

In [2]:
import transformers

In [3]:
from transformers import BertModel, BertTokenizer
model = BertModel.from_pretrained('bert-base-multilingual-cased')
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

### 데이터 로드

In [4]:
df_symptoms = pd.read_csv("./csv/djkim_helpline_Symptom.csv")
df_symptoms[:2]

Unnamed: 0,_id,disease_korean_title,related_diseases,diseases_symptoms,cause_diseases
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손
1,65dc451dda45daab46acd346,7번 염색체 장완 36 부분의 미세결손 증후군,미세결실 증후군\n(microdeletion syndrome),"발달 지연, 안면 기형",7번 염색체 장완 유전자 말단 부위의 미세 결실


In [5]:
df_symptoms['symptoms'] = df_symptoms['diseases_symptoms'].str.split(',')

In [6]:
df_symptoms = df_symptoms.explode('symptoms')
df_symptoms[:10]

Unnamed: 0,_id,disease_korean_title,related_diseases,diseases_symptoms,cause_diseases,symptoms
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,중증 정신지체
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,언어발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,상동행동
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌전증
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌기형
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,특징적인 생김새
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,\n근긴장저하
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,운동발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,자폐증상
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,발가락 합지증


### 질환의 증상에 대한 줄바꿈 기호 전처리

In [7]:
import re
df_symptoms['symptoms'] = df_symptoms['symptoms'].astype(str) 
patterns = '(|\n|\\\\n|)'
series = []
for contents in df_symptoms['symptoms']:
    text_regex = re.sub(pattern=patterns,repl='',string=contents)
    series.append(text_regex)
series[:2]

['중증 정신지체', ' 언어발달지연']

In [8]:
df_symptoms['symptoms'] = series
df_symptoms[:10]

Unnamed: 0,_id,disease_korean_title,related_diseases,diseases_symptoms,cause_diseases,symptoms
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,중증 정신지체
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,언어발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,상동행동
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌전증
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌기형
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,특징적인 생김새
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,근긴장저하
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,운동발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,자폐증상
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,발가락 합지증


In [9]:
df_symptoms[:20]

Unnamed: 0,_id,disease_korean_title,related_diseases,diseases_symptoms,cause_diseases,symptoms
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,중증 정신지체
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,언어발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,상동행동
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌전증
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,뇌기형
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,특징적인 생김새
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,근긴장저하
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,운동발달지연
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,자폐증상
0,65dc4517da45daab46acd344,5번 염색체 장완 14.3 부분의 미세결손 증후군,5번 염색체 장완의 14.3 부분의 결손 증후군\n(5q14.3 deletion s...,"중증 정신지체, 언어발달지연, 상동행동, 뇌전증, 뇌기형, 특징적인 생김새,\n근긴...",5번 염색체 장완의 14.3 부분의 미세결손,발가락 합지증


### 전문 용어의 특수성을 감안하여 모델을 분리하여 토크나이징 착수

In [10]:
df1 = df_symptoms[['disease_korean_title', 'symptoms']].copy()
df2 = df1.copy()

In [11]:
df1 = df1.reset_index(drop=True)

In [12]:
df1[:5]

Unnamed: 0,disease_korean_title,symptoms
0,5번 염색체 장완 14.3 부분의 미세결손 증후군,중증 정신지체
1,5번 염색체 장완 14.3 부분의 미세결손 증후군,언어발달지연
2,5번 염색체 장완 14.3 부분의 미세결손 증후군,상동행동
3,5번 염색체 장완 14.3 부분의 미세결손 증후군,뇌전증
4,5번 염색체 장완 14.3 부분의 미세결손 증후군,뇌기형


### 2번 데이터프레임에 대해 전처리

In [13]:
from konlpy.tag import Okt
okt = Okt()

In [14]:
# # 조사, 어미, 구두점 등 제거
# def okt_clean(text):
#     clean_text = []
#     for word in okt.pos(text, stem=True):
#         if word[1] not in ['Josa', 'Eomi', 'Punctuation']:
#             clean_text.append(word[0])

#     return " ".join(clean_text)

In [15]:
# df1.loc[:,'okt_symptoms']= df1['symptoms'].apply(okt_clean)
# df1['okt_symptoms'][:2]

In [16]:
# df1[:5]

### Tokenizing

In [17]:
import numpy as np

In [23]:
# 새로운 열을 추가하고 데이터 타입을 문자열로 설정합니다.
df1['disease_korean_title_sentence_vector'] = df1['disease_korean_title'].astype(str)
df1['symptoms_sentence_vector'] = df1['symptoms'].astype(str)

In [22]:
# 'disease_korean_title' 열에 대해 BERT를 적용합니다.
for i, row in df1.iterrows():
    text = row['disease_korean_title']
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    sentence_vector = outputs[1]
    # 벡터를 문자열로 변환하여 새로운 열로 추가합니다.
    df1.at[i, 'disease_korean_title_sentence_vector'] = str(sentence_vector.detach().numpy().tolist())
# 'symptoms' 열에 대해 BERT를 적용합니다.
for i, row in df1.iterrows():
    text = row['symptoms']
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    sentence_vector = outputs[1]
    # 벡터를 문자열로 변환하여 새로운 열로 추가합니다.
    df1.at[i, 'symptoms_sentence_vector'] = str(sentence_vector.detach().numpy().tolist())

  df1.at[i, 'disease_korean_title_sentence_vector'] = str(sentence_vector.detach().numpy().tolist())


KeyboardInterrupt: 

In [24]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6892 entries, 0 to 6891
Data columns (total 4 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   disease_korean_title                  6892 non-null   object
 1   symptoms                              6892 non-null   object
 2   disease_korean_title_sentence_vector  6892 non-null   object
 3   symptoms_sentence_vector              6892 non-null   object
dtypes: object(4)
memory usage: 215.5+ KB


In [26]:
import ast

In [28]:
df1['disease_korean_title_sentence_vector'] = df1['disease_korean_title_sentence_vector'].apply(ast.literal_eval)

# 'symptoms_sentence_vector' 열의 문자열을 벡터로 변환합니다.
df1['symptoms_sentence_vector'] = df1['symptoms_sentence_vector'].apply(ast.literal_eval)

SyntaxError: invalid syntax (<unknown>, line 1)

In [29]:
# 'disease_korean_title' 열에 대해 BERT를 적용합니다.
for i, row in df1.iterrows():
    text = row['disease_korean_title']
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    sentence_vector = outputs[1].detach().numpy().tolist()

    # 벡터를 문자열로 변환하여 새로운 열로 추가합니다.
    df1.at[i, 'disease_korean_title_sentence_vector'] = str(sentence_vector)

# 'symptoms' 열에 대해 BERT를 적용합니다.
for i, row in df1.iterrows():
    text = row['symptoms']
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    sentence_vector = outputs[1].detach().numpy().tolist()

    # 벡터를 문자열로 변환하여 새로운 열로 추가합니다.
    df1.at[i, 'symptoms_sentence_vector'] = str(sentence_vector)
