In [40]:
import pandas as pd
from konlpy.tag import *; okt = Okt()
from sklearn.feature_extraction.text import CountVectorizer
from tqdm.notebook import tqdm
from bertopic import BERTopic

In [2]:
# article
article_sum  = pd.read_json('/home/user_4/CBF/article_sum.json')
article_sum = article_sum.rename(columns={"meaningful unit": "meaningful_unit_list"})

In [3]:
contents_article = article_sum['content_tag_removed']

# Making Topic: konlpy.okt 사용

In [4]:
p_contents = []
for doc in tqdm(contents_article):
    tokens = [token for token in okt.nouns(doc) if len(token) > 1]
    p_contents.append(" ".join(tokens))

print(p_contents[0])

  0%|          | 0/3438 [00:00<?, ?it/s]

케이스 종류 치료 성공 케이스 환자 성별 나이 여자 후반 어디가 오신 요통 왼쪽 엉덩이 통증 왼쪽 다리 저림 통증 동반 증상 근력 약화 통증 감소 통증 스코어 언제 건가 환자 병력 대학병원 진단 요추 추간판탈출증 확진 담당 수술 권유 환자 본인 보존 치료 주사 치료 본원 제한 요추 굴곡 제한 좌측 운동 평가 우측 발목 족배 굴곡 정상 좌측 발목 족배 굴곡 정상 우측 발목 굴곡 정상 좌측 발목 굴곡 정상 우측 엄지발가락 족배 굴곡 정상 좌측 엄지발가락 족배 굴곡 정상 감각 평가 우측 정상 좌측 정상 우측 정상 좌측 저하 우측 정상 좌측 저하 우측 정상 좌측 저하 학적 검사 우측 음성 좌측 양성 음성 영상 검사 결과 환자 평가 결론 무엇 치료 계획 한의학 보존 치료 경과 관찰 증상 발생 자세 유지 최대한 휴식 교육 시술 치료 봉침 자생 포인트 허리 통점 위주 좌측 환도 단자 이상근 방향 자극 요추 좌측 지부 증상 부위 위주 마지막 원일 케이스 평가 만약 방금 작성 내용 마지막 원일 라면 치료 반응 평가 통증 스코어 언제 건가 환자 병력 대학병원 진단 요추 추간판탈출증 확진 담당 수술 권유 환자 본인 보존 치료 주사 치료 본원 정상 운동 평가 우측 발목 족배 굴곡 정상 좌측 발목 족배 굴곡 정상 우측 발목 굴곡 정상 좌측 발목 굴곡 정상 우측 엄지발가락 족배 굴곡 정상 좌측 엄지발가락 족배 굴곡 정상 감각 평가 우측 정상 좌측 정상 우측 정상 좌측 정상 우측 정상 좌측 정상 우측 정상 좌측 정상 학적 검사 우측 음성 좌측 음성 음성 영상 검사 결과 다른 사람 전달 케이스 인사이트 추간판 탈출 흡수 대한 여러 결과 로컬 실제 경험 케이스 공유


In [34]:
tokenss = []
for tokens in p_contents:
    for t in tokens.split(' '):
        tokenss.append(t)

In [39]:
print(len(set(tokenss)))
print( len(tokenss))

26931
1031529


# Modeling

In [48]:
vectorizer = CountVectorizer(max_features=3000)
model = BERTopic(embedding_model='sentence-transformers/distiluse-base-multilingual-cased-v1',
                 vectorizer_model=vectorizer,
                 nr_topics=40,
                 top_n_words=10,
                 calculate_probabilities=True)

In [49]:
topics, probs = model.fit_transform(p_contents)

In [50]:
model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,1474,-1_치료_환자_경우_통증
1,0,145,0_청구_자보_보험_환자
2,1,122,1_소득_비용_처리_세금
3,2,115,2_바이러스_감염_백신_기침
4,3,114,3_소화_복용_투약_소변
5,4,78,4_피부_피부질환_피부염_증상
6,5,68,5_월경_임신_자궁_분비
7,6,67,6_근육_회전_관절_천골
8,7,66,7_실신_장애_불안_우울증
9,8,66,8_연구_검색_논문_근거


# Visualization

In [43]:
# 총 n개의 토픽
model.visualize_topics()

In [44]:
model.visualize_distribution(probs[200], min_probability=0.03)

In [45]:
model.visualize_barchart(top_n_topics=20, n_words=30)

# Confirmation Topics

In [46]:
for i in range(20):
    print(f'{i}번째 토픽 : {model.get_topic(i)}')
    print()

0번째 토픽 : [('추나', 0.10792311451481791), ('보험', 0.10539476013073658), ('자보', 0.07318395531028468), ('청구', 0.06438479265695225), ('사고', 0.056482286696514436), ('요법', 0.0482491541898081), ('자동차', 0.048165211387684995), ('급여', 0.04404285281261607), ('진료', 0.0422574819163177), ('인정', 0.041454986233831294)]

1번째 토픽 : [('소득', 0.0813318821397468), ('비용', 0.059866558621450516), ('처리', 0.059064290225090264), ('신고', 0.05707959274222109), ('세금', 0.05658270791987264), ('계약', 0.056377574209532724), ('금액', 0.05615714852740908), ('세무사', 0.054765593307639235), ('영석', 0.049475357471415675), ('지급', 0.049319252024747705)]

2번째 토픽 : [('연구', 0.053972868477224635), ('한의학', 0.03744419491858439), ('논문', 0.037275866766750015), ('검색', 0.0357437789211617), ('의학', 0.0314236554371527), ('공부', 0.027683257859478144), ('생각', 0.026821504642559644), ('근거', 0.02479226838853043), ('교수', 0.02241020728026104), ('결과', 0.01920170335242226)]

3번째 토픽 : [('처방', 0.08177478609475196), ('약물', 0.0711557666047958), ('본초학', 0.042108063

In [11]:
every_topic = []
for i in range(10):
#     print(f'{i}번째 토픽 : {model.get_topic(i)}')
    every_topic.extend(list(dict(model.get_topic(i)).keys()))

# print(every_topic)    
print(set(every_topic))

# print(len(set(every_topic)))

{'영석', '처방', '운동', '자보', '약물', '한의대', '투약', '연구', '추나', '충돌', '추가', '응용', '접종', '소득', '소변', '부금', '감염', '진료', '통증', '우측', '굴곡', '선우', '복용', '손상', '비용', '진찰', '염좌', '케이스', '작용', '세금', '질문', '어깨', '세무사', '보험', '생각', '금액', '계약', '검색', '교수', '본초학', '환자', '설사', '요법', '관절', '발목', '골절', '분석', '콘텐츠', '논문', '정상', '폐렴', '신경', '음성', '비급', '지급', '항생제', '인정', '백신', '선생님', '근육', '회전', '처리', '경우', '신고', '한의학', '사고', '자동차', '답변', '공부', '한의사', '바이러스', '검사', '세균', '좌측', '사용', '청구', '증상', '소화', '치료', '코로나바이러스', '효능', '건강', '감기'}


In [12]:
from collections import Counter

Counter(topics)

Counter({8: 75,
         0: 216,
         5: 124,
         2: 161,
         -1: 2187,
         9: 73,
         7: 82,
         1: 164,
         3: 132,
         4: 131,
         6: 93})

In [47]:
# -1 refers to all outliers and should typically be ignored
model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,1756,-1_치료_환자_경우_통증
1,0,189,0_추나_보험_자보_청구
2,1,123,1_소득_비용_처리_신고
3,2,123,2_연구_한의학_논문_검색
4,3,120,3_처방_약물_본초학_사용
5,4,111,4_소화_복용_처방_증상
6,5,95,5_바이러스_백신_감염_항생제
7,6,95,6_통증_좌측_우측_검사
8,7,80,7_기침_질환_증상_치료
9,8,74,8_발목_염좌_관절_골절


In [14]:
a = model.get_representative_docs()
a[0]

['환자 어딘가 표현 한의학 진액 문제 만약 한의학 거담 제로 치료',
 '자보 진료 거의 시장',
 '시리 악스 정형 의학 가요',
 '관련 콘텐츠 자동차 보험 청구 관련 자동차 사고 합의 환자 대해 문의 상일 수술 상병 척골 하단 골절 중족골 골절 무릎 골절 골절 경과 술병 수술 입원 현재 보험 회사 합의 상태 병원 수술 부위 회복 보합 치료 라서 해당 부위 상병 그대로 상병 문의 선우 선생님 의학 질문 논점 사고 후유증 보로 청구 문제 원칙 사고 후유증 상해 상병 기록 건보 적용 본인 진료 전액 현실 입장 기왕 대한 치료 주시 상병 상병 상병 부상 기재 정답 내용 스트림 청구 강의 기본 지식 질문 답변',
 '본인 사고 대해 자손 자기 신체 사고 한의원 치료 문의 주시 환자 일반 자보 부금 진료 부분 선우 선생님 본인 보험사 지불 보증 사고 경위서 초진 차트 진단 교통사고 문구 본인 주차 혼자 사고 선우 선생님 교통사고 지불 보증 자손 자기 신체 사고 자상 자동차 상해 치료 내용 스트림 청구 강의 기본 지식 질문 답변',
 '관련 콘텐츠 그것 드림 렌터카 공제조합 자동차 사고 진단 요구 주지 전국 렌터카 공제조합 고난 개월 지난 환자 인정 환자 시마 지불 보증 환자 소송 생각 그냥 치료 대요 보험사 권한 선우 선생님 지불 보증 그때 그때 전국 렌터카 공제조합 특성 심평원 상자 인정 만약 경우 한번 자보 한번 보로 수도 궁금 이경우 병명 건보 병명 상해 경우 문제 건보 병명 다른 병명 질병 자체 선우 선생님 번은 보로 보상 자보 상병 겹치 전제 가능 자보 인과관계 상병 라면 보로 치료 내용 스트림 청구 강의 기본 지식 질문 답변',
 '출처 국민 건강 보험 공단 추나 환자 한의원 병원 포함 용량 이용 진료 금액 금액 작년 건보 사용 진료 금액 연령 성별 추나 이용 통계 성별 추나 이용 통계 지역 추나 이용 통계 의료 기관 종별 용량 의료 기관 종별 진료 금액 비율 출처',
 '이전 내용 여기 성별 구분 신규 면허 면허 등록 활동 자수 동안 배출 신규 한의사

In [None]:
model.generate_topic_labels()

In [15]:
model.get_params()

{'calculate_probabilities': True,
 'ctfidf_model': ClassTfidfTransformer(),
 'diversity': None,
 'embedding_model': <bertopic.backend._sentencetransformers.SentenceTransformerBackend at 0x7fc1bc4bd5b0>,
 'hdbscan_model': HDBSCAN(min_cluster_size=10, prediction_data=True),
 'language': None,
 'low_memory': False,
 'min_topic_size': 10,
 'n_gram_range': (1, 1),
 'nr_topics': 10,
 'seed_topic_list': None,
 'top_n_words': 10,
 'umap_model': UMAP(angular_rp_forest=True, low_memory=False, metric='cosine', min_dist=0.0, n_components=5, tqdm_kwds={'bar_format': '{desc}: {percentage:3.0f}%| {bar} {n_fmt}/{total_fmt} [{elapsed}]', 'desc': 'Epochs completed', 'disable': True}),
 'vectorizer_model': CountVectorizer(max_features=3000),
 'verbose': False}

In [16]:
model.visualize_heatmap()

In [None]:
model.visualize_topics_over_time(topics_over_time, topics=[1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
contents_article

In [None]:
model.save("Bertopic_every_article")

In [17]:
BERTopic.load("Bertopic_every_article")

<bertopic._bertopic.BERTopic at 0x7fc05745fb50>