# 기능: 질환부합도 확인
- GPT4 사용해서 sample 생성하기
- Llama2 Fine-Tuning하여 질환 부합도 예측하는 모델 만들기

In [16]:
# SAMPLE 생성하기

In [3]:
import openai
import os
import json

In [4]:
openai.api_key = os.getenv("OPENAI_API_KEY")

In [5]:
###모델 파라미터

In [6]:
def request_chat_completion(
    prompt, 
    system_role="너는 유용한 도우미야.", 
    model="gpt-4-turbo",
    stream=False
):
    messages = [
        {"role": "system", "content": system_role},
        {"role": "user", "content": prompt}
    ]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        stream=stream
    )
    return response

In [8]:
def capture_streaming_response(response):
    captured_text = ""
    for chunk in response:
        delta = chunk.choices[0]["delta"]
        if "content" in delta:
            captured_text += delta["content"]
    return captured_text

## 프롬프트 엔지니어링
- 질환(질병)에 대한 데이터셋 구축하기

In [19]:
query="""질병에 대한 다양한 정보를 수집 중이다.
너의 할 일은 다양한 질병에 대한 정보를 만들어 주는 것이다.

그런데 다음 조건을 충족시켜주면 좋겠어.
1. 질환명은 아래 "질환명 리스트"에서 최소 1개에서 최대 3개까지 샘플링해서 포함시켜줘.
2. 만약 1번에서 샘플링한 질환명 자체에 통증의 느낌이나 원인, 위치가 포함되어 있다면 분리해서 사용해줘.
3. 만약 1번에서 샘플링한 질환명에 다수의 질환이 혼합되어 있다면 대표 질환만 남겨줘.
4. 만약 질환명이 아닌 것 같으면 제외시켜줘.
5. 질환에는 통증의 위치나 통증의 느낌, 원인이 동반될 수 있어.
6. 맨 아래 든 예시처럼 질환 문장 마다 분석결과를 위치, 통증의 느낌이나 원인, 진료과 형식으로 생성되게 해줘.

"질환명 리스트";
[
{0}
]

"참고할 통증의 위치";
[ "허리", "목", "어깨", "팔", "다리", "손목", "발", "무릎", "가슴", "복부", "머리"]

"참고할 통증의 느낌";
['날카로운', '짓누르는 듯한', '칼로 벤 것처럼', '둔한', '둔탁한'
'타는 듯한', '쑤시는', '저린', '다른 부위로 퍼지듯', '쓰라린', '간지러운'
'찌루는', '조이는', '따끔거리는', '욱신거리는', '아팠다 안 아팠다 함',
'죄는 듯한', '압박감', '찌릿찌릿한',
'심한', '불쾌한', '마비된', '경련성', '방사통'
]

"참고할 통증의 원인";
[ "과도한 운동", "잘못된 자세", "부상", "스트레스", "감염"]

"참고할 통증 정도의 표현";
["경미한", "중간 정도의", "심한", "매우 심한"]


예시를 들어 줄게;

예시1 주문 문장: 환자는 척추관 협착증과 좌골신경통을 앓고 있습니다.
- 분석 결과 0: 질환명: 척추관 협착증, 위치: 허리, 통증의 느낌: 짓누르는 듯한, 저린, 원인: 퇴행성 변화, 디스크 탈출증, 진료과:정형외과 , 신경외과 , 재활의학과
- 분석 결과 1: 질환명: 좌골신경통, 위치: 다리, 통증의 느낌: 방사통, 욱신거리는, 원인: 디스크 탈출증, 척추관 협착증, 진료과: 신경외과

예시2 주문 문장: 이 환자는 만성피로증후군과 섬유근육통을 겪고 있습니다.
- 분석 결과 0: 질환명: 만성피로증후군, 통증의 느낌: 둔한, 지속적인 피로감, 원인: 스트레스, 감염, 진료과: 신경과, 류마티스내과
- 분석 결과 1: 질환명: 섬유근육통, 위치: 전신, 통증의 느낌: 쑤시는, 아팠다 안 아팠다 함, 원인: 스트레스, 부상, 진료과:정형외과, 신경외과, 한의원, 류마티스내과

예시3 주문 문장: 이 환자는 테니스엘보와 골관절염을 앓고 있습니다.
- 분석 결과 0: 질환명: 테니스엘보, 위치: 팔, 통증의 느낌: 날카로운, 죄는 듯한, 원인: 과도한 운동, 잘못된 자세, 진료과:정형외과
- 분석 결과 1: 질환명: 골관절염, 위치: 무릎, 통증의 느낌: 둔탁한, 지속적인, 원인: 퇴행성 변화, 부상, 진료과: 가정의학과, 정형외과, 류마티스내과

예시4 주문 문장: 환자는 협심증과 심근경색을 겪었습니다.
- 분석 결과 0: 질환명: 협심증, 위치: 가슴, 통증의 느낌: 압박감, 죄는 듯한, 원인: 스트레스, 잘못된 자세, 진료과:심장내과, 순환기내과
- 분석 결과 1: 질환명: 심근경색, 위치: 가슴, 통증의 느낌: 심한, 타는 듯한, 원인: 스트레스, 부상, 진료과:심장내과

예시5 주문 문장: 환자는 척추관 협착증 질환을 가지고 있습니다.
- 분석 결과 0: 질환명: 척추관 협착증, 위치: 허리, 다리, 통증의 느낌: 짓누르는 듯한, 찌르는 듯한, 쥐어짜는 듯한, 타는 듯한, 원인: 퇴행성 변화, 디스크 탈출증, 척추 전방 또는 후방 변위, 진료과:정형외과, 신경외과, 재활의학과

###########
네가 추가 예시를 10개 만들어줘
"""

In [None]:
response = request_chat_completion(query)

In [None]:
print(response["choices"][0]["message"]["content"])

# 모델학습하기

In [7]:
def prepare_sample_text(example):
    """Prepare the text from a sample of the dataset."""

    prompt_template = """###System;{System}
    ###User;{User} """

    default_system_msg = (
        "너는 사용자의 통증과 상황에 따라 질환명을 예측해야한다. 일관된 스타일로 답변해야 해."
    )

    text = (
        prompt_template.format(System=default_system_msg,
                               User=example["document"],
                               )
    )

    return text

In [8]:
# 예제 통증 정보를 변수로 설정
pain_info = {
    "location": "허리, 목",
    "trigger": "오래 서 있을 때 통증 발생",
    "pain_timestamp": "2024.07.06",
    "type": "저림",
    "intensity": "2/10"
}

In [9]:
# example 생성
example = {
    "document": f"통증 부위: {pain_info['location']}.\n"
                f"발생 시각: {pain_info['pain_timestamp']}.\n"
                f"{pain_info['trigger']}.\n"
                f"통증 느낌: {pain_info['type']}.\n"
                f"통증 강도: {pain_info['intensity']}.\n"
                "다음과 같은 통증 호소자에게 관련 질환 3개를 중요도 순으로 알려줘.\n"
                "질환명만 적어."
}

In [10]:
print(example["document"])

통증 부위: 허리, 목.
발생 시각: 2024.07.06.
오래 서 있을 때 통증 발생.
통증 느낌: 저림.
통증 강도: 2/10.
다음과 같은 통증 호소자에게 관련 질환 3개를 중요도 순으로 알려줘.
질환명만 적어.


In [11]:
prepare_sample_text(example)

'###System;너는 사용자의 통증과 상황에 따라 질환명을 예측해야한다. 일관된 스타일로 답변해야 해.\n    ###User;통증 부위: 허리, 목.\n발생 시각: 2024.07.06.\n오래 서 있을 때 통증 발생.\n통증 느낌: 저림.\n통증 강도: 2/10.\n다음과 같은 통증 호소자에게 관련 질환 3개를 중요도 순으로 알려줘.\n질환명만 적어. '

In [12]:
# 프롬프트 준비
prompt = prepare_sample_text(example)

In [13]:
response = request_chat_completion(prompt)

In [14]:
print(response)

{
  "id": "chatcmpl-9mcpWVqr6qlVg7jdEo4urOREdmoVF",
  "object": "chat.completion",
  "created": 1721376034,
  "model": "gpt-4-turbo-2024-04-09",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "1. \uc694\ucd94 \ubc0f \uacbd\ucd94 \ub514\uc2a4\ud06c \uc9c8\ud658\n2. \uadfc\ub9c9\ud1b5\uc99d\uc99d\ud6c4\uad70\n3. \ucc99\ucd94\uad00\ud611\ucc29\uc99d"
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 198,
    "completion_tokens": 50,
    "total_tokens": 248
  },
  "system_fingerprint": "fp_595e3bc347"
}


In [15]:
print_streaming_response(response)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

## 문제점
- 매번 결과가 다르게 나옴. 반복적으로 보이는 질환도 있지만 아닐 경우가 더 많음
- [결과1]
1. 요추염좌
2. 경추염좌
3. 추간판 탈출증
4. 척추관 협착증
5. 근막통증증후군
- [결과2]
1. 경추 디스크
2. 요추 디스크
3. 근막통증증후군
4. 척추 관절염
5. 척추협착증
- [결과3]
1. 요통
2. 경추 디스크
3. 근막통증증후군