In [None]:
from dotenv import load_dotenv
import os
load_dotenv()
os.environ['API_KEY']=''

### 1.  응급조치 내용 수정

In [4]:
import pandas as pd
from langchain.llms import OpenAI

# 1. CSV 데이터 로드
file_path = './응급처치_증상_data_pre_final.csv'
df = pd.read_csv(file_path)

# 2. LangChain을 사용하여 OpenAI 모델 설정
llm = OpenAI()  # API 키는 환경 변수로 자동 인식

# 3. 응급처치 내용을 요약하고 형식을 통일하는 함수
def format_emergency_action(current_action):
    prompt = (
        "다음 응급처치 내용을 아래 규칙에 따라 요약해주세요:\n\n"
        f"기존 응급처치 내용: {current_action}\n\n"
        "요약 규칙:\n"
        "- 내용을 명확하고 간결하게 4~8 문장으로 요약합니다.\n"
        "- 각 문장은 완결된 형태로 작성되어야 하며, 중간에 끊기지 않도록 주의해주세요.\n"
        "- 각 문장은 '*'로 시작합니다.\n"
        "- 응급처치에 필요한 모든 단계와 중요한 사항을 포함시켜 주세요.\n\n"
        "결과를 다음 형식으로 반환하세요:\n"
        "* 문장1\n"
        "* 문장2\n"
        "* 문장3\n"
    )
    response = llm(prompt, max_tokens=350)
    return response.strip()

# 4. 데이터프레임의 "응급처치" 컬럼 업데이트
for index, row in df.iterrows():
    current_action = row['응급처치']
    formatted_action = format_emergency_action(current_action)
    df.at[index, '응급처치'] = formatted_action  # 업데이트

# 5. 상위 10개 행 출력
print(df.head(10))

             증상 심각도1 심각도2   진료과목  진료과목2  \
0        손가락 베임   경증   중증     외과  응급의학과   
1  출혈이 멈추지 않는다.   중증  NaN     외과  응급의학과   
2    두피 상처(찢어짐)   경증   중증     외과  응급의학과   
3     얼굴 상처 찢어짐   경증   중증     외과   성형외과   
4          두드러기   경증  NaN    피부과    NaN   
5        아나팔락시스   중증  NaN  응급의학과    NaN   
6            복통   경증   중증     내과     외과   
7           편두통   경증  NaN    신경과     내과   
8             열   경증  NaN     내과  응급의학과   
9           인후통   경증  NaN     내과  이비인후과   

                                                응급처치  \
0  * 출혈 부위에 멸균거즈나 깨끗한 천을 대고 직접 압박하고, 출혈이 멈추지 않을 경...   
1  * 상처 부위를 확인하고 소독하고 압박합니다. \n* 상처 부위를 심장보다 위로 올...   
2  * 문장4\n\n* 손을 비누로 깨끗이 씻습니다.\n* 출혈이 있으면 직접 압박법으...   
3  * 손을 비누로 깨끗이 씻습니다.\n* 출혈이 있으면 직접 압박법으로 진단을 합니다...   
4  * 가벼운 두드러기는 주로 저녁에 나타나며 국소 도포제나 미지근한 물로 샤워를 하여...   
5  * 문장4\n\n\n* 급성 증상 발생 시 혈압 상승과 기도 확보가 중요하며, 산소...   
6  * 복통을 호소하는 환자의 문제는 가벼운 질환일 수도 있고 중증 질환일 수도 있다....   
7  * 예방치료는 두통이 자주 나타날 때나 심할 때 두통을 막기 위해 매일 약을 복용하...   
8  * 고열이 있고 오한이 없으면 의복

In [5]:
output_file_path = './응급처치_증상_order_prompt.xlsx'
df.to_excel(output_file_path, index=False)

### 응급조치 내용 + 친절함, 유대감 추가(241121)

In [3]:
import pandas as pd
from langchain.llms import OpenAI

# 1. CSV 데이터 로드
file_path = './응급처치_증상_data_pre_final.csv'
df = pd.read_csv(file_path)

# 2. LangChain을 사용하여 OpenAI 모델 설정
llm = OpenAI()  # API 키는 환경 변수로 자동 인식

# 3. 응급처치 내용을 요약하고 형식을 통일하는 함수
def format_emergency_action(current_action):
    prompt = (
        "다음 응급처치 내용을 아래 규칙에 따라 요약해주세요:\n\n"
        f"기존 응급처치 내용: {current_action}\n\n"
        "요약 규칙:\n"
        "- 내용을 명확하고 간결하게 4~8 문장으로 요약합니다.\n"
        "- 각 문장은 완결된 형태로 작성되어야 하며, 중간에 끊기지 않도록 주의해주세요.\n"
        "- 각 문장은 '*'로 시작합니다.\n"
        "- 응급처치에 필요한 모든 단계와 중요한 사항을 포함시켜 주세요.\n\n"
        "-대답할 시 말투는 친절함, 유대감, 전문성이 느껴지게 해주세요"
        "결과를 다음 형식으로 반환하세요:\n"
        "* 문장1\n"
        "* 문장2\n"
        "* 문장3\n"
    )
    response = llm(prompt, max_tokens=350)
    return response.strip()

# 4. 데이터프레임의 "응급처치" 컬럼 업데이트
for index, row in df.iterrows():
    current_action = row['응급처치']
    formatted_action = format_emergency_action(current_action)
    df.at[index, '응급처치'] = formatted_action  # 업데이트

# 5. 상위 10개 행 출력
print(df.head(10))

             증상 심각도1 심각도2   진료과목  진료과목2  \
0        손가락 베임   경증   중증     외과  응급의학과   
1  출혈이 멈추지 않는다.   중증  NaN     외과  응급의학과   
2    두피 상처(찢어짐)   경증   중증     외과  응급의학과   
3     얼굴 상처 찢어짐   경증   중증     외과   성형외과   
4          두드러기   경증  NaN    피부과    NaN   
5        아나팔락시스   중증  NaN  응급의학과    NaN   
6            복통   경증   중증     내과     외과   
7           편두통   경증  NaN    신경과     내과   
8             열   경증  NaN     내과  응급의학과   
9           인후통   경증  NaN     내과  이비인후과   

                                                응급처치  \
0  * 문장4\n\n* 출혈 부위에 멸균거즈나 깨끗한 천을 대고 직접 압박한다.\n* ...   
1  * 상처 부위를 확인하고, 소독된 거즈 또는 깨끗한 헝겊으로 덮고 바로 직접압박법을...   
2  먼저 손을 비누로 깨끗이 씻습니다.\n* 손을 비누로 깨끗이 씻습니다.\n출혈이 있...   
3  * 손을 비누로 깨끗이 씻고, 출혈이 있으면 압박법으로 지혈합니다.\n* 상처를 물...   
4  * 저녁에만 나타나는 가벼운 두드러기는 국소 도포제나 미지근한 물로 샤워하여 증상을...   
5  * 급성 증상 발생 시 혈압 상승과 기도 확보가 중요하다.\n* 산소 공급과 에피네...   
6  * 문장4\n\n* 복통을 호소하는 환자의 문제는 가벼운 질환일 수도 있으며, 중증...   
7  예방치료는 두통 발생을 막기 위해 매일 약을 복용하며, 예방치료를 하면 급성기 약물...   
8  * 고열이 있고 오한이 없는 경우에

In [4]:
output_file_path = './new_응급처치_증상_order_prompt.xlsx'
df.to_excel(output_file_path, index=False)

#### 증상 표현 늘리기 최종 + file path는 반드시 order_prompt.csv로 조정

In [None]:
import pandas as pd
from langchain.llms import OpenAI

# 1. CSV 데이터 로드
file_path = './응급처치_증상_order_prompt.csv'
df = pd.read_csv(file_path)

# 2. LangChain을 사용하여 OpenAI 모델 설정
llm = OpenAI()  # API 키는 환경 변수로 자동 인식

# 3. 증상에 대한 상황적 표현 생성 함수
def generate_abstract_expressions(symptom):
    # LangChain을 사용하여 증상에 대한 상황적 표현을 생성
    prompt = (
        f"당신은 응급의학과 전문의입니다.\n"
        f"사용자가 입력한 증상을 다른 말로 표현 가능한(informal) 증상 3개를 추출해주세요.\n"
        f"다음은 사용자가 입력한 증상입니다:\n"
        f"걱정되는 증상: {symptom}\n"
        f"결과는 번호, 기호 없이 한 줄에 하나씩 표현만 반환하세요.\n"
        f"예: 표현1\n"
        f"    표현2\n"
        f"    표현3\n"
    )
    
    # OpenAI 모델 호출
    response = llm(prompt, max_tokens=100).strip()
    
    # 응답에서 줄 단위로 표현 추출
    expressions = [line.strip() for line in response.split("\n") if line.strip()]
    return expressions[:3]  # 3개의 표현만 반환

# 4. 데이터프레임 업데이트: 증상에 대한 3가지 상황적 표현 추가
new_rows = []
for index, row in df.iterrows():
    symptom = row['증상']
    abstract_expressions = generate_abstract_expressions(symptom)  # 3개의 상황 표현 생성
    
    # 각 표현마다 새로운 행 생성
    for expression in abstract_expressions:
        new_row = row.copy()  # 기존 행 복사
        new_row['증상'] = expression  # 새로운 표현으로 증상 업데이트
        
        # 응급처치, 심각도, 진료과목 등의 기존 컬럼 값은 그대로 유지
        new_rows.append(new_row)

# 5. 새로 생성된 행들을 기존 데이터프레임에 추가
df = pd.concat([df, pd.DataFrame(new_rows)], ignore_index=True)

# 6. 하위 10개 행 확인
print(df.tail(10))


                    증상 심각도1 심각도2   진료과목  진료과목2  \
508            3. 메스꺼움   경증   중증     내과  응급의학과   
509              고환 아픔   중증  NaN  응급의학과   비뇨기과   
510           1. 고환 통증   중증  NaN  응급의학과   비뇨기과   
511       2. 남성 생식기 통증   중증  NaN  응급의학과   비뇨기과   
512  1. 무의식적으로 움직임이 멈춤   중증  NaN  응급의학과    신경과   
513   2. 갑작스런 떨림 혹은 경련   중증  NaN  응급의학과    신경과   
514      3. 어지러움 혹은 혼란   중증  NaN  응급의학과    신경과   
515            임신 질 출혈   중증  NaN   산부인과  응급의학과   
516              임신 출혈   중증  NaN   산부인과  응급의학과   
517            임신 질 빨강   중증  NaN   산부인과  응급의학과   

                                                  응급처치  \
508  * 응급처치에서는 구역질과 구토의 주요 원칙은 탈수, 전해질 이상을 교정하는 것이며...   
509  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
510  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
511  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
512  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습니다.\n* 발...   
513  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습니다.\n* 발...   
514  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습

In [8]:
# 7. '증상' 컬럼에서 '1.', '2.', '3.'과 같은 번호 제거
df['증상'] = df['증상'].str.replace(r'^\d+\.\s*', '', regex=True)

# 8. 처리 결과 확인
print(df.tail(10))

                 증상 심각도1 심각도2   진료과목  진료과목2  \
508            메스꺼움   경증   중증     내과  응급의학과   
509           고환 아픔   중증  NaN  응급의학과   비뇨기과   
510           고환 통증   중증  NaN  응급의학과   비뇨기과   
511       남성 생식기 통증   중증  NaN  응급의학과   비뇨기과   
512  무의식적으로 움직임이 멈춤   중증  NaN  응급의학과    신경과   
513   갑작스런 떨림 혹은 경련   중증  NaN  응급의학과    신경과   
514      어지러움 혹은 혼란   중증  NaN  응급의학과    신경과   
515         임신 질 출혈   중증  NaN   산부인과  응급의학과   
516           임신 출혈   중증  NaN   산부인과  응급의학과   
517         임신 질 빨강   중증  NaN   산부인과  응급의학과   

                                                  응급처치  \
508  * 응급처치에서는 구역질과 구토의 주요 원칙은 탈수, 전해질 이상을 교정하는 것이며...   
509  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
510  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
511  * 고환 염전의 치료는 염전의 기간과 신속한 진단에 따라서 달라집니다.\n* 염전이...   
512  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습니다.\n* 발...   
513  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습니다.\n* 발...   
514  * 발작은 보통 몇 분 안에 끝나며 특별한 병원 치료는 필요하지 않습니다.\n* 발...   
515  * 임신 중 질 출혈의 

In [10]:
df['증상'] = df['증상'].str.replace(r'^-\s*', '', regex=True)

In [11]:
output_file_path = './응급처치_증상_data_final.xlsx'
df.to_excel(output_file_path, index=False)

### 증상 중복행 제거

In [14]:
import pandas as pd

# CSV 파일 로드
file_path = './응급처치_증상_data_final.csv'
df = pd.read_csv(file_path)

# 증상 컬럼을 기준으로 중복된 행을 제거 (응급처치는 첫 번째 값만 남기고 나머지는 삭제)
df_unique = df.drop_duplicates(subset=['증상'], keep='first')

# 결과를 Excel로 저장
output_file_path = './응급처치_증상_data_final.xlsx'
df_unique.to_excel(output_file_path, index=False)

### 데이터 불러오기 테스트

In [37]:
import pandas as pd
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 1. 임베딩 및 모델 초기화 (한 번만 실행)
def initialize_embeddings():
    # CSV 데이터 로드
    file_path = './응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 2. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_response(symptom_input):
    # 정확히 일치하는 증상 찾기
    matching_row = df[df['증상'].str.contains(symptom_input, case=False, na=False)]
    
    if not matching_row.empty:
        row = matching_row.iloc[0]
        symptom = row['증상']
        emergency_action = row['응급처치']
        severity1 = row['심각도1']
        severity2 = row['심각도2']

        # 증상에 따른 응급처치 정보만 출력 (심각도 정보 제외)
        response = f"응급처치:\n{emergency_action}\n\n"

        # 심각도에 따른 후속 질문 추가
        if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
            follow_up_question = (
                f"이 증상이 중증일 수 있으므로, 추가적인 조치를 취하셔야 할 수 있습니다. "
                f"증상이 심각하다고 판단되시면, 지역을 입력해주시면, "
                f"가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?"
            )
        elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
            follow_up_question = (
                f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
                f"{emergency_action}\n\n"
                f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
            )
        elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
            follow_up_question = (
                f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
                f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
            )
        
        response += follow_up_question
        return response

    # 임베딩을 통한 유사한 증상 검색
    query_embedding = embeddings.embed_query(symptom_input)
    search_results = index.similarity_search_by_vector(query_embedding, k=1)
    
    if search_results:
        return search_results[0].page_content
    else:
        return "해당 증상에 대한 응급처치 정보가 없습니다."

# 예제 호출
symptom_input = "뱀에 물렸을때 어떻게 해야될까?"
response = generate_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


임베딩 및 인덱스 초기화 완료.
질문: 뱀에 물렸을때 어떻게 해야될까?
답변: 증상: 뱀에게 물렸을 때 발열
심각도1: 경증
심각도2: 중증
응급처치: * 환자를 안전한 곳으로 옮기고 체온 유지 후 의료기관으로 빠른 시간내 이송해야 합니다.
* 교상 부위는 심장 높이보다 아래, 기능적 자세로 고정하고 반지, 시계, 꽉 끼는 옷은 풀어주며 술, 음식, 약물 등은 투여하지 않아야 합니다.
* 물렸을 때 가장 중요한 행위는 항독소를 구비하고 적절한 치료를 제공할 수 있는 의료기관으로 가는 것입니다.
* 물린 부위에서 5∼10 cm 정도 심장 쪽에 가까운 부위를 넓은 끈이나 손수건 등으로 압박대로 묶어 피가 통할 수 있습니다.


In [38]:
symptom_input = "인후통"
response = generate_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 인후통
답변: 응급처치:
* 안정을 취하고 물을 많이 마신다.
* 입 안을 미지근한 물로 헹구어 주고, 진통제를 투여한다.
* 세균 감염이 의심되면 항생제 치료를 시행한다.
* 진해거담제가 도움이 될 수 있다.
* 인후두 역류질환에 동반된 경우 위산억제제를 복용한다.

이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 안정을 취하고 물을 많이 마신다.
* 입 안을 미지근한 물로 헹구어 주고, 진통제를 투여한다.
* 세균 감염이 의심되면 항생제 치료를 시행한다.
* 진해거담제가 도움이 될 수 있다.
* 인후두 역류질환에 동반된 경우 위산억제제를 복용한다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


### 유사도 측정 기반 검색 시도

In [77]:
import pandas as pd
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS

def initialize_embeddings():
    # CSV 데이터 로드
    file_path = './응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

def generate_response(symptom_input, df, embeddings, index):
    # 증상 전처리 (소문자화 및 불필요한 공백 제거)
    symptom_input_clean = symptom_input.lower().strip()

    # 먼저, 입력된 증상과 정확히 일치하는 항목을 데이터에서 찾기
    matched_row = df[df['증상'].str.lower().str.strip() == symptom_input_clean]

    if not matched_row.empty:
        # 정확히 일치하는 항목이 있으면 해당 데이터 반환
        matched_row = matched_row.iloc[0]  # 첫 번째 행만 선택
        symptom = matched_row['증상']
        emergency_action = matched_row['응급처치']
        severity1 = matched_row['심각도1']
        severity2 = matched_row['심각도2']

        if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
            follow_up_question = (
                f"이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
                f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?\n\n"
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n"
            )
        elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
            follow_up_question = (
                f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
                f"{emergency_action}\n\n"
                f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
            )
        elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
            follow_up_question = (
                f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
                f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
            )

        response = follow_up_question
        return response

    else:
        # 정확히 일치하는 증상이 없다면, 유사도 검색을 통해 근접한 증상 찾기
        query_embedding = embeddings.embed_query(symptom_input_clean)
        search_results = index.similarity_search_by_vector(query_embedding, k=3)  # 여러 개의 검색 결과를 가져옴

        matched_row = None
        for result in search_results:
            matched_text = result.page_content
            symptom_in_data = matched_text.split("\n")[0].replace("증상: ", "").lower().strip()

            # 유사도 결과에서 부분 매칭 또는 가장 근접한 증상 찾기
            if symptom_input_clean == symptom_in_data or symptom_in_data in symptom_input_clean:
                matched_row = df[df['증상'].str.lower().str.strip() == symptom_in_data].iloc[0]
                break

        if matched_row is not None:
            symptom = matched_row['증상']
            emergency_action = matched_row['응급처치']
            severity1 = matched_row['심각도1']
            severity2 = matched_row['심각도2']

            if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
                follow_up_question = (
                    f"이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
                    f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?\n\n"
                    f"응급처치는 다음과 같습니다:\n{emergency_action}\n"
                )
            elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
                follow_up_question = (
                    f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
                    f"{emergency_action}\n\n"
                    f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
                )
            elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
                follow_up_question = (
                    f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
                    f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
                    f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
                )

            response = follow_up_question
            return response

        else:
            return "해당 증상에 대한 응급처치 정보가 없습니다."

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 예제 호출
symptom_input = "다리에 쥐난거 같아 ㅜㅜ"
response = generate_response(symptom_input, df, embeddings, index)
print(f"질문: {symptom_input}")
print(f"답변: {response}")



임베딩 및 인덱스 초기화 완료.
질문: 다리에 쥐난거 같아 ㅜㅜ
답변: 해당 증상에 대한 응급처치 정보가 없습니다.


In [75]:
symptom_input = "위염"
response = generate_response(symptom_input, df, embeddings, index)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 위염
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 위에 자극을 주지 않게 하기 위해 1~2일 금식하고 비경구적인 방법으로 영양과 수분을 공급합니다.
* 증세가 가라앉고 식욕이 생기면 물이나 엽차, 보리차 등을 마시고 유동식부터 시작합니다.
* 유동식에 잘 적응되면 죽이나 빵을 조금씩 먹고 자극성 음식물을 피합니다.
* 철분이 많은 식품을 섭취하고 식사시간을 규칙적으로 지키며 당질 위주로 먹고 지방을 제한합니다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [76]:
symptom_input = "다리에 쥐난거 같아 ㅜㅜ"
response = generate_response(symptom_input, df, embeddings, index)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 다리에 쥐난거 같아 ㅜㅜ
답변: 해당 증상에 대한 응급처치 정보가 없습니다.


## 답변 정확성이 반영미숙해서 or 코드 적용

In [102]:
import pandas as pd
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 1. 임베딩 및 모델 초기화 (한 번만 실행)
def initialize_embeddings():
    # CSV 데이터 로드
    file_path = './응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 2. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_response_with_similarity(symptom_input):
    # 증상 전처리 (소문자화 및 불필요한 공백 제거)
    symptom_input_clean = symptom_input.lower().strip()

    # 유사한 증상들을 FAISS를 통해 검색 (증상의 다른 표현을 고려)
    query_embedding = embeddings.embed_query(symptom_input_clean)  # embed_query 사용
    search_results = index.similarity_search_by_vector(query_embedding, k=5)  # 여러 개의 검색 결과를 가져옴

    # 가장 유사한 증상들 중에서 가장 적합한 결과를 선택
    matched_row = None
    highest_similarity_score = -1  # 유사도 점수

    for result in search_results:
        matched_text = result.page_content
        symptom_in_data = matched_text.split("\n")[0].replace("증상: ", "").lower().strip()

        # 유사도 점수를 계산하는 부분
        similarity_score = result.score if hasattr(result, 'score') else 0  # 유사도 점수 직접 사용

        # 유사도 점수가 가장 높은 증상 선택
        if similarity_score > highest_similarity_score:
            highest_similarity_score = similarity_score
            matched_row = df[df['증상'].str.lower().str.strip() == symptom_in_data].iloc[0]

    if matched_row is not None:
        symptom = matched_row['증상']
        emergency_action = matched_row['응급처치']
        severity1 = matched_row['심각도1']
        severity2 = matched_row['심각도2']

        # 후속 질문에 응급처치 내용 추가 (중복 제거)
        if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
            follow_up_question = (
                f"이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
                f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?\n\n"
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n"
            )
        elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
            follow_up_question = (
                f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
                f"{emergency_action}\n\n"
                f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
            )
        elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
            follow_up_question = (
                f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
                f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
            )

        response = follow_up_question  # 응급처치 내용 포함된 후속 질문만 응답으로 설정
        return response

    else:
        return "해당 증상에 대한 응급처치 정보가 없습니다."


# 예제 호출
symptom_input = "눈이 멍들었어"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


임베딩 및 인덱스 초기화 완료.
질문: 눈이 멍들었어
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 안구를 노출시키지 않도록 젖은 거즈로 덮어줍니다.
* 상처 입은 눈뿐만 아니라 반대편의 눈도 종이컵 등으로 보호합니다.
* 환자를 눕히고 안정시킨 후 병원으로 이송합니다.
* 눈을 압박하거나 비비지 않도록 합니다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [103]:
symptom_input = "머리가 조금 아픈편임"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}") 


질문: 머리가 조금 아픈편임
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 상처 부위를 비누로 깨끗이 씻는다.
* 먼지나 더러운 것이 묻어 있으면 씻어내고, 항생제 연고를 바르면 효과적이다.
* 큰 상처는 멸균된 거즈로 덮고, 반창고로 고정한 후 병원 진료를 받는다.
* 감염 증상이 있거나 타박, 피하 출혈, 골절 등의 합병증이 염려될 때는 병원을 방문해야 한다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [104]:
symptom_input = "심한 화상입은거 같아"
response = generate_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


질문: 심한 화상입은거 같아
답변: 해당 증상에 대한 응급처치 정보가 없습니다.


In [108]:
symptom_input = "뾰루지가 났어"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}") 


질문: 뾰루지가 났어
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 가벼운 두드러기는 주로 저녁에 나타나며 국소 도포제나 미지근한 물로 샤워를 하여 증상을 조절할 수 있다.
* 스트레스 관리가 필요하며 스트레스는 두드러기를 악화시킬 수 있다.
* 두드러기가 난 부위를 긁는 것을 피해야 한다.
* 미지근한 물이나 찬 물로 샤워를 하고 냉찜질을 하는 것이 도움이 된다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [109]:
symptom_input = "머리가 어지러워"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}") 

질문: 머리가 어지러워
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 먼 곳의 움직이지 않는 고정된 물체나 수평선을 바라본다.
* 좌석에 앉아 있는 동안 머리를 바르게 든다.
* 기도를 확보한다.
* 매운 음식과 느끼한 음식, 술, 과식은 피한다.
* 여행 30-60분 전 항히스타민제를 복용한다.
* 의사의 처방으로 멀미약을 귀 뒤에 붙인다.
* 탄수화물을 섭취하여 위를 안정시킨다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [110]:
symptom_input = "아이가 감전사고를 당했어"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}") 

질문: 아이가 감전사고를 당했어
답변: 이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. 응급처치는 다음과 같습니다:
* 환자의 전기 화상 상태를 즉시 확인하고, 전원을 차단합니다.
* 전원이 차단되지 않았을 경우, 환자와 접촉하지 않도록 주의합니다.
* 전원이 계속 연결되어 있다면 건조한 막대로 전선을 제거하고, 고무장갑을 착용하거나 골판지 위에 서서 전선을 떼어냅니다.
* 호흡을 멈추거나 심장마비가 생긴 경우, 인공호흡 또는 심폐소생술을 시행하고 즉시 병원으로 이송합니다.
* 병원에서는 호흡과 심장이 회복된 후에 화상을 치료합니다.
* 상처 부위는 소독 거즈로 덮어야 합니다.

증상이 악화되면 즉시 병원을 방문하시길 권장합니다.


### embedding 개선 코드

- 현재 특정 증상에 대해 답변은 잘 나오고 다른 증상에 대해 답변이 응급처치를 잘못전달되고있음

In [None]:
import pandas as pd
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 1. 임베딩 및 모델 초기화 (한 번만 실행)
def initialize_embeddings():
    # CSV 데이터 로드
    file_path = './응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 2. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_response_with_similarity(symptom_input):
    # 증상 전처리 (소문자화 및 불필요한 공백 제거)
    symptom_input_clean = symptom_input.lower().strip()

    # 유사한 증상들을 FAISS를 통해 검색 (증상의 다른 표현을 고려)
    query_embedding = embeddings.embed_query(symptom_input_clean)  # embed_query 사용
    search_results = index.similarity_search_by_vector(query_embedding, k=5)  # 여러 개의 검색 결과를 가져옴

    if not search_results:
        return "관련 증상을 찾을 수 없습니다. 다시 시도해 주세요."

    # 가장 유사한 증상들 중에서 가장 적합한 결과를 선택
    matched_row = None
    highest_similarity_score = -1  # 유사도 점수

    for result in search_results:
        matched_text = result.page_content
        symptom_in_data = matched_text.split("\n")[0].replace("증상: ", "").lower().strip()

        # 유사도 점수를 계산하는 부분
        similarity_score = result.score if hasattr(result, 'score') else 0  # 유사도 점수 직접 사용

        # 유사도 점수가 가장 높은 증상 선택
        if similarity_score > highest_similarity_score:
            highest_similarity_score = similarity_score
            matched_row = df[df['증상'].str.lower().str.strip() == symptom_in_data].iloc[0]

    if matched_row is not None:
        symptom = matched_row['증상']
        emergency_action = matched_row['응급처치']
        severity1 = matched_row['심각도1']
        severity2 = matched_row['심각도2']

        # 후속 질문에 응급처치 내용 추가 (중복 제거)
        if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
            follow_up_question = (
                f"이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
                f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?\n\n"
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n"
            )
        elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
            follow_up_question = (
                f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
                f"{emergency_action}\n\n"
                f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
            )
        elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
            follow_up_question = (
                f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
                f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
                f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
            )

        response = follow_up_question  # 응급처치 내용 포함된 후속 질문만 응답으로 설정
        return response

    else:
        return "해당 증상에 대한 응급처치 정보가 없습니다."


# 예제 호출
symptom_input = "눈이 멍들었어"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


  embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


임베딩 및 인덱스 초기화 완료.
질문: 눈이 멍들었어
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 안구를 노출시키지 않도록 젖은 거즈로 덮어줍니다.
* 상처 입은 눈뿐만 아니라 반대편의 눈도 종이컵 등으로 보호합니다.
* 환자를 눕히고 안정시킨 후 병원으로 이송합니다.
* 눈을 압박하거나 비비지 않도록 합니다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [16]:
symptom_input = "열이 오르는거 같아"
response = generate_response_with_similarity(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 열이 오르는거 같아
답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 고열이 있고 오한이 없으면 의복을 벗기고 미지근한 물로 전신을 닦아줍니다.
* 찬물보다는 미지근한 물로 닦아주는 것이 좋습니다.
* 추위나 오한이 있다면 덮어주는 것도 좋습니다.
* 한기가 느껴진다면 운동, 목욕, 음주를 피하는 것이 좋습니다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다.


In [10]:
import pandas as pd
from rank_bm25 import BM25Okapi

# 1. BM25 초기화
def initialize_bm25():
    # CSV 데이터 로드
    file_path = 'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv'
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 띄어쓰기를 기준으로 증상 텍스트를 토크나이징
    tokenized_corpus = [symptom.split() for symptom in df['증상']]

    # BM25 모델 초기화
    bm25 = BM25Okapi(tokenized_corpus)

    print("BM25 초기화 완료.")
    return df, bm25

# 모델 초기화 (1회 실행)
df, bm25 = initialize_bm25()

# 2. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_response_with_bm25(symptom_input):
    # 증상 입력 텍스트를 띄어쓰기 기준으로 토크나이징
    symptom_input_tokens = symptom_input.split()

    # BM25 점수 계산 및 상위 5개 결과 가져오기
    scores = bm25.get_scores(symptom_input_tokens)
    top_indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:5]  # 상위 5개

    # 상위 결과 중 유사도가 0보다 큰 항목만 필터링
    matched_indices = [i for i in top_indices if scores[i] > 0]

    if not matched_indices:
        return "관련 증상을 찾을 수 없습니다. 다시 시도해 주세요."

    # 가장 적합한 결과 선택
    best_index = matched_indices[0]
    matched_row = df.iloc[best_index]

    symptom = matched_row['증상']
    emergency_action = matched_row['응급처치']
    severity1 = matched_row['심각도1']
    severity2 = matched_row['심각도2']

    # 후속 질문에 응급처치 내용 추가 (중복 제거)
    if severity1 == '중증' and severity2 == '없음':  # 중증만 있을 때
        follow_up_question = (
            f"이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
            f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?\n\n"
            f"응급처치는 다음과 같습니다:\n{emergency_action}\n"
        )
    elif severity1 == '경증' and severity2 == '없음':  # 경증만 있을 때
        follow_up_question = (
            f"이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
            f"{emergency_action}\n\n"
            f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다."
        )
    elif severity1 == '경증' and severity2 == '중증':  # 경증 + 중증 (둘 다 있을 때)
        follow_up_question = (
            f"이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
            f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
            f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다."
        )

    response = follow_up_question
    return response

# 예제 호출
symptom_input = "심한 화상이에요"
response = generate_response_with_bm25(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


BM25 초기화 완료.
질문: 심한 화상이에요
답변: 이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, 지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?

응급처치는 다음과 같습니다:
* 화학물질이 몸에 묻은 경우에는 화학물질이 씻겨질 때까지 흐르는 물로 계속 씻습니다.
* 화학물질이 눈에 들어간 경우에는 손가락으로 눈꺼풀을 열고, 세지 않은 물로 다른 눈에 물이 흐르지 않도록 주의합니다.
* 눈언저리에서 눈꼬리로 물이 흐르도록 씻습니다.
* 화상부위가 넓으면 병원을 방문합니다.



In [11]:
symptom_input = "뱀에 물렸어"
response = generate_response_with_bm25(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


질문: 뱀에 물렸어
답변: 관련 증상을 찾을 수 없습니다. 다시 시도해 주세요.


### bm25모델 20프로, 유사도모델 80프로

In [1]:
import pandas as pd
from rank_bm25 import BM25Okapi
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 1. BM25 초기화
def initialize_bm25():
    # CSV 데이터 로드
    file_path = 'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv'
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 띄어쓰기를 기준으로 증상 텍스트를 토크나이징
    tokenized_corpus = [symptom.split() for symptom in df['증상']]

    # BM25 모델 초기화
    bm25 = BM25Okapi(tokenized_corpus)

    print("BM25 초기화 완료.")
    return df, bm25

# 모델 초기화 (1회 실행)
df, bm25 = initialize_bm25()

# 2. 임베딩 및 모델 초기화 (한 번만 실행)
def initialize_embeddings():
    # CSV 데이터 로드
    file_path =  'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 3. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_combined_response(symptom_input):
    # 1. BM25 기반 검색
    symptom_input_tokens = symptom_input.split()
    scores = bm25.get_scores(symptom_input_tokens)
    top_indices_bm25 = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:5]  # 상위 5개

    matched_bm25_indices = [i for i in top_indices_bm25 if scores[i] > 0]
    
    # BM25에서 가장 적합한 결과 선택
    best_bm25_index = matched_bm25_indices[0] if matched_bm25_indices else None
    bm25_row = df.iloc[best_bm25_index] if best_bm25_index is not None else None
    
    # 2. LLM 기반 검색 (FAISS)
    symptom_input_clean = symptom_input.lower().strip()
    query_embedding = embeddings.embed_query(symptom_input_clean)  # embed_query 사용
    search_results = index.similarity_search_by_vector(query_embedding, k=5)  # 여러 개의 검색 결과를 가져옴

    # LLM에서 가장 적합한 결과 선택
    matched_llm_row = None
    highest_similarity_score = -1

    for result in search_results:
        matched_text = result.page_content
        symptom_in_data = matched_text.split("\n")[0].replace("증상: ", "").lower().strip()
        similarity_score = result.score if hasattr(result, 'score') else 0

        if similarity_score > highest_similarity_score:
            highest_similarity_score = similarity_score
            matched_llm_row = df[df['증상'].str.lower().str.strip() == symptom_in_data].iloc[0]

    # 3. BM25와 LLM의 결과 합산 (가중치 적용)
    if bm25_row is not None and matched_llm_row is not None:
        # BM25와 LLM 결과 결합 (BM25: 20%, LLM: 80%)
        combined_score = 0.2 * scores[best_bm25_index] + 0.8 * highest_similarity_score

        # 높은 가중치를 받은 모델의 결과로 응답 생성
        if highest_similarity_score >= scores[best_bm25_index]:
            best_row = matched_llm_row
        else:
            best_row = bm25_row
    else:
        # 만약 하나라도 None이라면, 해당 모델의 결과를 사용
        best_row = bm25_row if bm25_row is not None else matched_llm_row

    # 응급처치 및 후속 질문 생성
    symptom = best_row['증상']
    emergency_action = best_row['응급처치']
    severity1 = best_row['심각도1']
    severity2 = best_row['심각도2']

    if severity1 == '중증' and severity2 == '없음':
        return (
            f"걱정이 많으시겠어요. 중증 증상일 가능성이 높아 보입니다. 먼저 마음을 차분히 하시고 제가 안내드리는 응급조치를 따라주세요.\n\n"
            f"이 증상에 대해 권장되는 응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
            f"빠르게 가까운 응급실로 이동하실 것을 권장드립니다. 현재 위치를 알려주시면, 근처 응급실 정보를 제공해드릴게요."
        )
    elif severity1 == '경증' and severity2 == '없음':
        return (
            f"안심하세요. 이 증상은 경미한 것으로 보입니다.\n\n"
            f"우선적으로 권장되는 응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
            f"증상이 지속되거나 악화될 경우 병원을 방문하시는 것이 좋습니다. "
            f"다만, 응급실 방문 시 경증으로 판정될 경우 높은 의료비가 발생할 수 있으니 필요성을 신중히 고려해보세요. "
            f"추가적으로 도움이 필요하시면 언제든 다시 문의해주세요!"
        )
    elif severity1 == '경증' and severity2 == '중증':
        return (
            f"현재 증상은 경미할 수 있으나, 중증으로 발전할 가능성이 있습니다. 신중히 대처하셔야 합니다.\n\n"
            f"우선 권장되는 응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
            f"증상이 악화되거나 중증 증상이 나타나면 즉시 응급실을 방문하세요. "
            f"참고로, 응급실 방문 시 경증으로 분류되면 의료비 부담이 높아질 수 있습니다. "
            f"추가적인 질문이나 보상 관련 정보가 필요하시면 말씀해주세요!"
        )
    else:
        return "현재 입력된 증상에 대한 정보를 찾을 수 없습니다. 더 구체적인 증상을 말씀해주시면 도움을 드릴 수 있을 것 같아요."

# 예제 호출
symptom_input = "뱀한테 물렸어"
response = generate_combined_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


BM25 초기화 완료.


  embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


임베딩 및 인덱스 초기화 완료.
질문: 뱀한테 물렸어
답변: 현재 증상은 경미할 수 있으나, 중증으로 발전할 가능성이 있습니다. 신중히 대처하셔야 합니다.

우선 권장되는 응급처치는 다음과 같습니다:
* 환자를 안전한 곳으로 옮기고 체온 유지 후 의료기관으로 빠른 시간내 이송해야 합니다.
* 교상 부위는 심장 높이보다 아래, 기능적 자세로 고정하고 반지, 시계, 꽉 끼는 옷은 풀어주며 술, 음식, 약물 등은 투여하지 않아야 합니다.
* 물렸을 때 가장 중요한 행위는 항독소를 구비하고 적절한 치료를 제공할 수 있는 의료기관으로 가는 것입니다.
* 물린 부위에서 5∼10 cm 정도 심장 쪽에 가까운 부위를 넓은 끈이나 손수건 등으로 압박대로 묶어 피가 통할 수 있습니다.

증상이 악화되거나 중증 증상이 나타나면 즉시 응급실을 방문하세요. 참고로, 응급실 방문 시 경증으로 분류되면 의료비 부담이 높아질 수 있습니다. 추가적인 질문이나 보상 관련 정보가 필요하시면 말씀해주세요!


In [2]:
symptom_input = "감기"
response = generate_combined_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")


질문: 감기
답변: 안심하세요. 이 증상은 경미한 것으로 보입니다.

우선적으로 권장되는 응급처치는 다음과 같습니다:
* 감기 치료는 증상 관리와 면역 기능 유지가 중요합니다.
* 충분한 휴식과 수분 보충, 영양 공급으로 자연 회복을 기대할 수 있습니다.
* 약물치료로 증상을 경감시킬 수 있습니다.
* 감기 예방에는 손 씻기, 마스크 착용 등이 중요합니다.

증상이 지속되거나 악화될 경우 병원을 방문하시는 것이 좋습니다. 다만, 응급실 방문 시 경증으로 판정될 경우 높은 의료비가 발생할 수 있으니 필요성을 신중히 고려해보세요. 추가적으로 도움이 필요하시면 언제든 다시 문의해주세요!


In [11]:
symptom_input = "감기"
response = generate_combined_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 감기
답변: 안심하세요. 이 증상은 경미한 것으로 보입니다.

우선적으로 권장되는 응급처치는 다음과 같습니다:
* 감기 치료는 증상 관리와 면역 기능 유지가 중요합니다.
* 충분한 휴식과 수분 보충, 영양 공급으로 자연 회복을 기대할 수 있습니다.
* 약물치료로 증상을 경감시킬 수 있습니다.
* 감기 예방에는 손 씻기, 마스크 착용 등이 중요합니다.

증상이 지속되거나 악화될 경우 병원을 방문하시는 것이 좋습니다. 다만, 응급실 방문 시 경증으로 판정될 경우 높은 의료비가 발생할 수 있으니 필요성을 신중히 고려해보세요. 추가적으로 도움이 필요하시면 언제든 다시 문의해주세요!


###  최종 코드 - 연정님 prompt 적용된 bm25모델 작성 코드 (241127)

In [None]:
import pandas as pd
from rank_bm25 import BM25Okapi
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 1. BM25 초기화
def initialize_bm25():
    # CSV 데이터 로드
    file_path = 'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv'
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 띄어쓰기를 기준으로 증상 텍스트를 토크나이징
    tokenized_corpus = [symptom.split() for symptom in df['증상']]

    # BM25 모델 초기화
    bm25 = BM25Okapi(tokenized_corpus)

    print("BM25 초기화 완료.")
    return df, bm25

# 모델 초기화 (1회 실행)
df, bm25 = initialize_bm25()

# 2. 임베딩 및 모델 초기화 (한 번만 실행)
def initialize_embeddings():
    # CSV 데이터 로드
    file_path =  'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv' 
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # FAISS 인덱스 초기화
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스를 텍스트로부터 생성
    index = FAISS.from_texts(split_texts, embeddings)

    print("임베딩 및 인덱스 초기화 완료.")
    return df, embeddings, index

# 모델과 인덱스를 초기화하는 함수 호출 (초기 1회 실행)
df, embeddings, index = initialize_embeddings()

# 3. 증상에 대한 응급처치 정보 및 후속 질문 생성
def generate_combined_response(symptom_input):
    # 1. BM25 기반 검색
    symptom_input_tokens = symptom_input.split()
    scores = bm25.get_scores(symptom_input_tokens)
    top_indices_bm25 = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:5]  # 상위 5개

    matched_bm25_indices = [i for i in top_indices_bm25 if scores[i] > 0]
    
    # BM25에서 가장 적합한 결과 선택
    best_bm25_index = matched_bm25_indices[0] if matched_bm25_indices else None
    bm25_row = df.iloc[best_bm25_index] if best_bm25_index is not None else None
    
    # 2. LLM 기반 검색 (FAISS)
    symptom_input_clean = symptom_input.lower().strip()
    query_embedding = embeddings.embed_query(symptom_input_clean)  # embed_query 사용
    search_results = index.similarity_search_by_vector(query_embedding, k=5)  # 여러 개의 검색 결과를 가져옴

    # LLM에서 가장 적합한 결과 선택
    matched_llm_row = None
    highest_similarity_score = -1

    for result in search_results:
        matched_text = result.page_content
        symptom_in_data = matched_text.split("\n")[0].replace("증상: ", "").lower().strip()
        similarity_score = result.score if hasattr(result, 'score') else 0

        if similarity_score > highest_similarity_score:
            highest_similarity_score = similarity_score
            matched_llm_row = df[df['증상'].str.lower().str.strip() == symptom_in_data].iloc[0]

    # 3. BM25와 LLM의 결과 합산 (가중치 적용)
    if bm25_row is not None and matched_llm_row is not None:
        # BM25와 LLM 결과 결합 (BM25: 20%, LLM: 80%)
        combined_score = 0.2 * scores[best_bm25_index] + 0.8 * highest_similarity_score

        # 높은 가중치를 받은 모델의 결과로 응답 생성
        if highest_similarity_score >= scores[best_bm25_index]:
            best_row = matched_llm_row
        else:
            best_row = bm25_row
    else:
        # 만약 하나라도 None이라면, 해당 모델의 결과를 사용
        best_row = bm25_row if bm25_row is not None else matched_llm_row

    # 응급처치 및 후속 질문 생성
    symptom = best_row['증상']
    emergency_action = best_row['응급처치']
    severity1 = best_row['심각도1']
    severity2 = best_row['심각도2']

    if severity1 == '중증' and severity2 == '없음':
        return (
                f"조급한 마음은 실수를 만들 수 있으니 접어두고.\n\n"
                f"천천히 이 다음을 따라와주세요 \n{emergency_action}\n\n"
                f"이 진료 관련 응급실을 빠르게 알려드릴게요! 현재 위치를 알려주세요."
                
            )
    elif severity1 == '경증' and severity2 == '없음':
        return (
                f"휴 다행이도 위험한 증상은 아니네요.\n\n"
                f"제가 이제 응급처치를 도와드릴게요. \n{emergency_action}\n\n"
                f"증상이 악화되거나 중증 증상이 나타나면 즉시 응급실을 방문하세요. "
                f"참고로, 응급실 방문 시 경증으로 분류되면 의료비 부담이 높아질 수 있습니다. "
                f"추가적인 질문이나 보상 관련 정보가 필요하시면 말씀해주세요!"
            )
    elif severity1 == '경증' and severity2 == '중증':

        return (
                f"응급실가시기 전 우선 급한대로 다음을 따라와주세요. 빠른 호전이 가능할 수 있어요.\n\n"
                f"우선 \n{emergency_action}\n\n 그래도 안되면 응급실을 생각해 볼 수도 있을 것 같아요."
                f"증상이 생각보다 심하고 추가 증상이 있으면 알려주세요. "
                f"괜찮아지실 거예요!"
                f"추가적으로 도움이 필요하시면 언제든 다시 문의해주세요!")
    else:
        return "현재 입력된 증상에 대한 정보를 찾을 수 없습니다. 더 구체적인 증상을 말씀해주시면 도움을 드릴 수 있을 것 같아요."

# 예제 호출
symptom_input = "뱀한테 물렸어"
response = generate_combined_response(symptom_input)
print(f"질문: {symptom_input}")
print(f"답변: {response}")

### 증상 FAISS 저장

In [None]:
import pandas as pd
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from rank_bm25 import BM25Okapi
import os

# FAISS 저장 경로
FAISS_INDEX_PATH = "faiss_index"

# 1. BM25 초기화
def initialize_bm25():
    # CSV 데이터 로드
    file_path = 'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv'
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 띄어쓰기를 기준으로 증상 텍스트를 토크나이징
    tokenized_corpus = [symptom.split() for symptom in df['증상']]

    # BM25 모델 초기화
    bm25 = BM25Okapi(tokenized_corpus)

    print("BM25 초기화 완료.")
    return df, bm25

# 2. FAISS 임베딩 및 저장
def initialize_and_save_faiss():
    # CSV 데이터 로드
    file_path = 'C:\\Users\\user\\langchain\\study_langchain\\응급처치_증상_data_final.csv'
    df = pd.read_csv(file_path)

    # NaN 값을 처리: '심각도2'가 NaN이면 '없음'으로 대체
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 임베딩 초기화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

    # 텍스트 데이터 결합
    split_texts = [f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}" 
                   for _, row in df.iterrows()]
    
    # FAISS 인덱스 생성
    index = FAISS.from_texts(split_texts, embeddings)

    # FAISS 저장
    os.makedirs(FAISS_INDEX_PATH, exist_ok=True)
    index.save_local(FAISS_INDEX_PATH)
    print(f"FAISS 인덱스가 '{FAISS_INDEX_PATH}'에 저장되었습니다.")
    return df, embeddings, index

# 3. 실행
# BM25 초기화
df, bm25 = initialize_bm25()

# FAISS 초기화 및 저장
df, embeddings, index = initialize_and_save_faiss()




BM25 초기화 완료.


  embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


FAISS 인덱스가 './data/symptom_index'에 저장되었습니다.


### 번외 - 코버트 모델 적용 (실패)

- 현재 KOBERT 모델적용 (한국어 유사도 기반으로 추천 받아서 실험해본 결과 실패)

In [6]:
import pandas as pd
import torch
from sentence_transformers import SentenceTransformer, util

# KOBERT 모델 초기화
def initialize_kobert():
    model_name = 'monologg/kobert'
    model = SentenceTransformer(model_name, trust_remote_code=True)
    return model

# 데이터 로드 및 임베딩 생성
def initialize_embeddings(file_path, model):
    df = pd.read_csv(file_path)

    # NaN 처리
    df['심각도2'] = df['심각도2'].fillna('없음')

    # 증상 텍스트를 기반으로 임베딩 생성
    symptom_texts = [
        f"증상: {row['증상']}\n심각도1: {row['심각도1']}\n심각도2: {row['심각도2']}\n응급처치: {row['응급처치']}"
        for _, row in df.iterrows()
    ]
    
    # 임베딩 생성
    embeddings = model.encode(symptom_texts, convert_to_tensor=True)
    
    print("임베딩 초기화 완료.")
    return df, embeddings, model

# 사용자 입력 처리 및 후속 질문 생성
def generate_response_with_similarity(user_input, df, embeddings, model):
    user_embedding = model.encode(user_input, convert_to_tensor=True)

    # 유사도 계산
    cosine_scores = util.cos_sim(user_embedding, embeddings)

    # 유사도 기준 상위 3개 항목을 선택
    top_k = 3
    top_k_scores, top_k_indices = torch.topk(cosine_scores, top_k, dim=1)

    # 가장 높은 유사도 인덱스 선택
    best_match_idx = top_k_indices[0][0].item()  # 첫 번째 항목의 첫 번째 인덱스 선택
    best_match = df.iloc[best_match_idx]

    severity1 = best_match["심각도1"]
    severity2 = best_match["심각도2"]
    emergency_action = best_match["응급처치"]

    # 후속 질문 생성
    if severity1 == '중증' and severity2 == '없음':
        follow_up_question = (
            f"답변: 이 증상은 중증으로 발전할 수 있습니다. 증상이 심각하다고 판단되시면, "
            f"지역을 입력해주시면, 가까운 응급실의 주소와 전화번호를 안내해드리겠습니다. 안내해드릴까요?"
        )
    elif severity1 == '경증' and severity2 == '없음':
        follow_up_question = (
            f"답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:\n"
            f"{emergency_action}\n\n"
            f"증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다. 병원을 방문하시겠습니까?"
        )
    elif severity1 == '경증' and severity2 == '중증':
        follow_up_question = (
            f"답변: 이 증상은 경증이지만 중증으로 발전할 수 있습니다. 증상이 심각해질 수 있으므로 주의가 필요합니다. "
            f"응급처치는 다음과 같습니다:\n{emergency_action}\n\n"
            f"증상이 악화되면 즉시 병원을 방문하시길 권장합니다. 병원 방문을 고려하시겠습니까?"
        )
    
    return follow_up_question

# 실행 함수
if __name__ == "__main__":
    file_path = './응급처치_증상_data_final.csv'  # 데이터 파일 경로
    model = initialize_kobert()  # KOBERT 모델 초기화
    df, embeddings, model = initialize_embeddings(file_path, model)  # 데이터 로드 및 임베딩 초기화
    
    # 증상 입력 예시
    symptom_input = "발이 삐인 것 같아"  # 입력 예시
    
    # 유사도 계산 후 후속 질문 생성
    response = generate_response_with_similarity(symptom_input, df, embeddings, model)
    
    # 출력
    print(f"질문: {symptom_input}")
    print(f"답변: {response}")


No sentence-transformers model found with name monologg/kobert. Creating a new one with mean pooling.


임베딩 초기화 완료.
질문: 발이 삐인 것 같아
답변: 답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 독거미에 물린 경우는 물린 부위 위로 타이를 매어 독이 퍼지지 않도록 방해하고, 적신 천이나 얼음으로 찜질을 하며 즉각적으로 해독제를 사용해야 합니다.
* 가능하면 물린 부위를 찬찜질해 줘야 하고, 타이가 너무 꽉 조여 혈액의 흐름이 막히지 않았는지 확인해야 합니다.
* 일반 거미에 물린 경우는 물린 부위를 깨끗하게 씻은 다음 시원한 것으로 눌러주고, 성인은 아스피린이나 아세트아미노펜 등을 먹어 증상을 가라앉힐 수 있습니다.
* 만약 증상이 심하다면 병원에 가야 합니다.

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다. 병원을 방문하시겠습니까?


In [8]:
 # 증상 입력 예시
symptom_input = "화상에 대한 응급처치"  # 입력 예시
    
# 유사도 계산 후 후속 질문 생성
response = generate_response_with_similarity(symptom_input, df, embeddings, model)
    
    # 출력
print(f"질문: {symptom_input}")
print(f"답변: {response}")

질문: 화상에 대한 응급처치
답변: 답변: 이 증상은 경증으로 보입니다. 응급처치는 다음과 같습니다:
* 이물질 제거 시도하지 말 것
* 종이컵으로 다친 눈 가린 후 손상되지 않은 눈도 가리기
* 안구 움직임으로 인한 이차적 손상 예방
* 목적 설명하여 환자 안정시키기
* 가능한 빨리 병원으로 이송

증상이 지속되거나 악화되면 가까운 병원에 방문하시길 권장합니다. 병원을 방문하시겠습니까?
