# **응급상황 자동 인식 및 응급실 연계 서비스**
# **단계1 : 응급상황 음성 인식 및 요약**

## **0.미션**

단계 1에서는, 응급상황의 음성을 인식해서 텍스트로 변환하고, 변환된 텍스트를 다시 요약 및 핵심키워드 도출 작업을 수행합니다.  
이를 위해 사전학습된 모델을 API로 연결하여 활용합니다.

### (1) 미션1
* 음성인식 : STT(Speech-to-Text)
    * 사용 모델 : OpenAI의 **Whisper-1**
    * 제공받은 음성 파일과 새로 제작하는 5건 이상의 음성파일을 텍스트로 변환하고, 변환작업이 잘 되는지 확인해 봅시다.

### (2) 미션2
* 텍스트 요약 및 핵심 키워드 도출
    * 사용 모델 : OpenAI의 **GPT-3.5-turbo**
    * 내용 요약과 주요 키워드를 도출하도록
    프롬프트 입력과 출력을 구성하고 테스트 해 봅시다.

* [추가]응급실 현황 다운로드(이 데이터는 단계3에서 필요합니다.)



## **1.환경설정**

### (1) 경로 설정

구글 드라이브 연결

#### 1) 구글 드라이브 폴더 생성
* 새 폴더(project6_2)를 생성하고
* 제공 받은 파일을 업로드

#### 2) 구글 드라이브 연결

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
path = '/content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/'

### (2) 라이브러리

#### 1) 필요한 라이브러리 설치

* requirements.txt 파일의 [경로 복사]를 한 후,
* 아래 경로에 붙여 넣기

In [None]:
# 경로 : /content/drive/MyDrive/project6_2/requirements.txt
# 경로가 다른 경우 아래 코드의 경로 부분을 수정하세요.

!pip install -r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt

Collecting datasets (from -r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt (line 2))
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting haversine (from -r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt (line 3))
  Downloading haversine-2.8.1-py2.py3-none-any.whl.metadata (5.9 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets->-r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt (line 2))
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets->-r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt (line 2))
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets->-r /content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/requirements.txt (line 2))
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=202

#### 2) 라이브러리 로딩

In [None]:
#필요한 라이브러리 설치 및 불러우기
import os
import requests
import xml.etree.ElementTree as ET
import pandas as pd
import matplotlib.pyplot as plt
import openai
from openai import OpenAI
import json

# 더 필요한 라이브러리 추가 -------------




### (3) OpenAI API Key 환경 변수 설정

* 제공받은 open ai api key를 **api_key.txt** 파일에 저장합니다.
    * (제공받은 api_key.txt 파일은 비어 있습니다.)

* 다음 코드를 통해 환경변수로 등록 합니다.

In [None]:
def load_file(filepath):
    with open(filepath, 'r') as file:
        return file.readline().strip()

# API 키 로드 및 환경변수 설정
openai.api_key = load_file(path + 'api_key.txt')
os.environ['OPENAI_API_KEY'] = openai.api_key

* ⚠️ 아래 코드셀은, 실행해서 key가 제대로 보이는지 확인하고 결과는 삭제하세요.

In [None]:
print(os.environ['OPENAI_API_KEY'])

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


## **2. 미션1 : STT**

### (1) 제공된 데이터 변환
* 세부사항
    * 사용 모델 : whisper-1
    * 제공 받은 오디오 파일을 읽어서 텍스트로 변환시켜 봅시다.
        * 반복문을 통해 파일 하나씩 읽어서 텍스트 변환
        * 변환된 텍스트를 데이터 프레임에 추가

|filename|text|
|----|----|
|audio3.mp3|어쩌구 저쩌구...급해요.|

* 음성파일 변환

In [None]:
# 음성파일 경로 지정
audio_path = path + 'audio/'

In [None]:
# OpenAI 클라이언트 생성
client = OpenAI()

In [None]:
# 위스퍼 모델 사용 : 제공된 음성파일 중 1개를 텍스트로 변환해보기
filename = 'audio2.mp3'
audio_file = open(audio_path + filename, "rb")
transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="text",
)

print(transcript, type(transcript))

119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 아프고 좀 띵한 것 같아요. 우한이 좀 들어요. 어떻게 해야 할까요?
 <class 'str'>


* 음성파일 변환 함수 생성

In [None]:
def audio_to_text(audio_path, filename):
    # OpenAI 클라이언트 생성
    client = OpenAI()

    # 오디오 파일을 읽어서, 위스퍼를 사용한 변환
    audio_file = open(audio_path + filename, "rb")
    transcript = client.audio.transcriptions.create(
        file=audio_file,
        model="whisper-1",
        language="ko",
        response_format="text",
    )


    # 결과 반환

    return transcript

In [None]:
# 음성파일 이름을 리스트에 담기
file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]
print(file_names)

['audio1.mp3', 'audio4.mp3', 'audio2.mp3', 'audio5.mp3', 'audio3.mp3']


In [None]:
# 반복문을 통해, 파일 하나씩 읽어서 텍스트 변환, 변환된 텍스트를 데이터 프레임에 추가

# 빈 데이터프레임 선언
audio2text_df = pd.DataFrame(columns=['filename', 'text'])

# 반복문 수행하면서 오디오 변환
for filename in file_names:
    text = audio_to_text(audio_path, filename)

    # 데이터프레임에 추가
    audio2text_df = pd.concat([audio2text_df, pd.DataFrame({'filename': [filename], 'text': [text]})], ignore_index=True)

# 데이터프레임 결과 조회
audio2text_df

Unnamed: 0,filename,text
0,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
1,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리..."
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...


### (2) 오디오 데이터 추가 수집(제작) 및 변환

* 세부사항
    * 응급 상황에 맞는 음성 녹음하기
        * 응급 등급별 1개 이상씩(총 5개 이상)
    * 반복문을 통해 모든 음성 파일 데이터 변환 : STT
        * 변환 내용은 위에서 저장한 데이터프레임에 추가
    * 변환 후 음성 내용과 변환 결과를 비교


In [None]:
from pydub import AudioSegment

def convert_m4a_to_mp3_and_delete(audio_path):
    file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f)) and f.lower().endswith('.m4a')]

    for file_name in file_names:
        m4a_path = os.path.join(audio_path, file_name)
        mp3_path = os.path.join(audio_path, file_name.replace('.m4a', '.mp3'))

        # Convert M4A to MP3
        audio = AudioSegment.from_file(m4a_path, format="m4a")
        audio.export(mp3_path, format="mp3")
        print(f"Converted {file_name} to MP3 format.")

        # Delete the original M4A file
        os.remove(m4a_path)
        print(f"Deleted original M4A file: {file_name}")

# 예시 사용법
audio_path = '/content/drive/MyDrive/project6/project6_2/voice/'
convert_m4a_to_mp3_and_delete(audio_path)

## **3. 미션2 : Summary**

* 세부사항
    * 문서요약 예제 파일을 참조하여 테스트 해 봅니다.
    * 코드를 참조하여, 원하는 형식에 맞게 요약이 되도록 프롬프트를 구성합니다.
        * 요약 시 중요 키워드들이 함께 도출되도록 합니다.
        * 가능하다면, 요약 문장 길이에 제한을 둡시다.
    * 반복문을 통해 요약하고, 결과를 데이터프레임에 추가합니다.
        * summary 열을 추가하고, 요약 결과를 입력
            * 요약결과와 키워드는 하나의 문자열로 붙여서 summary열에 추가

### (1) 문서 요약

* 문서 요약 예제

In [None]:
input_text = '''
한국은행 총재가 "올해 성장률이 기존 전망치 2.4%보다 낮아질 가능성이 크다"며 "2.2∼2.3% 정도로 떨어지지 않을까 생각한다"고 밝혔습니다.
이 총재는 오늘(29일) 국회 기획재정위원회 국정감사에 출석해 한은의 전망을 크게 밑돈 3분기 성장률을 바탕으로 올해 성장률 전망치가 조정될 가능성에 대해 이렇게 말했습니다.
성장률 하락의 가장 큰 요인인 수출 감소의 배경에 대해 이 총재는 "금액 기준으로 봐서는 수출이 안 떨어졌는데, 수량을 기준으로 떨어졌다"며 "자동차 파업 등 일시적 요인과 화학제품·반도체의 중국과 경쟁 등으로 수량이 안 늘어나는 것 같은데, 원인을 더 분석해봐야 할 사안"이라고 진단했습니다.
다음 달 28일 열릴 기준금리 결정 방향에 대해서는 "금리 결정할 때 하나의 변수만 보지 않고 종합적으로 보는데, 우선 미국 대선과 연방준비제도 금리 결정으로 경제 상황이 어떻게 변할지 보겠다"고 밝혔습니다.
또 "아울러 이후 달러가 어떻게 될지, 수출 등 내년 경제 전망과 거시안전성 정책이 부동산·가계부채에 미치는 영향 등도 고려해 결정하겠다"고 말했습니다.
'''

system_role = '''당신은 신문기사에서 핵심을 요약하는 어시스턴트입니다.
응답은 다음의 형식을 지켜주세요
{"summary": \"텍스트 요약\"}
'''

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {
            "role": "system",
            "content": system_role
        },
        {
            "role": "user",
            "content": input_text
        }
    ]
)

# 답변
answer = response.choices[0].message.content
print(answer)

{"summary": "한국은행 총재는 올해 성장률이 기존 전망치보다 2.4% 낮아질 가능성이 있으며, 2.2∼2.3%로 예상된다고 밝혔다. 수출 감소와 관련하여 자동차 파업과 중국과의 경쟁이 수출량에 영향을 미치고 있다고 분석했다. 미국 대선과 연방준비제도의 경제 변화, 달러의 움직임, 내년 경제 전망, 부동산 및 가계부채 등을 종합적으로 고려하여 다음 달의 기준금리 결정을 내릴 계획이라고 말했다."}


* 문서 요약 함수로 생성

In [None]:
def text_summary(input_text):
    # OpenAI 클라이언트 생성
    client = OpenAI()

    # 시스템 역할과 응답 형식 지정
    system_role = '''당신은 신문기사에서 핵심을 요약하는 어시스턴트입니다.
    응답은 다음의 형식을 지켜주세요
    {"summary": \"텍스트 요약\"}
    '''

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {
                "role": "system",
                "content": system_role
            },
            {
                "role": "user",
                "content": input_text
            }
        ]
    )




    # 응답 받기
    answer = response.choices[0].message.content


    # 응답형식을 정리하고 return
    return answer


* 저장된 text를 하나씩 불러와서 요약하고 다시 저장하기

In [None]:
# 반복문을 통해, 파일 하나씩 읽어서 텍스트 변환, 변환된 텍스트를 데이터 프레임에 추가

# 빈 데이터프레임 선언
audio2text_df = pd.DataFrame(columns=['filename', 'text'])
text_summary_df = pd.DataFrame(columns=['filename', 'summary'])
# 반복문 수행하면서 오디오 변환
for filename in file_names:
    text = audio_to_text(audio_path, filename)
    summary = text_summary(text)

    # 데이터프레임에 추가
    audio2text_df = pd.concat([audio2text_df, pd.DataFrame({'filename': [filename], 'text': [text]})], ignore_index=True)
    text_summary_df = pd.concat([text_summary_df, pd.DataFrame({'filename': [filename], 'summary': [summary]})], ignore_index=True)
# 데이터프레임 결과 조회
audio2text_df

Unnamed: 0,filename,text
0,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
1,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리..."
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...


In [None]:
text_summary_df

Unnamed: 0,filename,summary
0,audio1.mp3,"{""summary"": ""남성이 굴러 넘어져 머리로부터 피가 나고 어지러움을 느낌. ..."
1,audio4.mp3,"{""summary"": ""머리를 박아서 3시간이 지났음에도 머리가 어지럽고 속이 메스..."
2,audio2.mp3,"{""summary"": ""열이 있고 두통과 흐릿함을 느끼고 있고, 우한이 난다고 합니..."
3,audio5.mp3,"{""summary"": ""화장실에서 미끄러져 엉덩방아를 찍은 후 꼬리뼈가 계속 아프다..."
4,audio3.mp3,"{""summary"": ""콩이 동생의 코에 들어가 한쪽 코가 막혀있을 때, 코를 반대..."


### (2) 전국 병원 응급실 정보 수집



#### 1) 인증키 발급

* 인증키 발급 절차
    * 1) data.go.kr 회원가입
    * 2) 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
https://www.data.go.kr/data/15000563/openapi.do 로 이동
    * 3) 활용신청
        * 활용목적 : 기타(개인 학습 용도)
        * 상세 기능선택
            * 응급의료기관 목록정보 조회
            * 응급의료기관 위치정보 조회
            * 응급의료기관 기본정보 조회
    * 4) 인증키 확인
        * 마이페이지 > Open API > 활용신청현황
        * [승인] 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
        * 일반 인증키(Decoding) 이용

#### 2) 데이터 수집

In [None]:
# path 확인
path ='/content/drive/MyDrive/kt/projects_kt/project_6_2/6_2/'

In [None]:
# 응급실 데이터 수집하기

url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEmrrmRltmUsefulSckbdInfoInqire?STAGE1=%EC%84%9C%EC%9A%B8%ED%8A%B9%EB%B3%84%EC%8B%9C&STAGE2=%EC%A2%85%EB%A1%9C%EA%B5%AC&pageNo=1&numOfRows=30'
serviceKey = 'X9l1WG8kIhvLU9c6R5L4mUPD1x/lcD9KBllxqM6xGgDvmSBmRUu59iDamCcDbTMgb3gMVTIyq09+uuDT2K8NGw=='

params = {
    'serviceKey': serviceKey,
    'pageNo': '1', 'numOfRows': '1000',  # 전체 응급실 수가 500여개 됨. 1000개면 충분
    'format': 'xml'
}

response = requests.get(url, params = params)

# 정상 수행 되었다면 200
print(response)

<Response [200]>


In [None]:
from xml.dom import minidom

# Pretty Print XML
xml_str = ET.tostring(root, encoding='unicode')
pretty_xml = minidom.parseString(xml_str).toprettyxml(indent="  ")

print(pretty_xml)


<?xml version="1.0" ?>
<response>
  <header>
    <resultCode>00</resultCode>
    <resultMsg>NORMAL SERVICE.</resultMsg>
  </header>
  <body>
    <items>
      <item>
        <dutyName>의료법인강릉동인병원</dutyName>
        <dutyTel3>033-650-6105</dutyTel3>
        <hpid>A2200005</hpid>
        <hv2>0</hv2>
        <hv29>1</hv29>
        <hv30>2</hv30>
        <hv35>2</hv35>
        <hv40>0</hv40>
        <hv5>Y</hv5>
        <hv7>Y</hv7>
        <hvamyn>Y</hvamyn>
        <hvangioayn>Y</hvangioayn>
        <hvcrrtayn>Y</hvcrrtayn>
        <hvctayn>Y</hvctayn>
        <hvec>9</hvec>
        <hvecmoayn>N1</hvecmoayn>
        <hvgc>55</hvgc>
        <hvhypoayn>N1</hvhypoayn>
        <hvicc>2</hvicc>
        <hvidate>20241118141109</hvidate>
        <hvincuayn>N1</hvincuayn>
        <hvmriayn>Y</hvmriayn>
        <hvoc>3</hvoc>
        <hvoxyayn>N1</hvoxyayn>
        <hvs01>17</hvs01>
        <hvs03>1</hvs03>
        <hvs04>2</hvs04>
        <hvs06>12</hvs06>
        <hvs17>12</hvs17>
        <hvs1

In [None]:
# response xml에서 주요 정보 찾기
root = ET.fromstring(response.text)

data = []

for item in root. findall('.//item'):
    duty_name = item.findtext('dutyName')
    hvamyn = item.findtext('hvamyn') #구급차가용여부
    hpid = item.findtext('hpid') # 병원고유코드
    # 필요한 정보 추가

    hvidate = item.findtext('hvidate') # 업데이트 기간
    room_count = item.findtext('hv30') #일반병상
    hvs01 = item.findtext('hvs01')
    hvs03 = item.findtext('hvs03')
    hvs38 = item.findtext('hvs38')

    hvec = item.findtext('hvec') #일반수술실

    # 빈 리스트 data에 딕시너리 형태({'칼럼이름':값, ...})로 저장(추가)
    data.append({
        'duty_name': duty_name,
        'hvamyn': hvamyn,
        'hpid': hpid,
        'hvidate': hvidate,
        'room_count': room_count,
        'hvs01': hvs01,
        'hvs03': hvs03,
        'hvs38': hvs38,
        'hvec': hvec
    })
# 데이터프레임으로 변환
data = pd.DataFrame(data)
data


Unnamed: 0,duty_name,hvamyn,hpid,hvidate,room_count,hvs01,hvs03,hvs38,hvec
0,서울대학교병원,Y,A1100017,20241118142611,4.0,24,2.0,1515,-21
1,강북삼성병원,Y,A1100006,20241118142655,2.0,15,1.0,630,-3
2,서울적십자병원,Y,A1100029,20241118142650,,10,1.0,260,8
3,세란병원,Y,A1100032,20241118142653,1.0,10,,204,5


In [None]:
# csv 파일로 저장(인덱스 제외)
csv_file_path = path + 'emergency_room.csv'
data.to_csv(csv_file_path, index=False)

## **Mission Complete!**

수고 많았습니다!