# **응급상황 자동 인식 및 응급실 연계 서비스**
# **단계1 : 응급상황 음성 인식 및 요약**

## **0.미션**

단계 1에서는, 응급상황의 음성을 인식해서 텍스트로 변환하고, 변환된 텍스트를 다시 요약 및 핵심키워드 도출 작업을 수행합니다.  
이를 위해 사전학습된 모델을 API로 연결하여 활용합니다.

### (1) 미션1
* 음성인식 : STT(Speech-to-Text)
    * 사용 모델 : OpenAI의 **Whisper-1**
    * 제공받은 음성 파일과 새로 제작하는 5건 이상의 음성파일을 텍스트로 변환하고, 변환작업이 잘 되는지 확인해 봅시다.

### (2) 미션2
* 텍스트 요약 및 핵심 키워드 도출
    * 사용 모델 : OpenAI의 **GPT-3.5-turbo**
    * 내용 요약과 주요 키워드를 도출하도록
    프롬프트 입력과 출력을 구성하고 테스트 해 봅시다.

* [추가]응급실 현황 다운로드(이 데이터는 단계3에서 필요합니다.)



## **1.환경설정**

### (1) 경로 설정

구글 드라이브 연결

#### 1) 구글 드라이브 폴더 생성
* 새 폴더(project6_2)를 생성하고
* 제공 받은 파일을 업로드

#### 2) 구글 드라이브 연결

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
path = '/content/drive/MyDrive/project6_2/'

### (2) 라이브러리

#### 1) 필요한 라이브러리 설치

* requirements.txt 파일의 [경로 복사]를 한 후,
* 아래 경로에 붙여 넣기

In [3]:
# 경로 : /content/drive/MyDrive/project6_2/requirements.txt
# 경로가 다른 경우 아래 코드의 경로 부분을 수정하세요.

!pip install -r /content/drive/MyDrive/project6_2/requirements.txt



#### 2) 라이브러리 로딩

In [4]:
#필요한 라이브러리 설치 및 불러우기
import os
import requests
import xml.etree.ElementTree as ET
import pandas as pd
import matplotlib.pyplot as plt
import openai
from openai import OpenAI
import json

# 더 필요한 라이브러리 추가 -------------




### (3) OpenAI API Key 환경 변수 설정

* 제공받은 open ai api key를 **api_key.txt** 파일에 저장합니다.
    * (제공받은 api_key.txt 파일은 비어 있습니다.)

* 다음 코드를 통해 환경변수로 등록 합니다.

In [5]:
def load_file(filepath):
    with open(filepath, 'r') as file:
        return file.readline().strip()

# API 키 로드 및 환경변수 설정
openai.api_key = load_file(path + 'api_key.txt')
os.environ['OPENAI_API_KEY'] = openai.api_key

* ⚠️ 아래 코드셀은, 실행해서 key가 제대로 보이는지 확인하고 결과는 삭제하세요.

In [6]:
print(os.environ['OPENAI_API_KEY'])

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


## **2. 미션1 : STT**

### (1) 제공된 데이터 변환
* 세부사항
    * 사용 모델 : whisper-1
    * 제공 받은 오디오 파일을 읽어서 텍스트로 변환시켜 봅시다.
        * 반복문을 통해 파일 하나씩 읽어서 텍스트 변환
        * 변환된 텍스트를 데이터 프레임에 추가

|filename|text|
|----|----|
|audio3.mp3|어쩌구 저쩌구...급해요.|

* 음성파일 변환

In [25]:
# 음성파일 경로 지정
audio_path = '/content/drive/MyDrive/project6_2/audio/'

In [26]:
# OpenAI 클라이언트 생성
client = OpenAI()

In [27]:
# 위스퍼 모델 사용 : 제공된 음성파일 중 1개를 텍스트로 변환해보기
filename = 'audio2.mp3'
audio_file = open(audio_path + filename, "rb")
transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="text",
)

print(transcript, type(transcript))

119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 아프고 좀 띵한 것 같아요. 우한이 좀 들어요. 어떻게 해야 할까요?
 <class 'str'>


* 음성파일 변환 함수 생성

In [28]:
def audio_to_text(audio_path, filename):
    # OpenAI 클라이언트 생성
    client = OpenAI()

    # 오디오 파일을 읽어서, 위스퍼를 사용한 변환
    audio_file = open(audio_path + filename, "rb")
    transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="text",
    )

    # 결과 반환
    return transcript

In [29]:
# 음성파일 이름을 리스트에 담기
file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]
print(file_names)

['audio1.mp3', 'audio2.mp3', 'audio4.mp3', 'audio5.mp3', 'audio3.mp3']


In [30]:
# 반복문을 통해, 파일 하나씩 읽어서 텍스트 변환, 변환된 텍스트를 데이터 프레임에 추가

# 빈 데이터프레임 선언
data = []

# 반복문 수행하면서 오디오 변환
for filename in file_names:
    text = audio_to_text(audio_path, filename)
    data.append({'filename': filename, 'text': text})

df = pd.DataFrame(data)

# 데이터프레임 결과 조회
print(df)

     filename                                               text
0  audio1.mp3  지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
1  audio2.mp3  119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
2  audio4.mp3  아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리...
3  audio5.mp3  화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4  audio3.mp3  동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...


### (2) 오디오 데이터 추가 수집(제작) 및 변환

* 세부사항
    * 응급 상황에 맞는 음성 녹음하기
        * 응급 등급별 1개 이상씩(총 5개 이상)
    * 반복문을 통해 모든 음성 파일 데이터 변환 : STT
        * 변환 내용은 위에서 저장한 데이터프레임에 추가
    * 변환 후 음성 내용과 변환 결과를 비교


In [31]:
# 음성파일 경로 지정
audio_path = '/content/drive/MyDrive/project6_2/audio_1/'

In [32]:
def audio_to_text(audio_path, filename):
    # OpenAI 클라이언트 생성
    client = OpenAI()

    # 오디오 파일을 읽어서, 위스퍼를 사용한 변환
    audio_file = open(audio_path + filename, "rb")
    transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="text",
    )

    # 결과 반환
    return transcript

In [35]:
# 음성파일 이름을 리스트에 담기
file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]
print(file_names)

['custom_audio8.mp3', 'custom_audio6.mp3', 'custom_audio10.mp3', 'custom_audio7.mp3', 'custom_audio9.mp3', 'custom_audio5.mp3', 'custom_audio4.mp3', 'custom_audio1.mp3', 'custom_audio3.mp3', 'custom_audio2.mp3']


In [36]:
# 반복문을 통해, 파일 하나씩 읽어서 텍스트 변환, 변환된 텍스트를 데이터 프레임에 추가

# 빈 데이터프레임 선언
data = []

# 반복문 수행하면서 오디오 변환
for filename in file_names:
    text = audio_to_text(audio_path, filename)
    data.append({'filename': filename, 'text': text})

df = pd.DataFrame(data)

# 데이터프레임 결과 조회
print(df)

             filename                                               text
0   custom_audio8.mp3  친구가 바닥에 쓰러졌어요. 얼굴이 붓고 코에서 피가 나고 있어요. 말을 하려다가 힘...
1   custom_audio6.mp3  길에서 한 분이 쓰러지셨습니다. 의식이 없고 숨을 쉬지 않아요. 얼굴이 창백하고 입...
2  custom_audio10.mp3  길에서 한 사람이 손에 작은 상처가 나서 피가 나고 있어요 상처는 깊지 않지만 출혈...
3   custom_audio7.mp3  교차로에서 큰 사고가 났어요. 두 대의 차가 부딪혔고 한 대는 전복됐습니다. 차 안...
4   custom_audio9.mp3  아빠가 갑자기 열이 나고 복통을 호소하고 있어요 열은 38도가 넘고 계속 아프다고 ...
5   custom_audio5.mp3  지금 여기 부산대역 입구에서 교통사고가 나서 한 명이 오토바이랑 부딪혀서 한 20미...
6   custom_audio4.mp3  지금 여기 건물에 아는 동생이 계단에서 넘어졌는데 다리를 접질려서 일어나지 못하는 ...
7   custom_audio1.mp3  친구가 콘센트에 젓가락을 꽂다가 감전된 채로 발견됐습니다. 쓰러져 있는데 숨을 쉬지...
8   custom_audio3.mp3  지금 친한 형이 축구 하다가 넘어졌는데 지금 넘어져 있고 발목을 접질렸는데 발목이 ...
9   custom_audio2.mp3  친구가 클라이밍 하다가 떨어졌는데 목뼈가 튀어나오고 지금 애가 정신이 없어요 눈도 ...


## **3. 미션2 : Summary**

* 세부사항
    * 문서요약 예제 파일을 참조하여 테스트 해 봅니다.
    * 코드를 참조하여, 원하는 형식에 맞게 요약이 되도록 프롬프트를 구성합니다.
        * 요약 시 중요 키워드들이 함께 도출되도록 합니다.
        * 가능하다면, 요약 문장 길이에 제한을 둡시다.
    * 반복문을 통해 요약하고, 결과를 데이터프레임에 추가합니다.
        * summary 열을 추가하고, 요약 결과를 입력
            * 요약결과와 키워드는 하나의 문자열로 붙여서 summary열에 추가

### (1) 문서 요약

* 문서 요약 예제

In [37]:
input_text = '''
한국은행 총재가 "올해 성장률이 기존 전망치 2.4%보다 낮아질 가능성이 크다"며 "2.2∼2.3% 정도로 떨어지지 않을까 생각한다"고 밝혔습니다.
이 총재는 오늘(29일) 국회 기획재정위원회 국정감사에 출석해 한은의 전망을 크게 밑돈 3분기 성장률을 바탕으로 올해 성장률 전망치가 조정될 가능성에 대해 이렇게 말했습니다.
성장률 하락의 가장 큰 요인인 수출 감소의 배경에 대해 이 총재는 "금액 기준으로 봐서는 수출이 안 떨어졌는데, 수량을 기준으로 떨어졌다"며 "자동차 파업 등 일시적 요인과 화학제품·반도체의 중국과 경쟁 등으로 수량이 안 늘어나는 것 같은데, 원인을 더 분석해봐야 할 사안"이라고 진단했습니다.
다음 달 28일 열릴 기준금리 결정 방향에 대해서는 "금리 결정할 때 하나의 변수만 보지 않고 종합적으로 보는데, 우선 미국 대선과 연방준비제도 금리 결정으로 경제 상황이 어떻게 변할지 보겠다"고 밝혔습니다.
또 "아울러 이후 달러가 어떻게 될지, 수출 등 내년 경제 전망과 거시안전성 정책이 부동산·가계부채에 미치는 영향 등도 고려해 결정하겠다"고 말했습니다.
'''

system_role = '''당신은 신문기사에서 핵심을 요약하는 어시스턴트입니다.
응답은 다음의 형식을 지켜주세요
{"summary": \"텍스트 요약\"}
'''

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {
            "role": "system",
            "content": system_role
        },
        {
            "role": "user",
            "content": input_text
        }
    ]
)

# 답변
answer = response.choices[0].message.content
print(answer)

{"summary": "한국은행 총재는 올해 성장률이 2.4% 전망치보다 낮아질 가능성이 크다며 2.2∼2.3%로 예상했다. 수출 감소가 주요 요인이며, 수량 기준으로는 감소한 상황이라고 설명했다. 결정적인 변수는 미국 대선과 연방준비제도의 금리 결정이며, 달러 가격 변동, 내년 경제 전망, 거시안전성 정책 영향 등도 고려해 기준금리 결정이 이뤄질 것이다."}


* 문서 요약 함수로 생성

In [38]:
def text_summary(input_text):
    # OpenAI 클라이언트 생성
    client = OpenAI()

    # 시스템 역할과 응답 형식 지정
    system_role = '''당신은 신문기사에서 핵심을 요약하는 어시스턴트입니다.
    응답은 다음의 형식을 지켜주세요
    {"summary": \"텍스트 요약\"}
    '''


    # 입력데이터를 GPT-3.5-turbo에 전달하고 답변 받아오기
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {
                "role": "system",
                "content": system_role
            },
            {
                "role": "user",
                "content": input_text
            }
        ]
    )

    # 응답 받기
    answer = response.choices[0].message.content

    # 응답형식을 정리하고 return
    return answer

* 저장된 text를 하나씩 불러와서 요약하고 다시 저장하기

In [39]:
input_text = '''
한국은행 총재가 "올해 성장률이 기존 전망치 2.4%보다 낮아질 가능성이 크다"며 "2.2∼2.3% 정도로 떨어지지 않을까 생각한다"고 밝혔습니다.
이 총재는 오늘(29일) 국회 기획재정위원회 국정감사에 출석해 한은의 전망을 크게 밑돈 3분기 성장률을 바탕으로 올해 성장률 전망치가 조정될 가능성에 대해 이렇게 말했습니다.
성장률 하락의 가장 큰 요인인 수출 감소의 배경에 대해 이 총재는 "금액 기준으로 봐서는 수출이 안 떨어졌는데, 수량을 기준으로 떨어졌다"며 "자동차 파업 등 일시적 요인과 화학제품·반도체의 중국과 경쟁 등으로 수량이 안 늘어나는 것 같은데, 원인을 더 분석해봐야 할 사안"이라고 진단했습니다.
다음 달 28일 열릴 기준금리 결정 방향에 대해서는 "금리 결정할 때 하나의 변수만 보지 않고 종합적으로 보는데, 우선 미국 대선과 연방준비제도 금리 결정으로 경제 상황이 어떻게 변할지 보겠다"고 밝혔습니다.
또 "아울러 이후 달러가 어떻게 될지, 수출 등 내년 경제 전망과 거시안전성 정책이 부동산·가계부채에 미치는 영향 등도 고려해 결정하겠다"고 말했습니다.
'''
summary = text_summary(input_text)
summary

'{"summary": "한국은행 총재는 올해 성장률이 2.4%보다 낮아질 가능성이 높아 2.2∼2.3% 정도로 떨어질 것으로 예상한다고 밝혔습니다. 수출 감소의 주된 이유는 자동차 파업과 중국과의 경쟁으로 수량이 감소한 것으로 분석했으며, 3분기 성장률을 바탕으로 성장률 전망치가 조정될 가능성을 언급했습니다. 기준금리 결정에는 미국 대선과 연방준비제도의 금리 결정 등 다양한 변수를 고려해 경제 상황을 판단할 것이라고 밝혔습니다."}'

In [40]:
# 파일에 저장
with open('summary_output.txt', 'w', encoding='utf-8') as file:
    file.write(summary)

### (2) 전국 병원 응급실 정보 수집



#### 1) 인증키 발급

* 인증키 발급 절차
    * 1) data.go.kr 회원가입
    * 2) 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
https://www.data.go.kr/data/15000563/openapi.do 로 이동
    * 3) 활용신청
        * 활용목적 : 기타(개인 학습 용도)
        * 상세 기능선택
            * 응급의료기관 목록정보 조회
            * 응급의료기관 위치정보 조회
            * 응급의료기관 기본정보 조회
    * 4) 인증키 확인
        * 마이페이지 > Open API > 활용신청현황
        * [승인] 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
        * 일반 인증키(Decoding) 이용

#### 2) 데이터 수집

In [41]:
# path 확인
path

'/content/drive/MyDrive/project6_2/'

In [42]:
# 응급실 데이터 수집하기

url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getStrmBassInfoInqire'
serviceKey = 'rY45HIn5PsLfjaj6FlWfvRS6Cxzbk/tn2gorloJZvtUlxCHUZ4a80UuVqy3hociP3sf3lu0acwzaoKemO3t9VQ=='     # 여러분의 일반 인증키(Decoding)

params = {
    'serviceKey': serviceKey,
    'pageNo': '1', 'numOfRows': '1000',  # 전체 응급실 수가 500여개 됨. 1000개면 충분
    'format': 'xml'
}

response = requests.get(url, params = params)

# 정상 수행 되었다면 200
print(response)

<Response [200]>


In [43]:
# response xml에서 주요 정보 찾기
root = ET.fromstring(response.text)

data = []

for item in root. findall('.//item'):
    duty_name = item.findtext('dutyName')
    duty_addr = item.findtext('dutyAddr')
    # 필요한 정보 추가


    # 빈 리스트 data에 딕시너리 형태({'칼럼이름':값, ...})로 저장(추가)
    data.append({'duty_name': duty_name, 'duty_addr': duty_addr})

# 데이터프레임으로 변환
df = pd.DataFrame(data)
df

Unnamed: 0,duty_name,duty_addr
0,연세대학교원주세브란스기독병원,강원특별자치도 원주시 일산로 20 (일산동)
1,충북대학교병원,"충청북도 청주시 서원구 1순환로 776-0 (개신동,충북대학교병원)"
2,단국대학교의과대학부속병원,"충청남도 천안시 동남구 망향로 201 (안서동, 단국대학교의과대학부속병원)"
3,원광대학교병원,전북특별자치도 익산시 무왕로 895 (신동)
4,목포한국병원,전라남도 목포시 영산로 483 (상동)
5,의료법인안동병원,경상북도 안동시 앙실로 11 (수상동)
6,경상국립대학교병원,경상남도 진주시 강남로 79 (칠암동)
7,제주한라병원,"제주특별자치도 제주시 도령로 65- (연동, (연동))"
8,학교법인울산공업학원울산대학교병원,"울산광역시 동구 대학병원로 25, 울산대학교병원 (전하동)"
9,아주대학교병원,경기도 수원시 영통구 월드컵로 164 (원천동)


In [44]:
# csv 파일로 저장(인덱스 제외)


## **Mission Complete!**

수고 많았습니다!