# **응급상황 자동 인식 및 응급실 연계 서비스**
# **단계1 : 응급상황 음성 인식 및 요약**

## **0.미션**

단계 1에서는, 응급상황의 음성을 인식해서 텍스트로 변환하고, 변환된 텍스트를 다시 요약 및 핵심키워드 도출 작업을 수행합니다.  
이를 위해 사전학습된 모델을 API로 연결하여 활용합니다.

### (1) 미션1
* 음성인식 : STT(Speech-to-Text)
    * 사용 모델 : OpenAI의 **Whisper-1**
    * 제공받은 음성 파일과 새로 제작하는 5건 이상의 음성파일을 텍스트로 변환하고, 변환작업이 잘 되는지 확인해 봅시다.

### (2) 미션2
* 텍스트 요약 및 핵심 키워드 도출
    * 사용 모델 : OpenAI의 **GPT-3.5-turbo**
    * 내용 요약과 주요 키워드를 도출하도록
    프롬프트 입력과 출력을 구성하고 테스트 해 봅시다.

* [추가]응급실 현황 다운로드(이 데이터는 단계3에서 필요합니다.)



## **1.환경설정**

### (1) 경로 설정

구글 드라이브 연결

#### 1) 구글 드라이브 폴더 생성
* 새 폴더(project6_2)를 생성하고
* 제공 받은 파일을 업로드

#### 2) 구글 드라이브 연결

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
path = '/content/drive/MyDrive/project6_2/'

### (2) 라이브러리

#### 1) 필요한 라이브러리 설치

* requirements.txt 파일의 [경로 복사]를 한 후,
* 아래 경로에 붙여 넣기

In [4]:
# 경로 : /content/drive/MyDrive/project6_2/requirements.txt
# 경로가 다른 경우 아래 코드의 경로 부분을 수정하세요.

!pip install -r /content/drive/MyDrive/project6_2/requirements.txt

Collecting datasets (from -r /content/drive/MyDrive/project6_2/requirements.txt (line 2))
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting haversine (from -r /content/drive/MyDrive/project6_2/requirements.txt (line 3))
  Downloading haversine-2.8.1-py2.py3-none-any.whl.metadata (5.9 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets->-r /content/drive/MyDrive/project6_2/requirements.txt (line 2))
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets->-r /content/drive/MyDrive/project6_2/requirements.txt (line 2))
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets->-r /content/drive/MyDrive/project6_2/requirements.txt (line 2))
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets->-r /content/drive/MyDrive/project6_2/requir

#### 2) 라이브러리 로딩

In [5]:
#필요한 라이브러리 설치 및 불러우기
import os
import requests
import xml.etree.ElementTree as ET
import pandas as pd
import matplotlib.pyplot as plt
import openai
from openai import OpenAI
import json

# 더 필요한 라이브러리 추가 -------------




### (3) OpenAI API Key 환경 변수 설정

* 제공받은 open ai api key를 **api_key.txt** 파일에 저장합니다.
    * (제공받은 api_key.txt 파일은 비어 있습니다.)

* 다음 코드를 통해 환경변수로 등록 합니다.

In [6]:
def load_file(filepath):
    with open(filepath, 'r') as file:
        return file.readline().strip()

# API 키 로드 및 환경변수 설정
openai.api_key = load_file(path + 'api_key.txt')
os.environ['OPENAI_API_KEY'] = openai.api_key

* ⚠️ 아래 코드셀은, 실행해서 key가 제대로 보이는지 확인하고 결과는 삭제하세요.

In [7]:
print(os.environ['OPENAI_API_KEY'])

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


## **2. 미션1 : STT**

### (1) 제공된 데이터 변환
* 세부사항
    * 사용 모델 : whisper-1
    * 제공 받은 오디오 파일을 읽어서 텍스트로 변환시켜 봅시다.
        * 반복문을 통해 파일 하나씩 읽어서 텍스트 변환
        * 변환된 텍스트를 데이터 프레임에 추가

|filename|text|
|----|----|
|audio3.mp3|어쩌구 저쩌구...급해요.|

* 음성파일 변환

In [8]:
# 음성파일 경로 지정
# path = '/content/drive/MyDrive/project6_2/'
audio_path = path + 'audio/'
#/content/drive/MyDrive/project6_2/audio
#/content/drive/MyDrive/project6_2/audio/
print(audio_path)

/content/drive/MyDrive/project6_2/audio/


In [9]:
# 경로에 있는 파일 목록 가져오기
"""
files = os.listdir(audio_path)

# 파일 개수 출력
file_count = len(files)
print(f"파일 개수: {file_count}")
file_count = int(file_count = )
"""

'\nfiles = os.listdir(audio_path)\n\n# 파일 개수 출력\nfile_count = len(files)\nprint(f"파일 개수: {file_count}")\nfile_count = int(file_count = )\n'

In [10]:
"""
# 경로에 있는 .mp3 파일 목록 가져오기
file_names = [f for f in os.listdir(audio_path) if f.endswith('.mp3')]
file_count = len(file_names)
"""

"\n# 경로에 있는 .mp3 파일 목록 가져오기\nfile_names = [f for f in os.listdir(audio_path) if f.endswith('.mp3')]\nfile_count = len(file_names)\n"

In [11]:
"""
from openai import OpenAI
client = OpenAI()

for i in range(file_count):
  #audio_file = open(audio_path + "audio" + (i+1)+ ".mp3", "rb")
  audio_file = open(os.path.join(audio_path, file_names[i]), "rb")
  transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    response_format="text"

  )

  #print(transcription.text)
  print(transcription)

  # 음성파일 이름을 리스트에 담기
  #file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]
print(file_names)
"""

'\nfrom openai import OpenAI\nclient = OpenAI()\n\nfor i in range(file_count):\n  #audio_file = open(audio_path + "audio" + (i+1)+ ".mp3", "rb")\n  audio_file = open(os.path.join(audio_path, file_names[i]), "rb")\n  transcription = client.audio.transcriptions.create(\n    model="whisper-1",\n    file=audio_file,\n    response_format="text"\n\n  )\n\n  #print(transcription.text)\n  print(transcription)\n\n  # 음성파일 이름을 리스트에 담기\n  #file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]\nprint(file_names)\n'

In [12]:
# OpenAI 클라이언트 생성
#client =

In [13]:
"""
# 위스퍼 모델 사용 : 제공된 음성파일 중 1개를 텍스트로 변환해보기
filename = 'audio2.mp3'
audio_file = open(audio_path + filename, "rb")
transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="text",
)

print(transcript, type(transcript))
"""

'\n# 위스퍼 모델 사용 : 제공된 음성파일 중 1개를 텍스트로 변환해보기\nfilename = \'audio2.mp3\'\naudio_file = open(audio_path + filename, "rb")\ntranscript = client.audio.transcriptions.create(\n    file=audio_file,\n    model="whisper-1",\n    language="ko",\n    response_format="text",\n)\n\nprint(transcript, type(transcript))\n'

* 음성파일 변환 함수 생성

In [14]:
"""
def audio_to_text(audio_path, filename):
    # OpenAI 클라이언트 생성


    # 오디오 파일을 읽어서, 위스퍼를 사용한 변환


    # 결과 반환
"""

'\ndef audio_to_text(audio_path, filename):\n    # OpenAI 클라이언트 생성\n\n\n    # 오디오 파일을 읽어서, 위스퍼를 사용한 변환\n\n\n    # 결과 반환\n'

In [15]:
"""
# 음성파일 이름을 리스트에 담기
file_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]
print(file_names)
"""

'\n# 음성파일 이름을 리스트에 담기\nfile_names = [f for f in os.listdir(audio_path) if os.path.isfile(os.path.join(audio_path, f))]\nprint(file_names)\n'

In [16]:
# 반복문을 통해, 파일 하나씩 읽어서 텍스트 변환, 변환된 텍스트를 데이터 프레임에 추가

# 빈 데이터프레임 선언


# 반복문 수행하면서 오디오 변환


# 데이터프레임 결과 조회


In [17]:
import os
import pandas as pd
from openai import OpenAI

client = OpenAI()

# 파일 경로 설정
audio_path = '/content/drive/MyDrive/project6_2/audio/'

# 경로에 있는 .mp3 파일 목록 가져오기
file_names = [f for f in os.listdir(audio_path) if f.endswith('.mp3')]

# 빈 데이터프레임 선언
transcription_df = pd.DataFrame(columns=['file_name', 'transcription'])

# 반복문 수행하면서 오디오 변환
for file_name in file_names:
    audio_file_path = os.path.join(audio_path, file_name)

    with open(audio_file_path, "rb") as audio_file:
        transcription = client.audio.transcriptions.create(
            model="whisper-1",
            file=audio_file,
            response_format="text"
        )

    # 데이터프레임에 결과 추가
    transcription_df = pd.concat([transcription_df, pd.DataFrame({
        'file_name': [file_name],
        'transcription': [transcription]
    })], ignore_index=True)

# 데이터프레임 결과 조회
print(transcription_df)

     file_name                                      transcription
0   audio4.mp3  아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리...
1   audio3.mp3  동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...
2   audio2.mp3  119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
3   audio5.mp3  화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4   audio1.mp3  지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
5      1-1.mp3                      여기 사람 하나가 의식이 없어요! 빨리 와주세요!\n
6      1-2.mp3                 저기 환자가 심정지인 것 같아요! 지금 당장 출동해주세요!\n
7        7.mp3                            가벼운 상처인데 지금은 급하지 않아요.\n
8        2.mp3                             배가 너무 아파요 지금 당장 와주세요\n
9        3.mp3                         다쳤어요. 상태가 안좋아요. 빨리 와주세요.\n
10       6.mp3                           감기 같은데 지금 바로 필요하진 않아요.\n
11       4.mp3                             조금 다쳤어요. 지금 와도 괜찮아요.\n
12       1.mp3                  저기 환자가 호흡이 안 되는 것 같아요. 빨리 와주세요.\n
13       5.mp3                            열이 나고 머리가 아파요. 부탁드려요.\n


In [18]:
transcription_df

Unnamed: 0,file_name,transcription
0,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리..."
1,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
5,1-1.mp3,여기 사람 하나가 의식이 없어요! 빨리 와주세요!\n
6,1-2.mp3,저기 환자가 심정지인 것 같아요! 지금 당장 출동해주세요!\n
7,7.mp3,가벼운 상처인데 지금은 급하지 않아요.\n
8,2.mp3,배가 너무 아파요 지금 당장 와주세요\n
9,3.mp3,다쳤어요. 상태가 안좋아요. 빨리 와주세요.\n


### (2) 오디오 데이터 추가 수집(제작) 및 변환

* 세부사항
    * 응급 상황에 맞는 음성 녹음하기
        * 응급 등급별 1개 이상씩(총 5개 이상)
    * 반복문을 통해 모든 음성 파일 데이터 변환 : STT
        * 변환 내용은 위에서 저장한 데이터프레임에 추가
    * 변환 후 음성 내용과 변환 결과를 비교


## **3. 미션2 : Summary**

* 세부사항
    * 문서요약 예제 파일을 참조하여 테스트 해 봅니다.
    * 코드를 참조하여, 원하는 형식에 맞게 요약이 되도록 프롬프트를 구성합니다.
        * 요약 시 중요 키워드들이 함께 도출되도록 합니다.
        * 가능하다면, 요약 문장 길이에 제한을 둡시다.
    * 반복문을 통해 요약하고, 결과를 데이터프레임에 추가합니다.
        * summary 열을 추가하고, 요약 결과를 입력
            * 요약결과와 키워드는 하나의 문자열로 붙여서 summary열에 추가

### (1) 문서 요약

* 문서 요약 예제

In [19]:
input_text = '''
한국은행 총재가 "올해 성장률이 기존 전망치 2.4%보다 낮아질 가능성이 크다"며 "2.2∼2.3% 정도로 떨어지지 않을까 생각한다"고 밝혔습니다.
이 총재는 오늘(29일) 국회 기획재정위원회 국정감사에 출석해 한은의 전망을 크게 밑돈 3분기 성장률을 바탕으로 올해 성장률 전망치가 조정될 가능성에 대해 이렇게 말했습니다.
성장률 하락의 가장 큰 요인인 수출 감소의 배경에 대해 이 총재는 "금액 기준으로 봐서는 수출이 안 떨어졌는데, 수량을 기준으로 떨어졌다"며 "자동차 파업 등 일시적 요인과 화학제품·반도체의 중국과 경쟁 등으로 수량이 안 늘어나는 것 같은데, 원인을 더 분석해봐야 할 사안"이라고 진단했습니다.
다음 달 28일 열릴 기준금리 결정 방향에 대해서는 "금리 결정할 때 하나의 변수만 보지 않고 종합적으로 보는데, 우선 미국 대선과 연방준비제도 금리 결정으로 경제 상황이 어떻게 변할지 보겠다"고 밝혔습니다.
또 "아울러 이후 달러가 어떻게 될지, 수출 등 내년 경제 전망과 거시안전성 정책이 부동산·가계부채에 미치는 영향 등도 고려해 결정하겠다"고 말했습니다.
'''

system_role = '''당신은 신문기사에서 핵심을 요약하는 어시스턴트입니다.
응답은 다음의 형식을 지켜주세요
{"summary": \"텍스트 요약\"}
'''

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {
            "role": "system",
            "content": system_role
        },
        {
            "role": "user",
            "content": input_text
        }
    ]
)

# 답변
answer = response.choices[0].message.content
print(answer)

{"summary": "한국은행 총재는 올해 성장률 전망치가 2.4%보다 낮아질 가능성이 크다고 밝혔으며 2.2∼2.3% 정도로 예상된다고 언급했다. 수출 감소가 성장률 하락의 주된 이유라고 분석하며, 다음 달 기준금리 결정 방향은 미국 대선과 연방준비제도 금리 결정 등을 종합적으로 고려할 예정이라고 전달했다."}


* 문서 요약 함수로 생성

In [20]:
def text_summary(input_text):
    # OpenAI 클라이언트 생성

    # 시스템 역할과 응답 형식 지정
    #system_role = '''당신은 119신고를 받고 신고내용 핵심을 요약하는 어시스턴트입니다. 응답은 다음의 형식을 지켜주세요 {"summary": \"텍스트 요약\"}'''
    system_role = """당신은 119신고를 받고 신고내용 핵심을 요약하는 어시스턴트입니다. 키워드 위주로 요약해주세요. 응답은 다음의 형식을 지켜주세요 {"summary": \"텍스트 요약\"}"""
    #system_role = """당신은 119신고를 받고 신고내용 핵심을 요약하는 어시스턴트입니다. 키워드 위주로 요약해주세요. 응답은 다음의 형식을 지켜주세요"""
    #system_role = """당신은 119신고를 받고 신고내용 핵심을 요약하는 어시스턴트입니다. 키워드 위주로 요약해주세요. 앞에 신고내용: 같은 미사여구 빼고 키워드만"""
    # 입력데이터를 GPT-3.5-turbo에 전달하고 답변 받아오기
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {
                "role": "system",
                "content": system_role
            },
            {
                "role": "user",
                "content": input_text
            }
        ]
    )

    # 응답 받기
    # 답변
    #print(response.choices[0].message.content)

    answer = response.choices[0].message.content
    #print(answer)

    # 응답형식을 정리하고 return
    return answer


* 저장된 text를 하나씩 불러와서 요약하고 다시 저장하기

In [21]:
transcription_df

Unnamed: 0,file_name,transcription
0,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리..."
1,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...
4,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...
5,1-1.mp3,여기 사람 하나가 의식이 없어요! 빨리 와주세요!\n
6,1-2.mp3,저기 환자가 심정지인 것 같아요! 지금 당장 출동해주세요!\n
7,7.mp3,가벼운 상처인데 지금은 급하지 않아요.\n
8,2.mp3,배가 너무 아파요 지금 당장 와주세요\n
9,3.mp3,다쳤어요. 상태가 안좋아요. 빨리 와주세요.\n


In [22]:
print(f"행 개수: {transcription_df.shape[0]}")

행 개수: 14


In [23]:
print(text_summary("살려줘. 심각도 판정"))


{"summary": "살려줘, 심각도 판정"}


In [24]:
for i in range(transcription_df.shape[0]):
  transcription_df.loc[i, 'summary'] = text_summary(transcription_df.loc[i, 'transcription'])

In [25]:
transcription_df

Unnamed: 0,file_name,transcription,summary
0,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리...","{""summary"": ""머리를 박은 후 3시간이 지나도 어지러움과 메스꺼움이 있다고..."
1,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...,"{""summary"": ""콩이 동생의 코에 들어갔고, 한 쪽 코가 막혔다. 콩을 빼내..."
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...,"{""summary"": ""열이 열이 올라가고 머리가 아프며 띵해요. 우한이 느껴진다...."
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...,"{""summary"": ""미끄러져 엉덩방아를 찍어 꼬리뼈가 계속 아프다고 합니다. 응..."
4,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...,"{""summary"": ""아빠가 계단에서 넘어져 머리에서 피가 나며 어지러워하는 상황..."
5,1-1.mp3,여기 사람 하나가 의식이 없어요! 빨리 와주세요!\n,"{""summary"": ""의식 없음 신고""}"
6,1-2.mp3,저기 환자가 심정지인 것 같아요! 지금 당장 출동해주세요!\n,"{""summary"": ""환자, 심정지, 출동""}"
7,7.mp3,가벼운 상처인데 지금은 급하지 않아요.\n,"{""summary"": ""가벼운 상처로 인한 급하지 않은 상황""}"
8,2.mp3,배가 너무 아파요 지금 당장 와주세요\n,"{""summary"": ""배가 너무 아프다는 신고가 접수되었습니다. 즉시 도움이 필요..."
9,3.mp3,다쳤어요. 상태가 안좋아요. 빨리 와주세요.\n,"{""summary"": ""다쳤고 상태가 안 좋아서 긴급 도움이 필요한 상황""}"


In [26]:
transcription_df['label'] = [4, 3, 2, 5, 1, 1, 1, 5, 5, 2, 4, 3, 4, 3]#, 2, 3]

In [27]:
transcription_df

Unnamed: 0,file_name,transcription,summary,label
0,audio4.mp3,"아까 가다가 머리를 박았는데, 처음에는 괜찮다가, 지금 3시간 정도 지났는데, 머리...","{""summary"": ""머리를 박은 후 3시간이 지나도 어지러움과 메스꺼움이 있다고...",4
1,audio3.mp3,동생이 콩 가지고 놀다가 코에 들어가서 한쪽 코가 막혔어요. 아무리 빼보려 해도 안...,"{""summary"": ""콩이 동생의 코에 들어갔고, 한 쪽 코가 막혔다. 콩을 빼내...",3
2,audio2.mp3,119죠. 제가 지금 열이 열이 올랐어요. 몇 도냐면은 38도 정도 돼요. 머리가 ...,"{""summary"": ""열이 열이 올라가고 머리가 아프며 띵해요. 우한이 느껴진다....",2
3,audio5.mp3,화장실에서 미끄러워서 엉덩방아를 찍었어요. 그러고 꼬리뼈가 계속 아파요. 점점 아픈...,"{""summary"": ""미끄러져 엉덩방아를 찍어 꼬리뼈가 계속 아프다고 합니다. 응...",5
4,audio1.mp3,지금 아빠가 넘어졌어요. 머리에서 피가 나는데 숨은 쉬고 있어요. 지금 막 일어났어...,"{""summary"": ""아빠가 계단에서 넘어져 머리에서 피가 나며 어지러워하는 상황...",1
5,1-1.mp3,여기 사람 하나가 의식이 없어요! 빨리 와주세요!\n,"{""summary"": ""의식 없음 신고""}",1
6,1-2.mp3,저기 환자가 심정지인 것 같아요! 지금 당장 출동해주세요!\n,"{""summary"": ""환자, 심정지, 출동""}",1
7,7.mp3,가벼운 상처인데 지금은 급하지 않아요.\n,"{""summary"": ""가벼운 상처로 인한 급하지 않은 상황""}",5
8,2.mp3,배가 너무 아파요 지금 당장 와주세요\n,"{""summary"": ""배가 너무 아프다는 신고가 접수되었습니다. 즉시 도움이 필요...",5
9,3.mp3,다쳤어요. 상태가 안좋아요. 빨리 와주세요.\n,"{""summary"": ""다쳤고 상태가 안 좋아서 긴급 도움이 필요한 상황""}",2


In [28]:

output_file_path = '/content/drive/MyDrive/project6_2/summary_output.csv'
transcription_df.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print(f"요약된 텍스트가 {output_file_path} 파일에 저장되었습니다.")


요약된 텍스트가 /content/drive/MyDrive/project6_2/summary_output.csv 파일에 저장되었습니다.


### (2) 전국 병원 응급실 정보 수집



#### 1) 인증키 발급

* 인증키 발급 절차
    * 1) data.go.kr 회원가입
    * 2) 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
https://www.data.go.kr/data/15000563/openapi.do 로 이동
    * 3) 활용신청
        * 활용목적 : 기타(개인 학습 용도)
        * 상세 기능선택
            * 응급의료기관 목록정보 조회
            * 응급의료기관 위치정보 조회
            * 응급의료기관 기본정보 조회
    * 4) 인증키 확인
        * 마이페이지 > Open API > 활용신청현황
        * [승인] 국립중앙의료원_전국 응급의료기관 정보 조회 서비스
        * 일반 인증키(Decoding) 이용

#### 2) 데이터 수집

In [29]:
# path 확인
path

'/content/drive/MyDrive/project6_2/'

In [30]:
# 응급실 데이터 수집하기

#url = 'https://www.data.go.kr/iim/api/selectAPIAcountView.do'
#url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEmrrmRltmUsefulSckbdInfoInqire'

#음급의료기과 기본정도 조회
#url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEgytBassInfoInqire'

#응급의료기관 목록정보 조회
#url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEgytListInfoInqire'

#응급의료기관 위치정보 조회
#url = "http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEgytLcinfoInqire"


serviceKey = 'mmjHnCNtxrNcP+Kky9fXP/rQ72itY/fq06pnxFmTJ/W/hAJh0Ue8+y8i0tuGhM94MCR45cjEx3M7phssnbfAZw=='    # 여러분의 일반 인증키(Decoding)

"""
params = {
    'WGS84_LON' : '127.08515659273706', 'WGS84_LAT': '37.488132562487905',
    'serviceKey': serviceKey,
    'pageNo': '1', 'numOfRows': '1000',  # 전체 응급실 수가 500여개 됨. 1000개면 충분
    'format': 'xml'
}

response = requests.get(url, params = params)

# 정상 수행 되었다면 200
print(response)
"""

"\nparams = {\n    'WGS84_LON' : '127.08515659273706', 'WGS84_LAT': '37.488132562487905',\n    'serviceKey': serviceKey,\n    'pageNo': '1', 'numOfRows': '1000',  # 전체 응급실 수가 500여개 됨. 1000개면 충분\n    'format': 'xml'\n}\n\nresponse = requests.get(url, params = params)\n\n# 정상 수행 되었다면 200\nprint(response)\n"

In [31]:
# 응급실 데이터 수집하기

url = 'http://apis.data.go.kr/B552657/ErmctInfoInqireService/getEgytListInfoInqire'
# serviceKey = 'iPNPiMT14DMTyAInj8Infw+C4s0a8RuazywUYiQf4m6fT7I1clyKLDaZp8XkGs1drKu2ID1vX6gMDrByYFPGXg=='  # 여러분의 일반 인증키(Decoding)

params = {
    'serviceKey': serviceKey,
    'pageNo': '1', 'numOfRows': '1000',  # 전체 응급실 수가 500여개 됨. 1000개면 충분
    'format': 'xml'
}

response = requests.get(url, params=params)

# 정상 수행 되었다면 200
print(response)

<Response [200]>


In [32]:
# response xml에서 주요 정보 찾기
root = ET.fromstring(response.text)

data = []

for item in root. findall('.//item'):
    duty_name = item.findtext('dutyName')
    duty_addr = item.findtext('dutyAddr')
    duty_tel1 = item.findtext('dutyTel1')
    duty_tel3 = item.findtext('dutyTel3')
    duty_emcls_name = item.findtext('dutyEmclsName')
    lat = item.findtext('wgs84Lat')
    lon = item.findtext('wgs84Lon')

    data.append({
        "병원이름": duty_name,
        "주소": duty_addr,
        "응급의료기관 종류": duty_emcls_name,
        "전화번호 1": duty_tel1,
        "전화번호 3": duty_tel3,
        "위도": lat,
        "경도": lon
        })

# 데이터프레임으로 변환
em_df = pd.DataFrame(data)

In [33]:
# csv 파일로 저장
em_df.to_csv(path + '응급실정보.csv', index=False)

In [34]:
"""
# response xml에서 주요 정보 찾기
root = ET.fromstring(response.text)

#print(root)
data = []

for item in root. findall('.//item'):
  print(item)
  duty_name = item.findtext('dutyName')
  duty_addr = item.findtext('dutyAddr')
  # 필요한 정보 추가
  print(duty_name)
  print(duty_addr)

  # 빈 리스트 data에 딕시너리 형태({'칼럼이름':값, ...})로 저장(추가)


# 데이터프레임으로 변환

"""

"\n# response xml에서 주요 정보 찾기\nroot = ET.fromstring(response.text)\n\n#print(root)\ndata = []\n\nfor item in root. findall('.//item'):\n  print(item)\n  duty_name = item.findtext('dutyName')\n  duty_addr = item.findtext('dutyAddr')\n  # 필요한 정보 추가\n  print(duty_name)\n  print(duty_addr)\n\n  # 빈 리스트 data에 딕시너리 형태({'칼럼이름':값, ...})로 저장(추가)\n\n\n# 데이터프레임으로 변환\n\n"

In [35]:
#item

In [36]:
# csv 파일로 저장(인덱스 제외)


## **Mission Complete!**

수고 많았습니다!