### Azure Speech를 사용하여 Speech-To-Text

In [4]:
import azure.cognitiveservices.speech as speechsdk
import time
import os

text_list = []

# 파일에서 음성 인식
def from_file(filename):
    speech_config = speechsdk.SpeechConfig(subscription=os.getenv("SPEECH_API_KEY"), region="koreacentral", speech_recognition_language="ko-KR")

    audio_config = speechsdk.AudioConfig(filename=filename)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    # 음성 인식 상태
    done = False
    
    def stop_cb(evt):
        print('CLOSING on {}'.format(evt))
        speech_recognizer.stop_continuous_recognition()
        nonlocal done
        done = True

    def recognized(evt: speechsdk.SpeechRecognitionEventArgs):
        text_list.append(evt.result.text)
        print('RECOGNIZED: {}'.format(evt.result.text))

    # 최종 인식 결과가 포함된 이벤트에 대한 신호 
    speech_recognizer.recognized.connect(recognized)
    # 인식 세션의 시작을 나타내는 이벤트에 대한 신호 
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    # 인식 세션의 끝을 나타내는 이벤트에 대한 신호 
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    # 취소된 인식 결과가 포함된 이벤트에 대한 신호 
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))

    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # 연속 인식 작업 시작 
    speech_recognizer.start_continuous_recognition()

    while not done:
        time.sleep(.5)

from_file("../data/[자막뉴스] 타들어 가는 아시아...역대급 '이상 조짐'.wav")

SESSION STARTED: SessionEventArgs(session_id=4f5b3ca1cd4b47ceace2895a8f76ca9f)
RECOGNIZED: 강렬한 햇살에 아스팔트가 뜨겁게 달궈지며 아지랑이가 피어오릅니다.
RECOGNIZED: 무더위에 연신 물을 마시며 타는 목을 추겨봅니다.
RECOGNIZED: 인도 마하라슈트라를 강타한 때이른 이상고온 현상은 한여름만큼 강력했습니다.
RECOGNIZED: 수십만 명이 참여한 야외행사에서는 무려 열세명이 열사병으로 숨졌습니다.
RECOGNIZED: 지난 오 일간 인도에서는 기온이 44.6 도까지 치솟았고, 중국도 35도를 넘어서면서 역대 4월 최고기온을 갈아치웠습니다.
RECOGNIZED: 태국에서는 기온이 45.4 도까지 치솟으며 사상 첫 45도를 넘는 봄철 기온으로 기록됐습니다.
RECOGNIZED: 최근 벵골만과 서태평양 부근에는 키 큰 해양성 고기압이 자리 잡게 되면서 남쪽으로부터 뜨겁고 습한 공기가 다량 북쪽으로 유입된 현상이 있었습니다. 사 월부터 아시아 지역은 북쪽 선선한 공기와 남쪽 뜨거운 공기가 교차하게 됩니다.
RECOGNIZED: 이 과정에서 갑자기 기온이 오르는 일은 있지만 최근 이상기온은 유례없이 강력합니다.
RECOGNIZED: 국방부의 고온현상은 여름이 오기 전 사월부터 가끔 나타나는 현상입니다. 하지만 최근의 이상 고온 현상은 온난화의 영향으로 시기가 더 빨라지고 강도도 훨씬 세지는 경향을 보이고 있습니다. 우리나라에도 서울 기온이 34년 만에 4월 중순 최고 기온을 기록했고, 경북 지역은 30도를 넘는 초여름 더위가 나타났습니다. 오늘부터 동아시아 지역은 기온이 제자리를 되찾겠지만 동남아시아와 서아시아 지역의 고온 영상은?
RECOGNIZED: 당분간 계속될 전망입니다. Ytn 김민경입니다.
CANCELED SpeechRecognitionCanceledEventArgs(session_id=4f5b3ca1cd4b47ceace2895a8f76ca9f, result=Speech

In [5]:
# 리스트를 문자열로 변환
print(*text_list, sep='\n')
text = ' '.join(text_list)

강렬한 햇살에 아스팔트가 뜨겁게 달궈지며 아지랑이가 피어오릅니다.
무더위에 연신 물을 마시며 타는 목을 추겨봅니다.
인도 마하라슈트라를 강타한 때이른 이상고온 현상은 한여름만큼 강력했습니다.
수십만 명이 참여한 야외행사에서는 무려 열세명이 열사병으로 숨졌습니다.
지난 오 일간 인도에서는 기온이 44.6 도까지 치솟았고, 중국도 35도를 넘어서면서 역대 4월 최고기온을 갈아치웠습니다.
태국에서는 기온이 45.4 도까지 치솟으며 사상 첫 45도를 넘는 봄철 기온으로 기록됐습니다.
최근 벵골만과 서태평양 부근에는 키 큰 해양성 고기압이 자리 잡게 되면서 남쪽으로부터 뜨겁고 습한 공기가 다량 북쪽으로 유입된 현상이 있었습니다. 사 월부터 아시아 지역은 북쪽 선선한 공기와 남쪽 뜨거운 공기가 교차하게 됩니다.
이 과정에서 갑자기 기온이 오르는 일은 있지만 최근 이상기온은 유례없이 강력합니다.
국방부의 고온현상은 여름이 오기 전 사월부터 가끔 나타나는 현상입니다. 하지만 최근의 이상 고온 현상은 온난화의 영향으로 시기가 더 빨라지고 강도도 훨씬 세지는 경향을 보이고 있습니다. 우리나라에도 서울 기온이 34년 만에 4월 중순 최고 기온을 기록했고, 경북 지역은 30도를 넘는 초여름 더위가 나타났습니다. 오늘부터 동아시아 지역은 기온이 제자리를 되찾겠지만 동남아시아와 서아시아 지역의 고온 영상은?
당분간 계속될 전망입니다. Ytn 김민경입니다.


### Set up Azure OpenAI

In [6]:
import openai
from dotenv import load_dotenv

load_dotenv()

openai.api_type = 'azure'
openai.api_version = '2023-03-15-preview' # 최신 버전
openai.api_base = os.getenv("OPENAI_API_BASE")
openai.api_key = os.getenv("OPENAI_API_KEY")

#### 모델 배포

In [7]:
desired_model = 'text-davinci-003' 
desired_capability = 'completion'

# list models deployed
deployment_id = None
result = openai.Deployment.list()

for deployment in result.data:
    if deployment["status"] != "succeeded":
        continue
    
    model = openai.Model.retrieve(deployment["model"])

    if model["id"] == desired_model and model['capabilities'][desired_capability]:
        deployment_id = deployment["id"]
        
# if not model deployed, deploy one
if not deployment_id:
    print('No deployment with status: succeeded found.')

    # Now let's create the deployment
    print(f'Creating a new deployment with model: {desired_model}')
    result = openai.Deployment.create(model=desired_model, scale_settings={"scale_type":"standard"})
    deployment_id = result["id"]
    print(f'Successfully created {desired_model} that supports text {desired_capability} with id: {deployment_id}.')
else:
    print(f'Found a succeeded deployment of "{desired_model}" that supports text {desired_capability} with id: {deployment_id}.')

Found a succeeded deployment of "text-davinci-003" that supports text completion with id: text-davinci-003.


### Request API

In [8]:
def request_api(document, prompt_postfix, max_tokens):
    prompt = prompt_postfix.replace('<document>',document)

    response = openai.Completion.create(  
    deployment_id=deployment_id, 
    prompt=prompt,
    temperature=0,
    max_tokens=max_tokens,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0)
    # stop='###')

    return response['choices'][0]['text']

#### 뉴스 내용 요약

In [11]:
prompt_postfix = """ <document>
  \n###
  \n다음 내용을 두 문장으로 요약해줘.
  \nSummary : 
"""

print(prompt_postfix)

 <document>
  
###
  
다음 내용을 두 문장으로 요약해줘.
  
Summary : 



In [12]:
max_tokens = 2000 
summary = request_api(text, prompt_postfix, max_tokens)

print(summary)


인도와 중국, 태국 등 동아시아 지역에서는 역대 최고 기온을 기록하며 열사병이 발생하고 있습니다. 온난화의 영향으로 시기가 더 빨라지고 강도도 세지는 경향이 보이고 있습니다.


#### 중국어로 번역

In [9]:
prompt_postfix = """ <document>
  \n###
  \n다음 내용을 중국어로 번역해줘.
  \nTranslation : 
"""
print(prompt_postfix)

 <document>
  
###
  
다음 내용을 중국어로 번역해줘.
  
Translation : 



In [10]:
max_tokens = 1000
translation = request_api(text, prompt_postfix, max_tokens)
print(translation)


强烈的阳光下，柏油路面被热烘烘地熔化，蚊虫在空中飞舞。在炎热的天气中，跳舞的人们喝着清凉的水消抚着疲惫的喉咙。印度马哈拉施特拉被强烈的阳光照射，这种早期的高温现象像夏天一样强烈。在数十万人参加的户外活动中，竟有十六人死于高温中暑。过去的一周，印度的气温高达44.6摄氏度，中国也超过了35摄氏度，创下4月份的最高气温纪录。泰国的气温高达45.4摄氏度，创下了春季气温超过45摄氏度的历史记录。最近，孟加拉湾和西太平洋附近出现了一个大海洋高压，从南方吹来热而潮湿的空气。从4月开始，亚洲地区会出现来自北方清凉空气和来自南方热空气的交叉。在这个过程中，温度突然升高的情况是有的，但最近的高温现象异常强烈，这是受到全球变暖的影响，时期更早，强度也更强。韩国国防部的高温现象是在夏天来临之前，从4月开始偶尔出现的现象。但最近的异常高温现象表明，全球变暖的影响使得时期更早，强度也更强。韩国首尔的气温也创下了34年来4月中旬的最高气温，而江原道地区也出现了超过30摄氏度的初夏酷暑。从今天开始，东亚地区的气温将逐渐回复正常，但东南亚和西亚地区的高温现象将持续一段


#### Tag Line 생성

In [22]:
# Prompt postfix
prompt_postfix = """ <document>
  \n###
  \n요약문을 바탕으로 2~3개의 Tag Line을 생성해줘.
""" 
print(prompt_postfix)

 <document>
  
###
  
요약문을 바탕으로 2~3개의 Tag Line을 생성해줘.



In [23]:
max_tokens = 1000
tag_lines = request_api(summary, prompt_postfix, max_tokens)
print(tag_lines)


1. 열사병이 발생하는 역대 최고 기온, 동아시아 지역의 열화로 인한 고통!
2. 온난화의 영향으로 더욱 심각해지는 열화 고통!
3. 동아시아 지역의 열화 고통, 온난화의 영향으로 더욱 심각해지는 역대 최고 기온!


#### Keyword 생성

In [24]:
# Prompt postfix
prompt_postfix = """ <document>
  \n###
  \n요약문을 바탕으로 5개의 키워드를 생성해줘.
"""
print(prompt_postfix)

 <document>
  
###
  
요약문을 바탕으로 5개의 키워드를 생성해줘.



In [25]:
max_tokens = 1000
seo_keywords = request_api(summary, prompt_postfix, max_tokens)
print(seo_keywords)


1. 열사병
2. 온난화
3. 역대 최고 기온
4. 동아시아
5. 강도 세짐
