In [1]:
import azure.cognitiveservices.speech as speechsdk
import time
import os
from dotenv import load_dotenv

text = []

# 파일에서 음성 인식 
def from_file(filename):
    speech_config = speechsdk.SpeechConfig(subscription=os.getenv("SPEECH_API_KEY"), region="koreacentral")
    speech_config.speech_recognition_language="ko-KR"

    audio_config = speechsdk.AudioConfig(filename=filename)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    # 음성 인식 상태
    done = False
    
    # evt가 수신되면 연속 인식을 중지하는 콜백 생성 
    def stop_cb(evt):
        print('CLOSING on {}'.format(evt))
        # evt가 수신되면 인식을 중지하기 위해 stop_continuous_recognition 호출 
        speech_recognizer.stop_continuous_recognition()
        nonlocal done
        done = True

    def recognized(evt: speechsdk.SpeechRecognitionEventArgs):
        text.append(evt.result.text)
        print('RECOGNIZED: {}'.format(evt.result.text))

    # 최종 인식 결과가 포함된 이벤트에 대한 신호 
    speech_recognizer.recognized.connect(recognized)
    # 인식 세션의 시작을 나타내는 이벤트에 대한 신호 
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    # 인식 세션의 끝을 나타내는 이벤트에 대한 신호 
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    # 취소된 인식 결과가 포함된 이벤트에 대한 신호 
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))

    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # 연속 인식 작업 시작 
    result = speech_recognizer.start_continuous_recognition()

    while not done:
        time.sleep(.5)

from_file("../data/[자막뉴스] 타들어 가는 아시아...역대급 '이상 조짐'.wav")

SESSION STARTED: SessionEventArgs(session_id=5948cf6b23b54f65ac6346c1f6f2f1d2)
RECOGNIZED: 강렬한 햇살에 아스팔트가 뜨겁게 달궈지며 아지랑이가 피어오릅니다.
RECOGNIZED: 무더위에 연신 물을 마시며 타는 목을 추겨봅니다.
RECOGNIZED: 인도 마하라슈트라를 강타한 때이른 이상고온 현상은 한여름만큼 강력했습니다.
RECOGNIZED: 수십만 명이 참여한 야외행사에서는 무려 열세명이 열사병으로 숨졌습니다.
RECOGNIZED: 지난 오 일간 인도에서는 기온이 44.6 도까지 치솟았고, 중국도 35도를 넘어서면서 역대 4월 최고기온을 갈아치웠습니다.
RECOGNIZED: 태국에서는 기온이 45.4 도까지 치솟으며 사상 첫 45도를 넘는 봄철 기온으로 기록됐습니다.
RECOGNIZED: 최근 벵골만과 서태평양 부근에는 키 큰 해양성 고기압이 자리 잡게 되면서 남쪽으로부터 뜨겁고 습한 공기가 다량 북쪽으로 유입된 현상이 있었습니다. 사 월부터 아시아 지역은 북쪽 선선한 공기와 남쪽 뜨거운 공기가 교차하게 됩니다.
RECOGNIZED: 이 과정에서 갑자기 기온이 오르는 일은 있지만 최근 이상기온은 유례없이 강력합니다.
RECOGNIZED: 국방부의 고온현상은 여름이 오기 전 사월부터 가끔 나타나는 현상입니다. 하지만 최근의 이상 고온 현상은 온난화의 영향으로 시기가 더 빨라지고 강도도 훨씬 세지는 경향을 보이고 있습니다. 우리나라에도 서울 기온이 34년 만에 4월 중순 최고 기온을 기록했고, 경북 지역은 30도를 넘는 초여름 더위가 나타났습니다. 오늘부터 동아시아 지역은 기온이 제자리를 되찾겠지만 동남아시아와 서아시아 지역의 고온 영상은?
RECOGNIZED: 당분간 계속될 전망입니다. Ytn 김민경입니다.
RECOGNIZED: 요.
RECOGNIZED: 어.
CANCELED SpeechRecognitionCanceledEventArgs(session_id=5948cf6b23b54f65a

In [2]:
# 리스트를 문자열로 변환
text = ' '.join(text)
print(text)

강렬한 햇살에 아스팔트가 뜨겁게 달궈지며 아지랑이가 피어오릅니다. 무더위에 연신 물을 마시며 타는 목을 추겨봅니다. 인도 마하라슈트라를 강타한 때이른 이상고온 현상은 한여름만큼 강력했습니다. 수십만 명이 참여한 야외행사에서는 무려 열세명이 열사병으로 숨졌습니다. 지난 오 일간 인도에서는 기온이 44.6 도까지 치솟았고, 중국도 35도를 넘어서면서 역대 4월 최고기온을 갈아치웠습니다. 태국에서는 기온이 45.4 도까지 치솟으며 사상 첫 45도를 넘는 봄철 기온으로 기록됐습니다. 최근 벵골만과 서태평양 부근에는 키 큰 해양성 고기압이 자리 잡게 되면서 남쪽으로부터 뜨겁고 습한 공기가 다량 북쪽으로 유입된 현상이 있었습니다. 사 월부터 아시아 지역은 북쪽 선선한 공기와 남쪽 뜨거운 공기가 교차하게 됩니다. 이 과정에서 갑자기 기온이 오르는 일은 있지만 최근 이상기온은 유례없이 강력합니다. 국방부의 고온현상은 여름이 오기 전 사월부터 가끔 나타나는 현상입니다. 하지만 최근의 이상 고온 현상은 온난화의 영향으로 시기가 더 빨라지고 강도도 훨씬 세지는 경향을 보이고 있습니다. 우리나라에도 서울 기온이 34년 만에 4월 중순 최고 기온을 기록했고, 경북 지역은 30도를 넘는 초여름 더위가 나타났습니다. 오늘부터 동아시아 지역은 기온이 제자리를 되찾겠지만 동남아시아와 서아시아 지역의 고온 영상은? 당분간 계속될 전망입니다. Ytn 김민경입니다. 요. 어.


In [3]:
import os
import openai
from dotenv import load_dotenv

# Set up Azure OpenAI
openai.api_type = "azure"
openai.api_base = os.getenv("SOUTH_CENTRAL_US_OPENAI_API_BASE")
openai.api_version = "2022-12-01"
openai.api_key = os.getenv("SOUTH_CENTRAL_US_OPENAI_API_KEY")

In [4]:
desired_model = 'text-davinci-003' # TEXT 생성에 적합한 모델 
desired_capability = 'completion'

# 배포 모델 목록 확인
deployment_id = None
result = openai.Deployment.list()

for deployment in result.data:
    if deployment["status"] != "succeeded":
        continue
    
    model = openai.Model.retrieve(deployment["model"])

    # desired_model과 desired_capability에 해당하는 모델이 있다면 deployment_id에 해당 배포의 ID를 할당
    if model["id"] == desired_model and model['capabilities'][desired_capability]:
        deployment_id = deployment["id"]
        
# deployment_id가 할당되지 않은 경우 새로운 배포를 진행 
if not deployment_id:
    print('No deployment with status: succeeded found.')

    # 모델 배포
    print(f'Creating a new deployment with model: {desired_model}')
    result = openai.Deployment.create(model=desired_model, scale_settings={"scale_type":"standard"})
    deployment_id = result["id"]
    print(f'Successfully created {desired_model} that supports text {desired_capability} with id: {deployment_id}.')
else:
    print(f'Found a succeeded deployment of "{desired_model}" that supports text {desired_capability} with id: {deployment_id}.')

Found a succeeded deployment of "text-davinci-003" that supports text completion with id: text-davinci-003.


In [5]:
# A generator that split a text into smaller chunks of size n, preferably ending at the end of a sentence
def chunk_generator(text, n, tokenizer):
    tokens = tokenizer.encode(text)
    i = 0
    while i < len(tokens):
        # Find the nearest end of sentence within a range of 0.5 * n and 1.5 * n tokens
        j = min(i + int(1.5 * n), len(tokens))
        while j > i + int(0.5 * n):
            # Decode the tokens and check for full stop or newline
            chunk = tokenizer.decode(tokens[i:j])
            if chunk.endswith(".") or chunk.endswith("\n"):
                break
            j -= 1
        # If no end of sentence found, use n tokens as the chunk size
        if j == i + int(0.5 * n):
            j = min(i + n, len(tokens))
        yield tokens[i:j]
        i = j

In [22]:
def request_api(document, prompt_postfix, max_tokens):
    prompt = prompt_postfix.replace('<document>',document)
    #print(f'>>> prompt : {prompt}')

    response = openai.Completion.create(  
    deployment_id=deployment_id, 
    prompt=prompt,
    temperature=0,
    max_tokens=max_tokens,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0,
    stop='###')

    return response['choices'][0]['text']

In [23]:
prompt_postfix = """ <document>
  \n###
  \n뉴스 내용을 요약해줘
  \nSynopsis : 
"""

In [24]:
import tiktoken

synopsis_chunck = []
n = 2000 # max tokens for chuncking
max_tokens = 2530 # max tokens for response

result = request_api(text, prompt_postfix, max_tokens)

print(result)

인도, 중국, 태국 등 동남아시아 지역에서는 역대 최고 기온을 기록하며 열사병이 발생하고 있다. 이는 온난화의 영향으로 시기가 더 빨라지고 강도가 세어지는 경향을 보이고 있으며, 우리나라에서도 서울과 경북 지역에서는 초여름 더위가 나타났다. 동아시아 지역은 기온이 제자리를 되찾겠지만 동남아시아와 서아시아 지역의 고온 영상은 계속될 것으로 예상된다.


In [30]:
# Prompt postfix
prompt_postfix = """ <document>
  \n###
  \n다음 요약문을 중국어로 번역해줘
  \nTranslation : 
"""
print(prompt_postfix)

 <document>
  
###
  
다음 요약문을 중국어로 번역해줘
  
Translation : 



In [31]:
max_tokens = 2000
translation = request_api(result, prompt_postfix, max_tokens)
print(translation)

  
东南亚地区，如印度、中国、泰国等，正在创造历史最高气温，出现热病，这是由于全球变暖的影响，使季节变得更快，温度更高。韩国首尔和江原道地区也出现了初夏的酷暑。东亚地区的气温可能会恢复正常，但东南亚和西亚地区的高温趋势可能会持续下去。


In [36]:
# Prompt postfix
prompt_postfix = """ <document>
  \n###
  \n다음 요약문으로 2~3개의 Tag Line을 만들어줘 
""" 
print(prompt_postfix)

 <document>
  
###
  
다음 요약문으로 2~3개의 Tag Line을 만들어줘 



In [37]:
max_tokens = 2000
tag_lines = request_api(result, prompt_postfix, max_tokens)
print(tag_lines)


동남아시아 지역에서는 역대 최고 기온을 기록하며 열사병이 발생하고 있으며, 우리나라에서도 서울과 경북 지역에서는 초여름 더위가 나타났다.

- 동남아시아 지역, 열사병 발생! 
- 우리나라도 초여름 더위, 온난화 영향 
- 역대 최고 기온, 동남아시아 지역 고온 영상 계속될 것으로 예상


In [40]:
# Prompt postfix
prompt_postfix = """ <document>
  \n###
  \n다음 요약문으로 5개의 search engine optimised keyword를 생성해줘 
"""
print(prompt_postfix)

 <document>
  
###
  
다음 요약문으로 5개의 search engine optimised keyword를 생성해줘 



In [41]:
max_tokens = 2000
seo_keywords = request_api(result, prompt_postfix, max_tokens)
print(seo_keywords)


1. 열사병
2. 온난화
3. 동남아시아
4. 초여름 더위
5. 고온 영상
