# 빅스비, 시리 흉내내보기

삼성스마트폰, 아이폰에 탑재된 음성인식 기술인 빅스비, 시리는 시스템에 설정된 호출 음성을 인식하면 동작하는 방식으로 운영됩니다. 물론 실제 빅스비나 시리는 수많은 기술이 집약되어 완성된 프로그램이지만 우리는 여기서 간단히 전체적인 로직만 구성해보며 맛보기 형식으로 프로그램을 제작해 보도록 하겠습니다. <font color="red"><b>해당 기능들 중 몇몇가지는 윈도우에 최적화된 코드입니다. 맥환경에서는 몇몇가지 기능이 동작하지 않을 수 있습니다.<b></font>

### 시나리오

우리가 사용하고 있는 컴퓨터 환경에서 프로그램을 실행하고, 볼륨을 업/다운 하는 기능이 있는 프로그램을 음성인식을 활용하여 작성해보도록 하겠습니다.


### 음성인식 로직을 함수화

음성을 인식하여 결과를 텍스트 데이터로 리턴해줄 수 있는 부분과 텍스트를 음성으로 재생해주는 기능을 분리하여 함수화 합니다.

In [None]:
import speech_recognition as sr
from gtts import gTTS
import playsound
import os

def get_audio(timeout=None):
    said = ""
    r = sr.Recognizer()
    with sr.Microphone() as source:
        try:
            audio = r.listen(source, timeout=timeout)
            said = r.recognize_google(audio, language="ko-KR")
            print("구글 인식: {}".format(said))
        except sr.UnknownValueError:
            print("구글 인식 불가")
        except sr.RequestError as e:
            print("구글 오류; {0}".format(e))
        except sr.WaitTimeoutError as e:
            print("타임 아웃 {0}".format(e))
            pass
    return said


def speak(text):
    tts = gTTS(text=text, lang="ko", slow=False)
    filename = "__voice.mp3"
    tts.save(filename)
    playsound.playsound(filename)
    os.unlink(filename)

```get_audio(timeout=None)``` 함수에는 timeout 인자값을 받아서 음성대기를 언제까지 할지를 설정합니다. 여기서 timeout 값이 None 이 아닌경우 지정된 시간만큼 대기하며 오디오가 입력되지 않으면 ```WaitTimeoutError``` 의 예외가 발생하게 됩니다.

speech_recognition 의 ```listen()``` 함수는 라이브러리 내부에 energy_threshold 와 pause_threshold 라는 2개의 변수값이 있는데 이 값으로 오디오의 입력을 자동으로 판단합니다. ```listen()``` 함수가 실행되면 energy_threshold 값 이상의 오디오를 대기하다가 입력된 오디오가 energy_threshold 값 이상이 되면 음성으로 인식하게 되고 pause_threshold 값 이하인경우가 되면 더이상 오디오 데이터로 인정하지 않고 listen 함수가 자동 종료됩니다.

### 프로그램 실행

음성인식 로직은 무한루프를 돌면서 위에서 작성한 ```get_audio()``` 함수를 호출하여 우리가 원하는 텍스트가 음성인식 되었는지를 확인하고 해당 텍스트가 인식되면 원하는 기능을 구현하면 되는 단순한 로직입니다.

In [None]:
import subprocess

def main():
    while True:
        print("듣는 중.....")
        text = get_audio()
        if text.find("실행") >= 0:
            if text.find("메모장") >= 0:
                subprocess.Popen('C:\\Windows\\System32\\notepad.exe')       # 메모장 실행
                speak("프로그램을 실행하였습니다.")

음성인식을 통해 "메모장 실행" 혹은 "실행 메모장" 이라고 마이크를 통해 명령을 내렸을때 subprocess 라이브러리의 Popen 함수를 사용하여 인자로 넘긴 경로의 실행파일을 실행시켜주는 단순한 기능입니다.

이렇게 로직을 구성했을 경우에는 항상 시스템이 오디오를 감시하고 있게 되고 우리가 원하지 않은 소리를 잘못인식하여 의도하지 않은 동작을 실행할 수 있습니다. 그렇기 때문에 빅스비나 시리 같은경우 특정 호출 사인을 정해서 그 호출 사인이 감지 되지 않으면 동작하지 않게 구성되어있습니다. 우리도 이를 비슷하게 흉내내어 로직을 수정해보도록 하겠습니다.

In [None]:
import subprocess
import time

WAKE_SIGN = "하이"

def main():
    while True:
        text = get_audio()
        if text.find(WAKE_SIGN) >= 0:
            start_time = time.time()
            while True:
                if time.time() - start_time > 20:
                    break
                print("듣는 중....{:0.2f}".format(time.time() - start_time))
                cmd = get_audio(timeout=5)
                if cmd.find("실행") >= 0:
                    if cmd.find("메모장") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\notepad.exe")       # 메모장 실행
                        speak("메모장을 실행하였습니다.")
                    elif cmd.find("계산기") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\calc.exe")
                        speak("계산기를 실행하였습니다.")
                    elif cmd.find("cmd") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\cmd.exe")
                        speak("명령프롬프트를 실행하였습니다.")

위 코드는 ```while``` 문을 사용하여 2개의 무한루프로 작성되어졌으며 최초 바깥쪽 ```while``` 문에서는 위에서 정한 "하이" 라는 신호만을 감지하게 됩니다. "하이" 라는 음성이 감지되면 두번째 무한루프 안으로 진입하게 되며 ```listen()``` 함수는 5초 동안 음성 감지를 하게 되고 최대 20초 이상 명령이 없으면 안쪽 ```while``` 문을 탈출하는 구조로 동작합니다.


### 윈도우 컴퓨터 볼륨 조절

컴퓨터 볼륨을 조절하기 위해선 ```ctypes```, ```comtypes```, ```pycaw``` 라이브러리가 필요합니다. 윈도우 컴퓨터의 볼륨은 윈도우에 설치된 오디오 디바이스의 Component Object Model 의 인터페이스를 통해 접근하여 조절하는 원리이며 이를 접근하기 위해 필요한 라이브러리들 입니다.

> pip install pycaw

In [None]:
from ctypes import POINTER, cast
from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume

CLSCTX_LOCAL_SERVER = 4

def set_computer_volume(updown):
    devices = AudioUtilities.GetSpeakers()
    interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_LOCAL_SERVER, None)
    volume = cast(interface, POINTER(IAudioEndpointVolume))
    if updown == 0:
        v = volume.GetMasterVolumeLevel()
        v -= 10
        volume.SetMasterVolumeLevel(v, None)
    elif updown == 1:
        v = volume.GetMasterVolumeLevel()
        v += 10
        volume.SetMasterVolumeLevel(v, None)
    elif updown == 2:
        v = volume.GetMute()
        v = 1 if v == 0 else 0
        volume.SetMute(v)

- ```ctypes``` 라이브러리는 파이썬용 외부 함수 라이브러리로 파이썬에서 C/C++ 데이터형태를 사용하거나 DLL 에 있는 함수를 호출하기 위해 사용하기도 합니다. 
- ```pycaw``` 라이브러리는 Python Core  Audio Windows 라이브러리로 윈도우용 오디오 라이브러리 입니다.


CLSCTX_LOCAL_SERVER 은 CoCreateInstance 함수에 의해 윈도우에서 COM 객체생성시에 사용되는 인자값으로 객체에 대한 실행 컨텍스트를 지정하는 값입니다. 여기서 CLSCTX_LOCAL_SERVER 는 이 객체를 생성하고 관리하는 코드는 동일한 시스템에서 실행되지만 별도의 프로세스 공간에 로드될수도 있음을 의미하며 해당 값은 정수 4의 값으로 정의 된 값입니다. [[참고링크1]](https://docs.microsoft.com/en-us/windows/win32/learnwin32/creating-an-object-in-com) [[참고링크2]](https://docs.microsoft.com/en-us/windows/win32/api/wtypesbase/ne-wtypesbase-clsctx)


### 구글 검색 기능 추가

In [None]:
def search(text):
    url = "https://www.google.com/search?&q={}".format(text)
    chrome_path = "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe"
    subprocess.Popen([chrome_path, url])
    return True

### 최종 완성 코드

In [None]:
import speech_recognition as sr
from gtts import gTTS
import modules
from ctypes import POINTER, cast
from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume
import os
import playsound
import subprocess
import time

CLSCTX_LOCAL_SERVER = 4
WAKE_SIGN = "하이"


def get_audio(timeout=None):
    said = ""
    r = sr.Recognizer()
    with sr.Microphone() as source:
        try:
            audio = r.listen(source, timeout=timeout)
            said = r.recognize_google(audio, language="ko-KR")
            print("구글 인식: {}".format(said))
        except sr.UnknownValueError:
            print("구글 인식 불가")
        except sr.RequestError as e:
            print("구글 오류; {0}".format(e))
        except sr.WaitTimeoutError as e:
            print("타임 아웃 {0}".format(e))
            pass
    return said


def speak(text):
    tts = gTTS(text=text, lang="ko", slow=False)
    filename = "__voice.mp3"
    tts.save(filename)
    playsound.playsound(filename)
    os.unlink(filename)


def set_computer_volume(updown):
    devices = AudioUtilities.GetSpeakers()
    interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_LOCAL_SERVER, None)
    volume = cast(interface, POINTER(IAudioEndpointVolume))
    if updown == 0:
        v = volume.GetMasterVolumeLevel()
        v -= 10
        volume.SetMasterVolumeLevel(v, None)
    elif updown == 1:
        v = volume.GetMasterVolumeLevel()
        v += 10
        volume.SetMasterVolumeLevel(v, None)
    elif updown == 2:
        v = volume.GetMute()
        v = 1 if v == 0 else 0
        volume.SetMute(v)


def search(text):
    url = "https://www.google.com/search?&q={}".format(text)
    chrome_path = "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe"
    subprocess.Popen([chrome_path, url])
    return True


def main():
    while True:
        text = get_audio()
        if text.find(WAKE_SIGN) >= 0:
            start_time = time.time()
            while True:
                if time.time() - start_time > 20:
                    break
                print("듣는 중....{:0.2f}".format(time.time() - start_time))
                cmd = get_audio(timeout=5)
                if cmd.find("실행") >= 0:
                    if cmd.find("메모장") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\notepad.exe")       # 메모장 실행
                        speak("메모장을 실행하였습니다.")
                    elif cmd.find("계산기") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\calc.exe")
                        speak("계산기를 실행하였습니다.")
                    elif cmd.find("cmd") >= 0:
                        subprocess.Popen("C:\\Windows\\System32\\cmd.exe")
                        speak("명령프롬프트를 실행하였습니다.")
                elif cmd.find("검색") >= 0:
                    cmd = cmd.replace("검색", "").strip()
                    search(cmd)
                elif cmd.find("볼륨") >= 0:
                    cmd = cmd.replace("볼륨", "").strip()
                    if cmd == "업":
                        set_computer_volume(1)
                    elif cmd == "다운":
                        set_computer_volume(0)
                    elif cmd == "뮤트":
                        set_computer_volume(2)