# Chapter 13. 음성인식



:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 음성인식 시스템의 기본 구조를 알아보자.
  - 음성을 텍스트로 변환(SpeechRecognition)해보고, 텍스트를 음성으로 변환해보는 모듈을 사용해보자.

- 기대효과
  - 음성인식 시스템의 모듈을 경험해볼 수 있다.
:::

### 음성인식(Speech Recognition) 활용해보기
- 음성인식이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 의미한다.
- STT(Speech-to-Text)라고도 하며, 현재는 사람과 기계간의 대화를 가능하게 하는 자연어처리 기술까지도 포함하기도 한다.
- 적용사례로는
  - 해외: 아마존의 에코, 구글의 구글 홈, 애플의 홈포드, MS의 인보크 등
  - 국내: SK 텔레콤의 누구, KT의 기가지니, 카카오의 카카오 미니, 네이버의 웨이브, LG전자의 씽큐허브 등이 있다.
  - 특정 단어로 스피커의 기능을 활성화한 후, 스피커의 기능뿐만 아니라 뉴스, 환율, 날씨 등의 정보를 얻을 수 있으며, 네비게이션이나 TV, 냉장고 등 다른 기기들과 연동이 가능하다.

- 음성인식 시스템의 기본 구조
<div align="center"><img src="https://haesunbyun.github.io/common/images/ai9.png"></div>

  - 음향모델: 음성의 신호적인 특성을 모델링하여 비교
  - 언어모델: 단어나 음절 등의 언어적인 순서 관계를 모델링

#### 음성->텍스트변환(SpeechRecognition)

- 음성을 인식하는 라이브러리 SpeechRecognition을 설치하자.

In [None]:
pip install SpeechRecognition

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting SpeechRecognition
  Downloading SpeechRecognition-3.10.0-py2.py3-none-any.whl (32.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m32.8/32.8 MB[0m [31m57.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: SpeechRecognition
Successfully installed SpeechRecognition-3.10.0


- 음성을 인식하는 모듈 이름은 speech_recognition으로 별칭 sr로 import 시킨다.
- sr에 Recognizer()로 음성 인식 객체를 생성한다.

In [None]:
import speech_recognition as sr
r = sr.Recognizer()

- 음성파일인 'hello_hs.wav'을 연다.
- 파일을 open()하면 반드시 close()해 줘야 하는데, with로 파일을 열면 with를 벗어날 때 자동으로 파일이 close 되어 별도로 close()를 해줄 필요가 없다.
```
with open(파일 경로, 모드) as 파일 객체:
    처리 코드
```
- 음성인식 객체인 r의 record()를 통해 오디오 데이타를 얻는다.


In [None]:
hello = sr.AudioFile('hello_hs.wav')

with hello as source:
    audio = r.record(source)

- recognize_google()은 google의 web speech API이다. 기본 API키가 있어서 별도의 API인증키없이 사용 가능하다.
- recognize_google()를 통해 인식된 음성 결과를 텍스트로 반환한다. 옵션으로 언어를 설정해준다.

In [None]:
r.recognize_google(audio, language='ko-KR')

- record() 옵션으로 duration을 주면 해당 초 만큼만 끊어서 텍스트로 읽어온다.

In [None]:
harvard = sr.AudioFile('harvard.wav')
with harvard as source:
    audio1 = r.record(source, duration=4)
    audio2 = r.record(source, duration=4)

In [None]:
r.recognize_google(audio1)

In [None]:
r.recognize_google(audio2)

'it takes heat to bring out the odor a cold dip'

- record() 옵션으로 offset을 주면 해당 초 후부터 읽어온다.

In [None]:
with harvard as source:
    audio = r.record(source, offset=4, duration=3)

In [None]:
r.recognize_google(audio)

'it takes heat to bring out the odor'

#### 텍스트->음성변환(gtts)
- gtts는 Google Text-to-Speech로 구글에서 만든 모듈 음성변환 모듈이다.

In [None]:
pip install gtts

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gtts
  Downloading gTTS-2.3.2-py3-none-any.whl (28 kB)
Installing collected packages: gtts
Successfully installed gtts-2.3.2


In [None]:
from gtts import gTTS

- gtts모듈의 gTTS()함수는 텍스트를 음성으로 변환한다.
- 이때 옵션 lang에 언어를 설정해야 하며, 옵션 slow로 속도를 조정할 수 있다.
- 지원하는 주요 언어는 다음과 같다.

|   언어        |      값      |
|:-------------:|:-----------:|
|Korean|ko|
|English|en|
|English (UK)|en-uk|
|English(US)|en-us|
|Chinese|zh-cn|
|Japanese|ja|
|German|de|
|French|fr|


In [None]:
tts = gTTS(text='안녕하세요. 여러분! 즐거운 주말입니다.', lang='ko', slow=False)
tts.save('hello_kor.mp3')

- IPython.display는 파이썬 작업환경에 나타내는 모듈이다.
- 음성으로 변환한 파일을 파이썬을 통해 들어보자.

In [None]:
import IPython.display as ipd
filename = 'hello_kor.mp3'
ipd.Audio(filename)

In [None]:
tts = gTTS(text='Believe you can, then you will!', lang='en')
tts.save('believe_en_slow.mp3')
filename1 = 'believe_en_slow.mp3'
ipd.Audio(filename1)