# 음성 인식(Speech Recognition)

## Speech To Text(STT)

* STT는 음성을 입력받아 그에 해당하는 구문(문자열)을 얻는 기술
* 딥러닝을 이용한 STT 모델에는 WaveNet 등이 존재
* SpeechRecognition을 이용하면 모델을 학습시키지 않고도 간편하게 구현 가능



### 라이브러리 소개 및 설치



*   음성 인식 기술은 음성 데이터가 대부분 크고, 관련 기술 코드도 상당히 길어 구현이 힘듬
*   SpeechRecognition을 사용하면 이러한 과정 없이 음성 인식 기술을 이용할 수 있음



In [1]:
!pip install SpeechRecognition

Collecting SpeechRecognition
  Downloading SpeechRecognition-3.8.1-py2.py3-none-any.whl (32.8 MB)
[K     |████████████████████████████████| 32.8 MB 35 kB/s 
[?25hInstalling collected packages: SpeechRecognition
Successfully installed SpeechRecognition-3.8.1


### Recognizer



*   SpeechRecognition 라이브러리의 기능을 이용하기 위해선 Recognizer 객체를 생성



In [2]:
import speech_recognition as sr

r = sr.Recognizer()

* 여러 기업에서 제공하는 음성 인식 기술 사용 가능
  + `recognize_google()` - Google Web Speech API
  + `recognize_google_cloud()` - Google Cloud Speech
  + `recognize_bing()` - Microsoft Bing Speech
  + `recognize_houndify()` - SoundHound Houndify
  + `recognize_ibm()` - IBM Speech to Text
  + `recognize_wit()` - Wit.ai
  + `recognize_sphinx()` - CMU Sphinx (Sphinx는 오프라인으로 동작하며, 나머지 모든 함수는 인터넷 연결이 되어야만 사용 가능)



## 음성 데이터

* SpeechRecognition 지원 파일 형식
  * WAV
  * AIFF
  * AIFF-C
  * FLAC

* OpenSpeechRepository에서 제공하는 Harvard Sentence 데이터 사용
  + http://www.voiptroubleshooter.com/open_speech/
* SpeechRecognition을 사용하기 위해 데이터를 AudioFile 객체로 변환



In [6]:
import urllib.request

url = 'http://www.voiptroubleshooter.com/open_speech/american/OSR_us_000_0010_8k.wav'
urllib.request.urlretrieve(url, 'american.wav')

In [9]:
import librosa.display
import IPython.display as ipd
import matplotlib.pyplot as plt
ply.style.use('seaborn-white')

fig = plt.figure(figsize=(14,4))
american_wav, rate = librosa.core.load('american.wav')
librosa.display.waveplot(american_wav, sr=rate)

ipd.Audio(american_wav, rate = rate)

## 음성 인식

### 영어(English)




* SpeechRecognition이 기본으로 지원하는 언어
* STT를 구현하기 위해선 먼저 recognizer의 record 함수를 이용해 데이터를 입력
* recognize를 이용해 각 기업에서 제공하는 api를 통해 음성에 해당하는 구문을 얻을 수 있음



In [None]:
american_audio = sr.AudioFile('american.wav')

with american_audio as source:
    audio = r.record(source)

r.recognize_google(audio_data=audio, language='en-US')

* record 함수를 사용할 때 duration을 지정하면 시작 지점에서 원하는 초만큼의 데이터만 입력 가능
* 지정된 음성에 대한 문자열만 얻는 것을 볼 수 있음





In [None]:
with american_audio as source:
    audio = r.record(source, duration=4) # 4초

r.recognize_google(audio_data=audio, language='en-US')

* offset을 지정하면 offset에 해당하는 초부터 데이터를 입력
* duration과 offset을 이용해 원하는 지점, 범위만큼 데이터 입력 가능
*   단, 앞뒤 데이터를 고려하는 특성 상 데이터를 일부만 입력하면 상대적으로 성능이 떨어질 수 있음
*   결과를 보면 같은 지점인데도 아까와는 다른 결과가 나오는 것을 볼 수 있음


In [None]:
with american_audio as source:
    audio = r.record(source, offset=2) # 2초부터 가져옴

r.recognize_google(audio_data=audio, language='en-US')

In [None]:
with american_audio as source:
    audio = r.record(source, offset=2, duration=4) # 2초부터 6초까지
    
r.recognize_google(audio_data=audio, language='en-US')

### 중국어(Chinese - Mandarim)



*  SpeechRecognition은 영어 외에도 중국어, 한국어 등 다양한 언어를 입력할 수 있음
*  단 recognize를 사용할 때 language 인자로 해당 언어에 대한 정보를 명시해주어야 함



In [7]:
url = 'http://www.voiptroubleshooter.com/open_speech/chinese/OSR_cn_000_0072_8k.wav'

urllib.request.urlretrieve(url, 'chinese.wav')

fig = plt.figure(figsize=(14, 4))
chinese_wav, rate = librosa.core.load('chinese.wav')
librosa.display.wavplot(chinese_wav, sr=rate)
ipd.Audio(chinese_wav, rate=rate)

In [None]:
chinese_audio = sr.AudioFile('chinese.wav')

with chinese_audio as source:
    audio = r.record(source)

r.recognize_google(audio_data=audio, language='zh-CN')

### 프랑스어(French)

In [None]:
url = 'http://www.voiptroubleshooter.com/open_speech/french/OSR_fr_000_0041_8k.wav'

urllib.request.urlretrieve(url, 'chinese.wav')

fig = plt.figure(figsize=(14, 4))
french_wav, rate = librosa.core.load('chinese.wav')
librosa.display.wavplot(french_wav, sr=rate)
ipd.Audio(french_wav, rate=rate)

In [None]:
french_audio = sr.AudioFile('french.wav')

with french_audio as source:
    audio = r.record(source)

r.recognize_google(audio_data=audio, language='fr-FR')

### 한국어(Korean)

* https://www.dropbox.com/s/fp8p8dspu74eq7x/korean.wav

In [11]:
!wget https://www.dropbox.com/s/fp8p8dspu74eq7x/korean.wav

--2021-09-03 01:38:52--  https://www.dropbox.com/s/fp8p8dspu74eq7x/korean.wav
Resolving www.dropbox.com (www.dropbox.com)... 162.125.64.18, 2620:100:601b:18::a27d:812
Connecting to www.dropbox.com (www.dropbox.com)|162.125.64.18|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: /s/raw/fp8p8dspu74eq7x/korean.wav [following]
--2021-09-03 01:38:53--  https://www.dropbox.com/s/raw/fp8p8dspu74eq7x/korean.wav
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uc87e7e2cd49620e3da532915488.dl.dropboxusercontent.com/cd/0/inline/BVYHV5DUZ0-AqntXZE_aONvCldj9QR3oqyll6tRdALUYMko6kfUAsSe7MNRyXVpAIeWpEIl9Chl2fBnRpBGhW29Jh808qeAJLl9Z5XZQqoTCWkNnYbwBSCYqxRnb2GHdtUd7lz4hmBnx6EL7A28yKvQf/file# [following]
--2021-09-03 01:38:53--  https://uc87e7e2cd49620e3da532915488.dl.dropboxusercontent.com/cd/0/inline/BVYHV5DUZ0-AqntXZE_aONvCldj9QR3oqyll6tRdALUYMko6kfUAsSe7MNRyXVpAIeWpEIl9Chl2fBnRpBGhW29Jh808qe

In [13]:
fig = plt.figure(figsize=(14, 4))
korean_wav, rate = librosa.core.load('korean.wav')
librosa.display.wavplot(korean_wav, sr=rate)
ipd.Audio(korean_wav, rate=rate)

In [None]:
korean_audio = sr.AudioFile('korean.wav')

with korean_audio as source:
    audio = r.record(source)

r.recognize_google(audio_data=audio, language='kr-KR')