# STT(Speech-to-Text)
    음성 데이터를 텍스트 데이터로 변환하는 기술
    이 기술은 음성 인식(Speech Recognition)이라고도 하며, 다양한 애플리케이션에서 활용
    STT 기술의 목표는 사람이 말하는 음성을 정확하게 이해하고 이를 텍스트로 변환하는 것
    
## STT의 주요 구성 요소

### 음성 전처리 (Preprocessing)
	노이즈 제거 (Noise Reduction)
        배경 소음을 제거하거나 줄여서 음성 신호를 깨끗하게 만듦
	정규화 (Normalization)
        음성 신호의 진폭을 일정하게 맞춤
	분절화 (Segmentation)
        음성 신호를 분석 가능한 작은 조각으로 나눔

### 특징 추출 (Feature Extraction)
	MFCC (Mel-Frequency Cepstral Coefficients)
        음성 신호의 주파수 특성을 나타내는 중요한 특징
	Spectrograms
        음성 신호의 주파수 변화를 시각적으로 나타낸 것

### 음성 인식 모델 (Recognition Model)
	Hidden Markov Models (HMMs)
        음성 인식의 초기 모델로, 시간에 따른 변화를 모델링
	Deep Neural Networks (DNNs)
        음성 인식의 성능을 향상시키기 위해 사용
	Recurrent Neural Networks (RNNs) / Long Short-Term Memory (LSTM)
        시간적 의존성을 고려한 모델로, 연속된 음성을 처리
	Transformer Models
        최근에는 Attention 메커니즘을 사용하는 Transformer 모델들이 STT에 적용되어 높은 정확도를 보임

### 언어 모델 (Language Model)
	N-gram Models
        단어나 음소의 연속성을 모델링하여 음성 인식의 정확도를 높임
	Neural Language Models
        딥러닝 기반의 언어 모델로, 더 복잡한 문맥을 이해할 수 있음

## STT의 주요 적용 분야

### 음성 비서 (Voice Assistants)
	예시: Amazon Alexa, Google Assistant, Apple Siri
	기능: 사용자 명령을 이해하고 수행

### 자동 자막 생성 (Automatic Captioning)
	예시: YouTube, Zoom
	기능: 동영상이나 회의의 음성을 텍스트로 변환하여 자막 생성

### 전화 시스템 (Call Centers)
	기능: 고객과의 통화 내용을 기록하고 분석

### 음성 기반 검색 (Voice Search)
	예시: Google Voice Search
	기능: 사용자가 음성으로 검색 요청을 하면 이를 텍스트로 변환하여 검색

### 의료 분야 (Healthcare)
	기능: 의사의 음성을 텍스트로 변환하여 진료 기록을 자동으로 작성

## STT 기술의 도전 과제
    노이즈 처리
        배경 소음이 많은 환경에서는 음성 인식의 정확도가 낮아질 수 있음
    방언 및 억양
        다양한 방언과 억양을 처리하는 것이 어려움
    실시간 처리
        실시간 음성 인식의 경우 지연 시간(latency)을 최소화하는 것이 중요
    정확도 향상
        정확도를 높이기 위해서는 더 많은 데이터와 더 복잡한 모델이 필요

# 라이브러리 활용

## FFmpeg 설치하기
### 용도
- mp3 -> wav 변환 등
- 오디오 및 비디오 실시간 스트리밍
- 비디오 및 오디오 편집
- 비디오 및 오디오 인코딩
- 비디오 썸네일 생성
- 화면 및 오디오 캡처

#### 다음에 나오는 예제코드 실행 시 파일 변환 함수에서 파일을 못 찾을 경우

    - 파일 경로 확인 시 문제 없는 경우 FFmpeg 설치 필요
    - 설치 후 주피터 노트북 재시작

#### FFmpeg 설치 방법
FFmpeg 다운로드 및 설치  

    https://github.com/BtbN/FFmpeg-Builds/releases
    다운로드한 압축 파일을 원하는 디렉토리에 압축 해제

환경 변수 설정 (Windows)
    
    FFmpeg 바이너리(bin)가 있는 디렉토리를 시스템 환경 변수 PATH에 추가
![image.png](attachment:8711f9ad-13c8-498d-a85c-2826348a58ce.png)
       
환경 변수 설정 확인

    명령 프롬프트를 열고 ffmpeg 명령어를 입력하여 FFmpeg가 제대로 설치되었는지 확인
    FFmpeg 버전 정보가 출력되면 설치가 제대로 된 것
![image.png](attachment:d77f4047-4e76-4c32-af6d-fa36bf9987fd.png)

## speech_recognition 라이브러리 사용하기

    파이썬에서 음성 인식 기능을 쉽게 구현할 수 있도록 도와주는 도구
    음성 데이터를 텍스트로 변환
    다양한 음성 인식 API 및 엔진을 지원


### 다양한 음성 인식 엔진 지원
    Google Web Speech API
        Google의 음성 인식 서비스를 사용하여 음성을 텍스트로 변환
    CMU Sphinx
        오픈 소스 음성 인식 시스템으로 오프라인 음성 인식을 지원
    Microsoft Bing Voice Recognition
        Microsoft의 음성 인식 API를 사용
    IBM Speech to Text
        IBM의 음성 인식 서비스를 사용
    Recognizer Wrapper
        PocketSphinx, Google Cloud Speech API, Wit.ai, Microsoft Azure Speech, Houndify API, IBM Watson Speech to Text 등 다양한 엔진을 통합

### 다양한 오디오 파일 포맷 지원
    WAV, AIFF, FLAC 등의 포맷을 직접 지원하며, MP3는 pydub 라이브러리를 사용하여 변환할 수 있음

### 음성 파일 및 마이크 입력 지원
    파일로부터 음성을 읽어올 수 있으며, 마이크를 통해 실시간으로 음성을 입력받아 인식할 수 있음

In [1]:
!pip install speechrecognition pydub

Collecting speechrecognition
  Downloading SpeechRecognition-3.10.4-py2.py3-none-any.whl.metadata (28 kB)
Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading SpeechRecognition-3.10.4-py2.py3-none-any.whl (32.8 MB)
   ---------------------------------------- 32.8/32.8 MB 24.2 MB/s eta 0:00:00
Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Installing collected packages: pydub, speechrecognition
Successfully installed pydub-0.25.1 speechrecognition-3.10.4



[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import speech_recognition as sr
from pydub import AudioSegment



In [5]:
# MP3 파일을 WAV 파일로 변환
mp3_path = r'common_voice_ko_40672717.mp3'
wav_path = r'common_voice_ko_40672717.wav'

audio = AudioSegment.from_mp3(mp3_path)
audio.export(wav_path, format='wav')

FileNotFoundError: [WinError 2] 지정된 파일을 찾을 수 없습니다

In [4]:
# 음성 인식기 초기화
recognizer = sr.Recognizer()

In [6]:
# WAV 파일 읽기
with sr.AudioFile(wav_path) as source:
    audio_data = recognizer.record(source)

In [7]:
# 음성 인식 (Google Web Speech API 사용)
try:
    text = recognizer.recognize_google(audio_data, language='ko-KR')
    print("음성 인식 결과: ", text)
except sr.UnknownValueError:
    print("음성을 이해할 수 없습니다.")
except sr.RequestError as e:
    print(f"Google Web Speech API 요청 오류: {e}")

음성 인식 결과:  할 수 있어요


In [8]:
# 전체 코드
import speech_recognition as sr
from pydub import AudioSegment

# MP3 파일을 WAV 파일로 변환
mp3_path = r'common_voice_ko_40672717.mp3'
wav_path = r'common_voice_ko_40672717.wav'

audio = AudioSegment.from_mp3(mp3_path)
audio.export(wav_path, format='wav')

# 음성 인식기 초기화
recognizer = sr.Recognizer()

# WAV 파일 읽기
with sr.AudioFile(wav_path) as source:
    audio_data = recognizer.record(source)

# 음성 인식 (Google Web Speech API 사용)
try:
    text = recognizer.recognize_google(audio_data, language='ko-KR')
    print("음성 인식 결과: ", text)
except sr.UnknownValueError:
    print("음성을 이해할 수 없습니다.")
except sr.RequestError as e:
    print(f"Google Web Speech API 요청 오류: {e}")


음성 인식 결과:  할 수 있어요


### 함수로 만들기

In [9]:
import speech_recognition as sr
from pydub import AudioSegment

def convert_mp3_to_wav(mp3_path, wav_path):
    audio = AudioSegment.from_mp3(mp3_path)
    audio.export(wav_path, format='wav')

def recognize_speech_from_wav(wav_path, language='ko-KR'):
    recognizer = sr.Recognizer()
    
    with sr.AudioFile(wav_path) as source:
        audio_data = recognizer.record(source)

    try:
        text = recognizer.recognize_google(audio_data, language=language)
        return text
    except sr.UnknownValueError:
        return "음성을 이해할 수 없습니다."
    except sr.RequestError as e:
        return f"Google Web Speech API 요청 오류: {e}"

def convert_and_recognize(mp3_path, wav_path, language='ko-KR'):
    convert_mp3_to_wav(mp3_path, wav_path)
    text = recognize_speech_from_wav(wav_path, language)
    return text

# 사용 예시
mp3_file_path = '녹음2.mp3'
wav_file_path = '녹음2.wav'

recognized_text = convert_and_recognize(mp3_file_path, wav_file_path)
print("음성 인식 결과: ", recognized_text)

음성 인식 결과:  완전 예쁘십니다


### 마이크로부터 실시간 음성 인식 하기

In [10]:
#!pip install pyaudio

Collecting pyaudio
  Downloading PyAudio-0.2.14-cp312-cp312-win_amd64.whl.metadata (2.7 kB)
Downloading PyAudio-0.2.14-cp312-cp312-win_amd64.whl (164 kB)
   ---------------------------------------- 0.0/164.1 kB ? eta -:--:--
   ---------------------------------------- 0.0/164.1 kB ? eta -:--:--
   -- ------------------------------------- 10.2/164.1 kB ? eta -:--:--
   -- ------------------------------------- 10.2/164.1 kB ? eta -:--:--
   -- ------------------------------------- 10.2/164.1 kB ? eta -:--:--
   ------- ------------------------------- 30.7/164.1 kB 145.2 kB/s eta 0:00:01
   -------------- ------------------------ 61.4/164.1 kB 233.8 kB/s eta 0:00:01
   --------------------- ----------------- 92.2/164.1 kB 308.0 kB/s eta 0:00:01
   -------------------------------------- 164.1/164.1 kB 469.2 kB/s eta 0:00:00
Installing collected packages: pyaudio
Successfully installed pyaudio-0.2.14


In [11]:
import speech_recognition as sr

# 음성 인식기 초기화
recognizer = sr.Recognizer()

# 마이크 사용
with sr.Microphone() as source:
    print("말씀해 주세요...")
    try:
        # 'timeout'은 대기 시간, 'phrase_time_limit'은 말이 없으면 종료되는 시간
        audio_data = recognizer.listen(source, timeout=5, phrase_time_limit=10)
        
        # Google Web Speech API를 사용하여 음성 인식
        try:
            text = recognizer.recognize_google(audio_data)
            print("음성 인식 결과: ", text)
        except sr.UnknownValueError:
            print("음성을 이해할 수 없음")
        except sr.RequestError as e:
            print(f"Google Web Speech API 요청 오류: {e}")
    except sr.WaitTimeoutError:
        print("시간 초과")


말씀해 주세요...
음성을 이해할 수 없음


### STT 활용

#### QnA (Questions and Answers)
    QnA는 실시간 상호작용을 포함한 질문과 답변 형태로, STT 기술을 적용하기에 적합

    실시간 상호작용
        사용자가 마이크를 통해 질문을 말로 제출할 수 있고, STT 기술을 사용하여 이를 텍스트로 변환하여 시스템에 전달
        실시간 답변 세션에서도 음성으로 제공되는 답변을 텍스트로 변환하여 기록하거나 화면에 표시
    음성 기반 질문 제출
        음성을 통해 질문을 제출하면 STT 기술이 이를 텍스트로 변환하여 QnA 플랫폼에 게시
        예를 들어, 고객 지원 시스템에서 사용자가 전화로 질문을 남기면, STT 기술을 통해 질문을 텍스트로 변환하여 지원팀에 전달
    회의나 세미나의 QnA 세션
        회의나 세미나 중 QnA 세션에서 참석자들의 질문을 음성으로 받아 텍스트로 변환하고, 이를 기록하거나 자동으로 답변을 생성