# 음성 인식과 음성 합성
    음성 인식 및 합성은 현재 AI 기술의 중요한 응용 분야

    음성 인식은 ASR(Automatic Speech Recognition)을 의미
    음성 합성은 TTS(Text-to-Speech)를 의미

## 음성 인식 개요 (ASR: Automatic Speech Recognition)
    원리와 과정
        음성 수집
            마이크를 통해 음성 데이터를 수집
        전처리
            잡음 제거, 음량 조정 등 신호를 처리하여 분석하기 적합한 형태로 만듦
        특징 추출
            MFCC(Mel Frequency Cepstral Coefficients)와 같은 음성의 특징을 추출
        음향 모델
            음성 데이터를 음소 단위로 변환(예: HMM-GMM, 딥러닝 기반 모델)
        언어 모델
            음소 단위의 데이터를 단어와 문장으로 변환
        디코딩
            최종적으로 인식된 텍스트를 생성

## 음성 합성 개요 (TTS: Text-to-Speech)
    원리와 과정
        텍스트 입력
            변환하고자 하는 텍스트를 입력 받음
        텍스트 분석
            텍스트를 분석하여 발음 기호로 변환(예: 음소 변환)
        음향 모델
            발음 기호를 음성 신호로 변환(예: 규칙 기반, 통계적 모델, 딥러닝 기반 모델)
        신호 생성
            최종 음성 신호를 생성하여 출력

### 음성 인식 모델
    HMM-GMM (Hidden Markov Model - Gaussian Mixture Model)
        HMM-GMM은 전통적인 음성 인식 모델로, 음성 신호의 시간적 변화를 모델링
        HMM은 시간에 따른 상태 변화를 모델링
        GMM은 각 상태에서의 출력 분포를 모델링
    
    딥러닝 기반 모델
        RNN(Recurrent Neural Networks)
        LSTM(Long Short-Term Memory)
        Transformer
        신경망을 사용하여 음성 인식을 수행
        더 복잡한 패턴을 학습할 수 있어 성능이 뛰어남
    
### 음성 합성 모델
    규칙 기반 모델
        규칙 기반 모델은 발음 규칙과 합성 규칙을 사용하여 텍스트를 음성으로 변환

    통계적 모델
        통계적 모델은 대규모 음성 데이터에서 학습된 통계적 정보를 사용하여 음성을 생성
        대표적으로 HMM 기반 TTS가 있음

    딥러닝 기반 모델
        딥러닝 기반 모델은 신경망을 사용하여 텍스트를 음성으로 변환
        대표적으로 Tacotron, WaveNet 등이 있음

In [1]:
#!pip install SpeechRecognition

#### 간단한 음성 인식 구현 (Python 라이브러리 활용)

In [2]:
import speech_recognition as sr

# 음성 인식 객체 생성
recognizer = sr.Recognizer()

# 오디오 파일 로드
# audio_file = 'common_voice_ko_38203273.wav'  # 음성 인식 실패
audio_file = 'filtered_common_voice_ko_38203273.wav' # 필터링된 음성은 인식 성공
try:
    with sr.AudioFile(audio_file) as source:
        audio_data = recognizer.record(source)
    
    # 음성 인식 수행
    try:
        text = recognizer.recognize_google(audio_data, language="ko-KR")
        print("Recognized Text:", text)
    except sr.UnknownValueError:
        print("Google Speech Recognition could not understand audio")
    except sr.RequestError as e:
        print(f"Could not request results from Google Speech Recognition service; {e}")
except Exception as e:
    print(f"Error loading audio file: {e}")


Recognized Text: 완전 예쁘십니다


In [3]:
!pip install pyttsx3



#### 간단한 음성 합성 구현 (Python 라이브러리 활용)

In [4]:
import pyttsx3

# 음성 합성 객체 생성
engine = pyttsx3.init()

# 텍스트 설정
text = "안녕하세요, 파이썬을 사용한 음성 합성 예제입니다."

# 음성 합성 수행
engine.say(text)
engine.runAndWait()


#### 음성 인식 및 합성 라이브러리 활용 예제
     speech_recognition 라이브러리로 음성 인 함수 구현
     pyttsx3 라이브러리로 음성 합 함수 구현on)

In [5]:
import speech_recognition as sr

def recognize_speech_from_file(file_path):
    recognizer = sr.Recognizer()
    with sr.AudioFile(file_path) as source:
        audio_data = recognizer.record(source)
        try:
            text = recognizer.recognize_google(audio_data, language="ko-KR")
            return text
        except sr.UnknownValueError:
            return "Google Speech Recognition could not understand audio"
        except sr.RequestError as e:
            return f"Could not request results; {e}"

file_path = "filtered_common_voice_ko_38203273.wav"
recognized_text = recognize_speech_from_file(file_path)
print("Recognized Text:", recognized_text)


Recognized Text: 완전 예쁘십니다


In [6]:
import pyttsx3

def synthesize_text_to_speech(text):
    engine = pyttsx3.init()
    engine.say(text)
    engine.runAndWait()

text = "안녕하세요, 파이썬을 사용한 음성 합성 예제입니다."
synthesize_text_to_speech(text)
