In [None]:
"""
<STT>
 - 음성을 텍스트로 변환하는 기능
 - SpeechRecognition 음성인식 라이브러리 사용(무료)
 
<TTS>
 - 텍스트를 음성으로 변환하는 기능
 - gTTS or pyttsx3 라이브러리 사용(무료)
"""

### TTS - 텍스트를 음성으로 변환

##### gTTS 라이브러리 사용(음원 파일로 저장하는 방식)

In [1]:
### 라이브러리 정의
# - 설치 필요: pip install gTTS

from gtts import gTTS
import os

In [2]:
### 음성으로 편현할 임의 텍스트 정의하기
kor_text = "안녕하세요. 파이썬으로 텍스트를 음성으로 생성합니다."
kor_text

'안녕하세요. 파이썬으로 텍스트를 음성으로 생성합니다.'

In [3]:
### gTTS 클래스 호출하기
# - 텍스트를 음성으로 변환하여 -> 음성으로 바로 말해주지는 않음
# - 음성 파일(mp3)로 저장하는 역활을 하는 라이브러리 입니다.
speech = gTTS(text=kor_text, lang='ko')
speech

<gtts.tts.gTTS at 0x17aa7eeb250>

In [4]:
### 생성한 gTTS의 음원을 mp3 파일로 저장시키기

### mp3폴더가 존재하지 않으면 -> mp3 폴더를 생성합니다
if not os.path.exists('mp3') :
    os.makedirs('mp3')
    
### 음원 파일 생성하기
mp3_path = './mp3/text_to_speech.mp3'
speech.save(mp3_path)

In [6]:
### 음원 파일 재생시키기

# windows OS에서 실행명령
os.system(f"start {mp3_path}")

# # macOS에서 실행명령
# os.system(f"afplay {mp3_path}")

# # Linux OS에서 실행명령
# os.system(f"mpg321 {mp3_path}")

0

In [8]:
### 음원 파일 삭제하기
os.remove(mp3_path)

### pyttsx3 라이브러리 사용(텍스트를 음성으로 직접 말하기)

In [9]:
### 라이브러리 정의
# - 설치 필요: pip install pyttsx3

import pyttsx3

In [10]:
### 사용할 텍스트
kor_text = "파이 티 티 에스 엑스 쓰리 입니다"
kor_text

'파이 티 티 에스 엑스 쓰리 입니다'

In [11]:
### pyttsx3 엔진 초기화(객체 생성과 동일)
engine = pyttsx3.init()
engine

<pyttsx3.engine.Engine at 0x17aa837a700>

In [None]:
### pyttsx3 기본 설정하기(1)

# 음성 엔진(목소리) 설정하기 위한 설정값 가지고 오기
voices = engine.getProperty('voices')
print(voices)

# 음성 엔진 목소리 선택하기
selected_voice = voices[0]
selected_voice

[<pyttsx3.voice.Voice object at 0x0000017AA83AB880>, <pyttsx3.voice.Voice object at 0x0000017AA877C0A0>]


<pyttsx3.voice.Voice at 0x17aa83ab880>

In [14]:
### pyttsx3 기본 설정하기(2)
### 음성 읽기 속도 정의하기
# - 100: 텍스트를 일반적인 읽기 속도로 읽기(기본값)
# - 100 초과: 텍스트를 더 빠른 속도로 읽음
# - 100 미만: 텍스트를 더 느린 속도로 읽음
rate_value = 130
engine.setProperty('rate', rate_value)

In [15]:
### pyttsx3 엔진 내에서 -> 텍스트를 음성으로 변환시켜 놓기
engine.say(kor_text)

In [16]:
### 변환된 음성 재생하기
engine.runAndWait()

### STT - 음성을 입력으로 받아서 -> 텍스트로 변환하기

In [19]:
### 음성 인식 라이브러리 정의
# - 설치 필요: pip install SpeechRecognition

import speech_recognition as sr

### 마이크에서 음성 추출 라이브러리
# - 설치 필요: pip install pyaudio
import pyaudio

In [18]:
### 음성 인식기 클래스 생성하기
recognizer = sr.Recognizer()
recognizer

<speech_recognition.Recognizer at 0x17aa8cdecd0>

In [None]:
### 음성 입력 받기
with sr.Microphone() as source :
    print("(말하기) 음성을 입력해 주세요 : ")
    audio = recognizer.listen(source)
    
### 입력 받은 음성을 -> 텍스트로 변환하기
# - 예외 처리를 해야 합니다.
try :
    ### 음성을 텍스트로 변환하기
    recoginzed_text = recognizer.recognizer_google(audio, language='ko-kr')
    
    ### 음성 인식 결과 출력
    print(f"음성 인식 결과: {recoginzed_text}")
    
except sr.UnknownValueError :
    print ('음성을 인식할 수 없습니다')
    
except sr.RequestError as e :
    print(f"오류 발생: {e}")

### STT -> TTS: 음성을 입력으로 받아서 -> 텍스트로 변환 후 -> 다시 음성으로 출력ㅡ

In [None]:
################### STT 영역 ###################
### 음성 인식기 클래스 생성하기
recognizer = sr.Recognizer()

### 음성 입력 받기
with sr.Microphone() as source :
    print("(말하기) 음성을 입력해 주세요 : ")
    audio = recognizer.listen(source)
    
### 입력 받은 음성을 -> 텍스트로 변환하기
# - 예외 처리를 해야 합니다.
try :
    ### 음성을 텍스트로 변환하기
    recoginzed_text = recognizer.recognizer_google(audio, language='ko-kr')
    
    ### 음성 인식 결과 출력
    print(f"음성 인식 결과: {recoginzed_text}")
    
except sr.UnknownValueError :
    print ('음성을 인식할 수 없습니다')
    
except sr.RequestError as e :
    print(f"오류 발생: {e}")
    

################### TTS 영역 ###################
### pyttsx3 엔진 초기화(객체 생성과 동일)
engine = pyttsx3.init()

### pyttsx3 기본 설정하기(1)

# 음성 엔진(목소리) 설정하기 위한 설정값 가지고 오기
voices = engine.getProperty('voices')

# 음성 엔진 목소리 선택하기
selected_voice = voices[0]

### pyttsx3 기본 설정하기(2)
### 음성 읽기 속도 정의하기
# - 100: 텍스트를 일반적인 읽기 속도로 읽기(기본값)
# - 100 초과: 텍스트를 더 빠른 속도로 읽음
# - 100 미만: 텍스트를 더 느린 속도로 읽음
rate_value = 130
engine.setProperty('rate', rate_value)

### pyttsx3 엔진 내에서 -> 텍스트를 음성으로 변환시켜 놓기
engine.say(recoginzed_text)

### 변환된 음성 재생하기
engine.runAndWait()

### 함수로 정의하기

In [None]:
"""
 - STT 처리 함수명: getSpeechToText()
 - TTS 처리 함수명: getTextToSpeech()
"""

In [26]:
def getSpeechToText() :
    recognizer = sr.Recognizer()

    ### 음성 입력 받기
    with sr.Microphone() as source :
        print("(말하기) 음성을 입력해 주세요 : ")
        audio = recognizer.listen(source)
        
    ### 입력 받은 음성을 -> 텍스트로 변환하기
    # - 예외 처리를 해야 합니다.
    try :
        ### 음성을 텍스트로 변환하기
        recoginzed_text = recognizer.recognizer_google(audio, language='ko-kr')
        
        ### 음성 인식 결과 출력
        print(f"음성 인식 결과: {recoginzed_text}")
        
    except sr.UnknownValueError :
        print ('음성을 인식할 수 없습니다')
        
    except sr.RequestError as e :
        print(f"오류 발생: {e}")
    return    
    
        
def getTextToSpeech() :
    ################### TTS 영역 ###################
    ### pyttsx3 엔진 초기화(객체 생성과 동일)
    engine = pyttsx3.init()

    ### pyttsx3 기본 설정하기(1)

    # 음성 엔진(목소리) 설정하기 위한 설정값 가지고 오기
    voices = engine.getProperty('voices')

    # 음성 엔진 목소리 선택하기
    selected_voice = voices[0]

    ### pyttsx3 기본 설정하기(2)
    ### 음성 읽기 속도 정의하기
    # - 100: 텍스트를 일반적인 읽기 속도로 읽기(기본값)
    # - 100 초과: 텍스트를 더 빠른 속도로 읽음
    # - 100 미만: 텍스트를 더 느린 속도로 읽음
    rate_value = 130
    engine.setProperty('rate', rate_value)

    ### pyttsx3 엔진 내에서 -> 텍스트를 음성으로 변환시켜 놓기
    engine.say(recoginzed_text)

    ### 변환된 음성 재생하기
    engine.runAndWait()
    return

In [None]:
getSpeechToText()
getTextToSpeech()

In [None]:
import speech_recognition as sr
import pyttsx3

class SpeechProcessor:
    def __init__(self):
        # STT용 Recognizer 객체 생성
        self.recognizer = sr.Recognizer()

        # TTS용 pyttsx3 엔진 초기화
        self.engine = pyttsx3.init()

        # TTS 기본 설정
        self._configure_tts()

    def _configure_tts(self):
        # 목소리 설정
        voices = self.engine.getProperty('voices')
        self.engine.setProperty('voice', voices[0].id)  # 첫 번째 목소리 사용

        # 읽기 속도 설정
        self.engine.setProperty('rate', 130)  # 말하기 속도 조정

    def getSpeechToText(self):
        """STT 처리: 마이크로부터 음성을 입력받아 텍스트로 변환"""
        with sr.Microphone() as source:
            print("(말하기) 음성을 입력해 주세요: ")
            audio = self.recognizer.listen(source)

        try:
            # Google STT API 사용 (한국어)
            recognized_text = self.recognizer.recognize_google(audio, language='ko-KR')
            print(f"음성 인식 결과: {recognized_text}")
            return recognized_text

        except sr.UnknownValueError:
            print("음성을 인식할 수 없습니다.")
            return None

        except sr.RequestError as e:
            print(f"STT 서비스 오류 발생: {e}")
            return None

    def getTextToSpeech(self, text):
        """TTS 처리: 텍스트를 음성으로 변환하고 출력"""
        if text:
            self.engine.say(text)
            self.engine.runAndWait()
        else:
            print("TTS 출력할 텍스트가 없습니다.")


# # 사용 예시
# if __name__ == "__main__":
#     processor = SpeechProcessor()

#     text = processor.getSpeechToText()
#     processor.getTextToSpeech(text)
