# TTS (Text To Speech)

- TTS모델은 텍스트를 자연스러운 음성으로 변환하는 AI모델이다.
  - tts-1 : 실시간 텍스트-음성 변환에 최적화된 최신 모델로 속도에 중점. 텍스트를 음성으로 빠르게 변환하는 기능 제공.
  - tts-1-hd : 품질에 최적화된 최신 텍스트-음성 변환 모델로 높은 품질에 중점. 음성의 자연스러움과 선명도 강조.

- 음성 선택지
  - Alloy: 부드럽고 자연스러운 톤의 음성
  - Echo: 명확하고 자신감 있는 음성
  - Fable: 이야기 전달에 적합한 서정적인 음성
  - Onyx: 전문적이고 신뢰감을 주는 음성
  - Nova: 활기차고 에너지 넘치는 음성
  - Shimmer: 부드럽고 진정시키는 음성

In [1]:
# !pip install dotenv
# !pip install openai

In [2]:
from dotenv import load_dotenv
load_dotenv()

False

In [3]:
from openai import OpenAI

client = OpenAI()

input_text = "지금부터 나 좋아해. 가능하면 진심으로 머리 말고 마음을 기대야지 계속 가면 이 길의 끝에 너 있는 거 맞지 살다가 이 선택이 후회되면 그때 빌게요. 전 후회 안할 자신 있거든요 내가 겪은 세상은 그랬어 너 대신 차은상을 무릎 꿇렸네. 내가 아버지 덕분에 가족을 잃었어요 보험이 내 일생일 순 없잖아요? 사는 게 엿 같잖아요 엄마는 아버지 여자니까 아버지가 책임지세요"

with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="ash",
    input=input_text
) as response:
  response.stream_to_file("tts_output.mp3")

OpenAIError: The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable

# STT (Speech To Text)

- Whisper는 OpenAI에서 개발한 범용 음성 인식 모델로, 다양한 오디오 데이터셋을 학습하여 다국어 음성인식, 음성 번역, 언어 식별 등의 작업을 수행할 수 있다.

In [None]:
from openai import OpenAI

client = OpenAI()

with open("tts_output.mp3", "rb") as f:
  transcriptions = client.audio.transcriptions.create(
      model = 'whisper-1',
      file = f
  )

  print(transcriptions)

Transcription(text='지금부터 나 좋아해? 가능하면 진심으로 머리 말고 마음을 기대하지. 계속하면 이 길의 끝에 너 있는 거 맞지 살다가 이 선택이 후회되면 그때 빌게요. 전 후회 안 할 자신 있거든요. 내가 겪은 세상은 그랬어. 너 대신 차은상을 무릎 꿇렸네. 내가 아버지 덕분에 가족을 잃었어요. 보험이 내 일생일 순 없잖아요? 사는 게 엿 같잖아요. 엄마는 아버지 여자니까 아버지가 책임지세요.', logprobs=None)


---

# gTTS

In [None]:
!pip install gtts

Collecting gtts
  Downloading gTTS-2.5.4-py3-none-any.whl.metadata (4.1 kB)
Downloading gTTS-2.5.4-py3-none-any.whl (29 kB)
Installing collected packages: gtts
Successfully installed gtts-2.5.4


In [4]:
from gtts import gTTS

tts = gTTS(text="안녕하세요. 황준호는 다운입니다.", lang='ko')

tts.save('gtts_output.mp3')

# SpeechRecognition

In [6]:
!pip install SpeechRecognition

Collecting SpeechRecognition
  Downloading speechrecognition-3.14.2-py3-none-any.whl.metadata (30 kB)
Downloading speechrecognition-3.14.2-py3-none-any.whl (32.9 MB)
   ---------------------------------------- 0.0/32.9 MB ? eta -:--:--
   --- ------------------------------------ 3.1/32.9 MB 20.5 MB/s eta 0:00:02
   ------ --------------------------------- 5.5/32.9 MB 16.0 MB/s eta 0:00:02
   ---------- ----------------------------- 8.4/32.9 MB 13.7 MB/s eta 0:00:02
   --------------- ------------------------ 12.3/32.9 MB 15.1 MB/s eta 0:00:02
   ------------------ --------------------- 14.9/32.9 MB 14.4 MB/s eta 0:00:02
   ---------------------- ----------------- 18.1/32.9 MB 14.8 MB/s eta 0:00:01
   ------------------------- -------------- 21.2/32.9 MB 14.7 MB/s eta 0:00:01
   --------------------------- ------------ 22.3/32.9 MB 13.6 MB/s eta 0:00:01
   ------------------------------ --------- 25.2/32.9 MB 13.7 MB/s eta 0:00:01
   ----------------------------------- ---- 29.1/32.9 MB

In [5]:
!pip install pydub pyaudio

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting pyaudio
  Downloading PyAudio-0.2.14-cp312-cp312-win_amd64.whl.metadata (2.7 kB)
Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Downloading PyAudio-0.2.14-cp312-cp312-win_amd64.whl (164 kB)
Installing collected packages: pydub, pyaudio
Successfully installed pyaudio-0.2.14 pydub-0.25.1


In [None]:
# 음성 입력 -> 텍스트 출력
import speech_recognition as sr

recognizer = sr.Recognizer()

while True: # 마이크로 부터 음성 입력을 받기 위한 무한 루프
    with sr.Microphone() as source: # 마이크로 부터 음성 입력을 감지하기 위한 소스
        print("듣고 있습니다.")
        print("말씀하세요.")
        audio = recognizer.listen(source)   # 음성 데이터를 수집하기 위한 메소드
        txt = recognizer.recognize_google(audio, language='ko-KR') # 구글 음성 인식 API를 사용하여 음성을 텍스트로 변환
        print("인식된 텍스트: ", txt)
        print(txt)

말씀하세요.
황준호 다운
말씀하세요.


UnknownValueError: 

In [None]:
# !pip install pydub pyaudio



In [1]:
from pydub import AudioSegment
import speech_recognition as sr

AudioSegment.from_mp3('gtts_output.mp3')
audio.export('gtts_output_wav.wav', format='wav')

r = sr.Recognizer()
input_audio = sr.AudioFile('gtts_output_wav.wav')

NameError: name 'audio' is not defined