## TTS

TTS (Text-to-Speech) 모델은 텍스트를 자연스러운 음성으로 변환하는 AI 모델이다. OpenAI는 세 가지 모델을 제공한다:

* `tts-1`: 실시간 텍스트-음성 변환에 최적화된 최신 모델로, 속도에 중점을 둔다. 이 모델은 빠르게 텍스트를 음성으로 변환할 수 있는 기능을 제공한다.
* `tts-1-hd`: 품질에 최적화된 최신 텍스트-음성 변환 모델로, 더 높은 음성 품질을 제공한다. 이 모델은 음성의 자연스러움과 선명도를 강조한다.
* `gpt-4o-mini-tts` GPT-4o mini 기반의 최신 TTS 모델로, 지능형 실시간 애플리케이션에 최적화되어 있다. 억양, 감정 범위, 톤 등을 프롬프트로 제어할 수 있으며, 11개의 내장 보이스(alloy, ash, coral 등)를 지원한다. 최대 2,000 토큰 입력을 처리하며, 다국어(50+ 언어) 지원과 스트리밍이 가능하다

이 모델들은 OpenAI API의 `/v1/audio/speech` 엔드포인트에서 호출되며, 입력 텍스트, 보이스, 지시사항(instructions)을 지정한다.

**음성 선택지:**

https://platform.openai.com/docs/guides/text-to-speech#voice-options

- Alloy: 부드럽고 자연스러운 톤의 음성.
- Echo: 명확하고 자신감 있는 음성.
- Fable: 이야기 전달에 적합한 서정적인 음성.
- Onyx: 전문적이고 신뢰감을 주는 음성.
- Nova: 활기차고 에너지 넘치는 음성.
- Shimmer: 부드럽고 진정시키는 음성.

In [11]:
from openai import OpenAI
from dotenv import load_dotenv  # .env 파일의 환경변수 로드
import os                       # 환경변수 접근용

load_dotenv()                   # 현재 위치의 .env를 읽어와 환경변수로 등록
api_key = os.getenv("openai_key")  # .env의 openai_key 값을 가져옴
client = OpenAI(api_key=api_key)

# TTS 응답을 스트리밍으로 받는 컨텍스트 매니저
with client.audio.speech.with_streaming_response.create(
    model = 'gpt-4o-mini-tts',    # 사용할 TTS 모델
    voice = 'marin',               # 음성 스타일(보이스) 선택
    input = '오늘은 날씨가 꽤 춥습니다. 감기 조심하세요!'  # 음성으로 변환할 텍스트 입력
) as resp:
    resp.stream_to_file('output.mp3')  # 스트리밍으로 받은 오디오를 MP3파일로 저장

In [12]:
# Jupyter/Colab 에서 오디오 플레이어로 mp3 재생
from IPython.display import Audio, display   # 오디오 위젯, 출력 함수

display(Audio('output.mp3', autoplay=True))  # output.mp3를 로드해 자동 재생(autoplay)하여 표시

In [13]:
input = """
안녕하세요 고객님.
먼저 배송 지연으로 불편을 드려 정말 죄송합니다.
말씀 주신 내용 충분히 이해했고, 답답하셨을 상황이라고 생각합니다.

주문번호 20241203-458921 확인해 보니,
현재 일부 상품의 입고 지연으로 인해 전체 출고가 보류된 상태로 확인됩니다.
연말 물량 증가로 특정 상품의 재고 확보가 예상보다 늦어지면서
출고 일정이 당초 안내드린 일정(2~3일)보다 지연되고 있는 상황입니다.

다만, 이 과정에서 별도의 지연 안내를 드리지 못한 점은
저희 쪽 안내가 미흡했던 부분으로 확인되어 다시 한 번 사과드립니다.
고객님께서 불안함을 느끼실 수밖에 없었을 것 같아 저희도 매우 안타깝게 생각하고 있습니다.

현재 기준으로 보면,
해당 주문은 이번 주 금요일(12/8) 출고 예정으로 시스템에 반영되어 있으며,
출고 후에는 평균적으로 1~2일 내 배송이 이루어질 가능성이 높습니다.
다만 물류 상황에 따라 하루 정도 추가 지연 가능성은 있는 점은
솔직하게 미리 안내드리고 싶습니다.

말씀 주신 것처럼,
전체 주문 취소가 아닌 **일부 상품만 취소 또는 환불**도 가능합니다.
현재 주문 상품 중에서
출고 지연의 원인이 되는 상품 1종은
부분 취소 처리 시 나머지 상품은 바로 출고 요청을 진행할 수 있습니다.

정리해서 선택 가능한 방법을 안내드리면 아래와 같습니다.

1 이번 주 출고까지 기다리시고 전체 상품을 그대로 수령  
2 지연 상품만 부분 취소 → 나머지 상품은 즉시 출고  
3 전체 주문 취소 및 전액 환불  

어떤 방법을 선택하시든,
배송 지연에 대한 불편을 고려해
**고객님께 적립금 3,000원**을 보상 차원에서 지급해 드릴 수 있습니다.
해당 적립금은 다음 주문 시 바로 사용 가능하며,
부분 취소 또는 전체 취소를 선택하셔도 동일하게 지급됩니다.

고객님 말씀처럼,
공지나 사전 안내가 있었더라면 이런 불편이 없었을 텐데
그 부분에 대해서는 내부적으로도 개선이 필요하다고 판단하고 있습니다.
이번 문의 내용은 관련 부서에 전달하여
동일한 상황이 반복되지 않도록 조치하겠습니다.

고객님께서 원하시는 처리 방향만 말씀해 주시면
제가 바로 이어서 처리 도와드리겠습니다.
추가로 궁금하신 점이나 걱정되시는 부분이 있다면
편하게 말씀 주세요.
"""

print(len(input))

with client.audio.speech.with_streaming_response.create(
    model = 'gpt-4o-mini-tts',    # 사용할 TTS 모델
    voice = 'marin',              # 음성 스타일(보이스) 선택
    input = input[:4096]          # 음성으로 변환할 텍스트 입력
) as resp:
    resp.stream_to_file('output.mp3')  # 스트리밍으로 받은 오디오를 MP3파일로 저장

1111


In [14]:
# Jupyter/Colab 에서 오디오 플레이어로 mp3 재생
from IPython.display import Audio, display   # 오디오 위젯, 출력 함수

display(Audio('output.mp3', autoplay=True))  # output.mp3를 로드해 자동 재생(autoplay)하여 표시

## Whisper

https://platform.openai.com/docs/models/whisper-1

https://huggingface.co/openai/models?search=whisper

Whisper는 OpenAI에서 개발한 범용 음성 인식 모델로, 다양한 오디오 데이터셋을 학습하여 다국어 음성 인식, 음성 번역, 언어 식별 등의 작업을 수행할 수 있다.

Whisper v3-large 모델은 현재 API를 통해 'whisper-1'이라는 이름으로 제공되고 있다.

오픈 소스 버전의 Whisper와 API를 통한 Whisper는 기능적으로 동일하지만, API를 통해 제공되는 버전은 최적화된 추론 과정을 거쳐 다른 방법에 비해 더 빠르게 동작한다.

In [15]:
# MP3 파일을 Whisper로 음성 -> 텍스트 (STT)
with open('output.mp3', 'rb') as f:       # 오디오 파일을 바이너리 읽기 모드로 열기
    # Speech-To-Text(STT) API 호출
    transcription = client.audio.transcriptions.create(
        model = 'whisper-1',  # 사용할 STT 모델
        file = f              # 업로드할 오디오 파일 객체
    )

print(transcription.text)     # 변환된 텍스트 결과

안녕하세요 고객님, 먼저 배송 지연으로 불편을 드려 정말 죄송합니다. 말씀 주신 내용 충분히 이해했고 답답하셨을 상황이라고 생각합니다. 주문번호 2024-203-4589291 확인해 보니 현재 일부 상품의 입고 지연으로 인해 전체 출보가 보류된 상태로 확인됩니다. 연말 물량 증가로 특정 상품의 재고 확보가 예상보다 늦어지면서 출보 일정이 당초 안내드린 일정, 2-3일보다 지연되고 있는 상황입니다. 다만 이 과정에서 별도의 지연 안내를 드리지 못한 점은 저희 쪽 안내가 미흡했던 부분으로 확인되어 다시 한번 사과드립니다. 고객님께서 불안함을 느끼실 수밖에 없었을 것 같아 저희도 매우 안타깝게 생각하고 있습니다. 현재 기준으로 보면 해당 주문은 이번 주 금요일 12-18 출보 예정으로 시스템에 반영되어 있으며 출보 후에는 평균적으로 1-2일 내 배송이 이루어질 가능성이 높습니다. 다만 물류 상황에 따라 하루 정도 추가 지연 가능성은 있는 점은 솔직하게 미리 안내드리고 싶습니다. 말씀 주신 것처럼 전체 주문 취소가 아닌 일부 상품만 취소 또는 환불도 가능합니다. 현재 주문 상품 중에서 출보 지연의 원인이 되는 상품 1종은 부분 취소 처리 시 나머지 상품은 바로 출보 요청을 진행할 수 있습니다. 정리해서 선택 가능한 방법을 안내 드리면 아래와 같습니다. 1. 이번 주 출고까지 기다리시고 전체 상품을 그대로 수령 2. 지연 상품만 부분 취소 나머지 상품은 즉시 출고 3. 전체 주문 취소 및 전액 환불 어떤 방법을 선택하시든 배송 지원에 대한 불편을 고려해 고객님께 적립금 3,000원을 보상 차원에서 지급해 드릴 수 있습니다. 해당 적립금은 다음 주문 시 바로 사용 가능하며 부분 취소 또는 전체 취소를 선택하셔도 동일하게 지급됩니다. 고객님 말씀처럼 공지나 사전 안내가 있었더라면 이런 불편이 없었을 텐데 그 부분에 대해서는 내부적으로도 개선이 필요하다고 판단하고 있습니다. 이번 문의 내용은 관련 부서에 전달하여 동일한 상황이 반복되지 않도록 조치하겠습니다. 고객님께서 원하