In [1]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - OpenAI SDK를 사용하여 음성 합성(TTS) 또는 모델 호출을 수행합니다.
#  - .env에서 API 키 등 환경 변수를 로드합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: 'from openai import OpenAI'
# ========================= 코드 해설 주석 끝 ===========================
from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")  # 환경 변수에서 API 키를 가져옵니다.
client = OpenAI(api_key=api_key)  # OpenAI 클라이언트의 인스턴스를 생성합니다.

In [2]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - TTS(텍스트→음성) 관련 설정/변환/파일 저장 로직을 포함합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: 'response = client.audio.speech.create('
# ========================= 코드 해설 주석 끝 ===========================
response = client.audio.speech.create(
    model="tts-1-hd",
    voice="alloy",
    input="Hello world! This is a TTS test.",
)

response.write_to_file("hello_world.mp3")

# 재생
import IPython.display as ipd

ipd.Audio("hello_world.mp3")


In [3]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - TTS(텍스트→음성) 관련 설정/변환/파일 저장 로직을 포함합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: '# 다른 목소리'
# ========================= 코드 해설 주석 끝 ===========================
# 다른 목소리
voice = "ash"
mp3_file = f"hello_world_{voice}.mp3"

response = client.audio.speech.create(
    model="tts-1-hd",
    voice=voice,
    input=f"Hello world! I'm {voice}. This is a TTS test.",
)

response.write_to_file(mp3_file)

# 재생
import IPython.display as ipd

ipd.Audio(mp3_file)

In [4]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - 임포트/설정/헬퍼 등 보조 로직을 수행합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: 'import json'
# ========================= 코드 해설 주석 끝 ===========================
import json

# json 파일 열기
with open('../data/images/image_quiz_eng.json', 'r', encoding='utf-8') as f:
    eng_dict = json.load(f)

eng_dict


[{'no': 1,
  'eng': 'Which of the following descriptions of the image is incorrect?\n- (1) A lot of people are using laptops.\n- (2) There are many lights installed on the ceiling.\n- (3) The text "DIVE 2024 IN BUSAN" is visible.\n- (4) People are mostly engaged in outdoor activities.',
  'img': 'busan_dive.jpg'},
 {'no': 2,
  'eng': 'Which of the following descriptions of the image is incorrect?\n- (1) There is a yellow sculpture.\n- (2) The words "Local Stitch" can be seen on the building.\n- (3) The sculpture is green.\n- (4) The building walls are made of brick.',
  'img': 'local_stitch.jpg'},
 {'no': 3,
  'eng': 'Which of the following descriptions of the image is incorrect?\n- (1) It shows the interior of a cafe.\n- (2) The wall behind the counter is yellow.\n- (3) There is a clock on the wall.\n- (4) There are chairs and tables.',
  'img': 'local_stitch_terrarosa.jpg'},
 {'no': 4,
  'eng': 'Which of the following descriptions of the image is incorrect?\n- (1) A brick building is

In [6]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - TTS(텍스트→음성) 관련 설정/변환/파일 저장 로직을 포함합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: "voices = ['alloy', 'ash', 'coral', 'echo', 'fable', 'onyx', 'nova', 'sage' , 'shimmer']"
# ========================= 코드 해설 주석 끝 ===========================
voices = ['alloy', 'ash', 'coral', 'echo', 'fable', 'onyx', 'nova', 'sage' , 'shimmer']

for q in eng_dict:
    no = q['no']
    quiz = q['eng']
    quiz = quiz.replace("- (1)", "- One.\t")
    quiz = quiz.replace("- (2)", "- Two.\t")
    quiz = quiz.replace("- (3)", "- Three.\t")
    quiz = quiz.replace("- (4)", "- Four.\t")    

    print(no, quiz)
    
    voice = voices[no % len(voices)] # 문제 개수를 목소리 개수로 나눈 나머지 값으로 선택  

    response = client.audio.speech.create(
        model="tts-1-hd",
        voice=voice,
        input=f'#{no}. {quiz}',
    )

    response.write_to_file(f"../data/audio/{no}.mp3")


1 Which of the following descriptions of the image is incorrect?
- One.	 A lot of people are using laptops.
- Two.	 There are many lights installed on the ceiling.
- Three.	 The text "DIVE 2024 IN BUSAN" is visible.
- Four.	 People are mostly engaged in outdoor activities.
2 Which of the following descriptions of the image is incorrect?
- One.	 There is a yellow sculpture.
- Two.	 The words "Local Stitch" can be seen on the building.
- Three.	 The sculpture is green.
- Four.	 The building walls are made of brick.
3 Which of the following descriptions of the image is incorrect?
- One.	 It shows the interior of a cafe.
- Two.	 The wall behind the counter is yellow.
- Three.	 There is a clock on the wall.
- Four.	 There are chairs and tables.
4 Which of the following descriptions of the image is incorrect?
- One.	 A brick building is visible.
- Two.	 There is a sign that says PERSONAL COFFEE on the second floor.
- Three.	 There is a cone-shaped orange object in front of the building.
- Fo

In [7]:
# ========================= 코드 해설 주석 시작 =========================
# 이 셀의 역할(요약):
#  - TTS(텍스트→음성) 관련 설정/변환/파일 저장 로직을 포함합니다.
# 주의: 아래 주석은 원본 코드의 동작을 변경하지 않으며, 가독성을 위해 상단에만 추가되었습니다.
# 첫 줄 미리보기: 'ipd.Audio(f"../data/audio/1.mp3")'
# ========================= 코드 해설 주석 끝 ===========================
ipd.Audio(f"../data/audio/1.mp3")