## OpenAI API 키 발급 및 설정

### 1. OpenAI API 키 발급

[OpenAI API 키 발급방법](https://teddylee777.github.io/openai/openai-api-key/) 글을 참고해 주세요.

### 2. `.env` 파일 설정

- 프로젝트 루트 디렉토리에 `.env` 파일을 생성합니다.
- 파일에 API 키를 다음 형식으로 저장합니다:
  `OPENAI_API_KEY` 에 발급받은 API KEY 를 입력합니다.

- `.env` 파일에 발급한 API KEY 를 입력합니다.


In [2]:
# 토큰 정보로드를 위한 라이브러리
# 설치: pip install python-dotenv
from dotenv import load_dotenv

# 토큰 정보로드
load_dotenv()

True

## 자막생성


In [3]:
from openai import OpenAI

client = OpenAI()

In [6]:
audio_file = open("data/채용면접_샘플_01.wav", "rb")
transcript = client.audio.transcriptions.create(
    file=audio_file,
    model="whisper-1",
    language="ko",
    response_format="srt",  # 자막 포맷
    temperature=0.0,
)

In [7]:
print(transcript)

1
00:00:00,000 --> 00:00:07,000
지금 생각해보면 가장 기억에 남는 것이 외환위기 때의 경험입니다.

2
00:00:07,000 --> 00:00:13,000
외환위기 때 나라뿐 아니라 회사에서는 달러가 많이 부족했고

3
00:00:13,000 --> 00:00:19,000
우리는 수출을 하기 위해서 원자재라든지 대금지급

4
00:00:19,000 --> 00:00:23,000
혹은 또 우리가 수출한 물건에 대한 대금을 받아야 되는 상황이었습니다.

5
00:00:23,000 --> 00:00:29,000
일단은 우리가 해외로부터 받아야 될 때는 최대한 그것을 달러로 받았고

6
00:00:29,000 --> 00:00:36,000
반대로 우리가 지불해야 될 것은 가능한 한 원자재를 통해서 지급을 했습니다.

7
00:00:36,000 --> 00:00:40,000
그 원자재라는 것이 결국은 반도체 쪽이었는데

8
00:00:40,000 --> 00:00:46,000
우리나라에서 가장 나름 손쉽게 구하면서도 꼭 필요한 제품인 반도체를

9
00:00:46,000 --> 00:00:48,000
원자재값 대응으로 물건을 주면서

10
00:00:48,000 --> 00:00:53,000
반대로 해외에서 우리가 받아야 될 것은 달러로 받으면서

11
00:00:53,000 --> 00:00:57,000
그 환율차를 가장 줄일 수가 있었습니다.

12
00:00:57,000 --> 00:01:06,000
그것으로 인해서 약 6개월 동안에 나름 회사에서는 달러 지출을 막을 수 있었고

13
00:01:06,000 --> 00:01:15,000
그때 그나마 달러를 회사에서 확보를 해서 나름의 위기를 극복할 수 있었던 것으로 생각합니다.





## YouTube


In [8]:
from pytube import YouTube
import os

link = "https://youtu.be/LQS3y7Tckhc?si=pEJdAfSq3On_Uvou"

yt = YouTube(link)
filename = yt.streams.filter(only_audio=True).first().download()
renamed_file = filename.replace(".mp4", ".mp3")
os.rename(filename, renamed_file)

In [9]:
print(renamed_file)

/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화.mp3


## MP3 -> WAV 변환


In [10]:
from moviepy.editor import AudioFileClip


def convert_mp3_to_wav(filepath):
    # WAV 파일 경로
    wav_file_path = filepath.replace(".mp3", ".wav")

    # MP4 파일 로드
    audio_clip = AudioFileClip(filepath)

    # WAV 형식으로 오디오 추출 및 저장
    audio_clip.write_audiofile(wav_file_path, fps=44100, nbytes=2, codec="pcm_s16le")
    return wav_file_path

In [11]:
wav_file = convert_mp3_to_wav(renamed_file)

MoviePy - Writing audio in /Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화.wav


                                                                      

MoviePy - Done.




In [13]:
from pydub import AudioSegment

# 오디오 파일 불러오기
audio = AudioSegment.from_file(wav_file, format="wav")

total_length = len(audio)
length_per_chunk = 60 * 1000  # 60초

if not os.path.exists(".tmp"):
    os.mkdir(".tmp")

folder_path = os.path.join(".tmp", wav_file[:-4])

if not os.path.exists(folder_path):
    os.mkdir(folder_path)

chunks = []
for i in range(0, total_length, length_per_chunk):
    chunk_file_path = os.path.join(folder_path, f"{i}.wav")
    audio[i : i + length_per_chunk].export(chunk_file_path, format="wav")
    chunks.append(chunk_file_path)

In [14]:
chunks

['/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/0.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/60000.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/120000.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/180000.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/240000.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/300000.wav',
 '/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/360000.wav']

In [16]:
from datetime import datetime, timedelta
import re


def adjust_timestamps(transcript, minutes=1):
    # Define the regular expression pattern for timestamps
    timestamp_pattern = re.compile(r"(\d{2}:\d{2}:\d{2},\d{3})")

    # Function to add minutes to a timestamp
    def add_minutes(timestamp_str, minutes):
        timestamp = datetime.strptime(timestamp_str, "%H:%M:%S,%f")
        adjusted_timestamp = timestamp + timedelta(minutes=minutes)
        return adjusted_timestamp.strftime("%H:%M:%S,%f")[:-3]

    # Replace timestamps in the transcript
    adjusted_transcript = timestamp_pattern.sub(
        lambda match: add_minutes(match.group(1), minutes), transcript
    )
    return adjusted_transcript

In [17]:
transcripts = []
for i, chunk in enumerate(chunks):
    print(chunk)
    audio_file = open(chunk, "rb")
    transcript = client.audio.transcriptions.create(
        file=audio_file,
        model="whisper-1",
        language="ko",
        response_format="srt",
        temperature=0.01,
    )
    transcripts.append(adjust_timestamps(transcript, minutes=i))

/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/0.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/60000.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/120000.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/180000.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/240000.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/300000.wav
/Users/teddy/Dev/github/openai-api-kr/[GPTs로 꿀빨기] PPT 제작 자동화/360000.wav


In [19]:
def merge_transcripts(*transcripts):
    merged_transcript = ""
    current_number = 1

    for transcript in transcripts:
        # Split the transcript into segments
        segments = transcript.strip().split("\n\n")
        for segment in segments:
            # Split each segment into lines
            lines = segment.split("\n")
            # Replace the number at the beginning of each segment with the correct sequence number
            lines[0] = str(current_number)
            # Increment the sequence number
            current_number += 1
            # Reassemble the segment
            merged_transcript += "\n".join(lines) + "\n\n"

    return merged_transcript.strip()

In [20]:
print(merge_transcripts(*transcripts))

1
00:00:00,000 --> 00:00:07,760
여기 있는 내용들을 쭉 드래그를 합니다 복사를 하신 다음에 ppt 제작 전문가 gptsbot한테 붙여넣기를 해주는 거예요

2
00:00:07,760 --> 00:00:16,639
얘가 ppt를 작성을 해주는 것을 볼 수가 있어요 ppt의 제목을 알아서 뽑아주고요 그 안에 포함될 블랙포인트들을 구성을 해줍니다

3
00:00:16,639 --> 00:00:25,920
마지막으로 발표 스크립트도 얘가 자동으로 작성을 해주거든요 에디터 영역에다가 붙여넣기를 해주시면은 오른쪽에 깔끔하게 장표가 완성이 되는 것을 볼 수가 있어요

4
00:00:25,920 --> 00:00:27,360
굉장히 빠르게 완성이 되죠

5
00:00:30,000 --> 00:00:38,160
안녕하세요 오늘은 채치 pt의 새로운 기능 중에 하나인 gpts에 대해서 알아보도록 하겠는데요

6
00:00:38,160 --> 00:00:42,639
제가 최근에 이 gpts를 활용하면서 정말 놀라움을 금치 못하고 있습니다

7
00:00:42,639 --> 00:00:48,240
생산성을 극대화 해주는 게 바로 gpts 인데요 관심 있으신 분들은 한번씩 써보고 계실 것 같아요

8
00:00:48,240 --> 00:00:52,560
제가 평소에 너무 싫어하는 게 이 ppt를 제작하는 것을 너무 귀찮아해요

9
00:00:52,560 --> 00:00:54,160
문서 하는 것도 너무 귀찮아하고요

10
00:00:54,160 --> 00:00:56,560
이 ppt를 어떻게 하면 좀 쉽게 만들 수 있을까

11
00:00:56,560 --> 00:01:00,720
요즘에는 채치 pt를 사용해서 귀찮은 부분들을 많이 해소를 하고 있습니다

12
00:01:00,000 --> 00:01:03,880
제가 이렇게 PPT 제작 전문가라는 GPTS를 만들어 봤어요

13
00:01:03,880 --> 00:01:06,080
먼저 이 기능에 대해서

In [21]:
merged_transcript = merge_transcripts(*transcripts)
print(merged_transcript)

1
00:00:00,000 --> 00:00:07,760
여기 있는 내용들을 쭉 드래그를 합니다 복사를 하신 다음에 ppt 제작 전문가 gptsbot한테 붙여넣기를 해주는 거예요

2
00:00:07,760 --> 00:00:16,639
얘가 ppt를 작성을 해주는 것을 볼 수가 있어요 ppt의 제목을 알아서 뽑아주고요 그 안에 포함될 블랙포인트들을 구성을 해줍니다

3
00:00:16,639 --> 00:00:25,920
마지막으로 발표 스크립트도 얘가 자동으로 작성을 해주거든요 에디터 영역에다가 붙여넣기를 해주시면은 오른쪽에 깔끔하게 장표가 완성이 되는 것을 볼 수가 있어요

4
00:00:25,920 --> 00:00:27,360
굉장히 빠르게 완성이 되죠

5
00:00:30,000 --> 00:00:38,160
안녕하세요 오늘은 채치 pt의 새로운 기능 중에 하나인 gpts에 대해서 알아보도록 하겠는데요

6
00:00:38,160 --> 00:00:42,639
제가 최근에 이 gpts를 활용하면서 정말 놀라움을 금치 못하고 있습니다

7
00:00:42,639 --> 00:00:48,240
생산성을 극대화 해주는 게 바로 gpts 인데요 관심 있으신 분들은 한번씩 써보고 계실 것 같아요

8
00:00:48,240 --> 00:00:52,560
제가 평소에 너무 싫어하는 게 이 ppt를 제작하는 것을 너무 귀찮아해요

9
00:00:52,560 --> 00:00:54,160
문서 하는 것도 너무 귀찮아하고요

10
00:00:54,160 --> 00:00:56,560
이 ppt를 어떻게 하면 좀 쉽게 만들 수 있을까

11
00:00:56,560 --> 00:01:00,720
요즘에는 채치 pt를 사용해서 귀찮은 부분들을 많이 해소를 하고 있습니다

12
00:01:00,000 --> 00:01:03,880
제가 이렇게 PPT 제작 전문가라는 GPTS를 만들어 봤어요

13
00:01:03,880 --> 00:01:06,080
먼저 이 기능에 대해서

In [22]:
with open("sample.srt", "w") as f:
    f.write(merged_transcript)

In [23]:
# define a function for GPT to generate fictitious prompts
def post_processing(context: str) -> str:
    """Given an instruction, generate a prompt."""
    # system_prompt = instruction
    # user_prompt = f"Give me a summary of this video: {context}"
    response = client.chat.completions.create(
        model="gpt-4-turbo-preview",
        temperature=0.1,
        messages=[
            {
                "role": "system",
                "content": "당신은 자막 정보를 바탕으로 요약을 작성하는 인공지능입니다.",
                # we pick an example topic (friends talking about a vacation) so that GPT does not refuse or ask clarifying questions
            },
            {"role": "user", "content": context},
        ],
        stream=True,
    )

    final_answer = []
    # 스트림 모드에서는 completion.choices 를 반복문으로 순회
    for chunk in response:
        # chunk 를 저장
        chunk_content = chunk.choices[0].delta.content
        # chunk 가 문자열이면 final_answer 에 추가
        if isinstance(chunk_content, str):
            final_answer.append(chunk_content)
            # 토큰 단위로 실시간 답변 출력
            print(chunk_content, end="")
    return "".join(final_answer)

In [24]:
instruction = f"""주어진 비디오 "자막정보" 를 바탕으로 [요청사항]을 차례대로 수행해주세요.
[자막정보]
{merged_transcript}

[요청사항]
1. 주어진 [자막정보]에서 중요한 주제를 시간 순서에 맞게 선정하고, 주제가 시작되는 시간을 기록해주세요.
2. 주제는 한 줄 요약을 작성하고, 자막에서 주제가 시작되는 시간을 mm:ss(분:초) 형식으로 작성하세요. (예: 00:05 👋 자막 생성 기능에 대한 소개)
3. 요약은 한글로 작성해주세요.
4. 각 문장에 적합한 emoji를 최대한 활용해 주세요
5. 한글로 번역해줘.

[출력예시]
00:12 👋 GPTs 의 주요 개념에 대하여 소개해요
03:13 👀 GPTs 의 장단점과 활용 사례에 대하여 자세히 알아봐요

[주의사항]
- 주제는 최대한 많이 추출해 주세요.
- 시간표기에 오류가 없도록 주의해 주세요. 분:초 형식으로 작성합니다. (예: 00:12)

run step-by-step. Take a deep breath. You can do it!
"""
summary_output = post_processing(instruction)

00:30 🌟 GPTS의 새로운 기능 소개 시작해요  
00:52 🛠️ PPT 제작의 귀찮음을 해결하는 GPTS의 역할에 대해 설명해요  
01:14 📝 웹사이트 링크나 글을 넣어 PPT를 자동으로 만들어주는 과정을 보여줘요  
02:26 🔄 MARF 형식의 슬라이드 작성과 자동화된 장표 만들기 과정을 소개해요  
03:25 🔗 해외 기사 링크를 이용한 PPT 제작 방법을 설명해요  
04:09 ❗ 링크 붙여넣기 기능의 한계와 해결 방안에 대해 이야기해요  
05:11 📊 효율적인 PPT 제작 전문가 사용법과 프롬프트 튜닝 팁을 공유해요  