In [25]:
from openai import OpenAI
import os
from dotenv import load_dotenv

load_dotenv()

openai_api_key = os.getenv("OPENAI_API_KEY")
# ✅ 클라이언트 인스턴스 생성
client = OpenAI(api_key=openai_api_key)

def summarize_text(text, model="gpt-3.5-turbo"):
    prompt = f"""
다음은 유튜브 방송의 전체 텍스트야. 이 내용을 핵심 위주로 요약해줘.
핵심 주제, 주요 발언 내용 중심으로 간결하게 정리해줘.

{text}
    """

    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": prompt}
        ]
    )

    return response.choices[0].message.content


Python-dotenv could not parse statement starting at line 4
Python-dotenv could not parse statement starting at line 5
Python-dotenv could not parse statement starting at line 6
Python-dotenv could not parse statement starting at line 7
Python-dotenv could not parse statement starting at line 8


In [26]:
summary = summarize_text(text)
print("📄 요약 결과:\n", summary)

📄 요약 결과:
 예멘의 친이란 후티반군이 미군 MQ-9 리퍼드론을 격추하며 미국과 이란 간의 긴장 상황이 이어지고 있음. 미국은 후티를 타격하며 세계적으로 대규모 공습을 진행하고 있으며, 이란은 미국에 대한 공격도 강조하고 있음. 이러한 상황 속에서 미국 및 이란은 대치 상황을 이어가고 있음.


In [10]:
import whisper
import os
import wave
import contextlib

model = whisper.load_model("base")  # CPU에서는 'small' 추천

def get_audio_duration(file_path):
    """오디오 길이를 초 단위로 반환 (wav, mp3 등 지원)"""
    import subprocess
    import re

    # ffprobe를 사용해 길이 추출
    result = subprocess.run(
        ["ffprobe", "-i", file_path, "-show_entries", "format=duration",
         "-v", "quiet", "-of", "csv=p=0"],
        stdout=subprocess.PIPE,
        stderr=subprocess.STDOUT
    )
    duration_str = result.stdout.decode().strip()
    try:
        return float(duration_str)
    except:
        return 0.0

def transcribe_audio(file_path, max_minutes=10):
    """
    Whisper로 오디오를 텍스트로 변환.
    단, max_minutes보다 길면 중단.
    """
    max_seconds = max_minutes * 60
    duration = get_audio_duration(file_path)

    if duration > max_seconds:
        print(f"⛔️ 오디오 길이: {duration:.1f}초 → 제한 초과 (최대 {max_minutes}분)")
        return None

    print(f"✅ 오디오 길이: {duration:.1f}초 → 변환 진행 중...")
    result = model.transcribe(file_path)
    return result["text"]


In [11]:
text = transcribe_audio("./audios/Ih8Ol9Wib7w.mp3", max_minutes=20)

if text:
    print("📝 변환된 텍스트:\n", text[:500])
else:
    print("⚠️ 변환되지 않았습니다.")


✅ 오디오 길이: 118.6초 → 변환 진행 중...
📝 변환된 텍스트:
  비서를 성폭행한 혐의로 경찰 조사를 봤던 장제원 전 국민의힘 의원이 서울 강동구에서 숨진 채 발견됐습니다. 현장에서 발견된 유서회는 가족에게 미안하다는 내용이 담긴 것으로 알려졌습니다. 오늘 경찰에 따르면 전날 밤 11시 45분쯤 장전 의원은 서울 강동구의 한 오피스텔에서 숨진 채 발견됐습니다. 신구를 받고 출동한 소방이 경찰의 사건을 인계했습니다. 장전 의원은 이번 사건의 대응하기 위해 해당 오피스텔을 빌린 것으로 전해졌습니다. 장전 의원 보정관이 해당 오피스텔을 찾았다가 장전 의원을 발견한 것으로 전해졌습니다. 현장에서 발견된 장전 의원의 유서회는 가족들에게 미안하다든 가족과 지인들을 향한 말이 담긴 것으로 전해졌습니다. 보수인과 관련된 내용은 없었던 것으로 알려졌습니다. 장전 의원은 전날부터 사회관계 방서비스를 없애는 등 신면을 정리한 것으로 전해졌습니다. 현재 장전 의원은 서울의 한 대형 병원으로 옮겨졌으며 장례는 부산에서 치러질 예정입니다. 장전 의원은 2015년 부산모대


In [8]:
from openai import OpenAI
import tiktoken
import os

client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# GPT-4 Turbo 기준 요금
COST_PER_1K_INPUT = 0.01
COST_PER_1K_OUTPUT = 0.03

def count_tokens(text, model="gpt-4-turbo"):
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

def summarize_text(text, model="gpt-4-turbo"):
    prompt = f"""
다음은 유튜브 방송의 전체 텍스트야.
오타가 조금 많으니깐 너가 알아서 고쳐주고,
전체적인 내용을 3줄로 요약해주고,
주요 키워드 5개를 뽑아줘
중요한 키워드부터 나열해줘.

{text}
    """

    # 📏 입력 토큰 계산
    input_tokens = count_tokens(prompt, model)

    # ✅ GPT 호출
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )

    reply = response.choices[0].message.content

    # 📏 출력 토큰 계산
    output_tokens = count_tokens(reply, model)

    # 💰 비용 계산
    cost = (input_tokens / 1000) * COST_PER_1K_INPUT + (output_tokens / 1000) * COST_PER_1K_OUTPUT

    # ✅ 결과 출력
    print("📏 입력 토큰 수:", input_tokens)
    print("📤 출력 토큰 수:", output_tokens)
    print(f"💰 예상 비용: ${cost:.5f}")
    print("📄 GPT 요약 결과:\n", reply)

    return reply


In [5]:
from openai import OpenAI
import tiktoken
import os

# OpenAI 클라이언트 초기화
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# GPT-3.5 Turbo 기준 요금 (2024년 기준)
COST_PER_1K_INPUT = 0.0005   # $0.0005 per 1K input tokens
COST_PER_1K_OUTPUT = 0.0015  # $0.0015 per 1K output tokens

def count_tokens(text, model="gpt-3.5-turbo"):
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

def turbo35_summarize_text(text, model="gpt-3.5-turbo"):
    prompt = f"""
너는 키워드 요약 전문가야. 유튜브 스크립트에서 명사위주로 키워드를 뽑아줘.
유튜브 스크립트는 내가 줄게.
다음 방법으로 요약해줘


🔹 **요약**
- 전체 내용을 문맥에 맞게 간결하게 3줄로 요약해줘.
- 핵심 흐름과 의도를 알 수 있도록 문장을 구성해.

🔹 **주요 키워드 추출**
- 방송에서 중요한 의미를 가지는 키워드 5개를 뽑아줘.
- 가능한 한 일반명사가 아니라 구체적인 콘텐츠 주제, 이름, 키워드 형태로
- 중요한 키워드를 먼저 나열해줘.

🔹 **결과 형식**
다음과 같이 출력해줘:

[요약]
1. ...
2. ...
3. ...

[키워드]
- 키워드1
- 키워드2
- 키워드3
- 키워드4
- 키워드5

📝 자, 아래가 원본 텍스트야. 잘 보고 처리해줘:

{text}
"""


    # 📏 입력 토큰 계산
    input_tokens = count_tokens(prompt, model)

    # ✅ GPT 호출
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )

    reply = response.choices[0].message.content

    # 📏 출력 토큰 계산
    output_tokens = count_tokens(reply, model)

    # 💰 비용 계산
    cost = (input_tokens / 1000) * COST_PER_1K_INPUT + (output_tokens / 1000) * COST_PER_1K_OUTPUT

    # ✅ 결과 출력
    print("📏 입력 토큰 수:", input_tokens)
    print("📤 출력 토큰 수:", output_tokens)
    print(f"💰 예상 비용: ${cost:.5f}")
    print("📄 GPT 요약 결과:\n", reply)

    return reply


In [None]:
summary = turbo35_summarize_text(text, model="gpt-3.5-turbo")

📏 입력 토큰 수: 1129
📤 출력 토큰 수: 251
💰 예상 비용: $0.00094
📄 GPT 요약 결과:
 [요약]
1. 전 국민의힘 장제원 의원이 성폭행 혐의로 경찰 조사를 받던 중 서울 강동구 오피스텔에서 숨진 채 발견됐다.
2. 유서회에는 가족에게 미안하다는 내용이 담겨 있으며, 장전 의원은 관계 오피스텔을 빌려 숨진 것으로 전해졌다.
3. 성폭행 사건이 종교될 전망이며, 피해자가 사망하면 공소권이 없어 처벌이 불가능하다고 경찰은 밝혔다.

[키워드]
- 장제원
- 성폭행
- 경찰 조사
- 유서회
- 강동구


In [13]:
summary = summarize_text(text)

📏 입력 토큰 수: 898
📤 출력 토큰 수: 1052
💰 예상 비용: $0.04054
📄 GPT 요약 결과:
 **오타 수정된 전체 텍스트:**
비서를 성폭행한 혐의로 경찰 조사를 받았던 장제원 전 국민의힘 의원이 서울 강동구에서 숨진 채 발견됐습니다. 현장에서 발견된 유서는 가족에게 미안하다는 내용이 담긴 것으로 알려졌습니다. 오늘 경찰에 따르면 전날 밤 11시 45분쯤 장제원 의원은 서울 강동구의 한 오피스텔에서 숨진 채 발견됐습니다. 신고를 받고 출동한 소방이 경찰의 사건을 인계했습니다. 장제원 의원은 이번 사건을 대응하기 위해 해당 오피스텔을 빌린 것으로 전해졌습니다. 장제원 의원 보좌관이 해당 오피스텔을 찾았다가 장제원 의원을 발견한 것으로 전해졌습니다. 현장에서 발견된 장제원 의원의 유서는 가족들에게 미안하다는 가족과 지인들을 향한 말이 담긴 것으로 전해졌습니다. 보수인과 관련된 내용은 없었던 것으로 알려졌습니다. 장제원 의원은 전날부터 사회관계 망서비스를 없애는 등 신분을 정리한 것으로 전해졌습니다. 현재 장제원 의원은 서울의 한 대형 병원으로 옮겨졌으며 장례는 부산에서 치러질 예정입니다. 장제원 의원은 2015년 부산 모 대학 부총장 시절 당시 비서였던 A 씨를 상대로 중간 간지의 성폭력을 가한 혐의로 경찰에 입건됐습니다. 경찰은 지난 1월 A 씨의 고소장을 접수했고 3월 28일 장제원 의원을 불러 첫 조사를 진행했습니다. 장제원 의원은 모든 혐의를 부인했습니다. 장제원 의원의 사망으로 성폭력 고소 사건은 종결될 전망입니다. 피고인이 사망하면 공소권이 없으므로 형사 처벌이 불가능합니다. 장제원 의원의 성폭력 사건을 수사하는 경찰관계자는 변사 처리와 관련해 파악 중이라며 고소권은 내부 검토를 거쳐 판단할 예정이라고 밝혔습니다. A 씨 측은 오늘 오전으로 예정된 기자회견을 취소했습니다.

**내용 요약:**
1. 장제원 전 국민의힘 의원이 성폭행 혐의 조사를 받은 후 서울 강동구의 오피스텔에서 숨진 채 발견되었습니다.
2. 현장에서는 가족에게 미안

In [5]:
from openai import OpenAI

# OpenAI 클라이언트 초기화 (API 키는 환경변수나 openai CLI 로그인으로 설정됨)
client = OpenAI()

# 오디오 파일 열기 (파일 경로를 수정하세요)
audio_file_path = "./audios/Ih8Ol9Wib7w.mp3"  # 예: "sample.mp3"
with open(audio_file_path, "rb") as audio_file:
    # GPT-4o로 음성 텍스트 변환 요청
    transcription = client.audio.transcriptions.create(
        model="gpt-4o-transcribe",
        file=audio_file,
        response_format="text"  # 또는 "json"
    )

# 변환된 텍스트 출력
print("📝 변환 결과:")
print(transcription)


📝 변환 결과:
비서를 성폭행한 혐의로 경찰 조사를 받던 장제원 전 국민의힘 의원이 서울 강동구에서 숨진 채 발견됐습니다. 현장에서 발견된 유서에는 가족에게 미안하다는 내용이 담긴 것으로 알려졌습니다. 오늘 경찰에 따르면 전날 밤 11시 45분쯤 장 전 의원은 서울 강동구의 한 오피스텔에서 숨진 채 발견됐습니다. 신고를 받고 출동한 소방이 경찰에 사건을 인계했습니다. 장 전 의원은 이번 사건에 대응하기 위해 해당 오피스텔을 빌린 것으로 전해졌습니다. 장 전 의원 보좌관이 해당 오피스텔을 찾았다가 장 전 의원을 발견한 것으로 전해졌습니다. 현장에서 발견된 장 전 의원의 유서에는 가족들에게 미안하다 등 가족과 지인들을 향한 말이 담긴 것으로 전해졌습니다. 고소인과 관련된 내용은 없었던 것으로 알려졌습니다. 장 전 의원은 전날부터 사회관계망 서비스를 없애는 등 신변을 정의한 것으로 전해졌습니다. 현재 장 전 의원은 서울의 한 대형병원으로 옮겨졌으며 장례는 부산에서 치러질 예정입니다. 장 전 의원은 2015년 부산모대학 부총장 시절 당시 비서였던 a씨를 상대로 중간간지상의 성폭력을 가한 혐의로 경찰에 입건됐습니다. 경찰은 지난 1월 a씨의 고소장을 접수했고 3월 28일 장 전 의원을 불러 첫 조사를 진행했습니다. 장 전 의원은 모든 혐의를 부인했습니다. 장 전 의원의 사망으로 성폭력 고소 사건은 종결될 전망입니다. 피의자가 사망하면 공소권 없으므로 형사처벌이 불가능합니다. 장 전 의원의 성폭력 사건을 수사하는 경찰 관계자는 변사처리와 관련해 파악 중이라며 고속건은 내부 검토를 거쳐 판단할 예정이라고 밝혔습니다. a씨 측은 오늘 오전으로 예정된 기자회견을 취소했습니다.



In [1]:
from openai import OpenAI
import os

# API 키 설정 (환경변수에서 읽거나 직접 입력 가능)
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
# 또는 직접 입력: client = OpenAI(api_key="sk-...")

# 🎧 오디오 파일 경로 설정
audio_file_path = "./audios/audio_test.mp3"  # mp3, wav, m4a 등 가능

# 파일 열기
with open(audio_file_path, "rb") as audio_file:
    # Whisper-1 모델로 전사 요청
    transcription = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        response_format="text",  # 또는 "json", "srt", "vtt", "verbose_json"
        language="ko"  # 한국어 음성일 경우 (자동 감지도 가능)
    )

# 📝 결과 출력
print("🎙️ Whisper 결과:")
print(transcription)


🎙️ Whisper 결과:
현대제철의 셧다운이라 결국 올 것이 왔다 사실 이 말만 들었을 때는 충격적이죠. 얼마 전에 현대제철은요 노조 파업 이 워낙 심해서 직장 폐쇄를 단행 을 했었습니다. 아마 기업이 말입니다. 노조가 파업한다고 직장 문을 내리는 것 사상 초유의 일입니다. 그것도 대기업이. 오죽했으면 그랬을까 싶은데 지금 말입니다. 더 큰 직장 폐쇄보다 더 큰 극단 적 조치를 현대제철이 취하려고 합니다. 뭐냐 지금 철근공장을 4월 한 달 동안 셧다운한다고요. 철근공장. 여러분 이게 중소기업이 아니에요 . 대기업이에요. 그것도 대한민국의 1등 대기업입니다. 그런 1등 대기업이 인천철근공장 을 한 달 동안 셧다운한다고 생각을 해보세요. 진짜 충격적인 내용 아닌가요 그만큼 말입니다. 지금 대한민국이 최악이라는 뜻 입니다. 이게 작은 단서인데 사실 엄청 큽니다. 그래서 지금 대한민국이 어느 한 축이 있잖아요. 무너지고 있다 붕괴하고 있다 망하고 있다 이런 뜻과도 똑같기 때문입니다. 그만큼 지금 상황이 심각한 거예요 . 지금 대기업이 셧다운할 정도면 중소기업은 어떻게 됐을까요 중소기업은 말의 잔소리죠. 심각합니다. 그럼 왜 현대제철이라는 대기업 이 인천철근공장을 셧다운할까 여러분 이것만 보세요. 철근 수요량이 급격히 줄고 있습니다. 2022년만 하더라도 철근 수요량은 1058만 톤이었습니다. 그런데 작년 2024년에 798만 톤이었 거든요. 상당히 많이 줄었죠. 798만 톤은 1998년 imf 외환위기 이후 최저입니다. 1998년 imf 외환위기 시절 774만 톤 이었거든요. 그런데 더 놀라운 것은 올해입니다. 2025년에는 600만 톤 정도 될 거다 이렇게 예상합니다. 600만 톤 여러분 600만 톤이면요 imf 외환위기 때 774만 톤입니다. 거기에 비하면 턱없이 떨어진다 턱없이 장난이 아니잖아요. 게다가 2022년 대비해서 2025년을 기준으로 봤을 때 철근의 수요량이 반토막으로 떨어집니다. 반토막 와 장난 아니죠. 43.3%가 빠집니다. 1058만 톤이 60

In [6]:
summary = turbo35_summarize_text(transcription, model="gpt-3.5-turbo")

📏 입력 토큰 수: 4480
📤 출력 토큰 수: 184
💰 예상 비용: $0.00252
📄 GPT 요약 결과:
 [요약]
1. 현대제철의 인천철근공장 셧다운으로 대한민국 경제 위기
2. 철근 수요량 감소, 저가 중국산 덤핑, 최저임금 상승 등으로 경쟁 어려움
3. 철강 업계 전체 어려움, 제철공장들의 생산 능력 감소로 위기 확대

[키워드]
- 현대제철
- 인천철근공장
- 철근 수요량
- 중국산 덤핑
- 최저임금


In [9]:
summarize_text(transcription)

📏 입력 토큰 수: 4223
📤 출력 토큰 수: 291
💰 예상 비용: $0.05096
📄 GPT 요약 결과:
 전체 텍스트를 오타 수정 및 개선하여 아래와 같이 요약하였습니다:

현대제철은 노조 파업과 감소한 철근 수요로 인해 인천 철근공장을 한 달간 셧다운하기로 했습니다. 2024년 철근 수요는 798만 톤으로, IMF 외환위기 이후 최저치를 기록했으며, 2025년에는 600만 톤까지 예상되는 등, 수요 감소가 지속되고 있습니다. 이러한 당면한 경제 상황과 중국산 저가 철강의 덤핑 문제, 최저임금 상승과 같은 비용 증가 요인은 한국의 철강산업에 큰 위협이 되고 있습니다.

주요 키워드:
1. 현대제철
2. 철근 수요
3. 셧다운
4. 중국산 덤핑
5. 최저임금


'전체 텍스트를 오타 수정 및 개선하여 아래와 같이 요약하였습니다:\n\n현대제철은 노조 파업과 감소한 철근 수요로 인해 인천 철근공장을 한 달간 셧다운하기로 했습니다. 2024년 철근 수요는 798만 톤으로, IMF 외환위기 이후 최저치를 기록했으며, 2025년에는 600만 톤까지 예상되는 등, 수요 감소가 지속되고 있습니다. 이러한 당면한 경제 상황과 중국산 저가 철강의 덤핑 문제, 최저임금 상승과 같은 비용 증가 요인은 한국의 철강산업에 큰 위협이 되고 있습니다.\n\n주요 키워드:\n1. 현대제철\n2. 철근 수요\n3. 셧다운\n4. 중국산 덤핑\n5. 최저임금'

In [1]:
import requests

resp = requests.post(
    'https://openapi.vito.ai/v1/authenticate',
    data={'client_id': '1-6-bH0kySEsTLEUpp3M',
          'client_secret': 'NLXGl7C9RoFVPTuweACW9yLesgotl2rC4b3RaTjM'}
)
resp.raise_for_status()
print(resp.json())

{'access_token': 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJkYSI6dHJ1ZSwiZXhwIjoxNzQ0ODIwNTIwLCJmdWUiOmZhbHNlLCJoYmkiOmZhbHNlLCJpYXQiOjE3NDQ3OTg5MjAsImp0aSI6IjFXM201Zm9kbWRNa0YwWmVhYl9TIiwicGxhbiI6ImJhc2ljIiwic2NvcGUiOiJzcGVlY2giLCJzdWIiOiIxLTYtYkgwa3lTRXNUTEVVcHAzTSIsInVjIjpmYWxzZSwidiI6MX0.QUG9yG5ofwRFs3gk6pB52QZV0rVJwzxQAIaTw9nJgaA', 'expire_at': 1744820520}
