In [1]:
import requests
import time
import os
from dotenv import load_dotenv

load_dotenv()  # .env 파일에서 환경 변수를 로드합니다
api_key = os.getenv("OPENAI_API_KEY")

In [2]:
def get_script(url):
    api_endpoint = "http://127.0.0.1:8010/extract_info"
    response = requests.get(api_endpoint, params={"url": url})
    return response.json()

In [3]:
start_time = time.time()
result = get_script("https://youtu.be/ZueGqZ6Elfo?si=rvvch1GUNnSyg3PT")
print(f"실행시간: {time.time() - start_time} seconds")

실행시간: 11.857548236846924 seconds


In [4]:
import json
import os
if os.path.exists('script.json'):
    os.remove('script.json')

with open('script.json', 'w', encoding='utf-8') as json_file:
    json.dump(result['script'], json_file, ensure_ascii=False, indent=4)

In [13]:
import json
from langchain.chains import RetrievalQA
from langchain_openai import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from langchain.schema import Document
from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter , RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain import OpenAI, LLMChain

# Step 1: 파일 로드 및 데이터 변환
def load_script(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        script_data = json.load(file)
    return script_data

In [14]:
script_path = "script.json"  # 업로드한 파일의 경로

# Step 1: 스크립트 파일 로드
script_data = load_script(script_path)

In [15]:
docs = ""
for data in script_data:
    docs += data["text"] + "\n"

In [17]:
# 1. 텍스트를 중첩된 형태로 분할하기
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
split_docs = splitter.create_documents([docs])

# 2. 각 분할된 텍스트에 대해 전체 주제 및 소주제 요약 생성
summary_prompt_template = """
텍스트를 읽고 전체 주제와 소주제를 요약하세요.
텍스트: {text}
"""

llm = ChatOpenAI(model_name="gpt-4o-mini")

summary_prompt = PromptTemplate(
    input_variables=["text"], template=summary_prompt_template
)
summary_chain = LLMChain(llm=llm, prompt=summary_prompt)

# 각 텍스트 조각 요약 생성
summaries = [summary_chain.run(text=doc.page_content) for doc in split_docs]

  summary_chain = LLMChain(llm=llm, prompt=summary_prompt)
  summaries = [summary_chain.run(text=doc.page_content) for doc in split_docs]


In [22]:
split_docs

[Document(metadata={}, page_content='전 감자이구요 직장인을 위한 인공지능 오늘은 비슷한 이미지를 만드는 방법 알려드리려고 합니다\n앞에 영상에서 우리는 인공지능 서비스들로 쉽게 이미지 만드는 방법을 알려드렸는데요\n이번에는 내가 원하는 이미지와 비슷한 이미지를 만들고 이를 가공하는 방법을 알려드리겠습니다\n일단 오늘 우리가 사용할 서비스는 채트 GPT 있구요\n코파일럿 있습니다\n참고로 코파일럿이 뭔가 바뀌는 것 같아요\n우리 이거 관심있게 한번 지켜보도록 하죠\n그리고 구글에서 이메젠3 라고 하는 서비스가 있습니다\n이런 서비스인데요\n재미나이에서 바로 하지 말고\nSign up to try on imagefx 여기에 들어가서\n구글 아이디로 로그인을 합니다\n자 이런 화면이 나왔습니다\n우리는 이미지 fx에서 이메젠3를 쓸 거고요\n그리고 제가 개인적으로 봤을 때 이미지 생성의 최고봉인 미드전이도 소개시켜 드리려고 합니다\n자 그러면 채치피티, 코파일럿, 이메이젠3 그리고 미드전이까지 오늘 쓸 건데\n제가 이런 이미지와 비슷한 이미지를 만들고 싶어요\n그러면 채치피티에서 이렇게 이미지를 업로드하고\n이 이미지와 최대한 비슷한 이미지를 만들어줘\n이렇게만 넣어도 많은 부분이 비슷해집니다\n보시면 약간 그런 느낌이 있긴 하지만\n전체적으로 굉장히 비슷하게 나왔죠\n특히 이런 상단의 부분들\n채치 EPT와 동일한 달리 모델을 쓰고 있는\n코파일럿도 이미지 추가로 동일한 이미지를 업로드하고\n이 이미지와 최대한 비슷한 이미지를 만들어달라고 요청을 하면\n비슷한 이미지 만들어졌습니다\n약간 배경이 조금 지저분한 느낌이 있긴 하지만\n전체적으로 잘 만들어 준 것 같아요\n코파일럿은 이렇게 4개가 동시에 나오다 보니까\n이 중에 마음에 드는 걸 고르면 되는데\n채 GPT는 하나밖에 안 나오네\n그럼 어떻게 됩니까\n하나 더 만들어줘 라고 하면\n네 또 다른 느낌으로 만들어 줍니다\n그래서 코파일럿과 채 GPT는\n그냥 이미지만 업로드하고\

In [23]:
script_data

[{'text': '전 감자이구요 직장인을 위한 인공지능 오늘은 비슷한 이미지를 만드는 방법 알려드리려고 합니다',
  'start': 0.0,
  'end': 8.22},
 {'text': '앞에 영상에서 우리는 인공지능 서비스들로 쉽게 이미지 만드는 방법을 알려드렸는데요',
  'start': 8.22,
  'end': 14.16},
 {'text': '이번에는 내가 원하는 이미지와 비슷한 이미지를 만들고 이를 가공하는 방법을 알려드리겠습니다',
  'start': 14.16,
  'end': 21.92},
 {'text': '일단 오늘 우리가 사용할 서비스는 채트 GPT 있구요', 'start': 21.92, 'end': 26.34},
 {'text': '코파일럿 있습니다', 'start': 26.34, 'end': 27.72},
 {'text': '참고로 코파일럿이 뭔가 바뀌는 것 같아요', 'start': 27.72, 'end': 30.32},
 {'text': '우리 이거 관심있게 한번 지켜보도록 하죠', 'start': 30.32, 'end': 33.74},
 {'text': '그리고 구글에서 이메젠3 라고 하는 서비스가 있습니다', 'start': 33.74, 'end': 39.12},
 {'text': '이런 서비스인데요', 'start': 39.12, 'end': 40.98},
 {'text': '재미나이에서 바로 하지 말고', 'start': 40.98, 'end': 42.82},
 {'text': 'Sign up to try on imagefx 여기에 들어가서', 'start': 42.82, 'end': 47.08},
 {'text': '구글 아이디로 로그인을 합니다', 'start': 47.08, 'end': 49.02},
 {'text': '자 이런 화면이 나왔습니다', 'start': 49.02, 'end': 50.88},
 {'text': '우리는 이미지 fx에서 이메젠3를 쓸 거고요', 'start': 50.88, 'end': 5

In [21]:
for text in summaries:
    print(text)

**전체 주제:** 직장인을 위한 인공지능을 활용한 이미지 생성 및 가공 방법

**소주제:**
1. 이미지 생성 서비스 소개
   - 채트 GPT, 코파일럿, 이메이젠3, 미드전이
2. 이미지 생성 과정 설명
   - 원하는 이미지와 비슷한 이미지 만들기
   - 이미지 업로드 및 요청 방법
3. 서비스 간 비교
   - 채트 GPT와 코파일럿의 이미지 생성 결과 비교
   - 각각의 서비스의 특징과 결과물 차이
**전체 주제:**
AI 이미지 생성 도구의 사용 방법과 비교

**소주제:**
1. 채 GPT와 코파일럿의 이미지 생성 기능 비교
   - 두 도구 모두 이미지를 업로드하고 비슷한 이미지를 생성할 수 있음.
   - 채 GPT가 더 나은 느낌을 줄 수 있음.

2. 구체적인 프롬프트 작성 방법
   - 상세하고 의도에 맞는 이미지를 생성하기 위해 프롬프트를 구체적으로 작성하는 방법 설명.
   - 예시로 "너는 프롬프트 전문가야"와 같은 문구 사용.

3. 구글 이메진3와 미드전의 활용
   - 챗GPT에서 생성한 프롬프트를 다른 AI 도구에 적용하여 이미지 생성.
   - 각각의 도구에서 생성된 이미지 비교 및 조정 가능성.

4. 이미지 유사성 요청 방법
   - 원하는 이미지를 최대한 비슷하게 만들어 달라고 요청하는 간단한 프롬프트 예시 제공.
**전체 주제:** 이미지 생성 및 수정 방법

**소주제:**
1. 이미지 생성 도구 소개: 채치 PT, 코파일럿, 달리 모델, 이메젠, 미드전
2. 이미지 유사성 요청: 비슷한 이미지를 만들기 위한 프롬프트 작성 방법
3. 실사 이미지 생성의 필요성: 실사화된 이미지 생성을 위한 도구의 선택
4. 사용자 조정 가능성: 생성된 이미지의 요소 수정 및 조정 방법
5. 무료 도구의 활용: 비용 없이 이미지 생성 및 수정 가능성 강조


In [70]:
import json
from langchain.chains import RetrievalQA
from langchain_openai import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from langchain.schema import Document
from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter 

# Step 1: 파일 로드 및 데이터 변환
def load_script(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        script_data = json.load(file)
    return script_data

# Step 2: LangChain에서 사용할 Document 객체 생성
def create_documents(script_data):
    documents = []
    for entry in script_data:
        # 청킹을 위해 텍스트 분리
        text_splitter = CharacterTextSplitter(chunk_size=64, chunk_overlap=16)
        split_texts = text_splitter.split_text(entry["text"])
        for text in split_texts:
            documents.append(
                Document(
                    page_content=text, 
                    metadata={"start": entry["start"], "end": entry["end"]}
                )
            )
    print(f"Total Documents Created: {len(documents)}")  # 문서 개수 확인
    return documents

# Step 3: Embedding 및 Retriever 설정
def setup_retriever(documents, api_key):
    # OpenAI 임베딩을 사용하여 문서 벡터화
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002",openai_api_key=api_key)
    vectorstore = FAISS.from_documents(documents, embeddings)
        
    # as_retriever 메서드를 사용하여 Retriever 생성
    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 10})
    return retriever

# Step 4: LangChain QA 체인 설정
def setup_qa_chain(retriever):
    llm = ChatOpenAI(model_name="gpt-4o-mini")
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
    return qa_chain

# Step 5: 사용자 질의에 대한 응답 생성
def get_response(qa_chain, query):
    response = qa_chain.invoke(query)
    return response

# Main 실행 코드
script_path = "script.json"  # 업로드한 파일의 경로

# Step 1: 스크립트 파일 로드
script_data = load_script(script_path)

# Step 2: LangChain Document 객체 생성
documents = create_documents(script_data)

# Step 3: Retriever 설정 (API Key 전달)
retriever = setup_retriever(documents, api_key)

# Step 4: QA 체인 설정 (API Key 전달)
qa_chain = setup_qa_chain(retriever)

Total Documents Created: 108


In [72]:
# 사용자 질의에 대한 응답 생성 전 관련 문서 확인
user_query = "주제가 뭔가요?"
relevant_docs = retriever.invoke(user_query)
print(f"Relevant Documents for '{user_query}': {[doc.page_content for doc in relevant_docs]}")  # 관련 문서 확인
# Step 5: 질의에 대한 응답 생성
response = get_response(qa_chain, user_query)
print(f"Chatbot Response: {response['result']}")


Relevant Documents for '주제가 뭔가요?': ['비슷하죠?', '어떻게 하느냐', '심지어 무료입니다', '비슷합니다.', '참고로 코파일럿이 뭔가 바뀌는 것 같아요', '스타라이트 함 해볼까요', '코파일럿 있습니다', '이런 서비스인데요', '우리 이거 관심있게 한번 지켜보도록 하죠', '그럼 어떻게 됩니까']
Chatbot Response: 주제에 대한 정보는 제공되지 않았습니다. 그래서 주제가 무엇인지 알 수 없습니다.


In [85]:
import json
from langchain.chains import RetrievalQA
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.schema import Document
from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter

# Step 1: 대주제 및 소주제 추출 함수
def extract_topics(text):
    # OpenAI 모델을 사용하여 대주제 추출
    llm = ChatOpenAI(model_name="gpt-4o-mini")
    main_topic_prompt = f"Extract the main topic of the following text in korean:\n\n{text}"
    main_topic = llm.predict(main_topic_prompt)

    # 소주제 추출
    subtopic_prompt = f"Extract subtopics for each section of the following text in korean:\n\n{text}"
    subtopics = llm.predict(subtopic_prompt)

    return main_topic.strip(), subtopics.strip()


# Step 2: 파일 로드 및 데이터 변환
def load_script(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        script_data = json.load(file)
    return script_data


# Step 3: LangChain에서 사용할 Document 객체 생성 (대주제 및 소주제를 본문에 추가)
def create_documents(script_data):
    documents = []
    for entry in script_data:
        text_splitter = CharacterTextSplitter(chunk_size=256, chunk_overlap=32)
        split_texts = text_splitter.split_text(entry["text"])

        # 대주제 및 소주제 추출
        main_topic, subtopics = extract_topics(entry["text"])
        subtopics_list = subtopics.split('\n')

        for idx, text in enumerate(split_texts):
            # 각 청킹된 텍스트 앞에 대주제 및 소주제 추가
            updated_text = f"Main Topic: {main_topic}\nSubtopic: {subtopics_list[idx] if idx < len(subtopics_list) else 'N/A'}\n\n{text}"
            documents.append(
                Document(
                    page_content=updated_text, 
                    metadata={"start": entry["start"], "end": entry["end"]}
                )
            )
    print(f"Total Documents Created: {len(documents)}")  # 문서 개수 확인
    return documents

# Step 5: Embedding 및 Retriever 설정
def setup_retriever(documents):
    embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", openai_api_key=api_key)
    vectorstore = FAISS.from_documents(documents, embeddings)
    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 10})
    return retriever

# Step 6: LangChain QA 체인 설정
def setup_qa_chain(retriever):
    llm = ChatOpenAI(model_name="gpt-4o-mini")
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
    return qa_chain

# Step 7: 사용자 질의에 대한 응답 생성
def get_response(qa_chain, query):
    response = qa_chain.invoke(query)
    return response

In [86]:
# Main 실행 코드
script_path = "script.json"  # 업로드한 파일의 경로

# Step 1: 스크립트 파일 로드
script_data = load_script(script_path)

# Step 2: LangChain Document 객체 생성 (대주제 및 소주제 포함)
documents = create_documents(script_data)

# Step 3: Retriever 설정 (API Key 전달)
retriever = setup_retriever(documents)

# Step 4: QA 체인 설정 (API Key 전달)
qa_chain = setup_qa_chain(retriever)

Total Documents Created: 108


In [87]:
# 사용자 질의에 대한 응답 생성 전 관련 문서 확인
user_query = "주제가 뭔가요?"
relevant_docs = retriever.invoke(user_query)
print(f"Relevant Documents for '{user_query}': {[doc.page_content for doc in relevant_docs]}")  # 관련 문서 확인
# Step 5: 질의에 대한 응답 생성
response = get_response(qa_chain, user_query)
print(f"Chatbot Response: {response['result']}")


Relevant Documents for '주제가 뭔가요?': ['Main Topic: 주제: 관심사에 대한 주의 깊은 관찰\nSubtopic: 주제: 관심 있는 사항\n\n우리 이거 관심있게 한번 지켜보도록 하죠', 'Main Topic: 주제: 유사성\nSubtopic: 텍스트 "비슷하죠?"는 매우 짧고 단순한 질문으로, 특정한 섹션이나 주제를 제공하지 않기 때문에 subtopics를 추출하기 어렵습니다. 만약 더 긴 텍스트나 구체적인 주제를 제공해 주신다면, 그에 맞는 subtopics를 생성해 드릴 수 있습니다. 추가적인 내용을 제공해 주시면 감사하겠습니다!\n\n비슷하죠?', 'Main Topic: 주제: 관계 또는 상호작용\nSubtopic: 주어진 텍스트는 "얘한테 넣게 되고"로, 문맥이 부족하여 구체적인 주제나 섹션을 파악하기 어렵습니다. 추가적인 정보나 문장이 제공된다면, 그에 맞춰 주제를 추출해드리겠습니다. 더 많은 내용을 제공해주시겠어요?\n\n얘한테 넣게 되고', 'Main Topic: 주제: 질문 또는 상황에 대한 궁금증\nSubtopic: 제공하신 텍스트 "그럼 어떻게 됩니까"는 매우 짧아서 구체적인 섹션이나 주제를 포함하고 있지 않습니다. 좀 더 긴 텍스트나 특정 내용을 제공해 주시면, 그에 따라 섹션과 부주제를 추출해 드릴 수 있습니다. 추가 정보를 주시면 도와드리겠습니다!\n\n그럼 어떻게 됩니까', 'Main Topic: 주제: 코파일럿의 변화\nSubtopic: 주어진 텍스트는 짧고 구체적인 내용이 부족하여 섹션으로 나누기 어려운 점이 있습니다. 하지만 "코파일럿"에 대한 일반적인 주제와 관련된 서브토픽을 제안할 수 있습니다. 다음은 코파일럿에 관련된 가능한 서브토픽들입니다:\n\n참고로 코파일럿이 뭔가 바뀌는 것 같아요', 'Main Topic: 주제: 코파일럿\nSubtopic: "코파일럿 있습니다"라는 짧은 문장은 구체적인 내용이 부족하여 명확한 섹션을 구분하기 어렵습니다. 그러나 이 문장이 특정 주제나 문맥을 가지고 있

In [82]:
documents

[Document(metadata={'start': 0.0, 'end': 8.22, 'main_topic': 'The main topic of the text is about using artificial intelligence to create similar images, specifically aimed at office workers.', 'subtopic': 'Sure! Here are the extracted subtopics for each section of the provided text:'}, page_content='전 감자이구요 직장인을 위한 인공지능 오늘은 비슷한 이미지를 만드는 방법 알려드리려고 합니다'),
 Document(metadata={'start': 8.22, 'end': 14.16, 'main_topic': '주제: 인공지능을 활용한 이미지 생성 방법', 'subtopic': 'Sure! Here are some possible subtopics based on the provided text:'}, page_content='앞에 영상에서 우리는 인공지능 서비스들로 쉽게 이미지 만드는 방법을 알려드렸는데요'),
 Document(metadata={'start': 14.16, 'end': 21.92, 'main_topic': '주요 주제: 원하는 이미지 생성 및 가공 방법.', 'subtopic': '물론입니다! 제공된 텍스트를 기반으로 각 섹션의 주제를 다음과 같이 나누어 볼 수 있습니다:'}, page_content='이번에는 내가 원하는 이미지와 비슷한 이미지를 만들고 이를 가공하는 방법을 알려드리겠습니다'),
 Document(metadata={'start': 21.92, 'end': 26.34, 'main_topic': '주요 주제는 "채트 GPT 서비스"입니다.', 'subtopic': 'Sure! Here are potential subtopics based on the provided text:'}, page_co