# 경영 빅데이터 분석 개론 팀 프로젝트

## 모듈 설치

In [1]:
%pip install openai python-dotenv pyperclip langchain langchain-community langchain-openai youtube-transcript-api tiktoken google-api-python-client jinja2

Collecting jinja2
  Using cached jinja2-3.1.6-py3-none-any.whl.metadata (2.9 kB)
Collecting MarkupSafe>=2.0 (from jinja2)
  Downloading MarkupSafe-3.0.2-cp313-cp313-macosx_11_0_arm64.whl.metadata (4.0 kB)
Using cached jinja2-3.1.6-py3-none-any.whl (134 kB)
Downloading MarkupSafe-3.0.2-cp313-cp313-macosx_11_0_arm64.whl (12 kB)
Installing collected packages: MarkupSafe, jinja2
Successfully installed MarkupSafe-3.0.2 jinja2-3.1.6

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


## 모듈 불러오기/ API 키 호출

In [6]:
# OpenAI API 사용
import os
from dotenv import load_dotenv
import pyperclip
import re
import sqlite3
from datetime import datetime, timedelta
from langchain_openai import ChatOpenAI
from langchain_community.document_loaders import YoutubeLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import load_summarize_chain
from langchain.schema import Document
from langchain.prompts import PromptTemplate
from googleapiclient.discovery import build

In [7]:
import os

# .env 파일에서 API 키 로드
load_dotenv()

def get_api_key(name, prompt):
    key = os.getenv(name)
    if not key or key.strip() == "":
        key = input(f"{prompt}: ").strip()
    return key

OPENAI_API_KEY = get_api_key("OPENAI_API_KEY", "OpenAI API 키를 입력하세요")

## API 호출 토큰 계산

In [8]:
'''
API 토큰 계산용
'''

import math
import tiktoken

def count_tokens(text, model_name="gpt-4o"):
    try:
        encoding = tiktoken.encoding_for_model(model_name)
    except Exception:
        encoding = tiktoken.get_encoding("cl100k_base")
    return len(encoding.encode(text))

'''
model = ChatOpenAI(model='gpt-4o-mini')
prompt = '안녕하세요. 오늘 서울의 날씨가 무엇인가요?'
prompt_tokens = count_tokens(prompt)
result = model.invoke(prompt)
content = getattr(result, 'content', None) or str(result)
completion_tokens = count_tokens(content)
print(prompt_tokens,completion_tokens)
'''

prompt_tokens = 0
content_tokens = 0 

## YOUTUBE 영상 요약 바탕으로 가이드라인 제공

In [3]:
# ▶ URL 뽑아내기 ---------------------------------------------
# 클립보드에서 유튜브 URL을 가져오는 함수
# - 클립보드에 유효한 유튜브 URL이 있는 경우 반환
# - URL이 없는 경우, 직접 URL을 입력받음

def get_youtube_url_from_clipboard():
    try:
        text = pyperclip.paste()
        m = re.search(r'https?://www\.youtube\.com/watch\?v=[\w\-]+', text)
        if m:
            url = m.group(0)
            print(f"[🔗] 감지된 유튜브 URL: {url}")
            return url
        else:
            raise ValueError("클립보드에 유튜브 링크 없음.")
    except Exception as e:
        print(f"[⚠️ 클립보드 오류] {e}")
        url = input("유튜브 링크를 직접 입력하세요: ")
        return url

In [4]:
# ▶ URL을 video_id로 변환 ---------------------------------------------

def url_to_video_id(url):
    m = re.search(r"v=([\w\-]+)", url)
    return m.group(1) if m else None

# ▶ video_id를 URL로 변환 ---------------------------------------------

def video_id_to_url(video_id):
    url = f"https://www.youtube.com/watch?v={video_id}"
    return url if video_id else None

In [None]:
## 💬 유튜브 영상 시청 후 대화 가이드라인 제공 코드

from enum import Enum
from typing import List, Tuple
from pydantic import BaseModel
from jinja2 import Template
import json
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api._errors import TranscriptsDisabled, VideoUnavailable
from openai import OpenAI

# --- 1. Define Models and Enums ---

class ParentType(str, Enum):
    Mother = "Mother"
    Father = "Father"

class CardCategory(str, Enum):
    Topic = "Topic"
    Action = "Action"
    Emotion = "Emotion"
    Core= "Core"

class ParentGuideCategory(str, Enum):
    Intention = "intention"
    Specification = "specification"
    Choice = "choice"
    Clues = "clues"
    Coping = "coping"
    Stimulate = "stimulate"
    Share = "share"
    Empathize = "empathize"
    Encourage = "encourage"
    Emotion = "emotion"
    Extend = "extend"
    Terminate = "terminate"

    def description(self):
        return {
            "intention": "Check the intention behind the child’s response and ask back",
            "specification": "Ask about \"what\" to specify the event",
            "choice": "Provide choices for children to select their answers",
            "clues": "Give clues that can be answered based on previously known information",
            "coping": "Suggest coping strategies for specific situations to the child",
            "stimulate": "Present information that contradicts what is known to stimulate the child's interest",
            "share": "Share the parent's emotions and thoughts in simple language",
            "empathize": "Empathize with the child's feelings",
            "encourage": "Encourage the child's actions or emotions",
            "emotion": "Asking about the child's feelings and emotions",
            "extend": "Inducing an expansion or change of the conversation topic",
            "terminate": "Inquiring about the desire to end the conversation"
        }[self.value]

class InappropriateDialogueCategory(str, Enum):
    Blame = "blame"
    Correction = "correction"
    Complex = "complex"

    def description(self):
        return {
            "blame": "When the parent criticizes or negatively evaluates the child's responds, like reprimanding or scolding",
            "correction": "When the parent is compulsively correcting the child's response or pointing out that the child is wrong",
            "complex": "When a parent's dialogue contains more than one goal or intent"
        }[self.value]

class DialogueMessage(BaseModel):
    speaker: str  # "Parent" or "Child"
    text: str = ""
    cards: List[Tuple[str, CardCategory]] = []

class ParentGuideElement(BaseModel):
    category: ParentGuideCategory
    guide: str

class AvoidGuideItem(BaseModel):
    example: str
    feedback: str

class AvoidGuides(BaseModel):
    blame: AvoidGuideItem
    correction: AvoidGuideItem
    complex: AvoidGuideItem

class SessionTopicCategory(str, Enum):
    Plan = "Plan"
    Recall = "Recall"
    Experience = "Experience"

class SessionTopicInfo(BaseModel):
    category: SessionTopicCategory

    def to_readable_description(self):
        return f"{self.category.value.lower()} conversation"


# --- 2. OpenAI Client Setup ---

client = OpenAI(api_key="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")



# --- 3. Youtube Transcript ---
from youtube_transcript_api import YouTubeTranscriptApi

def get_transcript_allow_generated(video_id: str) -> str:
    try:
        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)

        try:
            transcript = transcript_list.find_generated_transcript(['ko'])
        except:
            transcript = transcript_list.find_generated_transcript(['en'])

        entries = transcript.fetch()
        return "\n".join([entry.text for entry in entries])  # ✅ 수정
    except Exception as e:
        print(f"❌ 자막 불러오기 실패: {e}")
        return None



# --- 4. Video Summary and Question Generation Prompt ---

summary_prompt_template = Template("""
You are a language therapist helping parents talk meaningfully with their autistic children.
Analyze the following YouTube video transcript. Then:

1. Summarize the key message in 3-4 sentences.
2. For each of the following conversation types — Plan, Recall, Experience —
   suggest a topic that could be discussed with the child based on the video.
3. For each topic, provide 2 clear and simple example questions a parent could ask.

Format:
- Summary: (3~4 sentence summary in Korean)
- Topics and Questions by Category:
  - [1. Plan]
    - Topic: (1-line description in Korean)
    - Questions:
      - Q1: ...
      - Q2: ...
  - [2. Recall]
    - Topic: ...
    - Questions:
      - Q1: ...
      - Q2: ...
  - [3. Experience]
    - Topic: ...
    - Questions:
      - Q1: ...
      - Q2: ...

The final output should be written in Korean.

Transcript:
{{ transcript }}
""")


def generate_video_summary_and_questions(transcript: str) -> str:
    if not transcript:
        raise ValueError("Transcript is empty or None. Cannot generate summary.")
    prompt = summary_prompt_template.render(transcript=transcript[:4000])  # Cut for safety
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}]
    )
    return response.choices[0].message.content


# --- 5. Parent Guide Generation Prompt ---

guide_template = Template("""
- Role: You are a helpful assistant who helps facilitate communication between minimally verbal autistic children and their parents.
- Video summary for context: {{ summary }}

- Goal of the conversation: {{ topic.to_readable_description() }}. Help the child and the {{ parent_type }} elaborate on that topic together.
- You must help the parent and the child explore this topic together, in a way that strongly reflects the main theme and emotional/educational message of the YouTube video.
- All guidance must be **rooted in** the key ideas presented in the video.

- 📌 모든 출력은 반드시 한국어로 작성해주세요.
❗️Do not include any explanation, markdown formatting, section titles (like ### 1 or ### 2), or any additional text. Return ONLY the final JSON array as mentioned below task 2 as raw output.

There are 2 tasks.
### 1
- Task 1:
{%- if dialogue %}
  Given the dialogue history and the child’s keyword response ({{ child_cards }}),
  suggest {{ num_guides }} parent guides from the categories below.
{%- else %}
  Suggest {{ num_guides }} starting-point guides for initiating the conversation.
{% endif %}

[General instructions for parent's guide]
- Provide simple and easy-to-understand sentences consisting of no more than 5-6 words.
- Each guide should contain one purpose or intention.
- {% if dialogue | length > 0 %}
    - Each guide should be contextualized based on the child's response and not be too general.
    - **However, the guide must remain within the main theme of the video.**
    {% endif %}


[Parent guide categories]
{% for cat in categories %}
- "{{ cat.value }}": {{ cat.description() }}
{% endfor %}

[Response format]
Return a json list with each element formatted as:
{
  "category": The category of "Parent guide category",
  "guide": The guide message provided to the {{parent_type}}.
}

{% if example_block %}
[Examples]
{{ example_block }}
{% endif %}
- 📌 모든 출력은 반드시 한국어로 작성해주세요.

### 2
- Task 2:
{%- if dialogue %}
  Analyze the dialogue and generate 3 examples of inappropriate parent responses — one for each category below.
    - Based on the most recent parent question and child response, generate one inappropriate response for each of the three categories.
    - Responses should feel realistic and be phrased as if a parent might naturally say them.
    - 제발 아이의 키워드 답변만 보고 가이드를 제공하지 말고, "영상 주제와 부모가 이전에 던진 질문 맥락에 맞게" 가이드라인을 제시해줘.
  For each category:
  - Provide an inappropriate example.
  - Explain why it is problematic.
  - Suggest how to rephrase it better.

[Inappropriate guide categories]
{% for cat in bad_categories %}
- "{{ cat.value }}": {{ cat.description() }}
{% endfor %}

{% if bad_example_block %}
[Examples]
{{ bad_example_block }}
{% endif %}
{% endif %}


### Final Output Format
The final output should be written in Korean.
❗️Do not include any explanation, markdown formatting, section titles (like ### 1 or ### 2), or any additional text. Return ONLY the final JSON array as mentioned below as raw output.

[Response format]
Return a json list with one object, structured as follows:
[
  "good_guides": [
        {
        "category": The category of "Parent guide category",
        "guide": The guide message provided to the {{parent_type}}.
        },
        {
        "category": "...",
        "guide": "..."
        },
        {
        "category": "...",
        "guide": "..."
        }
    ]
    ,
  "avoid_guides": {
        "blame": {
          "example": "...",
          "feedback": "..."
        },
        "correction": {
          "example": "...",
          "feedback": "..."
        },
        "complex": {
          "example": "...",
          "feedback": "..."
        }
    }
]

⚠️⚠️ No explanation, markdown, or headers — just valid JSON. ⚠️⚠️

- 📌 모든 출력은 반드시 한국어로 작성해주세요.
""")

example_block = """
[Example 1]
topic: Recall

Dialogue:
Parent: How was your day at kinder?
Child: ["Kinder"(Topic), "Friend"(Topic), "Tough"(Emotion)]

Suggested Parent Guides:
- [Empathize] Empathize that the kid had tough time due to a friend.
- [Intention] Check whether the kid had tough time with the friend.
- [Specification] Ask what was tough with the friend.

[Example 2]
topic: Plan

Dialogue:
Parent: Did you remember that we will visit granma today?
Child: ["Grandma"(Topic), "Play"(Action)]

Suggested Parent Guides:
- [Empathize] Repeat that your kid wants to play with grandma.
- [Encourage] Suggest things that the kid can do with grandma playing.
- [Specification] Ask about what your kid wants to do playing.

"""

bad_example_block = """
[Example 1]
InappropriateDialogueCategory: Blame

Dialogue:
Parent: What did you do at school?
Child: ["School"(Topic), "Play"(Action)]
Parent: I asked you not to play games at school. Didn't I?

Rationale: The parent is about to scold the child not to play games.
Feedback: You seem to be scolding him before obtaining to more concrete information. Please gather more information before judgment.

[Example 2]
InappropriateDialogueCategory: Correction

Dialogue:
Parent: What did you do at school?
Child: ["School"(Topic), "Play"(Action)]
Parent: You should say, 'I played with my friends at school.'

Rationale: The parent is trying to improve the child's response with better sentences or phrases.
Feedback: You seem to be correcting the child's response. Please focus more on the topic and context of the conversation.

[Example 3]
InappropriateDialogueCategory: Complex

Dialogue:
Parent: How are you feeling right now?
Child: ["Happy"(Emotion)]
Parent: What are your plans for today and where are you going to be?

Rationale: The parent is confusing the child by asking about both plans and location at once.
Feedback: Please ask about only one thing to make it easier for the child to answer.

"""

def build_guide_prompt(parent_type: ParentType, topic: SessionTopicInfo, dialogue: List[DialogueMessage], child_cards: List[Tuple[str, CardCategory]],  example_block: str, bad_example_block: str, summary: str, num_guides: int = 3) -> str:
    return guide_template.render(
        parent_type=parent_type.value,
        topic=topic,
        dialogue=dialogue,
        child_cards=", ".join([c[0] for c in child_cards]),
        categories=list(ParentGuideCategory),
        bad_categories=list(InappropriateDialogueCategory),
        summary=summary,
        num_guides=num_guides,
        example_block=example_block,
        bad_example_block=bad_example_block
    )


def call_gpt_for_guides(prompt: str) -> List[ParentGuideElement]:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.7
    )
    result_text = response.choices[0].message.content
    print("\n🧠 GPT Output:\n", result_text)
    try:
        parsed = json.loads(result_text)
    except json.JSONDecodeError as e:
        print("❌ JSON 파싱 실패:", e)
        raise

    good_guides = parsed[0].get("good_guides", [])
    good_guide_list = [
        ParentGuideElement(
            category=ParentGuideCategory(g["category"]),
            guide=g["guide"]
        ) for g in good_guides
    ]

    avoid_guide_list = AvoidGuides(**parsed[0].get("avoid_guides", {}))

    return good_guide_list, avoid_guide_list


# --- 6. Interactive Dialogue Loop ---

# Step 1: Load YouTube Video


# 1. 자막 가져오기 (자동 생성 포함)
url = get_youtube_url_from_clipboard()
video_id = url_to_video_id(url)
transcript = get_transcript_allow_generated(video_id)

# 2. 자막을 기반으로 요약 생성
if transcript:
    try:
        summary = generate_video_summary_and_questions(transcript)
        print("\n📋 Summary and Conversation categories (Korean):\n", summary)

        # 3. 카테고리 선택
        selected_category_num = int(input("💬 선택한 대화 카테고리의 번호를 입력하세요 (Plan: 1, Recall: 2, Experience: 3)\n"))
        category_dic = {
            1: SessionTopicCategory.Plan,
            2: SessionTopicCategory.Recall,
            3: SessionTopicCategory.Experience
        }
        selected_category = category_dic[selected_category_num]
    except Exception as e:
        print(f"❌ 요약 생성 중 오류 발생: {e}")
else:
    print("❌ 자막을 불러오지 못해 요약을 생성할 수 없습니다.")


# url = get_youtube_url_from_clipboard()
# video_id = url_to_video_id(url)

# if transcript:
#     transcript = get_youtube_transcript(video_id)
#     summary = generate_video_summary_and_questions(transcript)
#     print("\n📋 Summary and Conversation categories (Korean):\n", summary)
#     selected_category_num = int(input("💬 선택한 대화 카테고리의 번호를 입력하세요 (Plan: 1, Recall: 2, Experience: 3)"))
#     category_dic = {
#         1: SessionTopicCategory.Plan,
#         2: SessionTopicCategory.Recall,
#         3: SessionTopicCategory.Experience
#     }
#     selected_category = category_dic[selected_category_num]
# else:
#     print("❌ 자막을 불러오지 못해 요약을 생성할 수 없습니다.")

# Step 2: Initialize Dialogue Context
parent_type = ParentType.Mother
topic_info = SessionTopicInfo(category=selected_category)
dialogue = []
turn_count = 1

# Step 3: Start Interactive Loop
while True:
    selected_question = input("\n💬 부모가 선택한 질문을 입력하세요: ")
    if selected_question.strip().lower() in ["종료", "exit", "quit"]:
        print("🛑 대화를 종료합니다.")
        break
    dialogue.append(DialogueMessage(speaker="Parent", text=selected_question))

    raw = input("👦 아이의 키워드 응답을 입력하세요 (예: 학교(Topic), 피곤함(Emotion)):\n")
    if selected_question.strip().lower() in ["종료", "exit", "quit"]:
        print("🛑 대화를 종료합니다.")
        break
    child_response = []
    for item in raw.split(","):
        word, category = item.strip().split("(")
        child_response.append((word.strip(), CardCategory[category.replace(")", "")]))

    dialogue.append(DialogueMessage(speaker="Child", cards=child_response))

    prompt = build_guide_prompt(parent_type, topic_info, dialogue, child_response, summary, 3, example_block, bad_example_block)
    good_guides, avoid_guides = call_gpt_for_guides(prompt)

    print(f"\n🔁 Turn {turn_count} - 아이에게 이렇게 물어봐주세요!:")
    for i, g in enumerate(good_guides):
        print(f"{i+1}. [{g.category.value}] {g.guide}")

    print("\n🚫 이런 말은 주의해주세요:")
    print(f"[Blame] {avoid_guides.blame.example} → {avoid_guides.blame.feedback}")
    print(f"[Correction] {avoid_guides.correction.example} → {avoid_guides.correction.feedback}")
    print(f"[Complex] {avoid_guides.complex.example} → {avoid_guides.complex.feedback}")

    guide_choice = int(input("👉 사용할 가이드를 번호로 선택하세요: "))
    if selected_question.strip().lower() in ["종료", "exit", "quit"]:
        print("🛑 대화를 종료합니다.")
        break
    selected_guide =  good_guides[guide_choice - 1].guide
    dialogue.append(DialogueMessage(speaker="Parent", text=selected_guide))

    turn_count += 1

    cont = input("⏭️ 계속하시겠습니까? (y/n): ")
    if cont.lower() != 'y':
        break

## RAG 만들기

#### 1. [교육부, 경상북도교육청] 장애 영아 교육지원 운영가이드 사례집(2024).pdf

In [None]:
# # 1. [교육부, 경상북도교육청] 장애 영아 교육지원 운영가이드 사례집(2024).pdf 로딩

# from langchain_community.document_loaders import PyPDFLoader
# from pathlib import Path
# folder = Path('data')
# loader1 = PyPDFLoader(folder / '[교육부, 경상북도교육청] 장애 영아 교육지원 운영가이드 사례집(2024).pdf')
# pages1 = loader1.load()
# len(pages1)

In [None]:
non_empty_pages = [page for page in pages1 if page.page_content.strip() != '']

In [None]:
print(non_empty_pages[100].page_content[:500])  # 첫 페이지의 앞부분 미리보기

③ 영아 특성
사랑스러운 하영이 알아보기
④ 놀이의 시작
스스로 섭식하는데 어려움을 보이는 하영이를 위하여 다양한 과일과 채소를   
가지고 놀이할 수 있도록 준비하여 놀이수업을 진행해왔다.
10월의 생활주제 ‘가을’이 되어 ‘가을과일로 놀이해요’ 주제로 ‘홍시놀이’를 준비
했다. 하영이는 문장을 읽을 수 있고 책에 관심이 많기 때문에 감이 익어가는  
과정을 배울 수 있는 그림책을 준비하였다. 그리고 그림책을 통해 감의 한 살이를 
배우고 주인공처럼 감을 맛보는 놀이를 계획하였다.
이름 (연령) 이하영 (2세)
장애유형 발달지체
현행
수준
일상
생활
 보호자의 도움을 받아 식사를 함
 기저귀를 착용함
사회
정서
 엄마와 애착형성이 잘 되어 있음
인지  단어 및 문장을 읽을 수 있고, 최근 수세기에 
  관심을 갖기 시작함
의사
소통
 짧은 단어 및 문장으로 자신의 요구를 표현할 
  수 있음
신체
운동
 또래에 비하여 체구가 작고, 대·소근육의
  발달이 느림
하영이의



In [None]:
# 문서 분할
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 문서 분할기 정의
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200
)

# 필터링된 페이지(non_empty_pages) 분할
splits1 = splitter.split_documents(non_empty_pages)
print(len(splits1))

124


In [None]:
# # 임베딩 후 저장
# # 임베딩 API 호출마다 너무 많은 청크가 들어가지 않도록 배치 사이즈 설정(한번에 호출할 경우 에러 발생)
# from langchain_chroma import Chroma
# from langchain_openai import OpenAIEmbeddings

# embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
# path = "data/guide-data_1"

# vectorstore1 = Chroma.from_documents(
#     collection_name='guide-data_1', #벡터 DB 안의 컬렉션 이름
#     collection_metadata={'hnsw:space':'cosine'}, #유사도 기준: 코사인 거리
#     documents=splits1, #앞서 쪼갠 문서 조각들
#     embedding=embeddings, #사용할 임베딩 모델 (OpenAI)
#     persist_directory=path #데이터를 로컬에 저장할 경로
# )

In [None]:
print(vectorstore1._collection.count())

124


In [None]:
# 임베딩 불러오기
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

path = 'data/guide-data_1'
embeddings = OpenAIEmbeddings(model='text-embedding-3-large')
vectorstore1 = Chroma(
    collection_name='guide-data_1',
    collection_metadata={'hnsw:space': 'cosine'},
    embedding_function=embeddings,
    persist_directory=path
)

In [None]:
print(vectorstore1._collection.count())

124


#### 2. 발달장애-양육기술.pdf

In [None]:
# 2. 발달장애-양육기술.pdf 로딩

from langchain_community.document_loaders import PyPDFLoader
from pathlib import Path
folder = Path('data')
loader2 = PyPDFLoader(folder / '발달장애-양육기술.pdf')
pages2 = loader2.load()
len(pages2)

144

In [None]:
print(pages2[49])

page_content='50
질문있어요
영유아들은 보완대체의사소통을 쓰기에는 너무 어린가요?
아니요. 보완대체의사소통의 사용은 영유아들에게도 중요합니다. 아동의 초기 3년간의 
경험이 나중에 뇌 발달의 기초를 형성하기 때문입니다. 아이와 부모간의 상호작용은 매우 
중요한 경험인데, 만약 양육자가 아이의 미묘한 의사소통 행동을 알아채지 못하고 적절히 반응
해주지 못한다면 초기 의사소통 경험의 결핍으로 이어질 수 있습니다. 보완대체의사소통의 
빠른 적용은 아동이 의도적인 의사소통행동을 할 수 있도록 돕고, 양육자가 아동의 의사소통 
의도에 적절히 반응하고 강화해줄 수 있도록 도울 수 있습니다.
영유아가 기본적 요구를 표현할 수 있으면 보완대체의사소통이 필요없나요?
아니요. 인간의 의사소통은 다양한 기능을 합니다. Maslow는 인간에게 가장 기초적으로 
생리적 욕구, 안전의 욕구, 애정과 공감의 욕구, 존경의 욕구, 자아실현의 욕구가 모두 있다고 
하였습니다. 이 모든 욕구를 충족하기 위해서는 의사소통이 꼭 필요합니다. 기본적인 필요나 
요구가 있을 때만이 아니고 알고 있는 것을 전달할 때에도, 사회적 에티켓 또는 사회적 친밀
함을 표현하기 위해서도 의사소통이 필요합니다.
하나씩 하나씩 늘려가기
이 모든 것을 동시에 하는 것이 아니고 아동이 반응을 보이기 시작하는 것부터 하
나씩 집중적으로 반복하면서 점진적으로 목록을 늘려가야 합니다. 또한 아동이 아
무 것도 하지 못한다고 생각되면 엄마가 붙이고 반복하다가 아동이 집중하거나 직
접 하려는 시도를 보이면 격려해 주거나 도와주다가 도움의 양을 조금씩 줄여나갑
니다. 기억해야 할 것이 두 가지 더 있습니다.
• 내 아이와 많은 시간을 보내는 사람들이 모두 협력하여 함께 사용하는 것이 중
요합니다. 우리가 일반적으로 말을 배우는 상황을 상상해보면 그 이유를 이해
하실 수 있을 것입니다. 
• 전문가의 도움을 받으십시오. 보완대체의사소통을 적용할 수 있는 언어치료사
나 특수교사를 찾아보실 것을 추천합니다.' metada

In [None]:
# 문서 분할
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200 #500으로 할 경우 토큰 수가 최대 허용 토큰 수를 초과하여 줄임.
)
splits2 = loader2.load_and_split(splitter)
print(len(splits2))

144


In [None]:
# # 임베딩 후 저장
# # 임베딩 API 호출마다 너무 많은 청크가 들어가지 않도록 배치 사이즈 설정(한번에 호출할 경우 에러 발생)
# from langchain_chroma import Chroma
# from langchain_openai import OpenAIEmbeddings

# embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
# path = "data/guide-data_2"

# vectorstore2 = Chroma.from_documents(
#     collection_name='guide-data_2', #벡터 DB 안의 컬렉션 이름
#     collection_metadata={'hnsw:space':'cosine'}, #유사도 기준: 코사인 거리
#     documents=splits2, #앞서 쪼갠 문서 조각들
#     embedding=embeddings, #사용할 임베딩 모델 (OpenAI)
#     persist_directory=path #데이터를 로컬에 저장할 경로
# )

# print(vectorstore2._collection.count())

In [None]:
# 임베딩 불러오기
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

path = 'data/guide-data_2'
embeddings = OpenAIEmbeddings(model='text-embedding-3-large')
vectorstore2 = Chroma(
    collection_name='guide-data_2',
    collection_metadata={'hnsw:space': 'cosine'},
    embedding_function=embeddings,
    persist_directory=path
)

# %%% (END-of-Lab) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

print(vectorstore2._collection.count())

144


### data-2 관련해 예상 질문 만들기_rag 위한 데이터 전처리

In [None]:
# 문서 분할
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200 #500으로 할 경우 토큰 수가 최대 허용 토큰 수를 초과하여 줄임.
)
splits2 = loader2.load_and_split(splitter)
print(len(splits2))

144


In [None]:
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_chroma import Chroma
from collections import defaultdict
import pandas as pd
import time
import json
import re

### 1. 벡터스토어 불러오기
docs = vectorstore2.get()["documents"]  # page_content
metas = vectorstore2.get()["metadatas"]

### 2. LLM 초기화
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

### json 추출 함수
def extract_json_from_response(text: str) -> dict:
    try:
        json_string = re.search(r"\{[\s\S]*?\}", text).group()  # 중괄호 블록 추출
        return json.loads(json_string)
    except Exception as e:
        print(f"❌ JSON 추출 실패: {e}")
        return {}

### 3. 질문 생성 함수
def generate_question_from_guide(guide_text: str) -> list[str]:
    prompt = f"""
The following sentence is an excerpt from a parenting guide for parents of children with developmental disabilities:

"{guide_text}"

Please generate 1-2 realistic and natural questions in Korean that a parent might ask, for which this sentence would be an appropriate answer.

Respond in the following JSON format in **Korean**:

{{
  "질문": [
    "질문1",
    "질문2"
  ]
}}
If only one question fits, just return one inside the list.
"""
    try:
        response = llm.predict(prompt)
        json_data = extract_json_from_response(response)
        return json_data.get("질문", [])
    except Exception as e:
        print(f"❌ 질문 생성 실패: {e}")
        return []

### 4. 챕터 구조
chapter_map = [
    {
        "chapter_num": 1,
        "chapter_title": "건강관리",
        "sections": [
            (12, 19, "1. 우리 아이 건강관리와 응급처치"),
            (20, 21, "2. 우리 아이 영양관리"),
            (22, 27, "3. 우리 아이 식습관 관리 및 지도")
        ]
    },
    {
        "chapter_num": 2,
        "chapter_title": "의사소통",
        "sections": [
            (30, 43, "1. 어휘 및 의사소통 발달 촉진"),
            (44, 53, "2. 대안적 의사소통 지원")
        ]
    },
    {
        "chapter_num": 3,
        "chapter_title": "교육지원",
        "sections": [
            (56, 62, "1. 유아교육기관 취학 준비"),
            (63, 66, "2. 유아교육기관에서의 교육활동"),
            (67, 68, "3. 초등학교 취학 준비"),
            (69, 71, "4. 또래와 함께 생활하기"),
            (72, 75, "부록. 양육 사례")
        ]
    },
    {
        "chapter_num": 4,
        "chapter_title": "행동지원",
        "sections": [
            (78, 79, "1. 행동의 기능"),
            (80, 83, "2. 문제행동 중재 방법"),
            (84, 89, "3. 문제행동 대처하기"),
            (90, 93, "4. 바람직한 훈육 방법")
        ]
    },
    {
        "chapter_num": 5,
        "chapter_title": "일상생활",
        "sections": [
            (96, 102, "1. 배변습관 기르기"),
            (103, 109, "2. 착탈의 습관 기르기"),
            (110, 109, "3. 가정 내 놀이환경 꾸미기"),  # 페이지 누락 가능
            (111, 114, "4. 놀이할 때 다루기 어려운 행동"),
            (115, 116, "5. 안전한 놀이 환경 꾸미기")
        ]
    },
    {
        "chapter_num": 6,
        "chapter_title": "권리옹호",
        "sections": [
            (120, 125, "1. 아이가 위험한 상황에 놓였을 때"),
            (126, 131, "2. 일상생활에서 차별을 당했을 때")
        ]
    }
]

### 5. 챕터 매핑 함수
def get_structured_source(page_str: str) -> str:
    try:
        page = int(page_str)
    except ValueError:
        return "출처 없음"

    for chapter in chapter_map:
        for start, end, section_title in chapter["sections"]:
            if start <= page <= end:
                return f"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 {chapter['chapter_num']}. {chapter['chapter_title']} / {section_title}, {page}쪽"

    return f"기타 / 페이지 {page}"


### 6. 전체 실행
results = []

for i, (doc_text, meta) in enumerate(zip(docs[11:129], metas[11:129])):
    guide_text = doc_text.strip()
    page_str = meta.get('page_label', "0")
    source = get_structured_source(page_str)

    # 챕터 범위 밖일 경우 건너뛰기
    if source.startswith("기타 / 페이지") or "출처 없음" in source:
        print(f"⚠️ 건너뜀: page {page_str}, source: {source}")
        continue

    questions = generate_question_from_guide(guide_text)
    for question in questions:
        results.append({
            "질문": question,
            "원문 데이터": guide_text,
            "출처": source
        })
        time.sleep(1.2)  # LLM 요청 과다 방지

### 7. Pandas로 정리
df = pd.DataFrame(results)
df.to_csv("prequestion_list_for_parenting_skills.csv", index=False)
print("✅ 완료! 'prequestion_list_for_parenting_skills.csv'로 저장되었습니다.")


⚠️ 건너뜀: page 28, source: 기타 / 페이지 28
⚠️ 건너뜀: page 29, source: 기타 / 페이지 29
⚠️ 건너뜀: page 54, source: 기타 / 페이지 54
⚠️ 건너뜀: page 55, source: 기타 / 페이지 55
⚠️ 건너뜀: page 76, source: 기타 / 페이지 76
⚠️ 건너뜀: page 77, source: 기타 / 페이지 77
⚠️ 건너뜀: page 94, source: 기타 / 페이지 94
⚠️ 건너뜀: page 95, source: 기타 / 페이지 95
⚠️ 건너뜀: page 110, source: 기타 / 페이지 110
⚠️ 건너뜀: page 118, source: 기타 / 페이지 118
⚠️ 건너뜀: page 119, source: 기타 / 페이지 119
✅ 완료! 'prequestion_list_for_parenting_skills.csv'로 저장되었습니다.


In [None]:
import pandas as pd

# CSV 파일 경로
csv_path = "data/prequestion_list_for_parenting_skills.csv"

# CSV 파일 불러오기
df = pd.read_csv(csv_path)

# 데이터프레임 미리보기
df.head()

Unnamed: 0,질문,원문 데이터,출처
0,"MMR 예방접종이 자폐성장애를 유발할 수 있다는 주장이 있던데, 정말 그런가요?",12\n1. 우리 아이 건강관리와 응급처치\n➊ 예방접종은 꼭 받도록 합시다\n지난...,"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 1. 건..."
1,우리 아이에게 MMR 예방접종을 꼭 해야 할까요?,12\n1. 우리 아이 건강관리와 응급처치\n➊ 예방접종은 꼭 받도록 합시다\n지난...,"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 1. 건..."
2,발달장애가 있는 아이의 예방접종은 어떻게 해야 하나요?,건강관리 _ 13\n01\n02\n03\n04\n05\n06\n뇌 손상이 발생한 사...,"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 1. 건..."
3,아이의 예방접종 일정표를 어디서 확인할 수 있나요?,건강관리 _ 13\n01\n02\n03\n04\n05\n06\n뇌 손상이 발생한 사...,"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 1. 건..."
4,우리 아이의 구강관리는 어떻게 해야 하나요?,14\n➋ 우리 아이 구강관리는 이렇게 합시다\n영유아의 구강관리\n치아가 한 개 ...,"「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 1. 건..."


In [None]:
#임베딩 저장
# from langchain_core.documents import Document
# from langchain_openai import OpenAIEmbeddings
# from langchain_chroma import Chroma

# # 임베딩 모델 및 저장 경로
# embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
# path = "data/pre-qna-parenting"

# # 2. texts와 metadatas 생성
# texts = (df["질문"] + "\n" + df["원문 데이터"]).tolist()
# metadatas = df[["질문", "원문 데이터", "출처"]].to_dict(orient="records")

# # 3. Chroma 벡터스토어 생성 및 저장
# vectorstore2_2 = Chroma.from_texts(
#     texts=texts,
#     embedding=embeddings,
#     metadatas=metadatas,
#     collection_name="pre-qna-parenting",
#     collection_metadata={"source": "양육가이드 QnA"},
#     persist_directory=path
# )

In [None]:
# 임베딩 불러오기
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

path = 'data/pre-qna-parenting'
embeddings = OpenAIEmbeddings(model='text-embedding-3-large')
vectorstore2_2 = Chroma(
    collection_name='pre-qna-parenting',
    collection_metadata={"source": "양육가이드 QnA"},
    embedding_function=embeddings,
    persist_directory=path
)

# %%% (END-of-Lab) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

print(vectorstore2_2._collection.count())

213


## Node 구성

In [10]:
# 모델 및 파라미터 설정
from langchain.chat_models import init_chat_model

#YouTubeSummaryNode에서 사용할 모델
summarize_model = init_chat_model(
    model='openai:gpt-4.1-mini',
    temperature=0
)

#DocumentReviewNode에서 사용할 모델
doc_review_model = init_chat_model(
    model='openai:gpt-4.1-mini',
    temperature=0
)

#AnswerGenerationNode에서 사용할 모델
answering_model = init_chat_model(
    model='openai:gpt-4.1',
    temperature=0
)

In [None]:
# 데이터 스키마 정의
# DocumentReviewNode의 작업 틀 만들기
from pydantic import BaseModel, Field
from typing import Literal

class GradeDocument(BaseModel): #문서의 관련성 평가 결과를 담는 데이터 모델
    #필드 이름: 문서가 관련 있는지 여부, 이 필드 값은 반드시 이 두 값 중 하나여야 함
    relevance: Literal['relevant', 'irrelevant'] = Field(
        ...,
        description='Indicates whether the document is relevent to the query: '
                    "'relevent' or 'irrelevant'"
    )

In [None]:
# 그래프 상태 정의
import operator
from langchain.schema import Document
from typing import TypedDict, Annotated, List, Dict

class State(TypedDict):
    new_video: str
    video_url: str # 영상 주소
    video_transcript: str
    video_summary: str # 영상 내용 요약본
    recommendation: List[Dict[str, str]] # 다모아 영상 추천
    answer: str # 생성된 답변
    formatted_output: str
    documents: Annotated[List, operator.add] # rag 검색시 참조된 문서들
    option: Literal['parenting_skill', 'play_reco', 'video recommendation'] # 고른 선택지(대화, 양육기술 가이드, 놀이 추천, 영상 추천)

### 1. RetrieverNode

In [None]:
# 검색 및 추출 노드 클래스 정의
from langchain_core.runnables import Runnable
from langchain import hub
from typing import Optional

#주어진 질문에 대해 벡터 검색을 수행하고, 그 결과 문서들을 state에 추가
class RetrieverNode:
    """
    검색 및 추출 에이전트 클래스 노드
    벡터스토어 검색기를 사용하여 질문에 대한 관련 문서를 검색하고 추출한다.
    """
    def __init__(self, runnable: Runnable) -> None:
        self.__runnable = runnable

    def __call__(self, state: State) -> State:
        node_name = '--- Retriever node'
        print(f'\n{node_name} {'-' * (79 - len('\n') - len(node_name) - 1)}')

        # 현재 그래프 상태에서 질문 데이터를 가져온다.
        video_summary = state['video_summary']

        # 검색 및 추출을 실행한다.
        documents = self.__runnable.invoke(video_summary)

        # 기존 상태에 문서 데이터를 추가하고 반환한다.
        # print(f'retrieverNode에서 본 옵션 {state.get('option')}')
        return state | {'documents': documents}


In [None]:
def extract_json_from_response(text: str) -> dict:
            try:
                # 텍스트에서 JSON 객체 추출
                json_string = re.search(r"\{[\s\S]+\}", text, re.DOTALL).group()
                return json.loads(json_string)
            except Exception as e:
                print(f"❌ JSON 추출 실패: {e}")
                return {}

# 번호가 붙은 항목을 감지하고 분리하는 함수
def split_by_emoji_numbers(answer: str) -> list:
    pattern = r'(1️⃣|2️⃣|3️⃣|4️⃣|5️⃣|6️⃣|7️⃣|8️⃣|9️⃣|🔟)'
    parts = re.split(pattern, answer)
    combined = []
    i = 1
    while i < len(parts):
        emoji = parts[i]
        text = parts[i + 1] if i + 1 < len(parts) else ''
        combined.append(f"{emoji} {text.strip()}")
        i += 2
    return combined

# state['answer']에서 JSON 데이터를 추출
parsed = extract_json_from_response(state['answer'])

# `intro` 텍스트 출력
intro = parsed.get("intro", "No introduction provided.")
print(f'📌 {intro}\n')
print("🙋‍♀️ 더 알고 싶어요!")

# QnA 정보 출력
play_recommendation = parsed.get("play_recommendation", {})
name = play_recommendation.get("name", "No play recommendation found.")
steps = play_recommendation.get("steps", "No steps provided.")
lessons = play_recommendation.get("lessons", "No lessons provided.")
original_content = play_recommendation.get("original_content", "No original content provided.")

# 포맷팅된 결과 출력
print(f"🎮 놀이 추천: {name}")
print()
print(f"📜 놀이 과정:\n{steps}")
print()
print(f"🎓 놀이로 얻을 수 있는 교훈:\n{lessons}")
print()
if original_content:
    print(f"📝 참고한 놀이 사례:\n{original_content}")

# 출처 출력
if source:
    source = parsed.get("source", "No source provided.")
    print(f"📚 출처: {source}")


📌 이 영상에서는 발달장애 아동이 스스로 물건을 정리하는 방법과 그 중요성에 대해 배울 수 있습니다. 아이가 일상에서 정리 습관을 기르기 위해서는 부모와 함께 놀이를 통해 자연스럽게 연습하는 것이 도움이 됩니다. 아래의 놀이 활동은 아이가 정리정돈을 재미있게 익히고, 동시에 소근육 발달과 인지 능력, 의사소통 능력까지 함께 키울 수 있도록 도와줍니다.

🙋‍♀️ 더 알고 싶어요!
🎮 놀이 추천: 정리정돈 모방 놀이

📜 놀이 과정:
1️⃣ 부모님이 먼저 책상 위에 여러 가지 물건(책, 연필, 장난감 등)을 어지럽혀 놓습니다.
2️⃣ 아이에게 '이제 우리 같이 정리해볼까?'라고 말하며, 하나씩 물건을 제자리에 놓는 모습을 천천히 보여줍니다.
3️⃣ 아이가 부모님의 행동을 따라할 수 있도록 격려하며, '이건 어디에 둘까?', '연필은 필통에 넣어볼까?'와 같이 질문을 던집니다.
4️⃣ 아이가 직접 물건을 정리할 때마다 칭찬해주고, 정리된 공간을 함께 보며 '정리가 잘 되었네!'라고 긍정적인 피드백을 줍니다.
5️⃣ 놀이가 끝난 후에는 정리정돈이 왜 중요한지, 정리된 공간이 얼마나 편리한지 함께 이야기해봅니다.

🎓 놀이로 얻을 수 있는 교훈:
이 놀이는 아이가 모방을 통해 정리정돈 방법을 자연스럽게 익히고, 소근육 발달과 인지 능력, 의사소통 능력을 함께 키울 수 있습니다. 또한 부모와의 상호작용을 통해 정서적 안정감과 성취감을 느낄 수 있습니다.

📝 참고한 놀이 사례:
일상생활에서 모방 놀이 이렇게 해주세요. 어떻게 행동을 모방하게 할까요? 모방 능력 향상을 위해 가정에서 할 수 있는 놀이는 무엇인가요? (시각) 시각장애영아를 위한 모방 지도 방법 알아보기. (지체) 지체장애영아를 위한 모방 지도 방법 알아보기.
📚 출처: [교육부, 경상북도교육청] 장애 영아 교육지원 운영가이드 사례집(2024), 88쪽


In [None]:
# summarize_model = init_chat_model(
#     model='openai:gpt-4.1-mini',
#     temperature=0
# )
# summarizer = YouTubeSummaryNode(summarize_model)
# state = summarizer({'video_url': 'https://www.youtube.com/watch?v=V2HcJsRsdmQ'})
# print(state)

### VideoStartRouterNode

In [None]:
from langgraph.graph import START, END
from typing import Literal, Dict, Optional
from langchain_core.runnables import Runnable, RunnableConfig

class VideoStartRouterNode(Runnable):
    @staticmethod
    def route(state: State) -> Literal['parenting_skill', 'play_reco', 'video recommendation']:
        option = state.get('option')
        # print(f"유튜브 노드 라우팅 옵션 확인: {state.get('option')}") # 디버깅을 위한 출력

        if option=='parenting_skill':
            return 'parenting_skill'
        elif option=='video rocommendation':
            return 'video rocommendation'
        else:
            return 'play_reco'

    @staticmethod
    def route(state: Dict) -> Literal['Video Summarizer', 'Retriever_ParentingSkill', 'Retriever_PlayReco']:
        if state.get('new_video'):
            return 'Video Summarizer'
        elif state.get('option') == 'parenting_skill':
            return 'Retriever_ParentingSkill'
        else:
            return 'Retriever_PlayReco'

    def invoke(self, input: Dict, config: Optional[RunnableConfig] = None) -> Dict:
        """
        Implements the abstract 'invoke' method for Runnable.
        For a router node, it simply passes the state through as its "output".
        The actual routing logic is handled by the `route` static method via conditional_edges.
        """
        # A router node typically doesn't modify the state itself, it just helps decide the next step.
        # It should return the input state, or a modified state if it had some processing role.
        # In this case, it just passes the state through.
        print(f"VideoStartRouterNode Invoke: Passing state through: {input}")
        return input # Return the state as is. This is crucial for LangGraph's state management.


    def __call__(self, state: Dict, config: Optional[RunnableConfig] = None) -> Dict:
    # 이 노드는 라우팅 로직만 수행하며, 상태를 직접 변경하지 않습니다.
    # LangGraph의 conditional_edges에서 path로 사용됩니다.
        return state

### 2. YouTubeSummaryNode

In [None]:
'''자막 직접 다운 받아서 요약 하는 버전'''

'''
import os
import subprocess
import tiktoken
from typing import Dict, Union
from langchain_core.runnables import Runnable

class YouTubeSummaryNode(Runnable):
    def __init__(self, model, language='en', max_tokens=3000, delete_after=True):
        self.model = model
        self.language = language
        self.max_tokens = max_tokens
        self.delete_after = delete_after
        self.tokenizer = tiktoken.encoding_for_model("gpt-4")

    def download_subtitles(self, video_url: str):
        command = [
            "yt-dlp",
            "--write-auto-sub",
            f"--sub-lang={self.language}",
            "--skip-download",
            "-o", f"video_transcript.%(ext)s",
            video_url
        ]
        # subprocess.run(command, check=True)
        try:
            subprocess.run(command, check=True, capture_output=True, text=True)
            # 캡처된 출력을 여기에 저장하지만, 사용하지 않으면 화면에 표시되지 않습니다.
            # result.stdout, result.stderr
        except subprocess.CalledProcessError as e:
            # 에러가 발생했을 때만 에러 메시지를 볼 수 있도록 처리
            print(f"yt-dlp 실행 중 오류 발생: {e}")
            print(f"표준 출력: {e.stdout}")
            print(f"표준 에러: {e.stderr}")
            raise # 오류를 다시 발생시켜 상위 호출자에게 알립니다.
        except Exception as e:
            print(f"자막 다운로드 중 알 수 없는 오류 발생: {e}")
            raise

    def parse_vtt(self, filepath: str) -> str:
        with open(filepath, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        return ' '.join([
            line.strip() for line in lines
            if line.strip() and '-->' not in line and not line.strip().isdigit()
        ])

    def split_by_token_limit(self, text: str) -> list:
        words = text.split()
        chunks, current_chunk = [], []
        for word in words:
            current_chunk.append(word)
            if len(self.tokenizer.encode(" ".join(current_chunk))) > self.max_tokens:
                chunks.append(" ".join(current_chunk[:-1]))
                current_chunk = [word]
        if current_chunk:
            chunks.append(" ".join(current_chunk))
        return chunks

    def summarize_chunks(self, chunks: list) -> list:
        summaries = []
        for i, chunk in enumerate(chunks):
            print(f"🧩 영상 요약 중: {i+1}/{len(chunks)}")
            response = self.model.invoke(f"Summarize this transcript chunk:\n\n{chunk}")
            summaries.append(response.content)
        return summaries

    def create_final_summary(self, summaries: list) -> str:
        instructions = """
1. Combine and refine the following partial summaries into a single coherent summary.
2. Make sure that the summary is 3-4 sentences.
3. The response should be written in **Korean**.
4. The summary should reflect that the video is designed for children with developmental disabilities and may be watched by them.
5. Please use gentle, clear, and supportive language that is easy to understand for parents or educators working with such children.
"""
        prompt = instructions + "\n\n" + "\n\n".join(summaries)
        final_response = self.model.invoke(prompt)
        return final_response.content

    def run(self, state: Dict) -> Dict:
        video_url = state.get("video_url")
        if not video_url:
            raise ValueError("State must contain 'video_url'")

        self.download_subtitles(video_url)
        vtt_file = f"video_transcript.{self.language}.vtt"
        if not os.path.exists(vtt_file):
            raise FileNotFoundError(f"자막 파일 없음: {vtt_file}")

        transcript = self.parse_vtt(vtt_file)
        chunks = self.split_by_token_limit(transcript)
        summaries = self.summarize_chunks(chunks)
        final_summary = self.create_final_summary(summaries)

        if self.delete_after:
            try:
                os.remove(vtt_file)
                # print(f"🗑️ 자막 파일 삭제 완료: {vtt_file}")
            except Exception as e:
                print(f"⚠️ 삭제 실패: {e}")

        return state | {
            "video_transcript": transcript,
            "video_summary": final_summary,
            "answer": final_summary  # 기본 answer 세팅
        }
    def __call__(self, state: Dict) -> Dict:
        return self.run(state)

    def invoke(self, input: Union[Dict, str], config: Optional[RunnableConfig] = None) -> Dict:
        # invoke는 초기 상태를 설정하는 데 사용됩니다.
        if isinstance(input, dict):
            # run 메서드가 전체 상태를 처리하도록 합니다.
            # print(input)
            return self.run(input)
        else:
            raise ValueError("Input to invoke must be a dictionary.")

     # --- conditional edge ----------------------------------------------------
    @staticmethod
    def route(state: State) -> Literal['parenting_skill','play_reco']:
        option = state.get('option')
        # print(f"유튜브 노드 라우팅 옵션 확인: {state.get('option')}") # 디버깅을 위한 출력

        if option=='parenting_skill':
            return 'parenting_skill'
        elif option=='video recommendation':
            return 'video recommendation'
        else:
            return 'play_reco' '''

In [None]:
# youtube_transcript_api 사용 버전
import tiktoken
from typing import Dict, Union, Optional, Literal
from langchain_core.runnables import Runnable
from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound, VideoUnavailable, YouTubeRequestFailed

class YouTubeSummaryNode(Runnable):
    def __init__(self, model, language='ko', max_tokens=3000):
        self.model = model
        self.language = language
        self.max_tokens = max_tokens
        self.tokenizer = tiktoken.encoding_for_model("gpt-4")

    def get_youtube_transcript(self, video_url, languages=['ko', 'en']):
        try:
            if "v=" in video_url:
                video_id = video_url.split("v=")[-1].split("&")[0]
            else:
                video_id = video_url.strip().split("/")[-1]
            transcript = YouTubeTranscriptApi().get_transcript(
                video_id,
                languages=languages
            )
            return " ".join([snippet['text'] for snippet in transcript])
        except (TranscriptsDisabled, NoTranscriptFound, VideoUnavailable, YouTubeRequestFailed):
            print("[❌] 자막 없음 또는 접근 불가")
            return None
        except Exception as e:
            print(f"[❌] 알 수 없는 오류: {e}")
            return None

    def split_by_token_limit(self, text: str) -> list:
        words = text.split()
        chunks, current_chunk = [], []
        for word in words:
            current_chunk.append(word)
            if len(self.tokenizer.encode(" ".join(current_chunk))) > self.max_tokens:
                chunks.append(" ".join(current_chunk[:-1]))
                current_chunk = [word]
        if current_chunk:
            chunks.append(" ".join(current_chunk))
        return chunks

    def summarize_chunks(self, chunks: list) -> list:
        summaries = []
        for i, chunk in enumerate(chunks):
            print(f"🧩 영상 요약 중: {i+1}/{len(chunks)}")
            response = self.model.invoke(f"Summarize this transcript chunk:\n\n{chunk}")
            summaries.append(response.content)
        return summaries

    def create_final_summary(self, summaries: list) -> str:
        instructions = """
1. Combine and refine the following partial summaries into a single coherent summary.
2. Make sure that the summary is 3-4 sentences.
3. The response should be written in **Korean**.
4. The summary should reflect that the video is designed for children with developmental disabilities and may be watched by them.
5. Please use gentle, clear, and supportive language that is easy to understand for parents or educators working with such children.
"""
        prompt = instructions + "\n\n" + "\n\n".join(summaries)
        response = self.model.invoke(prompt)
        prompt_tokens += count_tokens(prompt)
        completion_tokens += count_tokens(response)
        return response.content

    def run(self, state: Dict) -> Dict:
        video_url = state.get("video_url")
        if not video_url:
            raise ValueError("State must contain 'video_url'")

        transcript = self.get_youtube_transcript(video_url, languages=[self.language, "en"])
        if not transcript:
            raise FileNotFoundError(f"자막을 불러올 수 없음: {video_url}")

        chunks = self.split_by_token_limit(transcript)
        summaries = self.summarize_chunks(chunks)
        final_summary = self.create_final_summary(summaries)

        return state | {
            "video_transcript": transcript,
            "video_summary": final_summary,
            "answer": final_summary
        }
        
    def __call__(self, state: Dict) -> Dict:
        return self.run(state)

    def invoke(self, input: Union[Dict, str], config: Optional[dict] = None) -> Dict:
        if isinstance(input, dict):
            return self.run(input)
        else:
            raise ValueError("Input to invoke must be a dictionary.")

    @staticmethod
    def route(state: Dict) -> Literal['parenting_skill','play_reco']:
        option = state.get('option')
        if option=='parenting_skill':
            return 'parenting_skill'
        elif option=='video recommendation':
            return 'video recommendation'
        else:
            return 'play_reco'


### VideoRecommendationNode

In [None]:
import operator
import re
from langchain_core.runnables import Runnable
from langchain_community.utilities import SQLDatabase
from langchain.chat_models import init_chat_model

class VideoRecommendationNode:
    """
    영상 추천 파이프라인의 메인 클래스. LLM과 DB를 연결해 영상 추천 결과를 생성하고 필터링한다.
    """
    def __init__(self, runnable: Runnable, chunk_size: int = 50) -> None:
        self.__runnable = runnable
        self.__chunk_size = chunk_size

    def _build_prompt_header(self, user_input: str, header_note: str) -> List[str]:
        """
        LLM 프롬프트의 공통 헤더(사용자 관심사 + 안내문) 리스트를 반환
        user_input: 추천 기준(예: 영상 요약문 등)
        header_note: 프롬프트 중간 안내 문구
        """
        return [
            "Below is a description of the user's interest:",
            user_input,
            f"\n{header_note}"
        ]

    def __call__(self, state: State) -> State:
        """
        입력 요약을 받아 영상 추천 프롬프트를 만들고 LLM으로 결과를 추천받아 반환
        (추천 필터링까지 한 번에 수행)
        state: State 입력
        return: 추천 결과 포함된 VideoRecommendState
        """
        node_name = '--- Video Recommendation Node'
        print(f'\n{node_name} {'-' * (79 - len('\n') - len(node_name) - 1)}')  

        user_input = state.get("video_summary") or ""
        if not user_input:
            print("입력값 없음 (summary 필드 필요)")
            return state

        query = """
            SELECT 제목, 키워드, 요약, 링크
            FROM Damoavideo;
        """
        db = SQLDatabase.from_uri("sqlite:///data/moav.db")
        rows = db._execute(query)
        if not isinstance(rows, list):
            print("데이터베이스 응답 오류")
            return state

        chunks = [rows[i:i+self.__chunk_size] for i in range(0, len(rows), self.__chunk_size)]
        row_map = {str(row.get('제목', '')).strip(): row for row in rows}
        all_recommended = {}

        for chunk in chunks:
            prompt_lines = self._build_prompt_header(user_input, "Here is a list of videos:")
            for row in chunk:
                prompt_lines.append(
                    f"Title: {row['제목']}\nKeywords: {row['키워드']}\nSummary: {row['요약']}"
                )
            prompt_lines.append(
                """
                Please recommend up to 3 videos that are most closely related to the user's input.
                Do not recommend videos that are not clearly relevant.
                Output in the same language as the user's input.
                Only include one video per line in the following format:
                Title: [video title]
                Link: [video link]
                Reason: [a short reason why this video is relevant to the user's input]
                Separate each video with a blank line.
                """
            )
            prompt = "\n\n".join(prompt_lines)
            
            try:
                response = self.__runnable.invoke(prompt)
            except Exception as e:
                print(f"LLM 응답 실패: {e}")
                continue
            
            if not hasattr(response, "content") or not isinstance(response.content, str):
                print("LLM 응답 형식 오류: content 속성이 없거나 문자열이 아님")
                continue
            # 입력 출력 토큰 수 누적치 계산
            prompt_tokens += count_tokens(prompt)
            completion_tokens += count_tokens(response)

            blocks = response.content.strip().split('\n\n')
            for block in blocks:
                title_match = re.search(r"^Title:\s*(.+)$", block, re.MULTILINE)
                link_match = re.search(r"^Link:\s*(.+)$", block, re.MULTILINE)
                reason_match = re.search(r"^Reason:\s*(.+)$", block, re.MULTILINE)
                if title_match:
                    title = title_match.group(1).strip()
                    link = link_match.group(1).strip() if link_match else ""
                    reason = reason_match.group(1).strip() if reason_match else ""
                    all_recommended[title] = {"title": title, "link": link, "reason": reason}

        recommendations = []
        for title, data in all_recommended.items():
            row = row_map.get(title)
            if row:
                recommendations.append({
                    "title": title,
                    "link": row['링크'],
                    "reason": data['reason']
                })

        if recommendations:
            review_lines = self._build_prompt_header(user_input, "Here is a list of recommended videos:")
            for rec in recommendations:
                review_lines.append(f"Title: {rec['title']}\nLink: {rec['link']}\nReason: {rec['reason']}")
            review_lines.append(
                """
                From the recommended list above, filter and return only the videos that are most relevant to the user's input.
                Exclude any videos that are not clearly relevant.
                Output in the same language as the user's input.
                Only include one video per line in the following format:
                Title: [video title]
                Link: [video link]
                Reason: [a short reason why this video is relevant to the user's input]
                Separate each video with a blank line.
                """
            )
            review_prompt = "\n\n".join(review_lines)
            try:
                review_response = self.__runnable.invoke(review_prompt)
            except Exception as e:
                print(f"LLM 필터링 실패: {e}")
                return {"recommendation": recommendations, **state}

            if not hasattr(review_response, "content") or not isinstance(review_response.content, str):
                print("LLM 필터링 응답 형식 오류")
                return {"recommendation": recommendations, **state}
            
            # 입력 출력 토큰 수 누적치 계산
            prompt_tokens += count_tokens(review_prompt)
            completion_tokens += count_tokens(review_response)

            filtered_titles = set()
            blocks = review_response.content.strip().split('\n\n')
            for block in blocks:
                title_match = re.search(r"^Title:\s*(.+)$", block, re.MULTILINE)
                if title_match:
                    title = title_match.group(1).strip()
                    filtered_titles.add(title)

            recommendations = [rec for rec in recommendations if rec['title'] in filtered_titles]

        return {"recommendation": recommendations}

### 3. DocumentReviewNode

In [None]:
# 추출한 문서 심사 노드 클래스 정의
from langchain_core.runnables import Runnable, RunnableConfig
from langchain import hub
from typing import Optional, Literal
from langchain_core.prompts import ChatPromptTemplate

class DocumentReviewNode:
    def __init__(self, runnable: Runnable) -> None:
        prompt = ChatPromptTemplate.from_template("""
        Below is a video summary and a document.
        If the document is relevant to the topic of the video summary, respond with 'relevant'.
        If it is not related, respond with 'irrelevant' only.

        [Video Summary]
        {video_summary}

        [Document]
        {document}

        Response:
        """)
        self.__runnable = (
            prompt
            | runnable.with_structured_output(GradeDocument)  # LLM 출력값을 GradeDocument로 자동 파싱
        )
    def __call__(self, state: State, config: Optional[RunnableConfig] = None) -> State:
        node_name = '--- Document Review node'
        # print(f'\n{node_name} {'-' * (79 - len('\n') - len(node_name) - 1)}')

        # 현재 그래프 상태에서 문서 데이터를 가져온다.
        documents = state.get('documents', [])
                # --- 각 문서를 채점하고 관련 문서만 필터링한다.
        relevant_docs = []
        for doc in documents:
            score = self.__runnable.invoke(
                input={'video_summary': state['video_summary'], 'document': doc.page_content},
                config=config  # (note) for a configurable model
            )
            
            # 입력 출력 토큰 수 누적치 계산
            prompt_filled = f"""
            Below is a video summary and a document.
            If the document is relevant to the topic of the video summary, respond with 'relevant'.
            If it is not related, respond with 'irrelevant' only.

            [Video Summary]
            {state['video_summary']}

            [Document]
            {doc.page_content}

            Response:
            """
            prompt_tokens += count_tokens(prompt_filled)
            completion_tokens += count_tokens(score)

            grade = score.relevance
            if grade == 'relevant':  # 문서가 관련성이 있으면
                # print(f'%> Evaluating: DOCUMENT RELEVANT')
                relevant_docs.append(doc) # 리스트에 추가한다.
            else:                    # 문서가 관련성이 없으면
                # print(f'%> Evaluating: DOCUMENT NOT RELEVANT')
                continue             # 리스트에 추가하지 않는다.
        print(f"Relevant documents: {len(relevant_docs)}")  # 관련 문서 개수 확인

        return state | {'documents': relevant_docs}

     # --- conditional edge ----------------------------------------------------
    @staticmethod
    def route(state: State) -> Literal['parenting_skill','play_reco']:
        option = state.get('option')
        # print(f"review node 라우팅 옵션 확인: {state.get('option')}") # 디버깅을 위한 출력

        if option=='parenting_skill':
            return 'parenting_skill'
        else:
            return 'play_reco'

### 4. AnswerGenerationNode_PlayReco

In [None]:
from langchain_core.runnables import Runnable, RunnableConfig
from typing import Optional
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

class AnswerGenerationNode_PlayReco:
    def __init__(self, runnable: Runnable) -> None:
        self.runnable = runnable # 받은 runnable 저장

        # 시스템 템플릿은 고정
        self.system_template = """
You are a parenting expert with over 10 years of experience, specializing in supporting children with developmental disabilities.
You provide clear, empathetic, and developmentally appropriate suggestions for parents and children.
"""
        # 인간 템플릿의 고정 부분만 정의
        self.base_human_template_start = """
You will be given a summary of a video, along with a reference document that includes examples of related play & education activities.

Your task is as follows:

1. **Suggest a play activity** that parents and children can do together, after watching the video.
    - Use the video summary and play & education reference document as the foundation for your suggestion.
    - Try to preserve the **main idea** and **vocabulary** used in the reference as much as possible.
    - **Format** your response as a short paragraph or as a numbered list (e.g., 1️⃣, \n2️⃣, \n3️⃣), especially when the play involves multiple steps or recommendations. Use numbering for **step-by-step** activities.
    - **Include the original content from the reference document.

    Your response should include the following:
    1) **Name of the Play**: Provide a clear, short title for the play.
    2) **Steps for Play**: Write the steps in detail, explaining how the activity should be done.
    3) **Lessons from the Play**: Describe the educational or developmental value of the play.
    4) **Original Content**: Provide the text or description from the original reference that inspired your recommendation.
                                Make the original content into sentences.

2. Write a **short introductory paragraph** that helps parents connect the video to the play you recommend.
    - The introductory paragraph should link the content of the video with the play activity.
    - Ensure that parents understand how the play relates to the video content, especially since the video is designed for children with developmental disabilities.
    - This part will be the "intro" in output format.

3. Your output **must be in Korean**, even though the instructions are written in English.

4. **Format** your final output exactly in the JSON structure shown below. Ensure **correct formatting** and accuracy:
    - The `source` value **must** be **exactly** as provided in the input. Do not rewrite or interpret it.

[Video Summary]
{video_summary}

[Play Activity Reference]
"""

        self.base_human_template_end = """
[Output Format Example]
```json
{{
  "intro": "...",
  "play_recommendation": {{
    "name": "...",
    "steps": "...",
    "lessons": "...",
    "original_content": "..."
  }},
  "source": ""
}}

⚠️ Make sure to respond only in Korean, and follow the JSON format exactly.
⚠️ All answers must be in Korean.
"""

    def __call__(self, state: State, config: Optional[RunnableConfig] = None) -> State:
        node_name = '--- Answer Generation Agent node'
        print(f'\n{node_name} {'-' * (79 - len('\n') - len(node_name) - 1)}')

        rag_docs = state.get("documents", [])
        play_examples_for_prompt = "" # 프롬프트에 추가할 문자열

        # doc.metadata.get('source') 오류 해결 및 play_examples_for_prompt 동적 생성
        if rag_docs:
            for i, doc in enumerate(rag_docs[:3], 1): # 최대 3개 문서만 사용하도록 제한
                page = doc.metadata.get('page_label', '')
                content = doc.page_content

                raw_source = doc.metadata.get('source')
                source = raw_source.replace('data/', '').replace('.pdf', '') if raw_source else "알 수 없는 출처"

                final_source = f"{source}, {page}쪽"

                play_examples_for_prompt += f"""
{i}.
Play & Education Reference: {content}
Source: {final_source}
"""
        else:
            play_examples_for_prompt = """
No Reference found, so you should make play on your own, according to the information below.
Prompt:

You are an expert in developmental therapy and special education. Based on the following guidelines, generate practical suggestions for designing play activities for children with developmental disabilities. Please ensure your suggestions are specific, actionable, and tailored to the needs of these children.

Guidelines for Creating Play Activities for Children with Developmental Disabilities:

Prioritize the child’s developmental level and interests.

Recognize that children with developmental disabilities may have different developmental speeds, interests, and strengths compared to their peers.

Observe what the child enjoys, repeats, or shows interest in, and incorporate these elements into play.

Start with simple, structured play and gradually expand.

Begin with basic functional play (rolling a ball, stacking blocks) and gradually move to constructive play (building with blocks), symbolic play (pretend play), and games with rules.

Clearly explain the rules and help the child practice them through repetition.

Use visual, tactile, and concrete materials.

Utilize puzzles, blocks, picture cards, foam pieces, and other visual/tactile aids to increase engagement and understanding.

For example, use social skills puzzles or stepping stone games that allow the child to physically interact and practice specific scenarios.

Incorporate social skills and real-life situations into play.

Design activities that help children practice real-life social behaviors, suchs as sitting in class, greeting friends, or waiting in line at a store.

Use role play, skits, or stepping stone games to rehearse appropriate responses in specific situations.

Provide frequent opportunities for success and positive feedback.

Offer praise, stickers, or small rewards for achievements, no matter how small, to motivate the child.

Adjust the difficulty and goals to match the child’s level, focusing on building positive experiences.

Emphasize repetition and predictability.

Children with developmental disabilities often feel more comfortable with routines and predictable structures.

Keep the sequence and rules of play consistent, and gradually introduce new elements as the child becomes more confident.

Design activities for parent or peer participation.

Create play activities that parents or peers can easily join, such as collaborative puzzles, role play, or simple games with rules.

Encourage cooperative play and sharing of roles.

Examples of Play Activities:

Social skills puzzles: Each puzzle piece represents a social skill to practice as the puzzle is completed.

Stepping stone games: Each step represents a real-life situation (e.g., waiting at the hospital) and the child practices the appropriate behavior.

Block play: Stacking, color matching, or building shapes.

Pretend play: Role-playing as family members, doctors, store clerks, etc., to naturally practice social interaction.
"""

        # 최종 human_template 조합
        human_template_full = self.base_human_template_start + play_examples_for_prompt + self.base_human_template_end

        prompt = ChatPromptTemplate.from_messages([
            ("system", self.system_template),
            ("human", human_template_full)
        ])

        # runnable을 __call__ 내에서 정의 (동적 프롬프팅을 위해)
        current_runnable = prompt | self.runnable | StrOutputParser()

        video_summary = state.get("video_summary", "") # 기본값 설정

        generation = current_runnable.invoke(
            {
                'video_summary': video_summary # 비디오 요약만 전달
            },
            config=config
        )
        
        # 입력 출력 토큰 수 누적치 계산
        # 템플릿 프롬프트 객체를 문자열로 받아오기
        prompt_str = prompt.format(video_summary=video_summary).to_string()
        prompt_tokens += count_tokens(prompt_str)
        completion_tokens += count_tokens(generation)

        # 현재 그래프 상태에서 문서 데이터를 가져온다.
        documents = state.get('documents', [])
                # --- 각 문서를 채점하고 관련 문서만 필터링한다.
        relevant_docs = []
        for doc in documents:
            score = self.__runnable.invoke(
                input={'video_summary': state['video_summary'], 'document': doc.page_content},
                config=config  # (note) for a configurable model
            )

        return state | {'answer': generation}

### 5. AnswerGenerationNode_ParentingSkill

In [None]:
from langchain_core.runnables import Runnable, RunnableConfig
from typing import Optional
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

class AnswerGenerationNode_ParentingSkill:
    def __init__(self, runnable: Runnable) -> None:
        self.base_runnable = runnable

    def __call__(self, state: State, config: Optional[RunnableConfig] = None) -> State:
        node_name = '--- Answer Generation Agent node'
        print(f'\n{node_name} {'-' * (79 - len('\n') - len(node_name) - 1)}')

        # 질문과 문서를 기반으로 QnA 세트 구성
        qna_sets = []
        for doc in state['documents']:
            qna_sets.append({
                'question': doc.page_content,
                'document': doc.metadata.get('원문 데이터', ''),
                'source': doc.metadata.get('출처', '')
            })

        # 관련 질문이 하나도 없을 경우 기본 메시지 출력
        if not qna_sets:
            print('%> No relevant QnA found. Returning default message.')
            return state | {'answer': '궁금한게 있다면 질문해주세요.'}

        # ▶ Prompt 문자열 동적 구성
        human_template = """You are an expert in parenting children with developmental disabilities, with over 10 years of experience.

You will be given a summary of a video, along with several questions and corresponding parenting guideline documents.

Your task is as follows:

1. Based on the video summary, write a short introductory paragraph that helps connect the video to the following questions and answers.
The goal is to ensure that parents do not feel the questions and answers are unrelated to the video.

2. For each question, write a clear and helpful answer by referencing the given guideline document.
Do not change the meaning of the original guideline.
Try to preserve the vocabulary and expressions used in the guideline as much as possible.
+ Format each answer as a short paragraph or as a numbered list (e.g., 1️⃣, \n2️⃣, \n3️⃣), depending on the content. Use numbering especially when the guideline includes multiple steps or recommendations.

3. Your output **must be in Korean**, even though the instructions are written in English.

4. Format your final output exactly in the JSON structure shown below.
⚠️ Make sure to use the `source` value **exactly as provided** in the input, without any rewriting or interpretation.

[Video Summary]
{video_summary}

[Questions & Parenting Guidelines]
"""  # Insert qna below this

        # Add QnAs dynamically
        for i, qna in enumerate(qna_sets[:3], 1):
            human_template += f"""
        {i}.
        Q: {qna['question']}
        Parenting Guideline: {qna['document']}
        Source: {qna['source']}"""

        human_template += """

[Output Format Example]
```json
{{
  "intro": "이 영상은 친구들의 우정을 통해 서로 다름을 이해하는 과정을 보여주며, 아래 질문들은 이를 바탕으로 아이와의 대화를 돕기 위한 것입니다.",
  "qna": [
    {{
      "question": "아이와 친구 관계에서 배려를 어떻게 가르칠 수 있을까요?",
      "answer": "배려는 일상 속 작은 실천을 통해 자연스럽게 배울 수 있도록 해야 합니다. ...",
      "source": "『함께 크는 우리 아이: 관계 형성 편』 p.27"
    }},
    {{
      "question": "...",
      "answer": "...",
      "source": "..."
    }}
  ]
}}

⚠️ Make sure to respond only in Korean, and follow the JSON format exactly.
⚠️ All answers must be in Korean.
⚠️ source field must match exactly what was provided in the input.
"""


        # ▶ Prompt 객체 생성
        prompt = ChatPromptTemplate.from_messages([
            ("system", 'You are an expert in parenting children with developmental disabilities, with over 10 years of experience.'),
            ("human", human_template)
        ])

        # ▶ 전체 runnable 구성
        full_runnable = prompt | self.base_runnable | StrOutputParser()
        video_summary = state.get('video_summary','')

        # ▶ LLM 실행
        '''generation = full_runnable.invoke(
            {'video_summary': state['video_summary']},
            config=config
        )'''
        generation = full_runnable.invoke(
            {'video_summary': video_summary},
            config=config
        )


        # 입력 출력 토큰 수 누적치 계산
        # 템플릿 프롬프트 객체를 문자열로 받아오기
        prompt_str = prompt.format(video_summary=video_summary).to_string()
        prompt_tokens += count_tokens(prompt_str)
        completion_tokens += count_tokens(generation)

        return state | {'answer': generation}


### 6. FinalFormattingNode_PlayReco

In [None]:
import re
import json
import textwrap
from typing import Optional
from langchain_core.runnables import Runnable, RunnableConfig

class FinalFormattingNode_PlayReco(Runnable):
    def invoke(self, state: dict, config: Optional[RunnableConfig] = None) -> dict:

        # JSON 문자열 추출하는 함수
        def extract_json_from_response(text: str) -> dict:
            try:
                # 텍스트에서 JSON 객체 추출
                json_string = re.search(r"\{[\s\S]+\}", text, re.DOTALL).group()
                return json.loads(json_string)
            except Exception as e:
                print(f"❌ JSON 추출 실패: {e}")
                return {}

        # 번호가 붙은 항목을 감지하고 분리하는 함수
        def split_by_emoji_numbers(answer: str) -> list:
            pattern = r'(1️⃣|2️⃣|3️⃣|4️⃣|5️⃣|6️⃣|7️⃣|8️⃣|9️⃣|🔟)'
            parts = re.split(pattern, answer)
            combined = []
            i = 1
            while i < len(parts):
                emoji = parts[i]
                text = parts[i + 1] if i + 1 < len(parts) else ''
                combined.append(f"{emoji} {text.strip()}")
                i += 2
            return combined

        # 콘솔 출력 및 JSON 추출
        # print('\n--- Final Formatting Node --------------------------------------------------------')

        # state['answer']에서 JSON 데이터를 추출
        parsed = extract_json_from_response(state['answer'])

        # `intro` 텍스트 출력
        intro = parsed.get("intro", "No introduction provided.")
        print(f'📌 {intro}\n')
        print("🙋‍♀️ 더 알고 싶어요!")

        # QnA 정보 출력
        play_recommendation = parsed.get("play_recommendation", {})
        name = play_recommendation.get("name", "No play recommendation found.")
        steps = play_recommendation.get("steps", "No steps provided.")
        lessons = play_recommendation.get("lessons", "No lessons provided.")
        original_content = play_recommendation.get("original_content", "No original content provided.")

        # 포맷팅된 결과 출력
        print(f"🎮 놀이 추천: {name}")
        print(f"📜 놀이 과정:\n{steps}")
        print(f"🎓 놀이로 얻을 수 있는 교훈:\n{lessons}")
        print(f"📝 원문 내용:\n{original_content}")

        # 출처 출력
        source = parsed.get("source", "No source provided.")
        print(f"📚 출처: {source}")

        print("─" * 90)

        # 반환할 JSON 구조
        result = {
            "intro": intro,
            "play_recommendation": {
                "name": name,
                "steps": steps,
                "lessons": lessons,
                "original_content": original_content
            },
            "source": source
        }

        # JSON 형식으로 출력 및 state 반환
        return state | {'formatted_output': json.dumps(result, ensure_ascii=False, indent=2)}


### 7. FinalFormattingNode_ParentingSkill

In [None]:
import re
import json
import textwrap
from typing import Optional
from langchain_core.runnables import Runnable, RunnableConfig
from langchain_core.runnables import Runnable

class FinalFormattingNode_ParentingSkill(Runnable):
    def invoke(self, state: dict, config: Optional[RunnableConfig] = None) -> dict:
        def extract_json_from_response(text: str) -> dict:
            try:
                json_string = re.search(r"\{[\s\S]+\}", text, re.DOTALL).group()
                return json.loads(json_string)
            except Exception as e:
                print(f"❌ JSON 추출 실패: {e}")
                return {}

        def split_by_emoji_numbers(answer: str) -> list:
            pattern = r'(1️⃣|2️⃣|3️⃣|4️⃣|5️⃣|6️⃣|7️⃣|8️⃣|9️⃣|🔟)'
            parts = re.split(pattern, answer)
            combined = []
            i = 1
            while i < len(parts):
                emoji = parts[i]
                text = parts[i + 1] if i + 1 < len(parts) else ''
                combined.append(f"{emoji} {text.strip()}")
                i += 2
            return combined

        # print('\n--- Final Formatting Node --------------------------------------------------------')

        parsed = extract_json_from_response(state['answer'])

        print(f'📌 {parsed.get("intro", "")}\n')
        print("🙋‍♀️ 더 알고 싶어요!")

        for i, qna in enumerate(parsed.get("qna", []), 1):
            print(f"{i}. ❓ Q: {qna['question']}\n")
            print("   💬 A:")
            if '1️⃣' in qna['answer']:
                numbered_lines = split_by_emoji_numbers(qna['answer'])
                for line in numbered_lines:
                    print(f"     {textwrap.fill(line, width=80, subsequent_indent='     ')}")
            else:
                print(f"     {textwrap.fill(qna['answer'], width=80, subsequent_indent='     ')}")
            print(f"\n   📚 출처: {qna['source']}")
            print("─" * 90)

        return state

### 그래프 흐름 정의

In [None]:
# 그래프 흐름 정의
from langgraph.graph import StateGraph, START, END

graph = StateGraph(State)
graph.add_node('Video Start Router', VideoStartRouterNode())
graph.add_node('Video Summarizer', YouTubeSummaryNode(summarize_model))
graph.add_node(
    'Retriever_ParentingSkill',
    RetrieverNode(vectorstore2_2.as_retriever(
        search_type='similarity',
        search_kwargs={'k': 15}
    ))
)
graph.add_node(
    'Retriever_PlayReco',
    RetrieverNode(vectorstore1.as_retriever(
        search_type='similarity',
        search_kwargs={'k': 15}
    ))
)
graph.add_node('Video Recommendation Node', VideoRecommendationNode(summarize_model))
graph.add_node('Document Reviewer', DocumentReviewNode(doc_review_model))
graph.add_node('Answer Generator_ParentingSkill', AnswerGenerationNode_ParentingSkill(answering_model))
graph.add_node('Answer Generator_PlayReco', AnswerGenerationNode_PlayReco(answering_model))
graph.add_node('Final Formatter_ParentingSkill', FinalFormattingNode_ParentingSkill())
graph.add_node('Final Formatter_PlayReco', FinalFormattingNode_PlayReco())

graph.add_conditional_edges(
    source='Video Start Router',
    path=VideoStartRouterNode.route,
    path_map={
        'Video Summarizer': 'Video Summarizer',
        'Retriever_ParentingSkill': 'Retriever_ParentingSkill',
        'Retriever_PlayReco': 'Retriever_PlayReco',
        'Video Recommendation': 'Video Recommendation'
    }
)

graph.add_conditional_edges(
    source='Video Summarizer',
    path=YouTubeSummaryNode.route,
    path_map={
        'parenting_skill': 'Retriever_ParentingSkill',
        'play_reco': 'Retriever_PlayReco',
        'Video Recommendation': 'Video Recommendation'

    }
)
graph.add_conditional_edges(
    source='Document Reviewer',
    path=DocumentReviewNode.route,
    path_map={
        'parenting_skill': 'Answer Generator_ParentingSkill',
        'play_reco': 'Answer Generator_PlayReco'
    }
)

graph.add_edge(START, 'Video Start Router')
graph.add_edge('Retriever_ParentingSkill', 'Document Reviewer')
graph.add_edge('Retriever_PlayReco', 'Document Reviewer')

graph.add_edge('Answer Generator_ParentingSkill', 'Final Formatter_ParentingSkill')
graph.add_edge('Answer Generator_PlayReco', 'Final Formatter_PlayReco')

graph.add_edge('Final Formatter_ParentingSkill', END)
graph.add_edge('Final Formatter_PlayReco', END)

# --- compile
workflow = graph.compile()

In [None]:
print(workflow.get_graph().draw_ascii())

                                +-----------+                               
                                | __start__ |                               
                                +-----------+                               
                                       *                                    
                                       *                                    
                                       *                                    
                            +--------------------+                          
                            | Video Start Router |                          
                         ...+--------------------+....                      
                    .....              .              ......                
              ......                   .                    .....           
        ......                         .                         ......     
     ...                     +------------------+                      ...  

### 최종 에이전트

In [None]:
user_input2 = '1'
option_dic = {'1': 'parenting_skill', '2': 'play_reco'}
print(option_dic[user_input2])

parenting_skill


In [11]:
from langchain_core.runnables import RunnableConfig
from typing import Optional

class KuBot:
    def __init__(self, workflow):
        self.workflow = workflow # 챗봇 실행에 사용할 워크플로우 객체 저장
        self.quit_commands = {'quit', 'q', 'exit', '종료'} # 종료 명령어 집합 정의

    def get_response(self, user_input1: str = '', user_input2: str = '', config: Optional[RunnableConfig] = None) -> str:
        option_dic = {'1': 'parenting_skill', '2': 'play_reco', '3': 'video_recommendation'}
        response = self.workflow.invoke({'video_url': user_input1, 'option': option_dic[user_input2]}, config)
        if option_dic[user_input2] == 'video_recommendation' and 'recommendation' in response:
            reco_list = response['recommendation']
            msg = "\n🎬 추천 영상 목록!\n"
            for i, rec in enumerate(reco_list, 1):
                msg += f"{i}. 제목: {rec['title']}\n   링크: {rec['link']}\n   추천 이유: {rec['reason']}\n"
            return msg
        else:
            return response['answer']

    def start(self):
        print('안녕하세요. 발달장애인을 위한 챗봇, 🤗"쿠봇"🤗입니다!')
        print('\n😆 시청하는 영상의 주소를 입력해주세요. 대화종료를 원하시면 "quit", "q", "exit", "종료" 중 하나를 입력해주세요.')
        question = input('\n>>> ')
        # 종료 명령어 입력 시 종료
        if question.lower() in self.quit_commands:
            print('감사합니다. 대화를 종료합니다. ')
            return
        while True:
            print('''
            \n❓ 다음 중 원하는 옵션을 선택해주세요,
1. 영상 내용과 관련한 양육기술 정보 받기
2. 영상 시청 후 아이와 할 놀이 추천받기
3. 추천 영상
(입력 양식 예: 1)
대화종료를 원하시면 "quit", "q", "exit", "종료" 중 하나를 입력해주세요.
            ''')
            option = input('\n>>> ')
            if option.lower() in self.quit_commands:
                print('감사합니다. 대화를 종료합니다. ')
                break

            response = self.get_response(question, option)

In [None]:
kubot = KuBot(workflow)
kubot.start()

안녕하세요. 발달장애인을 위한 챗봇, 🤗"쿠봇"🤗입니다!

😆 시청하는 영상의 주소를 입력해주세요. 대화종료를 원하시면 "quit", "q", "exit", "종료" 중 하나를 입력해주세요.



>>>  https://www.youtube.com/watch?v=ukykOIv4doE



            
❓ 다음 중 원하는 옵션을 선택해주세요, 
1. 영상 내용과 관련한 양육기술 정보 받기 
2. 영상 시청 후 아이와 할 놀이 추천받기 
(입력 양식 예: 1)
대화종료를 원하시면 "quit", "q", "exit", "종료" 중 하나를 입력해주세요.
            



>>>  1


VideoStartRouterNode Invoke: Passing state through: {'video_url': 'https://www.youtube.com/watch?v=ukykOIv4doE', 'documents': [], 'option': 'parenting_skill'}
VideoStartRouterNode: current_video_url=https://www.youtube.com/watch?v=ukykOIv4doE, last_processed_video_url=None, option=parenting_skill
새로운 영상이거나 요약본 없음. Video Summarizer 노드로 시작합니다.
🧩 영상 요약 중: 1/2
🧩 영상 요약 중: 2/2
Relevant documents: 2
📌 이 영상은 발달장애 아동이 손 씻기, 양치질, 몸 씻기 등 기본적인 위생 습관과 집안 환경 관리, 쓰레기 분리수거 방법을 쉽게 익힐 수 있도록 도와줍니다. 아래 질문과 답변은 영상에서 다룬 일상생활 속 위생 및 자기관리 활동을 실제로 가정에서 실천하고, 아이의 의사소통과 자립을 지원하는 데 도움이 될 수 있는 구체적인 방법을 안내합니다.

🙋‍♀️ 더 알고 싶어요!
1. ❓ Q: 발달장애 아동에게 일상적인 활동을 통해 의사소통을 가르치는 방법이 있을까요?

   💬 A:
     일상적인 활동을 통해 의사소통을 가르치기 위해서는, 융판이나 엄마 앞치마에 어린이집 사진(등원차량이나 교사의 얼굴 등 아동이 인식 가능한 것에
     찍찍이를 부착)을 엄마와 함께 붙이고 나서는 방법이 있습니다. 또한 식사나 물을 마시기 직전에는 항상 컵(사진이나 사물 상징)을 보이고
     상징판에 붙인 후 먹거나 마시도록 합니다. 절대로 허용할 수 없는 위험한 행동이 반복될 경우, '안 된다'는 의미의 같은 모양의 카드를
     항상 제시하고 끝까지 허용하지 않는 것이 중요합니다. 이 닦기, 기저귀 갈기, 화장실 용변보기, 잠옷 갈아입기 등 매일 반복되는
     일상에서 해당


>>>  2


VideoStartRouterNode Invoke: Passing state through: {'video_url': 'https://www.youtube.com/watch?v=ukykOIv4doE', 'documents': [], 'option': 'play_reco'}
VideoStartRouterNode: current_video_url=https://www.youtube.com/watch?v=ukykOIv4doE, last_processed_video_url=None, option=play_reco
새로운 영상이거나 요약본 없음. Video Summarizer 노드로 시작합니다.
🧩 영상 요약 중: 1/2
🧩 영상 요약 중: 2/2


KeyboardInterrupt: 

In [None]:
import textwrap

def extract_json_from_response_2(text: str) -> dict:
    try:
        # 가장 바깥쪽 중괄호 전체 추출 (greedy)
        json_string = re.search(r"\{[\s\S]+\}", text, re.DOTALL).group()
        return json.loads(json_string)
    except Exception as e:
        print(f"❌ JSON 추출 실패: {e}")
        return {}

def split_by_emoji_numbers(answer: str) -> list:
    # 이모지 넘버링을 기준으로 분할하되, 각 이모지와 텍스트를 묶어서 출력
    pattern = r'(1️⃣|2️⃣|3️⃣|4️⃣|5️⃣|6️⃣|7️⃣|8️⃣|9️⃣|🔟)'
    parts = re.split(pattern, answer)

    combined = []
    i = 1
    while i < len(parts):
        emoji = parts[i]
        text = parts[i+1] if i + 1 < len(parts) else ''
        combined.append(f"{emoji} {text.strip()}")
        i += 2
    return combined

parsed = extract_json_from_response_2(state['answer'])
# intro 먼저 출력
print(f'📌 {parsed['intro']}')
print()
print("🙋‍♀️ 더 알고 싶어요!")
for i, qna in enumerate(parsed["qna"], 1):
    print(f"{i}. ❓ Q: {qna['question']}\n")
    print("   💬 A:")

    # ▶ 이모지 넘버링이 포함된 항목은 줄바꿈해서 출력
    if '1️⃣' in qna['answer']:
        numbered_lines = split_by_emoji_numbers(qna['answer'])
        for line in numbered_lines:
            print(f"     {textwrap.fill(line, width=80, subsequent_indent='     ')}")
    else:
        print(f"     {textwrap.fill(qna['answer'], width=80, subsequent_indent='     ')}")

    print(f"\n   📚 출처: {qna['source']}")
    print("─" * 90)

📌 이 영상은 2-5세 아동들이 친구들과 함께 놀이를 하며 자신이 좋아하는 것과 사랑하는 사람에 대해 이야기하는 모습을 담고 있습니다. 이러한 경험은 아이들에게 친밀감과 사랑의 가치를 자연스럽게 전달하며, 놀이와 상호작용을 통해 발달을 촉진하는 데 중요한 역할을 합니다. 아래의 질문과 답변은 영상에서 다룬 놀이와 관계 형성, 그리고 발달장애 아동의 양육에 도움이 될 수 있는 실질적인 방법들을 안내합니다.

🙋‍♀️ 더 알고 싶어요!
1. ❓ Q: 아이의 언어발달을 촉진하기 위해 어떤 놀이를 하면 좋을까요?

   💬 A:
     말과 행동을 주고받아 주세요. 아이가 즐거운 상황에서 덧붙여진 말이 아이의 언어발달에 매우 촉진적입니다. 영유아들이 좋아하는 일상에서 반복하는
     모든 놀이가 언어발달 촉진적 놀이가 될 수 있습니다. 언어를 시범보일 때 아동이나 부모의 행동, 상황과 부모의 언어 시범의 타이밍을 잘
     맞추면 훨씬 효과적인 언어 촉진이 됩니다.

   📚 출처: 「장애영유아 양육 가이드북 2권 발달장애-양육기술」, 국립특수교육원, 챕터 2. 의사소통 / 1. 어휘 및 의사소통 발달 촉진, 38쪽
──────────────────────────────────────────────────────────────────────────────────────────
2. ❓ Q: 발달장애가 있는 아이와 어떻게 놀아주면 좋을까요?

   💬 A:
     까꿍놀이, 잡기놀이, 부엌세트 놀이 등 아이의 수준에 맞는 놀이를 함께 하며, 행동이 일어날 때마다 적절한 말을 덧붙여 들려주세요. 예를 들어,
     까꿍놀이에서는 “(아이 이름) 없네”, “어딨지?”, “까꿍”, “여깄네”와 같이 상황에 맞는 말을 사용하고, 잡기놀이에서는 “잡자”,
     “잡았다” 등으로 아이와 눈을 맞추며 대화해 주세요. 부엌세트 놀이에서는 “오이”, “잘라”, “잘랐다” 등 행동에 맞는 언어를
     반복적으로 들려주는 것이 좋습니다.

   📚 출처: 「장애영유아 양육