In [1]:
!pip install --quiet -U langchain langchain-openai
%pip install --quiet --upgrade langchain langchain-community langchain-chroma


Note: you may need to restart the kernel to use updated packages.


In [None]:
!pip install --quiet supabase

Collecting supabase
  Downloading supabase-2.6.0-py3-none-any.whl.metadata (9.3 kB)
Collecting gotrue<3.0,>=1.3 (from supabase)
  Downloading gotrue-2.9.2-py3-none-any.whl.metadata (6.0 kB)
Collecting postgrest<0.17.0,>=0.14 (from supabase)
  Downloading postgrest-0.16.11-py3-none-any.whl.metadata (5.1 kB)
Collecting realtime<2.0.0,>=1.0.0 (from supabase)
  Downloading realtime-1.0.6-py3-none-any.whl.metadata (2.6 kB)
Collecting storage3<0.8.0,>=0.5.3 (from supabase)
  Downloading storage3-0.7.7-py3-none-any.whl.metadata (1.9 kB)
Collecting supafunc<0.6.0,>=0.3.1 (from supabase)
  Downloading supafunc-0.5.1-py3-none-any.whl.metadata (1.2 kB)
Collecting deprecation<3.0.0,>=2.1.0 (from postgrest<0.17.0,>=0.14->supabase)
  Downloading deprecation-2.1.0-py2.py3-none-any.whl.metadata (4.6 kB)
Collecting strenum<0.5.0,>=0.4.9 (from postgrest<0.17.0,>=0.14->supabase)
  Downloading StrEnum-0.4.15-py3-none-any.whl.metadata (5.3 kB)
Collecting typing-extensions<5.0.0,>=4.12.2 (from realtime<2.0.

In [1]:
import os
from supabase import create_client, Client

openai_api_key = os.getenv("OPENAI_API_KEY_1010")
langchain_api_key = os.getenv("LANGCHAIN_API_KEY")

print(f"OpenAI API: {openai_api_key[:4]}********")
print(f"LangChain API Key: {langchain_api_key[:4]}********")

os.environ["OPENAI_API_KEY"] = openai_api_key
os.environ["LANGCHAIN_PROJECT"] = "tech4impact_1010"
os.environ["LANGCHAIN_API_KEY"] = langchain_api_key
os.environ["LANGCHAIN_TRACING_V2"] = "true"

SUPABASE_URL = os.getenv("NEXT_PUBLIC_SUPABASE_URL")
SUPABASE_KEY = os.getenv("NEXT_PUBLIC_SUPABASE_SERVICE_KEY")
supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)



OpenAI API: sk-p********
LangChain API Key: lsv2********


LangSmith Setup (LLM Logging)


In [2]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI()
llm.invoke("Hello, world!")

AIMessage(content='Hello! How can I assist you today?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 9, 'prompt_tokens': 11, 'total_tokens': 20, 'completion_tokens_details': {'audio_tokens': 0, 'reasoning_tokens': 0, 'accepted_prediction_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-e9d2ffe8-260d-469c-b3a0-abb51af9f481-0', usage_metadata={'input_tokens': 11, 'output_tokens': 9, 'total_tokens': 20})

Starts from now

In [3]:
import os
import json
import getpass
import logging 
# Set your OpenAI API key
#os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")
from langchain.docstore.document import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chat_models import ChatOpenAI

from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import RetrievalQA



In [4]:
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')


In [5]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

TAGS = [
    "고지혈증 약", "비타민", "스테로이드", "타이레놀",
    "프로바이오틱스", "오메가 3", "아르기닌", "유산균",
    "건선", "고지혈증", "감기", "탈모", "갱년기",
    "운동", "술자리", "식사 조절", "수면 패턴",
    "간 수치", "가족력", "영양제",
    "기타"  # "기타" means "Other"
]
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")  # Efficient embedding model
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)  # Chat-based LLM for tagging

MIN_LENGTH = 20

# Define Semantic Merging Function Using Embeddings
def merge_semantically(utterances, similarity_threshold=0.8):

    if not utterances:
        return []
    
    # Extract messages for embedding
    messages = [utt['msg'] for utt in utterances]
    
    # Retrieve embeddings using LangChain
    utterance_embeddings = embeddings.embed_documents(messages)
    
    merged = []
    current = utterances[0].copy()
    current_embedding = utterance_embeddings[0]
    
    for idx in range(1, len(utterances)):
        next_utt = utterances[idx]
        next_embedding = utterance_embeddings[idx]
        
        # Check if the speaker is the same
        if current['spk'] == next_utt['spk']:
            # Compute cosine similarity
            similarity = cosine_similarity(
                [current_embedding],
                [next_embedding]
            )[0][0]
            
            if similarity >= similarity_threshold:
                # Merge utterances if similarity threshold is met
                current['duration'] += next_utt['duration']
                current['msg'] += " " + next_utt['msg']
                # Optionally, update other metadata if needed
            else:
                # Add current utterance to merged list and reset
                merged.append(current)
                current = next_utt.copy()
                current_embedding = next_embedding
        else:
            # If speakers are different, add current to merged list and reset
            merged.append(current)
            current = next_utt.copy()
            current_embedding = next_embedding
    
    merged.append(current)
    return merged
def merge_short_utterances(merged_utterances, min_length=MIN_LENGTH):
    if not merged_utterances:
        return []
    
    adjusted_utterances = []
    current = merged_utterances[0].copy()
    
    for next_utt in merged_utterances[1:]:
        # Count words or characters in the next utterance
        word_count = len(next_utt['msg'].split())
        
        if word_count < min_length:
            # If the next utterance is too short, merge it with the current one
            current['duration'] += next_utt['duration']
            current['msg'] += " " + next_utt['msg']
        else:
            # Append the current utterance if it meets the minimum length
            adjusted_utterances.append(current)
            current = next_utt.copy()
    
    # Add the last segment
    adjusted_utterances.append(current)
    return adjusted_utterances


# Define Tagging Function Using LangChain's ChatOpenAI
from typing import List


def semantic_tag_utterances_batch(
    merged_utterances: List[dict],
    tags_list: List[str],
    batch_size: int = 5,
    window_size: int = 1
) -> List[dict]:
    """
    Assigns semantic tags to merged utterances using LangChain's LLMChain in batches.
    Each utterance can have multiple tags or none (defaults to '기타').
    
    Args:
        merged_utterances (List[dict]): List of merged utterance dictionaries.
        tags_list (List[str]): List of predefined tags.
        batch_size (int, optional): Number of utterances to process in one batch. Defaults to 5.
        window_size (int, optional): Number of previous and next utterances to include as context. Defaults to 1.
    
    Returns:
        List[dict]: List of merged utterance dictionaries with assigned tags.
    """
    def clean_ai_response(response: str) -> str:
        """
        Cleans the AI response by removing code block markers if present.

        Args:
            response (str): The raw response from the AI.

        Returns:
            str: The cleaned JSON string.
        """
        # Remove triple backticks and language specifier if present
        if response.startswith("```") and "json" in response:
            response = response.strip("```json").strip("```").strip()
        elif response.startswith("```") and "json" not in response:
            response = response.strip("```").strip()
        return response

    tagged_utterances = []
    total = len(merged_utterances)
    tags_str = ", ".join(tags_list[:-1]) + ", 기타"
        
    llm = ChatOpenAI(model_name="gpt-4o", temperature=0)  # Adjust model and parameters as needed
    prompt_template = """
    You are an AI assistant that assigns relevant tags to conversation fragments based on the provided list of tags.
    Each fragment can have multiple tags or none. If no tags apply, assign '기타'.
    Return the results as a JSON array where each element contains the 'fragment_id' and a list of assigned 'tags'.

    Example Response:
    [
        {{"fragment_id": 0, "tags": ["비타민", "운동"]}},
        {{"fragment_id": 1, "tags": ["기타"]}}
    ]

    Tags List:
    {tags_str}

    Conversation Context:
    {chat_history}

    Fragments to Tag:
    {fragments}

    Provide the assigned tags in JSON format as shown in the example.
    """

    # Create a PromptTemplate
    template = PromptTemplate(
        input_variables=["tags_str", "chat_history", "fragments"],
        template=prompt_template
    )


    # Create the LLMChain with the prompt and memory
    chain = LLMChain(
        llm=llm,
        prompt=template,
    )
    for i in range(0, total, batch_size):
        batch = merged_utterances[i:i+batch_size]
        
        # Determine the context window for the entire batch
        context_start = max(0, i - window_size)
        context_end = min(total, i + batch_size + window_size)
        context_utterances = merged_utterances[context_start:context_end]

        # Construct the conversation context
        conversation_context = ""
        for utt in context_utterances:
            speaker = f"Speaker {utt['spk']}"
            message = utt['msg']
            conversation_context += f"{speaker}: {message}\n"

        # Prepare fragments to tag with unique fragment_ids
        fragments_info = []
        for idx, utt in enumerate(batch):
            fragment_id = i + idx  # Unique identifier across the entire list
            fragments_info.append({
                "fragment_id": fragment_id,
                "fragment": utt['msg']
            })

        # Convert fragments_info to a JSON string for the prompt
        fragments_json = json.dumps([
            {"fragment_id": frag['fragment_id'], "fragment": frag['fragment']}
            for frag in fragments_info
        ], ensure_ascii=False, indent=4)

        # Prepare the prompt variables
        prompt_variables = {
            "tags_str": tags_str,
            "chat_history": conversation_context,
            "fragments": fragments_json
        }

        # Generate the prompt using the PromptTemplate
        prompt = template.format(**prompt_variables)

        try:
            # Run the LLMChain with the prompt
            response = chain.run(tags_str=tags_str, chat_history=conversation_context, fragments=fragments_json)
            
            # Parse the JSON response
            cleaned_response = clean_ai_response(response)
            tags_json = json.loads(cleaned_response)
            
            # Create a mapping from fragment_id to tags
            tags_mapping = {item['fragment_id']: item.get('tags', ["기타"]) for item in tags_json}
            
            for frag in fragments_info:
                assigned_tags = tags_mapping.get(frag['fragment_id'], ["기타"])
                # Ensure tags are valid
                valid_tags = [tag for tag in assigned_tags if tag in tags_list]
                if not valid_tags:
                    valid_tags = ["기타"]
                # Assign tags to the corresponding utterance
                utt = merged_utterances[frag['fragment_id']]
                utt['tags'] = valid_tags
                tagged_utterances.append(utt)
        
        except json.JSONDecodeError as parse_error:
            logging.error(f"Error decoding JSON response: {parse_error}")
            logging.error(f"AI Response: {response}")
            # Assign '기타' to all fragments in the batch in case of parse error
            for frag in fragments_info:
                utt = merged_utterances[frag['fragment_id']]
                utt['tags'] = ["기타"]
                tagged_utterances.append(utt)
        
        except Exception as e:
            logging.error(f"Error during semantic tagging: {e}")
            # Assign '기타' to all fragments in the batch in case of API call failure
            for frag in fragments_info:
                utt = merged_utterances[frag['fragment_id']]
                utt['tags'] = ["기타"]
                tagged_utterances.append(utt)

    return tagged_utterances

  embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")  # Efficient embedding model
  llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)  # Chat-based LLM for tagging


In [6]:

with open('../transcription.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

utterances = data['utterances']
merged_utterances = merge_semantically(utterances, similarity_threshold=0.81)
merged_utterances_short_removed =  merge_short_utterances(merged_utterances, min_length=MIN_LENGTH)
from datetime import datetime  
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
filename = f"merged_utterances_{timestamp}.json"

# Save the `tagged_utterances` to a local JSON file
with open(filename, 'w', encoding='utf-8') as f:
    json.dump(merged_utterances_short_removed, f, ensure_ascii=False, indent=4)

        # Step 2: Tagging Merged Utterances in Batches
        


2024-11-15 17:58:27,382 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


In [7]:
def ms_to_minutes_seconds_str(milliseconds):
    seconds = milliseconds // 1000  # 총 초
    minutes = seconds // 60  # 분 계산
    remaining_seconds = seconds % 60  # 남은 초 계산
    return f"{minutes}분 {remaining_seconds}초"  # 출력 형식

# 파일 
n = 3941239

# 발화를 Document 객체로 생성
filtered_documents = [
    Document(
        page_content=utterance['msg'],
        metadata={
            'start_at': utterance['start_at'],
            'duration': utterance['duration'],
            'speaker': utterance['spk'],
            'speaker_type': utterance['spk_type']
        }
    )
    for utterance in merged_utterances_short_removed if utterance['start_at'] > n
]
logging.info(f"총 {len(filtered_documents)}개의 문서 생성.")

# 시작 시간 기준으로 정렬
documents = sorted(filtered_documents, key=lambda doc: doc.metadata['start_at'])


2024-11-15 17:58:30,793 - INFO - 총 80개의 문서 생성.


In [8]:
full_text = ''
for doc in documents:
    start_time_str = ms_to_minutes_seconds_str(doc.metadata['start_at'])
    full_text += f"[{start_time_str}] {doc.page_content}\n"


# 언어 모델 초기화 # mini 버전 써보기
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)



# 임베딩 및 벡터스토어 초기화
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(documents, embeddings, persist_directory=None)

# 리트리버 
retriever = vectorstore.as_retriever(search_kwargs={"k": 5})


2024-11-15 17:58:32,173 - INFO - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.
2024-11-15 17:58:33,525 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


In [9]:
import re
# 역할 지정해서 돌려보기
#role description
#확정은 결과물 가지고 펠로우님이랑 이야기
#chunk 늘려보기..
prompt = """
        당신은 전문적인 상담 세션을 분석하고 요약하는 AI입니다. 아래 상담 세션의 전체 스크립트를 주제별로 시간 순서에 따라 요약해 주세요. 다음 지침을 반드시 따르세요:
        
        1. 각 시간 구간은 **하나의 주요 질문** 또는 **하나의 주요 조언**으로 구성합니다. 하나의 구간에 여러 주제가 섞이지 않도록 주의해 주세요.
        2. 각 주제에 대해 시작 시간과 종료 시간을 명시합니다. 시작 시간은 해당 주제가 스크립트에서 처음 등장한 시점, 종료 시간은 마지막으로 등장한 시점을 기준으로 합니다.
        3. 각 요약은 다음 형식 중 **하나**로 작성합니다:
           - 질문인 경우: **Q.**으로 시작하여 질문 내용을 요약합니다.
           - 행동 변경이 필요한 경우: **[바꾸세요]**로 시작하여 변경이 필요한 행동을 요약합니다.
           - 권장 사항인 경우: **[이렇게 하세요]**로 시작하여 권장 사항을 요약합니다.
        4. 스크립트에는 의약 관련, 생활 습관 등이 아닌 상담과 관련 없는 대화 내용이 일부 포함되어 있습니다. 그런 경우, 주제 산정에서 제외해주세요.


        **답변 예시:**
        **0분 42초 ~ 3분 15초**
        - Q. 오메가3 가 정말 유익한 거 맞나요?
        
        **5분 0초 ~ 7분 30초**
        - [바꾸세요] 당뇨 약은 중단하지 마세요.
        
        **10분 15초 ~ 12분 45초**
        - [이렇게 하세요] 약 복용을 지속하세요.
        
        **스크립트:**
        {text}
        
        **요약:**
"""

human_prompt = PromptTemplate(
    input_variables=[],
    template="요약:"
)


rag_chain = RetrievalQA.from_chain_type(
            llm=llm,
            chain_type="stuff",  # 또는 "map_reduce" 등 필요에 따라 변경 가능
            retriever=retriever,
            return_source_documents=True
        )

# 전체 스크립트 요약 
response = rag_chain({"query": prompt.format(text=full_text)})
session_summary = response["result"]
source_documents = response["source_documents"]

print("=== Session Summary ===")
print(session_summary)
# print("\n=== Source Documents ===")
# for doc in source_documents:
#     print(f"Source: {doc.page_content}\n")


  response = rag_chain({"query": prompt.format(text=full_text)})
2024-11-15 17:58:35,946 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:48,847 - INFO - HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


=== Session Summary ===
**65분 51초 ~ 66분 36초**
- Q. 고지혈증 약을 끊었는데 영양제를 먹어야 할까요?

**66분 36초 ~ 67분 51초**
- [이렇게 하세요] 간 수치가 높다면 병원에서의 조언을 따르고, 간에 무리가 가지 않는 영양제를 선택하세요.

**67분 51초 ~ 68분 52초**
- [이렇게 하세요] 건선 약을 복용할 때 간 수치에 주의하고, 필요시 약을 중단하세요.

**69분 1초 ~ 69분 26초**
- [이렇게 하세요] 피로감이 있다면 건강식품을 섭취해도 좋습니다.

**69분 54초 ~ 70분 21초**
- Q. 감기약은 약국에서 사는 것과 병원에서 처방받는 것 중 어느 것이 나을까요?

**71분 5초 ~ 71분 41초**
- [이렇게 하세요] 감기 증상이 시작될 때 비타민을 섭취하여 면역력을 높이세요.

**72분 8초 ~ 72분 44초**
- [바꾸세요] 종합 감기약 대신 증상에 맞는 약을 선택하세요.

**73분 27초 ~ 74분 2초**
- [이렇게 하세요] 목이 아플 때는 타이레놀을 복용하세요.

**77분 7초 ~ 79분 5초**
- Q. 일본에서 받은 영양제를 계속 먹어도 되나요?

**79분 5초 ~ 80분 24초**
- [이렇게 하세요] 유산균은 여러 종류를 함께 먹어도 무방합니다.

**83분 19초 ~ 84분 10초**
- [이렇게 하세요] 고지혈증 약을 중단했다면 피검사를 통해 상태를 확인하세요.

**84분 44초 ~ 87분 26초**
- [이렇게 하세요] 다양한 영양제를 섭취할 때 겹치지 않도록 주의하고, 항산화제에 집중하세요.

**87분 57초 ~ 88분 34초**
- [이렇게 하세요] 고지혈증 약을 오래 복용했다면 코엔자임 Q10을 보충하세요.

**89분 10초 ~ 89분 30초**
- [이렇게 하세요] 저녁 식사를 간단히 하고, 늦은 시간에는 식사를 피하세요.

**91분 30초 ~ 92분 50초**
- [이렇게 하세요] 저녁에 탄수화물 섭취를 줄이고, 고기나 채소

In [10]:
# 출력 파싱, 주제와 시간 정보 추출
subtopics = re.findall(r'\*\*(\d+분 \d+초) ~ (\d+분 \d+초)\*\*\n- (.+?)(?=\n\*\*\d+분|\Z)', session_summary, re.DOTALL)

print(subtopics)


[('65분 51초', '66분 36초', 'Q. 고지혈증 약을 끊었는데 영양제를 먹어야 할까요?\n'), ('66분 36초', '67분 51초', '[이렇게 하세요] 간 수치가 높다면 병원에서의 조언을 따르고, 간에 무리가 가지 않는 영양제를 선택하세요.\n'), ('67분 51초', '68분 52초', '[이렇게 하세요] 건선 약을 복용할 때 간 수치에 주의하고, 필요시 약을 중단하세요.\n'), ('69분 1초', '69분 26초', '[이렇게 하세요] 피로감이 있다면 건강식품을 섭취해도 좋습니다.\n'), ('69분 54초', '70분 21초', 'Q. 감기약은 약국에서 사는 것과 병원에서 처방받는 것 중 어느 것이 나을까요?\n'), ('71분 5초', '71분 41초', '[이렇게 하세요] 감기 증상이 시작될 때 비타민을 섭취하여 면역력을 높이세요.\n'), ('72분 8초', '72분 44초', '[바꾸세요] 종합 감기약 대신 증상에 맞는 약을 선택하세요.\n'), ('73분 27초', '74분 2초', '[이렇게 하세요] 목이 아플 때는 타이레놀을 복용하세요.\n'), ('77분 7초', '79분 5초', 'Q. 일본에서 받은 영양제를 계속 먹어도 되나요?\n'), ('79분 5초', '80분 24초', '[이렇게 하세요] 유산균은 여러 종류를 함께 먹어도 무방합니다.\n'), ('83분 19초', '84분 10초', '[이렇게 하세요] 고지혈증 약을 중단했다면 피검사를 통해 상태를 확인하세요.\n'), ('84분 44초', '87분 26초', '[이렇게 하세요] 다양한 영양제를 섭취할 때 겹치지 않도록 주의하고, 항산화제에 집중하세요.\n'), ('87분 57초', '88분 34초', '[이렇게 하세요] 고지혈증 약을 오래 복용했다면 코엔자임 Q10을 보충하세요.\n'), ('89분 10초', '89분 30초', '[이렇게 하세요] 저녁 식사를 간단히 하고, 늦은 시간에는 식사를 피하세요.\n'), ('91분 30초', '92분 50초', '[

In [11]:
def time_str_to_ms(time_str):
    match = re.match(r'(\d+)분 (\d+)초', time_str)
    if match:
        minutes = int(match.group(1))
        seconds = int(match.group(2))
        return (minutes * 60 + seconds) * 1000
    else:
        logging.warning(f"시간 형식이 일치하지 않습니다: {time_str}")
        return 0
    
json_results = []
        
        # 주제별 루프 처리
for idx, (start_time_str, end_time_str, content) in enumerate(subtopics, 1):
    subtopic = content.strip()
    start_time_ms = time_str_to_ms(start_time_str)
    end_time_ms = time_str_to_ms(end_time_str)
    
    # 해당 시간 범위 내에서 retrieve
    retrieved_docs = retriever.get_relevant_documents(subtopic)
    
    relevant_docs = [
        doc for doc in retrieved_docs
        if start_time_ms <= doc.metadata['start_at'] <= end_time_ms
    ]
    
    # 관련 스크립트 생성
    related_scripts = [
        {
            "time": ms_to_minutes_seconds_str(doc.metadata['start_at']),
            "content": doc.page_content
        } for doc in relevant_docs
    ]
    
    # 주제별 데이터를 딕셔너리로 저장
    json_result = {
        "topic_id": idx,
        "start_time": start_time_str,
        "end_time": end_time_str,
        "content": subtopic,
        "related_scripts": related_scripts
    }
    json_results.append(json_result)
print(json_results)

  retrieved_docs = retriever.get_relevant_documents(subtopic)
2024-11-15 17:58:49,390 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:49,953 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:50,647 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:50,944 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:51,372 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:51,917 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:52,403 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:52,704 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2024-11-15 17:58:53,368 - INFO - HTTP Request: POST https://api.openai.com/v1/embe

[{'topic_id': 1, 'start_time': '65분 51초', 'end_time': '66분 36초', 'content': 'Q. 고지혈증 약을 끊었는데 영양제를 먹어야 할까요?', 'related_scripts': [{'time': '65분 51초', 'content': '선생님이 발갱곤 선생시거나 아니, 이게 해보니까 시간이 되게 촉박해서 여기 메일 적어주시면 제가 끝나고 좀 정리해서 좀 더 드리려고요. 예, 보내주신 거는 미리 읽어보고 아는데요, 고지혈증 약만 드시고 계신 거죠.'}, {'time': '66분 16초', 'content': '예, 근데 그것도 끊긴 했거든요. 당연히 끊는데 그 내과에서 안 먹었으면 좋겠다, 다른 그래갖고. 그때 비타민 이널 같은 것도 먹었는데 와이프가 챙겨줘서. 그때부터 이제 끊었는데 지금아주고 나이가 더 먹어가면서 기력도 없는 거 해서 그런 것도 영양제를 먹어야 되나 하거든요.'}]}, {'topic_id': 2, 'start_time': '66분 36초', 'end_time': '67분 51초', 'content': '[이렇게 하세요] 간 수치가 높다면 병원에서의 조언을 따르고, 간에 무리가 가지 않는 영양제를 선택하세요.', 'related_scripts': [{'time': '66분 36초', 'content': '근데 어떻게 해야 될지 모르겠어요. 왜 그런지 뭐 하면 간 수치가 항상 좀 높게 나와가지고 될 수 있으면. 병원에서 안 먹었으면 좋겠다는 그렇게 얘기를 하는데 지금도 계속 관리는 하고 있는데 어떻게 해야 될지 해가지고. 간수체가 최근에도 높았나요? 예, 아주 높은 건 아닙니다. 항 경고등에.'}]}, {'topic_id': 3, 'start_time': '67분 51초', 'end_time': '68분 52초', 'content': '[이렇게 하세요] 건선 약을 복용할 때 간 수치에 주의하고, 필요시 약을 중단하세요.', 'related_scripts': [{'time': '67분 51초', 

In [12]:
print(json_results[0])

{'topic_id': 1, 'start_time': '65분 51초', 'end_time': '66분 36초', 'content': 'Q. 고지혈증 약을 끊었는데 영양제를 먹어야 할까요?', 'related_scripts': [{'time': '65분 51초', 'content': '선생님이 발갱곤 선생시거나 아니, 이게 해보니까 시간이 되게 촉박해서 여기 메일 적어주시면 제가 끝나고 좀 정리해서 좀 더 드리려고요. 예, 보내주신 거는 미리 읽어보고 아는데요, 고지혈증 약만 드시고 계신 거죠.'}, {'time': '66분 16초', 'content': '예, 근데 그것도 끊긴 했거든요. 당연히 끊는데 그 내과에서 안 먹었으면 좋겠다, 다른 그래갖고. 그때 비타민 이널 같은 것도 먹었는데 와이프가 챙겨줘서. 그때부터 이제 끊었는데 지금아주고 나이가 더 먹어가면서 기력도 없는 거 해서 그런 것도 영양제를 먹어야 되나 하거든요.'}]}


In [13]:
output_filename = 'rag_topic_result.json'

# Write json_results to a JSON file
with open(output_filename, 'w', encoding='utf-8') as f:
    json.dump(json_results, f, ensure_ascii=False, indent=4)

print(f"JSON results saved to {output_filename}")

JSON results saved to rag_topic_result.json


Next steps:

to create docker and upload to lambda,
 docker buildx use mybuilder2
docker buildx build --platform linux/amd64 --load -t tenten_ai_topic .
docker tag tenten_ai_topic:latest 820604767531.dkr.ecr.ap-northeast-2.amazonaws.com/tenten_ai_topic:latest
docker push 820604767531.dkr.ecr.ap-northeast-2.amazonaws.com/tenten_ai_topic:latest

In [None]:
If you use docker buildx, make sure to reuse the builder instance rather than creating a new one every time:
bash
Copy code
# Create the builder only once
docker buildx create --use --name mybuilder
Then, you can use the existing builder for subsequent builds:
bash
Copy code
docker buildx use mybuilder
docker buildx build --platform linux/amd64 --load -t tenten_ai_topic .
