In [16]:
#!pip install langchain_community

In [15]:
#!pip install pymupdf

In [14]:
#!pip install faiss-cpu

In [None]:
#!pip install python-docx markdown

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

In [27]:
import pandas as pd
import openai

# 1. API 키 읽기
def load_api_key(file_path):
    with open(file_path, 'r') as file:
        return file.read().strip()

# 2. API 키 설정
api_key = load_api_key("api_key.txt")
openai.api_key = api_key
tavily_key = load_api_key("tavily_api.txt")

In [28]:
import os

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_PROJECT"] = "LangChain_frist"
os.environ["LANGCHAIN_API_KEY"] = "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"
os.environ['TAVILY_API_KEY'] = tavily_key

In [29]:
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("Report-Agent-Projects")

LangSmith 추적을 시작합니다.
[프로젝트명]
Report-Agent-Projects


In [30]:
path = os.getcwd()
path

'C:\\Users\\b1005\\langchain\\langchain_prompt'

In [31]:
from langchain_community.tools.tavily_search import TavilySearchResults

# TavilySearchResults 클래스의 인스턴스를 생성합니다
# k=6은 검색 결과를 6개까지
search = TavilySearchResults(k=6)

In [32]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain.document_loaders import PyMuPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyMuPDFLoader("./SPRI_AI_Brief_2023년12월호_F.pdf")

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

split_docs = loader.load_and_split(text_splitter)
vector = FAISS.from_documents(split_docs, OpenAIEmbeddings())

retriever = vector.as_retriever()

In [33]:
from langchain.tools.retriever import create_retriever_tool
from langchain_core.prompts import PromptTemplate

# 문서의 내용을 표시하는 템플릿을 정의합니다.
document_prompt = PromptTemplate.from_template(
    "<document><content>{page_content}</content><page>{page}</page><filename>{source}</filename></document>"
)

# retriever 를 도구로 정의합니다.
retriever_tool = create_retriever_tool(
    retriever,
    name="pdf_search",
    description="use this tool to search for information in the PDF file",
    document_prompt=document_prompt,
)

# DallE 이미지 생성도구 불러오기

In [34]:
from langchain_community.utilities.dalle_image_generator import DallEAPIWrapper
from langchain.tools import tool

# DallE API Wrapper를 생성합니다.
dalle = DallEAPIWrapper(model="dall-e-3", size="1024x1024", quality="standard", n=1)


# DallE API Wrapper를 도구로 정의합니다.
@tool
def dalle_tool(query):
    """use this tool to generate image from text"""
    return dalle.run(query)

In [35]:
from langchain_community.agent_toolkits import FileManagementToolkit

# 작업 디렉토리 경로 설정
working_directory = "tmp"

# 파일 관리 도구 생성(파일 쓰기, 읽기, 디렉토리 목록 조회)
file_tools = FileManagementToolkit(
    root_dir=str(working_directory),
    selected_tools=["write_file", "read_file", "list_directory"],
).get_tools()

# 생성된 파일 관리 도구 출력
file_tools

[WriteFileTool(root_dir='tmp'),
 ReadFileTool(root_dir='tmp'),
 ListDirectoryTool(root_dir='tmp')]

In [36]:
tools = file_tools + [retriever_tool, search, dalle_tool,]

In [39]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_openai import ChatOpenAI
from langchain_teddynote.messages import AgentStreamParser

# session_id 를 저장할 딕셔너리 생성
store = {}

# 프롬프트 생성
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are a helpful assistant. "
            "You are a professional researcher. "
            "You can use the pdf_search tool to search for information in the PDF file. "
            "You can find further information by using search tool. "
            "You can use image generation tool to generate image from text. "
            "Finally, you can use file management tool to save your research result into files.",
        ),
        ("placeholder", "{chat_history}"),
        ("human", "{input}"),
        ("placeholder", "{agent_scratchpad}"),
    ]
)

# LLM 생성
llm = ChatOpenAI(model="gpt-4o")

# Agent 생성
agent = create_tool_calling_agent(llm, tools, prompt)

In [40]:
# AgentExecutor 생성
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=False,
    handle_parsing_errors=True,
)

In [41]:
# session_id 를 기반으로 세션 기록을 가져오는 함수
def get_session_history(session_ids):
    if session_ids not in store:  # session_id 가 store에 없는 경우
        # 새로운 ChatMessageHistory 객체를 생성하여 store에 저장
        store[session_ids] = ChatMessageHistory()
    return store[session_ids]  # 해당 세션 ID에 대한 세션 기록 반환

# 채팅 메시지 기록이 추가된 에이전트를 생성합니다.
agent_with_chat_history = RunnableWithMessageHistory(
    agent_executor,
    # 대화 session_id
    get_session_history,
    # 프롬프트의 질문이 입력되는 key: "input"
    input_messages_key="input",
    # 프롬프트의 메시지가 입력되는 key: "chat_history"
    history_messages_key="chat_history",
)

# 스트림 파서 생성
agent_stream_parser = AgentStreamParser()

In [42]:
result = agent_with_chat_history.stream(
    {
        "input": "삼성전자가 개발한 `생성형 AI` 와 관련된 유용한 정보들을 PDF 문서에서 찾아서 bullet point로 정리해 주세요. "
        "한글로 작성해주세요."
        "다음으로는 `report.md` 파일을 새롭게 생성하여 정리한 내용을 저장해주세요. \n\n"
        "#작성방법: \n"
        "1. markdown header 2 크기로 적절한 제목을 작성하세요. \n"
        "2. 발췌한 PDF 문서의 페이지 번호, 파일명을 기입하세요(예시: page 10, filename.pdf). \n"
        "3. 정리된 bullet point를 작성하세요. \n"
        "4. 작성이 완료되면 파일을 `report.md` 에 저장하세요. \n"
        "5. 마지막으로 저장한 `report.md` 파일을 읽어서 출력해 주세요. \n"
    },
    config={"configurable": {"session_id": "abc123"}},
)

print("Agent 실행 결과:")
for step in result:
    agent_stream_parser.process_agent_steps(step)

Agent 실행 결과:
[도구 호출]
Tool: pdf_search
query: 생성형 AI 삼성전자
Log: 
Invoking: `pdf_search` with `{'query': '생성형 AI 삼성전자'}`



[관찰 내용]
Observation: <document><content>SPRi AI Brief |  
2023-12월호
10
삼성전자, 자체 개발 생성 AI ‘삼성 가우스’ 공개
n 삼성전자가 온디바이스에서 작동 가능하며 언어, 코드, 이미지의 3개 모델로 구성된 자체 개발 생성 
AI 모델 ‘삼성 가우스’를 공개
n 삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획으로, 온디바이스 작동이 가능한 
삼성 가우스는 외부로 사용자 정보가 유출될 위험이 없다는 장점을 보유
KEY Contents
£ 언어, 코드, 이미지의 3개 모델로 구성된 삼성 가우스, 온디바이스 작동 지원
n 삼성전자가 2023년 11월 8일 열린 ‘삼성 AI 포럼 2023’ 행사에서 자체 개발한 생성 AI 모델 
‘삼성 가우스’를 최초 공개
∙정규분포 이론을 정립한 천재 수학자 가우스(Gauss)의 이름을 본뜬 삼성 가우스는 다양한 상황에 
최적화된 크기의 모델 선택이 가능
∙삼성 가우스는 라이선스나 개인정보를 침해하지 않는 안전한 데이터를 통해 학습되었으며, 
온디바이스에서 작동하도록 설계되어 외부로 사용자의 정보가 유출되지 않는 장점을 보유
∙삼성전자는 삼성 가우스를 활용한 온디바이스 AI 기술도 소개했으며, 생성 AI 모델을 다양한 제품에 
단계적으로 탑재할 계획
n 삼성 가우스는 △텍스트를 생성하는 언어모델 △코드를 생성하는 코드 모델 △이미지를 생성하는 
이미지 모델의 3개 모델로 구성
∙언어 모델은 클라우드와 온디바이스 대상 다양한 모델로 구성되며, 메일 작성, 문서 요약, 번역 업무의 
처리를 지원
∙코드 모델 기반의 AI 코딩 어시스턴트 ‘코드아이(code.i)’는 대화형 인터페이스로 서비스를 제공하며 
사내 소프트웨어 개발에 최적화
∙이미지 모델은 창

## 웹 검색을 활용한 보고서 파일

In [43]:
result = agent_with_chat_history.stream(
    {
        "input": "이번에는 삼성전자가 개발한 `생성형 AI` 와 관련된 정보들을 웹 검색하고, 검색한 결과를 정리해 주세요. "
        "한글로 작성해주세요."
        "다음으로는 `report.md` 파일을 열어서 기존의 내용을 읽고, 웹 검색하여 찾은 정보를 이전에 작성한 형식에 맞춰 뒷 부분에 추가해 주세요. \n\n"
        "#작성방법: \n"
        "1. markdown header 2 크기로 적절한 제목을 작성하세요. \n"
        "2. 정보의 출처(url)를 기입하세요(예시: 출처: 네이버 지식백과). \n"
        "3. 정리된 웹검색 내용을 작성하세요. \n"
        "4. 작성이 완료되면 파일을 `report.md` 에 저장하세요. \n"
        "5. 마지막으로 저장한 `report.md` 파일을 읽어서 출력해 주세요. \n"
    },
    config={"configurable": {"session_id": "abc123"}},
)

print("Agent 실행 결과:")
for step in result:
    agent_stream_parser.process_agent_steps(step)

Agent 실행 결과:
[도구 호출]
Tool: tavily_search_results_json
query: 삼성전자 생성형 AI 개발
Log: 
Invoking: `tavily_search_results_json` with `{'query': '삼성전자 생성형 AI 개발'}`



[관찰 내용]
Observation: [{'url': 'https://www.yna.co.kr/view/AKR20231108041400003', 'content': "삼성전자[005930]가 자체 개발한 생성형 인공지능(AI) 모델 '삼성 가우스'(Samsung Gauss)가 처음 공개됐다. 삼성전자는 삼성 가우스를 활용해 임직원의 업무 생산성을 높이는 한편, 생성형 AI 모델을 단계적으로 제품에 탑재해 새로운 사용자 경험을 제공한다는 계획이다."}, {'url': 'https://zdnet.co.kr/view/?no=20241121083205', 'content': '또한 "삼성전자 고유의 생성형 AI 모델인 \'삼성 가우스2\'를 공개하고, 향상된 성능과 효율, 그리고 활용 방안에 대해 설명할 예정"이라며 "이를 통해 업무 생산성 향상과 단계적 제품 적용으로 더욱 편리하고 차별화된 고객 경험을 제공할 것"이라고 말했다. 삼성전자는 키노트 발표에서 지난해 처음 공개한 생성형 AI 모델 \'삼성 가우스1(Samsung Gauss1)\'의 후속 모델인 \'삼성 가우스2(Samsung Gauss2)\'를 공개했다. 실제로 \'삼성 가우스\'는 이런 맞춤형 개발의 장점을 살려 직원들의 다양한 업무에서 활용되고 있다. 삼성 가우스 포탈(Samsung Gauss Portal)은 \'삼성 가우스\'의 대화형 AI 서비스로 ▲문서 요약 ▲번역 ▲메일 작성 등 DX부문 직원들의 다양한 사무 업무를 빠르고 효율적으로 처리할 수 있도록 지원하고 있다. 삼성전자는 향후 \'삼성 가우스2\'를 통해 \'코드아이(code.i)\'서비스의 지속적인 성능 개선, \'삼성 가우스 포탈(Samsung Gauss

In [44]:
# 보고서 작성을 요청합니다.
result = agent_with_chat_history.stream(
    {
        "input": "`report.md` 파일을 열어서 안의 내용을 출력하세요. "
        "출력된 내용을 바탕으로, 전문적인 수준의 보고서를 작성하세요. "
        "보고서는 총 3개의 섹션으로 구성되어야 합니다:\n"
        "1. 개요: 보고서 abstract 를 300자 내외로 작성하세요.\n"
        "2. 핵심내용: 보고서의 핵심 내용을 작성하세요. 정리된 표를 markdown 형식으로 작성하여 추가하세요. "
        "3. 최종결론: 보고서의 최종 결론을 작성하세요. 출처(파일명, url 등)을 표시하세요."
        "마지막으로 작성된 결과물을 `report-2.md` 파일에 저장하세요."
    },
    config={"configurable": {"session_id": "abc123"}},
)

print("Agent 실행 결과:")
for step in result:
    agent_stream_parser.process_agent_steps(step)

Agent 실행 결과:
[도구 호출]
Tool: read_file
file_path: report.md
Log: 
Invoking: `read_file` with `{'file_path': 'report.md'}`



[관찰 내용]
Observation: ## 삼성전자의 생성형 AI '삼성 가우스'

- 출처: page 12, SPRI_AI_Brief_2023년12월호_F.pdf

- 삼성전자가 자체 개발한 생성 AI 모델 '삼성 가우스'는 온디바이스에서 작동하며, 언어, 코드, 이미지의 3개 모델로 구성되어 있음.
- 삼성 가우스는 외부로 사용자 정보가 유출될 위험이 없다는 장점을 보유.
- 2023년 11월 8일 '삼성 AI 포럼 2023'에서 최초 공개됨.
- 다양한 제품에 단계적으로 탑재할 계획이며, 안전한 데이터를 통해 학습됨.
- 언어 모델은 메일 작성, 문서 요약, 번역 업무를 지원하며, 코드 모델은 AI 코딩 어시스턴트 '코드아이(code.i)'로서 대화형 인터페이스로 사내 소프트웨어 개발에 최적화됨.
- 이미지 모델은 창의적인 이미지 생성 및 고해상도 전환을 지원.
- 2024년부터 삼성 스마트폰에 탑재가 예상되며 구글과 퀄컴의 기기와 경쟁할 것으로 기대됨.## 삼성전자의 생성형 AI '삼성 가우스 온라인 정보'

- 출처: [연합뉴스](https://www.yna.co.kr/view/AKR20231108041400003)
  - 삼성전자는 생성형 AI 모델 '삼성 가우스'를 공개하여 임직원의 업무 생산성을 향상시키고, 새로운 사용자 경험을 제공할 계획을 발표함.
  - 단계적으로 다양한 제품에 AI를 탑재할 계획임.

- 출처: [ZDNet Korea](https://zdnet.co.kr/view/?no=20241121083205)
  - '삼성 가우스2'가 발표되었으며, 향상된 성능과 차별화된 고객 경험을 제공할 예정.
  - '삼성 가우스 포탈'을 통해 문서 요약, 번역, 메일 작성 등 다양한 사무업무 지원.
  - 코드아이 서비스 개선

In [45]:
# 이미지 생성을 요청합니다.
result = agent_with_chat_history.stream(
    {
        "input": "`report-2.md` 파일을 열어서 안의 내용을 출력하세요. "
        "출력된 내용에 어울리는 이미지를 생성하세요. "
        "생성한 이미지의 url 을 markdown 형식으로 보고서의 가장 상단에 추가하세요. "
        "마지막으로 작성된 결과물을 `report-3.md` 파일에 저장하세요."
    },
    config={"configurable": {"session_id": "abc123"}},
)

print("Agent 실행 결과:")
for step in result:
    agent_stream_parser.process_agent_steps(step)

Agent 실행 결과:
[도구 호출]
Tool: read_file
file_path: report-2.md
Log: 
Invoking: `read_file` with `{'file_path': 'report-2.md'}`



[관찰 내용]
Observation: # 보고서

## 개요
삼성전자는 자체 개발한 생성형 AI 모델 '삼성 가우스'를 통해 온디바이스 환경에서 작동하는 안전하고 효율적인 AI 솔루션을 선보였습니다. 이 AI 모델은 언어, 코드, 이미지의 세 가지 주요 영역에서 활용되며, 특히 사용자의 개인정보를 보호하는 데 중점을 두고 있습니다. 삼성은 '삼성 AI 포럼 2023'에서 이 모델을 처음 공개하였으며, 이를 다양한 제품에 단계적으로 탑재할 계획입니다. 본 보고서는 해당 모델의 특징, 활용 사례, 그리고 경쟁력에 대해 상세히 분석합니다.

## 핵심내용

### 삼성 가우스의 특징 및 활용
| 기능 영역 | 상세 설명 |
|-----------|-----------|
| 언어 모델 | 메일 작성, 문서 요약, 번역 기능 지원 |
| 코드 모델 | AI 코딩 어시스턴트 '코드아이(code.i)', 사내 소프트웨어 개발 지원 |
| 이미지 모델 | 창의적 이미지 생성, 고해상도 전환 지원 |

삼성 가우스는 PDF 자료에 따르면, 외부 유출 위험이 적고, 온디바이스에서 운영되어 사용자 정보 보호를 강화합니다. 온라인 정보 출처에 따르면, '삼성 가우스2'가 발표되면서 더욱 향상된 성능과 사용자 경험을 제공합니다. 삼성전자는 단계적으로 더 많은 제품에 이 AI를 통합하여 임직원의 업무 생산성을 높이고, 새로운 사용자 경험을 제공할 계획입니다.

## 최종결론
삼성전자의 생성형 AI '삼성 가우스'는 정보 보호와 사용자 중심의 기능을 강조하며, 경쟁사 제품과의 차별화를 통해 시장에서의 우위를 점할 것으로 기대됩니다. 다양한 기능과 편의성을 갖춘 이 AI 모델은 앞으로 삼성 제품의 가치를 높이는 핵심 요소가 될 것입니다. 

출처:
- SPRI_AI

In [51]:
from docx import Document
from docx.shared import Pt
from docx.enum.text import WD_ALIGN_PARAGRAPH
from bs4 import BeautifulSoup
import markdown

# Markdown 파일 경로
md_file_path = "./tmp/report-3.md"

# Word 파일 경로
docx_file_path = "./agent_report.docx"

# Markdown 파일 읽기
with open(md_file_path, "r", encoding="utf-8") as file:
    md_content = file.read()

# Markdown 내용을 HTML로 변환
html_content = markdown.markdown(md_content)

doc = Document()
soup = BeautifulSoup(html_content, 'html.parser')

# HTML 내용 처리
for element in soup:
    if element.name == 'h1':
        # 제목 1 스타일
        paragraph = doc.add_heading(level=1)
        paragraph.text = element.text

    elif element.name == 'h2':
        # 제목 2 스타일
        paragraph = doc.add_heading(level=2)
        paragraph.text = element.text

    elif element.name == 'h3':
        # 제목 3 스타일
        paragraph = doc.add_heading(level=3)
        paragraph.text = element.text

    elif element.name == 'p':
        # 일반 문단 처리
        paragraph = doc.add_paragraph(element.text)
        paragraph.style.font.size = Pt(12)  # 글자 크기 설정
        paragraph.alignment = WD_ALIGN_PARAGRAPH.LEFT  # 정렬 설정

    elif element.name == 'img':
        # 이미지 처리 (src 경로에 이미지 파일이 있어야 작동)
        img_src = element.get('src', None)
        if img_src and img_src != 'IMAGE_URL':  # 실제 경로가 있을 경우
            try:
                doc.add_picture(img_src, width=Pt(300))  # 이미지 추가
            except FileNotFoundError:
                doc.add_paragraph("[이미지: 경로를 찾을 수 없음]")

    elif element.name == 'a':
        # 하이퍼링크 처리
        link_text = element.text
        link_url = element.get('href', '#')
        paragraph = doc.add_paragraph()
        run = paragraph.add_run(link_text)
        run.font.underline = True  # 밑줄
        run.font.color.rgb = (0, 0, 255)  # 파란색
        paragraph.add_run(f" ({link_url})")  # URL 추가

# Word 파일 저장
doc.save(docx_file_path)

print(f"Word 파일이 '{docx_file_path}'에 저장되었습니다.")

Word 파일이 './agent_report.docx'에 저장되었습니다.


In [None]:
#table 처리
for element in soup:
    if element.name == 'h1':
        doc.add_heading(element.text, level=1)
    elif element.name == 'h2':
        doc.add_heading(element.text, level=2)
    elif element.name == 'h3':
        doc.add_heading(element.text, level=3)
    elif element.name == 'table':
        # 테이블 처리
        rows = element.find_all('tr')  # 모든 행 가져오기
        if rows:
            # Word 문서에 테이블 추가
            table = doc.add_table(rows=len(rows), cols=len(rows[0].find_all(['th', 'td'])))
            table.style = 'Table Grid'

            for i, row in enumerate(rows):
                cells = row.find_all(['th', 'td'])
                for j, cell in enumerate(cells):
                    # 셀에 텍스트 추가
                    table.cell(i, j).text = cell.text.strip()

# Word 파일 저장
file_path = "report_with_table.docx"
doc.save(file_path)

print(f"Word 파일이 '{file_path}'에 저장되었습니다.")