In [1]:
from dotenv import load_dotenv
import os

In [2]:
load_dotenv()
os.environ['LANGSMITH_PROJECT']  ="skn15-1"

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI()
llm.invoke("Hello, world!")

AIMessage(content='Hello there! How can I assist you today?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 11, 'total_tokens': 21, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C0iBFcZnLiqZqztgpCyordN128rw4', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--f8bcc258-71ca-4adb-b589-ac9bccf0eb41-0', usage_metadata={'input_tokens': 11, 'output_tokens': 10, 'total_tokens': 21, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [4]:
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path="./data/아리계곡_통합.csv")
docs = loader.load()

In [5]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

embedding = OpenAIEmbeddings()
db = Chroma.from_documents(docs, embedding = embedding)

In [6]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

In [7]:
prompt = ChatPromptTemplate.from_template('''\
다음 문맥만을 고려해 질문에 답하세요.


문맥: """
{context}
"""


질문: {question}
''')

In [8]:
model = ChatOpenAI(model="gpt-4o-mini", temperature=0)

retriever = db.as_retriever()

chain = {
    "question": RunnablePassthrough(),
    "context": retriever,
} | prompt | model | StrOutputParser()


output = chain.invoke("가게 분위기는 어떤가?")

In [9]:
import pprint

pprint.pprint(output)

('가게 분위기는 전반적으로 좋다고 평가되고 있습니다. 여러 리뷰에서 "분위기 완전 좋고", "분위기도 좋고", "분위기가 좋아요!"와 같은 '
 '긍정적인 표현이 사용되었습니다. 또한, 매장 디자인도 괜찮고 도란도란 얘기하기 좋은 환경이라는 언급도 있습니다.')


In [10]:
from pydantic import BaseModel, Field

class QueryGenerationOutput(BaseModel):
    queries: list[str] = Field(..., description="검색 쿼리 목록")


query_generation_prompt = ChatPromptTemplate.from_template("""\
질문에 대해 벡터 데이터베이스에서 관련 문서를 검색하기 위한
3개의 서로 다른 검색 쿼리를 생성하세요.
거리 기반 유사성 검색의 한계를 극복하기 위해
사용자의 질문에 대해 여러 관점을 제공하는 것이 목표입니다.


질문: {question}
""")

In [11]:
query_generation_chain = (
    query_generation_prompt
    | model.with_structured_output(QueryGenerationOutput)
    | (lambda x: x.queries)
)

In [13]:
multi_query_rag_chain = {   "question" : RunnablePassthrough(),
    'context': query_generation_chain | retriever.map(),
} | prompt | model | StrOutputParser()

In [14]:
multi_query_rag_chain.invoke("주위사람에게 추천할 의사는?")

'주위 사람에게 추천할 의사는 여러 리뷰에서 긍정적인 반응을 보인 종각점과 한양대점에서 높습니다. 종각점은 여러 리뷰어들이 친절한 직원과 맛있는 안주, 좋은 분위기를 언급하며 재방문 의사를 밝히고 있습니다. 한양대점 또한 깔끔하고 맛있는 안주로 재방문 의사가 있다는 리뷰가 있습니다. 따라서 이 두 지점을 추천할 만한 가치가 있습니다.'

In [15]:
from langchain_core.documents import Document

def reciprocal_rank_fusion( retriever_outputs: list[list[Document]],  k: int = 60 ) -> list[str]:
    # 각 문서의 콘텐츠(문자열)와 그 점수의 매핑을 저장하는 딕셔너리 준비
    content_score_mapping = {}


    # 검색 쿼리마다 반복
    for docs in retriever_outputs:
        # 검색 결과의 문서마다 반복
        for rank, doc in enumerate(docs):
            content = doc.page_content


            # 처음 등장한 콘텐츠인 경우 점수를 0으로 초기화
            if content not in content_score_mapping:
                content_score_mapping[content] = 0


            # (1 / (순위 + k)) 점수를 추가
            content_score_mapping[content] += 1 / (rank + k)


    # 점수가 큰 순서로 정렬
    ranked = sorted(content_score_mapping.items(), key=lambda x: x[1], reverse=True)  # noqa
    return [content for content, _ in ranked]

In [16]:
rag_fusion_chain = {
    "question": RunnablePassthrough(),
    "context": query_generation_chain | retriever.map() | reciprocal_rank_fusion,
} | prompt | model | StrOutputParser()

In [17]:
rag_fusion_chain.invoke("가게 분위기는?")

'가게 분위기는 전반적으로 좋고 쾌적하며, 인테리어가 예쁘고 고급스러운 느낌을 주는 곳이 많습니다. 여러 리뷰에서 분위기가 좋다는 언급이 있으며, 대화하기 좋은 환경이라는 평가도 있습니다.'

---

In [18]:
from langchain_community.retrievers import TavilySearchAPIRetriever

In [19]:
langchain_document_retriever = retriever.with_config({'run_name' : 'langchain_document_retriver'})
web_retriever = TavilySearchAPIRetriever(k=10).with_config({'run_name' : 'web_retriver'})

In [21]:
from enum import Enum

class Route(str, Enum):
    langchain_document = 'langchain_document'
    web = "web"

class RouteOutput(BaseModel):
    route: Route

In [22]:
route_prompt  =  ChatPromptTemplate.from_template("""  
질문에 답변하기 위한 적절한 Retriever를 선택하세요.


질문: {question}
""")

In [23]:
route_chain = (
    route_prompt | model.with_structured_output(RouteOutput)
    | (lambda x : x.route)
)

In [24]:
def routed_retriever(inp):
    question = inp['question']
    route = inp['route']


    if route == Route.langchain_document:
        return langchain_document_retriever.invoke(question)
    elif route == Route.web:
        return web_retriever.invoke(question)


    raise ValueError(f"Unkown route: {route}")

In [25]:
route_rag_chain = ({
    'question' : RunnablePassthrough(),
    "route" : route_chain
}
| RunnablePassthrough.assign(context=routed_retriever)
| prompt | model | StrOutputParser())

In [26]:
route_rag_chain.invoke("아리계곡 마감 시간은?")

'아리계곡의 마감 시간은 지점에 따라 다릅니다. 종각점의 경우, 금요일과 토요일은 03:00에 마감하며, 일요일부터 목요일까지는 02:00에 마감합니다. 강남점은 매일 01:00에 마감합니다.'

---

In [29]:
import re
import requests
from bs4 import BeautifulSoup

In [30]:
p = re.compile("'([0-9]+)'")

In [31]:
def get_ticker(company):
    text_url = "https://dart.fss.or.kr/dsae001/search.ax"
    payload = {
    "startDate": "",     "endDate": "",
    "currentPage": 1,     "maxResults": 45,
    "maxLinks": 10,     "sort": "",
    "series": "",     "selectKey": "",
    "searchIndex": "",     "textCrpCik": "",
    "autoSearch": True,     "businessCode": "all",
    "bsnRgsNo": "",     "bsnRgsNo_1": "",
    "bsnRgsNo_2": "",     "bsnRgsNo_3": "",
    "crpRgsNo": "",     "textCrpNm": company,
    "corporationType": "all"
    }
    r = requests.post(text_url, data=payload)
    bs = BeautifulSoup(r.text)
    result = {x.text.strip():p.findall(x['href'])[0] for x in bs.find_all('a')[:-1]}
    return result[company]

In [32]:
get_ticker("삼성전자")

'00126380'

In [33]:
def get_statement(company, company_code, start_date, end_date):
    data = {
    "currentPage": 1,     "maxResults": 15,
    "maxLinks": 10,     "sort": "date",
    "series": "desc",     "textCrpCik": company_code,
    "lateKeyword": "",    "keyword": "",     "reportNamePopYn": "",
    "textkeyword": "",     "businessCode": "all",     "autoSearch": "N",
    "option": "corp",
    "textCrpNm": company,
    "reportName": "",    "tocSrch": "",
    "textPresenterNm": "",
    "startDate": start_date,
    "endDate":  end_date,
    "decadeType": "",    "finalReport": "recent",    "businessNm": "전체",
    "corporationType": "all",    "closingAccountsMonth": "all",
    "reportName2": "",    "tocSrch2": "",
    "publicType": [
        "A001", "A002", "A003", "A005", "A004",
        "B001", "B002", "B003",
        "C001", "C002", "C003", "C004", "C005", "C006", "C007", "C008", "C009", "C010", "C011",
        "D001", "D004", "D003", "D002", "D005",
        "E001", "E002", "E003", "E004", "E005", "E006", "E007", "E008", "E009",
        "F001", "F002", "F003", "F004", "F005",
        "G001", "G002", "G003",
        "H001", "H002", "H003", "H004", "H005", "H006"
        ]
    }
    url = "https://dart.fss.or.kr/dsab007/detailSearch.ax"
    return requests.post(url, data=data).text

In [34]:
rt = get_statement("삼성전자", "00126380", "20240101" , '20250731')

In [35]:
from langchain.agents import AgentType, initialize_agent, load_tools, Tool
from langchain.chat_models import ChatOpenAI
from langchain.tools import BaseTool

from pydantic import BaseModel, Field

In [36]:
class GetStatementInput(BaseModel):
    company: str = Field(..., description='회사 이름')
    company_code: str = Field(..., description='회사 코드')
    start_date: str = Field(..., description="YYYYMMDD 형식의 시작 날짜")
    end_date: str = Field(..., description="YYYYMMDD 형식의 종료 날짜")

In [37]:
from typing import Optional, Type

class GetStatementTool(BaseTool):
    name: str = 'GetStatementTool'            
    description: str = '기업의 공시 자료를 가져옵니다.'
   
    args_schema: Type[BaseModel] = GetStatementInput


    def _run(self, company, company_code, start_date, end_date):
        return get_statement(company=company, company_code=company_code, start_date=start_date, end_date=end_date)

In [38]:
class GetTickerTool(BaseTool):
    name: str = 'GetTickerTool'                
    description: str = 'Dart에서 사용하는 기업의 code 리턴 '


    def _run(self, company):
        return get_ticker(company=company)

In [39]:
tools = [GetTickerTool(), GetStatementTool()]
chat = ChatOpenAI(model = 'gpt-4o-2024-08-06')
agent = initialize_agent(
    tools,
    chat,
    agent=AgentType.OPENAI_FUNCTIONS,
    verbose=True
)


  chat = ChatOpenAI(model = 'gpt-4o-2024-08-06')
  agent = initialize_agent(


In [40]:
result = agent.run("당신은 지금부터 애널리스트입니다. LG전자의 20240101부터 20241231까지 공시 정보를 활용해서 분석 리포트를 자세히 작성할 것. 그리고 투자 의견에 대한 내용도 결론에 넣을 것")

  result = agent.run("당신은 지금부터 애널리스트입니다. LG전자의 20240101부터 20241231까지 공시 정보를 활용해서 분석 리포트를 자세히 작성할 것. 그리고 투자 의견에 대한 내용도 결론에 넣을 것")




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `GetTickerTool` with `{'company': 'LG전자'}`


[0m[36;1m[1;3m00401731[0m[32;1m[1;3m
Invoking: `GetStatementTool` with `{'company': 'LG전자', 'company_code': '00401731', 'start_date': '20240101', 'end_date': '20241231'}`


[0m[33;1m[1;3m










<div class="tbListInner" >
<table class="tbList" summary="공시서류검색에 대한 번호, 공시대상회사, 보고서명, 제출인, 접수일자, 비고 등을 알리는 표입니다.">
	<caption>공시서류검색 목록</caption>
	<colgroup id="colgropup">
		<col style="width:6%">
		<col style="width:20%">
		<col style="width:auto">
		
		<col style="width:13%">
		<col style="width:11%">
		<col style="width:8%">
		
	</colgroup>
	<thead >
		<tr id="tr">
			<th scope="row"><label for="inpSample00">번호</label></th>
			<th scope="row"><label for="inpSample00">공시대상회사</label></th>
			<th scope="row"><label for="inpSample00">보고서명</label></th>
			
			<th scope="row"><label for="inpSample00">제출인</label></th>
			<th scope="row"><label for="inpSample00">접수일자</lab