# .env 파일 환경변수 사용

In [1]:
from dotenv import load_dotenv
import os
from langchain_openai import ChatOpenAI

In [2]:
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

In [3]:
# 기본 모델 객체 생성
llm = ChatOpenAI(api_key=openai_api_key)

# invoke 메서드 안에 메세지 삽입
output = llm.invoke("2024년 청년 지원 정책에 대해서 알려줘")

In [7]:
# 템플릿 기반 사용방법
# role과 message 설정
from langchain_core.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "너는 청년을 행복하게 하기 위한 정부정책 안내 컨설턴트야."),
        ("user", "{input}")
    ]
)

In [8]:
chain = prompt | llm # 프롬프트와 llm을 연결하는 파이썬 문법, 파이프연산자(|) 사용

In [11]:
chain

ChatPromptTemplate(input_variables=['input'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='너는 청년을 행복하게 하기 위한 정부정책 안내 컨설턴트야.')), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['input'], template='{input}'))])
| ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x000002201575D210>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x000002201575E920>, openai_api_key=SecretStr('**********'), openai_proxy='')

In [12]:
# input 자리에 들어갈 내용
chain.invoke({"input":"2024년 청년 지원 정책에 대해서 알려줘"})

AIMessage(content='2024년 청년을 지원하기 위한 정부 정책에는 다양한 측면이 포함될 수 있습니다. 예를 들어, 아래와 같은 정책들이 시행될 수 있을 것입니다:\n\n1. 청년 고용 촉진 정책: 청년 실업률을 줄이기 위해 청년을 취업시키기 위한 정책이 강화될 것입니다. 이를 위해 청년들에게 적합한 직업교육 및 훈련 프로그램을 지원하고, 기업에게 청년을 고용할 경우 혜택을 제공할 수 있습니다.\n\n2. 주택 안정 정책: 주택가격 상승으로 인한 청년들의 주거 불안 문제를 해결하기 위해, 저렴한 주택 공급 확대나 청년들에게 주택 구매를 돕는 프로그램을 시행할 수 있습니다.\n\n3. 교육 지원 정책: 청년들의 교육비 부담을 줄이기 위해 장학금 지원 확대, 교육 로보어 등을 통한 교육 기회 확대 등의 정책이 시행될 수 있습니다.\n\n4. 청년 창업 지원 정책: 청년 창업을 촉진하기 위해 창업자금 지원, 창업 교육 프로그램 제공, 벤처기업 지원 등의 정책이 강화될 수 있습니다.\n\n이 외에도 청년들의 경제적, 사회적 안정을 위한 다양한 정책이 시행될 것이며, 이를 통해 청년들의 행복과 발전을 지원할 것으로 기대됩니다.', response_metadata={'finish_reason': 'stop', 'logprobs': None})

## 파싱하기

In [13]:
# llm 모델의 결과물을 string으로 변환하기 위한 메서드 : StrOutputParser
from langchain_core.output_parsers import StrOutputParser
output_parser = StrOutputParser()

In [14]:
chain = prompt | llm | output_parser # 체인의 이름처럼 각각의 이름을 모듈화해서 모듈을 연결한다
# prompt 값이 들어오는 형태
# llm 은 모델이 표준화된 형태
# output_parser 값을 끊어서

In [15]:
# 위의 chain과 달리 StrOutputParser을 사용하여 문자열로 출력한 것을 볼 수 있다
chain.invoke({"input":"2024년 청년 지원 정책에 대해서 알려줘"})

'2024년 청년을 지원하기 위한 정부 정책은 아직 발표되지 않았습니다. 하지만 일반적으로 청년을 지원하는 정책은 다음과 같은 내용을 포함할 수 있습니다:\n\n1. 일자리 창출: 청년들을 위한 취업 기회를 확대하고, 신규 일자리를 창출하는 정책을 시행할 수 있습니다. 특히 청년 실업 문제 해결을 위한 프로그램을 강화할 수 있습니다.\n\n2. 교육 및 직업훈련 지원: 교육 및 직업훈련을 통해 청년들의 경제적 능력을 향상시키고, 취업 기회를 높일 수 있는 프로그램을 지원할 수 있습니다.\n\n3. 주거 지원: 청년들의 주거 문제를 해결하기 위해 저렴한 주거 시설을 제공하거나 주거 보조금을 지원하는 정책을 시행할 수 있습니다.\n\n4. 스타트업 지원: 청년 창업가들을 지원하여 새로운 기업을 창업하고 성장할 수 있도록 장려하는 프로그램을 운영할 수 있습니다.\n\n5. 사회적 경제 참여 촉진: 봉사활동, 사회적 기업 등을 통해 청년들이 사회에 더 많이 참여할 수 있도록 지원하는 정책을 시행할 수 있습니다.\n\n이러한 정책들을 통해 청년들의 경제적 안정과 성장을 지원하는데 도움이 될 수 있습니다. 실제로 2024년에 발표될 정부의 정책은 더 다양하고 구체적일 수 있으니 관련 소식을 주시되 참고하시면 좋을 것 같습니다.'

## 검색하기

In [16]:
# 크롤링과 연결하기
# 웹사이트 정보를 주고 받아와서 나의 질문에 응답을 하도록 함
# 특정 도메인에 대한 챗봇을 구성할 때, 도메인의 정보가 수시로 업데이트 될 때 사용한다
# chatgpt는 제한된 데이터를 가지고 있다. 따라서 이러한 문제점을 해결하기 위해 사용한다
from langchain_community.document_loaders import WebBaseLoader
import beautifulsoup4 
loader = WebBaseLoader("https://www.moel.go.kr/policy/policyinfo/support/list4.do")
loader

<langchain_community.document_loaders.web_base.WebBaseLoader at 0x22015a736d0>

In [19]:
docs = loader.load() # 값을 읽어옴

In [20]:
docs

[Document(page_content='\n\n\n\n\n\n\n\n\n\n\n내일을 위한 고용노동부 - 고용노동부가 밝은 미래를 열어드립니다\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n반복영역 건너뛰기\n주메뉴 바로가기\n본문 바로가기\n\n\n\n\n이 누리집은 대한민국 공식 전자정부 누리집입니다.\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n고용노동부\n\n통합검색 열기\n\n\n\n추천\n\n\n\n\n검색 내역 삭제하기\n\n검색하기\n\n\n\n\n\n내가 찾은 검색어\n\n\n최근 검색어가 없습니다.\n\n\n인기 검색어\n\n\n\n\n닫기\n\n통합검색 닫기\n\n\n\n누리집 안내지도\n국가상징 알아보기\n\n\n\n\n\n\n\n\n홈으로\n\n\n\n영문 홈페이지\n누리집 안내지도\n\n\n\n\n민원\n\n\n이용안내\n\n민원신청\n\n신고센터\n\n나의민원\n\n지방청/고용센터찾기\n\n자주하는 질문\n\n\n\n국민참여\n\n\n정부포상 365일 추천창구\n\n규제혁신\n\n규제혁신과제\n규제혁신성과\n규제혁신제안\n규제입증요청\n\n\n정책참여\n\n칭찬합시다\n\n안전신문고\n\n적극행정\n\n제도소개\n국민참여\n적극행정 자료실\n\n\n크리에이터 협업\n\n\n\n뉴스·소식\n\n\n보도자료\n\n언론보도설명\n\n공지사항\n\n홍보자료\n\n홍보동영상\n카드뉴스\n월간내일(기관지)\n뉴스레터\n\n\n\n\n정보공개\n\n\n사전정보 공표목록\n\n행정정보공개\n\n정보공개안내\n정보목록\n업무추진비공개\n공무국외출장\n상품권 구매ㆍ사용내역\n\n\n정책실명제\n\n정책실명제 안내\n중점관리 대상사업\n\n\n청렴정책공개\n\n반부패청렴자료\n청탁금지법 상담 및 조치\n감사결과\n부패행위현황\n\n\n공공데이터개방\n\n공공데이터 포털\n행정해석(질의회시)\n주요발간자료\n\n\n체불사업

## 임베딩

In [18]:
# 전체 내용을 넣지 않고 왜 임베딩 같은 복잡한 기술을 쓸까?
# 위에 docs 내용을 넣어줘도 우리가 원하는 답을 구할 수 있다
# 비즈니스 적으로 접근하면 하지만 불필요한 내용이 많다! 따라서 랭체인에서 임베딩을 고안한 것아다
# 크롤링을 해오면 불필요한 내용이 많다 -> 토큰 증가 -> 비용 시간 증가

from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

In [21]:
# faiss-cpu?
# 벡터간의 유사도... 페이스북에서 만든..
# 임베딩?
# 임베딩이란 현실세계를 컴퓨터가 이해할 수 있도록 벡터로 표현하는 것

from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter


text_splitter = RecursiveCharacterTextSplitter()
documents = text_splitter.split_documents(docs)
# FAISS 클래스를 사용하여 문서들을 벡터화, documents는 분할된 텍스트, embeddings는 해당 문서들을 임베딩한 결과
# 이를 통해 FAISS를 사용하여 문서 간의 유사도를 계산하거나 검색할 수 있다
vector = FAISS.from_documents(documents, embeddings)

In [22]:
vector

<langchain_community.vectorstores.faiss.FAISS at 0x220180fe020>

In [23]:
#  주어진 문맥과 모델을 바탕으로 문서 체인을 생성 : create_stuff_documents_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

# 프롬프트의 template 지정
prompt = ChatPromptTemplate.from_template("""Answer the following question based only on the provided context:

<context>
{context}
</context>

Question: {input}""")

document_chain = create_stuff_documents_chain(llm, prompt)

In [24]:
# 바로 Docs 내용을 반영도 가능하다
from langchain_core.documents import Document

document_chain.invoke({
    "input": "국민취업지원제도가 뭐야",
    "context": [Document(page_content="""국민취업지원제도란?

취업을 원하는 사람에게 취업지원서비스를 일괄적으로 제공하고 저소득 구직자에게는 최소한의 소득도 지원하는 한국형 실업부조입니다. 2024년부터 15~69세 저소득층, 청년 등 취업취약계층에게 맞춤형 취업지원서비스와 소득지원을 함께 제공합니다.
[출처] 2024년 달라지는 청년 지원 정책을 확인하세요.|작성자 정부24""")]
})

'국민취업지원제도는 취업을 원하는 사람에게 취업지원서비스를 일괄적으로 제공하고 저소득 구직자에게는 최소한의 소득도 지원하는 한국형 실업부조입니다.'

In [25]:
# 벡터 검색기와 문서 체인을 결합하여 검색 체인을 생성 : create_retrieval_chain
from langchain.chains import create_retrieval_chain

# 이전에 생성된 벡터 객체인 vector를 검색기 객체로 변환. 이를 통해 문서 간의 유사도를 계산하고 검색을 수행할 수 있는 기능을 활용할 수 있게 된다
retriever = vector.as_retriever()
# retriever는 벡터 검색을 수행할 수 있는 객체이며, document_chain은 문서 체인
# 검색 체인은 이 두 가지를 결합하여 문서를 검색하고 관련 정보를 추출하는 데 사용
retrieval_chain = create_retrieval_chain(retriever, document_chain)

In [26]:
# 크롤링한 사이트를 기반으로 응답을 한다
response = retrieval_chain.invoke({"input": "국민취업지원제도가 뭐야"})
print(response["answer"])

국민취업지원제도는 저소득 구직자 및 취업 취약계층을 대상으로 통합적인 취업지원 서비스와 생계지원을 제공하는 제도입니다. 이를 통해 구직활동과 생활안정을 지원하고 있습니다.


In [27]:
response = retrieval_chain.invoke({"input": "취업성공수당은 얼마야?"})
print(response["answer"])

취업성공수당은 최대 150만원입니다.


In [28]:
response = retrieval_chain.invoke({"input": "상담센터 전화번호 뭐야"})
print(response["answer"])

고용노동부 고객상담센터 전화번호는 1350입니다.
