In [1]:
from dotenv import load_dotenv
load_dotenv()

True

# LLM

In [25]:
from langchain_community.llms import Ollama
llm = Ollama(model="llama3")
llm.invoke("Tell me 3 red flower names.")

'Here are three red flower names:\n\n1. Rose\n2. Tulip\n3. Poppy'

In [28]:
from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
llm = ChatGoogleGenerativeAI(model="gemini-1.5-pro")
llm.invoke("Tell me 3 red flower names.")

AIMessage(content='Here are 3 red flower names:\n\n* **Rose** \n* **Poppy**\n* **Tulip** \n', response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'safety_ratings': [{'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_HATE_SPEECH', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_HARASSMENT', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_DANGEROUS_CONTENT', 'probability': 'NEGLIGIBLE', 'blocked': False}]}, id='run-f6080eae-1117-45c3-b303-589239f01f85-0', usage_metadata={'input_tokens': 9, 'output_tokens': 25, 'total_tokens': 34})

In [29]:
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
llm = ChatOpenAI(model="gpt-4o-mini")
llm.invoke("Tell me 3 red flower names.")

AIMessage(content='Sure! Here are three red flower names:\n\n1. **Red Rose (Rosa spp.)**\n2. **Poppy (Papaver spp.)**\n3. **Amaryllis (Hippeastrum spp.)**\n\nLet me know if you need more information about any of these flowers!', response_metadata={'token_usage': {'completion_tokens': 59, 'prompt_tokens': 15, 'total_tokens': 74}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_661538dc1f', 'finish_reason': 'stop', 'logprobs': None}, id='run-a992acfb-603c-4390-ab6e-8015f2afba8b-0', usage_metadata={'input_tokens': 15, 'output_tokens': 59, 'total_tokens': 74})

In [30]:
from langchain_core.messages import HumanMessage, SystemMessage

messages = [
    SystemMessage(content="Translate the following form English into Korean"),
    HumanMessage(content="hi"),
]

llm.invoke(messages)

AIMessage(content='안녕하세요', response_metadata={'token_usage': {'completion_tokens': 2, 'prompt_tokens': 19, 'total_tokens': 21}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_661538dc1f', 'finish_reason': 'stop', 'logprobs': None}, id='run-9c068156-aa4e-4041-9476-f9d826c4a6c0-0', usage_metadata={'input_tokens': 19, 'output_tokens': 2, 'total_tokens': 21})

In [32]:
# Output Parser
from langchain_core.output_parsers import StrOutputParser
output_parser = StrOutputParser()
result = llm.invoke(messages)
output_parser.invoke(result)

'안녕하세요'

# Prompt Template

In [33]:
from langchain_core.prompts import ChatPromptTemplate, PromptTemplate

In [34]:
template = "Translate the following into {language}:"

In [35]:
prompt_template = ChatPromptTemplate.from_messages(
    [("system", template), ("user", "{text}")]
)

In [36]:
result = prompt_template.invoke({"language":"korean", "text":"hi"})
result

ChatPromptValue(messages=[SystemMessage(content='Translate the following into korean:'), HumanMessage(content='hi')])

In [37]:
result.to_messages()

[SystemMessage(content='Translate the following into korean:'),
 HumanMessage(content='hi')]

# Vector Store

In [2]:
from langchain_community.document_loaders import CSVLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain_community.vectorstores import Chroma, FAISS


In [4]:
docs = CSVLoader("test_10row.csv", encoding="cp949")
docs = docs.load()

In [6]:
text_splitter = CharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=0
)
documents = text_splitter.split_documents(docs)

In [21]:
embedding = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")

vector_store = Chroma.from_documents(documents, embedding)
retriever = vector_store.as_retriever()
query = "코오롱 수소 벨류체인 플랫폼"
retriever.invoke(query)

[Document(page_content='date: 2022.7.6 16:27\ncategory: economy\npress: 데일리안\ntitle: 코오롱 수소 밸류체인 플랫폼 구축… 생산부터 발전까지 원스톱\ndocument: ‘코오롱 H2 플랫폼’ 밸류체인 플랫폼 발표 계열사간 역량 결집과 동시에 대외 파트너십 구축 6일 동대문 DDP에서 열린 코리아 H2서밋 인베스터데이에 참석한 코오롱인더스트리 장희구 사장 왼쪽에서 네번째 ⓒ코오롱그룹 데일리안 조인영 기자 코오롱그룹이 수소산업의 밸류체인 전반을 고도화하는 플랫폼 구축에 나선다. 코오롱그룹은 6일 동대문 디자인플라자에서 열린 ‘코리아 H2 비즈니스 서밋 2022 인베스터데이’에 참가해 코오롱인더스트리와 코오롱글로벌 코오롱글로텍 코오롱플라스틱 등 그룹이 보유한 첨단기술을 바탕으로 수소 생산부터 운송 저장 발전사업까지 아우르는 코오롱 H2 플랫폼을 구축한다고 밝혔다. 코오롱인더스트리 장희구 사장은 국내외 수소산업 관련 투자자들을 대상으로 ‘코오롱 H2 플랫폼’의 산업적 가치와 의미를 설명하고 그룹의 역량을 집중하겠다고 발표했다. 최근 세계적인 탄소중립 기조에 발맞춰 수소로 대표되는 청정에너지 사업을 그룹의 지속 가능한 미래를 만들 수 있는 핵심 사업으로 성장시키겠다는 전략이다. 코오롱그룹은 수소연료전지를 중심으로 전개해 온 사업 분야를 확대 재편해 청정수소 생산부터 운송과 저장 이를 이용한 전력생산까지 원스톱 서비스가 가능한 플랫폼을 마련해 나간다. 수소 생산분야는 국내 풍력발전 시장을 선도하고 있는 코오롱글로벌과 협업해 진행한다. 풍력발전은 특성상 야간 및 유휴전력이 발생하게 되는데 이를 활용해 물을 전기 분해하는 수전해방식으로 청정수소를 생산할 예정이다. 경주와 태백 풍력단지를 비롯해 현재 추진 중인 완도 해상풍력단지에 이르기까지 수소생산을 위한 중요한 기반 시설로 활용할 계획이다. 코오롱인더스트리의 수분제어장치 및 전해질 분리막 기술 PEM MEA 이 국내에서 선두를 달리고 있고 상용화도 가능해 사업

In [23]:
print(retriever.invoke(query)[0].page_content)

date: 2022.7.6 16:27
category: economy
press: 데일리안
title: 코오롱 수소 밸류체인 플랫폼 구축… 생산부터 발전까지 원스톱
document: ‘코오롱 H2 플랫폼’ 밸류체인 플랫폼 발표 계열사간 역량 결집과 동시에 대외 파트너십 구축 6일 동대문 DDP에서 열린 코리아 H2서밋 인베스터데이에 참석한 코오롱인더스트리 장희구 사장 왼쪽에서 네번째 ⓒ코오롱그룹 데일리안 조인영 기자 코오롱그룹이 수소산업의 밸류체인 전반을 고도화하는 플랫폼 구축에 나선다. 코오롱그룹은 6일 동대문 디자인플라자에서 열린 ‘코리아 H2 비즈니스 서밋 2022 인베스터데이’에 참가해 코오롱인더스트리와 코오롱글로벌 코오롱글로텍 코오롱플라스틱 등 그룹이 보유한 첨단기술을 바탕으로 수소 생산부터 운송 저장 발전사업까지 아우르는 코오롱 H2 플랫폼을 구축한다고 밝혔다. 코오롱인더스트리 장희구 사장은 국내외 수소산업 관련 투자자들을 대상으로 ‘코오롱 H2 플랫폼’의 산업적 가치와 의미를 설명하고 그룹의 역량을 집중하겠다고 발표했다. 최근 세계적인 탄소중립 기조에 발맞춰 수소로 대표되는 청정에너지 사업을 그룹의 지속 가능한 미래를 만들 수 있는 핵심 사업으로 성장시키겠다는 전략이다. 코오롱그룹은 수소연료전지를 중심으로 전개해 온 사업 분야를 확대 재편해 청정수소 생산부터 운송과 저장 이를 이용한 전력생산까지 원스톱 서비스가 가능한 플랫폼을 마련해 나간다. 수소 생산분야는 국내 풍력발전 시장을 선도하고 있는 코오롱글로벌과 협업해 진행한다. 풍력발전은 특성상 야간 및 유휴전력이 발생하게 되는데 이를 활용해 물을 전기 분해하는 수전해방식으로 청정수소를 생산할 예정이다. 경주와 태백 풍력단지를 비롯해 현재 추진 중인 완도 해상풍력단지에 이르기까지 수소생산을 위한 중요한 기반 시설로 활용할 계획이다. 코오롱인더스트리의 수분제어장치 및 전해질 분리막 기술 PEM MEA 이 국내에서 선두를 달리고 있고 상용화도 가능해 사업화에 속도를 낼 수 있을 것으로 보고 있다. 코오롱

# RAG

In [39]:
from langchain_community.document_loaders import CSVLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableLambda, RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

In [40]:
docs = CSVLoader("test_10row.csv", encoding='cp949')
docs = docs.load()

In [41]:
text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
documents = text_splitter.split_documents(docs)

In [43]:
documents[0]

Document(page_content='date: 2022.7.4 8:47\ncategory: economy\npress: 머니투데이\ntitle: 아이트로닉스 차량용 복합기능형 졸음 방지 단말기 특허 출원\ndocument: 아이엘사이언스의 자회사 아이트로닉스는 차량용 복합기능형 졸음 방지 단말기 특허를 출원했다고 4일 밝혔다. 신규 특허는 자동차 주행 중 운전자의 졸음운전을 방지하는 상태 검출 기술에 관한 것이다. 해당 단말기는 가시광선 및 근적외선 광원을 조사하는 광원 모듈 운전자의 얼굴 영상을 촬영하는 가시광선 및 근적외선 카메라 차량 실내의 이산화탄소 농도를 측정하는 이산화탄소 센서로 구성됐다. 단말기는 광원에 반응하는 운전자의 얼굴 촬영 영상을 기반으로 심박 데이터와 눈의 깜빡임 횟수 눈을 감은 시간 등을 측정한다. 여기에 차내 졸음을 유발하는 이산화탄소 농도까지 종합적으로 분석해 운전자의 졸음 상태를 판단하고 결과값에 따라 경보 신호를 송출하도록 설계됐다. 아이트로닉스는 이번 특허기술을 차세대 지능형 교통체계 C ITS 시스템 설비에 적용할 예정이다. 회사 관계자는 이번 특허는 대표적인 차량 내적 사고 요인인 졸음운전 방지 차원에서 당사의 혁신 기술력을 집약해 정확도를 높이는 데 집중했다 며 완전 자율주행 단계에 이르기 전까지 지속될 운전자 안전사고 예방에 있어 해당 기술의 가시적인 성과를 기대하고 있다 고 말했다.\nlink: https://n.news.naver.com/mnews/article/008/0004766307?sid=101\nsummary: 아이일, 아이트로닉스는 차량용 복합기능형 졸음 방지 단말기 특허를 출원했다고 4일 밝혔으며 신규 특허는 자동차 주행 중 운전자의 졸음운전을 방지하는 상태 검출 기술에 관한 것으로, 해당 단말기는 가시광선 및 근적외선 광원을 조사하는 광원 모듈 운전자의 얼굴 영상을 촬영하는 가시광선 및 근적외선 카메라 차량 실내의 이산화탄소 농도를 측정하는 이산화탄소 센서로 구성됐다.', metadata={'so

In [44]:
embedding = OpenAIEmbeddings(model='text-embedding-3-small')

In [46]:
vector_store = FAISS.from_documents(documents, embedding)
retriever = vector_store.as_retriever()

In [None]:
retriever = vector_store.as_retriever()

In [52]:
retriever = vector_store.as_retriever(
    search_type = 'similarity',
    search_kwargs={"k":2}
)
retriever.batch(["자동차", "빵"])

[[Document(page_content='date: 2022.7.4 8:47\ncategory: economy\npress: 머니투데이\ntitle: 아이트로닉스 차량용 복합기능형 졸음 방지 단말기 특허 출원\ndocument: 아이엘사이언스의 자회사 아이트로닉스는 차량용 복합기능형 졸음 방지 단말기 특허를 출원했다고 4일 밝혔다. 신규 특허는 자동차 주행 중 운전자의 졸음운전을 방지하는 상태 검출 기술에 관한 것이다. 해당 단말기는 가시광선 및 근적외선 광원을 조사하는 광원 모듈 운전자의 얼굴 영상을 촬영하는 가시광선 및 근적외선 카메라 차량 실내의 이산화탄소 농도를 측정하는 이산화탄소 센서로 구성됐다. 단말기는 광원에 반응하는 운전자의 얼굴 촬영 영상을 기반으로 심박 데이터와 눈의 깜빡임 횟수 눈을 감은 시간 등을 측정한다. 여기에 차내 졸음을 유발하는 이산화탄소 농도까지 종합적으로 분석해 운전자의 졸음 상태를 판단하고 결과값에 따라 경보 신호를 송출하도록 설계됐다. 아이트로닉스는 이번 특허기술을 차세대 지능형 교통체계 C ITS 시스템 설비에 적용할 예정이다. 회사 관계자는 이번 특허는 대표적인 차량 내적 사고 요인인 졸음운전 방지 차원에서 당사의 혁신 기술력을 집약해 정확도를 높이는 데 집중했다 며 완전 자율주행 단계에 이르기 전까지 지속될 운전자 안전사고 예방에 있어 해당 기술의 가시적인 성과를 기대하고 있다 고 말했다.\nlink: https://n.news.naver.com/mnews/article/008/0004766307?sid=101\nsummary: 아이일, 아이트로닉스는 차량용 복합기능형 졸음 방지 단말기 특허를 출원했다고 4일 밝혔으며 신규 특허는 자동차 주행 중 운전자의 졸음운전을 방지하는 상태 검출 기술에 관한 것으로, 해당 단말기는 가시광선 및 근적외선 광원을 조사하는 광원 모듈 운전자의 얼굴 영상을 촬영하는 가시광선 및 근적외선 카메라 차량 실내의 이산화탄소 농도를 측정하는 이산화탄소 센서로 구성됐다.', metadata={'

In [45]:
llm = ChatOpenAI(model="gpt-4o-mini")

In [53]:
template = """
Answer this question using the provided context only.

#Question:
{question}

#Context
{context}
"""

prompt = ChatPromptTemplate.from_template(template)

In [54]:
chain = ({"context": retriever, "question": RunnablePassthrough()}
         | prompt
         | llm
         | StrOutputParser()
        )

In [55]:
chain.invoke("빵")

"빵은 '볼카츠' 제품의 조리 방식에서 사용된 7㎜ 크기 입자의 습식 빵가루와 관련이 있습니다. 이 빵가루는 '볼카츠'의 겉을 바삭하게 하고 속은 촉촉한 식감을 주는데 중요한 역할을 합니다."

# Agent

### tavily(타빌리)
OepnAI와 연결을 하면, GPT가 할수있는 것들은, GPT가 가져오고, 아니면 외부의 사이트에서 데이터를 가져온다.

In [58]:
# 실시간으로 데이터를 가져올 수 있다!
from langchain_community.tools.tavily_search import TavilySearchResults

search = TavilySearchResults(max_result=2)
search_results = search.invoke("What is the weather Seoul?")
print(search_results)
tools = [search]

[{'url': 'https://www.weatherapi.com/', 'content': "{'location': {'name': 'Seoul', 'region': '', 'country': 'South Korea', 'lat': 37.57, 'lon': 127.0, 'tz_id': 'Asia/Seoul', 'localtime_epoch': 1721991083, 'localtime': '2024-07-26 19:51'}, 'current': {'last_updated_epoch': 1721990700, 'last_updated': '2024-07-26 19:45', 'temp_c': 27.1, 'temp_f': 80.8, 'is_day': 0, 'condition': {'text': 'Light rain shower', 'icon': '//cdn.weatherapi.com/weather/64x64/night/353.png', 'code': 1240}, 'wind_mph': 4.5, 'wind_kph': 7.2, 'wind_degree': 186, 'wind_dir': 'S', 'pressure_mb': 1011.0, 'pressure_in': 29.85, 'precip_mm': 1.43, 'precip_in': 0.06, 'humidity': 90, 'cloud': 60, 'feelslike_c': 31.9, 'feelslike_f': 89.4, 'windchill_c': 27.1, 'windchill_f': 80.8, 'heatindex_c': 31.9, 'heatindex_f': 89.4, 'dewpoint_c': 25.3, 'dewpoint_f': 77.5, 'vis_km': 10.0, 'vis_miles': 6.0, 'uv': 6.0, 'gust_mph': 7.1, 'gust_kph': 11.5}}"}, {'url': 'https://www.meteoprog.com/weather/Seoul/month/july/', 'content': 'Seoul (K

In [59]:
from langgraph.prebuilt import create_react_agent

agent_executor = create_react_agent(llm,tools)

In [60]:
response = agent_executor.invoke({"messages": [HumanMessage(content="Whats the wwather seoul?")]})
response["messages"]

[HumanMessage(content='Whats the wwather seoul?', id='afa09e41-f73e-4739-b87f-0b18fdd99820'),
 AIMessage(content='', additional_kwargs={'tool_calls': [{'id': 'call_DftYXChSInUX79nfNcjSV0Mb', 'function': {'arguments': '{"query":"current weather in Seoul"}', 'name': 'tavily_search_results_json'}, 'type': 'function'}]}, response_metadata={'token_usage': {'completion_tokens': 21, 'prompt_tokens': 86, 'total_tokens': 107}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_611b667b19', 'finish_reason': 'tool_calls', 'logprobs': None}, id='run-59a3abb1-d914-48b4-9d70-12a7068561d6-0', tool_calls=[{'name': 'tavily_search_results_json', 'args': {'query': 'current weather in Seoul'}, 'id': 'call_DftYXChSInUX79nfNcjSV0Mb'}], usage_metadata={'input_tokens': 86, 'output_tokens': 21, 'total_tokens': 107}),
 ToolMessage(content='[{"url": "https://www.weatherapi.com/", "content": "{\'location\': {\'name\': \'Seoul\', \'region\': \'\', \'country\': \'South Korea\', \'lat\': 37.57, \'lon\

# Q&A예제

In [8]:
import bs4 #Beautiful Soup 
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [9]:
llm = ChatOpenAI(model='gpr-4o-mini')

In [10]:
# pip install bitsandbytes, einops, accelerate

In [17]:
import torch
from torch import cuda, bfloat16
import transformers

device = torch.device('cuda' if cuda.is_available() else 'cpu')

In [27]:
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

In [33]:
model_id = 'meta-llama/Meta-Llama-3-8B'
hf_auth = "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"
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token = hf_auth
)

In [35]:
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token = hf_auth
)



model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/177 [00:00<?, ?B/s]