# 1- LangChain + ChatGPT

### Package 설치

In [None]:
#!pip install openai
#!pip install langchain
#!pip install tabulate

### api key 선언

In [50]:
import os
os.environ['OPENAI_API_KEY'] = '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'

### chatGPT 연결 확인

In [None]:
import openai
# from openai import OpenAI

client = openai.OpenAI(
  api_key=os.environ['OPENAI_API_KEY'],  
)

completion = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        {
            "role": "user",
            "content": "커피의 부작용은 뭐야? 한문장으로 알려줘",
        },
    ],
)
print(completion.choices[0].message.content)

### OpenAI llm 

In [None]:
from langchain.chat_models import ChatOpenAI

# 객체 생성
llm = ChatOpenAI(temperature=0,               # 창의성 (0.0 ~ 2.0) 
                 max_tokens=2048,             # 최대 토큰수
                 model_name='gpt-3.5-turbo',  # 모델명
                )

# 질의내용
question = '캐슈너트이 효능은 뭐야? 간략하게 한문장으로 알려줘.'

# 질의
print(f'[답변]: {llm.predict(question)}')

### PromptTemplate()

In [None]:
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# 질문 템플릿 형식 정의
template = '{food}의 효능은 뭐야? 간략하게 한문장으로 알려줘.'

# 템플릿 완성
prompt = PromptTemplate(template=template, input_variables=['food'])

In [None]:
# 연결된 체인(Chain)객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

### run()

In [None]:
# 체인 실행: run() 
print(llm_chain.run(food='다크초코릿'))

### apply()

In [None]:
input_list = [
    {'food': '땅콩'},
    {'food': '캐슈너트'},
    {'food': '타크초코릿'}
]

llm_chain.apply(input_list)


In [None]:
# input_list 에 대한 결과 반환
result = llm_chain.apply(input_list)

# 반복문으로 결과 출력
for res in result:
    print(res['text'].strip())

### generate()

In [None]:
# input_list 에 대한 결과 반환
generated_result = llm_chain.generate(input_list)
print(generated_result)

In [None]:
# 답변 출력
generated_result.generations

In [None]:
# 토큰 사용량 출력
generated_result.llm_output

In [None]:
# run ID 출력
generated_result.run

In [None]:
# 답변 출력
for gen in generated_result.generations:
    print(gen[0].text.strip())

### PromptTemplate() -multi variables

In [None]:
# 질문 템플릿 형식 정의
template = '{area1} 와 {area2} 의 시차는 몇시간이고, 각각 어떤 시간대야?'

# 템플릿 완성
prompt = PromptTemplate(template=template, input_variables=['area1', 'area2'])

# 연결된 체인(Chain)객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [None]:
# 체인 실행: run() 
print(llm_chain.run(area1='서울', area2='파리'))

In [None]:
input_list = [
    {'area1': '파리', 'area2': '뉴욕'},
    {'area1': '서울', 'area2': '하와이'},
    {'area1': '켄버라', 'area2': '베이징'}
]

# 반복문으로 결과 출력
result = llm_chain.apply(input_list)
for res in result:
    print(res['text'].strip())

### streaming

In [None]:
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler


# 객체 생성
llm = ChatOpenAI(temperature=0,               # 창의성 (0.0 ~ 2.0) 
                 max_tokens=2048,             # 최대 토큰수
                 model_name='gpt-3.5-turbo',  # 모델명
                 streaming=True,              
                 callbacks=[StreamingStdOutCallbackHandler()]
                )

In [None]:
# 질의내용
question = '오늘 중요한 뉴스는 뭐야?'

# 스트리밍으로 답변 출력
response = llm.predict(question)

In [None]:
print(response)

# 2- LangChain + HuggingFace

In [None]:
# 필요한 라이브러리 설치
# !pip install langchain
# !pip install huggingface_hub transformers datasets

In [8]:
import os

# 허깅페이스 LLM Read Key
# 이전 단계에서 복사한 Key를 아래에 붙혀넣기 합니다.
os.environ['HUGGINGFACEHUB_API_TOKEN'] = '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'

🤗 Open LLM Leaderboard
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
![image.png](attachment:image.png)
https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard

### model from server

In [11]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFaceHub

# HuggingFace Repository ID
# repo_id = 'mistralai/Mistral-7B-v0.1'
repo_id = 'google/gemma-7b'
# repo_id = 'meta-llama/Llama-2-7b'
# repo_id = 'bigscience/bloom'


# 질의내용
question = "Explain the future of data science in the Generative AI era? in details with bullet points."

# 템플릿
template = """Question: {question}

Answer: """

# 프롬프트 템플릿 생성
prompt = PromptTemplate(template=template, input_variables=["question"])

# HuggingFaceHub 객체 생성
llm = HuggingFaceHub(
    repo_id=repo_id, 
    model_kwargs={"temperature": 0.1, 
                  "max_length": 1000}
)

# LLM Chain 객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

# 실행
print(llm_chain.run(question=question))

Question: Explain the future of data science in the Generative AI era? in details with bullet points.

Answer: 

1. Generative AI will enable data scientists to create more sophisticated models and algorithms, which will lead to better predictions and insights.

2. Generative AI will also allow data scientists to create more realistic simulations and virtual reality environments, which will be useful for training and testing purposes.

3. Generative AI will also enable data scientists to create more personalized experiences for users, which will lead to better engagement and conversion rates.

4. Finally, generative AI will enable data scientists to create


### model from local

In [2]:
import os

# 허깅페이스 모델/토크나이저를 다운로드 받을 경로
# (예시)
os.environ['HF_HOME'] = '/Users/kenny_jung/aiffel/llm/hf'

In [3]:
#https://pytorch.org/get-started/locally/
#!pip3 install torch torchvision torchaudio

In [6]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFacePipeline

# HuggingFace Model ID
model_id = 'meta-llama/Llama-2-7b'

# HuggingFacePipeline 객체 생성
llm = HuggingFacePipeline.from_model_id(
    model_id=model_id, 
    device=0,               # -1: CPU(default), 0번 부터는 CUDA 디바이스 번호 지정시 GPU 사용하여 추론
    task="text-generation", # 텍스트 생성
    model_kwargs={"temperature": 0.1, 
                  "max_length": 64},
)

# 템플릿
template = """질문: {question}

답변: """

# 프롬프트 템플릿 생성
prompt = PromptTemplate.from_template(template)

# LLM Chain 객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

OSError: You are trying to access a gated repo.
Make sure to have access to it at https://huggingface.co/meta-llama/Llama-2-7b.
401 Client Error. (Request ID: Root=1-65ebf0d7-20c3e92339b820211eb5aec8;45efe0ec-24a9-4052-a3c9-3ad1ce8af4ba)

Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json.
Repo model meta-llama/Llama-2-7b is gated. You must be authenticated to access it.

In [None]:
# 실행
question = "대한민국의 수도는 어디야?"
print(llm_chain.run(question=question))

In [None]:
# 실행
question = "캐나다의 수도와 대한민국의 수도까지의 거리는 어떻게 돼?"
print(llm_chain.run(question=question))

# 3- LangChain + ChatGPT + CSV + Data Analysis

In [18]:
import pandas as pd

# csv 파일을 데이터프레임으로 로드
df = pd.read_csv('titanic.csv')
df.head()

Unnamed: 0,Pclass,Name,Gendr,Age,SibSp,Parch,Ticket,Embarked,Survived,ticket_date
0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,S,0,1912-01-12
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,C,1,1912-03-29
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,S,1,1912-02-23
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,,1,0,113803,S,1,1912-03-28
4,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,S,0,1912-04-03


In [19]:
#!pip install langchain_experimental

In [22]:
from langchain_experimental.agents.agent_toolkits import create_pandas_dataframe_agent
from langchain.chat_models import ChatOpenAI
from langchain.agents.agent_types import AgentType


# 에이전트 생성
agent = create_pandas_dataframe_agent(
    ChatOpenAI(
        temperature=0, 
        model='gpt-3.5-turbo'),        # 모델 정의
    df,                                    # 데이터프레임
    verbose=True,                          # 추론과정 출력
    agent_type=AgentType.OPENAI_FUNCTIONS, # AgentType.ZERO_SHOT_REACT_DESCRIPTION
)

In [23]:
# 질의
agent.run('데이터의 행과 열의 갯수는 어떻게 돼?')



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': 'df.shape'}`


[0m[36;1m[1;3m(885, 10)[0m[32;1m[1;3m데이터프레임에는 885개의 행과 10개의 열이 있습니다.[0m

[1m> Finished chain.[0m


'데이터프레임에는 885개의 행과 10개의 열이 있습니다.'

In [24]:
# 질의
agent.run('남자 승객의 생존율을 어떻게 돼? %로 알려줘')



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "male_passengers = df[df['Gendr'] == 'male']\nsurvival_rate = male_passengers['Survived'].mean() * 100\nsurvival_rate"}`


[0m[36;1m[1;3m18.181818181818183[0m[32;1m[1;3m남자 승객의 생존율은 약 18.18%입니다.[0m

[1m> Finished chain.[0m


'남자 승객의 생존율은 약 18.18%입니다.'

In [25]:
# 질의
agent.run('나이가 15세 이하인 승객중 1,2등급에 탑승한 남자 승객의 생존율은 어떻게 돼? %로 알려줘')



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "survival_rate = df[(df['Age'] <= 15) & (df['Pclass'].isin([1, 2])) & (df['Gendr'] == 'male')]['Survived'].mean() * 100\nsurvival_rate"}`


[0m[36;1m[1;3m100.0[0m[32;1m[1;3m나이가 15세 이하인 1, 2등급에 탑승한 남자 승객의 생존율은 100%입니다.[0m

[1m> Finished chain.[0m


'나이가 15세 이하인 1, 2등급에 탑승한 남자 승객의 생존율은 100%입니다.'

In [26]:
# 질의
agent.run('나이가 가장 많은 승객의 이름과 나이는 얼마야?')



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "oldest_passenger = df[df['Age'] == df['Age'].max()]\noldest_passenger[['Name', 'Age']]"}`


[0m[36;1m[1;3m                                                  Name    Age
321  Caldwell, Mrs. Albert Francis (Sylvia Mae Harb...  145.0[0m[32;1m[1;3m나이가 가장 많은 승객의 이름은 Caldwell, Mrs. Albert Francis (Sylvia Mae Harbaugh)이며 나이는 145세입니다. 

그러나 145세는 현실적으로 실제 나이가 아니므로 데이터에 오류가 있을 가능성이 있습니다.[0m

[1m> Finished chain.[0m


'나이가 가장 많은 승객의 이름은 Caldwell, Mrs. Albert Francis (Sylvia Mae Harbaugh)이며 나이는 145세입니다. \n\n그러나 145세는 현실적으로 실제 나이가 아니므로 데이터에 오류가 있을 가능성이 있습니다.'

In [27]:
# 샘플 데이터프레임 생성
df1 = df.copy()
df1 = df1.fillna(0)
df1.head()

Unnamed: 0,Pclass,Name,Gendr,Age,SibSp,Parch,Ticket,Embarked,Survived,ticket_date
0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,S,0,1912-01-12
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,C,1,1912-03-29
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,S,1,1912-02-23
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,0.0,1,0,113803,S,1,1912-03-28
4,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,S,0,1912-04-03


In [28]:
# 에이전트 생성
agent = create_pandas_dataframe_agent(
    ChatOpenAI(temperature=0, 
               model='gpt-3.5-turbo'),
               [df, df1], 
               verbose=True
)

# 질의
agent.run('나이 컬럼의 나이의 평균차이는 어떻게 돼? %로 구해줘.')



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: We need to calculate the average age difference between the two dataframes in the Age column and express it as a percentage.
Action: [python_repl_ast]
Action Input: df1['Age'].mean() - df2['Age'].mean()[0m[python_repl_ast] is not a valid tool, try one of [python_repl_ast].[32;1m[1;3mI made a mistake in my action, let me correct it.
Action: [python_repl_ast]
Action Input: (df1['Age'].mean() - df2['Age'].mean()) / df1['Age'].mean() * 100[0m[python_repl_ast] is not a valid tool, try one of [python_repl_ast].[32;1m[1;3mI need to use the correct tool to calculate the average age difference as a percentage.
Action: [python_repl_ast]
Action Input: ((df1['Age'].mean() - df2['Age'].mean()) / df1['Age'].mean()) * 100[0m[python_repl_ast] is not a valid tool, try one of [python_repl_ast].[32;1m[1;3mI need to use the correct tool to calculate the average age difference as a percentage.
Action: [python_repl_ast]
Action In

'The average age difference between the two dataframes in the Age column is X% (calculate the actual percentage using the correct tool).'

# 4- RAG

In [35]:
#%pip install langchain-openai

In [36]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

In [37]:
# 뉴스기사 내용을 로드하고, 청크로 나누고, 인덱싱합니다.
loader = WebBaseLoader(
    web_paths=("https://n.news.naver.com/article/437/0000378416",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["newsct_article _article_body", "media_end_head_title"]},
        )
    ),
)

docs = loader.load()
print(f"문서의 수: {len(docs)}")
docs

문서의 수: 1


[Document(page_content="\n출산 직원에게 '1억원' 쏜다…회사의 파격적 저출생 정책\n\n\n[앵커]올해 아이 낳을 계획이 있는 가족이라면 솔깃할 소식입니다. 정부가 저출생 대책으로 매달 주는 부모 급여, 0세 아이는 100만원으로 올렸습니다. 여기에 첫만남이용권, 아동수당까지 더하면 아이 돌까지 1년 동안 1520만원을 받습니다. 지자체도 경쟁하듯 지원에 나섰습니다. 인천시는 새로 태어난 아기, 18살될 때까지 1억원을 주겠다. 광주시도 17살될 때까지 7400만원 주겠다고 했습니다. 선거 때면 나타나서 아이 낳으면 현금 주겠다고 밝힌 사람이 있었죠. 과거에는 표만 노린 '황당 공약'이라는 비판이 따라다녔습니다. 그런데 지금은 출산율이 이보다 더 나쁠 수 없다보니, 이런 현금성 지원을 진지하게 정책화 하는 상황까지 온 겁니다. 게다가 기업들도 뛰어들고 있습니다. 이번에는 출산한 직원에게 단번에 1억원을 주겠다는 회사까지 나타났습니다.이상화 기자가 취재했습니다.[기자]한 그룹사가 오늘 파격적인 저출생 정책을 내놨습니다.2021년 이후 태어난 직원 자녀에 1억원씩, 총 70억원을 지원하고 앞으로도 이 정책을 이어가기로 했습니다.해당 기간에 연년생과 쌍둥이 자녀가 있으면 총 2억원을 받게 됩니다.[오현석/부영그룹 직원 : 아이 키우는 데 금전적으로 많이 힘든 세상이잖아요. 교육이나 생활하는 데 큰 도움이 될 거라 생각합니다.]만약 셋째까지 낳는 경우엔 국민주택을 제공하겠다는 뜻도 밝혔습니다.[이중근/부영그룹 회장 : 3년 이내에 세 아이를 갖는 분이 나올 것이고 따라서 주택을 제공할 수 있는 계기가 될 것으로 생각하고.][조용현/부영그룹 직원 : 와이프가 셋째도 갖고 싶어 했는데 경제적 부담 때문에 부정적이었거든요. (이제) 긍정적으로 생각할 수 있을 것 같습니다.]오늘 행사에서는, 회사가 제공하는 출산장려금은 받는 직원들의 세금 부담을 고려해 정부가 면세해달라는 제안도 나왔습니다.이같은 출산장려책은 점점 확산하는 분위기입니다.법정기간보다 육아

In [38]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=50)

splits = text_splitter.split_documents(docs)
len(splits)

3

In [42]:
# %pip install faiss-gpu
# %pip install faiss-cpu

Defaulting to user installation because normal site-packages is not writeable
[31mERROR: Could not find a version that satisfies the requirement faiss-gpu (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for faiss-gpu[0m[31m
[0mNote: you may need to restart the kernel to use updated packages.
Defaulting to user installation because normal site-packages is not writeable
Collecting faiss-cpu
  Downloading faiss_cpu-1.8.0-cp39-cp39-macosx_11_0_arm64.whl.metadata (3.6 kB)
Downloading faiss_cpu-1.8.0-cp39-cp39-macosx_11_0_arm64.whl (3.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.8.0
Note: you may need to restart the kernel to use updated packages.


In [43]:
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(
    documents=splits, embedding=OpenAIEmbeddings())

# 뉴스에 포함되어 있는 정보를 검색하고 생성합니다.
retriever = vectorstore.as_retriever()

In [46]:
#%pip install langchainhub

In [47]:
prompt = hub.pull("rlm/rag-prompt")
prompt

ChatPromptTemplate(input_variables=['context', 'question'], messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:"))])

In [48]:
print(prompt.messages[0].prompt.template)

You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.
Question: {question} 
Context: {context} 
Answer:


In [49]:
llm = ChatOpenAI(model_name="gpt-4-turbo-preview", temperature=0)


def format_docs(docs):
    # 검색한 문서 결과를 하나의 문단으로 합쳐줍니다.
    return "\n\n".join(doc.page_content for doc in docs)


# 체인을 생성합니다.
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)