<a href="https://colab.research.google.com/github/bluebird702/study/blob/main/langchain_study.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

이 문서는 langchain study를 하면서 정리한 노트입니다.

# 실습 준비
colab에서 예제를 실행할 것이므로 Google AI Studio에 계정을 등록하고 Key를 얻는다. 자세한 내용은 다음 문서를 참고한다.

[Gemini Key 발급받아오기](https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/tutorials/python_quickstart.ipynb#scrollTo=gHYFrFPjSGNq)





## 환경 테스트
다음과 같이 테스트해보자. 공식 문서에 있는 내용을 그대로 테스트해본다.

[문서 링크](https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/tutorials/python_quickstart.ipynb#scrollTo=FFPBKLapSCkM)

In [1]:
# google python sdk 설치
!pip install -q -U google-generativeai

In [2]:
# 왼쪽의 열쇠 버튼에 GOOGLE_API_KEY를 등록한다음에 다음 코드를 돌려서 라이브러리를 초기화
from google.colab import userdata
import google.generativeai as genai

GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    display(m.name) # colab에서는 print 말고 display를 써야 wrapping된 결과를 얻을 수 있다.


'models/gemini-1.0-pro'

'models/gemini-1.0-pro-001'

'models/gemini-1.0-pro-latest'

'models/gemini-1.0-pro-vision-latest'

'models/gemini-1.5-flash'

'models/gemini-1.5-flash-001'

'models/gemini-1.5-flash-latest'

'models/gemini-1.5-pro'

'models/gemini-1.5-pro-001'

'models/gemini-1.5-pro-latest'

'models/gemini-pro'

'models/gemini-pro-vision'

In [3]:
# 다음의 코드를 테스트해보자
import pathlib
import textwrap

from IPython.display import display
from IPython.display import Markdown

def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

In [4]:
# gemini-pro를 일단 사용해본다.
model = genai.GenerativeModel('gemini-pro')

In [5]:
# %%time은 맨 첫줄에서만 동작함. 그래서 코드셀을 나눴음.
%%time
response = model.generate_content("삶의 의미가 멀까?")
to_markdown(response.text)

CPU times: user 150 ms, sys: 19.4 ms, total: 169 ms
Wall time: 11.6 s


> 삶의 의미는 매우 개인적이고 주관적인 것이며, 특정한 답이 없는 복잡한 문제입니다. 그러나 일반적으로 삶의 의미를 찾는 과정은 개인의 가치관, 신념, 경험과 연관되어 있습니다.
> 
> 다음은 삶의 의미를 찾는 데 도움이 될 수 있는 몇 가지 일반적인 방법입니다.
> 
> * **자기 반성:** 자신에게 중요한 것, 당신을 행복하게 만드는 것, 당신이 세상에 기여하고자 하는 것에 대해 숙고해 보세요.
> * **목적 설정:** 당신에게 영감을 주고 동기를 부여하는 목표를 설정하세요. 이러한 목표는 개인적인 성장, 사회적 영향, 창의성 등 다양한 영역에 중점을 두을 수 있습니다.
> * **열정 추구:** 당신에게 열정을 불러일으키는 활동과 pursuit에 참여하세요. 열정은 삶에 의미와 목적을 부여하는 강력한 동기가 될 수 있습니다.
> * **관계 구축:** 가족, 친구, 공동체와 의미 있는 관계를 구축하세요. 강력한 관계는 지원, 사랑, 소속감을 제공하여 삶에 의미를 부여할 수 있습니다.
> * **사회적 기여:** 자원봉사, 지역 사회 참여 또는 정치적 활동을 통해 사회에 기여하세요. 다른 사람들을 돕는 것은 삶에 목적 의식을 부여하고 의미를 줄 수 있습니다.
> * **영성 탐구:** 영적 신념이나 관행을 탐구하여 삶의 더 큰 목적이나 의미를 이해하려고 노력하세요. 초월적 경험이나 의식은 삶의 의미에 대한 통찰력을 제공할 수 있습니다.
> * **지속적인 학습:** 새로운 기술을 배우거나 새로운 관심 분야를 탐구함으로써 지속적으로 학습하는 것은 지적 자극을 제공하고 삶에 의미를 부여할 수 있습니다.
> * **거대한 틀 고려:** 개인적인 삶을 우주와 시간의 거대한 틀 속에서 고려하세요. 이러한 관점은 삶의 일시적인 성격과 더 큰 목적 맥락에서의 의미를 이해하는 데 도움이 될 수 있습니다.
> 
> 삶의 의미는 시간이 지남에 따라 변화하고 진화할 수 있음을 기억하는 것이 중요합니다. 개인은 다양한 경험, 도전, 통찰력을 통해 삶의 의미에 대한 이해를 심화시킬 수 있습니다.

In [6]:
# Stream으로 노출하려면 출력을 다르게 해야한다.
%%time
response = model.generate_content("삶의 의미가 멀까?", stream=True)
for chunk in response:
  display(chunk.text)
  display("_"*80)

'삶의 의미는 사람마다 달라지며, 객관적인'

'________________________________________________________________________________'

' 답이 있는 질문이 아닙니다. 그러나 삶의 의미에 대해 생각하고 탐구할 수 있는 일반적인 프레임'

'________________________________________________________________________________'

'워크는 다음과 같습니다.\n\n**목적론적 관점:**\n* 삶에는 선험적인 목적이나 목표가 있습니다.\n* 이 목적은 종교적 신념(하나님의 뜻), 과학적 이론(진화), 또는 개인'

'________________________________________________________________________________'

'적인 가치관에 기반을 둘 수 있습니다.\n* 삶의 의미는 이 목적을 달성하는 데 있습니다.\n\n**실존주의적 관점:**\n* 삶에 내재적인 의미는 없습니다.\n* 의미는 개인이 자신에게 부여해야 하며, 이는 책임과 선택을 수반합니다.\n* 삶의 의미는 개인의 경험, 가치관, 행동을 통해 창출됩니다.\n\n**실용주의적 관점:**\n* 삶의 의미는 실용적인 결과에 있습니다.\n* '

'________________________________________________________________________________'

'삶에는 객관적인 의미는 없지만, 우리가 행하는 것에서 의미와 만족을 찾을 수 있습니다.\n* 삶의 의미는 개인적인 경험과 성취에 중점을 둡니다.\n\n**생물학적 관점:**\n* 삶의 의미는 생존과 번식에 있습니다.\n* 인간은 진화론적으로 생존하는 데 성공하는 것이 목표라는 경향이 있습니다.\n* 삶의 의미는 종의 보존과 유전자 전달과 관련될 수 있습니다.\n\n**사회적 관점:**\n* 삶의 의미는 사회적 관계와 공동체에 있습니다.\n* 인간은 사회적 존재이며, 의미는 다른 사람들과 연결하고 기여하는 데서 찾을 수 있습니다.\n* 삶의 의미는 봉사, 연대, 개인의 영향력과 관련될 수 있습니다.\n\n궁극적으로 삶의 의미는 개인이 정의해야 하는 문제입니다. 어떤 사람들은 삶의 목적을 찾으면서 평생을 보내는 반면, 다른 사람들은 의미를 현재의 순간과 경험에서 찾'

'________________________________________________________________________________'

'습니다. 확실한 답이 없지만, 삶의 의미에 대해 생각하고 탐구하는 것은 풍부하고 보람 있는 여정이 될 수 있습니다.'

'________________________________________________________________________________'

CPU times: user 173 ms, sys: 18.8 ms, total: 192 ms
Wall time: 10.7 s


예제가 openai로 되어있습니다. colab에서 테스트를 쉽게 하고 싶으니 gemini로 바꿔서 테스트해보자.

일단 langchain library를 설치한다.

In [7]:
# LangChain 업데이트
!pip install -U langchain langchain-community langchain-experimental langchain-core langchain-google-genai langsmith

Collecting langchain
  Downloading langchain-0.2.1-py3-none-any.whl (973 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m973.5/973.5 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-community
  Downloading langchain_community-0.2.1-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-experimental
  Downloading langchain_experimental-0.0.59-py3-none-any.whl (199 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.5/199.5 kB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-core
  Downloading langchain_core-0.2.1-py3-none-any.whl (308 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m308.5/308.5 kB[0m [31m14.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-google-genai
  Downloading langchain_google_genai-1.0.5-py3-none-any.whl (34 kB)
Collecting langsmith
 

기본 코드 돌려봅시다!

In [40]:
from langchain_google_genai import ChatGoogleGenerativeAI

# 객체 생성
llm = ChatGoogleGenerativeAI(
    model="gemini-pro",
    google_api_key=GOOGLE_API_KEY
)

# 물어보자.
result = llm.invoke("넌 누구냐!")
display(f"[답변]: {result.content}")

'[답변]: 저는 Gemini입니다. Google에서 개발한 대규모 다국어 모델입니다.'

요정도에서 gemini설정을 마치고 langchain 학습으로 넘어간다.

langchain학습은 [테디노트님의 ebook](https://wikidocs.net/book/14314)으로 진행해본다.

# Ch01 LangChain 시작하기 노트


프롬프트 템플릿도 한번 써보자.

일단 prompt를 만든다.

In [None]:
from langchain.prompts import PromptTemplate

template = "{country}의 수도는 뭐야?"

# 템플릿 완성
prompt = PromptTemplate.from_template(template=template)
prompt

PromptTemplate(input_variables=['country'], template='{country}의 수도는 뭐야?')

그 다음에 prompt를 써서 요청을 날려보자

In [None]:
from langchain.chains import LLMChain

llm_chain = LLMChain(prompt=prompt, llm=llm) # 위에서 prompt와 llm을 만드는 코드를 실행한 후에 여기를 돌려야 한다.

llm_chain.invoke({"country": "대한민국"}) # 요거는 서울

{'country': '대한민국', 'text': '서울'}

apply()로 여러개의 입력도 한번에 처리가 가능하다.

In [None]:
input_list = [{"country": "호주"}, {"country": "중국"}, {"country":"네덜란드"}]

result = llm_chain.apply(input_list)

display(result)

for res in result:
  display(res["text"].strip())

[{'text': '캔버라'}, {'text': '베이징'}, {'text': '암스테르담'}]

'캔버라'

'베이징'

'암스테르담'

generate()로 좀 더 자세한 추가정보를 출력할 수 있다.

In [None]:
input_list = [{"country": "호주"}, {"country": "중국"}, {"country":"네덜란드"}]

result = llm_chain.generate(input_list)

display(result)

토큰 사용량을 바로 보려면 다음과 같이 찍으면 된다고 하는데 OpenAI는 되나본데, Gemini는 아무것도 안나온다. 따로 방법을 찾아보자.

In [None]:
result.llm_output

{}

2개 이상의 변수를 템플릿 안에 정의하는 것도 가능하다.

In [None]:
template = "{area1}와 {area2}의 시차는 몇시간이야?"

prompt = PromptTemplate.from_template(template)
prompt

In [None]:
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [None]:
display(llm_chain.invoke({"area1": "서울", "area2": "파리"}))

In [None]:
input_list = [
    {"area1": "파리", "area2": "뉴욕"},
    {"area1": "서울", "area2": "하와이"},
    {"area1": "켄버라", "area2": "베이징"},
]

# 반복문으로 결과 출력
result = llm_chain.apply(input_list)
for res in result:
    display(res["text"].strip())

stream으로 출력도 가능하다만 OpenAI로 좀 다른거 같다. stream이란 함수를 호출해서 출력한다.

In [None]:
llm = ChatGoogleGenerativeAI(
    model="gemini-pro",
    google_api_key=GOOGLE_API_KEY,
    temperature=0, #창의성
    max_output_tokens=2048,
)

question = "대한민국에 대해서 300자 내외로 최대한 상세히 알려줘"

for chunk in llm.stream(question):
    display(to_markdown(chunk.content))
    display(to_markdown("---"))

Chain 생성에서 LCEL(LangChain Expression Language)도 가능한지 살펴본다.

In [None]:
from langchain_core.output_parsers import StrOutputParser

# 주어진 나라에 대하여 수도를 묻는 프롬프트 템플릿을 생성합니다.
template = """
당신은 친절하게 답변해 주는 친절 봇입니다. 사용자의 질문에 [FORMAT]에 맞추어 답변해 주세요.
답변은 항상 한글로 작성해 주세요.

질문:
{question}에 대하여 설명해 주세요.

FORMAT:
- 개요:
- 예시:
- 출처:
"""

template = """
당신은 영어를 가르치는 10년차 영어 선생님입니다. 상황에 [FORMAT]에 영어 회화를 작성해 주세요.

상황:
{question}

FORMAT:
- 영어 회화:
- 한글 해석:
"""

prompt = PromptTemplate.from_template(template)

# OpenAI 챗모델을 초기화합니다.
model = ChatGoogleGenerativeAI(
    model="gemini-pro",
    google_api_key=GOOGLE_API_KEY,
    temperature=0, #창의성
    max_output_tokens=2048,
)

# 문자열 출력 파서를 초기화합니다.
output_parser = StrOutputParser()

# 프롬프트, 모델, 출력 파서를 연결하여 처리 체인을 구성합니다.
chain = prompt | model | output_parser

# 완성된 Chain 을 이용하여 country 를 '대한민국'으로 설정하여 실행합니다.
# chain.invoke({"country": "대한민국"})
print(chain.invoke({"question": "저는 식당에 가서 음식을 주문하고 싶어요"}))

ModuleNotFoundError: No module named 'langchain_core'

In [None]:
print(chain.invoke({"question": "미국에서 피자 주문"}))

ebook에 있는 다른 예제도 실행해본다.

In [None]:
# prompt 를 PromptTemplate 객체로 생성합니다.
prompt = PromptTemplate.from_template("{topic} 에 대해 쉽게 설명해주세요.")

# input 딕셔너리에 주제를 'ice cream'으로 설정합니다.
input = {"topic": "양자역학"}

# prompt 객체의 invoke 메서드를 사용하여 input을 전달하고 대화형 프롬프트 값을 생성합니다.
prompt.invoke(input)

# prompt 객체와 model 객체를 파이프(|) 연산자로 연결하고 invoke 메서드를 사용하여 input을 전달합니다.
# 이를 통해 AI 모델이 생성한 메시지를 반환합니다.
(prompt | model).invoke(input)

In [None]:
# parse_output 메서드를 사용하여 AI 모델이 생성한 메시지 문자열로 출력합니다.
display((prompt | model | output_parser).invoke(input))

LCEL 인터페이스에 있는 다른 내용은 필요할 때 보면 될 것 같고, 병렬성 예제를 돌려본다.

In [None]:
from langchain.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableParallel

# {country} 의 수도를 물어보는 체인을 생성합니다.
chain1 = ChatPromptTemplate.from_template("{country} 의 수도는 어디야?") | model

# {country} 의 면적을 물어보는 체인을 생성합니다.
chain2 = ChatPromptTemplate.from_template("{country} 의 면적은 얼마야?") | model
# 위의 2개 체인을 동시에 생성하는 병렬 실행 체인을 생성합니다.
combined = RunnableParallel(capital=chain1, area=chain2)

In [None]:
chain1.invoke(
    {"country": "대한민국"}
)

In [None]:
chain2.invoke({"country": "미국"})

In [None]:
# 주어진 'country'에 대해 'combined' 객체의 'invoke' 메서드를 호출합니다.
combined.invoke({"country": "대한민국"})

# Ch07 도큐먼트 로더(Document Loader)



## 01. 논문(Arxiv)

Arxiv는 200만편 이상이 있는 학술 논문 오픈 엑세스 아카이브입니다.

먼저 Arxiv 라이브러리를 설치해보자.

ArxivLoader에 대한 설명은 다음 링크를 참조하자

https://pypi.org/project/arxivloader/


In [10]:
# 1. arxiv 라이브러리를 설치합니다.
!pip install -qU arxiv

# 2. arxiv.org 사이트에서 다운로드한 PDF파일을 텍스트 형식으로 변환하는 PyMuPDF 패키지를 설치합니다.
!pip install -qU pymupdf


[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/81.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/81.1 kB[0m [31m758.2 kB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.1/81.1 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for sgmllib3k (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.5/3.5 MB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.8/15.8 MB[0m [31m49.9 MB/s[0m eta [36m0:00:00[0m
[?25h

이제 문서를 로딩해봅시다.  

In [15]:
from langchain_community.document_loaders import ArxivLoader

# ArxivLoader를 사용하여 arXiv에서 문서를 로드합니다.
# query 매개변수는 검색할 논문의 arXiv ID이고, load_max_docs 매개변수는 로드할 최대 문서 수를 지정합니다.
# 그 유명한 Attention Is All You Need 논문 보기
docs = ArxivLoader(query="1706.03762", load_max_docs=2).load()
len(docs)  # 로드된 문서의 개수를 반환합니다.

1

In [16]:
# metadata 출력해보기
docs[0].metadata

{'Published': '2023-08-02',
 'Title': 'Attention Is All You Need',
 'Authors': 'Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin',
 'Summary': 'The dominant sequence transduction models are based on complex recurrent or\nconvolutional neural networks in an encoder-decoder configuration. The best\nperforming models also connect the encoder and decoder through an attention\nmechanism. We propose a new simple network architecture, the Transformer, based\nsolely on attention mechanisms, dispensing with recurrence and convolutions\nentirely. Experiments on two machine translation tasks show these models to be\nsuperior in quality while being more parallelizable and requiring significantly\nless time to train. Our model achieves 28.4 BLEU on the WMT 2014\nEnglish-to-German translation task, improving over the existing best results,\nincluding ensembles by over 2 BLEU. On the WMT 2014 English-to-French\ntranslation task, 

In [17]:
# 문서의 모든 페이지 내용 중 처음 400자를 가져오기
docs[0].page_content[:400]

'Provided proper attribution is provided, Google hereby grants permission to\nreproduce the tables and figures in this paper solely for use in journalistic or\nscholarly works.\nAttention Is All You Need\nAshish Vaswani∗\nGoogle Brain\navaswani@google.com\nNoam Shazeer∗\nGoogle Brain\nnoam@google.com\nNiki Parmar∗\nGoogle Research\nnikip@google.com\nJakob Uszkoreit∗\nGoogle Research\nusz@google.com\nLlion Jones∗\nG'

In [19]:
# 문서의 글자수 보기
len(docs[0].page_content)

39593

In [22]:
# 문서의 페이지수 보기
docs[0].page_content

'Provided proper attribution is provided, Google hereby grants permission to\nreproduce the tables and figures in this paper solely for use in journalistic or\nscholarly works.\nAttention Is All You Need\nAshish Vaswani∗\nGoogle Brain\navaswani@google.com\nNoam Shazeer∗\nGoogle Brain\nnoam@google.com\nNiki Parmar∗\nGoogle Research\nnikip@google.com\nJakob Uszkoreit∗\nGoogle Research\nusz@google.com\nLlion Jones∗\nGoogle Research\nllion@google.com\nAidan N. Gomez∗†\nUniversity of Toronto\naidan@cs.toronto.edu\nŁukasz Kaiser∗\nGoogle Brain\nlukaszkaiser@google.com\nIllia Polosukhin∗‡\nillia.polosukhin@gmail.com\nAbstract\nThe dominant sequence transduction models are based on complex recurrent or\nconvolutional neural networks that include an encoder and a decoder. The best\nperforming models also connect the encoder and decoder through an attention\nmechanism. We propose a new simple network architecture, the Transformer,\nbased solely on attention mechanisms, dispensing with recurrence

## 02. 허깅페이스 데이터셋

허깅 페이스 허브는 NLP, 컴퓨터 비전, 오디오 분야 등 다양한 작업에 사용될 수 있는 100개 이상의 언어로된 5000개 이상의 데이터셋을 제공한다.

허깅페이스 데이터셋 로더(HuggingFaceDatasetLoader)를 써봅시다.

요것도 설치해봅시다

In [34]:
# sentence_transformer, faiss 없으면 에러나서 추가.

!pip install datasets sentence_transformers

Collecting faiss-gpu
  Downloading faiss_gpu-1.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (85.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m85.5/85.5 MB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faiss-gpu
Successfully installed faiss-gpu-1.7.2


이제 로딩해봅시다.

In [26]:
from langchain_community.document_loaders import HuggingFaceDatasetLoader

dataset_name = "imdb"  # 데이터셋 이름을 "imdb"로 설정합니다.
page_content_column = "text"  # 페이지 내용이 포함된 열의 이름을 "text"로 설정합니다.

# HuggingFaceDatasetLoader를 사용하여 데이터셋을 로드합니다.
# 데이터셋 이름과 페이지 내용 열 이름을 전달합니다.
loader = HuggingFaceDatasetLoader(dataset_name, page_content_column)

data = loader.load()  # 로더를 사용하여 데이터를 불러옵니다

data[:3] # 처음 3개 요소를 봅시다.



[Document(page_content='"I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered \\"controversial\\" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes

이 데이터셋을 이용해서 질문에 답변해봅시다.

HuggingFaceDatasetLoader를 사용해서 데이터를 로드하고, VectorstoreIndexCreator를 통해서 벡터 저장소 기반의 인덱스를 생성해봅니다.

In [44]:
from langchain.indexes import VectorstoreIndexCreator
from langchain_community.document_loaders.hugging_face_dataset import (
    HuggingFaceDatasetLoader,
)
from langchain_google_genai import ChatGoogleGenerativeAI

dataset_name = "tweet_eval"  # 데이터셋 이름을 "tweet_eval"로 설정합니다.
page_content_column = "text"  # 페이지 내용이 포함된 열의 이름을 "text"로 설정합니다.
name = "stance_climate"  # 데이터셋의 특정 부분을 식별하는 이름을 "stance_climate"로 설정합니다.

# HuggingFaceDatasetLoader를 사용하여 데이터셋을 로드합니다.
loader = HuggingFaceDatasetLoader(dataset_name, page_content_column, name)

# 이거 문서에는 없는데 컴파일 안되서 추가합니다.
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

# 로더에서 벡터 저장소 인덱스를 생성합니다.
index = VectorstoreIndexCreator(
    embedding=HuggingFaceEmbeddings(), # 요것도 바뀌어서 추가해줘야 합니다.
).from_loaders([loader])

query = "What are the most used hashtag?"  # 가장 많이 사용되는 해시태그는 무엇인가요?
result = index.query( # 요거 사용법이 바뀌어서 llm을 꼭 넣어줘야 합니다.
    question=query,
    llm=ChatGoogleGenerativeAI(
      model="gemini-1.5-pro-latest", # gemini-pro로 하면 에러가 나는데 요렇게 바꾸면 됨. https://github.com/google-gemini/generative-ai-python/issues/278#issuecomment-2055815213
      google_api_key=GOOGLE_API_KEY,
      temperature=0, #창의성
      max_output_tokens=204ㄱ8,
    ),
)

result



'The most used hashtag is #SemST. \n'

## 03. 웹 크롤링

호오..여기는 참으로 관심이 가는 항목.
렛츠고!

필요한 것들 설치해봅시다.

역시나 문서에 있는 걸로는 제대로 동작하지 않는다.
colab이기 때문에 playwright 동작을 하기 위한 방법이 필요하다.

이 [문서](https://jonghoonpark.com/2023/05/26/google-colab%EC%97%90%EC%84%9C-playwright-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0)를 참고하자.

In [63]:
!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!apt install ./google-chrome-stable_current_amd64.deb

!pip install nest_asyncio
!pip install pytest-playwright

!pip install -qU playwright beautifulsoup4 html2text tiktoken

import nest_asyncio
nest_asyncio.apply()

--2024-05-25 15:46:29--  https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
Resolving dl.google.com (dl.google.com)... 172.217.214.91, 172.217.214.93, 172.217.214.190, ...
Connecting to dl.google.com (dl.google.com)|172.217.214.91|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 107624500 (103M) [application/x-debian-package]
Saving to: ‘google-chrome-stable_current_amd64.deb.3’


2024-05-25 15:46:29 (253 MB/s) - ‘google-chrome-stable_current_amd64.deb.3’ saved [107624500/107624500]

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Note, selecting 'google-chrome-stable' instead of './google-chrome-stable_current_amd64.deb'
google-chrome-stable is already the newest version (125.0.6422.112-1).
0 upgraded, 0 newly installed, 0 to remove and 44 not upgraded.
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25h

이제 되려나..

근데..이건 너무 그대로 파싱하는 것이라..이래저래 귀찮다.

In [56]:
from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer
from langchain_community.document_transformers import BeautifulSoupTransformer


# 크롤링할 URL 목록을 설정합니다.
urls = ["https://n.news.naver.com/article/011/0004345031?cds=news_media_pc"]

# AsyncChromiumLoader를 사용하여 URL에서 비동기적으로 문서를 로드합니다.
loader = AsyncChromiumLoader(urls)
# 로드된 문서를 가져옵니다.
docs = loader.load()

# 0번 문서의 내용 중 중간의 500자를 출력합니다.
docs[0].page_content[6000:6500]

# html2text = Html2TextTransformer()  # HTML을 텍스트로 변환하는 객체를 생성합니다.
# docs_transformed = html2text.transform_documents(
#     docs
# )  # HTML 문서를 텍스트로 변환합니다.
# print(docs_transformed[0].page_content)

# # 변환 작업
bs_transformer = BeautifulSoupTransformer()
# HTML 문서를 변환합니다. p, li, div, a 태그의 내용을 추출합니다.
docs_transformed = bs_transformer.transform_documents(
    docs,
    # tags_to_extract=["p", "li", "div", "a"]
    tags_to_extract=["div"],
)

본문 바로가기

이전 페이지

#  서울경제

구독

**언론사를 구독하면 메인** 에서 바로 볼 수 있어요!

메인 뉴스판에서 서울경제 주요뉴스를  
볼 수 있습니다. 보러가기

**서울경제** 언론사 구독 해지되었습니다.

  * 주요뉴스
  * 숏폼
  * 정치
  * 경제
  * 사회
  * 생활
  * 세계
  * IT
  * 사설/칼럼
  * 신문보기
  * 랭킹

* * *

_PICK_ _안내_

언론사가 주요기사로  
선정한 기사입니다. 언론사별 바로가기 닫기

## 대통령실 "연금개혁, 쫓기듯 타결 안돼…청년세대 의견 반영해야"

_입력_ 2024.05.25. 오후 6:37

기사원문

_박동휘 기자_

  * _박동휘 기자_

구독 구독중

구독자

    0

응원수

    0

더보기

추천

  * 쏠쏠정보 0
  * 흥미진진 0
  * 공감백배 0
  * 분석탁월 0
  * 후속강추 0

댓글

본문 요약봇

**본문 요약봇도움말** 자동 추출 기술로 요약된 내용입니다. 요약 기술의 특성상 본문의 주요 내용이 제외될 수 있어, 전체 맥락을 이해하기
위해서는 기사 본문 전체보기를 권장합니다. 닫기

텍스트 음성 변환 서비스 사용하기

_성별_ 남성 여성

_말하기 속도_ 느림 보통 빠름

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

본문듣기 시작

닫기

글자 크기 변경하기

  * 가 _1단계_ 작게
  * 가 _2단계_ 보통
  * 가 _3단계_ 크게
  * 가 _4단계_ 아주크게
  * 가 _5단계_ 최대크게

SNS 보내기

인쇄하기

_연합뉴스_  
[서울경제]  
  
대통령실은 25일 이재명 더불어민주당 대표가 기자회견을 열어 국민연금 개혁안을 21대 국회에서 처리하자고 윤석열 대통령과 국민의힘에 거듭
요구한 데 대해 시간에 쫓기듯 졸속으로 결정해서는 안 된다고 밝혔다.  
  
대통령실 고위 관계자는 이날 "보험료율과 소득대체율 수치에 대한 결정 자체도 중요하지만, 국민연금은 국

WebBaseLoader는 HTML 웹페이지의 모든 텍스트를 추출할 때 사용하는 로더임.

WebBaseLoader의 경우 다양한 자식 클래스들이 있어서 이걸 쓰면 알아서 파싱을 잘 해주는 듯함.

In [59]:
from langchain_community.document_loaders import WebBaseLoader

# 웹 페이지 "https://news.naver.com/"에서 데이터를 로드하는 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader("https://news.naver.com/")

# SSL 인증서 오류 우회
loader.requests_kwargs = {"verify": False}

# 로더를 사용하여 데이터를 불러옵니다.
web_data = loader.load()
# 불러온 데이터를 출력합니다.
display(web_data[0].page_content[2000:2500].replace("\n", ""))





'의원이 "특검을 당당매일경제05월 26일 00:12구독강형욱 “아내는 통일교 2세…스무 살에 탈퇴했다”직원들에 대한 ‘갑질’ 논란에 휘말린 유명 반려견 훈련사 강형욱이 아내의 종교에 대해 처음으로 입을 열었다. 강형욱은 아내 수잔 엘더가 과거 통일교였다고 밝혔다. 25일 디스패치는 강형욱과 나눈 인터뷰를 공개했다. 서울경제05월 26일 00:03구독“5% 확률로 살아돌아와”…금지된 박수소리 울려퍼진 英의회 무슨 일의사당 내에서 박수치는 게 허용되지 않는 영국에서 최근 모든 의원이 기립박수를 치는 일이 있었다. 박수를 받은 주인공은 보수당 하원 의원인 크레이그 맥킨레이다. 25일(현지시간) 영국 일간 텔레그래프에 따르면 맥킨레새로보기노컷뉴스05월 26일 00:02구독이재명 "\'소득대체율 44%\' 연금개혁 여당안 수용"…與 "언론플레이"(종합)더불'

찾아보니 LLM에게 전달해서 파싱을 할 수도 있나보다.

한번 해보자



In [65]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer
from langchain_community.document_transformers import BeautifulSoupTransformer
from langchain.chains import create_extraction_chain

# 크롤링할 URL 목록을 설정합니다.
urls = ["https://n.news.naver.com/article/011/0004345031?cds=news_media_pc"]

# AsyncChromiumLoader를 사용하여 URL에서 비동기적으로 문서를 로드합니다.
loader = AsyncChromiumLoader(urls)
# 로드된 문서를 가져옵니다.
docs = loader.load()

# # 변환 작업
bs_transformer = BeautifulSoupTransformer()
# HTML 문서를 변환합니다. p, li, div, a 태그의 내용을 추출합니다.
docs_transformed = bs_transformer.transform_documents(
    docs,
    tags_to_extract=["div"],
)

splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
  chunk_size=1000, chunk_overlap=0
)
splits = splitter.split_documents(docs_transformed)

schema = {
    "properties": {
        "뉴스 제목": {"type": "string"},
        "언론사": {"type": "string"},
    },
    "required": ["뉴스 제목", "언론사"],
}

def extract(content: str, schema: dict):
    return create_extraction_chain(schema=schema, llm=llm).run(content)

from tqdm import tqdm

extracted_contents = []
for split in tqdm(splits):
    extracted_content = extract(content=split.page_content, schema=schema)
    extracted_contents.extend(extracted_content)

  0%|          | 0/55 [00:00<?, ?it/s]


TypeError: GenerativeServiceClient.generate_content() got an unexpected keyword argument 'function_call'

여러 페이지 로드도 가능하다.

In [60]:
# 웹 페이지 URL 목록을 사용하여 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader(["https://news.naver.com/", "https://news.daum.net"])
docs = loader.load()  # 지정된 웹 페이지에서 문서를 로드합니다.
# 로드된 문서를 출력합니다.
print("Naver")
print(docs[0].page_content.replace("\n", "")[200:1000])
print("===" * 20)
print("Daum")
print(docs[1].page_content.replace("\n", "")[:1000])

Naver
                        구독설정                                경향신문05월 25일 21:58구독마지막 국회 본회의 앞두고...시민사회·야7당 “채 상병 특검법 통과시켜라”시민사회단체와 7개 야당이 오는 28일 21대 국회 마지막 본회의에서 ‘채 상병 특별검사법’의 재의결을 촉구했다. 더불어민주당, 정의당, 새로운미래, 조국혁신당, 진보당, 기본소득당, 사회민주당 등 야7당 정치인 및JIBS05월 25일 22:32구독레인지로버 내팽개치고 떠난 '중국 왕서방' 대포차 악용  우려차량을 방치하고 제주를 떠난 중국인들이 잇따르면서 대포차 양산 우려를 키우고 있습니다. 오늘(25일) 서귀포시에 따르면 서귀포시 안덕면에 살던 중국인 A 씨가 몰던 레인지로버를 비롯한 외국인 소유주 차량 15대에 최디지털타임스05월 25일 23:15구독"300만원 줄게"…경복궁 낙서 시킨 30대 `이팀장` 구속법원 "증거인멸·도망 염려" 지난해 10대 청소년들에게 경복궁 담장에 스프레이로 '영화공짜' 등의 낙서를 하도록 사주한 30대 남성이 25일 구속됐다. 이날 법조계에 따르면 서울중앙지법 남천규 영장전담 부장판사는 문오마이뉴스05월 25일 19:23구독"이거 페미 영화예요?" 남자만 나오는 '매드맥스' 신작의 실체* 이 글에는 영화의 스포일러가 포함돼 있습니다. ▲ <퓨리오사: 매드맥스 사가> 메인 포스터 ⓒ 워너브러더스 코리아 "<매드맥스>가 왜 페미임? 마초 영화 그 자체인데." 새로운 영화가 개봉할 때마다 팬들끼리 '페SBS Biz05월 25일 20:58구독"사장님, 여기 소주 한 잔
Daum
홈 | 다음뉴스본문 바로가기메뉴 바로가기뉴스관련 서비스연예스포츠 뉴스 메인메뉴홈사회정치경제국제문화IT연재포토팩트체크홈이슈 기사 목록국제                                    바이든 "한미일 3각 협력, 누구도 상상 못 한 일"                                문화              

여러 URL을 동시에 로드도 되고, requests_per_second를 조정해서 제한할수도 있다.

In [61]:
# 웹 페이지 URL 목록을 사용하여 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader(["https://news.naver.com/", "https://news.daum.net"])
loader.requests_per_second = 1  # 초당 요청 수를 1로 설정합니다.
docs = loader.aload()  # 지정된 웹 페이지에서 문서를 로드합니다.
# 로드된 문서를 출력합니다.
print("Naver")
print(docs[0].page_content.replace("\n", "")[200:1000])
print("===" * 20)
print("Daum")
print(docs[1].page_content.replace("\n", "")[:1000])

Fetching pages: 100%|##########| 2/2 [00:01<00:00,  1.17it/s]


Naver
                        구독설정                                kbc광주방송05월 25일 23:14구독한 달간 맥도날드만 먹었더니..'슈퍼사이즈 미' 스펄록 감독 별세패스트푸드의 폐해를 낱낱이 고발한 다큐멘터리 영화 '슈퍼 사이즈 미'(Super Size Me)의 감독 모건 스펄록이 암 투병 끝에 향년 53세로 별세했다고 AP통신이 24일(현지시각) 보도했습니다. 지난 2004년JTBC05월 25일 23:32구독동영상재생시간04:34[단독] '상사 욕설' 녹음했다가 고소당한 공공기관 직원…법정에선 '기립박수' 쏟아졌다해양수산부 산하의 한 공공기관에서 직장 내 괴롭힘을 호소하는 동료를 위해 신고에 나섰던 연구원이 오히려 고소·고발을 당했습니다. 법정에 피고인으로 서야 했는데요. 그 재판 결과가 어땠을지, 부글터뷰 이상엽 기자의 단이코노미스트05월 26일 00:18구독9년 전 ‘다이소 화장품’에 혹평했던 유튜버, 지금은?[허태윤의 브랜드 스토리]다이소의 진화는 경이롭다. 생활용품을 중심으로 ‘1000원 경영’을 해온 다이소가 영역을 전방위로 넓히고 있다. 특히 뷰티 시장에서의 진화는 이 분야 독주체제를 구가하고 있던 ‘CJ올리브 영’을 긴장하게 하고 있다.MBN05월 26일 00:08구독10대에 경복궁 낙서 지시 '이 팀장' 구속…"증거인멸·도망 우려"10대 학생들에게 경복궁 담벼락 낙서를 지시한 '이 팀장' 강 모 씨가 오늘(25일) 구속됐습니다. 서울중앙지법은 문화재보호법상 손상 또는 은닉 및 저작권법 위반 등 혐의를 받는 강 씨에 대해 증거인멸 및 도주 우려세계일
Daum
홈 | 다음뉴스본문 바로가기메뉴 바로가기뉴스관련 서비스연예스포츠 뉴스 메인메뉴홈사회정치경제국제문화IT연재포토팩트체크홈이슈 기사 목록국제                                    바이든 "한미일 3각 협력, 누구도 상상 못 한 일"                                문화              

## 04. 판다스 데이터프레임

이건 csv를 가져다가 쓸 때 좋아보임.

https://wikidocs.net/233823

를 그냥 참고할 것.
