In [16]:
%pip install --quiet bs4 newspaper3k lxml_html_clean python-dotenv pymysql mysql-connector-python sqlalchemy pandas

%pip install langchain_text_splitters langchain-community langchain langchain-chroma langchain-teddynote langchain-openai

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [None]:
%pip install --upgrade newspaper3k

In [7]:
import bs4
from langchain import hub
from langchain_community.llms import GPT4All
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_chroma import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_community.embeddings import GPT4AllEmbeddings
from langchain_core.output_parsers import StrOutputParser
from langchain_core.callbacks import StreamingStdOutCallbackHandler
from newspaper import Article
from bs4 import BeautifulSoup
from langchain.document_loaders import WebBaseLoader
from langchain.schema import Document
from sqlalchemy import create_engine, MetaData, Table, select, Column, Integer, String, Text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from dotenv import load_dotenv
import os
import requests


In [19]:
load_dotenv()

CLIENT_ID = os.getenv("NAVER_CLIENT_ID")
CLIENT_SECRET = os.getenv("NAVER_CLIENT_SECRET")
DB_HOST = os.getenv("DB_HOST")
DB_PORT = os.getenv("DB_PORT")
DB_USERNAME = os.getenv("DB_USERNAME")
DB_PASSWORD = os.getenv("DB_PASSWORD")
DB_SCHEME = os.getenv("DB_SCHEME")

In [21]:

def search_naver_news(query, display=5, start=1, sort='sim'):
    url = "https://openapi.naver.com/v1/search/news.json"
    headers = {
        "X-Naver-Client-Id": CLIENT_ID,
        "X-Naver-Client-Secret": CLIENT_SECRET
    }
    params = {
        "query": query,  # 검색어
        "display": display,  # 가져올 결과 수
        "start": start,  # 검색 시작 위치
        "sort": sort  # 정렬 기준: date(날짜순), sim(유사도순)
    }

    response = requests.get(url, headers=headers, params=params)

    if response.status_code == 200:
        return response.json() 
    else:
        print("Error:", response.status_code)
        return None

In [22]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install -qU langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("RAG")

LangSmith 추적을 시작합니다.
[프로젝트명]
RAG


In [30]:
engine = create_engine(f'mysql+pymysql://{DB_USERNAME}:{DB_PASSWORD}@{DB_HOST}/{DB_SCHEME}')

Session = sessionmaker(bind=engine)
session = Session()

metadata = MetaData()

stock_table = Table('STOCK', metadata, autoload_with=engine)

stmt = select(stock_table.c.STOCK_ID, stock_table.c.STOCK_NAME)

result = session.execute(stmt)

stock_list = [(row[0], row[1]) for row in result]


In [31]:
Base = declarative_base()

class News(Base):
    __tablename__ = 'NEWS'
    news_id = Column(Integer, primary_key=True, autoincrement=True)
    stock_id = Column(Integer, nullable=False)
    title = Column(String(20), nullable=True)
    content = Column(Text, nullable=True)
    link = Column(String(100), nullable=True)
    image = Column(String(100), nullable=True)

engine = create_engine(f'mysql+pymysql://{DB_USERNAME}:{DB_PASSWORD}@{DB_HOST}/{DB_SCHEME}')

Session = sessionmaker(bind=engine)
session = Session()

metadata = MetaData()

def save_to_database(news_data):
    try:
        for news_item in news_data:
            data = News(
                stock_id=news_item['stock_id'],
                title=news_item['title'],
                link=news_item['link'],
                content=news_item['content'],
                image=news_item['image']
            )
            session.add(data)

        session.commit()
    except Exception as e:
        session.rollback() 
        print(f"An error occurred: {e}")


  Base = declarative_base()


In [50]:

def collect_news_data(news_data_list, docs, result_list):
  print("start")
  for news_item in news_data_list:
    stock_id = news_item['stock_id']
    for news_url in news_item['news_url_list']:
      if (news_url.startswith("https://n.news.naver.com") == False):
        continue
      response = requests.get(news_url)
      html_content = response.content

      soup = BeautifulSoup(html_content, 'html.parser')

      title = soup.find("div", class_="media_end_head_title").get_text(strip=True)
      content = soup.find("div", class_="newsct_article _article_body").get_text(strip=True)
      # publish_date = soup.find("span", class_="media_end_head_info_datestamp_time").get_text(strip=True)
      contents_div = soup.find("div", id="contents")
      image_tag = contents_div.find("img")
      if image_tag:
        # 먼저 'src' 속성을 확인하고 없으면 'data-src' 속성을 확인
        image_src = image_tag.get('src') or image_tag.get('data-src')
      # publisher = soup.find("img", class_="media_end_head_top_logo_img")['title']

      result_list.append({
        'stock_id': stock_id,
        'title': title,
        'content': content,
        'link': news_url,
        # 'publish_date': publish_date,
        'image': image_src
      })

      doc_content = title + "\n" + content
      doc = Document(page_content=doc_content)
      docs.append(doc)
    # else:
    #   article = Article(news_url, language = 'ko') 

    #   article.download()
    #   article.parse()
    #   title = article.title
    #   text = article.text
    #   date = article.publish_date
    #   image_url = article.top_image

    #   doc_content = title + "\n" + text
    #   doc = Document(page_content=doc_content)
    #   docs.append(doc)

In [49]:

def news_test():
  news_data_list = []

  for stock_id, stock_name in stock_list:
    result = search_naver_news(stock_name)
    
    
    news_url_list = []
    all_splits = []

    if result:
      for idx, item in enumerate(result['items']):
        news_url_list.append(item['link'])

    news_data_list.append({
      'stock_id' : stock_id,
      'news_url_list' : news_url_list
    })
    result_list = []

    collect_news_data(news_data_list, all_splits, result_list)

    print(result_list)

start
[{'stock_id': 1, 'title': "[단독]삼천당제약, '아일리아' 특허소송 당했다", 'content': '리제네론·바이엘, 특허침해 제기…제조·사용·판매 금지 요구국내서 바이오시밀러 차단 후 해외서도 특허공격 이어갈듯안과질환 치료제 \'아일리아\'의 바이오시밀러 출시를 준비 중인 삼천당제약이\xa0오리지널 제약사로부터 국내에서 특허침해로 두 차례 피소 당한 사실이 뒤늦게 알려졌다. 해외 파트너사도 관련 소송에 휘말리면서 회사의 특허회피 전략에 대한 불안감이 커지고 있다.리제네론과 바이엘은 지난 1월 삼천당제약과 옵투스제약이 자사의 특허를 침해했다며\xa0서울중앙지방법원에 손해배상 청구소송을 제기했다. 이어 지난 5월 두 회사가 또 다른 특허 2건을 침해했다고 주장하며 손해배상과 해당 제품의 제조와 사용, 판매를 금지해달라는 명령을 같은 법원에 청구했다.삼천당제약은 소송가액을 밝히지 않았으나\xa0리제네론은 지난해 1월과\xa0올해 5월 아일리아 바이오시밀러를 국내에 출시하려던\xa0삼성바이오에피스에\xa0각각 10억원, 3억원 규모의 손해배상 청구 소송을 제기한 바 있다. 만약 법원이 금지명령을\xa0인용하면 제품출시가 어려워져\xa0금전적인 손해보다 더 큰 피해를 볼\xa0수 있다.리제네론은 비슷한 시기 셀트리온을 상대로도 국내에서 특허침해 소송을 제기했다. 셀트리온은 지난 2021년부터 리제네론과 아일리아\xa0특허침해 소송을 진행하고 있다. 지난 5월 패소해\xa0현재 항소심을\xa0이어가고 있다.삼천당제약은 현재 리제네론과 바이엘이 공동 개발한 아일리아의 바이오시밀러 \'SCD411\'을\xa0개발하고 있으며 옵투스제약과 이 제품의 국내 공동판매 계약을 맺었다. 지난 11월\xa0식품의약품안전처에 품목허가를 신청해 현재 결과를 기다리고 있다.이번 피소 소식이 중요한 이유는 삼천당제약이 현재 이\xa0제품의 출시를 추진 중인\xa0유럽, 미국 등에서도 비슷한 유형의 특허소송에 직면할 수 있기 때문이다.삼천당제약은 그간 독자적인 

KeyboardInterrupt: 

In [51]:
news_data_list = []

for stock_id, stock_name in stock_list:
  result = search_naver_news(stock_name)

  news_url_list = []
  all_splits = []

  if result:
    for idx, item in enumerate(result['items']):
      news_url_list.append(item['link'])

  news_data_list.append({
    'stock_id' : stock_id,
    'news_url_list' : news_url_list
  })
  
  if(len(news_data_list) >= 50):
    print("now saving...")
    result_list = []
    collect_news_data(news_data_list, all_splits, result_list)
    save_to_database(result_list)
    print(f'{len(result_list)} news saved')
    news_data_list = []


Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
now saving...
start
91 news saved
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
now saving...
start
73 news saved
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
now saving...
start
56 news saved
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
now saving...
start
51 news saved
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
Error: 429
now saving...
start
74 news saved
Error: 429
Error

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

for news_url in news_data:
    article = Article(news_url, language = 'ko') 

    article.download()
    print(news_url)
    article.parse()
    title = article.title
    text = article.text
    date = article.publish_date
    image_url = article.top_image

    doc_content = title + "\n" + text
    doc = Document(page_content=doc_content)
    docs = [doc] 

    # add_to_verctor_db(text_splitter, docs)
    print(f"URL: {news_url}\n {title}\n {text}\n {date}\n{image_url}\n")

In [None]:
all_splits = []


for news_url in news_data:
    if news_url.startswith("https://n.news.naver.com"):
        # 각 뉴스 URL에 대해 WebBaseLoader를 설정합니다.
        loader = WebBaseLoader(
            web_paths=(news_url,),
            bs_kwargs=dict(
                parse_only=bs4.SoupStrainer(
                    "div",
                    attrs={"class": ["newsct_article _article_body", "media_end_head_title"]},
                )
            ),
        )
        article = Article(news_url, language = 'ko') 

        article.download()
        article.parse()

        image_url = article.top_image
        docs = loader.load()
        print('docs :{docs}\n image_url :{image_url}')
    else:

        article = Article(news_url, language = 'ko') 

        article.download()
        article.parse()
        title = article.title
        text = article.text
        date = article.publish_date
        image_url = article.top_image

        doc_content = title + "\n" + text
        doc = Document(page_content=doc_content)
        docs = [doc] 

    print(f"URL: {news_url} {image_url}")
    
    splits = text_splitter.split_documents(docs)
    all_splits.extend(splits)

vectorstore = Chroma.from_documents(documents=all_splits, embedding=GPT4AllEmbeddings())

retriever = vectorstore.as_retriever()


## OPENAI 모델

In [9]:

from langchain_openai import ChatOpenAI

llm = ChatOpenAI()

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
)

loader = 
document_list = loader.load_and_split(text_splitter=text_splitter)

In [None]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings

# 환경변수를 불러옴
load_dotenv()

# OpenAI에서 제공하는 Embedding Model을 활용해서 `chunk`를 vector화
embedding = OpenAIEmbeddings(model='text-embedding-3-large')

In [None]:

from langchain_chroma import Chroma

# 데이터를 처음 저장할 때 
# database = Chroma.from_documents(documents=document_list, embedding=embedding, collection_name='chroma-tax', persist_directory="./chroma")

# 이미 저장된 데이터를 사용할 때 
database = Chroma(collection_name='chroma-tax', persist_directory="./chroma", embedding_function=embedding)

In [None]:
query = '연봉 5천만원인 직장인의 소득세는 얼마인가요?'

# `k` 값을 조절해서 얼마나 많은 데이터를 불러올지 결정
retrieved_docs = database.similarity_search(query, k=3)

In [18]:
from langchain_core.prompts import PromptTemplate

# prompt = PromptTemplate.from_template(
#     """당신은 질문-답변(Question-Answering)을 수행하는 친절한 AI 어시스턴트입니다. 당신의 임무는 주어진 문맥(context) 에서 주어진 질문(question) 에 답하는 것입니다.
# 검색된 다음 문맥(context) 을 사용하여 질문(question) 에 답하세요. 만약, 주어진 문맥(context) 에서 답을 찾을 수 없다면, 답을 모른다면 `주어진 정보에서 질문에 대한 정보를 찾을 수 없습니다` 라고 답하세요.
# 한글로 답변해 주세요. 단, 기술적인 용어나 이름은 번역하지 않고 그대로 사용해 주세요.

# #Question: 
# {question} 

# #Context: 
# {context} 

# #Answer:"""
# )

prompt = PromptTemplate.from_template(
    """당신은 최신 금융 동향을 분석하고 제공하는 친절한 AI 어시스턴트입니다. 당신의 임무는 주어진 문맥(context)을 바탕으로 금융 시장에 대한 동향을 전달하는 것입니다.
검색된 다음 문맥(context)을 사용하여 최신 금융 시장 동향을 요약해 주세요. 만약, 주어진 문맥(context)에서 동향을 찾을 수 없다면, `주어진 정보에서 금융 시장 동향에 대한 정보를 찾을 수 없습니다`라고 답하세요.
한글로 답변해 주세요. 단, 기술적인 용어나 이름은 번역하지 않고 그대로 사용해 주세요.

#문맥(Context): 
{context} 

#금융 시장 동향 요약:"""
)

In [24]:
import pandas as pd
from sqlalchemy import create_engine

def fetchNews():

  db_user = DB_USERNAME 
  db_password = DB_PASSWORD  
  db_host = DB_HOST  
  db_port = DB_PORT 
  db_name = DB_SCHEME  

  # SQLAlchemy 엔진 생성 (MySQL 연결 문자열)
  engine = create_engine(f'mysql+pymysql://{DB_USERNAME}:{DB_PASSWORD}@{DB_HOST}/{DB_SCHEME}')


  # SQL 쿼리 실행하여 title과 content 가져오기
  query = "SELECT TITLE, CONTENT FROM NEWS"
  news_data = pd.read_sql(query, engine)

  # 데이터 미리 보기 (첫 5개의 데이터)
  return news_data

In [30]:
import bs4
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.vectorstores import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)

newsData = fetchNews()
documents = []

for index, row in newsData.iterrows():
    title = row['TITLE']
    content = row['CONTENT']
    
    document = Document(
        page_content=content,
        metadata={"title": title}
    )
    documents.append(document)

splits = text_splitter.split_documents(documents)
def chunk_documents(documents, chunk_size):
    for i in range(0, len(documents), chunk_size):
        yield documents[i:i + chunk_size]

# 최대 배치 크기를 5461로 설정
batch_size = 5461
splits = text_splitter.split_documents(documents)  # 문서 분리

# 각 배치별로 Chroma에 저장
for doc_batch in chunk_documents(splits, batch_size):
    vectorstore = Chroma.from_documents(
        documents=doc_batch,
        embedding=OpenAIEmbeddings(),
        # 다른 필요한 인자들 추가
    )
retriever = vectorstore.as_retriever()


system_prompt = (
"""당신은 최신 금융 동향을 분석하고 제공하는 친절한 AI 어시스턴트입니다. 당신의 임무는 주어진 문맥(context)을 바탕으로 금융 시장에 대한 동향을 전달하는 것입니다.
검색된 다음 문맥(context)을 사용하여 최신 금융 시장 동향을 요약해 주세요. 만약, 주어진 문맥(context)에서 동향을 찾을 수 없다면, `주어진 정보에서 금융 시장 동향에 대한 정보를 찾을 수 없습니다`라고 답하세요.
한글로 답변해 주세요. 단, 기술적인 용어나 이름은 번역하지 않고 그대로 사용해 주세요.

#문맥(Context): 
{context} 

#금융 시장 동향 요약:"""
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)

question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

ValueError: Batch size 20964 exceeds maximum batch size 5461

In [33]:
result = rag_chain.invoke({"input": "삼성전자에 대한 전망을 알려줘"})

NameError: name 'rag_chain' is not defined

In [19]:
EEVE_Korean_Instruct = "C:/Users/David/AppData/Local/nomic.ai/GPT4All/EEVE-Korean-Instruct-10.8B-v1.0-Q4_0.gguf"  # 원하는 로컬 파일 경로로 대체하세요
gpt4all_falcon = "C:/Users/David/AppData/Local/nomic.ai/GPT4All/gpt4all-falcon-newbpe-q4_0.gguf"
llama3_8b ="C:\Users\student\AppData\Local\nomic.ai\GPT4All\Meta-Llama-3-8B-Instruct.Q4_0.gguf"


In [20]:
llm = GPT4All(
    model=llama3_8b,
    # backend="gpu",  # GPU 설정
    streaming=True,  # 스트리밍 설정
    callbacks=[StreamingStdOutCallbackHandler()],  # 콜백 설정
)

# 체인 생성
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [21]:
from langchain_teddynote.messages import stream_response

In [None]:
answer = rag_chain.stream("금융 시장 동향을 요약해주세요.")
stream_response(answer)

In [None]:
response = llm("한국어로 답변할 수 있습니다?")

response