# RAG(Retrieval-Augmented Generation) based QA Chat bot

## 0. 미션
참조
- 정보: https://cloud.google.com/vertex-ai/docs/generative-ai/open-models/use-gemma?hl=ko
- 2b: https://huggingface.co/google/gemma-2b
- 2b instruction tuning: https://huggingface.co/google/gemma-1.1-2b-it
- 7b: https://huggingface.co/google/gemma-7b
- 7b instruction tuning: https://huggingface.co/google/gemma-1.1-7b-it
- BM25: https://github.com/dorianbrown/rank_bm25
- SentenceTransformers: https://www.sbert.net/

미션
- 질문에 대해서 적절한 문서를 검색하고, 검색된 문서에 근거해서 답변하는 RAG 챕봇을 만들어봅니다.
- 문서 검색은 2일차 실습 결과를 사용합니다.
- 검색된 문서에 근거해서 답변하는 기능은 구글의 gemma-2b-it SLLM을 사용합니다.
- 필요에 따라서 gemma-2b-it를 fine-tuning 합니다.

## 1. 라이브러리 설치 (최초 한번만 실행)
- 라이브러리는 colab이 최초 실행 또는 종료 후 실행된 경우 한번만 실행하면 됩니다.
- GPU 메모리 부족등의 이유로 colab 세션을 다시 시작한 경우는 설치할 필요 없습니다.
- colab 세션을 다시 시작하려면 '런타임' >> '세션 다시 시작'을 선택하세요.

In [2]:
!pip install -q -U transformers==4.38.2
!pip install -q -U datasets==2.18.0
!pip install -q -U bitsandbytes==0.42.0
!pip install -q -U peft==0.9.0
!pip install -q -U trl==0.7.11
!pip install -q -U accelerate==0.27.2
!pip install -q -U rank_bm25==0.2.2
!pip install -q -U sentence-transformers==2.7.0
!pip install -q -U wikiextractor==3.0.6
!pip install -q -U konlpy==0.6.0

## 2. 구글 드라이브 연결 (최초 한번만 실행)
- 구글 드라이브는 데이터 저장 및 학습 결과를 저장하기 위해서 사용합니다.
- 구글 드라이브는 colab이 최초 실행 또는 종료 후 실행된 경우 한번 만 연결하면 됩니다.

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## *3. 환경 (매번 필수 실행)
- 환경은 colab 세션을 처음 시작하거나 다시 시작한 경우 실행되어야 합니다.
- 프로젝트 진행에 필요한 환경을 설정합니다.

### 3.1. 라이브러리 Import

In [1]:
import os
import glob
import json

import numpy as np
import pandas as pd
from tqdm.auto import tqdm

import torch
import konlpy
from rank_bm25 import BM25Okapi
from sentence_transformers import SentenceTransformer
from transformers import (AutoTokenizer,
                          AutoModelForCausalLM,
                          BitsAndBytesConfig,
                          pipeline)

### 3.2. HuggingFace login
- 이번 프로젝트는 HuggingFace 로그인 해야만 진행이 가능합니다.
- HuggingFace 계정이 없다면 아래 URL에 접속해서 가입하시기 바랍니다.
  - https://huggingface.co/
- HuggingFace 로그인을 위해서 아래 URL에 접속해서 'User Access Token'을 생성하고 복사해서 Token에 입력하세요.
  - https://huggingface.co/settings/tokens

In [2]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [3]:
# access token을 복사하세요.
HF_TOKEN = "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"

### 3.3. 환경정보 설정
- WORKSPACE
  - 학습 데이터 및 학습결과를 저장하기 위한 경로입니다.
  - 필요할 경우 적당한 경로로 변경할 수 있습니다.
  - 경로를 변경 할 경우 전체 경로에 공백이 포함되지 않도록 주의해 주세요.
- SEARCH_MODEL_ID
  - 검색을 위한 SentenceTransformer 입니다.
  - 서울대학교 컴퓨터언어학_자연어처리 연구실에서 공개한 모델입니다.
  - https://huggingface.co/snunlp/KR-SBERT-V40K-klueNLI-augSTS
- SLLM_MODEL_ID
  - 문서에 근거해서 답변 기능을 위한 SLLM 입니다.
  - 구글에서 공개한 gemma-2b를 Instruction tunned한 버전입니다.
  - https://huggingface.co/google/gemma-2b-it
- CHUNK_FN
  - 문서를 일정한 단위로 분할해서 저장할 파일 이름
  - 데이터베이스를 대신하는 역할
  - 실제 기능을 만들 때는 DB를 사용해야 합니다.


In [4]:
WORKSPACE = '/content/drive/MyDrive/nlp-project'
SEARCH_MODEL_ID = 'snunlp/KR-SBERT-V40K-klueNLI-augSTS'
SLLM_MODEL_ID = 'google/gemma-1.1-2b-it'
SLLM_MODEL_ID_2 = 'google/gemma-1.1-7b-it'
CHUNK_FN = os.path.join(WORKSPACE, "data", "chunk_db.json")

## 4. SLLM RAG tutorial (재시작 필요)
- SLLM에 질문과 근거 문서를 함께 입력하고 질문에 맞는 답변을 근거 문서로 부터 하도록 하는 과정을 이해하기 위한 과정입니다.
- 이 과정을 시작하기 전 colab 세션을 다시 시작하세요.
- colab 세션을 다시 시작해야 하는 이유는 LLM의 model의 크기가 너무 크기 때문에 GPU의 메모리를 초기화 하기 위해서 입니다.

### 4.1. model load with 4 bits
- 2B token을 가진 gemma를 그냥 로딩할 경우는 약 9G의 GPU vRAM이 필요합니다.
- 4bit 양자화를 할 경우 2.2G의 GPU vRAM 필요.

In [7]:
# declare 4 bits quantize
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
# load 4 bits model
model = AutoModelForCausalLM.from_pretrained(SLLM_MODEL_ID,
                                             device_map='auto',
                                             quantization_config=quantization_config,
                                             token=HF_TOKEN)
# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(SLLM_MODEL_ID,
                                          add_special_tokens=True,
                                          token=HF_TOKEN)
tokenizer.padding_side = 'right'

config.json:   0%|          | 0.00/618 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/34.2k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

### 4.2. pipeline
- https://huggingface.co/docs/transformers/main_classes/pipelines
- huggingface에서 inference를 쉽게 하기 위해 정의한 라이브러리.

In [8]:
pipe = pipeline("text-generation",
                model=model,
                tokenizer=tokenizer,
                max_new_tokens=512)
pipe

<transformers.pipelines.text_generation.TextGenerationPipeline at 0x7d56a2b35690>

### 4.3. sllm prompt
- https://huggingface.co/google/gemma-1.1-2b-it
- 아래와 같은 형식이 gemma의 promt 형식 입니다.
```
<bos><start_of_turn>user
{content}<end_of_turn>
<start_of_turn>model
```
- NSMC 추론을 위한 프롬프트를 생성하는 과정입니다.

In [9]:
query = "지미 카터 대통령이 졸업한 대학교는?"
chunk_list = [
    "지미 카터\n제임스 얼 “지미” 카터 주니어(, 1924년 10월 1일~)는 민주당 출신 미국의 제39대 대통령 (1977-81)이다.\n생애.\n어린 시절.\n지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.\n조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 \"땅콩 농부\" (Peanut Farmer)로 알려졌다.\n정계 입문.\n1962년 조지아주 상원 의원 선거에서 낙선하였으나, 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주지사 선거에 낙선하지만, 1970년 조지아 주지사 선거에서 당선됐다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.\n대통령 재임.\n1976년 미합중국 제39대 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책을 내세워서 많은 지지를 받았으며 제럴드 포드 대통령을 누르고 당선되었다.\n카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.",
    "수학\n수학(, , math)은 수, 양, 구조, 공간, 변화 등의 개념을 다루는 학문이다. 널리 받아들여지는 명확한 정의는 없으나 현대 수학은 일반적으로 엄밀한 논리에 근거하여 추상적 대상을 탐구하며, 이는 규칙의 발견과 문제의 제시 및 해결의 과정으로 이루어진다. 수학은 그 발전 과정에 있어서 철학, 과학과 깊은 연관을 맺고 있으며, 엄밀한 논리와 특유의 추상성, 보편성에 의해 다른 학문들과 구별된다. 특히 수학은 과학의 여느 분야들과는 달리 자연계에서 관측되지 않는 개념들에 대해서까지 이론을 추상화시키는 특징을 보이는데, 수학자들은 그러한 개념들에 대한 추측을 제시하고 적절하게 선택된 정의와 공리로부터 엄밀한 연역을 거쳐 그 진위를 파악한다.\n수학의 개념들은 기원전 600년 경에 활동하며 최초의 수학자로도 여겨지는 탈레스의 기록은 물론, 다른 고대 문명들에서도 찾아볼 수 있으며 인류의 문명과 함께 발전해 왔다. 오늘날 수학은 자연과학, 사회과학, 공학, 의학 등 거의 모든 학문에서도 핵심적인 역할을 하며 다양한 방식으로 응용된다.\n수학을 의미하는 mathematics라는 단어는 '아는 모든 것', '배우는 모든 것'이라는 뜻의 고대 그리스어 'máthēma'(μάθημα) 및 그 활용형 mathēmatikós(μαθηματικός)에서 유래되었다.",
    "수학 상수\n수학에서 상수란 그 값이 변하지 않는 불변량으로, 변수의 반대말이다. 물리 상수와는 달리, 수학 상수는 물리적 측정과는 상관없이 정의된다.\n수학 상수는 대개 실수체나 복소수체의 원소이다. 우리가 이야기할 수 있는 상수는 (거의 대부분 계산 가능한) 정의가능한 수이다.\n특정 수학 상수, 예를 들면 골롬-딕맨 상수, 프랑세즈-로빈슨 상수, formula_1, 레비 상수와 같은 상수는 다른 수학상수 또는 함수와 약한 상관관계 또는 강한 상관관계를 갖는다.",
    "문학\n문학(文學, )은 언어를 예술적 표현의 제재로 삼아 새로운 의미를 창출하여, 인간과 사회를 진실되게 묘사하는 예술의 하위분야이다. 간단하게 설명하면, 언어를 통해 인간의 삶을 미적(美的)으로 형상화한 것이라고 볼 수 있다. 문학은 원래 문예(文藝)라고 부르는 것이 옳으며, 문학을 학문의 대상으로서 탐구하는 학문의 명칭 역시 문예학이다. 문예학은 음악사학, 미술사학 등과 함께 예술학의 핵심분야로서 인문학의 하위범주에 포함된다.\n일반적으로 문학의 정의는 텍스트들의 집합이다. 각각의 국가들은 고유한 문학을 가질 수 있으며, 이는 기업이나 철학 조류, 어떤 특정한 역사적 시대도 마찬가지이다. 흔히 한 국가의 문학을 묶어서 분류한다. 예를 들어 고대 그리스어, 성서, 베오울프, 일리아드, 그리고 미국 헌법 등이 그러한 분류의 범주에 들어간다. 좀 더 일반적으로는 문학은 특정한 주제를 가진 이야기, 시, 희곡의 모음이라 할 수 있다. 이 경우, 이야기, 시, 그리고 희곡은 민족주의적인 색채를 띨 수도 아닐 수도 있다. 문학의 한 부분으로서 특정한 아이템을 구분 짓는 일은 매우 어려운 일이다. 어떤 사람들에게 \"문학\"은 어떠한 상징적인 기록의 형태로도 나타날 수 있는 것이다. (이를테면 이미지나 조각, 또는 문자로도 나타날 수 있다.) 그러나 또다른 사람들에게 있어 문학은 오직 문자로 이루어진 텍스트로 구성된 것만을 포함한다. 좀 더 보수적인 사람들은 그 개념이 꼭 물리적인 형태를 가진 텍스트여야 하고, 대개 그러한 형태는 종이 등의 눈에 보이는 매체에서 디지털 미디어까지 다양할 수 있다.",
    "화학\n화학(化學)은 물질의 성질, 조성, 구조, 변화 및 그에 수반하는 에너지의 변화를 연구하는 자연과학(自然科學)의 한 분야이다. 물리학(物理學)도 역시 물질을 다루는 학문이지만, 물리학이 원소(元素)와 화합물(化合物)을 모두 포함한 물체의 운동과 에너지, 열적·전기적·광학적·기계적 속성을 다루고 이러한 현상으로부터 통일된 이론을 구축하려는 것과는 달리 화학에서는 물질 자체를 연구 대상으로 한다. 화학은 이미 존재하는 물질을 이용하여 특정한 목적에 맞는 새로운 물질을 합성하는 길을 제공하며, 이는 농작물(農作物)의 증산, 질병의 치료 및 예방, 에너지 효율 증대, 환경오염(環境汚染) 감소 등 여러 가지 이점을 제공한다.\n어원.\n화학은 연금술사들이 물질을 섞으며 발전시켰기 때문에 화학을 뜻하는 영어 ‘케미스트리(chemistry)’는 연금술을 뜻하는 단어 ‘알케미(alchemy)’에서 비롯하였다. 이는 다시 아랍어 ‘알 키미야(, al-kīmiyāʾ)’에서 왔는데, 이 단어의 어원에 대해서는 여러 가지 설이 있다.\n‘화학(化學)’이란 단어는 물질의 변화를 다루는 학문이라는 점에 착안한 번역어이다. 이 번역어는 의 《항해술기(航海述奇)》(1866), 의 자연과학 교과서 《격물입문(格物入門)》(1866) 등에서 처음 쓰였다.\n역사.\n고대 화학(古代化學)",
]

In [10]:
messages = [
    {
        "role": "user",
        "content": f"""당신이 가진 지식을 의존하지 말고 '문서1'부터 '문서5'를 참고해서 '질문'에 대해서 답변해 주세요.:

문서5: {chunk_list[4]}

문서4: {chunk_list[3]}

문서3: {chunk_list[2]}

문서2: {chunk_list[1]}

문서1: {chunk_list[0]}

질문: {query}"""
    }
]
prompt = pipe.tokenizer.apply_chat_template(messages,
                                            tokenize=False,
                                            add_generation_prompt=True)

In [11]:
print(prompt)

<bos><start_of_turn>user
당신이 가진 지식을 의존하지 말고 '문서1'부터 '문서5'를 참고해서 '질문'에 대해서 답변해 주세요.:

문서5: 화학
화학(化學)은 물질의 성질, 조성, 구조, 변화 및 그에 수반하는 에너지의 변화를 연구하는 자연과학(自然科學)의 한 분야이다. 물리학(物理學)도 역시 물질을 다루는 학문이지만, 물리학이 원소(元素)와 화합물(化合物)을 모두 포함한 물체의 운동과 에너지, 열적·전기적·광학적·기계적 속성을 다루고 이러한 현상으로부터 통일된 이론을 구축하려는 것과는 달리 화학에서는 물질 자체를 연구 대상으로 한다. 화학은 이미 존재하는 물질을 이용하여 특정한 목적에 맞는 새로운 물질을 합성하는 길을 제공하며, 이는 농작물(農作物)의 증산, 질병의 치료 및 예방, 에너지 효율 증대, 환경오염(環境汚染) 감소 등 여러 가지 이점을 제공한다.
어원.
화학은 연금술사들이 물질을 섞으며 발전시켰기 때문에 화학을 뜻하는 영어 ‘케미스트리(chemistry)’는 연금술을 뜻하는 단어 ‘알케미(alchemy)’에서 비롯하였다. 이는 다시 아랍어 ‘알 키미야(, al-kīmiyāʾ)’에서 왔는데, 이 단어의 어원에 대해서는 여러 가지 설이 있다.
‘화학(化學)’이란 단어는 물질의 변화를 다루는 학문이라는 점에 착안한 번역어이다. 이 번역어는 의 《항해술기(航海述奇)》(1866), 의 자연과학 교과서 《격물입문(格物入門)》(1866) 등에서 처음 쓰였다.
역사.
고대 화학(古代化學)

문서4: 문학
문학(文學, )은 언어를 예술적 표현의 제재로 삼아 새로운 의미를 창출하여, 인간과 사회를 진실되게 묘사하는 예술의 하위분야이다. 간단하게 설명하면, 언어를 통해 인간의 삶을 미적(美的)으로 형상화한 것이라고 볼 수 있다. 문학은 원래 문예(文藝)라고 부르는 것이 옳으며, 문학을 학문의 대상으로서 탐구하는 학문의 명칭 역시 문예학이다. 문예학은 음악사학, 미술사학 등과 함께 예술학의 핵심분야로서 인문학의 하위범주에 포함된다.
일반적으로 문학

### 4.4. sllm inference
- 이전 단계에서 생성한 prompt를 이용해 추론하고 결과를 확인하는 과장입니다.

In [12]:
outputs = pipe(
    prompt,
    do_sample=True,
    temperature=0.2,
    top_k=50,
    top_p=0.95,
    add_special_tokens=True
)
outputs

[{'generated_text': '<bos><start_of_turn>user\n당신이 가진 지식을 의존하지 말고 \'문서1\'부터 \'문서5\'를 참고해서 \'질문\'에 대해서 답변해 주세요.:\n\n문서5: 화학\n화학(化學)은 물질의 성질, 조성, 구조, 변화 및 그에 수반하는 에너지의 변화를 연구하는 자연과학(自然科學)의 한 분야이다. 물리학(物理學)도 역시 물질을 다루는 학문이지만, 물리학이 원소(元素)와 화합물(化合物)을 모두 포함한 물체의 운동과 에너지, 열적·전기적·광학적·기계적 속성을 다루고 이러한 현상으로부터 통일된 이론을 구축하려는 것과는 달리 화학에서는 물질 자체를 연구 대상으로 한다. 화학은 이미 존재하는 물질을 이용하여 특정한 목적에 맞는 새로운 물질을 합성하는 길을 제공하며, 이는 농작물(農作物)의 증산, 질병의 치료 및 예방, 에너지 효율 증대, 환경오염(環境汚染) 감소 등 여러 가지 이점을 제공한다.\n어원.\n화학은 연금술사들이 물질을 섞으며 발전시켰기 때문에 화학을 뜻하는 영어 ‘케미스트리(chemistry)’는 연금술을 뜻하는 단어 ‘알케미(alchemy)’에서 비롯하였다. 이는 다시 아랍어 ‘알 키미야(, al-kīmiyāʾ)’에서 왔는데, 이 단어의 어원에 대해서는 여러 가지 설이 있다.\n‘화학(化學)’이란 단어는 물질의 변화를 다루는 학문이라는 점에 착안한 번역어이다. 이 번역어는 의 《항해술기(航海述奇)》(1866), 의 자연과학 교과서 《격물입문(格物入門)》(1866) 등에서 처음 쓰였다.\n역사.\n고대 화학(古代化學)\n\n문서4: 문학\n문학(文學, )은 언어를 예술적 표현의 제재로 삼아 새로운 의미를 창출하여, 인간과 사회를 진실되게 묘사하는 예술의 하위분야이다. 간단하게 설명하면, 언어를 통해 인간의 삶을 미적(美的)으로 형상화한 것이라고 볼 수 있다. 문학은 원래 문예(文藝)라고 부르는 것이 옳으며, 문학을 학문의 대상으로서 탐구하는 학문의 명칭 역시 문예학이다. 문예학은 음악사학, 미술사학 등과 함

In [13]:
print(outputs[0]["generated_text"])

<bos><start_of_turn>user
당신이 가진 지식을 의존하지 말고 '문서1'부터 '문서5'를 참고해서 '질문'에 대해서 답변해 주세요.:

문서5: 화학
화학(化學)은 물질의 성질, 조성, 구조, 변화 및 그에 수반하는 에너지의 변화를 연구하는 자연과학(自然科學)의 한 분야이다. 물리학(物理學)도 역시 물질을 다루는 학문이지만, 물리학이 원소(元素)와 화합물(化合物)을 모두 포함한 물체의 운동과 에너지, 열적·전기적·광학적·기계적 속성을 다루고 이러한 현상으로부터 통일된 이론을 구축하려는 것과는 달리 화학에서는 물질 자체를 연구 대상으로 한다. 화학은 이미 존재하는 물질을 이용하여 특정한 목적에 맞는 새로운 물질을 합성하는 길을 제공하며, 이는 농작물(農作物)의 증산, 질병의 치료 및 예방, 에너지 효율 증대, 환경오염(環境汚染) 감소 등 여러 가지 이점을 제공한다.
어원.
화학은 연금술사들이 물질을 섞으며 발전시켰기 때문에 화학을 뜻하는 영어 ‘케미스트리(chemistry)’는 연금술을 뜻하는 단어 ‘알케미(alchemy)’에서 비롯하였다. 이는 다시 아랍어 ‘알 키미야(, al-kīmiyāʾ)’에서 왔는데, 이 단어의 어원에 대해서는 여러 가지 설이 있다.
‘화학(化學)’이란 단어는 물질의 변화를 다루는 학문이라는 점에 착안한 번역어이다. 이 번역어는 의 《항해술기(航海述奇)》(1866), 의 자연과학 교과서 《격물입문(格物入門)》(1866) 등에서 처음 쓰였다.
역사.
고대 화학(古代化學)

문서4: 문학
문학(文學, )은 언어를 예술적 표현의 제재로 삼아 새로운 의미를 창출하여, 인간과 사회를 진실되게 묘사하는 예술의 하위분야이다. 간단하게 설명하면, 언어를 통해 인간의 삶을 미적(美的)으로 형상화한 것이라고 볼 수 있다. 문학은 원래 문예(文藝)라고 부르는 것이 옳으며, 문학을 학문의 대상으로서 탐구하는 학문의 명칭 역시 문예학이다. 문예학은 음악사학, 미술사학 등과 함께 예술학의 핵심분야로서 인문학의 하위범주에 포함된다.
일반적으로 문학

In [14]:
print(outputs[0]["generated_text"][len(prompt):])

문서에서 지미 카터 대통령은 조지아 공과대학교를 졸업했습니다.


### 4.5. sllm chatbot
- chatbot 형식의 QA 예 입니다.

In [15]:
# 프롬프트 생성 함수
def gen_prompt(pipe, chunk_list, query):
    messages = [
        {
            "role": "user",
            "content": f"""당신이 가진 지식을 의존하지 말고 '문서1'부터 '문서5'를 참고해서 '질문'에 대해서 답변해 주세요.:

문서5: {chunk_list[4]}

문서4: {chunk_list[3]}

문서3: {chunk_list[2]}

문서2: {chunk_list[1]}

문서1: {chunk_list[0]}

질문: {query}"""
        }
    ]
    prompt = pipe.tokenizer.apply_chat_template(messages,
                                                tokenize=False,
                                                add_generation_prompt=True)
    return prompt

In [16]:
# 프롬프트 생성 및 질문을 sllm에게 묻고 결과를 리턴하는 함수
def gen_response(pipe, chunk_list, query):
    prompt = gen_prompt(pipe, chunk_list, query)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )
    return outputs[0]["generated_text"][len(prompt):]

In [17]:
chunk_list = [
    "지미 카터\n제임스 얼 “지미” 카터 주니어(, 1924년 10월 1일~)는 민주당 출신 미국의 제39대 대통령 (1977-81)이다.\n생애.\n어린 시절.\n지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.\n조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 \"땅콩 농부\" (Peanut Farmer)로 알려졌다.\n정계 입문.\n1962년 조지아주 상원 의원 선거에서 낙선하였으나, 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주지사 선거에 낙선하지만, 1970년 조지아 주지사 선거에서 당선됐다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.\n대통령 재임.\n1976년 미합중국 제39대 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책을 내세워서 많은 지지를 받았으며 제럴드 포드 대통령을 누르고 당선되었다.\n카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.",
    "수학\n수학(, , math)은 수, 양, 구조, 공간, 변화 등의 개념을 다루는 학문이다. 널리 받아들여지는 명확한 정의는 없으나 현대 수학은 일반적으로 엄밀한 논리에 근거하여 추상적 대상을 탐구하며, 이는 규칙의 발견과 문제의 제시 및 해결의 과정으로 이루어진다. 수학은 그 발전 과정에 있어서 철학, 과학과 깊은 연관을 맺고 있으며, 엄밀한 논리와 특유의 추상성, 보편성에 의해 다른 학문들과 구별된다. 특히 수학은 과학의 여느 분야들과는 달리 자연계에서 관측되지 않는 개념들에 대해서까지 이론을 추상화시키는 특징을 보이는데, 수학자들은 그러한 개념들에 대한 추측을 제시하고 적절하게 선택된 정의와 공리로부터 엄밀한 연역을 거쳐 그 진위를 파악한다.\n수학의 개념들은 기원전 600년 경에 활동하며 최초의 수학자로도 여겨지는 탈레스의 기록은 물론, 다른 고대 문명들에서도 찾아볼 수 있으며 인류의 문명과 함께 발전해 왔다. 오늘날 수학은 자연과학, 사회과학, 공학, 의학 등 거의 모든 학문에서도 핵심적인 역할을 하며 다양한 방식으로 응용된다.\n수학을 의미하는 mathematics라는 단어는 '아는 모든 것', '배우는 모든 것'이라는 뜻의 고대 그리스어 'máthēma'(μάθημα) 및 그 활용형 mathēmatikós(μαθηματικός)에서 유래되었다.",
    "수학 상수\n수학에서 상수란 그 값이 변하지 않는 불변량으로, 변수의 반대말이다. 물리 상수와는 달리, 수학 상수는 물리적 측정과는 상관없이 정의된다.\n수학 상수는 대개 실수체나 복소수체의 원소이다. 우리가 이야기할 수 있는 상수는 (거의 대부분 계산 가능한) 정의가능한 수이다.\n특정 수학 상수, 예를 들면 골롬-딕맨 상수, 프랑세즈-로빈슨 상수, formula_1, 레비 상수와 같은 상수는 다른 수학상수 또는 함수와 약한 상관관계 또는 강한 상관관계를 갖는다.",
    "문학\n문학(文學, )은 언어를 예술적 표현의 제재로 삼아 새로운 의미를 창출하여, 인간과 사회를 진실되게 묘사하는 예술의 하위분야이다. 간단하게 설명하면, 언어를 통해 인간의 삶을 미적(美的)으로 형상화한 것이라고 볼 수 있다. 문학은 원래 문예(文藝)라고 부르는 것이 옳으며, 문학을 학문의 대상으로서 탐구하는 학문의 명칭 역시 문예학이다. 문예학은 음악사학, 미술사학 등과 함께 예술학의 핵심분야로서 인문학의 하위범주에 포함된다.\n일반적으로 문학의 정의는 텍스트들의 집합이다. 각각의 국가들은 고유한 문학을 가질 수 있으며, 이는 기업이나 철학 조류, 어떤 특정한 역사적 시대도 마찬가지이다. 흔히 한 국가의 문학을 묶어서 분류한다. 예를 들어 고대 그리스어, 성서, 베오울프, 일리아드, 그리고 미국 헌법 등이 그러한 분류의 범주에 들어간다. 좀 더 일반적으로는 문학은 특정한 주제를 가진 이야기, 시, 희곡의 모음이라 할 수 있다. 이 경우, 이야기, 시, 그리고 희곡은 민족주의적인 색채를 띨 수도 아닐 수도 있다. 문학의 한 부분으로서 특정한 아이템을 구분 짓는 일은 매우 어려운 일이다. 어떤 사람들에게 \"문학\"은 어떠한 상징적인 기록의 형태로도 나타날 수 있는 것이다. (이를테면 이미지나 조각, 또는 문자로도 나타날 수 있다.) 그러나 또다른 사람들에게 있어 문학은 오직 문자로 이루어진 텍스트로 구성된 것만을 포함한다. 좀 더 보수적인 사람들은 그 개념이 꼭 물리적인 형태를 가진 텍스트여야 하고, 대개 그러한 형태는 종이 등의 눈에 보이는 매체에서 디지털 미디어까지 다양할 수 있다.",
    "화학\n화학(化學)은 물질의 성질, 조성, 구조, 변화 및 그에 수반하는 에너지의 변화를 연구하는 자연과학(自然科學)의 한 분야이다. 물리학(物理學)도 역시 물질을 다루는 학문이지만, 물리학이 원소(元素)와 화합물(化合物)을 모두 포함한 물체의 운동과 에너지, 열적·전기적·광학적·기계적 속성을 다루고 이러한 현상으로부터 통일된 이론을 구축하려는 것과는 달리 화학에서는 물질 자체를 연구 대상으로 한다. 화학은 이미 존재하는 물질을 이용하여 특정한 목적에 맞는 새로운 물질을 합성하는 길을 제공하며, 이는 농작물(農作物)의 증산, 질병의 치료 및 예방, 에너지 효율 증대, 환경오염(環境汚染) 감소 등 여러 가지 이점을 제공한다.\n어원.\n화학은 연금술사들이 물질을 섞으며 발전시켰기 때문에 화학을 뜻하는 영어 ‘케미스트리(chemistry)’는 연금술을 뜻하는 단어 ‘알케미(alchemy)’에서 비롯하였다. 이는 다시 아랍어 ‘알 키미야(, al-kīmiyāʾ)’에서 왔는데, 이 단어의 어원에 대해서는 여러 가지 설이 있다.\n‘화학(化學)’이란 단어는 물질의 변화를 다루는 학문이라는 점에 착안한 번역어이다. 이 번역어는 의 《항해술기(航海述奇)》(1866), 의 자연과학 교과서 《격물입문(格物入門)》(1866) 등에서 처음 쓰였다.\n역사.\n고대 화학(古代化學)",
]

In [18]:
while True:
    query = input('질문 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = gen_response(pipe, chunk_list, query)
    print(f'답변 > {result}\n\n')

질문 > 수학
답변 > **질문:** 수학은 무엇을 다루는 학문인가요?

**답변:** 수학은 수, 양, 구조, 공간, 변화 등의 개념을 다루는 학문입니다.


질문 > 


## 5. SLLM no RAG 실습 (재시작 필요)
- RAG를 사용하지 않고 입력한 질문만을 이용해서 SLLM의 답변 능력을 확인하는 과정입니다.
- 이 과정을 시작하기 전 colab 세션을 다시 시작하세요.
- colab 세션을 다시 시작해야 하는 이유는 LLM의 model의 크기가 너무 크기 때문에 GPU의 메모리를 초기화 하기 위해서 입니다.

[링크 텍스트](https://)### 5.1. SLLM no RAG
- 다음 순서로 동작하는 RAG chatbot을 구현하세요.
  - 사용자가 질문을 입력합니다.
  - 질문을 SLLM에 입력합니다.
  - 응답결과를 출력합니다.

In [15]:
# declare 4 bits quantize
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
# load 4 bits model
model = AutoModelForCausalLM.from_pretrained(SLLM_MODEL_ID,
                                             device_map='auto',
                                             quantization_config=quantization_config,
                                             token=HF_TOKEN)
# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(SLLM_MODEL_ID,
                                          add_special_tokens=True,
                                          token=HF_TOKEN)
tokenizer.padding_side = 'right'

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [16]:
pipe = pipeline("text-generation",
                model=model,
                tokenizer=tokenizer,
                max_new_tokens=512)
pipe

<transformers.pipelines.text_generation.TextGenerationPipeline at 0x7d4d6d723310>

In [17]:
# 프롬프트 생성 함수
def gen_prompt(pipe, query):
    messages = [
        {
            "role": "user",
            "content": f"""'질문'에 대해서 답변해 주세요.:

질문: {query}"""
        }
    ]
    prompt = pipe.tokenizer.apply_chat_template(messages,
                                                tokenize=False,
                                                add_generation_prompt=True)
    return prompt

In [18]:
# 프롬프트 생성 및 질문을 sllm에게 묻고 결과를 리턴하는 함수
def gen_response(pipe, query):
    prompt = gen_prompt(pipe, query)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )
    return outputs[0]["generated_text"][len(prompt):]

In [20]:
while True:
    query = input('질문 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = gen_response(pipe, query)
    print(f'답변 > {result}\n\n')

질문 > 대한민국의 수도는 어디야
답변 > 질문에 대한 답변은 서울입니다. 대한민국의 수도는 서울특별자치도에 위치합니다.


질문 > 지미카터가 누구야
답변 > 질문에 대한 답변은 다음과 같습니다.

지미카터는 전자 이미지를 감상할 수 있는 장치입니다. 지미카터는 일반적으로 레이저를 사용하여 이미지를 감상하거나, 이미지를 촬영하거나, 이미지를 변환하는 데 사용됩니다.


질문 > 


## 6. SLLM RAG with BM25 실습 (재시작 필요)
- BM25의 검색 기능과 SLLM의 추론 기능을 합쳐 RAG를 구성하는 실습입니다.
- BM25에서 tokenizer를 사용합니다.
- SLLM에서도 tokenizer를 사용합니다.
- 두 tokeinzer에 각각 다른 구분할 수 있는 이름을 변수 명으로 선언해야 합니다.
- 이 과정을 시작하기 전 colab 세션을 다시 시작하세요.
- colab 세션을 다시 시작해야 하는 이유는 LLM의 model의 크기가 너무 크기 때문에 GPU의 메모리를 초기화 하기 위해서 입니다.

### 6.1. bm25를 위한 전처리
- CHUNK_FN의 전체 문서를 사용하세요.
- BM25를 위해서 tokenizer를 정의하고 전처리를 실행합니다.

In [6]:
KOMORAN = konlpy.tag.Komoran()
EXCLUDE = set(['JC', 'JKB', 'JKC', 'JKG', 'JKO', 'JKQ', 'JKS', 'JKV', 'JX',
               'EC', 'EF', 'EP', 'ETM', 'ETN'])
def tokenizer_bm25(sent):
    tokens = []
    for w, t in KOMORAN.pos(sent):
        if t not in EXCLUDE:
            tokens.append(w)
    return tokens

In [7]:
chunk_list = []
chunk_list_1 = []
with open(CHUNK_FN, 'r', encoding='utf-8') as file:
    for line in file:
        try:
            chunk_list_1.append(json.loads(line))
        except json.JSONDecodeError as e:
            print("JSON 파싱 오류:", e)

for chunk in chunk_list_1:
    chunk_list.append(chunk['chunk'])
chunk_list[0]

tokenized_chunks = [tokenizer_bm25(chunk) for chunk in chunk_list]

### 6.2. BM25 검색 함수
- bm25를 활용한 검색 기능을 함수로 구현하고 실험합니다.

In [8]:
# bm25 api 생성
bm25 = BM25Okapi(tokenized_chunks)

In [9]:
def query_bm25(bm25, query, tokenizer, top_n=10):
    tokenized_query = tokenizer(query)
    # score 계산
    doc_scores = bm25.get_scores(tokenized_query)
    # score 순서로 정렬
    rank = np.argsort(-doc_scores)
    # top-n
    result = []
    for i in rank[:top_n]:
        if doc_scores[i] > 0:
            result.append((i, doc_scores[i]))
    return result

In [10]:
while True:
    query = input('검색 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = query_bm25(bm25, query, tokenizer_bm25)
    for i, score in result:
        print(f'---- score: {score} ----')
        print(chunk_list[i])
        print()

검색 > 지미
---- score: 4.956112588679534 ----
지미 카터
제임스 얼 “지미” 카터 주니어(, 1924년 10월 1일~)는 민주당 출신 미국의 제39대 대통령 (1977-81)이다.
생애.
어린 시절.
지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.
조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
정계 입문.
1962년 조지아주 상원 의원 선거에서 낙선하였으나, 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주지사 선거에 낙선하지만, 1970년 조지아 주지사 선거에서 당선됐다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.
대통령 재임.
1976년 미합중국 제39대 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책을 내세워서 많은 지지를 받았으며 제럴드 포드 대통령을 누르고 당선되었다.
카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.

---- score: 4.798240291553574 ----
위키백과
현재 사용되고 있는 위키백과의 서버는 주로 우분투로 이루어진 리눅스 서버들의 컴퓨터 클러스터로 운영되고 있다. 2009년을 기준으로 위키미디어 재단은 미국 플로리다주에 300대, 네덜란드 암스테르담에 44대의 서버를 운영하였다. 2013년 1월 22일 위키백과는 중요 데이터를 미국의 데이터 센터 공기업인 에퀴닉스로 이전하였다.
자동 편집.
위키백과에서는 단순 반복적인 활동을 위해 봇이라고 불리는 프로그램이 운영된다. 봇은 자주 혼동되는 오탈자를 바로잡거나 자동으로 생성될 수 있는 반복적인 문구의 삽입과 같은 일을 담당한다. 봇 역시 위키백과 커뮤니티

### 6.3. SLLM RAG with BM25 구현
- 다음 순서로 동작하는 RAG chatbot을 구현하세요.
  - 사용자가 질문을 입력합니다.
  - 질문에 대해서 관련된 문서를 bm25를 이용해서 5개 구합니다.
  - bm25의 경우 응답이 5개 이하일 수 있습니다. 이 부분을 고려하세요.
  - 질문과 함께 문서 5개를 SLLM에 입력합니다.
  - 응답결과를 출력합니다.

In [11]:
# declare 4 bits quantize
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
# load 4 bits model
model = AutoModelForCausalLM.from_pretrained(SLLM_MODEL_ID,
                                             device_map='auto',
                                             quantization_config=quantization_config,
                                             token=HF_TOKEN)
# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(SLLM_MODEL_ID,
                                          add_special_tokens=True,
                                          token=HF_TOKEN)
tokenizer.padding_side = 'right'

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [24]:
# 프롬프트 생성 함수
def gen_prompt(pipe, chunk_list, query):

    str_c = "당신이 가진 지식을 의존하지 말고 다음 문서들을 참고해서 '질문'에 대해서 답변해 주세요.:"

    if len(chunk_list) < 5:
        for i in range(len(chunk_list)):
            str_c += f'문서{i}: {chunk_list[i]}'
    else:
        for i in range(5):
            str_c += f'문서{i}: {chunk_list[i]}'
    str_c += f'질문: {query}'
    messages = [
        {
            "role": "user",
            "content": str_c
        }
    ]
    prompt = pipe.tokenizer.apply_chat_template(messages,
                                                tokenize=False,
                                                add_generation_prompt=True)
    return prompt

In [15]:
pipe = pipeline("text-generation",
                model=model,
                tokenizer=tokenizer,
                max_new_tokens=512)
pipe

<transformers.pipelines.text_generation.TextGenerationPipeline at 0x7f7031de0820>

In [13]:
# 프롬프트 생성 및 질문을 sllm에게 묻고 결과를 리턴하는 함수
def gen_response(pipe, chunk_list, query):
    prompt = gen_prompt(pipe, chunk_list, query)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )
    return outputs[0]["generated_text"][len(prompt):]

In [25]:
while True:
    query = input('질문 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = query_bm25(bm25, query, tokenizer_bm25)
    my_chunk_list = []
    for i, score in result:
        # print(f'---- score: {score} ----')
        # print(chunk_list[i])
        # print()
        my_chunk_list.append(chunk_list[i])

    result_1 = gen_response(pipe, my_chunk_list, query)
    print(f'답변 > {result_1}\n\n')

질문 > 수학이 뭐야
답변 > **수학은 다음과 같은 분야에 관심을 가지고 있습니다.**

- 수, 양, 구조, 공간, 변화 등의 개념을 다루는 학문
- 일반적으로 엄밀한 논리에 근거하여 추상적 대상을 탐구하는 것
- 과학의 여느 분야들과는 달리 자연계에서 관측되지 않는 개념들에 대해서까지 이론을 추상화시키는 특징을 보인다.
- 수학은 자연과학, 사회과학, 공학, 의학 등 거의 모든 학문에서 핵심적인 역할을 하며 다양한 방식으로 응용된다.


질문 > 지미카터가 누구야
답변 > 지미 카터는 미국 제39대 대통령이라는 것을 의미합니다.


질문 > 노재훈이 누구야




답변 > 문서 1에서는 노무현 대통령이 제안한 '평화의 바다'라는 이름으로 한국과 일본 사이의 바다에 대한 타협안을 제안했다는 내용이 언급됩니다.

문서 2에서는 위키백과의 특징 중 하나인 누구나 편집과 관리에 참여할 수 있다는 점이 언급됩니다.

문서 3에서는 노무현의 민주평통 NLL발언에 대한 비판이 언급됩니다.

문서 4에서는 대한민국 제16대 대통령 선거에서 단일화 방식이 합의되었고, 여론조사의 설문 내용을 두고도 논란이 일었음을 언급합니다.


질문 > 


## 7. SLLM RAG with SentenceTransformers 실습 (재시작 필요)
- SentenceTransformers의 검색 기능과 SLLM의 추론 기능을 합쳐 RAG를 구성하는 실습입니다.
- SentenceTransformers도 model을 사용합니다.
- SLLM도 model을 사용합니다.
- 두 model에 각각 다른 구분할 수 있는 이름을 변수 명으로 선언해야 합니다.
- 이 과정을 시작하기 전 colab 세션을 다시 시작하세요.
- colab 세션을 다시 시작해야 하는 이유는 LLM의 model의 크기가 너무 크기 때문에 GPU의 메모리를 초기화 하기 위해서 입니다.

### 7.1. SentenceTransformers를 위한 전처리
- CHUNK_FN의 전체 문서를 사용하세요.

In [5]:
chunk_list = []
chunk_list_1 = []
with open(CHUNK_FN, 'r', encoding='utf-8') as file:
    for line in file:
        try:
            chunk_list_1.append(json.loads(line))
        except json.JSONDecodeError as e:
            print("JSON 파싱 오류:", e)

for chunk in chunk_list_1:
    chunk_list.append(chunk['chunk'])
chunk_list[0]

'지미 카터\n제임스 얼 “지미” 카터 주니어(, 1924년 10월 1일~)는 민주당 출신 미국의 제39대 대통령 (1977-81)이다.\n생애.\n어린 시절.\n지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.\n조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.\n정계 입문.\n1962년 조지아주 상원 의원 선거에서 낙선하였으나, 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주지사 선거에 낙선하지만, 1970년 조지아 주지사 선거에서 당선됐다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.\n대통령 재임.\n1976년 미합중국 제39대 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책을 내세워서 많은 지지를 받았으며 제럴드 포드 대통령을 누르고 당선되었다.\n카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.'

### 7.2. SentenceTransformers 검색 함수
- SentenceTransformers를 활용한 검색 기능을 함수로 구현하고 실험합니다.

In [6]:
model = SentenceTransformer(SEARCH_MODEL_ID)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.02k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/707 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/467M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/394 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/336k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/967k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [7]:
chunk_embeddings = model.encode(chunk_list)
chunk_embeddings.shape

(350, 768)

In [8]:
def query_sentence_transformer(model, chunk_embeddings, query, top_n=10):
    query_embedding = model.encode([query])
    # score 계산
    doc_scores = np.matmul(chunk_embeddings, query_embedding.T)
    doc_scores = doc_scores.reshape(-1)
    # score 순서로 정렬
    rank = np.argsort(-doc_scores)
    # top-n
    result = []
    for i in rank[:top_n]:
        result.append((i, doc_scores[i]))
    return result

In [9]:
while True:
    query = input('검색 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = query_sentence_transformer(model, chunk_embeddings, query)
    for i, score in result:
        print(f'---- score: {score} ----')
        print(chunk_list[i])
        print()

검색 > 수학
---- score: 141.6308135986328 ----
수학
오늘날 수학은 자연과학, 공학뿐만 아니라, 경제학 등의 사회과학에서도 중요한 도구로 사용된다. 예를 들어, 정도의 차이는 있으나, 미적분학과 선형대수학은 자연과학과 공학, 경제학을 하는데에 필수적 과목으로 여겨지며, 확률론은 계량경제학에 응용된다. 통계학은 사회과학 이론에 근거를 마련하는데 필수적이다. 16세기에 갈릴레오 갈릴레이가 "자연이라는 책은 수학이라는 언어로 기록되어 있다."는 주장과 함께 물리학에 수학적 방법을 도입하였고, 17세기에 아이작 뉴턴이 고전 역학의 기본 물리학 법칙들을 수학적으로 기술하고 정립하여 물리학 이론에서 수학적 모델링은 필수적 요소가 되었다. 또한 이 시기는 과학적 방법이 정립되는 시기이기도 한데, 많은 과학적 현상들이 수학적 관계가 있음이 드러나면서 과학적 방법에도 수학은 중요한 역할을 하고 있다. 노벨 물리학상 수상자 유진 위그너는 그의 에세이 "The unreasonable effectiveness of mathematics in natural sciences"에서 인간 세상과 동떨어져있고 현실과 아무 관련이 없다고 여겨지던 수학 중 극히 일부는 뜻밖에도 자연과학과 연관성이 드러나고 과학이론에 효과적인 토대를 마련해 주는데에 대한 놀라움을 표현하였다. 예를 들어, 비유클리드 기하학과 3차원 이상의 임의의 차원에서 기하학을 탐구했던 미분 기하학은 당시에는 현실과 연관성을 가지지 않았으나 먼 훗날 일반상대성이론이 4차원 기하학을 필요로 함에 따라, 물리적 세상과 연관이 있음이 밝혀졌다. 또한 게이지이론, 양자장론 등에도 미분 기하학은 필수적이다.
또한 수학은 음악이나 미술 등 예술과도 관련이 있다. 피타고라스는 두 정수의 비율이 듣기 좋은 소리가 난다는 점을 가지고 피타고라스 음계를 만들었다. 중세시대에도 음악과 수학을 밀접하게 연관시켰으며 성 빅토르의 후고는 “음악은 조화다”라고 했고, 성 트론드의 루돌프는 “음악은 조화의 토대(ratio)다”

### 7.3. SLLM RAG with SentenceTransformers를 구현
- 다음 순서로 동작하는 RAG chatbot을 구현하세요.
  - 사용자가 질문을 입력합니다.
  - 질문에 대해서 관련된 문서를 SentenceTransformers를를 이용해서 5개 구합니다.
  - 질문과 함께 문서 5개를 SLLM에 입력합니다.
  - 응답결과를 출력합니다.

In [11]:
# declare 4 bits quantize
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
# load 4 bits model
model_sllm = AutoModelForCausalLM.from_pretrained(SLLM_MODEL_ID,
                                             device_map='auto',
                                             quantization_config=quantization_config,
                                             token=HF_TOKEN)
# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(SLLM_MODEL_ID,
                                          add_special_tokens=True,
                                          token=HF_TOKEN)
tokenizer.padding_side = 'right'

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [12]:
# 프롬프트 생성 함수
def gen_prompt(pipe, chunk_list, query):

    str_c = "당신이 가진 지식을 의존하지 말고 다음 문서들을 참고해서 '질문'에 대해서 답변해 주세요.:"

    if len(chunk_list) < 5:
        for i in range(len(chunk_list)):
            str_c += f'문서{i}: {chunk_list[i]}'
    else:
        for i in range(5):
            str_c += f'문서{i}: {chunk_list[i]}'
    str_c += f'질문: {query}'
    messages = [
        {
            "role": "user",
            "content": str_c
        }
    ]
    prompt = pipe.tokenizer.apply_chat_template(messages,
                                                tokenize=False,
                                                add_generation_prompt=True)
    return prompt

In [13]:
# 프롬프트 생성 및 질문을 sllm에게 묻고 결과를 리턴하는 함수
def gen_response(pipe, chunk_list, query):
    prompt = gen_prompt(pipe, chunk_list, query)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )
    return outputs[0]["generated_text"][len(prompt):]

In [14]:
pipe = pipeline("text-generation",
                model=model_sllm,
                tokenizer=tokenizer,
                max_new_tokens=512)
pipe

<transformers.pipelines.text_generation.TextGenerationPipeline at 0x791bf4fba4a0>

In [16]:
while True:
    query = input('질문 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = query_sentence_transformer(model, chunk_embeddings, query)
    my_chunk_list = []
    for i, score in result:
        # print(f'---- score: {score} ----')
        # print(chunk_list[i])
        # print()
        my_chunk_list.append(chunk_list[i])

    result_1 = gen_response(pipe, my_chunk_list, query)
    print(f'답변 > {result_1}\n\n')

질문 > 수학
답변 > **수학**은 수, 양, 구조, 공간, 변화 등의 개념을 다루는 학문입니다. 수학은 일반적으로 엄밀한 논리에 근거하여 추상적 대상을 탐구하며, 이는 다른 학문들과 구별된 특징입니다.

**기하학**은 공간에 대한 연구로, 비유클리드 기하학과 위상수학으로 일반화되었습니다.

**해석학**은 변화에 대한 이해와 묘사를 다룹니다.

**산술**은 자연수와 정수 및 이에 대한 사칙연산에 대한 연구입니다.

**대수학**은 수 대신 문자를 써서 문제해결을 쉽게 하는 것과, 수학적 법칙을 일반적이고 간명하게 나타내는 것을 포함합니다.

**역사**는 고대부터 현대에 이르기까지 문명에 필수적인 건축, 천문학, 정치, 상업 등에 수학적 개념들이 응용되었습니다.


질문 > 지미카터
답변 > **질문:** 지미 카터

- 지미 카터는 미국의 제39대 대통령이다.
- 그는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.
- 그는 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.
- 맥스웰 방정식은 전자기파 방정식의 일종으로, 전자기장과 자기장이 대전된 입자에 미치는 힘을 나타내는 방정식이다.


질문 > 


## 8. RAG 성능 확장 실습 (재시작 필요)
- CHUNK_FN의 전체 문서를 원하는 데이터로 구성해 보세요.
  - 예) 다른 위키 문서들
  - 예) 뉴스
  - 예) 책 또는 메뉴얼
- 프롬프트를 개선해 보세요.
- 'google/gemma-1.1-7b-it' 까지는 T4에서 겨우 돌아갑니다. 큰 LLM을 적용해 보세요.
- 다양한 방법으로 자신만의 RAG QA봇을 만들어 보세요.
- 이 과정을 시작하기 전 colab 세션을 다시 시작하세요.
- colab 세션을 다시 시작해야 하는 이유는 LLM의 model의 크기가 너무 크기 때문에 GPU의 메모리를 초기화 하기 위해서 입니다.


In [10]:
pip install datasets



In [5]:
from datasets import load_dataset


In [6]:

dataset = load_dataset("heegyu/namuwiki-extracted")

print(dataset["train"][0])

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


{'title': '!!아앗!!', 'text': '！！ああっと！！\n▲신 세계수의 미궁 2에서 뜬 !!아앗!!\n세계수의 미궁 시리즈에 전통으로 등장하는 대사. 2편부터 등장했으며 훌륭한 사망 플래그의 예시이다.\n세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에서 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정되어 있기 때문에 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다. !!아앗!!이 발생하는 과정을 요약하면 다음과 같다.\n다만 채집 시스템은 신 세계수 시리즈의 그리모어 복제, 복합 채집 스킬인 야생의 감, 5편의 종족 특유 스킬, 크로스의 1레벨이 만렙인 채집 스킬 등으로 편의성이 점차 나아져서 채집 스킬 때문에 스킬 트리가 내려가는 일은 점점 줄어들었다.\n채집용 캐릭터들로 이루어진 약한 파티(ex: 레인저 5명)가 수해에 입장한다.\n필드 전투를 피해 채집 포인트에 도착한 후 열심히 아이템을 캐는 중에...\n!!아앗!!\n라플레시아가 나타났다!\n이때 등장하는 것은 FOE는 아니지만 훨씬 위층에 등장하는 강력한 필드 몬스터이며 선제 공격을 당하게 된다!\n으앙 죽음(hage)\n여담으로 !!아앗!!의 유래는 1인칭 던전 크롤러의 원조 위저드리에서 함정을 건드렸을 때 나오는 대사 Oops!(おおっと！)라고 한다.\n!!아앗!!의 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었다. 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 강제로 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 \'위험 감지(중간 확률로 적의 선제 공격을 무효화)\'는 정작 작동하지 않는다!\n참고로 2편에서 채집 도중 !!아앗!!이 뜰 확률은 고작 1%다. 낮아 보이는 확률이어도 플레이 중 한 번이라도 일어나는 것을 경험하는 체감 확률을 고려하여 확률

In [7]:

print(dataset["train"][0])

{'title': '!!아앗!!', 'text': '！！ああっと！！\n▲신 세계수의 미궁 2에서 뜬 !!아앗!!\n세계수의 미궁 시리즈에 전통으로 등장하는 대사. 2편부터 등장했으며 훌륭한 사망 플래그의 예시이다.\n세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에서 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정되어 있기 때문에 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다. !!아앗!!이 발생하는 과정을 요약하면 다음과 같다.\n다만 채집 시스템은 신 세계수 시리즈의 그리모어 복제, 복합 채집 스킬인 야생의 감, 5편의 종족 특유 스킬, 크로스의 1레벨이 만렙인 채집 스킬 등으로 편의성이 점차 나아져서 채집 스킬 때문에 스킬 트리가 내려가는 일은 점점 줄어들었다.\n채집용 캐릭터들로 이루어진 약한 파티(ex: 레인저 5명)가 수해에 입장한다.\n필드 전투를 피해 채집 포인트에 도착한 후 열심히 아이템을 캐는 중에...\n!!아앗!!\n라플레시아가 나타났다!\n이때 등장하는 것은 FOE는 아니지만 훨씬 위층에 등장하는 강력한 필드 몬스터이며 선제 공격을 당하게 된다!\n으앙 죽음(hage)\n여담으로 !!아앗!!의 유래는 1인칭 던전 크롤러의 원조 위저드리에서 함정을 건드렸을 때 나오는 대사 Oops!(おおっと！)라고 한다.\n!!아앗!!의 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었다. 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 강제로 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 \'위험 감지(중간 확률로 적의 선제 공격을 무효화)\'는 정작 작동하지 않는다!\n참고로 2편에서 채집 도중 !!아앗!!이 뜰 확률은 고작 1%다. 낮아 보이는 확률이어도 플레이 중 한 번이라도 일어나는 것을 경험하는 체감 확률을 고려하여 확률

In [8]:

data_to_save = dataset['train'].to_dict()
with open(f'{WORKSPACE}/data/namuwiki/dataset.json', "w", encoding="utf-8") as json_file:
    json.dump(data_to_save, json_file, ensure_ascii=False, indent=4)
# JSON 파일로 저장
# with open(f'{WORKSPACE}/data/namuwiki/dataset.json', 'w') as file:
#     json.dump(data_to_save, file, indent=4)

In [7]:
chunk_list = []
chunk_list_1 = []
# with open(f'{WORKSPACE}/data/namuwiki/dataset.json', 'r', encoding='utf-8') as file:
#     for line in file:
#         try:
#             chunk_list_1.append(json.loads(line))
#         except json.JSONDecodeError as e:
#             #print("JSON 파싱 오류:", e)
cnt_dataset = 0
for d in dataset['train']:
    if cnt_dataset == 10:
        break
    chunk_list.append(d['text'])
    cnt_dataset += 1

# for chunk in chunk_list_1:
#     chunk_list.append(chunk['chunk'])
chunk_list[0]

'！！ああっと！！\n▲신 세계수의 미궁 2에서 뜬 !!아앗!!\n세계수의 미궁 시리즈에 전통으로 등장하는 대사. 2편부터 등장했으며 훌륭한 사망 플래그의 예시이다.\n세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에서 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정되어 있기 때문에 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다. !!아앗!!이 발생하는 과정을 요약하면 다음과 같다.\n다만 채집 시스템은 신 세계수 시리즈의 그리모어 복제, 복합 채집 스킬인 야생의 감, 5편의 종족 특유 스킬, 크로스의 1레벨이 만렙인 채집 스킬 등으로 편의성이 점차 나아져서 채집 스킬 때문에 스킬 트리가 내려가는 일은 점점 줄어들었다.\n채집용 캐릭터들로 이루어진 약한 파티(ex: 레인저 5명)가 수해에 입장한다.\n필드 전투를 피해 채집 포인트에 도착한 후 열심히 아이템을 캐는 중에...\n!!아앗!!\n라플레시아가 나타났다!\n이때 등장하는 것은 FOE는 아니지만 훨씬 위층에 등장하는 강력한 필드 몬스터이며 선제 공격을 당하게 된다!\n으앙 죽음(hage)\n여담으로 !!아앗!!의 유래는 1인칭 던전 크롤러의 원조 위저드리에서 함정을 건드렸을 때 나오는 대사 Oops!(おおっと！)라고 한다.\n!!아앗!!의 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었다. 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 강제로 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 \'위험 감지(중간 확률로 적의 선제 공격을 무효화)\'는 정작 작동하지 않는다!\n참고로 2편에서 채집 도중 !!아앗!!이 뜰 확률은 고작 1%다. 낮아 보이는 확률이어도 플레이 중 한 번이라도 일어나는 것을 경험하는 체감 확률을 고려하여 확률을 설정한다고.\n다행히 채집 중 낮은 확률로 "좋

In [8]:
model = SentenceTransformer(SEARCH_MODEL_ID)

In [21]:
chunk_embeddings = model.encode(chunk_list)
chunk_embeddings.shape

(5, 768)

In [10]:
def query_sentence_transformer(model, chunk_embeddings, query, top_n=10):
    query_embedding = model.encode([query])
    # score 계산
    doc_scores = np.matmul(chunk_embeddings, query_embedding.T)
    doc_scores = doc_scores.reshape(-1)
    # score 순서로 정렬
    rank = np.argsort(-doc_scores)
    # top-n
    result = []
    for i in rank[:top_n]:
        result.append((i, doc_scores[i]))
    return result

In [11]:
# declare 4 bits quantize
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
# load 4 bits model
model_sllm = AutoModelForCausalLM.from_pretrained(SLLM_MODEL_ID,
                                             device_map='auto',
                                             quantization_config=quantization_config,
                                             token=HF_TOKEN)
# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(SLLM_MODEL_ID,
                                          add_special_tokens=True,
                                          token=HF_TOKEN)
tokenizer.padding_side = 'right'

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [12]:
# 프롬프트 생성 함수
def gen_prompt(pipe, chunk_list, query):

    str_c = "당신이 가진 지식을 의존하지 말고 다음 문서들을 참고해서 '질문'에 대해서 답변해 주세요.:"

    if len(chunk_list) < 5:
        for i in range(len(chunk_list)):
            str_c += f'문서{i}: {chunk_list[i]}'
    else:
        for i in range(5):
            str_c += f'문서{i}: {chunk_list[i]}'
    str_c += f'질문: {query}'
    messages = [
        {
            "role": "user",
            "content": str_c
        }
    ]
    prompt = pipe.tokenizer.apply_chat_template(messages,
                                                tokenize=False,
                                                add_generation_prompt=True)
    return prompt

In [13]:
# 프롬프트 생성 및 질문을 sllm에게 묻고 결과를 리턴하는 함수
def gen_response(pipe, chunk_list, query):
    prompt = gen_prompt(pipe, chunk_list, query)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )
    return outputs[0]["generated_text"][len(prompt):]

In [14]:
pipe = pipeline("text-generation",
                model=model_sllm,
                tokenizer=tokenizer,
                max_new_tokens=512)
pipe

<transformers.pipelines.text_generation.TextGenerationPipeline at 0x7bef556089a0>

In [16]:
chunk_list[:5]

['！！ああっと！！\n▲신 세계수의 미궁 2에서 뜬 !!아앗!!\n세계수의 미궁 시리즈에 전통으로 등장하는 대사. 2편부터 등장했으며 훌륭한 사망 플래그의 예시이다.\n세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에서 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정되어 있기 때문에 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다. !!아앗!!이 발생하는 과정을 요약하면 다음과 같다.\n다만 채집 시스템은 신 세계수 시리즈의 그리모어 복제, 복합 채집 스킬인 야생의 감, 5편의 종족 특유 스킬, 크로스의 1레벨이 만렙인 채집 스킬 등으로 편의성이 점차 나아져서 채집 스킬 때문에 스킬 트리가 내려가는 일은 점점 줄어들었다.\n채집용 캐릭터들로 이루어진 약한 파티(ex: 레인저 5명)가 수해에 입장한다.\n필드 전투를 피해 채집 포인트에 도착한 후 열심히 아이템을 캐는 중에...\n!!아앗!!\n라플레시아가 나타났다!\n이때 등장하는 것은 FOE는 아니지만 훨씬 위층에 등장하는 강력한 필드 몬스터이며 선제 공격을 당하게 된다!\n으앙 죽음(hage)\n여담으로 !!아앗!!의 유래는 1인칭 던전 크롤러의 원조 위저드리에서 함정을 건드렸을 때 나오는 대사 Oops!(おおっと！)라고 한다.\n!!아앗!!의 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었다. 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 강제로 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 \'위험 감지(중간 확률로 적의 선제 공격을 무효화)\'는 정작 작동하지 않는다!\n참고로 2편에서 채집 도중 !!아앗!!이 뜰 확률은 고작 1%다. 낮아 보이는 확률이어도 플레이 중 한 번이라도 일어나는 것을 경험하는 체감 확률을 고려하여 확률을 설정한다고.\n다행히 채집 중 낮은 확률로 "

In [None]:
while True:
    query = input('질문 > ')
    query = query.strip()
    if len(query) == 0:
        break
    result = query_sentence_transformer(model, chunk_embeddings, query)
    my_chunk_list = []
    for i, score in result:
        # print(f'---- score: {score} ----')
        # print(chunk_list[i])
        # print()
        my_chunk_list.append(chunk_list[i])

    result_1 = gen_response(pipe, my_chunk_list, query)
    print(f'답변 > {result_1}\n\n')

질문 > AI
답변 > **질문:**

AI 기술의 일상화와 대중화를 추진하기 위해 카카오는 다음과 같은 조직 통합을 계획하고 있습니다.

**1. AI 모델 개발 및 서비스 제공**

- 카카오브레인의 기술 역량과 카카오의 서비스 강점을 결합하여 AI 서비스를 제공
- 공개된 개인정보 활용 가이드라인을 마련하여 개인정보 보호 위험을 줄이기

**2. 인공지능 개발 환경 조성**

- 클라우드 서비스 제공을 위한 인공지능 시스템 개발
- △IDC 분야를 최적화한 인프라 신기술 개발

**3. 대학 지원**

- AI 연구 환경 개선 및 인공지능 개발 지원
- 국가 연구개발 사업 지원을 통해 GPU 구매 지원

**4. 라인야후 지분 축소**

- 라인야후는 네이버의 지분을 축소하기 위해 노력하고 있다.


질문 > KT클라우드 대표가 누구야?
답변 > KT클라우드 대표는 KT의 대표입니다.


질문 > 최지웅이 누구야?
답변 > 문서 1에서는 KT 클라우드가 AI 인프라 수요 및 고객의 필요에 맞춰 비용 절감을 위한 상품들을 소개하고 있다.


질문 > 현재 라인은 어떤 상황이야?
답변 > 현재 라인은 제3자 공격을 받아 라인 앱 이용자 정보 등 약 44만건이 유출된 것으로 드러났다.




In [20]:

chunk_list = [
    """KT클라우드가 AI(인공지능) 시대 필수 인프라인 클라우드를 앞세워 AX(인공지능 전환)를 선도하는 국내 CSP(클라우드 서비스 제공사)가 되겠다고 다짐했다.

최지웅 KT클라우드 대표는 3일 서울 삼성동 그랜드 인터콘티넨탈 서울 파르나스에서 열린 'KT클라우드 서밋 2024' 행사에서 '클라우드와 IDC(인터넷데이터센터)를 통한 AX 가속화'라는 주제의 기조발표를 통해 AI 인프라 수요 및 고객의 필요에 맞춰 비용 절감을 위한 각종 상품들을 소개하고 AMD, 리벨리온 등 파트너사 협력 현황과 해외 구축 사례를 소개했다.

최 대표는 △클라우드 분야와 관련해 공공, 금융, 엔터프라이즈 등 각 분야에서 클라우드 네이티브 본격화되며 부각된 기술과 향후 사업 전략을 △IDC 분야에 대해서는 AI 워크로드에 최적화된 고집적·고효율 인프라 신기술과 운영 효율화 방안을 소개했다."""
, """일본 총무성에서 개인정보 유출 관련, 대주주인 한국 네이버의 지분 축소를 요구받은 라인야후(LY) 주가가 하락세다. 경영 전망에 대한 불안감이 확산한 탓이다. 일본 언론은 “신뢰 회복을 위해 근본적인 쇄신책을 내놔야 한다”고 보도했다.

2일 니혼게이자이신문 등에 따르면 라인야후는 2023년 4~12월 순이익이 전년 동기 대비 32% 감소한 1224억엔(약 1조원), 영업이익은 40% 줄어든 1742억엔을 기록했다. 전년 동기에 스마트폰 결제 ‘페이페이’를 자회사로 편입, 재평가이익을 반영한 데 따른 기저효과 탓이다.

재평가이익을 제외한 영업이익은 33% 증가했다. 광고와 전자상거래(EC)가 호조를 보였고, 판촉비 재검토, 사업 통합에 따른 비용 절감도 기여했다.

견조한 실적에도 불구하고 최근 주가는 약세다. 지난달 17일에는 도쿄증시에서 장중 337.5엔까지 하락하며 연중 최저치를 경신했다. 라인야후 주가는 올해 들어 24%가량 떨어졌다.

문제는 작년 11월부터 불거졌다. 라인야후 서버가 제3자의 공격을 받아 라인 앱 이용자 정보 등 약 44만건이 유출된 것으로 드러났다. 네이버와 일부 시스템을 공유한 것이 원인으로 지목됐다. 라인은 일본 국민의 70% 이상이 사용하는 국민 메신저다."""
, """개인정보보호위원회는 3일 인공지능(AI) 프라이버시 민·관 정책협의회(협의회) 제2차 전체회의를 열어 'AI 개발·서비스를 위한 공개된 개인정보 활용 가이드라인'을 논의한다고 2일 밝혔다.

지난해 10월 출범한 협의회는 인공지능에 대한 균형 있는 규율 체계를 마련하고, 국제규범 논의에서 한국의 리더십 강화를 지원하는 역할을 맡는다. 학계, 법조계, 산업계, 시민단체 등 다양한 분야의 인공지능 차세대 전문가 32명으로 구성했다.

이번 회의는 공개된 개인정보의 안전한 활용을 둘러싼 법적·기술적 쟁점 사항을 비롯해 인공지능 개발 단계별 안전한 개인정보 처리 기준 등이 담긴 가이드라인의 주요 내용을 공유하기 위해 마련됐다.

최근 이용이 늘고 있는 챗GPT 등 대규모 언어모형(LLM) 개발의 핵심 원료인 공개 데이터에는 각종 개인정보가 담겨 있지만, 이에 대한 명확한 규율체계가 없다는 지적에 따른 것이다.

앞서 개인정보위는 인공지능 학습·서비스의 특성과 공개된 개인정보 처리에 따른 개인정보 보호 위험 등을 종합적으로 고려해 개인정보보호법을 보완하는 가이드라인 마련 작업을 진행해왔다.

개인정보위는 이날 회의에서 나온 의견을 검토하고 부처 전체회의 등을 거쳐 이달 안에 가이드라인을 확정해 발표할 방침이다.

고학수 개인정보위 위원장은 "미국, 영국, 프랑스 등에서도 공개된 개인정보를 안전하게 활용하기 위한 사회적 논의를 본격화하고 있다"며 "국제적 흐름에 발맞춰 혁신을 저해하지 않으면서 국민이 신뢰할 수 있는 기준이 마련될 수 있도록 의견을 수렴해 나가겠다"고 밝혔다."""
, """카카오는 이날 이사회를 열고 카카오브레인의 초거대 인공지능(AI) 기반 언어 모델, 이미지 생성 모델 사업 부문 등 영업을 양수도하는 안건을 의결했다고 밝혔다.

AI 연구·개발을 전담해 온 카카오브레인은 자본금 200억원 규모의 회사로 2017년 2월 설립됐다. 2021년 11월 자체 개발한 AI 모델 '코GPT'를 선보였으며 이를 업그레이드한 새 AI 모델 '코GPT 2.0'을 개발해 왔다.

카카오는 이번 조직 통합을 계기로 빠르게 변화하는 AI 시대에 맞춰 AI 기술의 일상화·대중화를 추진한다. 카카오 측은 "초거대 AI 언어모델 코GPT, 텍스트 기반 이미지 생성 모델 칼로(Karlo) 등을 보유한 카카오브레인의 기술 역량과 카카오가 보유한 서비스 강점을 결합해 속도감 있게 AI 서비스를 내놓는 것이 목표"라고 설명했다.

카카오에 합류할 카카오브레인 임직원은 일상 속 AI 서비스에 최적화된 경량화 언어모델 개발을 비롯해 그간 연구·개발해 온 AI 모델의 고도화에도 집중한다.

이번 조직 통합에 따라 카카오브레인 법인은 잔존하되 헬스케어 위주로 사업을 추진한다. 김일두·김병학 카카오브레인 각자대표는 카카오로 이동한다.

정신아 카카오 대표는 "AI는 이제 기술 검증을 지나 실질적 활용이 중요한 시기를 맞고 있다"며 "이용자 경험에 대한 카카오의 이해·해석 노하우와 언어모델에 대한 카카오브레인의 역량을 통합해 시너지를 극대화하고 이용자의 일상에 스며드는, 가장 카카오다운 서비스를 선보일 것"이라고 밝혔다."""
, """국내 최고 수준의 대학들에서조차 인공지능(AI) 연구 환경이 크게 낙후한 것으로 나타났다. AI 연구개발에 필수인 최신 칩 확보부터 확보한 칩을 운영하는 것까지 불가능한 상황인 것으로 파악됐다. 예산부족, 전력부족, 긴 심의절차가 AI 연구를 막고 있는 장애물이다.

2일 서울 시내 한 대학에서 AI 연구를 진행하고 있는 A 교수는 “AI 연구를 위해 자체적으로 그래픽처리장치(GPU)를 모으고 있지만 엔비디아의 최신 제품은 언감생심”이라며 “엔비디아에서 최신 모델이 나와도 빅테크가 모두 ‘싹쓸이’ 하고 나면 실제로 구매할 수 있는 시기는 6개월 뒤”라고 말했다. 이 교수는 “항상 열등한 자원을 갖고 경쟁하게 되는 셈”이라고 하소연했다.

과학기술에 특화된 대학의 B 교수는 “‘소라’와 같은 최신 생성형 AI모델을 개발하려면 엔비디아 최신 칩인 H100이 필요하다”면서 “최신 칩을 구하지 못해 학생들이 자체적으로 구입한 게임용 GPU를 이용하려고 했다. 이 경우 개발까지 최소 80년이 걸린다는 계산이 나와 AI 연구를 포기했다”고 말했다.

예산이 부족한 경우도 태반이다. 칩 가격이 폭등하는 ‘칩 인플레이션’을 연구비 지원이 따라잡지 못하는 것이다.

통상 대학 교수들은 국가 연구개발(R&D) 사업을 통해 GPU 구매에 필요한 예산을 지원받는다. 연구 장비가 1억 원이 넘는 경우 국가연구시설장비센터(NFEC)의 심의를 받아한다. 하지만 심의 신청을 하고 심의 결과가 나오는 데까지 2, 3개월 정도 소요된다. 김종원 GIST AI 대학원장은 “최근 AI 연구현장에서 엔비디아의 최신 칩을 8장 정도 모아야 연구가 가능하고, 8장짜리 칩과 서버 구매 가격만 5억 원에 육박한다”며 “비용이 커지면서 절차적인 지연이 발생하고 있는 게 사실”이라고 말했다.

어렵게 예산을 확보해 칩을 확보했다 하더라도 이번엔 전력를 만나게 된다. AI를 연구하고 있는 서울 시내 대학의 컴퓨터학부 C교수는 “학교 내에서 교수들이 직접 발품을 팔며 전력이 남는 건물을 찾아나서고 있다”며 “하지만 캠퍼스 전체 전력 가동량이 90%에 달해 더 이상 여분 전력이 없다는 답변만 돌아왔다”고 말했다. 한 대학 관계자는 “2021년 말 한전과 전력 수급 추이를 예상한 결과 2026~2027년경에는 수요보다 공급이 모자라다는 결과가 나왔다”며 “GPU 등 연구장비가 늘어날 것으로 예상돼 전력 증설을 요구했지만, 당시 추가 증설이 곤란하다는 답이 돌아왔다”고 말했다.

김종원 원장은 한국 주요 대학들의 AI 연구 현실에 대해 “세계 연구자들이 ‘대포’로 전쟁을 하고 있는데, 우리나라만 ‘기관총’으로 연구하고 있는 셈”이라고 토로했다. 일부에서는 대학 자체적으로 대규모 연구할 만한 GPU 칩 수급과 전력 확보 등이 어렵기 때문에 대학 공동으로 ‘슈퍼컴퓨팅 공용 센터’ 등을 건설하는 방안을 검토할 필요가 있다는 주장도 나오고 있다.
"""

]

## 9. 향후 성능 향상을 위한 방법에 대한 제안
- 문서 분할을 기계적 분할이 아닌 GPT-4를 이용해서 의미 기반으로 분할하는 방법도 있습니다.
- 검색 성능 향상을 위해서는 DPR 계열의 기술을 사용하길 추천합니다.
- 검색 성능 향상을 위해서 BM25와 DPR을 적절한 비율로 반영하면 더 좋은 성능을 얻을 수 있다는 연구 결과가 있습니다.
- 많은 문서를 사용하기 위해서 벡터DB를 사용하는 것을 추천드립니다.
- RAG 성능을 높이는 방법으로는 추가적인 fine-tuining을 해 보는 것을 추천드립니다.
- RAG를 학습을 위한 데이터는 예상되는 질문 및 관련 문서 쌍을 1,000개 이상 만들고 GPT-4에게 질문을 해보고 그 답변을 정답으로 사용해서, SLLM을 fine-tuining 해 보는 것도 좋은 방법입니다.

In [None]:
# GPT-4와 같이 LLM에서 성능이 가능 좋은 모델의 API 사용
# PostgreSQL의 PG Vector나 ChromaDB와 같은 Vector DB 사용
# CoT(Chain of Thought)와 같은 프롬프트 형식 응용
# 문제에 대한 답을 내기 전에 중간의 논리 과정을 생성하게 하여 복잡한 문제를 처리 가능하도록 분해 → 다단계 과정을 거쳐야 하는 문제를 푸는 사람의 직관적인 생각 과정을 흉내낼 수 있음