# Installation

In [1]:
# 적용 후 런타임 > 세션 다시 시작
!pip install -U \
     datasets==2.20.0 \
     evaluate==0.4.0 \
     scikit-learn==1.4.2

Collecting datasets==2.20.0
  Downloading datasets-2.20.0-py3-none-any.whl.metadata (19 kB)
Collecting evaluate==0.4.0
  Downloading evaluate-0.4.0-py3-none-any.whl.metadata (9.4 kB)
Collecting scikit-learn==1.4.2
  Downloading scikit_learn-1.4.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting pyarrow-hotfix (from datasets==2.20.0)
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl.metadata (3.6 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets==2.20.0)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets==2.20.0)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess (from datasets==2.20.0)
  Downloading multiprocess-0.70.17-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.5.0,>=2023.1.0 (from fsspec[http]<=2024.5.0,>=2023.1.0->datasets==2.20.0)
  Downloading fsspec-2024.5.0-py3-none-any.whl.metadata (11 kB)
Collecting response

# 5주차 LLM 과제 설명

# 드라이브로 사본 복사해서 과제 풀고 github 에 ipynb 파일로 올려주세요

**문제는 총 2문제로 LLM 관련 1문제, RAG 1문제로 각각 소문제로 빈칸 채우기 실습 및 내용 서술 문제로 이루어져있습니다. 각각의 문제 설명에 알맞게 풀어주세요.**


# 1. LLM

## 빈칸을 채워서 모델을 로드해주세요

In [4]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "skt/kogpt2-base-v2"
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    bos_token="</s>",
    eos_token="</s>",
    unk_token="<unk>",
    pad_token="<pad>",
    mask_token="<mask>"
)
model = AutoModelForCausalLM.from_pretrained(model_name)
model

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(51200, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D(nf=2304, nx=768)
          (c_proj): Conv1D(nf=768, nx=768)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=3072, nx=768)
          (c_proj): Conv1D(nf=768, nx=3072)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=51200, bias=False)
)

In [5]:
from datasets import load_dataset

split_dict = {
    "train": "train[:8000]",
    "test": "train[8000:10000]",
    "unused": "train[10000:]",
}
dataset = load_dataset("heegyu/kowikitext", split=split_dict) # custom code y 입력해주세요
del dataset["unused"]
dataset

Downloading builder script:   0%|          | 0.00/5.70k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/1.04k [00:00<?, ?B/s]

The repository for heegyu/kowikitext contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/heegyu/kowikitext.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N] y


Downloading data:   0%|          | 0.00/498M [00:00<?, ?B/s]

Generating train split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'revid', 'url', 'title', 'text'],
        num_rows: 8000
    })
    test: Dataset({
        features: ['id', 'revid', 'url', 'title', 'text'],
        num_rows: 2000
    })
})

## 아래 train, test Dataset 에서 feautures 중 input_ids, attention_mask 각각의 역할을 서술해주세요

## 정답: input_ids는 모델이 이해할 수 있게 문장을 token ID로 바꾼것이다. 또한 attention mask의 경우 입력 중에서 어떤 토큰을 모델이 attention해야하는지 알려주는 mask이다.

In [6]:
tokenized_dataset = dataset.map(
    lambda batch: tokenizer([f"{ti}\n{te}" for ti, te in zip(batch["title"], batch["text"])]),
    batched=True,
    num_proc=2,
    remove_columns=dataset["train"].column_names,
)
tokenized_dataset

Map (num_proc=2):   0%|          | 0/8000 [00:00<?, ? examples/s]

Map (num_proc=2):   0%|          | 0/2000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 8000
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 2000
    })
})

In [7]:
max_length = 512
def group_texts(batched_sample):
    sample = {k: v[0] for k, v in batched_sample.items()}

    if sample["input_ids"][-1] != tokenizer.eos_token_id:
        for k in sample.keys():
            sample[k].append(
                tokenizer.eos_token_id if k == "input_ids" else sample[k][-1]
            )

    result = {k: [v[i: i + max_length] for i in range(0, len(v), max_length)] for k, v in sample.items()}
    return result

grouped_dataset = tokenized_dataset.map(
    group_texts,
    batched=True,
    batch_size=1,
    num_proc=2,
)
print(len(grouped_dataset["train"][0]["input_ids"]))
print(grouped_dataset)

Map (num_proc=2):   0%|          | 0/8000 [00:00<?, ? examples/s]

Map (num_proc=2):   0%|          | 0/2000 [00:00<?, ? examples/s]

512
DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 18365
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 2400
    })
})


In [8]:
from transformers import DataCollatorForLanguageModeling

collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
sample = collator([grouped_dataset["train"][i] for i in range(1)])

## 빈칸을 채워 결과를 출력해주세요

In [9]:
inputs = tokenizer("지난해 7월, ", return_tensors="pt").to(model.device)

outputs = model.generate(inputs.input_ids, max_new_tokens=100)
result = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print(result[0])

지난해 7월, 롯데백화점 본점 지하 1층 식품매장에서 판매된 '롯데 햄버거' 제품에서 대장균이 검출돼 판매 중단된 바 있다.
롯데백화점 측은 "햄버거 판매 중단은 롯데백화점 본점 식품매장의 위생과 안전관리에 대한 고객들의 신뢰가 크게 훼손된 데 따른 것"이라며 "롯데백화점 본점 식품매장은 햄버거 판매 중단을 즉각 중단하고, 롯데백화점 본점 식품


In [10]:
import torch

input_ids = tokenizer("지난해 7월, ", return_tensors="pt").to(model.device).input_ids

with torch.no_grad():
    for _ in range(100):
        next_token = model(input_ids).logits[0, -1:].argmax(-1)
        input_ids = torch.cat((input_ids[0], next_token), -1).unsqueeze(0)

print(tokenizer.decode(input_ids[0].tolist()))

지난해 7월, 롯데백화점 본점 지하 1층 식품매장에서 판매된 '롯데 햄버거' 제품에서 대장균이 검출돼 판매 중단된 바 있다.
롯데백화점 측은 "햄버거 판매 중단은 롯데백화점 본점 식품매장의 위생과 안전관리에 대한 고객들의 신뢰가 크게 훼손된 데 따른 것"이라며 "롯데백화점 본점 식품매장은 햄버거 판매 중단을 즉각 중단하고, 롯데백화점 본점 식품


# 2. RAG

In [11]:
!pip install -q langchain langchain_community sentence-transformers faiss-cpu transformers accelerate

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m48.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m27.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m93.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m71.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m42.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m744.3 kB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [12]:
!pip install -U bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.45.4-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Downloading bitsandbytes-0.45.4-py3-none-manylinux_2_24_x86_64.whl (76.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.0/76.0 MB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.45.4


In [13]:
import os
import tempfile
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.llms import HuggingFacePipeline
from langchain.chains import RetrievalQA
from langchain_community.document_loaders import TextLoader
from langchain.prompts import PromptTemplate
from google.colab import files
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline, BitsAndBytesConfig

In [14]:
# 파일 업로드 함수
def upload_file():
    print("문서 파일을 업로드해주세요.")
    uploaded = files.upload()
    file_path = list(uploaded.keys())[0]
    print(f"업로드 완료: {file_path}")
    return file_path

In [15]:
# LLM 모델 로컬 구성
def get_local_llm():
    print("언어 모델 로딩 중... (처음 실행 시 모델 다운로드에 시간이 걸릴 수 있습니다)")
    model_id = "google/flan-t5-base"  # 더 작은 모델로 변경

    quantization_config = BitsAndBytesConfig(
        load_in_8bit=True,
        llm_int8_enable_fp32_cpu_offload=True
    )
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForSeq2SeqLM.from_pretrained(model_id, device_map="auto" # 수정된 부분
)

    pipe = pipeline(
        "text2text-generation",
        model=model,
        tokenizer=tokenizer,
        max_length=512,
        temperature=0.5
    )

    llm = HuggingFacePipeline(pipeline=pipe)
    print("언어 모델 로딩 완료!")
    return llm

## 아래 코드를 참고하여 RAG 프로세스를 서술해주세요

## 정답 :
# 1. 문서로드
- 텍스트 문서 파일을 로딩
# 2. 문서분할
- 문서를 처리가능한 크기로 분할함
# 3. 임베딩 생성 및 벡터 저장소 구축
- 문서 청크들을 벡터화(숫자벡터)하여, 의미기반 검색이 가능하게 함.
# 4. 문서 검색기 생성
- 사용자 질문에 가장 관련 있는 상위 k개의 문서를 검색하는 검색기 생성
# 5. LLM 설정
- 질문에 답할 로컬 언어 모델을 불러옴
# 6. 프롬프트 템플릿 정의
- 검색된 문서를 포함시켜 답변 생성을 위한 질의 템플릿 구성
# 7. RAG파이프라인 구성
- 질의응답 체인 구성
# 8. 질문 응답 인터페이스
- 사용자의 질문을 입력받아, RAG 파이프라인을 통해 답변을 생성하고 출처 문서까지 출력
# 9.벡터 인덱스 저장
-생성된 벡터 인덱스를 저장하여 다시 학습하지 않고 재사용 할 수 있도록 함.

In [16]:
# RAG 시스템 구현
def colab_rag_system(file_path):
    # 1. 문서 로드
    loader = TextLoader(file_path)
    documents = loader.load()

    print(f"문서 로딩 완료: {len(documents)} 개의 문서")

    # 2. 문서 분할
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=100,
        length_function=len
    )
    texts = text_splitter.split_documents(documents)

    print(f"문서 분할 완료: {len(texts)} 개의 청크")

    # 3. 임베딩 생성 및 벡터 저장소 구축
    print("임베딩 모델 로딩 중...")
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

    print("벡터 저장소 구축 중...")
    vectorstore = FAISS.from_documents(texts, embeddings)

    # 4. 검색기 생성
    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

    # 5. LLM 설정 - 로컬 파이프라인 사용
    llm = get_local_llm()

    # 6. 프롬프트 템플릿 정의
    prompt_template = """
    다음 정보를 바탕으로 질문에 답해주세요:

    {context}

    질문: {question}
    답변:
    """

    PROMPT = PromptTemplate(
        template=prompt_template,
        input_variables=["context", "question"]
    )

    # 7. RAG 파이프라인 구축
    print("RAG 파이프라인 구축 중...")
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever,
        return_source_documents=True,
        chain_type_kwargs={"prompt": PROMPT}
    )

    print("RAG 시스템 준비 완료!")

    # 8. 대화형 인터페이스
    while True:
        query = input("\n질문을 입력하세요 (종료하려면 'q' 입력): ")

        if query.lower() == 'q':
            break

        result = qa_chain({"query": query})

        print("\n답변:", result["result"])
        print("\n관련 문서 출처:")
        for i, doc in enumerate(result["source_documents"]):
            print(f"문서 {i+1}: {doc.page_content[:100]}...")

    # 9. 벡터 저장소 저장
    with tempfile.TemporaryDirectory() as temp_dir:
        index_path = os.path.join(temp_dir, "faiss_index")
        vectorstore.save_local(index_path)
        print(f"\n인덱스를 '{index_path}'에 저장했습니다.")

        # 인덱스 다운로드 제공
        print("벡터 인덱스를 다운로드하려면 아래 코드를 실행하세요:")
        print("files.download(f'{index_path}/index.faiss')")
        print("files.download(f'{index_path}/index.pkl')")


## sample.md 를 업로드해서 아래 샘플 질문들을 입력해 결과를 출력하세요
1. "인공지능의 역사에서 튜링 테스트란 무엇인가요?"
2. "딥러닝 혁명은 언제 시작되었나요?"
3. "알파고란 무엇인가요?"
4."AI의 현대 응용 분야는 어떤 것들이 있나요?"
5."AI가 직면한 미래 과제는 무엇인가요?"

In [18]:
if __name__ == "__main__":
    file_path = upload_file()
    colab_rag_system(file_path)

문서 파일을 업로드해주세요.


Saving sample-document (1).md to sample-document (1).md
업로드 완료: sample-document (1).md
문서 로딩 완료: 1 개의 문서
문서 분할 완료: 2 개의 청크
임베딩 모델 로딩 중...


  embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

벡터 저장소 구축 중...
언어 모델 로딩 중... (처음 실행 시 모델 다운로드에 시간이 걸릴 수 있습니다)


tokenizer_config.json:   0%|          | 0.00/2.54k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.40k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

Device set to use cpu
  llm = HuggingFacePipeline(pipeline=pipe)


언어 모델 로딩 완료!
RAG 파이프라인 구축 중...
RAG 시스템 준비 완료!

질문을 입력하세요 (종료하려면 'q' 입력): "인공지능의 역사에서 튜링 테스트란 무엇인가요?"


  result = qa_chain({"query": query})
Token indices sequence length is longer than the specified maximum sequence length for this model (925 > 512). Running this sequence through the model will result in indexing errors



답변:                                                                                                                                                                                                                                                                

관련 문서 출처:
문서 1: # 인공지능의 역사와 발전

## 초기 인공지능 (1940-1950년대)
인공지능(AI)의 개념은 1940년대 후반부터 시작되었습니다. 앨런 튜링이 1950년에 발표한 논문 "Co...
문서 2: ## 딥러닝 혁명 (2010년대-현재)
2010년대에 들어서면서 딥러닝이 AI 발전의 핵심이 되었습니다. 특히 2012년 ImageNet 대회에서 알렉스넷(AlexNet)의 성공은...

질문을 입력하세요 (종료하려면 'q' 입력): 딥러닝 혁명은 언제 시작되었나요?





답변:                                                                                                                                                                                                                                                                

관련 문서 출처:
문서 1: ## 딥러닝 혁명 (2010년대-현재)
2010년대에 들어서면서 딥러닝이 AI 발전의 핵심이 되었습니다. 특히 2012년 ImageNet 대회에서 알렉스넷(AlexNet)의 성공은...
문서 2: # 인공지능의 역사와 발전

## 초기 인공지능 (1940-1950년대)
인공지능(AI)의 개념은 1940년대 후반부터 시작되었습니다. 앨런 튜링이 1950년에 발표한 논문 "Co...

질문을 입력하세요 (종료하려면 'q' 입력): 알파고란 무엇인가요?





답변:                                                                                                                                                                                                                                                                

관련 문서 출처:
문서 1: ## 딥러닝 혁명 (2010년대-현재)
2010년대에 들어서면서 딥러닝이 AI 발전의 핵심이 되었습니다. 특히 2012년 ImageNet 대회에서 알렉스넷(AlexNet)의 성공은...
문서 2: # 인공지능의 역사와 발전

## 초기 인공지능 (1940-1950년대)
인공지능(AI)의 개념은 1940년대 후반부터 시작되었습니다. 앨런 튜링이 1950년에 발표한 논문 "Co...

질문을 입력하세요 (종료하려면 'q' 입력): AI의 현대 응용 분야는 어떤 것들이 있나요?





답변:                                                                                                                                                                                                                                                                

관련 문서 출처:
문서 1: # 인공지능의 역사와 발전

## 초기 인공지능 (1940-1950년대)
인공지능(AI)의 개념은 1940년대 후반부터 시작되었습니다. 앨런 튜링이 1950년에 발표한 논문 "Co...
문서 2: ## 딥러닝 혁명 (2010년대-현재)
2010년대에 들어서면서 딥러닝이 AI 발전의 핵심이 되었습니다. 특히 2012년 ImageNet 대회에서 알렉스넷(AlexNet)의 성공은...

질문을 입력하세요 (종료하려면 'q' 입력): q

인덱스를 '/tmp/tmpw3h8fsxo/faiss_index'에 저장했습니다.
벡터 인덱스를 다운로드하려면 아래 코드를 실행하세요:
files.download(f'{index_path}/index.faiss')
files.download(f'{index_path}/index.pkl')
