# 1. 패키지 임포트

In [None]:
import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging
)
from peft import LoraConfig
from trl import SFTTrainer

In [None]:
import huggingface_hub
huggingface_hub.login()
# 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

# 2. 모델 로드하기

In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "NousResearch/Llama-2-7b-chat-hf"  # 예시 모델 이름, 실제 사용 가능한 모델명으로 대체해야 합니다.
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]



In [2]:
import json

# 'finetune-markdown.md' 파일을 읽습니다.
with open('./finetune-markdown.md', 'r') as file:
    markdown_text = file.read()

# 전처리 로직을 적용하여 데이터를 가공합니다.
# 이 예에서는 간단히 파일 내용을 하나의 문자열로 처리합니다.
# 실제 사용 시에는 더 세밀한 전처리가 필요할 수 있습니다.
processed_data = {"text": markdown_text}

# JSONL 형식으로 변환합니다.
jsonl_data = json.dumps(processed_data)

# 변환된 데이터를 파일로 저장합니다.
with open('./processed_data.jsonl', 'w') as outfile:
    outfile.write(jsonl_data + '\n')  # 각 데이터 항목을 줄바꿈으로 구분

In [3]:
from transformers import AutoTokenizer, AutoModelForCausalLM, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments
import torch

# 모델과 토크나이저 로드
model_name = "NousResearch/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    do_sample=True,
    temperature=0.9,
    top_p=0.9,
    #quantization_config=quant_config,
    device_map={"": 0}
)


# CUDA 사용 가능 여부 확인
if torch.cuda.is_available():
    print('using cuda')
    model.to('cuda')  # 모델을 CUDA 장치로 이동

# 데이터셋 로드
train_dataset = TextDataset(
    tokenizer=tokenizer,
    file_path="./processed_data.jsonl",  # 학습 데이터 파일 경로
    block_size=128)  # 모델에 입력할 텍스트의 최대 길이

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=False)

# 학습 설정
training_args = TrainingArguments(
    output_dir="./llama_finetuned",  # 학습된 모델을 저장할 경로
    overwrite_output_dir=True,
    num_train_epochs=1,  # 학습 에폭 수
    per_device_train_batch_size=4,  # 배치 크기
    save_steps=10_000,
    save_total_limit=2,
    prediction_loss_only=True,
)

# 트레이너 생성 및 학습 시작
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
)

trainer.train()

# 학습된 모델 저장
trainer.save_model("./llama_finetuned")


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

OutOfMemoryError: CUDA out of memory. Tried to allocate 172.00 MiB. GPU 0 has a total capacity of 11.99 GiB of which 0 bytes is free. Of the allocated memory 11.04 GiB is allocated by PyTorch, and 1.55 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [None]:
# 사전 학습된 임베딩 모델 로드
model = SentenceTransformer('all-MiniLM-L6-v2')

# 각 섹션 벡터 임베딩
embeddings = model.encode(sections)

# 이제 `embeddings`에는 마크다운 문서의 각 섹션에 대한 벡터 표현이 포함됩니다.

In [None]:
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from transformers import AutoModelForQuestionAnswering, AutoTokenizer

def find_relevant_section(question, sections, embeddings):
    question_embedding = model.encode([question])
    similarities = cosine_similarity(question_embedding, embeddings)
    most_relevant_idx = np.argmax(similarities)
    return sections[most_relevant_idx]

# Load a QA model
qa_model = AutoModelForQuestionAnswering.from_pretrained("distilbert-base-uncased-distilled-squad")
qa_tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-distilled-squad")

def answer_question(question, context, max_length=512):
    # 질문과 맥락을 토큰화하고 필요한 경우 잘라냅니다.
    inputs = qa_tokenizer.encode_plus(question, context, add_special_tokens=True, max_length=max_length, truncation=True, return_tensors="pt")
    input_ids = inputs["input_ids"].tolist()[0]

    # Forward pass through the model
    outputs = qa_model(**inputs)
    answer_start_scores, answer_end_scores = outputs.start_logits, outputs.end_logits

    # '시작' 및 '끝' 점수가 가장 높은 토큰을 찾습니다.
    answer_start = torch.argmax(answer_start_scores)
    answer_end = torch.argmax(answer_end_scores) + 1

    # 토큰을 문자열로 변환
    answer = qa_tokenizer.convert_tokens_to_string(qa_tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))

    return answer


# Using the model
question = "What is the main topic?"
relevant_section = find_relevant_section(question, sections, embeddings)
print(answer_question(question, relevant_section))
