# 1. 필수 라이브러리 설치

In [5]:
!pip install -U -q transformers langchain peft bitsandbytes trl datasets notebook accelerate evaluate

In [8]:
!pip install langchain_community

Collecting langchain_community
  Downloading langchain_community-0.3.1-py3-none-any.whl.metadata (2.8 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain_community)
  Downloading pydantic_settings-2.5.2-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain_community)
  Downloading marshmallow-3.22.0-py3-none-any.whl.metadata (7.2 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain_community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain_community)
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Collecting mypy-extensions>=0.3.0 (from typing-inspect<1,>=0.4.0->dataclasses-json<0.7,>=0.5.7->langchain_community)
  Downloa

In [44]:
! pip install bitsandbytes



# 2. HTML 테이블 스타일링

In [6]:
from IPython.core.display import HTML, Markdown

table_css = """
    table {
        align: left; display: block
    }
"""
HTML('<style>{}</style>'.format(table_css))


# 3. 라이브러리 임포트 및 시드 설정

In [9]:
from transformers import pipeline, set_seed
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from accelerate.utils import release_memory
import torch
from datasets import Dataset
from trl import SFTTrainer
from peft import LoraConfig, PeftModel
import pandas as pd
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import CharacterTextSplitter, HTMLHeaderTextSplitter
from langchain.prompts import PromptTemplate
from langchain.docstore.document import Document
from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
import evaluate
import transformers
from langchain.llms.base import LLM
from typing import Any
import warnings
import gc
import random
import numpy as np

warnings.filterwarnings('ignore')

# 재현성을 위한 시드 설정
set_seed(42)
torch.manual_seed(42)
torch.cuda.manual_seed(42)
np.random.seed(42)
random.seed(42)


# 4. 데이터 로드

In [17]:
# 데이터 로드
Message = pd.read_csv("/content/SPAM text message 20170820 - Data.csv")
Message = Message.drop_duplicates(subset=['Category', 'Message']).reset_index(drop=True)

# 5. 첫 번째 글 가져오기 및 미리보기

In [18]:
# 첫 번째 글 가져오기
Message = Message.iloc[0]['Message']  # 컬럼 이름이 'writeup'이라고 가정
print('문자 수:', len(Message))
print(Message[:1000])  # 처음 1000자 출력


문자 수: 111
Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...


# 6. 요약을 위한 프롬프트 생성 및 실행

In [None]:
# Hugging Face 로그인 추가
from huggingface_hub import login

# Hugging Face 토큰으로 로그인
api_token = "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"
login(api_token)

# Hugging Face 파이프라인 및 필요한 라이브러리 임포트
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

# 모델과 토크나이저 불러오기
model_name = "google/gemma-2-2b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 파이프라인을 GPU에서 실행하도록 설정 (device=0은 첫 번째 GPU 사용)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=-1)

# 시드 설정
set_seed(42)

# 요약할 메시지 설정
input_text = "요약할 텍스트를 여기에 입력하세요."
messages = [
    {
        "role": "user",
        "content": f"다음 텍스트를 기술적인 방식으로 요약해 주세요. 사실, 숫자, 사용된 전략에 중점을 두고, 요약을 장으로 나누고, 비인격적으로 작성하며, 불릿 포인트를 사용하세요:\n\n{input_text}"
    }
]

# 입력 텍스트를 파이프라인에 전달하여 결과 생성
outputs = pipe(
    messages[0]["content"],
    max_length=256,
    do_sample=True,
    temperature=0.1,
    top_k=20,
    top_p=0.3
)

# 결과 출력
summary = outputs[0]["generated_text"]
from IPython.display import Markdown
display(Markdown(summary.replace('#', '')))



The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /root/.cache/huggingface/token
Login successful


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
The 'max_batch_size' argument of HybridCache is deprecated and will be removed in v4.46. Use the more precisely named 'batch_size' argument instead.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


# 7. HTML 헤더 기준으로 텍스트 분할

In [None]:
# HTML 헤더 기준으로 분할
headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2")
]

text_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on, return_each_element=False)
texts_html_Message = text_splitter.split_text(Message)

print('글 길이:', len(Message))
print('분할된 개수:', len(texts_html_Message))
print('반환된 요소 타입:', type(texts_html_Message[0]))
print('각 분할의 길이:', [len(i.page_content) for i in texts_html_Message])

# 각 분할의 처음 50자 출력
print([(i.page_content[:50], i.metadata) for i in texts_html_Message])


# 8. 메타데이터 추가

In [None]:
for i, text in enumerate(texts_html_Message):
    # 메타데이터와 콘텐츠를 결합
    final_content = '\n'.join(text.metadata.values()) + '\n' + text.page_content
    text.page_content = final_content

    # 예시 출력
    if i < 2:
        print(final_content)
        print()


# 9. 텍스트 청크 분할

In [None]:
text_splitter = CharacterTextSplitter(chunk_size=2000, chunk_overlap=100)

# 분할 수행
splits = text_splitter.split_documents(texts_html_Message)
print('최종 분할 개수:', len(splits))
print('각 분할의 길이:', [len(i.page_content) for i in splits])

# 각 분할의 처음 50자 및 메타데이터 출력
print([(i.page_content[:50], i.metadata) for i in splits])


# 10. CUDA 메모리 정리

In [None]:
with torch.no_grad():
    torch.cuda.empty_cache()
gc.collect()


# 11. 커스텀 LLM 클래스 정의

In [None]:
class GemmaLLM(LLM):
    hf_pipe: Any = None
    pipe_kwargs: Any = None

    def __init__(self, hf_pipeline, pipe_kwargs):
        super(GemmaLLM, self).__init__()
        self.hf_pipe = hf_pipeline
        self.pipe_kwargs = pipe_kwargs

    @property
    def _llm_type(self):
        return "Gemma pipeline"

    def _call(self, prompt, **kwargs):
        # LangChain에서 호출 시 Hugging Face 파이프라인을 통해 텍스트 생성
        return self.hf_pipe(prompt, **self.pipe_kwargs)


# 12. 모델 로드 및 미세 조정

In [None]:
base_model_name = "gpt2"  # 사용하려는 사전 학습 모델 이름으로 변경
adapter_model_name = "/content/drive/MyDrive/lora_adapter"  # LoRA 어댑터 경로

model = AutoModelForCausalLM.from_pretrained(base_model_name, device_map='auto', torch_dtype=torch.float16)
model = PeftModel.from_pretrained(model, adapter_model_name, device_map='auto', torch_dtype=torch.float16)

# 어댑터를 베이스 모델에 통합
model = model.merge_and_unload()
model.save_pretrained('/content/drive/MyDrive/final_model')

tokenizer = AutoTokenizer.from_pretrained(base_model_name)


# 13. 미세 조정된 모델을 파이프라인으로 로드

In [None]:
model_path = "/content/drive/MyDrive/final_model"

pipe_finetuned = pipeline(
    "text-generation",
    model=model_path,
    tokenizer=tokenizer,
    model_kwargs={"torch_dtype": torch.float16},
    device_map='auto',
    max_new_tokens=512
)


# 14. 미세 조정된 모델로 텍스트 생성

In [None]:
outputs = pipe_finetuned(
    prompt,
    do_sample=True,
    temperature=0.1,
    top_k=20,
    top_p=0.3,
    add_special_tokens=True
)

summary = pipe.tokenizer.decode(outputs[0]['generated_text'], skip_special_tokens=True)
summary = summary[len(messages[0]["content"]):]  # 프롬프트 제외
display(Markdown(summary.replace('#', '')))


# 15. 커스텀 프롬프트를 사용한 요약

In [None]:
messages = [
    {
        "role": "user",
        "content": f"다음 텍스트를 2-3문장의 짧은 요약으로 작성해 주세요:\n\n{writeup}"
    }
]

prompt = pipe.tokenizer.encode(messages[0]["content"], return_tensors='pt')

outputs = pipe(
    prompt,
    max_length=150,
    do_sample=True,
    temperature=0.1,
    top_k=20,
    top_p=0.3,
    eos_token_id=pipe.tokenizer.eos_token_id
)

summary = pipe.tokenizer.decode(outputs[0], skip_special_tokens=True)
summary = summary[len(messages[0]["content"]):]  # 프롬프트 제외
display(Markdown(summary.replace('#', '')))


# 16. 미세 조정된 모델을 사용한 추가 요약

In [None]:
outputs = pipe_finetuned(
    prompt,
    do_sample=True,
    temperature=0.1,
    top_k=20,
    top_p=0.3,
    add_special_tokens=True
)

summary = pipe.tokenizer.decode(outputs[0]['generated_text'], skip_special_tokens=True)
summary = summary[len(messages[0]["content"]):]  # 프롬프트 제외
display(Markdown(summary.replace('#', '')))
