# 라이브러리

In [None]:
#라이브러리 설치
pip install -U accelerate==0.29.3  peft==0.10.0  bitsandbytes==0.43.1  transformers==4.40.1  trl==0.8.6  datasets==2.19.0

#accelerate : 파이토치 모델의 학습 속도 향상, 최적화 위한 라이브러리
#peft : parameter efficient fine tuning
#bitsandbytes : 모델 매개변수 양자화. 메모리 사용량 절감
#trl: Transformer Reinforcement Learning / 강화학습 기반 언어모델 미세조정 기술
#datasets : 자연어 처리 데이터셋 다운로드, 전처리 지원

In [None]:
import sys
print(sys.executable)


In [None]:
#pip install datasets
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install datasets
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install peft
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install -i https://pypi.org/simple/ bitsandbytes
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install transformers
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install accelerate

pip install peft
pip install -i https://pypi.org/simple/ bitsandbytes
pip install transformers
pip install accelerate

#pip install -U bitsandbytes
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install ipywidgets --upgrade
d:\DIP\PYTHON\P3.9.7\python.exe -m pip install jupyter --upgrade

# LLaMA 기본

In [None]:
#라이브러리 로드
import os
import torch
from datasets import load_dataset

from transformers import(
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig
from trl import SFTTrainer

import huggingface_hub
huggingface_hub.login('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')

In [None]:
#모델 설정
base_model = "beomi/Llama-3-Open-Ko-8B"# beomi님의 Llama3 한국어 파인튜닝 모델
generate_dataset = '/content/test_dataset.csv'

#새로운 모델 이름
new_model = 'Llama-3-Open-Ko-8B-generate'

In [None]:
import torch
from datasets import Dataset, load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline, TrainingArguments
from peft import LoraConfig, PeftModel, get_peft_model, prepare_model_for_kbit_training

#BASE_MODEL = "meta-llama/Meta-Llama-3-70B-Instruct"
BASE_MODEL = "beomi/Llama-3-Open-Ko-8B"

# 4bit 양자화 설정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
)

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(BASE_MODEL,
                                             quantization_config=bnb_config,
                                             device_map="auto"#GPU 사용
                                            )

tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, add_special_tokens=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = 'right'

# 프롬프트 튜닝

In [None]:
# 프롬프트 튜닝
pipe = pipeline('text-generation', model=model, tokenizer=tokenizer)

def generate_simple_text(keywords):
    prompt = f"""다음 제시된 키워드를 반드시 모두 사용하여, 사진을 묘사하듯, 문장을 1개 작성하고, 문장을 자연스럽고, 수식어를 약간 추가하고, 사진입니다.로 문장이 끝나게 해 :
                              키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                              키워드) {keywords} -> 생성문장)"""



    outputs = pipe(
        prompt,
        max_new_tokens=50,
        temperature=0.8,
        top_p=0.9,
        do_sample=True,
        eos_token_id=tokenizer.eos_token_id
    )

    generated_text = outputs[0]['generated_text'].strip()
      # '생성문장)' 이후의 텍스트만 추출
    if "생성문장)" in generated_text:
        generated_sentences = generated_text.split("생성문장)")[1:]  # 첫 번째 생성문장 이후의 텍스트들을 리스트로 나눔
        if len(generated_sentences) > 1:
            generated_sentence = generated_sentences[1].strip().split(".")[0].strip() + "."
        else:
            generated_sentence = generated_sentences[0].strip().split(".")[0].strip() + "."
    else:
        generated_sentence = generated_text  # 예외 처리로 전체 텍스트 반환

    return generated_sentence



# 1줄 설명 생성
test_keywords = [ "잔디, 꽃, 핀다",
                              "2마리, 레서판다, 서있다, 앞발을 들다",
                              "2명, 사람, 아이스크림, 미소, 함께 있다",
                              "5명, 해변, 웃고있다, 포즈",
                              "6명, 사무실, 컴퓨터, 웃고있다",
                              "많은 사람, 발표, 회의실, 앉아있다",
                              "사람, 개, 인사, 야외",
                              "많은 소, 목장, 풀밭, 빨간 헛간",
                              "나무길, 벤치, 노란잎",
                              "버스, 정류장, 사람들, 줄서다",
                              "파스타, 접시, 마늘, 새우",
                              "한식, 고기구이, 상차림, 반찬",
                              "한옥, 마당, 나무",
                              "고층건물, 아파트, 도시, 하늘",
                              "남성, 흰 셔츠, 청바지, 가방",
                              "여성, 체크셔츠, 청바지, 셀카",
                              "그림, 전시, 액자, 미술작품",
                              "축구, 선수, 경기, 공, 차다",
                              "사람들, 회의실, 화상회의, 마스크",
                              "사람, 회의실, 화상회의, 모니터",
                              "사람, 노트북, 스마트폰",
                              "마우스, 키보드, 펜, 노트"]

for test in test_keywords:
  description = generate_simple_text(test)
 #print(f"키워드 : {test}  ->  생성문장 : {description}")
  print(description)

In [None]:
# 프롬프트 모음

#1차 프롬프트
prompt = f"""다음 키워드를 사용하여 문장을 작성해 :
                      키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                      키워드) {keywords} -> 생성문장)"""

#2차 프롬프트
prompt = f"""다음 키워드에 집중하여 문장을 작성해 :
                          키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                          키워드) {keywords} -> 생성문장)"""

#3차 프롬프트
prompt = f"""다음 제시된 키워드를 모두 사용하여 사진을 설명하듯 문장을 1개 작성해 :
                          키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                          키워드) {keywords} -> 생성문장)"""

#4차 프롬프트
prompt = f"""다음 제시된 키워드를 반드시 전부 사용하여, 사진을 묘사하듯, 문장을 1개 작성하고, 반드시 사진입니다.로 문장이 끝나게 해 :
                              키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                              키워드) {keywords} -> 생성문장)"""

#5차 프롬프트
prompt = f"""다음 제시된 키워드를 반드시 모두 사용하여, 사진을 묘사하듯, 문장을 1개 작성하고, 문장을 자연스럽고, 수식어를 약간 추가하고, 사진입니다.로 문장이 끝나게 해 :
                              키워드) 고양이, 침대, 자다 -> 생성문장) 고양이가 침대에서 자고 있는 사진입니다.
                              키워드) {keywords} -> 생성문장)"""