# [OpenAI Cookbook 예제](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb) 참조

In [1]:
import pandas as pd
import tiktoken
import openai
from openai import OpenAI
from scipy.spatial.distance import cosine
import os
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv('data\practice\.env'))
client = OpenAI()
from pprint import pprint
import json
openai.api_key = os.environ["OPENAI_API_KEY"]

In [2]:
openai.api_key

'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'

In [3]:
# row 생략 없이 출력
pd.set_option('display.max_rows', None)
# col 생략 없이 출력
pd.set_option('display.max_columns', None)

### 레시피 데이터 불러오기

In [4]:
df = pd.read_csv("C:/Users/r2com/Documents/GitHub/sesac-project/data/scripts/notebook/blog_data.csv")
df.head()

Unnamed: 0,제목,날짜,내용
0,2024년 빅데이터 동아리 투빅스 TOBIGS 나름의 지극히 주관적인 합격 후기 느...,2024-01-08 13:01:32,나름 이번에 21기를 준비하면서 느꼈는데 생각보다 정보가 없어서.. 간단하게 후기를...
1,SESAC 청년취업사관학교도봉 캠퍼스 준비 과정 및 일주일 후기,2024-01-06 15:28:06,여차저차 하면서 시작하게 된 청년취업사관학교 후기를 좀 남겨볼까해요. 아직 일주일 ...
2,나의 뇌는 4개이다 나를 알고 싶을 때 뇌과학을 공부합니다.,2024-01-05 18:08:43,오늘은 최근에 읽게 된 챗북에서 인상깊었던 내용이 있어서 다루어보려 합니다. 한줄로...
3,"간만에 써보는, 인생 전체는 되는대로",2023-12-18 21:18:53,"학회 회장 인수인계 자료를 만들다가 문득 간만에 기록을 해본다. 9월, 10월 ,..."
4,Etri 랩실 하계 인턴 2주 해보고 느낀 것들 정리해보기,2023-07-14 22:56:11,음..이런 느낌의 사회생활은 처음이기에 여러므로 느끼는 바가 많다. 신기하면서도 쉽...


In [5]:
df.rename(columns = {'제목' : 'title', '날짜' : 'date', '내용' : 'posting'}, inplace = True)

In [6]:
df.head()

Unnamed: 0,title,date,posting
0,2024년 빅데이터 동아리 투빅스 TOBIGS 나름의 지극히 주관적인 합격 후기 느...,2024-01-08 13:01:32,나름 이번에 21기를 준비하면서 느꼈는데 생각보다 정보가 없어서.. 간단하게 후기를...
1,SESAC 청년취업사관학교도봉 캠퍼스 준비 과정 및 일주일 후기,2024-01-06 15:28:06,여차저차 하면서 시작하게 된 청년취업사관학교 후기를 좀 남겨볼까해요. 아직 일주일 ...
2,나의 뇌는 4개이다 나를 알고 싶을 때 뇌과학을 공부합니다.,2024-01-05 18:08:43,오늘은 최근에 읽게 된 챗북에서 인상깊었던 내용이 있어서 다루어보려 합니다. 한줄로...
3,"간만에 써보는, 인생 전체는 되는대로",2023-12-18 21:18:53,"학회 회장 인수인계 자료를 만들다가 문득 간만에 기록을 해본다. 9월, 10월 ,..."
4,Etri 랩실 하계 인턴 2주 해보고 느낀 것들 정리해보기,2023-07-14 22:56:11,음..이런 느낌의 사회생활은 처음이기에 여러므로 느끼는 바가 많다. 신기하면서도 쉽...


### Few Shot Learning용 예제 만들기

In [7]:
training_data = []

system_message = "You are a helpful Personal assistant. You are to extract the personal experience from each of the posting provided."

def create_user_message(row):
    return f"""Title: {row['title']}\n\nPosting date: {row['date']}\n\npersonal experience: """

def prepare_example_conversation(row):
    messages = []
    messages.append({"role": "system", "content": system_message})

    user_message = create_user_message(row)
    messages.append({"role": "user", "content": user_message})

    messages.append({"role": "assistant", "content": row["posting"]})

    return {"messages": messages}

pprint(prepare_example_conversation(df.iloc[0]))

{'messages': [{'content': 'You are a helpful Personal assistant. You are to '
                          'extract the personal experience from each of the '
                          'posting provided.',
               'role': 'system'},
              {'content': 'Title: 2024년 빅데이터 동아리 투빅스 TOBIGS 나름의 지극히 주관적인 합격 후기 '
                          '느끼는 점 등등..\n'
                          '\n'
                          'Posting date: 2024-01-08 13:01:32\n'
                          '\n'
                          'personal experience: ',
               'role': 'user'},
              {'content': '나름 이번에 21기를 준비하면서 느꼈는데 생각보다 정보가 없어서.. 간단하게 후기를 남겨보려 '
                          '합니다~~  사실 저는 이전에 교내 AI 학회 회장을 마지막 학기에 하면서 이것이 '
                          '마지막이겠다 라고 생각했는데... 막상 투빅스 처럼 좋은 커뮤니티와 시스템을 가진 활동도 '
                          '참여해보고 싶은 아쉬움이 항상 있었어요. 그래서 불확실한 미래를 가진 졸업유예생 신분이기는 '
                          '하지만 나름의 용기와 다짐을 하며 지원을 해보았습니다. 이번이 찐찐막이 될 것 같다는 생각과 '
                          '이때 아니면 쉽게

### 성능 측정 목적으로 Training Data와 Test Data 를 나누기

In [8]:
pip install sklearn

Collecting sklearn
  Using cached sklearn-0.0.post12.tar.gz (2.6 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'error'
Note: you may need to restart the kernel to use updated packages.


  error: subprocess-exited-with-error
  
  × python setup.py egg_info did not run successfully.
  │ exit code: 1
  ╰─> [15 lines of output]
      The 'sklearn' PyPI package is deprecated, use 'scikit-learn'
      rather than 'sklearn' for pip commands.
      
      Here is how to fix this error in the main use cases:
      - use 'pip install scikit-learn' rather than 'pip install sklearn'
      - replace 'sklearn' by 'scikit-learn' in your pip requirements files
        (requirements.txt, setup.py, setup.cfg, Pipfile, etc ...)
      - if the 'sklearn' package is used by one of your dependencies,
        it would be great if you take some time to track which package uses
        'sklearn' instead of 'scikit-learn' and report it to their issue tracker
      - as a last resort, set the environment variable
        SKLEARN_ALLOW_DEPRECATED_SKLEARN_PACKAGE_INSTALL=True to avoid this error
      
      More information is available at
      https://github.com/scikit-learn/sklearn-pypi-packag

In [9]:
from sklearn.utils import shuffle

# 데이터 섞기
df = shuffle(df, random_state=42)

# 비율 설정
train_ratio = 0.8
train_size = int(len(df) * train_ratio)

training_df = df.iloc[:train_size]

# apply the prepare_example_conversation function to each row of the training_df
training_data = training_df.apply(prepare_example_conversation, axis=1).tolist()

for example in training_data[:5]:
    print(example)

{'messages': [{'role': 'system', 'content': 'You are a helpful Personal assistant. You are to extract the personal experience from each of the posting provided.'}, {'role': 'user', 'content': 'Title: 5월 19일 매.세.지 더 짧게 정리하기\n\nPosting date: 2022-05-19 07:10:08\n\npersonal experience: '}, {'role': 'assistant', 'content': ' 와우,,, 오늘 국내장은 거의 파란불 확정이네요... 다우존스는 2020년 이후 최대 하락폭을 기록했다고 합니다. 특히 대형 소매업체 월마트에 이어 타깃이 인플레이션에 따른 비용 압력에 이익이 대폭 줄어든 것으로 나타나면서 물가 상승과 그에 따른 소비 감소 우려에 뉴욕증시의 주요 지수가 폭락한 것으로 보입니다. ㅠㅠ  1. 윤석열 대통령이 20일 방한하는 조 바이든 미국 대통령과 함께 삼성전자 평택 반도체 공장을 찾기로 하였습니다. 미국 대통령이 직접 공장을 찾는 것은 처음이라 더 주목이 되고 있다고 하네요  2. 넥슨과 엔씨소프트는 코로나19 상황에서 3출근2재택근무제를 운영해 오다가 오는 6월부터는 전직원 전면 출근을 지시하였습니다. 네이버와는 반대되는 모습이네요.  3. 한국개발연구원KDI이 우크라이나 전쟁, 공급망 충격 등으로 올해 소비자물가상승률이 4.2에 달할 것으로 전망하였습니다. 스태그플레이션을 단순히 금리인상으로 눌러버릴지 걱정이 되는 부분입니다...ㅠㅠ  4. 윤석열 대통령이 5.18 민주화운동 기념식에 참석해 유족의 손을 맞잡고 임을 위한 행진곡을 힘차게 불렀습니다.  5. 카카오톡에 메시지를 예약해 두었다가 자동으로 전송하는 기능이 도입되었습니다. 이번에 도입한 예약기능을 사용하려면 아이폰이나 아이패드에서 카카오톡 채팅창 우측의 샵을 누르면 나타나는 메시지 예약을 사용하면

In [10]:
validation_df = df.iloc[train_size:]
validation_data = validation_df.apply(prepare_example_conversation, axis=1).tolist()

### 데이터들 임시 저장!

In [11]:
def write_jsonl(data_list: list, filename: str) -> None:
    with open(filename, "w") as out:
        for ddict in data_list:
            jout = json.dumps(ddict) + "\n"
            out.write(jout)

In [12]:
training_file_name = "finetune_training.jsonl"
write_jsonl(training_data, training_file_name)

validation_file_name = "finetune_validation.jsonl"
write_jsonl(validation_data, validation_file_name)

In [13]:
!head -n 5 finetune_training.jsonl

'head'��(��) ���� �Ǵ� �ܺ� ����, ������ �� �ִ� ���α׷�, �Ǵ�
��ġ ������ �ƴմϴ�.


### Training 파일들과 Validation 파일들을 둘 다 파일로 집어 넣음

In [32]:
with open(training_file_name, "rb") as training_fd:
    training_response = openai.files.create(
        file=training_fd, purpose="fine-tune"
    )

training_file_id = training_response.id

with open(validation_file_name, "rb") as validation_fd:
    validation_response = openai.files.create(
        file=validation_fd, purpose="fine-tune"
    )
validation_file_id = validation_response.id

print("Training file ID:", training_file_id)
print("Validation file ID:", validation_file_id)

Training file ID: file-PdSyjSuV06PB2QW3tkHo29y0
Validation file ID: file-iiwEnDDl6JMYmpE0UGbgbFFM


In [33]:
response = openai.fine_tuning.jobs.create(
    training_file=training_file_id,
    validation_file=validation_file_id,
    model="gpt-3.5-turbo",
    suffix="blog posting",
)

job_id = response.id

print("Job ID:", response.id)
print("Status:", response.status)


Job ID: ftjob-AV5p8xWsRgaOxGVhwx6HtjBe
Status: validating_files


In [34]:
response = openai.fine_tuning.jobs.list_events(job_id)

events = response.data
events.reverse()

for event in events:
    print(event.message)

Created fine-tuning job: ftjob-AV5p8xWsRgaOxGVhwx6HtjBe
Validating training file: file-PdSyjSuV06PB2QW3tkHo29y0 and validation file: file-iiwEnDDl6JMYmpE0UGbgbFFM


In [35]:
response = openai.fine_tuning.jobs.retrieve(job_id)
fine_tuned_model_id = response.fine_tuned_model

if fine_tuned_model_id is None: 
    raise RuntimeError("Fine-tuned model ID not found. Your job has likely not been completed yet.")

print("Fine-tuned model ID:", fine_tuned_model_id)

RuntimeError: Fine-tuned model ID not found. Your job has likely not been completed yet.

In [26]:
fine_tuned_model_id ='ft:gpt-3.5-turbo-0613:personal:blog-posting:8krwiBDj'

In [27]:
import pandas as pd
from datetime import datetime

sample = {
    'title': ['햄민이랑 데이트'], 
    'date': [datetime.now()]}


In [28]:
test_messages = []
test_messages.append({"role": "system", "content": system_message})
user_message = create_user_message(sample)
test_messages.append({"role": "user", "content": create_user_message(sample)})

pprint(test_messages)

[{'content': 'You are a helpful Personal assistant. You are to extract the '
             'personal experience from each of the posting provided.',
  'role': 'system'},
 {'content': "Title: ['햄민이랑 데이트']\n"
             '\n'
             'Posting date: [datetime.datetime(2024, 1, 25, 20, 58, 20, '
             '397454)]\n'
             '\n'
             'personal experience: ',
  'role': 'user'}]


In [31]:
response = openai.chat.completions.create(
    model=fine_tuned_model_id, messages=test_messages, temperature=0.8, max_tokens=4000, seed=1
)
print(response.choices[0].message.content)

NotFoundError: Error code: 404 - {'error': {'message': 'The model `ft:gpt-3.5-turbo-0613:personal:blog-posting:8krwiBDj` does not exist or you do not have access to it.', 'type': 'invalid_request_error', 'param': None, 'code': 'model_not_found'}}