## 파인튜닝 vs. RAG
OpenAI LLM에게 학습 과정에 포함되지 않은 지식을 주입하는 방식으로는  두 가지가 있습니다. 이 두 방식은 각기 다른 방법으로 모델에 새로운 지식을 제공하며, 목적과 구현 방식에서 차이가 있습니다.

###1. 파인튜닝 (Fine-Tuning)
파인튜닝은 이미 사전 학습된 대형 언어 모델(LLM)에 새로운 데이터셋을 추가로 학습시키는 방식입니다. 이를 통해 모델이 기존에 없던 특정 도메인 지식이나 태스크에 특화된 능력을 갖추게 됩니다.

특징:
- 모델을 재학습: LLM에 새로운 데이터셋을 추가로 학습시켜, 특정 도메인 지식을 직접 모델 파라미터에 반영하는 방식입니다.
- 고정된 지식: 파인튜닝된 후 모델이 가진 지식은 고정됩니다. 즉, 파인튜닝 과정에서 주입된 지식은 이후에 영구적으로 모델의 일부가 됩니다.
- 비용과 시간: 파인튜닝은 대량의 데이터를 모델에 학습시키는 작업이므로, 시간과 계산 자원이 많이 필요합니다.
- 특화된 태스크: 특정 산업이나 도메인(의료, 법률, 과학 등)에 맞는 지식을 추가하여 더 정확한 답변을 제공할 수 있도록 모델을 조정할 수 있습니다.

예시:
- GPT-3 모델을 법률 데이터로 파인튜닝하여 법률 관련 질문에 대해 더 정확하고 신뢰할 수 있는 답변을 제공할 수 있도록 만드는 것.

###2. RAG (Retrieval-Augmented Generation)
RAG는 모델이 응답을 생성할 때 실시간으로 외부 지식을 검색하여 사용하는 방식입니다. 모델이 모든 정보를 직접 학습하지 않고, 대신 필요할 때마다 관련 정보를 검색해서 답변에 반영하는 구조입니다.

특징:
- 실시간 정보 검색: LLM이 응답을 생성할 때, 외부 데이터베이스나 문서 검색 엔진에서 관련 정보를 검색하여 이를 답변에 반영합니다.
- 지식 업데이트 용이: RAG는 모델 자체를 재학습할 필요 없이 외부 데이터 소스만 업데이트하면 최신 정보를 제공할 수 있습니다.
- 동적 지식: 검색된 정보가 그때그때 반영되므로, 새로운 정보나 실시간 업데이트가 필요할 때 유용합니다. 예를 들어, 최신 뉴스나 날씨 정보를 제공할 때 적합합니다.
- 비용 절감: 파인튜닝처럼 모델을 재학습할 필요가 없기 때문에 상대적으로 비용과 시간이 적게 소요됩니다.

예시:
- GPT 모델이 실시간 뉴스 기사나 백과사전을 검색해 관련 정보를 찾아내고, 그 정보를 바탕으로 최신 질문에 답변하는 방식.

요약
- 파인튜닝은 모델 자체를 업데이트하여 특정 도메인이나 작업에 특화된 능력을 갖추게 합니다. 이는 고정된 지식을 주입하고, 새로운 데이터를 학습시키는 과정입니다.
- RAG는 외부 데이터를 실시간 검색하여 답변을 생성하는 방식으로, 실시간으로 업데이트되는 정보를 활용할 수 있으며 모델 자체는 수정하지 않습니다.

따라서 파인튜닝은 특정 지식을 모델에 영구적으로 추가하는 데 적합하고, RAG는 실시간으로 변화하는 정보를 제공하거나 비정형 데이터에 접근하는 데 적합한 방식입니다.

In [None]:
%pip install -q tiktoken
%pip install -q cohere
%pip install -q openai
%pip install -q gradio

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m35.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m207.8/207.8 kB[0m [31m12.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m139.2/139.2 kB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m82.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.5/12.5 MB[0m [31m91.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m82.7/82.7 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
%pip install langchain-openai -q
%pip install faiss-cpu -q
%pip install langchain_community -q

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/49.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.8/49.8 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/384.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m384.8/384.8 kB[0m [31m20.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m140.4/140.4 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.0/27.0 MB[0m [31m49.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 MB[0m [31m59.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m997.8/997.8 kB[0m [31m46.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
import os
import pandas as pd
from openai import OpenAI
import gradio as gr
import time
import json


## Set the API key and model name
MODEL="gpt-4o-mini-2024-07-18"
client = OpenAI(api_key="sk-proj-upOVy97VapEQl5kOiTQIT3BlbkFJlKBrtAnjDU5YMvWrqMzd")

In [None]:
# 데이터셋 만들기
import pandas as pd
from google.colab import drive

drive.mount('/content/drive')
df = pd.read_excel('/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft.xlsx', engine='openpyxl')
df.head()

In [None]:
# 학습용 평가용 데이터 분리
import pandas as pd
from sklearn.model_selection import train_test_split
file_path = '/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft.xlsx'  # Replace with your file path
data = pd.read_excel(file_path)
train_data, val_data = train_test_split(data, test_size=0.2, random_state=42)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 파일 경로
file_path = '/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft.xlsx'  # 실제 경로로 변경하세요
data = pd.read_excel(file_path)

# Train-test split
train_data, val_data = train_test_split(data, test_size=0.2, random_state=42)

# System message
system_msg = """코딩튜터는 고등학생 정보과목에서 알고리즘과 프로그래밍을 학생들이 실습할 수 있게 도와주는 튜터봇입니다. 학생이 선택한 섹션에 대해 충분한 학습을 할 수 있도록 각 섹션별 학습 항목에 대해서 하나씩 개념을 명확하게 설명하고 연습문제를 2, 3개를 제공해서 각 개념을 응용해서 이해할 수 있는 기회를 제공합니다.

    **각 섹션별 학습내용과 목표는 다음과 같습니다:**

    1. 파이썬 기초
      변수와 자료형 이해: 파이썬에서 변수와 다양한 자료형(정수, 실수, 문자열 등)을 이해하고 사용할 수 있다.
      기본 연산 수행: 기본 산술 연산(덧셈, 뺄셈, 곱셈, 나눗셈)과 논리 연산을 이해하고 활용할 수 있다.
      입출력 처리: 표준 입력과 출력 함수를 사용하여 사용자로부터 데이터를 입력받고, 결과를 출력할 수 있다.
      조건문 이해와 활용: if, elif, else 조건문을 사용하여 프로그램의 흐름을 제어할 수 있다.
      반복문 이해와 활용: for, while 반복문을 사용하여 반복적인 작업을 수행할 수 있다.
      기본 프로그램 작성: 위 개념들을 종합적으로 활용하여 간단한 파이썬 프로그램을 작성할 수 있다.
    2. 파이썬 응용
      리스트 활용: 리스트 자료형을 이해하고, 리스트의 생성, 수정, 삭제, 접근 등의 작업을 수행할 수 있다.
      조건문과 반복문 응용: 조건문과 반복문을 복합적으로 사용하여 다양한 문제를 해결할 수 있다.
      문자열 처리: 문자열 자료형의 다양한 메서드를 사용하여 문자열을 처리하고 조작할 수 있다.
      함수 작성 및 활용: 파이썬 함수의 개념을 이해하고, 매개변수와 반환값을 사용하여 재사용 가능한 코드를 작성할 수 있다.
      딕셔너리 활용: 딕셔너리 자료형을 이해하고, 키-값 쌍을 사용하여 데이터를 저장하고 조작할 수 있다.
      문제 정의와 해결: 리스트, 조건문, 반복문, 문자열 처리, 함수, 딕셔너리를 활용하여 실제 문제를 정의하고 해결할 수 있는 프로그램을 작성할 수 있다.


    **튜터링 프로세스**:

    1. 학생들을 환영합니다.
    2. 학생들이 학습할 섹션을 선택하게 합니다.
    3. 각 섹션에 포함되는 학습할 내용들에 대해서 하나씩 개념을 이해하고 문제를 풀 수 있도록 합니다. 문제는 최소한 2개 이상 제시합니다.

    4. 각 문제에 대한 학생의 답안을 신중하게 확인하고 학생들의 이해도를 향상시킬 수 있도록 적합한 설명을 추가합니다.
    5. 학습자의 이해 정도에 따라서 문제를 단계 별로 해결할 수 있도록 설명한다.
    6. 초보자가 입력한 코드에 오류가 있는지 주의 깊게 확인하고 오류를 해결할 수 있는 피드백을 제공합니다.
    7. 학습자의 이해 정도를 파악해서 추가적인 학습을 할 지 여부를 판단한 후 다음 주제로 넘어갈 지를 결정합니다.

    8. 다음 세션으로 넘어가기 전에 학습자가 각 세션에 대한 내용을 충분히 이해했는 지 확인한 후 진행합니다.
    9. 대화는 간결하게 유지하며, 최대 30자 이내로 답변합니다.

    **학생과의 상호작용**:
   튜터봇은 학생들이 자기주도 학습을 할 수 있도록 개인화 된 학습을 제공하고 모든 질의 응답을 한국어로 진행합니다.
"""

# Function to convert DataFrame to formatted JSON
def convert_to_json(df):
    formatted_data = []
    temp_message = [{"role": "system", "content": system_msg}]
    for i, row in df.iterrows():
        # Check if content exists and is a valid string
        if pd.notna(row['content']) and isinstance(row['content'], str):
            message = {"role": row['role'], "content": row['content']}
            if row['role'] == 'assistant' and pd.notna(row.get('weight')):
                message["weight"] = int(row['weight'])
            temp_message.append(message)
            if row['role'] == 'assistant':
                formatted_data.append({"messages": temp_message})
                temp_message = [{"role": "system", "content": system_msg}]
        else:
            print(f"Skipping row {i} due to missing or invalid content.")
    return formatted_data

# Convert the DataFrame to JSON format
train_dataset_formatted = convert_to_json(train_data)
val_dataset_formatted = convert_to_json(val_data)

# Print formatted JSON
import json
formatted_json = json.dumps(train_dataset_formatted, indent=2, ensure_ascii=False)
print(formatted_json)


In [None]:
import json
ds_sample = train_dataset_formatted
with open('/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_train.jsonl', 'w') as f:
  for line in ds_sample:
    json.dump(line, f)
    f.write('\n')

In [None]:
import json
ds_sample = val_dataset_formatted
with open('/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_valid.jsonl', 'w') as f:
  for line in ds_sample:
    json.dump(line, f)
    f.write('\n')

In [None]:
import json
import tiktoken
import numpy as np
from collections import defaultdict

data_path = '/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_train.jsonl'
# Load the dataset
with open(data_path, 'r', encoding='utf-8') as f:
    train_dataset = [json.loads(line) for line in f]

# Initial dataset stats
print("First 3 examples:")
for i in range(3):
    print(f"Example {i+1}:")
    for message in train_dataset[i]["messages"]:
        print(message)
    print("\n")  # Add a newline for better readability between examples

In [None]:
import json
import tiktoken
import numpy as np
from collections import defaultdict

data_path = '/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_valid.jsonl'
# Load the dataset
with open(data_path, 'r', encoding='utf-8') as f:
    val_dataset = [json.loads(line) for line in f]

# Initial dataset stats
print("Num examples:", len(val_dataset))
print("First example:")
for message in val_dataset[0]["messages"]:
    print(message)

데이터 오류 확인

In [None]:
# Format error checks
format_errors = defaultdict(int)

for ex in train_dataset:
    if not isinstance(ex, dict):
        format_errors["data_type"] += 1
        continue

    messages = ex.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    for message in messages:
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        if any(k not in ("role", "content", "weight") for k in message):
            format_errors["message_unrecognized_key"] += 1

        if message.get("role", None) not in ("system", "user", "assistant"):
            format_errors["unrecognized_role"] += 1

        content = message.get("content", None)
        if not content or not isinstance(content, str):
            format_errors["missing_content"] += 1

    if not any(message.get("role", None) == "assistant" for message in messages):
        format_errors["example_missing_assistant_message"] += 1

if format_errors:
    print("Found errors:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
else:
    print("No errors found")

In [None]:
# Format error checks
format_errors = defaultdict(int)

for ex in val_dataset:
    if not isinstance(ex, dict):
        format_errors["data_type"] += 1
        continue

    messages = ex.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    for message in messages:
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        if any(k not in ("role", "content", "weight") for k in message):
            format_errors["message_unrecognized_key"] += 1

        if message.get("role", None) not in ("system", "user", "assistant"):
            format_errors["unrecognized_role"] += 1

        content = message.get("content", None)
        if not content or not isinstance(content, str):
            format_errors["missing_content"] += 1

    if not any(message.get("role", None) == "assistant" for message in messages):
        format_errors["example_missing_assistant_message"] += 1

if format_errors:
    print("Found errors:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
else:
    print("No errors found")

fine tuning

In [None]:
# 데이터 업로드
# JSON Lines 파일을 모델 학습에 사용하기 위해 업로드
train = client.files.create(
  file=open("/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_train.jsonl", "rb"),
  purpose='fine-tune'
)
train

In [None]:
valid = client.files.create(
  file=open("/content/drive/MyDrive/kdt_240424/m9_openai/data/code_ft_valid.jsonl", "rb"),
  purpose='fine-tune'
)
valid

파인튜닝

In [None]:
client.fine_tuning.jobs.create(
  training_file='file-ymQn1PrbhGl7KLwndLNgFHMh',
  validation_file='file-dWhHK73TB1lWH6iLwg1P6vVj',
  model=MODEL,
  hyperparameters={
    "n_epochs":3
  }
)

In [None]:
# 작업상태 확인
response = client.fine_tuning.jobs.retrieve("ftjob-bwhRTrexajY7l2yhCdZNzu5H")

# 작업 상태 확인
status = response.status

if status == "succeeded":
    print("작업이 완료되었습니다.")
    # 작업이 완료되면 결과를 가져와서 사용할 수 있습니다.
    # 예를 들어, 모델을 사용하여 텍스트 생성 또는 다른 작업을 수행할 수 있습니다.
else:
    print(f"작업 상태: {status}")

total_tokens = response.trained_tokens
print(f"사용된 총 토큰 수: {total_tokens}")

작업이 완료되었습니다.
사용된 총 토큰 수: 31776


- langchain-openai: LangChain과 OpenAI를 연결하는 패키지.
- faiss-cpu: 벡터 검색을 위한 FAISS 라이브러리의 CPU 버전.
- langchain_community: LangChain의 커뮤니티에서 개발된 추가 도구.
- tiktoken: OpenAI 모델에서 사용하는 토큰화 도구.

documents.txt

In [None]:
# Define the content for both basic and advanced sections
content = """
1. 파이썬 기초

1.1 변수와 자료형 이해
파이썬에서 변수는 데이터를 저장하는 메모리 공간을 의미합니다. 변수에 값을 할당할 때는 `=` 연산자를 사용합니다.
파이썬은 다양한 자료형을 제공하며, 대표적인 자료형으로는 `int` (정수), `float` (실수), `str` (문자열), `bool` (참/거짓) 등이 있습니다.

예제:
x = 10  # 정수형 변수
y = 3.14  # 실수형 변수
name = "Alice"  # 문자열 변수
is_student = True  # 불리언 변수

연습문제:
1. 변수를 사용하여 자신의 이름과 나이를 출력하는 프로그램을 작성하세요.
2. `a = 5`, `b = 7.5`일 때, `a + b`의 결과는 무엇인가요?

1.2 기본 연산 수행
파이썬은 사칙연산(+, -, *, /)을 비롯하여, 나머지(%) 연산, 거듭제곱(**) 연산 등을 지원합니다.

예제:
a = 10
b = 3

print(a + b)  # 덧셈
print(a - b)  # 뺄셈
print(a * b)  # 곱셈
print(a / b)  # 나눗셈
print(a % b)  # 나머지
print(a ** b)  # 거듭제곱

연습문제:
1. 두 숫자를 입력받아 두 숫자의 합과 곱을 출력하는 프로그램을 작성하세요.
2. `7을 3으로 나눈 나머지`와 `2의 5제곱`을 계산해보세요.

1.3 입출력 처리
파이썬에서는 `input()` 함수를 사용하여 사용자로부터 입력을 받고, `print()` 함수를 사용하여 출력을 할 수 있습니다.

예제:
name = input("이름을 입력하세요: ")
print("안녕하세요, " + name + "님!")

연습문제:
1. 나이를 입력받아 "당신의 나이는 X세입니다"라고 출력하는 프로그램을 작성하세요.
2. 두 개의 숫자를 입력받아 그 합을 출력하는 프로그램을 작성하세요.

1.4 조건문 이해와 활용
조건문은 프로그램의 흐름을 제어하는 데 사용됩니다. `if`, `elif`, `else` 키워드를 사용하여 조건에 따라 다른 명령을 수행할 수 있습니다.

예제:
age = int(input("나이를 입력하세요: "))

if age >= 18:
    print("성인입니다.")
else:
    print("미성년자입니다.")

연습문제:
1. 숫자를 입력받아 그 숫자가 양수, 음수, 또는 0인지 판별하는 프로그램을 작성하세요.
2. 점수를 입력받아 90점 이상이면 "A", 80점 이상이면 "B", 그 외에는 "C"를 출력하는 프로그램을 작성하세요.

1.5 반복문 이해와 활용
반복문은 특정 코드 블록을 반복해서 실행할 때 사용됩니다. 파이썬에서는 `for`과 `while` 반복문을 주로 사용합니다.

예제:
for i in range(5):
    print("Hello, World!")

count = 0
while count < 5:
    print("Hello, World!")
    count += 1

연습문제:
1. 1부터 10까지의 숫자를 출력하는 프로그램을 작성하세요.
2. 1부터 100까지의 숫자 중 짝수만 출력하는 프로그램을 작성하세요.

1.6 기본 프로그램 작성
지금까지 배운 변수, 조건문, 반복문을 이용해 간단한 프로그램을 작성해보겠습니다.

예제:
# 숫자 맞추기 게임
import random

number_to_guess = random.randint(1, 100)
guess = 0

while guess != number_to_guess:
    guess = int(input("숫자를 맞춰보세요 (1-100): "))

    if guess < number_to_guess:
        print("너무 낮아요!")
    elif guess > number_to_guess:
        print("너무 높아요!")
    else:
        print("정답입니다!")

연습문제:
1. 계산기를 만들어 봅시다. 두 개의 숫자와 연산자를 입력받아 결과를 출력하는 프로그램을 작성하세요.
2. 사용자에게 5번의 기회를 주어 숫자를 맞추게 하는 프로그램을 작성하세요. 숫자를 맞추면 "정답입니다!"를 출력하고, 맞추지 못하면 "기회를 다 썼습니다."를 출력하세요.


2. 파이썬 응용

2.1 리스트 활용
리스트는 여러 개의 값을 하나의 변수에 저장할 수 있는 데이터 구조입니다. 리스트는 대괄호 `[]`로 감싸고, 각 요소는 쉼표 `,`로 구분됩니다.

예제:
fruits = ["apple", "banana", "cherry"]
print(fruits[0])  # apple 출력

fruits.append("orange")
print(fruits)  # ["apple", "banana", "cherry", "orange"] 출력

연습문제:
1. 5개의 좋아하는 음식을 리스트에 저장하고, 그 중 세 번째 음식을 출력하는 프로그램을 작성하세요.
2. 리스트에 1부터 10까지의 숫자를 추가하고, 그 합을 구하는 프로그램을 작성하세요.

2.2 조건문과 반복문 응용
조건문과 반복문을 함께 사용하여 보다 복잡한 로직을 구현할 수 있습니다. 이를 통해 반복적인 작업을 조건에 따라 수행할 수 있습니다.

예제:
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

for number in numbers:
    if number % 2 == 0:
        print(f"{number}은(는) 짝수입니다.")
    else:
        print(f"{number}은(는) 홀수입니다.")

연습문제:
1. 사용자로부터 10개의 숫자를 입력받아, 짝수만 출력하는 프로그램을 작성하세요.
2. 리스트에 저장된 여러 이름 중 "김"으로 시작하는 이름만 출력하는 프로그램을 작성하세요.

2.3 문자열 처리
문자열은 문자들의 집합이며, 파이썬에서 문자열을 다루기 위한 다양한 방법이 있습니다. 문자열은 인덱싱, 슬라이싱, 메서드를 이용해 처리할 수 있습니다.

예제:
greeting = "Hello, World!"
print(greeting[0:5])  # "Hello" 출력

upper_case_greeting = greeting.upper()
print(upper_case_greeting)  # "HELLO, WORLD!" 출력

연습문제:
1. 사용자의 이름을 입력받아, 이름의 첫 글자만 대문자로 출력하는 프로그램을 작성하세요.
2. 주어진 문장에서 특정 단어를 다른 단어로 대체하는 프로그램을 작성하세요.

2.4 함수 작성 및 활용
함수는 특정 작업을 수행하는 코드 블록입니다. 파이썬에서 함수는 `def` 키워드로 정의됩니다. 함수를 사용하면 코드의 재사용성을 높일 수 있습니다.

예제:
def greet(name):
    return f"안녕하세요, {name}님!"

message = greet("홍길동")
print(message)

연습문제:
1. 두 숫자를 입력받아 그 합을 반환하는 함수를 작성하세요.
2. 리스트의 숫자들을 모두 곱한 결과를 반환하는 함수를 작성하세요.

2.5 딕셔너리 활용
딕셔너리는 키-값 쌍으로 데이터를 저장하는 자료구조입니다. 각 키는 유일하며, 키를 사용하여 값을 조회할 수 있습니다.

예제:
student = {
    "name": "홍길동",
    "age": 18,
    "grade": "A"
}

print(student["name"])  # 홍길동 출력
student["age"] = 19  # 나이 업데이트
print(student)  # {"name": "홍길동", "age": 19, "grade": "A"} 출력

연습문제:
1. 3명의 학생 정보를 딕셔너리에 저장하고, 그 중 한 학생의 이름을 출력하는 프로그램을 작성하세요.
2. 딕셔너리를 사용하여 학생들의 이름과 점수를 저장하고, 모든 학생의 평균 점수를 계산하는 프로그램을 작성하세요.

2.6 문제 정의와 해결

프로그래밍에서 문제 정의와 해결은 주어진 문제를 명확하게 이해하고, 이를 해결하기 위한 계획을 세운 후, 파이썬 코드를 작성하여 구현하는 과정을 의미합니다. 문제를 해결할 때는 문제를 작은 부분으로 나누고, 각 부분을 단계적으로 해결하는 것이 중요합니다.

예제:
다음은 간단한 문제 정의와 해결 과정을 보여주는 예제입니다.

문제: 주어진 리스트에서 가장 큰 숫자를 찾는 프로그램을 작성하세요.

해결 과정:
1. 주어진 리스트에서 첫 번째 숫자를 가장 큰 숫자로 초기화합니다.
2. 리스트의 모든 숫자를 순회하며, 현재 가장 큰 숫자보다 큰 숫자가 나타나면 그 숫자를 새로운 가장 큰 숫자로 설정합니다.
3. 모든 숫자를 확인한 후, 가장 큰 숫자를 출력합니다.

def find_max(numbers):
    max_number = numbers[0]  # 첫 번째 숫자를 가장 큰 숫자로 초기화

    for number in numbers:
        if number > max_number:
            max_number = number

    return max_number

numbers = [3, 5, 2, 9, 6]
print("가장 큰 숫자:", find_max(numbers))  # 9 출력

연습문제:

사용자가 입력한 숫자들 중에서 가장 작은 숫자를 찾는 프로그램을 작성하세요.
학생들의 점수를 입력받아 최고 점수와 최저 점수를 출력하는 프로그램을 작성하세요.
"""

# Write the content to a file
with open('documents.txt', 'w') as file:
    file.write(content)

In [None]:
!ls

documents.txt  sample_data


- OpenAIEmbeddings: 텍스트 데이터를 벡터로 임베딩하는 클래스.
- ChatOpenAI: OpenAI의 채팅 모델을 사용하는 클래스.
- FAISS: 빠른 유사성 검색을 위해 벡터 데이터를 저장하고 검색하는 라이브러리.
- TextLoader: 텍스트 파일에서 문서를 로드하는 도구.
- load_qa_chain: 질의응답(QA) 체인을 로드하는 함수.
- RetrievalQA: 검색 및 QA 체인을 결합하는 클래스.

In [None]:
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.vectorstores import FAISS
from langchain.document_loaders import TextLoader
from langchain.chains.question_answering import load_qa_chain
from langchain.prompts import ChatPromptTemplate
from langchain.chains import RetrievalQA

# OpenAI API 키 설정
import os
os.environ["OPENAI_API_KEY"] = 'sk-proj-upOVy97VapEQl5kOiTQIT3BlbkFJlKBrtAnjDU5YMvWrqMzd'

# 1. 문서 로드
# 텍스트 파일을 사용해 문서를 로드합니다. 이 문서들은 나중에 검색을 위해 벡터화됩니다.
loader = TextLoader('documents.txt')
documents = loader.load()

# 2. 문서 임베딩 및 인덱싱
# 로드한 문서들을 OpenAIEmbeddings를 사용해 벡터로 변환하고, FAISS를 사용해 인덱싱합니다.
# 이렇게 하면 문서들 간의 유사성을 기준으로 빠르게 검색할 수 있습니다.
embeddings = OpenAIEmbeddings()
vector_store = FAISS.from_documents(documents, embeddings)

# 3. Fine-tuned GPT 모델을 사용한 LLMChain 생성
# Fine-tuned된 GPT 모델을 사용할 수 있도록 설정합니다.
llm = ChatOpenAI(model="ft:gpt-4o-mini-2024-07-18:bnvs::9vhRlPzZ", temperature=0.7)

# 4. 프롬프트 템플릿 정의
# 질문에 대한 답변을 생성할 때 사용할 프롬프트 템플릿을 정의
prompt_template = ChatPromptTemplate.from_template(
    template="Given the context: {context}, answer the question: {question}"
)

# 5. RAG 구현
# load_qa_chain 함수를 사용해 QA 체인을 로드하고, RetrievalQA 체인을 생성합니다.
qa_chain = RetrievalQA.from_chain_type(
    llm=llm, # Fine-tuned된 GPT 모델.
    chain_type="stuff",  # stuff"는 모든 검색된 문서를 단일 입력으로 결합하여 처리하는 방법. "map_reduce"나 다른 옵션도 사용할 수 있습니다.
    retriever=vector_store.as_retriever(), # 벡터 저장소에서 관련 문서를 검색하는 기능.
    return_source_documents=True # 검색된 문서를 포함하여 반환할지 여부를 지정
)

# 6. 질문에 대한 답변 생성
query = "숫자 맞추기 게임을 코드로 작성해줘"
result = qa_chain.invoke({"query": query})  # __call__ 대신 invoke 사용

print(result["result"])


다음은 숫자 맞추기 게임을 작성한 코드입니다.

```python
import random

number_to_guess = random.randint(1, 100)  # 1부터 100까지의 랜덤 숫자 생성
guess = 0  # 사용자의 추측 초기화
attempts = 0  # 시도 횟수 초기화

print("1부터 100 사이의 숫자를 맞춰보세요!")

while guess != number_to_guess:
    guess = int(input("숫자를 입력하세요: "))  # 사용자로부터 숫자 입력받기
    attempts += 1  # 시도 횟수 증가

    if guess < number_to_guess:
        print("너무 낮아요!")
    elif guess > number_to_guess:
        print("너무 높아요!")
    else:
        print(f"정답입니다! {attempts}번 만에 맞추셨습니다.")
```

이 코드를 실행하면 사용자가 1부터 100 사이의 숫자를 맞추기 위해 입력할 수 있으며, 올바른 숫자를 맞출 때까지 계속해서 시도할 수 있습니다.
