# Installation

In [None]:
%%bash
pip install  --upgrade\
    'vllm>=0.8.2' \
    'transformers>=4.50.3' \
    pyzmq \
    unsloth \
    "flashinfer-python>=0.2.4"  --extra-index-url https://flashinfer.ai/whl/cu124/torch2.6/
pip install --upgrade --no-deps numpy
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp/gguf-py/ && pip install --editable .

In [None]:
import os
from google.colab import userdata
os.environ["HF_TOKEN"] = userdata.get('HF_WRITE_TOKEN')
!huggingface-cli login --add-to-git-credential --token $HF_TOKEN

In [None]:
!pip install pandas scikit-learn openai langchain-text-splitters peft FlagEmbedding datasets faiss-cpu accelerate transformers bitsandbytes jupyterlab
!cp "/content/drive/MyDrive/Colab Notebooks/data/index_faiss" index_faiss
!cp "/content/drive/MyDrive/Colab Notebooks/data/boston_housing.csv" boston_housing.csv

# VLLM

In [None]:
from openai import OpenAI
import math
import time
import json

client = OpenAI(
    base_url="http://localhost:8877/v1",
    api_key="token-abc123",
)

In [None]:
def generate_response(message_list):
    completion = client.chat.completions.create(
        model = "Llama-3.1-8B-Instruct",
        messages = message_list,
        max_tokens=1024,
        frequency_penalty=0.3,
        temperature=0.6,
        stream=True,
    )

    final_answer = []
    assistant_response = ""

    start = time.time()

    # 스트림 모드에서는 completion.choices 를 반복문으로 순회
    for chunk in completion:
        chunk_content = chunk.choices[0].delta.content

        if isinstance(chunk_content, str):
            final_answer.append(chunk_content)
            # 토큰 단위로 실시간 답변 출력
            print(chunk_content, end="")
            assistant_response += chunk_content

    end = time.time()
    print(f"\n\ninference time: {end - start:.5f} sec \n\n")
    return assistant_response

In [None]:
message_list = [{"role": "system", "content": "당신은 유저의 질문에 최대한 정확하고 풍부한 정보를 전달하는 assistant 이다. 답변은 항상 한국어로 공손하게 답변해줘."}]

while True:
    user_prompt = input("USER > ")
    if user_prompt.lower() == "quit":
        break
    message_list.append({"role": "user", "content": user_prompt})

    assistant = generate_response(message_list)
    message_list.append({"role": "assistant", "content": assistant})

USER >  안녕 너는 지금 정상이니?


안녕하세요! 저는 지금 정상입니다. 제가 도와드릴 수 있는 모든 정보와 답변을 준비하고 있습니다. 유저님의 질문에 대해 도움을 드리겠습니다. 무엇을 알고 싶으세요?

inference time: 1.53614 sec 




USER >  테니스 포핸드를 잘 칠 수 있는 방법에 대해 물어보고 싶어


테니스 포핸드가 잘 치는 방법에 대해 알려드리겠습니다.

1. **스윙의 기본**: 포핸드의 기본 스윙은 왼손잡이 또는 오른손잡이와 관계없이 동일합니다. 손목과 팔꿈치를 유지한 채로, 손가락을 사용하여 공을 치는 것이 중요합니다.

2. **스윙의 시작**: 포핸드 스윙을 시작하기 전에, 발을 앞으로 이동하고 무릎을 살짝 굽힙니다. 이 자세를 통해 공을 치는 데 필요한 힘과 안정성을 얻을 수 있습니다.

3. **스윙의 중간**: 스윙의 중간에서, 팔꿈치를 유지하고 손목은 약간 젖혀져 있습니다. 손가락은 공에 닿아야 하며, 손바닥은 위를 향하게 됩니다.

4. **스윙의 끝**: 스윙의 끝에서, 손가락이 공에 닿으며, 손바닥은 위를 향하게 됩니다. 이때 공은 공중에서 회전하며, 공의 속도가 빠르게 증가합니다.

5. **공격 스타일**: 포핸드 공격 스타일에는 다양한 유형이 있습니다. 가장 일반적인 유형은 '포어핸드'와 '백핸드'입니다. 포어핸드는 앞쪽으로 치는 방법이며, 백핸드는 뒤쪽으로 치는 방법입니다.

6. **훈련**: 포핸드 기술을 향상시키기 위해 다양한 훈련 방법이 있습니다. 예를 들어, 공을 높게 치거나, 슬로우볼로 훈련하는 등 다양한 방법으로 훈련할 수 있습니다.

7. **실전 적용**: 포핸드 기술을 실전에 적용하기 위해, 다양한 상황에 대비해야 합니다. 예를 들어, 상대방이 강력한 포핸드를 가진 경우에는 더 강력한 포핸드를 사용해야 하며, 상대방이 약한 포핸드를 가진 경우에는 더 느린 속도로 공을 치는 것이 좋습니다.

포핸드 기술을 향상시키기 위해 꾸준히 훈련하고实전 경험을 쌓는 것이 중요합니다.

inference time: 16.55014 sec 




USER >  quit


In [None]:
system_prompt = "You are a helpful assistant. And Answers must be in Korean."
user_prompt = """#입력
[원본 prompt] = 테니스를 잘 칠 수 있는 방법은?

#처리
당신은 세계 최고의 prompt engineer로 행동합니다.
당신의 역할은 사용자가 제공한 prompt를 높은 품질의 prompt로 개선하는 일 입니다.
다음의 지침에 따라 [원본 prompt]를 재구성하여 [최적화된 prompt] 를 생성해주세요.

1. 의도 파악: 사용자의 궁극적인 목표와 의도를 명확히 이해하고 명시하세요.
2. 맥락 확립: 관련된 배경 정보, 주제의 범위, 필요한 전문 지식 수준을 설정하세요.
3. 구체성 강화: 모호한 표현을 피하고, 명확하고 구체적인 지시사항을 제공하세요.
4. 구조화: 응답의 형식, 구조, 섹션을 명확히 지정하여 체계적인 출력을 유도하세요.
5. 예시 제공: 가능한 경우, 기대하는 출력의 구체적인 예시나 셈플 데이터를 포함하세요.
6. 제한 설정: 응답의 길이, 복잡성 수준, 사용할 기술 용어의 범위 등을 명시하세요.
7. 다각적 접근: 다양한 관점, 시나리오, 또는 해결 방법을 고려하도록 요청하세요.
8. 윤리적 고려: 편함, 민감한 내용, 또는 잠재적인 부작용에 대한 주의사항을 포함하세요.
9. 상호작용 유도: 필요한 경우, 추가 정보나 명확화를 요청할 수 있는 옵션을 제공하세요.
10. 품질 기준 설정: 응답을 평가할 수 있는 구체적인 기준이나 체크리스트를 포함하세요.

#출력
반드시 최적화된 prompt 만 출력합니다.
[최적화된 prompt]

"""

In [None]:
messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

이 문제를 해결하기 위해, 각 세트의 게임 수를 합산합니다.

6:5 3세트는 6+5 = 11
5:7 3세트는 5+7 = 12
6:7 3세트는 6+7 = 13

총 게임 수는 11 + 12 + 13 = 36 게임입니다.

테니스 공은 처음에는 게임 수의 합이 7 게임, 다음부터는 9 게임마다 새 공으로 교체됩니다. 따라서, 총 게임 수를 9로 나누어 보겠습니다.

36 / 9 = 4 (나머지 0)

이 결과는, 테니스 공을 처음부터 교체하지 않고, 시작 시 사용한 공을 제외하고 총 교체 횟수가 몇 번인지 알려줍니다. 

그러나, 시작 시 사용한 공을 포함하여 총 교체 횟수를 계산해야 하므로, 총 교체 횟수는 (4-1) * (2) = (3) * (2) =6

이러한 이유로 시작 시 사용한 공을 포함하여 총 교체 횟수는 총 (3)회이며, 각 회마다 새공으로 교체가 이루어지므로 총 사용된 공은 
(시작 시 사용한 공) + (교체 횟수 * 각 회당 사용된 공의 개수)
= (2) + (3 * (2))
= (2) + (6)
= (8)

최종적으로 경기 시작 시 사용한 공과 교체 된 후 사용된 공의 개수를 합산하면,
(시작 시 사용한 공) + (교체 된 후 사용된 공)
= (2) + (8)
= (10)

따라서, 아마추어 테니스 대회에서는 테니스공을 한번에 2개 사용했으며, 이들 테니스공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새공으로 교체를 한 경우,
만일 3세트 경기가 6:5 5:7 6:7 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요? 
그 답은 **10**입니다.

inference time: 16.36622 sec 




'이 문제를 해결하기 위해, 각 세트의 게임 수를 합산합니다.\n\n6:5 3세트는 6+5 = 11\n5:7 3세트는 5+7 = 12\n6:7 3세트는 6+7 = 13\n\n총 게임 수는 11 + 12 + 13 = 36 게임입니다.\n\n테니스 공은 처음에는 게임 수의 합이 7 게임, 다음부터는 9 게임마다 새 공으로 교체됩니다. 따라서, 총 게임 수를 9로 나누어 보겠습니다.\n\n36 / 9 = 4 (나머지 0)\n\n이 결과는, 테니스 공을 처음부터 교체하지 않고, 시작 시 사용한 공을 제외하고 총 교체 횟수가 몇 번인지 알려줍니다. \n\n그러나, 시작 시 사용한 공을 포함하여 총 교체 횟수를 계산해야 하므로, 총 교체 횟수는 (4-1) * (2) = (3) * (2) =6\n\n이러한 이유로 시작 시 사용한 공을 포함하여 총 교체 횟수는 총 (3)회이며, 각 회마다 새공으로 교체가 이루어지므로 총 사용된 공은 \n(시작 시 사용한 공) + (교체 횟수 * 각 회당 사용된 공의 개수)\n= (2) + (3 * (2))\n= (2) + (6)\n= (8)\n\n최종적으로 경기 시작 시 사용한 공과 교체 된 후 사용된 공의 개수를 합산하면,\n(시작 시 사용한 공) + (교체 된 후 사용된 공)\n= (2) + (8)\n= (10)\n\n따라서, 아마추어 테니스 대회에서는 테니스공을 한번에 2개 사용했으며, 이들 테니스공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새공으로 교체를 한 경우,\n만일 3세트 경기가 6:5 5:7 6:7 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요? \n그 답은 **10**입니다.'

In [None]:
system_prompt = "You are a helpful assistant. And Answers must be in Korean."
user_prompt = """프로 테니스 대회에서 테니스 공은 한번에 6개를 사용합니다. 이 6개의 공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새 공으로 교체를 합니다.
만일 3세트 경기가 6:5 3:6 6:4 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요?
답:
각 세트마다 게임 수를 더하면 11+9+10 = 30 으로 총 30게임이 진행됐습니다.
테니스 공은 7번째 교체 후 9번째 게임마다 교체되니 7,16,25 게임에 총 3회에 교체 됩니다.
최종적으로 경기시작 시 사용한 공 6개 + 교체 시 마다 6개의 새 공으로 교체 했으니 6 + (6 * 3) = 24, 사용된 공은 총 24개 입니다.

질문:
아마추어 테니스 대회에서는 테니스공을 한번에 2개 사용합니다. 그리고 이 2개의 공을 처음에는 게임 수의 합이 7게임, 다음부터는 9게임마다 새공으로 교체를 합니다.
만일 3세트 경기가 6:5 5:7 6:7 로 진행됐다고 하면 총 몇 개의 공을 사용했을까요?"""

In [None]:
user_prompt = """아래의 영화 줄거리를 기반으로 해당 영화가 어떤 장르인지 설명해줘.
영화 줄거리:
세계 최고 바둑 대회에서 국내 최초 우승자가 된 조훈현. 전 국민적 영웅으로 대접받던 그는 바둑 신동이라 불리는 이창호를 제자로 맞는다. “실전에선 기세가 8할이야” 제자와 한 지붕 아래에서 먹고 자며 가르친 지 수년. 모두가 스승의 뻔한 승리를 예상했던 첫 사제 대결에서 조훈현은 전 국민이 지켜보는 가운데, 기세를 탄 제자에게 충격적으로 패한다. 오랜만에 패배를 맛본 조훈현과 이제 승부의 맛을 알게 된 이창호. 조훈현은 타고난 승부사적 기질을 되살리며 다시 한번 올라갈 결심을 하게 되는데"""

In [None]:
user_prompt = "python 에서 list 에 값 추가하는 코드 생성해줘."

In [None]:
messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
generate_response(messages)

In [None]:
from openai import OpenAI
import math
import time
import json

client = OpenAI(
    base_url="http://localhost:8877/v1",
    api_key="token-abc123",
)

In [None]:
def generate_response(message_list):
    completion = client.chat.completions.create(
        model = "Llama-3.1-8B-Instruct",
        messages = message_list,
        max_tokens=1024,
        frequency_penalty=0.3,
        temperature=0.6,
        stream=True,
    )

    final_answer = []
    assistant_response = ""

    start = time.time()

    # 스트림 모드에서는 completion.choices 를 반복문으로 순회
    for chunk in completion:
        chunk_content = chunk.choices[0].delta.content

        if isinstance(chunk_content, str):
            final_answer.append(chunk_content)
            # 토큰 단위로 실시간 답변 출력
            print(chunk_content, end="")
            assistant_response += chunk_content

    end = time.time()
    print(f"\n\ninference time: {end - start:.5f} sec \n\n")
    return assistant_response

In [None]:
system_prompt = "You are a helpful assistant. And Answers must be in Korean."
user_prompt = "(x^5-12x^3+9x)/(x^3-4x) 그래프 그려줘."

In [None]:
messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
assistant_response = generate_response(messages)

{"name": "execute_python", "parameters": {"code": "import pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.ensemble import RandomForestRegressor\nfrom sklearn.metrics import mean_squared_error\nfrom sklearn.preprocessing import StandardScaler\nimport matplotlib.pyplot as plt\n\n# 데이터 로드\nboston_housing = pd.read_csv('/home/freenak/kernel_gate/boston_housing.csv')\n\n# 데이터 정보 확인\nprint(boston_housing.info())\nprint(boston_housing.describe())\n\n# 특성 스케일링\nscaler = StandardScaler()\nscaler.fit(boston_housing.drop('MEDV', axis=1))\nboston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']] = scaler.transform(boston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']])\n\n# 학습/테스트 세트 분리\nX = boston_housing.drop('MEDV', axis=1)\ny = boston_housing['MEDV']\nx_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n# 랜덤 포레스트 모델 생성 및 학습\nmodel = RandomForestRegressor(random_state=42)\nmodel.fit(x_train, y_tra

In [None]:
system_prompt = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Environment: ipython
Tools: brave_search, wolfram_alpha

Cutting Knowledge Date: December 2023
Today Date: 05 Apr 2025
You are a helpful Assistant.<|eot_id|>

"""

user_prompt = "What is the current weather in Menlo Park, California?"
#user_prompt = "Can you help me solve this equation: x^3 - 4x^2 + 6x - 24 = 0"

In [None]:
system_prompt = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
You are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.<|eot_id|><|start_header_id|>user<|end_header_id|>
Given the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.
Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.
{
    "type": "function",
    "function": {
    "name": "get_current_conditions",
    "description": "Get the current weather conditions for a specific location",
    "parameters": {
        "type": "object",
        "properties": {
        "location": {
            "type": "string",
            "description": "The city and state, e.g., San Francisco, CA"
        },
        "unit": {
            "type": "string",
            "enum": ["Celsius", "Fahrenheit"],
            "description": "The temperature unit to use. Infer this from the user's location."
        }
        },
        "required": ["location", "unit"]
    }
    }
}
"""

user_prompt = "what is the weather like in San Fransisco?"

In [None]:
system_prompt = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
You are a helpful assistant with tool calling capabilities. When you receive a tool call response, use the output to format an answer to the orginal use question.<|eot_id|><|start_header_id|>user<|end_header_id|>
Given the following functions, please respond with a JSON for a function call with its proper arguments that best answers the given prompt.
Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}. Do not use variables.
{
    "type": "function",
    "function": {
        "name": "execute_python",
        "description": "Execute python code in a Jupyter notebook cell and returns any result, stdout, stderr, display_data, and error.",
        "parameters": {
              "type": "object",
              "properties": {
                  "code": {
                    "type": "string",
                    "description": "The python code to execute in a single cell.",
                  }
              },
              "required": ["code"],
          },
      },
}
"""

user_prompt = """boston_housing.csv 데이터 EDA 를 python 코드 활용해서 수행하고 결과를 분석해줘. boston_housing.csv 파일은 /home/freenak/kernel_gate/ 디렉토리에 있으니 꼭 해당 위치의 파일을 로드해야해.
"""

In [None]:
assistant_response

'{"name": "execute_python", "parameters": {"code": "import pandas as pd\\nfrom sklearn.model_selection import train_test_split\\nfrom sklearn.ensemble import RandomForestRegressor\\nfrom sklearn.metrics import mean_squared_error\\nfrom sklearn.preprocessing import StandardScaler\\nimport matplotlib.pyplot as plt\\n\\n# 데이터 로드\\nboston_housing = pd.read_csv(\'/home/freenak/kernel_gate/boston_housing.csv\')\\n\\n# 데이터 정보 확인\\nprint(boston_housing.info())\\nprint(boston_housing.describe())\\n\\n# 특성 스케일링\\nscaler = StandardScaler()\\nscaler.fit(boston_housing.drop(\'MEDV\', axis=1))\\nboston_housing[[\'RM\', \'DIS\', \'RAD\', \'TAX\', \'PTRATIO\', \'B\', \'LSTAT\']] = scaler.transform(boston_housing[[\'RM\', \'DIS\', \'RAD\', \'TAX\', \'PTRATIO\', \'B\', \'LSTAT\']])\\n\\n# 학습/테스트 세트 분리\\nX = boston_housing.drop(\'MEDV\', axis=1)\\ny = boston_housing[\'MEDV\']\\nx_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\\n\\n# 랜덤 포레스트 모델 생성 및 학습\\nmodel = Ra

In [None]:
jsson_return = json.loads(assistant_response)
jsson_return['parameters']['code']

"import pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.ensemble import RandomForestRegressor\nfrom sklearn.metrics import mean_squared_error\nfrom sklearn.preprocessing import StandardScaler\nimport matplotlib.pyplot as plt\n\n# 데이터 로드\nboston_housing = pd.read_csv('/home/freenak/kernel_gate/boston_housing.csv')\n\n# 데이터 정보 확인\nprint(boston_housing.info())\nprint(boston_housing.describe())\n\n# 특성 스케일링\nscaler = StandardScaler()\nscaler.fit(boston_housing.drop('MEDV', axis=1))\nboston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']] = scaler.transform(boston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']])\n\n# 학습/테스트 세트 분리\nX = boston_housing.drop('MEDV', axis=1)\ny = boston_housing['MEDV']\nx_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n# 랜덤 포레스트 모델 생성 및 학습\nmodel = RandomForestRegressor(random_state=42)\nmodel.fit(x_train, y_train)\n\n# 예측 및 성능 평가\ny_pred = model.predict(x_test

In [None]:
python_code = jsson_return['parameters']['code']
python_code

"import pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.ensemble import RandomForestRegressor\nfrom sklearn.metrics import mean_squared_error\nfrom sklearn.preprocessing import StandardScaler\nimport matplotlib.pyplot as plt\n\n# 데이터 로드\nboston_housing = pd.read_csv('/home/freenak/kernel_gate/boston_housing.csv')\n\n# 데이터 정보 확인\nprint(boston_housing.info())\nprint(boston_housing.describe())\n\n# 특성 스케일링\nscaler = StandardScaler()\nscaler.fit(boston_housing.drop('MEDV', axis=1))\nboston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']] = scaler.transform(boston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']])\n\n# 학습/테스트 세트 분리\nX = boston_housing.drop('MEDV', axis=1)\ny = boston_housing['MEDV']\nx_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n# 랜덤 포레스트 모델 생성 및 학습\nmodel = RandomForestRegressor(random_state=42)\nmodel.fit(x_train, y_train)\n\n# 예측 및 성능 평가\ny_pred = model.predict(x_test

In [None]:
exec_result = exec_python(python_code)

kernel_id: 1b90e87e-5cae-4530-bf9e-f817d714478b
LLM generate code: 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 데이터 로드
boston_housing = pd.read_csv('/home/freenak/kernel_gate/boston_housing.csv')

# 데이터 정보 확인
print(boston_housing.info())
print(boston_housing.describe())

# 특성 스케일링
scaler = StandardScaler()
scaler.fit(boston_housing.drop('MEDV', axis=1))
boston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']] = scaler.transform(boston_housing[['RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']])

# 학습/테스트 세트 분리
X = boston_housing.drop('MEDV', axis=1)
y = boston_housing['MEDV']
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델 생성 및 학습
model = RandomForestRegressor(random_state=42)
model.fit(x_train, y_train)

# 예측

In [None]:
print(exec_result)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    int64  
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  PRICE    506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB
None
             CRIM          ZN       INDUS        CHAS         NOX          RM  \
count  506.000000  506.000000  506.000000  506.000000  506.000000  506.000000   
mean     3.613524   11.363636   11.136779    0.069170    0.554695   

In [None]:
messages.append({"role": "assistant", "content": assistant_response})
messages.append({"role": "user", "content": exec_result})
assistant_response = generate_response(messages)

boston_housing.csv의 EDA 결과는 다음과 같이 요약할 수 있습니다.

1. **데이터 개요**
   - 총 506개의 데이터가 있으며, 14개의 특성과 1개의 타겟 변수가 있습니다.
   - 특성의 데이터 타입은 float64와 int64로 구성되어 있습니다.

2. **특성 통계**
   - CRIM: 범죄율, 평균 3.61, 표준편차 8.60
   - ZN: 지구 내 비건물 면적, 평균 11.36, 표준편차 23.32
   - INDUS: 상업/업무용지 비율, 평균 11.14, 표준편차 6.86
   - CHAS: Charles River와의 거리 (0: river = 0, no river = 1), 평균 0.07
   - NOX: 일산화질소 배출량, 평균 0.55, 표준편차 0.12
   - RM: 집당 방의 수, 평균 6.28, 표준편차 0.70
   - AGE: 집의 연령 (1940년), 평균 68.57, 표준편차 28.15
   - DIS: 근처의 중간 학교 및 고등학교까지의 거리, 평균 3.80, 표준편차 2.11
   - RAD: 교통 시설 (1-8), 평균 9.55, 표준편차 8.71
   - TAX: 집당 세금 (10^-2), 평균 408.24, 표준편차 168.54
   - PTRATIO: 학생과 교사 비율 (1000), 평균 18.46, 표준편차 2.16
   - B: 집당 인구 수 (1000), 평균 356.67, 표준편차 91.29
   - LSTAT: 인구의 중위 소득 (1000), 평균 12.65, 표준편차 7.14

3. **타겟 변수 통계**
   - PRICE(가격): $22,532

4. **모델링**
   랜덤 포레스트 모델을 사용하여 학습/테스트 세트를 분리하고 예측을 수행했습니다.
   MSE는 약 $9,\!555$입니다.

이 결과는 boston_housing.csv 데이터에 대한 간단한 EDA를 제공하며 모델링 성능을 평가하는 데 사용할 수 있습니다.

{"name": "execute_python",

In [None]:
messages

In [None]:
!pip install websockets matplotlib

In [None]:
import json
import pandas as pd

import time
import requests
import base64
from IPython.display import display, Image
from importlib.metadata import PackageNotFoundError, distribution
from uuid import uuid4
from websockets.sync.client import connect as ws_connect_sync

%matplotlib inline

ws_url = "127.0.0.1:8890/api"

In [None]:
def kg_connect(kernel_url):
    response = requests.post(
        f"http://{kernel_url}/kernels",
        headers={"Content-Type": "application/json"},
        timeout=270,
    )
    kernel_id = response.json()["id"]
    print(f'kernel_id: {kernel_id}')

    if kernel_id is None:
        raise Exception("Could not start kernel")

    ws = ws_connect_sync(f"ws://{kernel_url}/kernels/{kernel_id}/channels")
    return ws

In [None]:
def exec_python(python_code):
    jupyter_webSocket = kg_connect(ws_url)

    send_msg = json.dumps(
        {
            "header": {
                "msg_id": (msg_id := uuid4().hex),
                "msg_type": "execute_request",
            },
            "parent_header": {},
            "metadata": {},
            "content": {
                "code": python_code,
                "silent": False,
                "store_history": True,
                "user_expressions": {},
                "allow_stdin": False,
                "stop_on_error": True,
            },
            "channel": "shell",
            "buffers": [],
        }
    )

    print(f'LLM generate code: \n{python_code}')

    jupyter_webSocket.send(send_msg)
    return_string = ''

    while True:
        received_msg = json.loads(jupyter_webSocket.recv())

        if ( received_msg["header"]["msg_type"] == "stream"
            and received_msg["parent_header"]["msg_id"] == msg_id ):
            msg = received_msg["content"]["text"].strip()
            if "Requirement already satisfied:" in msg:
                continue
            result = msg + "\n"
            return_string += result
            print("Output:\n", result)

        elif ( received_msg["header"]["msg_type"] == "execute_result"
              and received_msg["parent_header"]["msg_id"] == msg_id ):
            result = received_msg["content"]["data"]["text/plain"].strip() + "\n"
            return_string += result
            print("Output:\n", result)

        elif received_msg["header"]["msg_type"] == "display_data":
            if "image/png" in received_msg["content"]["data"]:
                result = received_msg["content"]["data"]["image/png"]
                return_string += "The graph/picture representation on the user screen has been completed."

                img_bytes = base64.b64decode(result)
                display(Image(img_bytes))

            if "text/plain" in received_msg["content"]["data"]:
                result = received_msg["content"]["data"]["text/plain"]
                return_string += result
                print("Output:\n", result)

        elif received_msg["header"]["msg_type"] == "execute_reply":
            if received_msg["content"]["status"] == "ok":
                print("Output: end of received_msg\n" )
                jupyter_webSocket.close()
                break

        elif received_msg["header"]["msg_type"] == "error":
            result = received_msg["content"]["evalue"]
            print("Output: Error\n", result)
            jupyter_webSocket.close()
            break

        else :
            time.sleep(0.2)

    return return_string

# RAG

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch, os, faiss
from FlagEmbedding import FlagModel
import numpy as np

In [None]:
tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")
raw_model = AutoModel.from_pretrained("BAAI/bge-m3")

In [None]:
raw_model.eval()

XLMRobertaModel(
  (embeddings): XLMRobertaEmbeddings(
    (word_embeddings): Embedding(250002, 1024, padding_idx=1)
    (position_embeddings): Embedding(8194, 1024, padding_idx=1)
    (token_type_embeddings): Embedding(1, 1024)
    (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): XLMRobertaEncoder(
    (layer): ModuleList(
      (0-23): 24 x XLMRobertaLayer(
        (attention): XLMRobertaAttention(
          (self): XLMRobertaSdpaSelfAttention(
            (query): Linear(in_features=1024, out_features=1024, bias=True)
            (key): Linear(in_features=1024, out_features=1024, bias=True)
            (value): Linear(in_features=1024, out_features=1024, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): XLMRobertaSelfOutput(
            (dense): Linear(in_features=1024, out_features=1024, bias=True)
            (LayerNorm): LayerNorm((1024,), eps=1e-05, elem

In [None]:
import datasets

wikidata = datasets.load_dataset('yongchanskii/wiki-korean')
wikidata = wikidata.remove_columns(['id', 'url'])

#embedding_data = wikidata['train'].select(range(1000))

In [None]:
input_text = wikidata['train']['text'][5490]
input_text

"2011년은 토요일로 시작하는 평년이다.\n\n사건\n\n1월 ~ 6월 \n 1월 1일\n 이집트 알렉산드리아의 알 키디신 콥트교 성당에서 폭탄테러가 발생해 21명이 숨지고, 97명이 부상을 당했다.\n 브라질 첫 여성 대통령 지우마 호세프 대통령이 취임.\n 에스토니아, 유로 도입.\n 1월 3일 - 교황 베네딕토 16세가 1일에 있었던 이집트에서 발생한 폭탄 테러를 강하게 규탄했다.\n 1월 4일\n 파키스탄의 정치인 살만 타시르가 자신의 경호원에게 살해당했다.\n 이란의 마지막 샤인 모하마드 레자 팔라비의 막내 아들 알리 레자 팔라비가 미국에서 권총으로 자살했다.\n 1월 6일 - 아시아나항공 A380 6대 도입 계약 체결.\n 1월 11일\n 아랍에미리트(UAE) 특수전부대의 교육훈련을 지원하고자 대한민국에서 UAE 군사훈련협력단(아크 부대)을 파견하였다.\n 브라질의 리우 데 자네이루 주에서 홍수와 산사태가 일어나 800여 명의 사상자를 냈다.\n 1월 12일 - 아프리카 수단 남부 주민들을 대상으로 분리 독립 투표를 실시함.\n 1월 14일 - 튀니지의 반정부 시위로 인하여 벤 알리 대통령이 축출되었다.\n 1월 21일 - 소말리아 인근 해역에서 대한민국의 선박 삼호 주얼리호 피랍 사건이 발생하였다.\n 1월 24일 - 러시아의 도모데도보 국제공항에서 폭탄 테러가 일어났다.\n 1월 27일 - 강원도의 이광재 지사와 국회의원인 서갑원이 대법원에서 징역형이 확정되어 도지사와 국회의원 직이 상실되었다.\n 2월 2일 - 조선민주주의인민공화국이 대한민국 백령도 인근에 고속 상륙침투가 가능한 새 공기부양정 기지를 건설 중인 것으로 밝혀졌다.\n 2월 4일 - IPv4 주소가 모두 소진되어 할당이 중단되었다.\n 2월 5일 - 조선민주주의인민공화국 주민 31명이 어선을 타고 연평도 동북쪽 북방한계선을 넘어와 귀순 의사를 밝힌 것으로 알려졌다.\n 2월 7일 - 교황 베네딕토 16세가 이성효(리노)신부를 천주교 수원교구 보좌주교로 임명했다.\n 2월 8일 -

In [None]:
length = len(input_text)
length

23361

In [None]:
embedding_text = wikidata['train'].select(range(5500,6000))

In [None]:
embedding_text

Dataset({
    features: ['title', 'text'],
    num_rows: 500
})

In [None]:
embedding_text['text'][190]

'석기 시대(石器時代, )는 인류 역사를 추적하는 데 고고학 및 역사학에서 쓰이는 낱말로서 인류, 정확히는 인류의 조상인 원인이 돌로 만든 도구를 쓰기 시작한 시대를 일컫는다.\n\n석기는 다양한 종류의 돌로 만든다. 부싯돌과 규질암은 자르는 도구나 무기로 만들어졌고, 현무암이나 사암은 맷돌과 같이 가는 도구로 만들어졌다. 나무, 뼈, 조개껍질, 사슴의 뿔, 그리고 다른 재료들도 필요에 따라 만들어 쓴 것으로 보인다. 이 시기의 말기에는 진흙과 같은 점토도 도기를 만들기 위해 사용되었다. 일련의 기술적 진보가 이후, 동기 시대(Chalcolithic), 청동기 시대, 철기 시대처럼 특징화 된다.\n\n최초의 석기는 에티오피아의 고나에서 발견된 270만년에서 258만년 정도된 것이며, 그 이후로 넓게 확산되었다. 이것은 농경, 동물의 가축화, 그리고 금속을 생산하기 위해 구리 광물을 녹이는 기술이 개발된 이후 끝이 나게 된다. 이 시기는 인류가 아직 문자를 만들지 못했기 때문에 선사 시대라고 표현을 한다.\n\n석기 시대라는 용어는 석기가 다른 재료로 만든 것보다 우세한 시기인 야금술 이전의 오랜 기간을 표현하기 위해 고고학자들에 의해 사용되었다.\n\n때문에 도구를 만들어 쓰는 동물, 즉 호모 하빌리스로서 인간은 기원전 약 2백만 년을 전후로 여러 대륙에서 출현한 것으로 여겨지며 기원전 약 9000-8000년에 석기시대는 끝을 맺은 것으로 고고학계에서는 추측하고 있다.\n\n고고학에서 석기 시대 \n\n석기 시대의 시대 범위는 논의가 되는 지역에 따라 모호하며, 이견이 많고, 다양하다. 전체 인류의 석기 시대를 말하는 것은 가능하지만, 어떤 그룹은 금속 제련 기술을 개발하지도 못해 기술적으로 발달된 문화를 접할 때까지 여전히 석기 시대로 남아 있었다. 그러나 석기 시대는 250만년 전에 최초의 고대 인류가 아프리카에서 도구를 만들며 시작되었으며, 오스트랄로피테쿠스 가르히일 가능성이 높다.\n\n아직까지 남아 있는 석기는 이 시기에 고고학적 조사의 주요하면서, 

In [None]:
# get the BGE embedding model
model = FlagModel('BAAI/bge-m3',
                  query_instruction_for_retrieval="Represent this sentence for searching relevant passages:",
                  use_fp16=True)

In [None]:
# get the embedding of the corpus
wiki_embeddings = model.encode(embedding_text['text'])

print("shape of the corpus embeddings:", wiki_embeddings.shape)
print("data type of the embeddings: ", wiki_embeddings.dtype)

Inference Embeddings: 100%|███████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.29s/it]

shape of the corpus embeddings: (500, 1024)
data type of the embeddings:  float16





In [None]:

wiki_embeddings_np = wiki_embeddings.astype(np.float32)
dim = wiki_embeddings_np.shape[-1]

# create the faiss index and store the corpus embeddings into the vector space
index = faiss.index_factory(dim, 'Flat', faiss.METRIC_INNER_PRODUCT)

In [None]:
# check if the index is trained
print(index.is_trained)
# index.train(corpus_embeddings)

# add all the vectors to the index
index.add(wiki_embeddings_np)

print(f"total number of vectors: {index.ntotal}")

True
total number of vectors: 500


In [None]:
queries = [
    "석기시대란 무었인가?",
]

query_embeddings = model.encode_queries(queries)
dists, ids = index.search(query_embeddings.astype(np.float32), k=3)

print(f"query:\t{queries[0]}\n\n")
count = 0
for i in range(3):
    print(f"RAG_{count}:\t{embedding_text['text'][ids[0][i]]}\n")
    count = count+1

query:	석기시대란 무었인가?


RAG_0:	석기 시대(石器時代, )는 인류 역사를 추적하는 데 고고학 및 역사학에서 쓰이는 낱말로서 인류, 정확히는 인류의 조상인 원인이 돌로 만든 도구를 쓰기 시작한 시대를 일컫는다.

석기는 다양한 종류의 돌로 만든다. 부싯돌과 규질암은 자르는 도구나 무기로 만들어졌고, 현무암이나 사암은 맷돌과 같이 가는 도구로 만들어졌다. 나무, 뼈, 조개껍질, 사슴의 뿔, 그리고 다른 재료들도 필요에 따라 만들어 쓴 것으로 보인다. 이 시기의 말기에는 진흙과 같은 점토도 도기를 만들기 위해 사용되었다. 일련의 기술적 진보가 이후, 동기 시대(Chalcolithic), 청동기 시대, 철기 시대처럼 특징화 된다.

최초의 석기는 에티오피아의 고나에서 발견된 270만년에서 258만년 정도된 것이며, 그 이후로 넓게 확산되었다. 이것은 농경, 동물의 가축화, 그리고 금속을 생산하기 위해 구리 광물을 녹이는 기술이 개발된 이후 끝이 나게 된다. 이 시기는 인류가 아직 문자를 만들지 못했기 때문에 선사 시대라고 표현을 한다.

석기 시대라는 용어는 석기가 다른 재료로 만든 것보다 우세한 시기인 야금술 이전의 오랜 기간을 표현하기 위해 고고학자들에 의해 사용되었다.

때문에 도구를 만들어 쓰는 동물, 즉 호모 하빌리스로서 인간은 기원전 약 2백만 년을 전후로 여러 대륙에서 출현한 것으로 여겨지며 기원전 약 9000-8000년에 석기시대는 끝을 맺은 것으로 고고학계에서는 추측하고 있다.

고고학에서 석기 시대 

석기 시대의 시대 범위는 논의가 되는 지역에 따라 모호하며, 이견이 많고, 다양하다. 전체 인류의 석기 시대를 말하는 것은 가능하지만, 어떤 그룹은 금속 제련 기술을 개발하지도 못해 기술적으로 발달된 문화를 접할 때까지 여전히 석기 시대로 남아 있었다. 그러나 석기 시대는 250만년 전에 최초의 고대 인류가 아프리카에서 도구를 만들며 시작되었으며, 오스트랄로피테쿠스 가르히일 가능성이 높다.

아직까지 남아 있는 석기는 이 시기에 고고학

In [None]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)

In [None]:
texts = text_splitter.create_documents(embedding_text['text'])

Created a chunk of size 666, which is longer than the specified 500
Created a chunk of size 699, which is longer than the specified 500
Created a chunk of size 561, which is longer than the specified 500
Created a chunk of size 764, which is longer than the specified 500
Created a chunk of size 835, which is longer than the specified 500
Created a chunk of size 1164, which is longer than the specified 500
Created a chunk of size 688, which is longer than the specified 500
Created a chunk of size 556, which is longer than the specified 500
Created a chunk of size 613, which is longer than the specified 500
Created a chunk of size 734, which is longer than the specified 500
Created a chunk of size 506, which is longer than the specified 500
Created a chunk of size 527, which is longer than the specified 500
Created a chunk of size 536, which is longer than the specified 500
Created a chunk of size 1127, which is longer than the specified 500
Created a chunk of size 847, which is longer t

In [None]:
texts[190]

Document(page_content="충익공 부조전 전교 \n충익공 부조전을 하사한 전교(傳敎)이다.\n\n6진 개척 \n\n남부 만주지방에는 만주족들이 자리잡고 있었는데, 이들은 두만강과 압록강을 넘어 조선의 국경을 자주 침범하였다. 이 이민족을 '야인'(野人)이라고 불렀는데, 후에는 여진족으로 알려졌다. 고려 때부터 교역을 통하여 회유하기도 하고 무력으로 정벌하기도 하였지만 여진족과의 마찰은 계속 이어졌다. 조선 초에는 영변 이북지방으로 조선의 지배가 미치지 못하고 있었는데, 세종 이후로 조선이 안정되면서 국토가 침탈될 상황에 이른 북방에 주목하게 되었다.\n\n당시 조선의 북방 진지는 정도전이 공주에 설치한 경원부였는데, 계속되는 여진족의 침입으로 방어하기가 어려워졌다. 그는 당시 백성들의 흉년으로 인해 국내문제 해결에 급급하는 조정을 반박하며 세종에게 올린 상소문에 다음과 같은 내용을 남겼다.")

In [None]:
doc_vector = []
count = 0
for doc in texts:
    count+=1
    doc_vector.append(model.encode(doc.page_content))
    if(count % 50 == 0):
        print("." , end = ' ')

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 

In [None]:
doc_vector_np = np.array(doc_vector, dtype=np.float32)

In [None]:
dim = doc_vector_np.shape[-1]

In [None]:
index2 = faiss.index_factory(dim, 'Flat', faiss.METRIC_INNER_PRODUCT)
print(index2.is_trained)

index2.add(doc_vector_np)
print(f"total number of vectors: {index2.ntotal}")

True
total number of vectors: 4577


In [None]:
queries_2 = [
    "석기시대란 무엇인가?",
]

query_embeddings_2 = model.encode_queries(queries_2)

dists_2, ids_2 = index2.search(query_embeddings_2.astype(np.float32), k=3)

print(f"query:\t{queries_2[0]}\n\n")
count_2 = 0
for i in range(3):
    print(f"RAG_{count_2}:\t{texts[ids_2[0][i]]}\n")
    count_2 +=1

query:	석기시대란 무엇인가?


RAG_0:	page_content='석기 시대(石器時代, )는 인류 역사를 추적하는 데 고고학 및 역사학에서 쓰이는 낱말로서 인류, 정확히는 인류의 조상인 원인이 돌로 만든 도구를 쓰기 시작한 시대를 일컫는다.

석기는 다양한 종류의 돌로 만든다. 부싯돌과 규질암은 자르는 도구나 무기로 만들어졌고, 현무암이나 사암은 맷돌과 같이 가는 도구로 만들어졌다. 나무, 뼈, 조개껍질, 사슴의 뿔, 그리고 다른 재료들도 필요에 따라 만들어 쓴 것으로 보인다. 이 시기의 말기에는 진흙과 같은 점토도 도기를 만들기 위해 사용되었다. 일련의 기술적 진보가 이후, 동기 시대(Chalcolithic), 청동기 시대, 철기 시대처럼 특징화 된다.'

RAG_1:	page_content='구석기 시대 
석기시대(Paleolithic)는 "old"를 뜻하는 그리스어의 παλαιός, palaios와 "stone"을 뜻하는 λίθος, lithos의 합성어로 "고대 석기 시대"라는 의미로 1865년 고고학자 존 러벅이 만든 용어이다. 이 시기는 석기를 도구로 구분된 선사 시대이다. 지상 위의 인류가 99% 이상 이것을 사용하며, 250만년에서 260만년 전까지 거슬러 올라간다. 호모 하빌리스와 같은 고대 인류가 이러한 석기를 사용하며, 농경이 소개되고, 플라이스토세 말기인 기원전 10000년경에 끝난다. 플라이스토세 기는 중석기 시대나 초기 신석기화 또는 준석기 시대에 끝을 맺는다.'

RAG_2:	page_content='새로운 고고학적 발견으로 새로운 시대와 세부 시대가 추가되어 서로 다른 지역의 상태를 설명하기 위해서 다른 도해가 개발되었다. 석기 시대의 보다 현대적인 시대구분은 구석기 시대에서 신석기 시대를 다음과 같이 분류를 한다.
 플라이스토세 기(홍적세 또는 갱신세) - 두터운 빙하기
 구석기 시대 (Paleolithic)
 홀로세 기(충적세 또는 현세) - 현대적인 날씨
 중석기 시대 (Mesolithic) 또는 준석기 시대(Epip

In [None]:
faiss.write_index(index2, "index_faiss")

In [None]:
model = FlagModel('BAAI/bge-m3',
                  query_instruction_for_retrieval="Represent this sentence for searching relevant passages:",
                  use_fp16=True)

In [None]:
index3 = faiss.read_index("index_faiss")

In [None]:
queries_2 = [
    "석기시대란 무엇인가?",
]

query_embeddings_2 = model.encode_queries(queries_2)

dists_3, ids_3 = index3.search(query_embeddings_2.astype(np.float32), k=3)

print(f"query:\t{queries_2[0]}\n\n")
count_2 = 0
for i in range(3):
    print(f"RAG_{count_2}:\t{texts[ids_3[0][i]]}\n")
    count_2 +=1

query:	석기시대란 무엇인가?


RAG_0:	page_content='석기 시대(石器時代, )는 인류 역사를 추적하는 데 고고학 및 역사학에서 쓰이는 낱말로서 인류, 정확히는 인류의 조상인 원인이 돌로 만든 도구를 쓰기 시작한 시대를 일컫는다.

석기는 다양한 종류의 돌로 만든다. 부싯돌과 규질암은 자르는 도구나 무기로 만들어졌고, 현무암이나 사암은 맷돌과 같이 가는 도구로 만들어졌다. 나무, 뼈, 조개껍질, 사슴의 뿔, 그리고 다른 재료들도 필요에 따라 만들어 쓴 것으로 보인다. 이 시기의 말기에는 진흙과 같은 점토도 도기를 만들기 위해 사용되었다. 일련의 기술적 진보가 이후, 동기 시대(Chalcolithic), 청동기 시대, 철기 시대처럼 특징화 된다.'

RAG_1:	page_content='구석기 시대 
석기시대(Paleolithic)는 "old"를 뜻하는 그리스어의 παλαιός, palaios와 "stone"을 뜻하는 λίθος, lithos의 합성어로 "고대 석기 시대"라는 의미로 1865년 고고학자 존 러벅이 만든 용어이다. 이 시기는 석기를 도구로 구분된 선사 시대이다. 지상 위의 인류가 99% 이상 이것을 사용하며, 250만년에서 260만년 전까지 거슬러 올라간다. 호모 하빌리스와 같은 고대 인류가 이러한 석기를 사용하며, 농경이 소개되고, 플라이스토세 말기인 기원전 10000년경에 끝난다. 플라이스토세 기는 중석기 시대나 초기 신석기화 또는 준석기 시대에 끝을 맺는다.'

RAG_2:	page_content='새로운 고고학적 발견으로 새로운 시대와 세부 시대가 추가되어 서로 다른 지역의 상태를 설명하기 위해서 다른 도해가 개발되었다. 석기 시대의 보다 현대적인 시대구분은 구석기 시대에서 신석기 시대를 다음과 같이 분류를 한다.
 플라이스토세 기(홍적세 또는 갱신세) - 두터운 빙하기
 구석기 시대 (Paleolithic)
 홀로세 기(충적세 또는 현세) - 현대적인 날씨
 중석기 시대 (Mesolithic) 또는 준석기 시대(Epip

In [None]:
from FlagEmbedding import BGEM3FlagModel

model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)

sentences_1 = ["What is BGE M3?", "Defination of BM25"]
sentences_2 = ["BGE M3 is an embedding model supporting dense retrieval, lexical matching and multi-vector interaction.",
               "BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document"]

In [None]:
# If you don't need such a long length of 8192 input tokens, you can set max_length to a smaller value to speed up encoding.
embeddings_1 = model.encode(sentences_1, max_length=10)['dense_vecs']
embeddings_2 = model.encode(sentences_2, max_length=100)['dense_vecs']

# compute the similarity scores
s_dense = embeddings_1 @ embeddings_2.T
print(s_dense)

In [None]:
output_1 = model.encode(sentences_1, return_sparse=True)
output_2 = model.encode(sentences_2, return_sparse=True)

# you can see the weight for each token:
print(model.convert_id_to_token(output_1['lexical_weights']))

In [None]:
# compute the scores via lexical mathcing
s_lex_10_20 = model.compute_lexical_matching_score(output_1['lexical_weights'][0], output_2['lexical_weights'][0])
s_lex_10_21 = model.compute_lexical_matching_score(output_1['lexical_weights'][0], output_2['lexical_weights'][1])

print(s_lex_10_20)
print(s_lex_10_21)

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch, os, faiss
from FlagEmbedding import FlagModel
import numpy as np

In [None]:
from openai import OpenAI
import math
import time
import json

client = OpenAI(
    base_url="http://localhost:8877/v1",
    api_key="token-abc123",
)

In [None]:
'''
import datasets

wikidata = datasets.load_dataset('yongchanskii/wiki-korean')
wikidata = wikidata.remove_columns(['id', 'url'])

In [None]:
#embedding_text = wikidata['train'].select(range(5500,6000))

In [None]:
'''
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)

texts = text_splitter.create_documents(embedding_text['text'])

In [None]:
index = faiss.read_index("index_faiss")

In [None]:
os.environ['CUDA_VISIBLE_DEVICES'] = "1"

In [None]:
model = FlagModel('BAAI/bge-m3',
                  query_instruction_for_retrieval="Represent this sentence for searching relevant passages:",
                  use_fp16=True)

In [None]:
question = "2023 대한민국 FA컵 결과 알려줘."

In [None]:
queries = [question,]

rag_docs = ''
query_embeddings = model.encode_queries(queries)

dists, ids = index.search(query_embeddings.astype(np.float32), k=3)

print(f"query:\t{queries[0]}\n\n")
count = 0
for i in range(3):
    rag_docs += f"후보문장_{count}:\t{texts[ids[0][i]]}\n"
    count +=1

print(rag_docs)

query:	2023 대한민국 FA컵 결과 알려줘.


후보문장_0:	page_content='외부 링크'
후보문장_1:	page_content='역대 선거 결과

각주

외부 링크 
 김동길 교수의 Freedom Watch
 
 조인스 데이터 - 산남 김동길(山南 金東吉) 前 연세대학교 부총장
 두산대백과사전 - 산남 김동길(山南 金東吉) 前 통일국민당 국회의원
 보트 비전 - 산남 김동길(山南 金東吉) 前 자유민주연합 국회의원
 두산대백과사전 - 산남 김동길(山南 金東吉) 前 무소속 국회의원
 김동길TV https://www.youtube.com/channel/UCCCzHfAALDPQ0L11UTsKTWA'
후보문장_2:	page_content='스포츠

축구 
노르트라인베스트팔렌 주는 여러 축구 클럽이 있다: 1. FC 쾰른, 바이어 04 레버쿠젠, 보루시아 도르트문트, 보루시아 묀헨글라트바흐, 아르미니아 빌레펠트, 알레마니아 아헨, 부퍼탈 SV 보루시아, 포르투나 뒤셀도르프, FC 샬케 04, MSV 뒤스부르크, SC 파더보른 07, VfL 보훔

또한 이 주에서 1974년 FIFA 월드컵과 2006년 FIFA 월드컵의 경기가 열렸으며, 2011년 FIFA 여자 월드컵의 경기도 개최했다. 1974년 월드컵에서는 뒤셀도르프에 있는 라인슈타디온, 겔젠키르헨의 파르크슈타디온에서 경기가 열렸으며, 2006년 월드컵에서는 쾰른의 라인에네르기슈타디온, 도르트문트의 지그날 이두나 파르크, 겔젠키르헨의 펠틴스 아레나에서 열렸다. 레버쿠젠의 바이아레나와 보훔에 있는 루르슈타디온이 2011년 여자 FIFA 월드컵의 개최 경기장이 되었다.'



In [None]:
system_prompt = """You are a helpful assistant. And Answers must be in Korean.
그리고 답변할땐 꼭 다음의 지시 사항을 준수해줘.
1) 질문에 대한 답변 후보 문장들을 자세히 읽고 유저가 물어본 질문에 제시된 정보만 활용해서 질문과 정확성, 관련성, 신뢰성을 종합적으로 고려하여 답변을 만들어 제공해주세요.
2) 그리고 후보문장 중 답변에 활용하는데 가장 적합한 후보가 어떤것 이였는지를 알려 주세요.
3) 후보 문장들 중 질문에 대한 답이 없을 경우 "답변을 찾을 수 없습니다. 좀 더 구체적으로 질문해 주세요." 라고 답하세요."""

user_prompt = question + "\n후보문장: " + rag_docs

In [None]:
user_prompt

'석기시대란 무엇인가?\n후보문장: 후보문장_0:\tpage_content=\'석기 시대(石器時代, )는 인류 역사를 추적하는 데 고고학 및 역사학에서 쓰이는 낱말로서 인류, 정확히는 인류의 조상인 원인이 돌로 만든 도구를 쓰기 시작한 시대를 일컫는다.\n\n석기는 다양한 종류의 돌로 만든다. 부싯돌과 규질암은 자르는 도구나 무기로 만들어졌고, 현무암이나 사암은 맷돌과 같이 가는 도구로 만들어졌다. 나무, 뼈, 조개껍질, 사슴의 뿔, 그리고 다른 재료들도 필요에 따라 만들어 쓴 것으로 보인다. 이 시기의 말기에는 진흙과 같은 점토도 도기를 만들기 위해 사용되었다. 일련의 기술적 진보가 이후, 동기 시대(Chalcolithic), 청동기 시대, 철기 시대처럼 특징화 된다.\'\n후보문장_1:\tpage_content=\'구석기 시대 \n석기시대(Paleolithic)는 "old"를 뜻하는 그리스어의 παλαιός, palaios와 "stone"을 뜻하는 λίθος, lithos의 합성어로 "고대 석기 시대"라는 의미로 1865년 고고학자 존 러벅이 만든 용어이다. 이 시기는 석기를 도구로 구분된 선사 시대이다. 지상 위의 인류가 99% 이상 이것을 사용하며, 250만년에서 260만년 전까지 거슬러 올라간다. 호모 하빌리스와 같은 고대 인류가 이러한 석기를 사용하며, 농경이 소개되고, 플라이스토세 말기인 기원전 10000년경에 끝난다. 플라이스토세 기는 중석기 시대나 초기 신석기화 또는 준석기 시대에 끝을 맺는다.\'\n후보문장_2:\tpage_content=\'새로운 고고학적 발견으로 새로운 시대와 세부 시대가 추가되어 서로 다른 지역의 상태를 설명하기 위해서 다른 도해가 개발되었다. 석기 시대의 보다 현대적인 시대구분은 구석기 시대에서 신석기 시대를 다음과 같이 분류를 한다.\n 플라이스토세 기(홍적세 또는 갱신세) - 두터운 빙하기\n 구석기 시대 (Paleolithic)\n 홀로세 기(충적세 또는 현세) - 현대적인 날씨\n 중석기 시대 (Mesolithi

In [None]:
messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
assistant_response = generate_response(messages)

2023 대한민국 FA컵 결과를 알려드릴 수 없습니다. 좀 더 구체적으로 질문해 주세요.

적합한 후보문장이 없습니다.

inference time: 1.19914 sec 




In [None]:
def generate_response(message_list):
    completion = client.chat.completions.create(
        model = "Llama-3.1-8B-Instruct",
        messages = message_list,
        max_tokens=1024,
        frequency_penalty=0.3,
        temperature=0.6,
        stream=True,
    )

    final_answer = []
    assistant_response = ""

    start = time.time()

    # 스트림 모드에서는 completion.choices 를 반복문으로 순회
    for chunk in completion:
        chunk_content = chunk.choices[0].delta.content

        if isinstance(chunk_content, str):
            final_answer.append(chunk_content)
            # 토큰 단위로 실시간 답변 출력
            print(chunk_content, end="")
            assistant_response += chunk_content

    end = time.time()
    print(f"\n\ninference time: {end - start:.5f} sec \n\n")
    return assistant_response