# Library

In [26]:
import pandas as pd
import numpy as np
import json
from bs4 import BeautifulSoup
from pydantic import BaseModel
from openai import OpenAI

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans, DBSCAN

## ChatGPT

GPT3.5를 기반으로 기존 훈련 방법에서 RLHF(Reinforcement Learning from Human Feedback)을 통하여 대화의 품질을 높힘. <br>
정확한 parameter의 수가 공개되지 않음. <br>

Pricing: https://openai.com/api/pricing/ <br>
Playground: https://platform.openai.com/playground/ <br>
API: https://openai.com/index/openai-api/ <br>
Documentation: https://platform.openai.com/docs/overview <br>

### Playground

OpenAI API의 자연어 처리를 손쉽게 실행할 수 있는 웹 UI. <br>
사용하는 모델에 따라 과금. <br>

모드에는 크게 다섯 가지 존재 <br>
1. Chat: 채팅 모드
2. Realtime: 실시간 서비스 모드
3. Assistants: 특정 앱에서 사용할 수 있는 도우미 서비스 모드
4. TTS: 텍스트를 음성으로 변경하는 모드
5. Completions: 텍스트 생성 모드

<br>

사용 시 아래의 파라미터 조절 
1. Temperature: 무작위성 조절 parameter. 답이 있는 경우 0, 창의적인 답을 만들려면 0.9 권장. (Top P와 동시 변경은 권장하지 않음)
2. Maximum length: 최대 토큰 개수
3. Stop sequences: 특정 문자가 생성되면 이후에는 생성을 멈춤
4. Top P: logit 값이 높은 토큰 순서대로 나열 후, 설정한 누적 확률 값에 포함하지 않는 토큰 제거 시 사용하는 기준값. (0.1은 상위 10%의 확률을 가진 토큰으로부터 샘플링)
5. Frequency penalty: 생성한 텍스트에 따라 새로운 토큰에 부과하는 패널티. 동일 텍스트 출력 가능성 감소.
6. Presence penalty: 생성한 텍스트에 따라 새로운 토큰에 부과하는 패널티. 동일 토큰 반복 가능성 감소.
7. Best of: best_of개의 결과를 생성하여 가장 좋은 결과 반환
8. Inject start text: completion 앞에 항상 출력할 텍스트
9. Inject restart text: completion 뒤에항상 출력할 텍스트
10. Show probabilities: 토큰이 생성될 확률을 색상으로 구분하여 표현
    - Off: 꺼짐
    - Most likely: 가장 확률이 높은 것을 색상으로 구분
    - Least likely: 가장 확률이 낮은 것을 색상으로 구분
    - Full Spectrum: 양쪽을 두 가지 색으로 구분

### API

In [36]:
API_KEY = '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'
client = OpenAI(api_key=API_KEY)

#### Chat

> ```python
> from openai import OpenAI
> 
> # api_key setting
> API_KEY = ''
> client = OpenAI(api_key=API_KEY)
> 
> # query
> completion = client.chat.completions.create(
>     model="gpt-4o-mini",
>     messages=[
>         {
>             "role": "system",
>             "content": "You are a helpful assistant."
>         },
>         {
>             "role": "assistant",
>             "content": "heeeeeello -> hello"
>         },
>         {
>             "role": "user",
>             "content": "rooooool?"
>         }
>     ],
>     temperature=0.7,
>     max_tokens=64,
> )
> 
> # response
> completion.choices[0].message.content
> ```

<br>

parameters:
- model: 모델 ID
- messages: 모델에 입력할 prompt
    - system role: 모델에 대한 최상위 지침으로, 모델이 무엇을 해야 하는지와 일반적으로 어떻게 행동하고 반응해야 하는지를 설명. <br>
    - assistant message: 이전 요청에 의해 생성된 문장, 또는 few-shot learning을 위한 예제 등 <br>
    - user message: 모델에 특정 유형의 출력을 요청하는 지침 <br>
- max_tokens: 최대 토큰 개수
- temperature: 무작위성 (0~2, default: 1)
- top_p: Nucleus 샘플링 (0~1, default: 1)
- n: 생성 결과 수 (default: 1)
- logprobs: 가능성 높은 토큰에 로그확률 포함
- stop: 토큰 생성을 중지하는 문장 (max: 4)
- frequency_penalty: 동일 텍스트 출력 가능성 감소 (-2~2, default: 0)
- presence_penalty: 동일 토큰 반복 가능성 감소 (-2~2, default: 0)

In [100]:
# user role만 사용
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'user',
            'content': '비트코인의 향방에 대해서 너의 생각을 알려줄래?',
        }
    ],
)

In [107]:
print(completion.choices[0].message.content)

In [108]:
# n값을 조절하여 return 받을 응답 개수 설정
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'user',
            'content': '비트코인의 향방에 대해서 너의 생각을 알려줄래?',
        }
    ],
    n=3,
)

In [114]:
print(completion.choices[2].message.content)

In [115]:
# system, user role 설정
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 금융 분야의 전문가야. 금융 현상에 대한 분석 시 긍정적인 이슈와 부정적인 이슈를 나누어 설명해 줘야해.',
        },
        {
            'role': 'user',
            'content': '비트코인의 향방에 대해서 너의 생각을 알려줄래?',
        }
    ],
    n=3,
)

In [121]:
print(completion.choices[2].message.content)

In [126]:
# system, assistant, user role 설정. assistant는 example로 볼 수 있음.
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 지시사항에 맞게 결과물을 주는 도우미야.',
        },
        {
            'role': 'assistant',
            'content': 'heeeeeeello -> hello, wooooooooow -> wow',
        },
        {
            'role': 'user',
            'content': 'rooooooooll?',
        }
    ],
)

In [127]:
print(completion.choices[0].message.content)

In [128]:
prompt = '''
1. 사업의 개요

당사는 본사를 거점으로 한국과 DX 부문 산하 해외 9개 지역총괄 및 DS 부문 산하 해외 5개 지역총괄의 생산ㆍ판매법인, SDC 및 Harman 산하 종속기업 등 232개의 종속기업으로 구성된 글로벌 전자 기업입니다.
사업별로 보면, Set 사업은 DX(Device eXperience) 부문이 TV를 비롯하여 모니터, 냉장고, 세탁기, 에어컨, 스마트폰, 네트워크시스템, 컴퓨터 등을 생산ㆍ판매하며, 부품 사업은 DS(Device Solutions) 부문에서 DRAM, NAND Flash, 모바일AP 등의 제품을 생산ㆍ판매하고,  SDC가 스마트폰용 OLED  패널 등을 생산ㆍ판매하고 있습니다. 또한, Harman에서는 디지털 콕핏(Digital Cockpit), 카오디오 등 전장제품과 포터블/사운드바 스피커 등 소비자오디오 제품 등을 생산ㆍ판매하고 있습니다. 당사는 2021년 12월 조직개편을 통해 기존의 CE 부문과 IM 부문을 DX 부문으로 통합하였으며, 무선사업부의 명칭을 MX(Mobile eXperience) 사업부로 변경하였습니다. 또한 내부 조직체계에 맞추어 SDC를 DS 부문과 별도로 구분하였습니다. ☞ 부문별 사업에 관한 자세한 사항은 '7. 기타 참고사항'의 '다. 사업부문별 현황'과    '라. 사업부문별 요약 재무 현황' 항목을 참고하시기 바랍니다.
지역별로 보면, 국내에서는 DX 부문 및 DS 부문 등을 총괄하는 본사와 35개의 종속기업이 사업을 운영하고 있습니다. 본사는 수원, 구미, 광주, 기흥, 화성, 평택사업장 등으로 구성되어 있으며, 국내 종속기업은 디스플레이 패널을 생산하는 삼성디스플레이㈜와 국내 대리점 판매를 전담하는 삼성전자판매㈜, 제품 수리 서비스를 담당하는 삼성전자서비스㈜, 제품 운송을 담당하는 삼성전자로지텍㈜ 등 비상장 종속기업들로 구성되어 있습니다.

해외(미주, 유럽ㆍCIS, 중동ㆍ아프리카, 아시아 등지)에서는 생산, 판매, 연구활동 등을 담당하는 197개의 비상장 종속기업이 운영되고 있습니다. 미주에는 TV, 스마트폰 등 Set 제품의 미국 판매를 담당하는 SEA(New Jersey, USA), TV 생산을 담당하는 SII(California, USA), 반도체ㆍ디스플레이 패널 판매를 담당하는 SSI(California, USA), 반도체 생산을 담당하는 SAS(Texas, USA), Set 제품 복합 생산법인 SEDA(Brazil), 전장부품사업 등을 담당하는 Harman(Connecticut, USA) 등을 포함하여 총 47개의 판매ㆍ생산 등을 담당하는 법인이 있습니다.
유럽ㆍCIS에는 SEUK(UK), SEG(Germany), SEF(France), SEI(Italy), SERC(Russia)등 Set 제품 판매법인과 SEH(Hungary), SERK(Russia) 등 TV 생산법인, 가전제품 생산법인 SEPM(Poland) 등을 포함하여 총 68개의 법인이 운영되고 있습니다. 중동ㆍ아프리카에는 SGE(UAE), SSA(South Africa) 등 Set 제품 판매법인과 SEEG (Egypt), SSAP(South Africa) 등 TV 생산법인을 포함한 총 20개 법인이 운영되고 있습니다. 아시아(중국 제외)에는 SESP(Singapore), SEAU(Australia), SEPCO(Philippines),  SME(Malaysia) 등 판매법인과 스마트폰 등 생산법인 SEVㆍSEVT(Vietnam), TV 등 생산법인 SEHC(Vietnam), 디스플레이 패널 생산법인 SDV(Vietnam), 복합 생산법인 SIEL(India) 등을 포함한 총 32개의 법인이 운영되고 있습니다. 중국에는 SCIC(Beijing), SEHK(Hong Kong) 등 Set 제품 판매법인과 SSS(Shanghai), SSCX(Xian) 등 반도체ㆍ디스플레이 패널 판매법인, SSEC(Suzhou) 등 Set 제품 생산법인, SCS(Xian) 등 반도체 생산법인을 포함하여 총 30개의 법인이 운영되고 있습니다.
2023년 당사의 매출은 258조 9,355억원으로 전년 대비 14.3% 감소하였으며, 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등(알파벳순)이 있습니다.

## 재무제표의 사업의 개요 중 해외 지역에서 어떠한 사업을 영위하고 있는지 파악하려고 해.
예를 들면 미주 지역에서는 TV, 스마트폰, 반도체, 디스플레이 패널 등의 사업을 영위하고 있어.
이 예시를 참고하여 다른 해외 지역에서는 어떠한 사업을 영위하고 있는지 알려줄래?
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 재무제표를 받아 정리해주는 봇이야.',
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ],
)

In [129]:
print(completion.choices[0].message.content)

#### Structured Outputs

지정된 형식으로 값을 return. <br>
pytantic의 BaseModel을 상속받아 속성 지정. <br>

```python
class Step(BaseModel):
    explanation: str
    output: str

class Reasoning(BaseModel):
    steps: list[Step]
    final_answer: str

completion = client.beta.chat.completions.parse(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "system",
            "content": role
        },
        {
            "role": "user",
            "content": prompt,
        }
    ],
    response_format=Reasoning,
)
```

In [130]:
class Step(BaseModel):
    explanaton: str
    output: str

class MathReasoning(BaseModel):
    steps: list[Step]
    final_answer: str

completion = client.beta.chat.completions.parse(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 수학을 도와주는 튜터야. 스텝 바이 스텝으로 유저에게 풀이를 제시해줘.'
        },
        {
            'role': 'user',
            'content': '8x + 7 = -23에서 x값을 어떻게 구할 수 있어?'
        }
    ],
    response_format=MathReasoning,
)

In [146]:
eval(completion.choices[0].message.content)

In [154]:
prompt = '''
1. 사업의 개요

당사는 본사를 거점으로 한국과 DX 부문 산하 해외 9개 지역총괄 및 DS 부문 산하 해외 5개 지역총괄의 생산ㆍ판매법인, SDC 및 Harman 산하 종속기업 등 232개의 종속기업으로 구성된 글로벌 전자 기업입니다.
사업별로 보면, Set 사업은 DX(Device eXperience) 부문이 TV를 비롯하여 모니터, 냉장고, 세탁기, 에어컨, 스마트폰, 네트워크시스템, 컴퓨터 등을 생산ㆍ판매하며, 부품 사업은 DS(Device Solutions) 부문에서 DRAM, NAND Flash, 모바일AP 등의 제품을 생산ㆍ판매하고,  SDC가 스마트폰용 OLED  패널 등을 생산ㆍ판매하고 있습니다. 또한, Harman에서는 디지털 콕핏(Digital Cockpit), 카오디오 등 전장제품과 포터블/사운드바 스피커 등 소비자오디오 제품 등을 생산ㆍ판매하고 있습니다. 당사는 2021년 12월 조직개편을 통해 기존의 CE 부문과 IM 부문을 DX 부문으로 통합하였으며, 무선사업부의 명칭을 MX(Mobile eXperience) 사업부로 변경하였습니다. 또한 내부 조직체계에 맞추어 SDC를 DS 부문과 별도로 구분하였습니다. ☞ 부문별 사업에 관한 자세한 사항은 '7. 기타 참고사항'의 '다. 사업부문별 현황'과    '라. 사업부문별 요약 재무 현황' 항목을 참고하시기 바랍니다.
지역별로 보면, 국내에서는 DX 부문 및 DS 부문 등을 총괄하는 본사와 35개의 종속기업이 사업을 운영하고 있습니다. 본사는 수원, 구미, 광주, 기흥, 화성, 평택사업장 등으로 구성되어 있으며, 국내 종속기업은 디스플레이 패널을 생산하는 삼성디스플레이㈜와 국내 대리점 판매를 전담하는 삼성전자판매㈜, 제품 수리 서비스를 담당하는 삼성전자서비스㈜, 제품 운송을 담당하는 삼성전자로지텍㈜ 등 비상장 종속기업들로 구성되어 있습니다.

해외(미주, 유럽ㆍCIS, 중동ㆍ아프리카, 아시아 등지)에서는 생산, 판매, 연구활동 등을 담당하는 197개의 비상장 종속기업이 운영되고 있습니다. 미주에는 TV, 스마트폰 등 Set 제품의 미국 판매를 담당하는 SEA(New Jersey, USA), TV 생산을 담당하는 SII(California, USA), 반도체ㆍ디스플레이 패널 판매를 담당하는 SSI(California, USA), 반도체 생산을 담당하는 SAS(Texas, USA), Set 제품 복합 생산법인 SEDA(Brazil), 전장부품사업 등을 담당하는 Harman(Connecticut, USA) 등을 포함하여 총 47개의 판매ㆍ생산 등을 담당하는 법인이 있습니다.
유럽ㆍCIS에는 SEUK(UK), SEG(Germany), SEF(France), SEI(Italy), SERC(Russia)등 Set 제품 판매법인과 SEH(Hungary), SERK(Russia) 등 TV 생산법인, 가전제품 생산법인 SEPM(Poland) 등을 포함하여 총 68개의 법인이 운영되고 있습니다. 중동ㆍ아프리카에는 SGE(UAE), SSA(South Africa) 등 Set 제품 판매법인과 SEEG (Egypt), SSAP(South Africa) 등 TV 생산법인을 포함한 총 20개 법인이 운영되고 있습니다. 아시아(중국 제외)에는 SESP(Singapore), SEAU(Australia), SEPCO(Philippines),  SME(Malaysia) 등 판매법인과 스마트폰 등 생산법인 SEVㆍSEVT(Vietnam), TV 등 생산법인 SEHC(Vietnam), 디스플레이 패널 생산법인 SDV(Vietnam), 복합 생산법인 SIEL(India) 등을 포함한 총 32개의 법인이 운영되고 있습니다. 중국에는 SCIC(Beijing), SEHK(Hong Kong) 등 Set 제품 판매법인과 SSS(Shanghai), SSCX(Xian) 등 반도체ㆍ디스플레이 패널 판매법인, SSEC(Suzhou) 등 Set 제품 생산법인, SCS(Xian) 등 반도체 생산법인을 포함하여 총 30개의 법인이 운영되고 있습니다.
2023년 당사의 매출은 258조 9,355억원으로 전년 대비 14.3% 감소하였으며, 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등(알파벳순)이 있습니다.

## 재무제표의 사업의 개요 중 해외 지역에서 어떠한 사업을 영위하고 있는지 파악하려고 해.
예를 들면 미주 지역에서는 TV, 스마트폰, 반도체, 디스플레이 패널 등의 사업을 영위하고 있어.
이 예시를 참고하여 다른 해외 지역에서는 어떠한 사업을 영위하고 있는지 알려줄래?
'''

class Detail(BaseModel):
    region: str
    business_description: str
    manufacturing_and_sales_corporation: str

class Summarize(BaseModel):
    result: list[Detail]

completion = client.beta.chat.completions.parse(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 재무제표를 받아 정리해주는 봇이야.',
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ],
    response_format=Summarize
)

In [155]:
eval(completion.choices[0].message.content)

#### Embedding

embedding: https://platform.openai.com/docs/api-reference/embeddings

> ```python
> from openai import OpenAI
> 
> # api_key setting
> API_KEY = ''
> client = OpenAI(api_key=API_KEY)
> 
> # query
> completion = client.embeddings.create(
>     model="text-embedding-3-small",
>     input='',
>     encoding_format="float",
> )
> 
> # response
> completion.choices[0].message.content
> ```

<br>

parameters:
- model: 모델 ID
- input: 모델에 입력할 text
- encoding_format: 부동소숫점 인코딩

In [157]:
embedding = client.embeddings.create(
    model='text-embedding-3-small',
    input='hello world',
)

In [165]:
# embedding된 vector의 차원
len(embedding.data[0].embedding)

##### Practice

###### 유튜브 댓글 clustering


1. data: comments_minheejin.pickle (day41) ~15:10
2. 텍스트 임베딩
3. 임베딩된 결과를 가지고 cosine similarity 계산
4. simliarity가 높은 값을 선택하여 실제로 댓글이 유사한지 판단

In [None]:
data = pd.read_pickle('./data/comments_minheejin.pickle').iloc[:100]

def embedding(comment: str, model: str = 'text-embedding-3-small'):
    try:
        embedding = client.embeddings.create(
            model=model,
            input=comment,
        )
        embedding = embedding.data[0].embedding
    except:
        embedding = -1

    return embedding

data['vector'] = data.textOriginal.apply(lambda x: embedding(x))

In [184]:
vector = data.vector.tolist()
similarity = cosine_similarity(vector)
np.fill_diagonal(similarity, 0)
np.where(similarity > 0.6)

###### 회사 clustering

1. data: crawl_data.pickle (day40)
2. 텍스트 임베딩 (회사의 개요)
3. 임베딩된 결과를 가지고 cosine similarity 계산
4. simliarity가 높은 값을 선택하여 실제로 댓글이 유사한지 판단

In [None]:
data = pd.read_pickle('./data/crawl_data.pickle').query('dates=="2022.03"')
data = data.query('corp_name.str.contains("은행|보험|카드|저축|캐피탈|기업|국민|신한|농협|우리|생명")')

data['processed_overview'] = (data['회사의 개요']
                              .apply(lambda x: BeautifulSoup(x, 'lxml').text)
                              .str.replace('\s+', ' ', regex=True)
                             )

data['vector'] = data.processed_overview.apply(lambda x: embedding(x))
data = data.loc[data.vector.apply(type) != int]

In [244]:
vector = data.vector.tolist()
similarity = cosine_similarity(vector)
np.fill_diagonal(similarity, 0)
np.where(similarity > 0.8)

In [245]:
data.iloc[[0, 7]]

###### prompt engineering을 통한 회사 클러스터링

1. prompting을 통해 회사의 개요 전처리
2. 처리된 회사의 개요 embedding
3. embedding된 결과 cosine similarity 계산
4. threshold를 조절하며 유사한 두 회사를 확인

In [4]:
data = pd.read_pickle('./data/crawl_data.pickle').query('dates=="2022.03"')
data = data.iloc[:200]

data['processed_overview'] = (data['회사의 개요']
                              .apply(lambda x: BeautifulSoup(x, 'lxml').text)
                              .str.replace('\s+', ' ', regex=True)
                             )

In [71]:
def summarize(text: str, model: str = 'gpt-4o-mini'): 
    completion = client.chat.completions.create(
        model=model,
        messages=[
            {
                'role': 'system',
                'content': '''
                기업 공시 중 회사의 개요에 관한 사항이 주어진다.
                주어진 내용에서 주요 사업의 내용을 요약하여 제시하라.

                특히나 반드시 제거해야 하는 항목은 아래와 같으며 요약에서 반드시 제거해야 한다.
                - 설립일자, 창립연도
                - 회사의 법적, 상업적 명칭
                - 본사의 주소, 전화번호 및 홈페이지
                - 연결대상 종속회사 현황(요약)
                - 중소기업 해당 여부
                - 신용평가에 관한 사항
                - 주권상장 여부 및 특례상장에 관한 사항
                - 매출액에 관한 사항

                요약 시 아래와 같은 문구는 제거해줘
                - 회사 주요 사업 요약:\n
                - 회사의 주요 사업은 다음과 같습니다:\n\n
                - 회사의 주요 사업은 다음과 같습니다: \n\n
                '''
            },
            {
                'role': 'user',
                'content': text,
            }
        ]
    )

    return completion.choices[0].message.content

In [72]:
temp = data.iloc[:40]
temp['summarized_overview'] = temp.processed_overview.apply(lambda x: summarize(x))

In [74]:
def embedding(comment: str, model: str = 'text-embedding-3-small'):
    try:
        embedding = client.embeddings.create(
            model=model,
            input=comment,
        )
        embedding = embedding.data[0].embedding
    except:
        embedding = -1

    return embedding

In [76]:
vector = temp.apply(lambda x: embedding(x))

In [79]:
vector.apply(lambda x: type(x)).value_counts()

processed_overview
<class 'list'>    40
Name: count, dtype: int64

In [89]:
similarity = cosine_similarity(vector.tolist())
similarity = np.tril(similarity)
np.fill_diagonal(similarity, 0)

In [101]:
np.where(similarity > 0.6)

(array([ 2, 13, 14, 15, 17, 18, 18, 18, 18, 18, 20, 20, 20, 23, 23, 23, 23,
        24, 24, 27, 27, 27, 27, 27, 28, 28, 28, 28, 28, 28, 28, 28, 28, 28,
        28, 29, 29, 29, 29, 30, 30, 32, 32, 33, 34, 34, 34, 34, 36, 36, 37,
        37, 37, 37, 37, 38, 38, 39, 39, 39, 39], dtype=int64),
 array([ 1, 12, 13, 11,  1,  1,  5, 13, 15, 17, 17, 18, 19,  2, 17, 18, 20,
        18, 19,  5, 17, 18, 20, 24,  1,  5, 10, 13, 14, 15, 17, 18, 19, 20,
        27, 17, 20, 23, 27, 17, 28, 16, 21, 19,  9, 28, 29, 30,  2, 23,  1,
        17, 28, 30, 34, 21, 32, 15, 20, 28, 30], dtype=int64))

In [112]:
temp.iloc[[13, 12]]

13    회사의 주요 사업은 환경엔지니어링과 에너지 분야로 나눌 수 있습니다. 환경엔지니어링...
12    회사가 영위하는 주요 사업은 전력설비 정비, 즉 화력 및 원자력 발전소, 양수 및 ...
Name: processed_overview, dtype: object

In [109]:
data.iloc[[12, 13]]

Unnamed: 0,corp_code,corp_name,stock_code,corp_cls,report_nm,rcept_no,flr_nm,rcept_dt,rm,modified_report_nm,dates,회사의 개요,사업의 개요,processed_overview
12,159218,한전KPS,51600,Y,분기보고서 (2022.03),20220516002649,한전KPS,20220516,,분기보고서 (2022.03),2022.03,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.01 T...","<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.01 T...",1. 회사의 개요 가. 연결대상 종속회사 개황(연결재무제표를 작성하는 주권상장법인...
13,797364,KC코트렐,119650,Y,분기보고서 (2022.03),20220516002644,KC코트렐,20220516,,분기보고서 (2022.03),2022.03,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.01 T...","<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.01 T...",1. 회사의 개요 가. 연결대상 종속회사 현황 (단위 : 사) 구분 연결대상회사수...


### Prompt Engineering

언어 모델을 효과적으로 활용하기 위해 입력 프롬프트를 설계하고 최적화하는 과정. <br>
프롬프트의 구조, 언어, 길이 등을 조정하여 모델이 더 정확하고 유용한 응답을 생성할 수 있도록 특정한 형식이나 내용을 가진 질문이나 지시문을 작성. <br>

#### 명확한 prompt 작성

##### 쿼리에 세부 정보를 포함

query에 중요한 세부사항이나 context 제공

<br>

| Worse                                         | Better                                                                                                       |
|-----------------------------------------------|--------------------------------------------------------------------------------------------------------------|
| Excel에서 숫자를 어떻게 더해?              | Excel에서 달러 금액의 한 행을 자동으로 더하고, 모든 총합이 "총계"라는 열에 오른쪽에 표시되도록 하려면 어떻게 해야해?       |
| 누가 대통령이야?                           | 2021년 멕시코의 대통령은 누구였으며, 선거는 얼마나 자주 열려?                                          |
| 피보나치 수열을 계산하는 코드를 작성해줘.   | TypeScript 함수를 작성하여 피보나치 수열을 효율적으로 계산해. 각 코드 조각이 무엇을 하는지와 왜 그렇게 작성되었는지 설명하는 주석을 충분히 달아줘. |
| 회의 노트를 요약해줘.                       | 회의 노트를 한 문단으로 요약한 후, 발언자 목록과 각 발언자의 주요 요점을 markdown 리스트 형식으로 작성해줘. 마지막으로, 발언자들이 제안한 다음 단계 또는 실행 항목을 나열해줘. |

##### 모델에게 특정 역할을 맡기기

시스템 메시지를 사용하여 모델이 응답에서 사용할 역할을 지정 <br>

<br>

> ```python
> [
>     {
>         "role": "system",
>         "content": "도움이 필요한 내용을 작성할 때마다, 각 단락에 최소한 하나의 농담이나 장난스러운 댓글을 포함하여 응답."
>     },
>     {
>         "role": "user",
>         "content": "짧은 통보로 제때 납품해 준 스틸 볼트 공급업체에 감사의 메시지를 작성해줘. 덕분에 중요한 주문을 전달할 수 있었습니다라고."
>     }
> ]
> ```

In [251]:
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '''
            너는 유저의 질문에 답변하는 봇이야.
            유저가 너를 찾을 때는 일반적으로 화가 많이 나있을 거니 일단 죄송하다는 이야기를 하자.
            그리고 분위기 전환을 위해서 위트가 넘치는 표현으로 고객의 화를 풀어주는 게 좋을 거야.
            '''
        },
        {
            'role': 'user',
            'content': '''
            우일이형 광고를 이렇게 받아먹었어? 아니 이거는 아니지. 구독자를 기만하는 건 말이 안 되잖아.
            구독 취소할게.
            '''
        }
    ]
)

In [252]:
print(completion.choices[0].message.content)

##### 구분자 사용

텍스트의 섹션을 다르게 처리할 수 있도록 명확하게 구분하는 데 도움이 됨. <br>
&nbsp;&nbsp;&nbsp;&nbsp; ex)""", XML 태그, 섹션 제목 등

<br>

> ```python
> [
>     {
>         "role": "user",
>         "content": "세 개의 따옴표로 구분된 텍스트를 요약해줘. \n '''{text}'''"
>     },
> ]
> [
>     {
>         "role": "system",
>         "content": "XML 태그로 구분된 두 개의 기사가 동일한 주제에 대한 주장을 제공할 거야. 각 기사의 주장을 요약한 후, 어느 기사가 더 나은 주장을 하는지 설명해줘."
>     },
>     {
>         "role": "user",
>         "content": f"<article> {article1} </article> \n\n <article> {article2} </article>"
>     },
> ]
> [
>     {
>         "role": "system",
>         "content": "paper의 abstract와 title을 제공받을 거야. title은 paper의 주제를 잘 전달하면서도 눈길을 끌어야 해. 제목이 이러한 기준을 충족하지 않으면, 5개의 대안을 제안해줘."
>     },
>     {
>         "role": "user",
>         "content": "abstract: {abstract} \n\n title: {title}"
>     },
> ]
> ```

In [253]:
text1 = '''
북한이 동해선 육로를 폭파했다고 보도하면서 내놓은 사진이 우리 군 합동참모본부가 촬영한 영상을 ‘불펌’(불법 퍼가기)한 것으로 보인다는 분석이 나왔다.

17일 북한 조선중앙통신은 지난 15일 감행한 동해선과 경의선 육로 폭파 소식을 이날 폭파 장면 사진과 함께 보도했다.

북한은 지난 15일 남북을 연결하는 경의선과 동해선 도로 일부를 폭파했다. 북한이 남북 단절과 연결로 요새화를 공식 선언한 지 엿새 만이다. 이에 우리 군은 군사분계선(MDL) 이남 지역으로 대응 사격을 실시했다.

북한이 공개한 사진은 총 3장인데 그 가운데 동해선 폭파 사진 1장은 폭파 당시 합참이 감시장비로 촬영한 영상에 포함된 장면과 거의 동일하다.

합참 영상에서는 북한 사진상 우측에 나타난 파란 표지판과 흰색 가로등, 연기가 퍼지는 모양, 하단의 우거진 수풀이 같은 모습으로 잡힌 장면을 찾을 수 있다.

북한 사진의 색깔이 조금 더 흐릿한 편이고 연기 모양이 조금 다르기는 하나 이는 보정 작업 과정에서 나타난 차이일 수 있다.

한 사진 전문가는 “연기 등이 미세하게 달라 보이지만, 보정에 따른 경계선 차이로 보인다”며 “같은 사진으로 추정된다”고 분석했다.

이와 관련해 군 관계자는 “북한이 우리 군과 동일 위치에서 촬영하는 것은 불가능하고, 동일 각도에서 촬영했을 수는 있다”고 설명했다.

그러나 동일 각도라도 촬영 고도까지 일치하기는 어렵고, 이 정도의 유사도가 나오기는 쉽지 않기 때문에 북한이 합참 촬영본을 ‘불펌’한 것이라는 분석이 나왔다.

앞서 북한은 지난 15일 폭파 당시 경의선 현장에 촬영 인원을 파견한 모습이 우리 군 감시장비에 포착되기도 했다. 하지만 동해선 폭파 현장에서는 북한 인원이 촬영하는 모습이 식별되지 않았다.

북한은 폭파 감행 이튿날인 지난 16일에는 폭파와 관련해 아무런 소식을 내놓지 않았다. 이에 현장 사진을 제대로 챙기지 못한 까닭에 이를 수습하느라 하루를 보낸 뒤 부랴부랴 남측 동영상을 가져다 쓴 것 아니냐는 추측이 제기된다.
'''

text2 = '''
[서울=뉴시스]이지용 기자 = LG전자가 한국IR협의회가 주관하는 '2024 한국IR대상'에서 기업부문 최고상인 '금융위원장상'을 수상했다고 17일 밝혔다.

LG전자는 이날 서울 영등포구 한국거래소 서울사무소에서 열린 2024 한국IR대상 행사에서 대상(금융위원장상)을 수상했다.

한국IR대상은 한국거래소 산하 한국IR협의회가 지난 2001년부터 매년 효과적인 IR활동을 통해 자본시장의 건전한 발전에 기여한 기업 및 개인에게 시상한다.

LG전자는 가전 등 주력사업에서 미래 지향적 사업구조로 변화하며 지속가능한 성장을 추진하겠다는 중·장기 전략방향 '2030 미래비전'을 투자자 소통에 반영한 점을 높게 평가 받았다. 또 진정성 있는 기업가치 및 주주가치 제고 행보를 이어갔다는 평이다.

LG전자는 지난해 7월 '2030 미래비전' 발표를 시작으로 주주총회, 해외 투자자 대상 기업설명회, 인베스터 포럼 등 주요 IR 행사마다 최고경영자(CEO), 최고재무책임자(CFO) 등 경영진이 직접 나서 소통을 이어가고 있다. 정기 실적발표 콘퍼런스콜도 올해부터 CFO 주관으로 격상해 진행 중이다.

김창태 LG전자 CFO는 "앞으로도 기업활동 전반에 걸쳐 진정성 있는 소통을 지속하며 투자자 신뢰를 높여 나갈 것"이라고 말했다.
'''

In [255]:
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': f'''세 개의 따옴표로 감싸진 텍스트의 내용만 요약하는 봇이야. 작은 따옴표(') 또는
            큰 따옴표(") 세 개로 감싸져 있는 텍스트의 내용만을 요약할 거야'''
        },
        {
            'role': 'user',
            'content': f"세 개의 따옴표로 감싸진 텍스트의 내용만 요약해줘. \n {text1} \n '''{text2}'''"
        }
    ]
)
completion.choices[0].message.content

##### 세부 step으로 분할

일부 작업은 단계를 명확하게 지정하는 것이 가장 좋은 결과를 보임. <br>
단계를 명시적으로 작성하면 모델이 이를 따라가기가 더 쉬워질 수 있음. <br>

<br>

> ```python
> system_prompt = '''
> "다음 단계별 지침을 사용하여 사용자 입력에 응답."
> 
> 1단계 - 사용자가 세 개의 따옴표로 구분된 텍스트를 제공할 거야. 이 텍스트를 한 문장으로 요약하고 'Summary: '라는 접두사를 붙여줘.
> 2단계 - 1단계의 요약을 스페인어로 번역하고 'Translation: '라는 접두사를 붙여줘."
> '''
> 
> 
> [
>     {
>         "role": "system",
>         "content": system_prompt,
>     },
>     {
>         "role": "user",
>         "content": """{text}""",
>     }
> ]
> ```


In [256]:
system_prompt = '''
다음의 단계 지침을 사용하여 주어진 데이터를 처리할 수 있는 코드 작성.

1단계: 사용자가 dataset을 전달할 거야. 이는 머신러닝의 학습을 위한 데이터이며
supervised task를 진행할 수 있는 label이 포함된 데이터가 제공될 거야.

2단계: 1단계의 입력에서 결측치와 중복값을 확인하여, 중복이나 결측 발생 시
제거.

3단계: label encoder라고 하는 데이터 프레임과 범주형 변수로 변환할 컬럼 이름이
담긴 리스트를 입력으로 받는 함수를 사용하여 데이터를 범주형 변수로 변환.

4단계: train_test_split 함수를 사용하여 3단계에서 처리된 데이터를
train과 test data로 분할할 거야.

5단계: label data를 예측하는 모델 학습.

6단계: 학습한 모델을 통해 얻어진 test 데이터의 예측 값과 실제 값을
비교하는 시각화 코드 작성.
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': system_prompt
        },
        {
            'role': 'user',
            'content': 'sklearn의 diamond dataset'
        }
    ]
)

print(completion.choices[0].message.content)

##### example 제공

예를 제공하여 모든 생성 가능한 조합에서 답을 찾는 것보다 효과적으로 답을 찾을 수 있음. <br>
이를 **few-shot prompt**라고 함. <br>

> ```python
> [
>     {
>         "role": "system",
>         "content": "일관된 스타일로 응답."
>     },
>     {
>         "role": "user",
>         "content": "인내에 대해 가르쳐 줄래?"
>     },
>     {
>         "role": "assistant",
>         "content": "깊은 계곡을 파는 강은 소박한 샘에서 흐르며, 가장 웅장한 교향곡은 한 음에서 시작되고, 가장 복잡한 태피스트리는 고독한 실로부터 시작."
>     },
>     {
>         "role": "user",
>         "content": "바다에 대해 가르쳐 줄래?"
>     }
> ]
> ```

In [265]:
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '일관된 스타일로 응답.',
        },
        {
            'role': 'user',
            'content': '한국하면 떠오르는 단어를 나열해 줄래?',
        },
        {
            'role': 'assistant',
            'content': '1. 한강, 2. BTS, 3. 기생충'
        },
        {
            'role': 'user',
            'content': '미국하면 떠오르는 단어를 나열해 줄래?'
        },
    ],
)

print(completion.choices[0].message.content)

##### 길이 명시

모델에게 특정한 목표 길이의 출력을 생성하도록 요청할 수 있음. <br>
길이는 단어, 문장, 단락, 글머리 기호 등의 개수로 지정 가능. <br>
&nbsp;&nbsp;&nbsp;&nbsp;모델에게 특정한 단어 수를 생성하도록 지시하는 것은 정확하게 작동하지 않을 수 있음.

<br>

> ```python
> [
>     {
>         "role": "user",
>         "content": "세 개의 따옴표로 구분된 텍스트를 약 50단어로 요약해줄래?. \n{text}"
>     },
> ]
> [
>     {
>         "role": "user",
>         "content": "세 개의 따옴표로 구분된 텍스트를 2단락으로 요약하세요. \n{text}"
>     },
> ]
> [
>     {
>         "role": "user",
>         "content": "세 개의 따옴표로 구분된 텍스트를 3개의 핵심 포인트로 요약하세요. \n{text}"
>     },
> ]
> ```

In [10]:
prompt = '''
1. 사업의 개요

당사는 본사를 거점으로 한국과 DX 부문 산하 해외 9개 지역총괄 및 DS 부문 산하 해외 5개 지역총괄의 생산ㆍ판매법인, SDC 및 Harman 산하 종속기업 등 232개의 종속기업으로 구성된 글로벌 전자 기업입니다.
사업별로 보면, Set 사업은 DX(Device eXperience) 부문이 TV를 비롯하여 모니터, 냉장고, 세탁기, 에어컨, 스마트폰, 네트워크시스템, 컴퓨터 등을 생산ㆍ판매하며, 부품 사업은 DS(Device Solutions) 부문에서 DRAM, NAND Flash, 모바일AP 등의 제품을 생산ㆍ판매하고,  SDC가 스마트폰용 OLED  패널 등을 생산ㆍ판매하고 있습니다. 또한, Harman에서는 디지털 콕핏(Digital Cockpit), 카오디오 등 전장제품과 포터블/사운드바 스피커 등 소비자오디오 제품 등을 생산ㆍ판매하고 있습니다. 당사는 2021년 12월 조직개편을 통해 기존의 CE 부문과 IM 부문을 DX 부문으로 통합하였으며, 무선사업부의 명칭을 MX(Mobile eXperience) 사업부로 변경하였습니다. 또한 내부 조직체계에 맞추어 SDC를 DS 부문과 별도로 구분하였습니다. ☞ 부문별 사업에 관한 자세한 사항은 '7. 기타 참고사항'의 '다. 사업부문별 현황'과    '라. 사업부문별 요약 재무 현황' 항목을 참고하시기 바랍니다.
지역별로 보면, 국내에서는 DX 부문 및 DS 부문 등을 총괄하는 본사와 35개의 종속기업이 사업을 운영하고 있습니다. 본사는 수원, 구미, 광주, 기흥, 화성, 평택사업장 등으로 구성되어 있으며, 국내 종속기업은 디스플레이 패널을 생산하는 삼성디스플레이㈜와 국내 대리점 판매를 전담하는 삼성전자판매㈜, 제품 수리 서비스를 담당하는 삼성전자서비스㈜, 제품 운송을 담당하는 삼성전자로지텍㈜ 등 비상장 종속기업들로 구성되어 있습니다.

해외(미주, 유럽ㆍCIS, 중동ㆍ아프리카, 아시아 등지)에서는 생산, 판매, 연구활동 등을 담당하는 197개의 비상장 종속기업이 운영되고 있습니다. 미주에는 TV, 스마트폰 등 Set 제품의 미국 판매를 담당하는 SEA(New Jersey, USA), TV 생산을 담당하는 SII(California, USA), 반도체ㆍ디스플레이 패널 판매를 담당하는 SSI(California, USA), 반도체 생산을 담당하는 SAS(Texas, USA), Set 제품 복합 생산법인 SEDA(Brazil), 전장부품사업 등을 담당하는 Harman(Connecticut, USA) 등을 포함하여 총 47개의 판매ㆍ생산 등을 담당하는 법인이 있습니다.
유럽ㆍCIS에는 SEUK(UK), SEG(Germany), SEF(France), SEI(Italy), SERC(Russia)등 Set 제품 판매법인과 SEH(Hungary), SERK(Russia) 등 TV 생산법인, 가전제품 생산법인 SEPM(Poland) 등을 포함하여 총 68개의 법인이 운영되고 있습니다. 중동ㆍ아프리카에는 SGE(UAE), SSA(South Africa) 등 Set 제품 판매법인과 SEEG (Egypt), SSAP(South Africa) 등 TV 생산법인을 포함한 총 20개 법인이 운영되고 있습니다. 아시아(중국 제외)에는 SESP(Singapore), SEAU(Australia), SEPCO(Philippines),  SME(Malaysia) 등 판매법인과 스마트폰 등 생산법인 SEVㆍSEVT(Vietnam), TV 등 생산법인 SEHC(Vietnam), 디스플레이 패널 생산법인 SDV(Vietnam), 복합 생산법인 SIEL(India) 등을 포함한 총 32개의 법인이 운영되고 있습니다. 중국에는 SCIC(Beijing), SEHK(Hong Kong) 등 Set 제품 판매법인과 SSS(Shanghai), SSCX(Xian) 등 반도체ㆍ디스플레이 패널 판매법인, SSEC(Suzhou) 등 Set 제품 생산법인, SCS(Xian) 등 반도체 생산법인을 포함하여 총 30개의 법인이 운영되고 있습니다.
2023년 당사의 매출은 258조 9,355억원으로 전년 대비 14.3% 감소하였으며, 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등(알파벳순)이 있습니다.

## 위의 재무제표를 한 문장으로 요약해줄래?
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 재무제표를 받아 정리해주는 봇이야. 주요 판매처를 요약하는 것을 목적으로 한다. 매출 관련 항목은 생략',
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ],
)

print(completion.choices[0].message.content)

당사는 한국과 해외 14개 지역에서 다양한 전자제품을 생산 및 판매하는 글로벌 기업으로, 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등이 있다.


#### reference 제공

##### reference를 사용하여 응답하도록 지시

신뢰할 수 있는 정보를 모델에 제공하고 이 정보가 현재 쿼리와 관련이 있다면, 해당 정보를 사용하여 답변을 작성하도록 모델에게 지시 가능.

<br>

> ```python
> [
>     {
>         "role": "system",
>         "content": "제공된 세 개의 따옴표로 구분된 기사를 사용하여 질문에 답하세요. 기사가 아닌 경우 '답을 찾을 수 없습니다.'라고 작성하세요."
>     },
>     {
>         "role": "user",
>         "content": """{text}"""
>     },
>     {
>         "role": "user",
>         "content": "Question: {question}"
>     }
> ]
> ```

In [12]:
article = '''
김치프리미엄 사라져 가격 역전
국내 업비트서 0.8% 낮게 거래
美 비트코인ETF로 유동성 증가
韓선 기관 투자 막혀 거래량 정체
 
최근 국내에서 비트코인이 해외보다 오히려 낮은 가격에 거래되는 것으로 나타났다. 올해 초까지만 해도 국내 가상화폐 시장에 개인투자자 자금이 대거 몰려 해외에 비해 시세가 높게 형성되는 ‘김치 프리미엄’ 현상이 나타났지만, 지금은 반대 상황이 됐다. 상장지수펀드(ETF)가 승인되며 기관투자가 진입이 원활해진 미국 등과 달리 국내 가상화폐 시장은 개인 투자 수요에만 의존하면서 증시에 이어 가상자산에서도 일종의 ‘코리아 디스카운트’가 발생하고 있다는 분석이 나온다.

● 국내-해외 비트코인 가격 ‘역전’

17일 가상자산 시황 비교 플랫폼 ‘크라이프라이스’에 따르면 이날 오후 3시 기준 글로벌 가상화폐 거래소 바이낸스에서 비트코인은 1개당 약 6만7415달러(약 9226만 원)에 거래됐다. 같은 시각 국내 가상화폐 거래소인 업비트에서 비트코인은 약 9150만 원에 거래 중이었다. 국내에서 거래되는 비트코인이 약 0.8% 싸게 사고 팔리는 셈이다.

국내 가상자산 시장은 2017년 이후 과열 기미를 보이면서 비트코인의 원화 거래 가격이 달러화 가격보다 10∼20% 비싼 상태가 이어져 왔다. 이에 웃돈(프리미엄)을 주고 사야 한다는 의미로 김치 프리미엄이라는 용어가 사용됐다. 이런 현상은 국내 비트코인 거래량이 급증했던 올해 초까지 이어져 왔다.

그러나 최근 글로벌 가상자산 시장에 자금이 유입되며 비트코인 가격이 강세를 보이는 반면, 국내에선 거래량이 늘지 않으면서 가격 역전이 발생했다. 지난달 미국 연방준비제도(Fed·연준)가 기준금리를 한 번에 0.5%포인트 낮추는 ‘빅 컷’을 단행해 위험 자산으로 돈이 돌아온 데 이어 가상자산에 친화적인 도널드 트럼프 미국 공화당 대통령 후보의 지지율이 오르면서 생긴 현상이다.

● 비트코인 규제로 국내 시장은 차분

해외에서 비트코인 가격이 상승하는 또 다른 요인으로는 올해 1월 미국에서 상장된 비트코인 현물 ETF가 꼽힌다. ETF를 통해 기관 자금이 유입되며 유동성이 늘어난 데 더해 금리 인하 등 호재가 맞물리며 상승 폭이 커졌다는 것이다. 김민승 코빗 리서치센터장은 “올해 비트코인 가격 상승의 주동력은 미국 증시에 상장된 현물 ETF를 통해 들어온 자금”이라고 분석했다. 반면 국내의 경우 가상자산 현물 ETF 상장이 막혀 현실적으로 주요 기관의 가상자산 투자는 전면 차단돼 있다. 비트코인 거래가 개인에 의존하다 보니 거래량이 크게 증가하지 않는다는 것이다. 여기에 더해 기존의 국내 비트코인 투자자들이 미국 주식 등 해외 자산 투자로 눈을 돌리는 것도 국내 가상자산 가격 약세를 부채질하고 있다.

김치 프리미엄이 사라진 것을 긍정적으로 바라보는 시각도 있다. 일부 세력에 의한 시세 조종 등 불공정 거래가 줄어든 결과라는 것이다. 천창민 서울과학기술대 글로벌테크노경영학과 교수는 “가상자산 이용자 보호법이 도입되면서 시장이 건전해진 영향”이라며 “과거엔 비트코인을 대거 보유한 ‘대형 고래’들이 가격을 조작할 수 있었는데, 강력한 규제가 도입되면서 영향력이 줄어든 것”이라고 설명했다.
'''

In [13]:
completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '''
            주어지는 작은 따옴표(\') 또는 큰 따옴표(") 세 개로 쌓인 텍스트 내에서 유저의 질문에 대한 답을 해줘.
            작은 따옴표 세 개나 큰 따옴표 세 개로 쌓인 텍스트 내에서 답을 찾을 수 없는 경우,
            해당 질문에 대한 답을 주어진 텍스트에서 찾을 수 없다고 안내해줘.
            '''
        },
        {
            'role': 'user',
            'content': f'"""{article}"""',
        },
        {
            'role': 'user',
            'content': "Question: 2017년에 김치프리미엄이 50% 근처였는가?"
        }
    ]
)

print(completion.choices[0].message.content)

주어진 텍스트에서 2017년에 김치프리미엄이 50% 근처였다는 내용은 찾을 수 없습니다. 해당 질문에 대한 답을 주어진 텍스트에서 찾을 수 없다고 안내드립니다.


##### reference로부터 인용하여 답변하도록 지시

입력이 관련 지식으로 보완된 경우, 모델에게 제공된 문서의 특정 구문을 참조하여 답변에 인용을 추가하도록 요청하는 것은 간단. <br>
출력에 포함된 인용은 제공된 문서 내에서 문자열 일치를 통해 프로그래밍적으로 검증 가능 <br>

<br>

> ```python
> prompt = '''
> """{article}"""
> 
> Question: {question}
> '''
> 
> [
>     {
>         "role": "system",
>         "content": "제공된 세 개의 따옴표로 구분된 기사를 사용하여 질문에 답하여라. 기사가 아닌 경우 '답을 찾을 수 없습니다.'라고 작성."
>     },
>     {
>         "role": "user",
>         "content": prompt,
>     }
> ]
> ```

#### 복잡한 task를 simple한 task로 분리

##### 가장 관련성 높은 지침을 식별하기 위해 의도 분류 사용

많은 독립적인 지침 세트를 필요로 하는 작업에서는 먼저 문의 유형을 분류하고 이 분류를 사용하여 필요한 지침을 결정하는 것이 유용할 수 있음. <br>
이를 위해 고정된 범주를 정의하고 특정 범주에서 작업을 처리하는 데 관련된 지침을 하드코딩. <br>
이 과정은 작업을 일련의 단계로 분해하는 데도 재귀적으로 적용 가능. <br>

이 접근 방식의 장점은 각 문의에 필요한 지침만 포함되어 있어 작업의 다음 단계를 수행하는 데 필요한 정보를 제공함으로써 오류율을 낮출 수 있다는 것. <br>
더 큰 프롬프트는 실행 비용이 더 높기 때문에 비용 절감 효과도 기대 가능. <br>

> ```python
> system_prompt = '''
> 고객 서비스 문의가 제공될 것. 각 문의를 기본 범주와 세부 범주로 분류. JSON 형식으로 출력하고, 키는 primary와 secondary로 분류.
> 
> 기본 범주: 청구, 기술 지원, 계정 관리 또는 일반 문의.
> 
> 청구 세부 범주:
> - 구독 해지 또는 업그레이드
> - 결제 방법 추가
> - 청구 설명
> - 요금 이의 제기
> - 기술 지원 세부 범주:
> 
> 문제 해결
> - 장치 호환성
> - 소프트웨어 업데이트
> 
> 계정 관리 세부 범주:
> - 비밀번호 재설정
> - 개인 정보 업데이트
> - 계정 해지
> - 계정 보안
> 
> 일반 문의 세부 범주:
> - 제품 정보
> - 가격
> - 피드백
> - 사람과 대화하기
> '''
>
> [
>     {
>         "role": "system",
>         "content": system_prompt,
>     },
>     {
>         "role": "user",
>         "content": "인터넷이 다시 작동하도록 해야 하는데 어떻게 해야할까?",
>     }
> ]
> ```

<br>

고객 문의 분류를 기반으로 모델이 다음 단계를 처리할 수 있도록 보다 구체적인 지침을 제공 가능. <br>
&nbsp;&nbsp;&nbsp;&nbsp; ex) 고객이 "문제 해결"에 대한 도움이 필요하다고 가정.

> ```python
> system_prompt = f'''
> 고객 서비스 문의가 제공될 건데, 기술 지원 맥락에서 문제 해결이 필요한 경우 사용자를 도와줄래?:
> 
> - 라우터에 연결된 모든 케이블이 제대로 연결되어 있는지 확인하도록 요청. 시간이 지남에 따라 케이블이 느슨해지는 경우가 흔함.
> - 모든 케이블이 연결되어 있는데도 문제가 지속된다면, 사용하고 있는 라우터 모델이 무엇인지 물어봐.
> - 이제 장치를 재시작하는 방법을 안내:
> -- 모델 번호가 MTD-327J인 경우, 빨간 버튼을 누르고 5초 동안 유지한 후, 연결 상태를 테스트하기 전에 5분 기다리라고 안내.
> -- 모델 번호가 MTD-327S인 경우, 전원 플러그를 뽑았다가 다시 꽂고, 연결 상태를 테스트하기 전에 5분 기다리라고 안내.
> - 장치를 재시작하고 5분을 기다린 후에도 문제가 지속된다면, IT 지원팀에 연결하라는 메시지를 출력: "IT support requested".
> - 사용자가 이 주제와 관련 없는 질문을 시작하면, 문제 해결에 대한 현재 채팅을 종료하고 싶어하는지 확인한 후, 요청을 다음 분류 체계에 따라 분류.
> 
> {<primary/secondary classification theme>}
> '''
>
> [
>     {
>         "role": "system",
>         "content": system_prompt,
>     },
>     {
>         "role": "user",
>         "content": "인터넷이 다시 작동하도록 해야 하는데 어떻게 해야할까?",
>     }
> ]

In [15]:
system_prompt = '''
고객 서비스 문의를 입력으로 받는다.
각 문의를 기본 범주와 세부 범주로 분류한다.
json 형식으로 답변을 출력하고, 키는 primary와 secondary로 분류한다.

기본 범주: 주문 취소, 배송 조회

주문 취소 세부 범주:
- 환불 문의
- 교환 문의
- 반품 문의

배송 조회 세부 범주:
- 운송장 확인 문의
- 실시간 위치 문의
- 기타 문의
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'user',
            'content': system_prompt,
        },
        {
            'role': 'user',
            'content': '주문한 물건이 아직 도착 안 했는데 물건의 현재 위치를 알고 싶어',
        }
    ]
)

answer = completion.choices[0].message.content
answer

'```json\n{\n  "primary": "배송 조회",\n  "secondary": "실시간 위치 문의"\n}\n```'

In [17]:
system_prompt = f'''
고객 서비스 문의를 입력으로 받는다.
배송 조회 맥락에서 문제 해결이 필요한 경우 사용자를 도와줄래?
고객이 겪는 문제에 대한 구체적인 카테고리는 다음과 같아:
{answer}

- 실시간 배송 조회가 필요한 경우 조회를 할 수 있는 링크 제공
- 상담원 연결을 통한 배송 조회를 진행하고 싶은 경우 02-1234-5678제공
- 사용자가 이 주제와 관련 없는 질문을 시작 시, "해당 주제에 대한 답을 드릴 수 없습니다. 죄송합니다"
  라는 문구를 띄우며, 채팅을 종료하길 원하는지 확인. 확인 후 요청을 다음 분류체계에 따라 분류.
  > primary, secondary key로 분류하며, json 형식으로 출력
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': system_prompt,
        },
        {
            'role': 'user',
            'content': '주문한 물건이 아직 도착 안 했는데 물건의 현재 위치를 알고 싶어', 
        }
    ]
)

print(completion.choices[0].message.content)

실시간 배송 조회가 필요하신 경우, 아래의 링크를 통해 현재 물건의 위치를 조회하실 수 있습니다:

[배송 조회하기](https://yourdeliverytrackinglink.com)

혹시 상담원과 연결하여 배송 조회를 진행하고 싶으신 경우, 아래의 번호로 연락해 주시기 바랍니다: 02-1234-5678.


#### 모델에게 생각을 할 수 있도록 함

##### 스스로 해결책을 생각하도록 지시

결론에 도달하기 전에 근본 원칙에서 사고하도록 명시적으로 지시하면 더 나은 결과를 얻을 수 있음. <br>
&nbsp;&nbsp;&nbsp;&nbsp;ex) 학생의 수학 문제 해결 과정을 평가하고 싶다면, 가장 간단한 방법은 모델에게 학생의 해결책이 맞는지 틀린지 물어보는 방법 등. <br>

<br>

> ```python
> prompt = '''
> 문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움을 필요 함.
> - 토지 비용: 평방피트당 $100
> - 나는 평방피트당 $250에 태양광 패널을 구입 가능.
> - 나는 연간 고정 비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약을 협상.
> 첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산할 수 있을까?
> 
> 학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
> 1. 토지 비용: 100x
> 2. 태양광 패널 비용: 250x
> 3. 유지보수 비용: 100,000 + 100x
> 총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
> '''
> 
> [
>     {
>         "role": "system",
>         "content": "학생의 솔루션이 올바른지 여부를 판단해줄래?"
>     },
>     {
>         "role": "user",
>         "content": f"{prompt}"
>     },
> ]
> ```

<br>

학생의 해결책이 실제로는 맞지 않음. <br> 
모델이 이를 성공적으로 인지하도록 하려면, 모델에게 먼저 자신의 해결책을 생성하도록 유도하는 것이 바람직. <br>
-> 모델이 문제를 근본적으로 이해하고, 학생의 해결책과 비교하여 오류를 발견 가능 <br>

<br>

> ```python
> prompt = '''
> 문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움을 필요 함.
> - 토지 비용: 평방피트당 $100
> - 나는 평방피트당 $250에 태양광 패널을 구입 가능.
> - 나는 연간 고정 비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약을 협상.
> 첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산할 수 있을까?
> 
> 학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
> 1. 토지 비용: 100x
> 2. 태양광 패널 비용: 250x
> 3. 유지보수 비용: 100,000 + 100x
> 총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
> '''
> 
> [
>     {
>         "role": "system",
>         "content": "먼저 문제를 해결한 후, 자신의 해결책을 학생의 해결책과 비교하고 학생의 해결책이 맞는지 평가해볼래?. 학생의 해결책이 맞는지 결정하기 전에 먼저 문제를 직접 풀어봐야해."
>     },
>     {
>         "role": "user",
>         "content": f"{prompt}"
>     },
> ]
> ```

In [19]:
prompt = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.

학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
1. 토지 비용: 100x
2. 태양광 패널 비용: 250x
3. 유지보수 비용: 100,000 + 100x
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '학생의 솔루션이 올바른지 여부를 판단'
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ]
)

print(completion.choices[0].message.content)

학생의 솔루션은 올바릅니다. 계산 과정을 확인해보면:

1. **토지 비용**: 평방피트당 $100인 경우, 설치 면적이 x 평방피트라면 토지 비용은 \(100x\)입니다.
2. **태양광 패널 비용**: 평방피트당 $250인 경우, 설치 면적이 x 평방피트라면 태양광 패널 비용은 \(250x\)입니다.
3. **유지보수 비용**: 연간 고정비용이 $100,000이고, 평방피트당 추가 비용이 $10인 경우, 유지보수 비용은 \(100,000 + 100x\)입니다.

이 모든 비용을 합치면:

\[
\text{총 비용} = 100x + 250x + (100,000 + 100x) = 100x + 250x + 100,000 + 100x
\]

계산하면:

\[
\text{총 비용} = (100x + 250x + 100x) + 100,000 = 450x + 100,000
\]

따라서, 학생이 제시한 총 비용 함수 \(450x + 100,000\)은 정확합니다.


In [20]:
prompt = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.

학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
1. 토지 비용: 100x
2. 태양광 패널 비용: 250x
3. 유지보수 비용: 100,000 + 100x
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '''
            먼저 문제를 해결한 후, 너의 답안과 학생의 해결책을 비교하고 학생의 해결책이 맞는지 평가해볼래?
            학생의 해결책이 맞는지 결정하기 전에 먼저 문제를 직접 풀어봐야해.
            '''
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ]
)

print(completion.choices[0].message.content)

문제를 해결하기 위해 각 비용 항목을 정리해보겠습니다.

1. **토지 비용:** 평방피트당 $100이며, x를 설치 면적(평방피트)으로 가정할 때, 토지 비용은 \( 100x \)입니다.

2. **태양광 패널 비용:** 평방피트당 $250이며, 따라서 태양광 패널을 설치하는 비용은 \( 250x \)입니다.

3. **유지보수 비용:** 연간 고정비용이 $100,000이고, 추가 비용이 평방피트당 $10이므로 유지보수 비용은 \( 100,000 + 10x \)입니다.

이제 총 비용을 정리해 보겠습니다.

총 비용 = 토지 비용 + 태양광 패널 비용 + 유지보수 비용
\[
\text{총 비용} = 100x + 250x + (100,000 + 10x)
\]
\[
= 100x + 250x + 100,000 + 10x
\]
\[
= (100x + 250x + 10x) + 100,000
\]
\[
= 360x + 100,000
\]

따라서, 첫 해 운영의 총 비용은 \( 360x + 100,000 \)입니다.

학생의 해결책을 평가해 보면, 학생은 유지보수 비용을 잘못 계산했습니다. 학생은 유지보수 비용을 \( 100,000 + 100x \)로 계산했지만, 실제로는 \( 100,000 + 10x \)여야 합니다. 따라서 학생의 최종 결과인 총 비용 \( 450x + 100,000 \)는 잘못된 계산입니다.

결론적으로, 학생의 해결책은 정확하지 않습니다. 올바른 총 비용은 \( 360x + 100,000 \)입니다.


##### 내부 독백이나 일련의 질문을 사용

일부 애플리케이션에서는 모델이 최종 답변에 도달하기 위해 사용하는 사고 과정을 사용자와 공유하는 것이 부적절할 수 있음. <br>
&nbsp;&nbsp;&nbsp;&nbsp; tutoring app에서는 학생들이 스스로 답을 도출하도록 격려하고 싶지만, 모델의 사고 과정이 학생에게 정답을 드러낼 수 있음 <br>

내부 독백의 아이디어는 모델에게 사용자에게 숨기려는 출력의 일부를 구조화된 형식으로 배치하도록 지시. <br>
-> 출력이 쉽게 분석될 수 있으며, 사용자에게 출력을 제공하기 전에 이 출력을 분석하고, 필요한 부분만 표시하도록 함.

<br>

> ```python
> system_prompt = '''
> 다음 단계에 따라 사용자 문의에 답변.
> 
> 1단계 - 먼저 문제를 스스로 해결해 봐. 학생의 해결책이 틀릴 수 있기에 학생의 해결책에 의존하면 안 돼. 이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").
> 
> 2단계 - 자신의 해결책과 학생의 해결책을 비교하고, 학생의 해결책이 맞는지 평가해. 이 단계의 모든 작업은 세 개의 따옴표로 묶어줘. (""").
> 
> 3단계 - 학생이 실수를 했다면, 정답을 주지 않으면서 학생에게 어떤 힌트를 줄 수 있을지 결정해. 이 단계의 모든 작업은 세 개의 따옴표로 묶어줘. (""").
> 
> 4단계 - 학생이 실수를 했다면, 이전 단계에서 얻은 힌트를 학생에게 제공. (세 개의 따옴표 밖에서). "4단계 - ..." 대신 "힌트:"라고 작성.
> '''
> 
> [
>     {
>         "role": "system",
>         "content": f"{system_prompt}"
>     },
>     {
>         "role": "user",
>         "content": "문제: {problem_statement} \n\n학생 정답: {student_solution}"
>     },
> ]
> ```

<br>

마지막을 제외한 모든 출력이 최종 사용자에게 숨겨진 일련의 질문을 통해 이를 달성 가능. <br>
먼저, 모델에게 문제를 스스로 해결하도록 요청. <br>
&nbsp;&nbsp;&nbsp;&nbsp;이 초기 질문은 학생의 해결책이 필요하지 않으므로 생략 가능. <br>
&nbsp;&nbsp;&nbsp;&nbsp;->모델의 해결책이 학생의 시도한 해결책에 의해 편향될 가능성이 없어짐. <br>

<br>

> ```python
> [
>     {
>         "role": "user",
>         "content": f"{problem_statement}"
>     },
> ]
> ```

<br>

이후 모델이 모든 사용 가능한 정보를 활용하여 학생의 해결책의 정확성을 평가. <br>
이 과정에서 모델은 자신의 해결책과 학생의 해결책을 비교하고, 오류가 있는지 여부를 판단. <br>
이를 통해 학생에게 도움이 되는 피드백을 제공 가능 <br>

<br>

> ```python
> prompt=f'''
> 문제 설명: """{problem_statement}"""
> 당신의 해결책: """{model generated_solution}"""
> 학생의 솔루션: """{students_solution}"""
> '''
>
> [
>     {
>         "role": "system",
>         "content": f"해결책을 학생의 해결책과 비교하고 학생의 해결책이 올바른지 평가."
>     },
>     {
>         "role": "user",
>         "content": f"{prompt}"
>     },
> ]
> ```

<br>

마지막으로, 모델이 자신의 분석을 바탕으로 유익한 튜터의 역할로 답변을 작성하도록 유도. <br>
-> 학생에게 친절하고 이해하기 쉬운 방식으로 피드백을 제공하며, 문제 해결에 대한 도움을 줄 수 있음

<br>

> ```python
> prompt=f'''
> 문제 설명: """{problem_statement}"""
> 당신의 해결책: """{model generated_solution}"""
> 학생의 솔루션: """{students_solution}"""
> 분석: """{model_generated_analysis_from_previous_step}"""
> '''
>
> [
>     {
>         "role": "system",
>         "content": f"당신은 수학 튜터이다. 학생이 오류를 범했다면, 답을 드러내지 않으면서 힌트를 제공. 학생이 오류를 범하지 않았다면, 격려의 말을 전달"
>     },
>     {
>         "role": "user",
>         "content": f"{prompt}"
>     },
> ]
> ```

In [21]:
system_prompt = '''
다음 단계에 따라 사용자 질문에 답변.

1단계 - 먼저 문제를 스스로 해결. 학생의 솔루션이 틀릴 수 있기 때문에 학생의 솔루션에 의존하면 안 돼.
이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").

2단계 - 너의 솔루션과 학생의 솔루션을 비교하고, 학생의 솔루션이 맞는지 평가.
이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").

3단계 - 학생이 실수를 했다면, 정답을 주지 않으면서 학생에게 어떤 힌트를 제공해줄 수 있을지 결정해.
이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").

4단계 - 학생이 실수를 했다면, 이전 단계에서 얻은 힌트를 학생에게 제공. (세 개의 따옴표 밖에서 제공).
"4단계 - " 대신 "힌트: "라고 작성.
'''

problem_statement = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.
'''

student_solution = '''
학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
1. 토지 비용: 100x
2. 태양광 패널 비용: 250x
3. 유지보수 비용: 100,000 + 100x
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages = [
        {
            'role': 'system',
            'content': system_prompt
        },
        {
            'role': 'user',
            'content': f"문제: {problem_statement} \n\n 학생 정답: {student_solution}"
        }
    ]
)

print(completion.choices[0].message.content)

"""
우선 문제를 해결해 보겠습니다.

토지 비용은 평방피트당 $100이므로, 설치 면적을 x라고 할 때:
- 토지 비용 = 100 * x

태양광 패널 구입 비용은 평방피트당 $250이므로:
- 태양광 패널 비용 = 250 * x

유지보수 비용은 연간 고정비용 $100,000와 평방피트당 추가 비용 $10이므로:
- 유지보수 비용 = 100,000 + 10 * x

이제 이 모든 비용을 합쳐서 첫 해 운영의 총 비용을 구하면:
총 비용 = 토지 비용 + 태양광 패널 비용 + 유지보수 비용
총 비용 = (100 * x) + (250 * x) + (100,000 + 10 * x)
총 비용 = 100x + 250x + 100,000 + 10x
총 비용 = (100 + 250 + 10)x + 100,000
총 비용 = 360x + 100,000

따라서 첫 해 운영의 총 비용은 360x + 100,000입니다.
"""

"""
이제 학생의 솔루션과 비교해 보겠습니다. 학생의 솔루션은 다음과 같습니다:
- 총 비용: 450x + 100,000

학생은 토지 비용, 태양광 패널 비용, 유지보수 비용을 합산하는 과정에서 오류를 범했습니다. 학생은 평방피트당 추가 비용을 잘못 계산하였고, 총 비용을 잘못 도출하였습니다. 올바른 총 비용은 360x + 100,000입니다.
"""

"""
학생이 실수를 한 것은 유지보수 비용의 구성 요소를 잘못 계산했기 때문입니다. 학생에게 어떤 힌트를 주면 좋을지 생각해보면, 유지보수 비용 구성에서 "연간 고정비용과 평방피트당 추가 비용이 어떻게 결합되는지를 다시 확인하는 것이 좋겠다"라는 방향으로 유도할 수 있습니다.
"""

힌트: 유지보수 비용의 구성 요소 중 연간 고정비용과 평방피트당 추가 비용이 합쳐지는 방식에 대해 다시 고려해 보세요.


In [24]:
system_prompt = '''
다음 단계에 따라 사용자 질문에 답변.

1단계 - 주어진 문제에 대해 계산을 해줘.
이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").
'''

problem_statement = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages = [
        {
            'role': 'system',
            'content': system_prompt
        },
        {
            'role': 'user',
            'content': f"문제: {problem_statement}"
        }
    ]
)

model_answer = completion.choices[0].message.content
print(model_answer)

"""
첫 해 운영의 총 비용은 다음과 같은 요소로 구성됩니다:

1. 토지 비용: 평방피트당 $100로, x 평방피트에 대해 $100 * x.
2. 태양광 패널 구입 비용: 평방피트당 $250로, x 평방피트에 대해 $250 * x.
3. 연간 고정비용: $100,000.
4. 유지보수 비용: 평방피트당 $10로, x 평방피트에 대해 $10 * x.

그러므로 첫 해 운영의 총 비용 C(x)는 다음과 같이 계산됩니다:
C(x) = 토지 비용 + 태양광 패널 비용 + 고정비용 + 유지보수 비용
C(x) = (100 * x) + (250 * x) + 100,000 + (10 * x)
C(x) = 360 * x + 100,000

따라서, 첫 해 운영의 총 비용 C(x)는 360x + 100,000입니다.
"""


In [25]:
system_prompt = '''
다음 단계에 따라 사용자 질문에 답변.

2단계 - 너의 답안과 학생의 답안을 비교해봐. 그리고 학생의 답안이 맞았는지 아닌지 평가해줘.
이 단계의 모든 작업은 세 개의 따옴표로 묶어줘 (""").
'''

student_solution = '''
학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
1. 토지 비용: 100x
2. 태양광 패널 비용: 250x
3. 유지보수 비용: 100,000 + 100x
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
'''

problem_statement = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages = [
        {
            'role': 'system',
            'content': system_prompt
        },
        {
            'role': 'user',
            'content': f"""
            문제: {problem_statement}

            너의 답안: {model_answer}

            학생의 답안: {student_solution}
            """
        }
    ]
)

model_evaluation = completion.choices[0].message.content
print(model_evaluation)

"""
학생의 답안은 일부 오류가 있습니다. 학생이 유지보수 비용을 잘못 계산했습니다. 유지보수 비용은 연간 고정비용 $100,000과 평방피트당 $10의 추가 비용으로 구성되므로, 유지보수 비용은 $100,000 + $10 * x이어야 합니다. 

학생의 총 비용 계산은 다음과 같이 수정되어야 합니다:
C(x) = 100x + 250x + 100,000 + 10x = 360x + 100,000 입니다.

따라서, 학생의 답안은 잘못되었으며 올바른 총 비용 함수는 C(x) = 360x + 100,000입니다.
"""


In [26]:
system_prompt = '''
너는 학생의 수학 학습을 도와주는 튜터야.
학생이 오류를 범했다면 답을 직접 제시하지 않으면서 힌트를 제공해줘.
학생이 오류를 범하지 않고 정답을 맞췄다면, 잘 했다고 격려의 말을 해줘.
'''

student_solution = '''
학생의 솔루션: x를 설치 면적(평방피트)이라고 가정.
1. 토지 비용: 100x
2. 태양광 패널 비용: 250x
3. 유지보수 비용: 100,000 + 100x
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
'''

problem_statement = '''
문제 설명: 태양광 설치를 구축 중이며 재무 계산에 도움이 필요함.
- 토지 비용: 평방피트당 $100
- 평방피트당 $250에 태양광 패널 구입 가능
- 연간 고정비용 $100,000와 평방피트당 추가 비용 $10인 유지보수 계약 협상.
첫 해 운영의 총 비용을 평방피트 수에 대한 함수로 계산.
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages = [
        {
            'role': 'system',
            'content': system_prompt
        },
        {
            'role': 'user',
            'content': f"""
            문제: {problem_statement}

            너의 답안: {model_answer}

            학생의 답안: {student_solution}

            분석: {model_evaluation}
            """
        }
    ]
)

model_evaluation = completion.choices[0].message.content
print(model_evaluation)

학생의 답안은 잘못된 유지보수 비용 계산 때문입니다. 유지보수 비용은 연간 고정비용과 별도로 계산되어야 합니다. 유지보수 비용의 구조를 다시 한번 생각해 보세요. 고정비용과 평방피트당 추가 비용 각각을 정확하게 더해 보세요. 그러면 올바른 총 비용을 도출할 수 있을 거예요!


#### 모델에게 이전 단계에서 놓친 것이 있는지 확인

모델을 사용하여 특정 질문과 관련된 출처에서 발췌된 내용을 나열한다고 가정. <br>
각 발췌 후 모델은 다음 발췌를 작성해야 할지 아니면 멈춰야 할지를 결정해야 함. <br>
만약 출처 문서가 크다면, 모델이 너무 일찍 멈추고 관련된 모든 발췌를 나열하지 못하는 경우가 많음. <br>
이 때, 이전 단계에서 놓친 발췌를 찾기 위해 모델에 후속 질문을 제시하면 더 나은 성과를 얻을 수 있음 <br>

<br>

ex) 첫 번째 쿼리에서 모델이 몇 개의 발췌를 나열한 후, "혹시 더 추가할 만한 발췌가 있어?"와 같은 질문을 통해 모델이 이전에 놓친 내용을 다시 검토하도록 유도. <br>
이 방법은 모델이 보다 포괄적이고 완전한 답변을 제공하도록 함. <br>

<br>

> ```python
> system_prompt=f'''
> 제공된 세 개의 따옴표로 구분된 문서를 사용하여 다음 질문과 관련된 발췌를 선택: "인공지능 역사에서 발생한 중요한 패러다임 전환은 무엇인가?"
> 
> 발췌에는 해석에 필요한 모든 관련 문맥이 포함되어야 해. 즉, 중요한 문맥이 누락된 문장은 추출하지 않아야 해. 
> 출력 형식은 아래와 같아:
> 
> [{"excerpt": "..."},
> ...
> {"excerpt": "..."}]
> '''
>
> [
>     {
>         "role": "system",
>         "content": f"{system_prompt}"
>     },
>     {
>         "role": "user",
>         "content": f"""{documents}"""
>     },
> ]
> ```

<br>

이에 대한 응답이 발생하면 아래와 같이 입력

<br>

> ```python
> [
>     {
>         "role": "user",
>         "content": f"더 관련 있는 발췌가 있어? 기존의 것과 반복되지 않도록 주의해야 해. 또한, 발췌가 해석하는 데 필요한 모든 관련 문맥을 포함하도록 해줘. 즉, 중요한 문맥이 누락된 작은 조각을 추출하지 않도록 해줘"
>     },
> ]
> '''



In [32]:
prompt = '''
1. 사업의 개요

당사는 본사를 거점으로 한국과 DX 부문 산하 해외 9개 지역총괄 및 DS 부문 산하 해외 5개 지역총괄의 생산ㆍ판매법인, SDC 및 Harman 산하 종속기업 등 232개의 종속기업으로 구성된 글로벌 전자 기업입니다.
사업별로 보면, Set 사업은 DX(Device eXperience) 부문이 TV를 비롯하여 모니터, 냉장고, 세탁기, 에어컨, 스마트폰, 네트워크시스템, 컴퓨터 등을 생산ㆍ판매하며, 부품 사업은 DS(Device Solutions) 부문에서 DRAM, NAND Flash, 모바일AP 등의 제품을 생산ㆍ판매하고,  SDC가 스마트폰용 OLED  패널 등을 생산ㆍ판매하고 있습니다. 또한, Harman에서는 디지털 콕핏(Digital Cockpit), 카오디오 등 전장제품과 포터블/사운드바 스피커 등 소비자오디오 제품 등을 생산ㆍ판매하고 있습니다. 당사는 2021년 12월 조직개편을 통해 기존의 CE 부문과 IM 부문을 DX 부문으로 통합하였으며, 무선사업부의 명칭을 MX(Mobile eXperience) 사업부로 변경하였습니다. 또한 내부 조직체계에 맞추어 SDC를 DS 부문과 별도로 구분하였습니다. ☞ 부문별 사업에 관한 자세한 사항은 '7. 기타 참고사항'의 '다. 사업부문별 현황'과    '라. 사업부문별 요약 재무 현황' 항목을 참고하시기 바랍니다.
지역별로 보면, 국내에서는 DX 부문 및 DS 부문 등을 총괄하는 본사와 35개의 종속기업이 사업을 운영하고 있습니다. 본사는 수원, 구미, 광주, 기흥, 화성, 평택사업장 등으로 구성되어 있으며, 국내 종속기업은 디스플레이 패널을 생산하는 삼성디스플레이㈜와 국내 대리점 판매를 전담하는 삼성전자판매㈜, 제품 수리 서비스를 담당하는 삼성전자서비스㈜, 제품 운송을 담당하는 삼성전자로지텍㈜ 등 비상장 종속기업들로 구성되어 있습니다.

해외(미주, 유럽ㆍCIS, 중동ㆍ아프리카, 아시아 등지)에서는 생산, 판매, 연구활동 등을 담당하는 197개의 비상장 종속기업이 운영되고 있습니다. 미주에는 TV, 스마트폰 등 Set 제품의 미국 판매를 담당하는 SEA(New Jersey, USA), TV 생산을 담당하는 SII(California, USA), 반도체ㆍ디스플레이 패널 판매를 담당하는 SSI(California, USA), 반도체 생산을 담당하는 SAS(Texas, USA), Set 제품 복합 생산법인 SEDA(Brazil), 전장부품사업 등을 담당하는 Harman(Connecticut, USA) 등을 포함하여 총 47개의 판매ㆍ생산 등을 담당하는 법인이 있습니다.
유럽ㆍCIS에는 SEUK(UK), SEG(Germany), SEF(France), SEI(Italy), SERC(Russia)등 Set 제품 판매법인과 SEH(Hungary), SERK(Russia) 등 TV 생산법인, 가전제품 생산법인 SEPM(Poland) 등을 포함하여 총 68개의 법인이 운영되고 있습니다. 중동ㆍ아프리카에는 SGE(UAE), SSA(South Africa) 등 Set 제품 판매법인과 SEEG (Egypt), SSAP(South Africa) 등 TV 생산법인을 포함한 총 20개 법인이 운영되고 있습니다. 아시아(중국 제외)에는 SESP(Singapore), SEAU(Australia), SEPCO(Philippines),  SME(Malaysia) 등 판매법인과 스마트폰 등 생산법인 SEVㆍSEVT(Vietnam), TV 등 생산법인 SEHC(Vietnam), 디스플레이 패널 생산법인 SDV(Vietnam), 복합 생산법인 SIEL(India) 등을 포함한 총 32개의 법인이 운영되고 있습니다. 중국에는 SCIC(Beijing), SEHK(Hong Kong) 등 Set 제품 판매법인과 SSS(Shanghai), SSCX(Xian) 등 반도체ㆍ디스플레이 패널 판매법인, SSEC(Suzhou) 등 Set 제품 생산법인, SCS(Xian) 등 반도체 생산법인을 포함하여 총 30개의 법인이 운영되고 있습니다.
2023년 당사의 매출은 258조 9,355억원으로 전년 대비 14.3% 감소하였으며, 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등(알파벳순)이 있습니다.

## 재무제표의 사업의 개요를 요약해줄래?
'''

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 재무제표를 받아 정리해주는 봇이야.',
        },
        {
            'role': 'user',
            'content': prompt,
        }
    ],
)

summary = completion.choices[0].message.content

completion = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {
            'role': 'system',
            'content': '너는 재무제표를 받아 정리해주는 봇이야.',
        },
        {
            'role': 'user',
            'content': prompt,
        },
        {
            'role': 'assistant',
            'content': summary,
        },
        {
            'role': 'user',
            'content': "너가 제시한 요약본에서 뭔가 놓친 부분이 있을까? 다시 확인해볼래?",
        }
    ],
)

print(completion.choices[0].message.content)

확인해본 결과, 제공한 요약본에서 놓친 세부사항이 몇 가지 있었습니다. 다음은 보완된 요약입니다:

### 보완된 요약

- **회사 개요**: 
  당사는 본사를 거점으로 한국과 DX 부문 산하 해외 9개 지역총괄 및 DS 부문 산하 해외 5개 지역총괄, 총 232개의 종속기업으로 구성된 글로벌 전자 기업입니다. 

- **사업 부문**:
  - **DX 부문 (Device eXperience)**: TV, 모니터, 냉장고, 세탁기, 에어컨, 스마트폰, 네트워크 시스템, 컴퓨터 등을 포함한 Set 사업. 
  - **DS 부문 (Device Solutions)**: DRAM, NAND Flash, 모바일 AP 등의 부품 사업. 
  - **SDC (Samsung Display)**: 스마트폰용 OLED 패널 생산 및 판매.
  - **Harman**: 디지털 콕핏(Digital Cockpit), 카오디오 등 전장 제품과 포터블/사운드바 스피커 등 소비자 오디오 제품 생산.

- **조직 개편**: 
  2021년 12월 기존 CE 부문과 IM 부문을 통합하여 DX 부문으로 재편성하였으며, 무선사업부의 명칭을 MX (Mobile eXperience) 사업부로 변경. SDC는 DS 부문과 별도로 구분됨.

- **지역별 운영**:
  - **국내**: 본사와 35개 종속기업 운영 (예: 삼성디스플레이, 삼성전자판매, 삼성전자서비스, 삼성전자로지텍).
  - **해외**: 미주(47개), 유럽·CIS(68개), 중동·아프리카(20개), 아시아(32개), 중국(30개) 등 총 197개의 비상장 종속기업 운영.

- **2023년 재무 성과**: 
  매출은 258조 9,355억원으로 전년 대비 14.3% 감소. 주요 매출처로는 Apple, Best Buy, Deutsche Telekom, Qualcomm, Verizon 등이 존재.

이 요약에서 빠진 소속 기업의 구체적 역할 및 위치, 해외 지역별 기업의 수와 기능, 매출 감소율에 대한 언급 등을 포함하여 보완했습

### Fine-tuning

prompt engineering과 다르게 모델 weight를 직접 수정하는 작업. <br>
특정 도메인에 대해서 더 정확한 결과를 얻고자 할 때 사용. <br>
다만, prompt engineering을 통하여 최대한 원하는 결과물이 나올 때까지 시도하는 것이 우선. <br>
engineering 이후에도 결과물이 안 나올 시 진행. <br>

<br>

<font style="font-size:18px"> 장점 </font> <br>
- prompt보다 더 높은 품질의 결과
- prompt에 담길 수 있는 예제보다 더 많은 예제로 훈련 가능
- 더 짧은 프롬프트로 인한 토큰 절약
- 요청 지연 시간 단축

<br>

<font style="font-size:18px"> 사용 사례 </font> <br>

- 스타일, 톤, 형식 또는 기타 질적 측면 설정
- 원하는 출력을 생산하는 신뢰성 향상
- 복잡한 프롬프트를 따르지 못한 경우 수정
- 특정 방식으로 많은 엣지 케이스 처리
- 프롬프트로 설명하기 어려운 새로운 기술이나 작업 수행


<br>

<font style="font-size:18px"> Fine-tuning model list </font> <br>
- gpt-4o-2024-08-06
- gpt-4o-mini-2024-07-18
- gpt-4-0613
- gpt-3.5-turbo-0125
- gpt-3.5-turbo-1106
- gpt-3.5-turbo-0613

#### Dataset

파인튜닝 전에 모델에 가장 효과적이었던 지침과 프롬프트 세트를 모든 훈련 예제에 포함할 것을 권장. <br>
-> train sample이 적은 경우에도 최상의 일반적인 결과를 얻을 수 있음. <br>
최소 10개의 data가 필요하나, 50~100개의 샘플에서 뚜렷한 성능 향상을 확인 가능. <br>
모델 학습을 위해서 chat API와 동일한 형태의 셋을 구성해야 함. <br>

<br>

> ```python
> {
>     "messages": [
>         {
>             "role": "system",
>             "content": "Marv is a factual chatbot that is also sarcastic."
>         }, 
>         {
>             "role": "user",
>             "content": "What's the capital of France?"
>         },
>         {
>             "role": "assistant",
>             "content": "Paris, as if everyone doesn't know that already."
>         }
>     ]
> }
> {
>     "messages": [
>         {
>             "role": "system",
>             "content": "Marv is a factual chatbot that is also sarcastic."
>         },
>         {
>             "role": "user",
>             "content": "Who wrote 'Romeo and Juliet'?"
>         },
>         {
>             "role": "assistant",
>             "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"
>         }
>     ]
> }
> {
>     "messages": [
>         {
>             "role": "system",
>             "content": "Marv is a factual chatbot that is also sarcastic."
>         },
>         {
>             "role": "user",
>             "content": "How far is the Moon from Earth?"
>         },
>         {
>             "role": "assistant",
>             "content": "Around 384,400 kilometers. Give or take a few, like that really matters."
>         }
>     ]
> }
> ```

In [6]:
data.processed_overview

0       1. 회사의 개요 가. 연결대상 종속회사 현황 (단위 : 사) 구분 연결대상회사수...
1       1. 회사의 개요 가. 연결대상 종속회사 개황 (연결재무제표를 작성하는 주권상장법...
2       1. 회사의 개요 1. 연결대상 종속회사 개황(연결재무제표를 작성하는 주권상장법인...
3       1. 회사의 개요 가. 연결대상 종속회사 현황(요약) (단위 : 사) 구분 연결대...
4       1. 회사의 개요 가. 연결대상 종속회사 개황1. 연결대상 종속회사 개황(연결재무...
                             ...                        
195     1. 회사의 개요 가. 연결대상 종속회사 개황 (1) 연결대상 종속회사 현황(요약...
196     1. 회사의 개요 (1) 연결대상 종속회사 개황연결대상 종속회사 현황(요약) (단...
197     1. 회사의 개요 가. 연결대상 종속회사 개황(1) 연결대상 종속회사 현황(요약)...
198     1. 회사의 개요 가. 연결대상 종속회사 개황(연결재무제표를 작성하는 주권상장법인...
199     1. 회사의 개요 지배회사인 고려아연㈜의 연결대상 종속회사는 31개사이며, 사업부...
Name: processed_overview, Length: 200, dtype: object

In [12]:
list(data.itertuples())[:2]

[Pandas(Index=0, corp_code='01510489', corp_name='프레스티지바이오파마', stock_code='950210', corp_cls='Y', report_nm='분기보고서 (2022.03)', rcept_no='20220530001024', flr_nm='프레스티지바이오파마', rcept_dt='20220530', rm='', modified_report_nm='분기보고서 (2022.03)', dates='2022.03', _12='<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\r\n<HTML style=\'border:0\'>\r\n<HEAD>\r\n<TITLE></TITLE>\r\n<meta http-equiv="X-UA-Compatible" content="ie=edge" >\r\n<meta http-equiv="X-UA-TextLayoutMetrics" content="gdi" >\r\n<META http-equiv="Content-Type" content="text/html; charset=utf-8">\r\n<link rel="stylesheet" type="text/css" href="/css/report_xml.css">\r\n</HEAD>\r\n<BODY bgcolor="#FFFFFF">\r\n<P><BR/></P>\r\n<P class=\'section-2\'><A name=\'toc1\'>1. 회사의 개요</A></P>\r\n<P><BR/></P>\r\n<P><SPAN style=\'font-weight:bold;\'>가. 연결대상 종</SPAN><SPAN style=\'font-weight:bold;\'>속회사 현</SPAN><SPAN style=\'font-weight:bold;\'>황</SPAN><BR/>\r\n</P>\r\n<TABLE class=\'nb\' wid

In [48]:
def template(x: str, y: str):
    return {
        "messages": [
            {
                "role": "system",
                "content": "재무제표의 회사의 개요를 입력받는다. 입력받은 개요를 통해 회사의 이름을 추정하라."
            },
            {
                "role": "user",
                "content": x
            },
            {
                "role": "assistant",
                "content": y
            },
        ]
    }

data.columns = data.columns.str.replace(' ', '_')
training_data = [template(row.사업의_개요, row.corp_name) for row in data.itertuples()]

with open('./data/training_data.jsonl', 'w') as file:
    for training_datum in training_data:
        file.write(json.dumps(training_datum, ensure_ascii=False) + '\n')

#### Upload dataset

생성한 dataset을 upload

> ```python
> API_KEY = ''
> client = OpenAI(api_key=API_KEY)
> 
> client.files.create(
>     file=open('./filename.jsonl', 'rb'),
>     purpose='fine-tune',
> )
> ```

In [49]:
client.files.create(
    file=open('./data/training_data.jsonl', 'rb'),
    purpose='fine-tune',
)

FileObject(id='file-VOYPZkQE2BLYt0tknaPQmDPU', bytes=2494997, created_at=1729233983, filename='training_data.jsonl', object='file', purpose='fine-tune', status='processed', status_details=None)

#### fine-tuning

아래의 커맨드를 통해 fine-tuning 진행. <br>
file_name은 upload한 file_name 사용. <br>

<br>

> ```python
> API_KEY = ''
> client = OpenAI(api_key=API_KEY)
> 
> client.fine_tuning.jobs.create(
>   training_file="file_name",
>   model="gpt-4o-mini-2024-07-18"
> )
> ```

<br>

아래의 커맨드로 fine tuning에 관한 내용 확인 가능

<br>

> ```python
> # List 10 fine-tuning jobs
> client.fine_tuning.jobs.list(limit=10)
> 
> # Retrieve the state of a fine-tune
> client.fine_tuning.jobs.retrieve("id")
> 
> # Cancel a job
> client.fine_tuning.jobs.cancel("id")
> 
> # List up to 10 events from a fine-tuning job
> client.fine_tuning.jobs.list_events(fine_tuning_job_id="id", limit=10)
> 
> # Delete a fine-tuned model (must be an owner of the org the model was created in)
> client.models.delete("id")
> ```

In [50]:
client.fine_tuning.jobs.create(
    training_file='file-VOYPZkQE2BLYt0tknaPQmDPU',
    model='gpt-4o-mini-2024-07-18',
)

FineTuningJob(id='ftjob-69AKstAzzvekvFDX8ipFb1mU', created_at=1729234000, error=Error(code=None, message=None, param=None), fine_tuned_model=None, finished_at=None, hyperparameters=Hyperparameters(n_epochs='auto', batch_size='auto', learning_rate_multiplier='auto'), model='gpt-4o-mini-2024-07-18', object='fine_tuning.job', organization_id='org-f3SxUnMe6qUfsrBSbfr62DsH', result_files=[], seed=12710647, status='validating_files', trained_tokens=None, training_file='file-VOYPZkQE2BLYt0tknaPQmDPU', validation_file=None, estimated_finish=None, integrations=[], user_provided_suffix=None)

In [None]:
client.fine_tuning.jobs.list().data[:3]

In [None]:
## data의 상위 20개 종목의 회사의 개요 내  
# 주요 상품을 target으로 만들고 fine-tuning
# (직접 찾아야 함)

In [56]:
def summarize(text: str, model: str = 'gpt-4o-mini'): 
    completion = client.chat.completions.create(
        model=model,
        messages=[
            {
                'role': 'system',
                'content': '''
                기업 공시 중 회사의 개요에 관한 사항이 주어진다.
                주어진 내용에서 주요 사업의 내용을 요약하여 제시하라.

                특히나 반드시 제거해야 하는 항목은 아래와 같으며 요약에서 반드시 제거해야 한다.
                - 설립일자, 창립연도
                - 회사의 법적, 상업적 명칭
                - 본사의 주소, 전화번호 및 홈페이지
                - 연결대상 종속회사 현황(요약)
                - 중소기업 해당 여부
                - 신용평가에 관한 사항
                - 주권상장 여부 및 특례상장에 관한 사항
                - 매출액에 관한 사항

                요약 시 아래와 같은 문구는 제거해줘
                - 회사 주요 사업 요약:\n
                - 회사의 주요 사업은 다음과 같습니다:\n\n
                - 회사의 주요 사업은 다음과 같습니다: \n\n
                '''
            },
            {
                'role': 'user',
                'content': text,
            }
        ]
    )

    return completion.choices[0].message.content

In [57]:
temp = data.iloc[:20]
temp['summarize'] = temp.processed_overview.apply(lambda x: summarize(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  temp['summarize'] = temp.processed_overview.apply(lambda x: summarize(x))


In [64]:
temp.iloc[2]

corp_code                                                      00146542
corp_name                                                          일정실업
stock_code                                                       008500
corp_cls                                                              Y
report_nm                                               분기보고서 (2022.03)
rcept_no                                                 20220516002727
flr_nm                                                             일정실업
rcept_dt                                                       20220516
rm                                                                     
modified_report_nm                                      분기보고서 (2022.03)
dates                                                           2022.03
회사의_개요                <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 T...
사업의_개요                <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 T...
processed_overview     1. 회사의 개요 1. 연결대상 종속회사 개황(연결재무제표를 작성하는 주권

In [75]:
products = [
    "['바이오시밀러']",
    "['역외지주회사']",
    "['']",
    "['콘크리트 파일의 생산 및 판매', '철구조물 제작 설치']",
    "['출판 및 교육서비스']",
    "['']",
    "['유통서비스', '구매대행', '재활용 중간처리', '마스크 제조', '초소형 플래시 렌즈']",
    "['공기압축기']",
    "['밀폐용기', '주방생활용품']",
    "['화장품', '생활용품', '화장품 유통판매업', '인터넷상거래업']"
]

In [79]:
temp = temp.iloc[:10]
temp['products'] = products

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  temp['products'] = products


In [83]:
def template(x: str, y: str):
    return {
        "messages": [
            {
                "role": "system",
                "content": """재무제표의 회사의 개요를 입력받는다.
                입력받은 개요를 통해 회사의 주요 상품을 요약하라.
                """
            },
            {
                "role": "user",
                "content": x
            },
            {
                "role": "assistant",
                "content": y
            },
        ]
    }

temp.columns = temp.columns.str.replace(' ', '_')
training_data = [template(row.processed_overview, row.products) for row in temp.itertuples()]

with open('./data/training_data.jsonl', 'w') as file:
    for training_datum in training_data:
        file.write(json.dumps(training_datum, ensure_ascii=False) + '\n')

In [84]:
client.files.create(
    file=open('./data/training_data.jsonl', 'rb'),
    purpose='fine-tune',
)

FileObject(id='file-2uh4iViUqGvCAjuWTRY2RWmO', bytes=32668, created_at=1729239362, filename='training_data.jsonl', object='file', purpose='fine-tune', status='processed', status_details=None)

In [None]:
client.fine_tuning.jobs.create(
    training_file='file-2uh4iViUqGvCAjuWTRY2RWmO',
    model='gpt-4o-mini-2024-07-18',
)

In [None]:
client.fine_tuning.jobs.list().data[:3]

#### Use a fine-tuned model

학습이 완료되면 id를 통해 해당 모델 사용 가능

<br>

> ```python
> completion = client.chat.completions.create(
>   model="ft:gpt-4o-mini:my-org:custom_suffix:id",
>   messages=[
>     {
>         "role": "system",
>         "content": "You are a helpful assistant.",
>     },
>     {
>         "role": "user",
>         "content": "Hello!",
>     }
>   ]
> )
> ```

In [92]:
def summarize(text: str, model: str = 'ft:gpt-4o-mini-2024-07-18:personal::AJcbKisk'): 
    completion = client.chat.completions.create(
        model=model,
        messages=[
            {
                'role': 'system',
                'content': '''
                재무제표의 회사의 개요를 입력받는다.
                입력받은 개요를 통해 회사의 주요 상품을 요약하라. 
                '''
            },
            {
                'role': 'user',
                'content': text,
            }
        ]
    )

    return completion.choices[0].message.content

In [95]:
data['products'] = data.processed_overview.apply(lambda x: summarize(x))

In [96]:
data['products']

0                              ['바이오시밀러']
1                              ['역외지주회사']
2                                    ['']
3      ['콘크리트 파일의 생산 및 판매', '철구조물 제작 설치']
4                          ['출판 및 교육서비스']
                      ...                
195                               ['모회사']
196                        ['면ㆍ방직', '염색']
197                ['양산빵', '디저트', '샌드위치']
198                              ['전자제품']
199                              ['비철금속']
Name: products, Length: 200, dtype: object