prompt
```
  LLM에 전달되는 입력(질문,지시,문맥), 모델이 원하는 출력을 생성하도록 유도  
```
GPT(Generative Pre-trained Transformer)
```
  입력텍스트를 토큰을 분리 각 토큰에 대해 다음 토큰의 확률분포를 예측
  ex) 하늘은  "파랗다"(0.4) "맑다"(0.3),,
```
파라메터
```
  Temperature : 출력의 창의성/무작위성 조절
    낮은값(0.2) : 결정적이고 일관된 출력  ex 하늘은 파랗다
    높은값(0.9) : 창의적이고 다양한 출력  ex) 하늘은 꿈의 캠퍼스다
  Top-p(Nucleus Sampling) : 상위 p% 토큰을 고려
    0.1 : 상위10% 확률의 토큰만 고려 -> 보수적
    0.9 : 더많은 토큰을 고려 -> 다양
  Top-k : 상위 k개의 토큰만 고려... 일반적으로 Top-p가 대세적
  MaxTokens
```

In [1]:
prompts = [
    "미래 도시를 짧게 묘사해줘",
    "하늘이 파란 이유를 한 문장으로 설명해줘"
]

In [1]:
import openai

class Chatgpt:
    def __init__(self, api_key: str, model_name: str = "gpt-3.5-turbo"):
        self.messages = []
        self.model_name = model_name
        self.client = openai.OpenAI(api_key=api_key)

    def system_prompt(self, prompt: str):
        self.messages.append({"role": "system", "content": prompt})

    def chatsession(self, prompt: str, temperature: float = 0.0, max_tokens: int = 1000, top_p: float = 1.0):
        self.messages.append({"role": "user", "content": prompt})

        response = self.client.chat.completions.create(
            model=self.model_name,
            messages=self.messages,
            temperature=temperature,
            max_tokens=max_tokens,
            top_p=top_p
        )

        assistant_reply = response.choices[0].message.content
        self.messages.append({"role": "assistant", "content": assistant_reply})
        return assistant_reply

    def get_chat_history(self):
        return self.messages

    def reset_chat(self):
        self.messages = []

In [None]:
api_key = 'your_api_key'

In [3]:
client = Chatgpt(api_key=api_key)

In [9]:
prompts = [
    "미래 도시를 짧게 묘사해줘",
    "하늘이 파란 이유를 한 문장으로 설명해줘"
]
client.reset_chat()
for idx, prompt in enumerate(prompts):
  print(f'{idx+1}) {client.chatsession(prompt)}')

1) 미래 도시는 높은 첨탑과 혁신적인 기술로 가득한 도시로, 자율 주행 차량이 도로를 지배하고 고층 건물 사이를 오가는 드론들이 떠다니는 모습이 보인다. 또한 인공지능이 모든 가정과 회사에서 일상적으로 사용되며, 친환경적인 재생 에너지 시스템이 도시 전체를 이끌어가고 있다.
2) 하늘이 파란 이유는 태양 빛이 대기 중의 공기 분자들과 상호 작용하여 블루 스카이 효과를 만들어내기 때문이다.


네이버 지식인에 질문을 prompt로 해서 실행
  - 네이버 지식인 크롤링

In [4]:
import requests
from bs4 import BeautifulSoup

In [5]:
# 네이버 지식인 크롤링
def crawl_naver_kin(question,limit=3):
  url = "https://kin.naver.com/search/list.naver?query=" + question
  response = requests.get(url)
  html = response.text
  soup = BeautifulSoup(html, 'html.parser')
  questions = []
  for item in soup.select('#s_content > div.section > ul > li > dl > dt > a')[:limit]:
    questions.append(item.text)
  return questions

In [26]:
client.reset_chat()
for idx, prompt in enumerate(crawl_naver_kin("직장인 점심메뉴")):
  print(f'{idx+1}) {client.chatsession(prompt)}')

1) 1. 다양한 종류의 샐러드: 샐러드에는 다양한 식재료를 활용하여 매일매일 새로운 맛을 즐길 수 있습니다. 시즌별 식재료를 활용하여 색다른 맛을 느껴보세요.

2. 차별화된 샌드위치: 샌드위치에는 다양한 재료를 활용하여 맛과 영양을 동시에 챙길 수 있습니다. 예를 들어, 아보카도와 토마토를 넣은 샌드위치나 닭가슴살과 야채를 넣은 샌드위치 등을 시도해보세요.

3. 국물 요리: 국물 요리는 포만감을 느끼면서도 건강한 식사를 할 수 있는 메뉴입니다. 다양한 국물 요리를 시도하여 맛과 영양을 동시에 챙겨보세요.

4. 다양한 종류의 덮밥: 덮밥은 밥 위에 다양한 재료를 올려 먹는 메뉴로, 다양한 종류의 덮밥을 시도하여 매일매일 새로운 맛을 즐길 수 있습니다.

5. 가벼운 요리: 가벼운 요리는 점심 후 졸음을 방지하고 소화를 돕는데 도움이 됩니다. 가벼운 요리를 선택하여 질리지 않게 맛있게 식사하세요.
2) 일반적으로 다양한 직장인들이 점심으로 즐기는 메뉴는 다음과 같습니다:

1. 샐러드: 가벼우면서도 영양가가 높은 샐러드는 다이어트나 건강식으로 인기가 많습니다.

2. 샌드위치: 간편하게 챙겨먹을 수 있는 샌드위치는 다양한 재료를 활용하여 맛을 즐길 수 있어 인기가 많습니다.

3. 국물 요리: 국물 요리는 포만감을 느끼면서도 건강한 식사를 할 수 있는 메뉴로, 다양한 종류의 국물 요리가 인기가 있습니다.

4. 덮밥: 밥 위에 다양한 재료를 올려 먹는 덮밥은 포만감을 느끼면서도 맛을 즐길 수 있는 메뉴로 인기가 있습니다.

5. 중식 또는 일식: 직장인들이 자주 선택하는 중식이나 일식 레스토랑에서 다양한 요리를 즐기는 경우도 많습니다.

이외에도 다양한 메뉴를 즐기는 직장인들이 많으니, 다양한 옵션을 고려하여 맛있는 점심을 즐기시면 좋을 것 같습니다.
3) 직장인들 사이에서 가장 인기 있는 점심 메뉴 중 하나는 샐러드입니다. 샐러드는 가볍고 건강하면서도 영양가가 높아 다이어트나 건강식으로 인기가 많습니다. 또한, 다양한 식재료를 활용하여 매일매일 새로운 맛

Zero-Shot
```
모델한테 예시없이(학습) 작업을 수행
프롬프트만으로 작업을 수행하도록 모델에 지시
적합한 상황
  감정분석 : 긍정/부정/중립
  카테고리분류 : 뉴스기사등...(정치,경제..)
```

In [32]:
# 감정분류용 리뷰
reviews = [
    '이 제품은 정말 훌륭합니다. 적극 추천합니다.',
    '배송이 너무 느리고 품질도 별로에요',
    '가격대비 괜찮은 제품인거 같습니다',
]
# 카테고리 분류용 뉴스 헤드라인
headlines = [
    '국가안보실, 북 미사일 대응 안보상황 점검회의',
    'DL이앤씨, 울릉공항 건설 위한 마지막 케이슨 설치 완료',
    "수도권 전세사기로 '88억 원' 가로챈 일당 송치",
]

In [34]:
# zero-shot 감정분석
for review in reviews:
  sentiment_prompt = f'''
    다음 리뷰의 감정을 긍정 부정 중립으로 분류해줘:
    리뷰 : {review}
    감정 :
  '''
  result = client.chatsession(sentiment_prompt)
  print(f"review : {review}, sentiment : {result}")

review : 이 제품은 정말 훌륭합니다. 적극 추천합니다., sentiment : 감정: 긍정
review : 배송이 너무 느리고 품질도 별로에요, sentiment : 감정: 부정
review : 가격대비 괜찮은 제품인거 같습니다, sentiment : 감정: 중립


In [35]:
# zero-shot 감정분석
for headline in headlines:
  sentiment_prompt = f'''
    다음 뉴스 헤드라인의 카테고리를 제목을 정치 경제 사회로 분류해줘:
    헤드라인 : {headline}
    카테고리 :
  '''
  result = client.chatsession(sentiment_prompt)
  print(f"headline : {headline}, sentiment : {result}")

headline : 국가안보실, 북 미사일 대응 안보상황 점검회의, sentiment : 카테고리: 정치
headline : DL이앤씨, 울릉공항 건설 위한 마지막 케이슨 설치 완료, sentiment : 카테고리: 경제
headline : 수도권 전세사기로 '88억 원' 가로챈 일당 송치, sentiment : 카테고리: 사회


In [6]:
# 네이버 뉴스 헤드라 크롤링
def crawl_naver_kin(limit=3):  # cnf_news_title
  url = "https://news.naver.com/"
  response = requests.get(url)
  html = response.text
  soup = BeautifulSoup(html, 'html.parser')
  headlines = []
  for item in soup.find_all('strong', class_='cnf_news_title')[:limit]:
    headlines.append(item.text)
  return headlines

In [39]:
crawl_naver_kin(10)

['"美·中과 경쟁 무의미"…새 정부, 제조·인재·거버넌스로 AI 패권 도전해야',
 '김문수 ‘경주 회군’의 전말, 그리고 엇갈리는 민심',
 '깐깐한 장비 검사…생고생 했는데 더 뛰고 싶다! [제5회 장수트레일레이스 20K 참가기]',
 '與지도부, 김문수 제안 듣더니…“정말 한심” “날 밟고 가라”',
 '김문수 "당, 강제단일화 손 떼라…일주일 뒤 토론·여론조사하자"',
 '\'공직선거법 위반\' 정동영 항소심.. 검찰 "이재명 판례 적용해선 안 돼"',
 '김문수 "지도부, 한덕수와 강제 단일화 손 떼라"',
 '김문수 “당무 우선권 발동…다음주 여론조사 후 단일화 제안”',
 '[속보]권성동 “김문수, 알량한 후보자리 지키려 회견…한심”',
 '김문수 "지도부, 한덕수와 강제단일화 손 떼라"…11일 전 단일화 일축']

In [44]:
# zero-shot 감정분석
for news in crawl_naver_kin(10):
  sentiment_prompt = f'''
    다음 뉴스 헤드라인의 카테고리를 분류해줘:
    헤드라인 : {news}
    카테고리 :
  '''
  result = client.chatsession(sentiment_prompt)
  print(f"news : {news}, sentiment : {result}")

news : [속보]한덕수 “단일화 반드시 필요…김문수와 오후 4시 재논의”, sentiment : 카테고리: 정치
news : Korean Ph.D. graduates head overseas on promise of all-round better conditions, sentiment : 카테고리: 교육/학문
news : [현장영상+] 이재명 "우리 경제 어려워...가장 중요한 일은 민생을 살리는 것", sentiment : 카테고리: 정치
news : 김문수 “당 지도부, 단일화 작업 손 떼라”… ‘11일 전 단일화’ 사실상 거부, sentiment : 카테고리: 정치
news : [속보]한덕수 "김문수와 회동 응하기 위해 서울로 이동", sentiment : 카테고리: 정치
news : 경북 산불로 꿀벌 3억2000만마리 사라져…양봉 피해 ‘눈덩이’, sentiment : 카테고리: 사회
news : 이재명 "기초연금 부부감액 줄이고…간병파산 걱정 덜 것", sentiment : 카테고리: 정치
news : 김문수 “지도부, 강압적 단일화 손 떼라···일주일 뒤 토론·여론조사하자”, sentiment : 카테고리: 정치
news : "내년 봄엔 일본 여행 피해라"…난리난 이유, sentiment : 카테고리: 사회
news : 김문수 압박 수위↑…권영세 "토론 못해도 단일화 조사 예정대로", sentiment : 카테고리: 정치


one-shot
```
  하나의 예시(입력과 출력쌍)
  제로샷보다는 더 명호가한 가이드 제공,성능 향상
  단점 : 예시선택이 결과에 큰 영향, 부적절한 예시는 성능 저하
  명확하고 대표적이여야함
  프롬프트 : 예시입력->예시출력->실제입력->출력요청
  샘플예시기준
    대표성 : 일반적인 사례를 포함(감성분석 : 강한긍정/부정)
    명확성 : 모호하지않은 예시(좋아요 보다는 정말 훌륭한
    일관성 : 실제입력과 유사한 형식과 도메인
```

In [47]:
  # zero-shot
  #  f'''
  #   다음 리뷰의 감정을 긍정 부정 중립으로 분류해줘:
  #   리뷰 : {review}
  #   감정 :
  # '''

  # one-shot
  for review in reviews:
    one_shot_sentiment_prompt =f'''
    다음 리뷰의 감정을 긍정 부정 중립으로 분류해줘:

    예시:
    리뷰 : "정말 훌륭한 제품입니다"
    감정 : 긍정

    리뷰 : "{review}"
    감정 :
  '''
    result = client.chatsession(one_shot_sentiment_prompt,temperature=0.2)
    print(f"review : {review}, sentiment : {result}")

review : 이 제품은 정말 훌륭합니다. 적극 추천합니다., sentiment : 리뷰: "정말 훌륭한 제품입니다"
감정: 긍정

리뷰: "이 제품은 정말 훌륭합니다. 적극 추천합니다."
감정: 긍정
review : 배송이 너무 느리고 품질도 별로에요, sentiment : 리뷰: "배송이 너무 느리고 품질도 별로에요"
감정: 부정
review : 가격대비 괜찮은 제품인거 같습니다, sentiment : 리뷰: "가격대비 괜찮은 제품인거 같습니다"
감정: 중립


In [56]:
  for headline in crawl_naver_kin(10):
    one_shot_sentiment_prompt =f'''
    다음 뉴스 헤드라인의 카테고리를 분류해줘:

    예시:
    헤드라인 : "[속보]한덕수 “단일화 반드시 필요…김문수와 오후 4시 재논의"
    카테고리 : 정치

    헤드라인 : "{headline}"
    카테고리 :
  '''
    result = client.chatsession(one_shot_sentiment_prompt,temperature=0.2)
    print(f"headline : {headline}, sentiment : {result}")

headline : [속보] 한덕수 “단일화 약속 지키라 할 것…오후 4시에 김문수와 다시 회동”, sentiment : 헤드라인: "[속보] 한덕수 “단일화 약속 지키라 할 것…오후 4시에 김문수와 다시 회동”"
카테고리: 정치
headline : 김문수 "지도부, 한덕수와 강제단일화 손 떼라"…11일 전 단일화 일축, sentiment : 헤드라인: "김문수 "지도부, 한덕수와 강제단일화 손 떼라"…11일 전 단일화 일축"
카테고리: 정치
headline : 트럼프 "큰 국가와 첫번째 무역 합의"…8일 발표 예고, sentiment : 헤드라인: "트럼프 "큰 국가와 첫번째 무역 합의"…8일 발표 예고"
카테고리: 정치
headline : 타이어뱅크 돈으로 에어프레미아 인수? 편법 승계 논란 왜 [넘버스], sentiment : 헤드라인: "타이어뱅크 돈으로 에어프레미아 인수? 편법 승계 논란 왜 [넘버스]"
카테고리: 경제
headline : 김문수 “‘무소속 유령’과 단일화가 민주주의냐”…국힘 지도부 맹비난, sentiment : 헤드라인: "김문수 “‘무소속 유령’과 단일화가 민주주의냐”…국힘 지도부 맹비난"
카테고리: 정치
headline : 거울 보듯 30초 쳐다만 봤는데 혈압·체온 등 건강 정보가 좍…, sentiment : 헤드라인: "거울 보듯 30초 쳐다만 봤는데 혈압·체온 등 건강 정보가 좍…"
카테고리: 건강/의학
headline : Korean Ph.D. graduates head overseas on promise of all-round better conditions, sentiment : 헤드라인: "Korean Ph.D. graduates head overseas on promise of all-round better conditions"
카테고리: 교육/학문
headline : 중도층은 조용히 지켜보고 있다[취재 후], sentiment : 헤드라인: "중도층은 조용히 지켜보고 있다[취재 후]"
카테고리: 사회
headline

few-show
```
예러개의 예시를 제공,복잡한 작업에 효과적(키워드 추출,논리적 추론)
토큰의효율성을 고려해서 3~5개로 제한
Chain-of-Thought와 결합전략
  CoT : 모델이 단계별로 사고과정을 설명하도록 유도
    ex 키워드추출: 핵심명사식별->일반단어제외->키워드 목록작성
    작업지시문에 "단계별로 설명하라" 추가
```

In [58]:
# few shot 감정 분석
few_shot_sentiment_prompt ='''
다음 리뷰의 감정을 긍정,부정, 또는 중립으로 분류해줘

예시1:
리뷰:"정말 훌륭한 제품입니다. 재 구매의사 있습니다."
감정:긍정

예시2:
리뷰:"품질이 너무 안좋아요, 실망했어요"
감정:부정

예시3:
리뷰:"보통이에요, 특별히 좋고 싫은점이 없습니다. 쓸만해요"
감정:중립

리뷰:"{}"
감정:
'''
for review in reviews:
  result = client.chatsession(few_shot_sentiment_prompt.format(review))
  print(f'review : {review}  sentiment : {result}')

review : 이 제품은 정말 훌륭합니다. 적극 추천합니다.  sentiment : 리뷰: "이 제품은 정말 훌륭합니다. 적극 추천합니다."
감정: 긍정
review : 배송이 너무 느리고 품질도 별로에요  sentiment : 리뷰: "배송이 너무 느리고 품질도 별로에요"
감정: 부정
review : 가격대비 괜찮은 제품인거 같습니다  sentiment : 리뷰: "가격대비 괜찮은 제품인거 같습니다"
감정: 긍정


In [59]:
# 키워드 추출문장
sentences = [
    '스마트폰은 강력한 프로세스와 긴 베터리 수명을 제공한다',
    '컨퍼런스는 AI, 클라우드 컴퓨팅, 사이버 보안을 논의했다'
]
# few-shot 키워드 추출 문장( CoT 포함)
few_shot_keyword_prompt = '''
다음 문장에서 주요  키워드를 추출해줘, 단계별 추론 과정을 설명한뒤 키워드를 추출해

예시1:
문장 : "자동차는 첨단 안전 기능과 뛰어난 연비를 제공한다"
추론:
1 핵심 명사 와 구체적 개념식별: 자동차, 안전 기능, 연비
2 일반 단어 제외 : 제공한다, 뛰어난
3 최종키워드 선택 : 자동차, 안전 기능, 연비

예시2:
문장 : "인공지능 기술은 다양한 산업 분야에서 활용되고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 인공지능 기술, 산업 분야
2 일반 단어 제외 : 다양한, 활용되고 있다
3 최종키워드 선택 : 인공지능 기술, 산업 분야

예시3:
문장 : "스마트폰은 사용자 경험을 향상시키기 위한 여러 기능을 탑재하고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 스마트폰, 사용자 경험, 기능
2 일반 단어 제외 : 향상시키기 위한, 여러, 탑재하고 있다
3 최종키워드 선택 : 스마트폰, 사용자 경험, 기능
'''

In [11]:
# 키워드 추출문장
sentences = '''
지난 4월 한 달 동안 미 증시에 투자하는 서학개미들은 '관세전쟁' 완화 기대감으로 반도체 관련 상장지수펀드(ETF)에 대한 관심이 많았으나 레버리지와 인버스 상품이 동시에 상위권에 오르는 등 여전히 전망이 엇갈렸으며, 대표적인 선호주인 테슬라는 하락을 멈춤에 따라 다시 매수 상위권에 오른 것으로 분석됐다.

이같은 내용은 카카오페이증권(대표 신호철)이 지난 4월 한 달간 자사 플랫폼을 통해 미국주식을 거래한 사용자들의 평균 수익률과 구매 금액 상위 종목을 분석한 결과다.

8일 카카오페이증권에 따르면, 지난 4월 한 달 동안 반도체 관련 상장지수펀드(ETF)에 대한 관심이 급증한 것으로 나타났다. 특히 레버리지와 인버스 상품이 나란히 상위권에 올라 반도체 업종을 둘러싼 시장의 방향성 전망은 여전히 엇갈리는 양상을 보였다.

먼저 4월 전체 사용자 평균 수익률은 -2.1%로, 전월(-2.8%) 대비 소폭 개선됐다. 미 증시의 변동성 확대 국면 속에서 사용자들은 고위험 상품을 적극 활용하며 대응 전략을 다변화하는 모습이었다는 분석이다.

이 기간 동안 가장 많이 구매한 1위 종목은 ICE 반도체지수의 하루 수익률을 3배 추종하는 상품인 SOXL(디렉시온 데일리 세미컨덕터 불 3배 ETF)로, 전월 대비 6계단이나 상승했다.

이는 최근 트럼프 대통령의 관세 정책으로 불거졌던 반도체 관세 우려가 일부 해소되면서 투자심리가 회복된 데 따른 것으로 풀이된다. 동시에 반도체 하락을 3배 따르는 SOXS(디렉시온 데일리 세미컨덕터 베어 3배 ETF)가 신규로 4위에 진입해 관련 업종에 대한 상반된 전망을 반영했다.

한편 3월까지 이어졌던 테슬라의 하락세는 4월 들어 하락을 멈추고 반등하는 등 전환점을 맞았다. 떠라서 4월에는 테슬라(3위) 수익률이 9%로 반등했고, 테슬라 주가 2배 추종 ETF인 TSLL(2위)도 8% 수익률을 기록한 가운데 여전히 구매 순위 상위권을 유지했다.

반면 테슬라 주가 하락 시 수익을 얻는 TSLQ(7위)와 TSLZ(10위)는 각각 마이너스 40% 수익률로 큰 손실을 보여, 3월의 ‘하방 포지션’ 전략이 녹록지 않았다는 분석이다.

이외에도 8위에 오른 아메리칸 레블 홀딩스(AREB)는 한 달간 145%의 수익률을 기록해 급등주로 부상했으며, 나스닥 100 지수 수익률을 3배 추종하는 TQQQ가 신규로 5위를 차지했다.

◆ 20~30대, 고위험 자산 비중 확대…40~50대도 ‘안정에서 공격’ 전략 변화

한편 카카오페이증권은 20~30대 사용자들의 평균 수익률은 -2.4%로 전체 평균(-2.1%)보다 낮았다고 분석했다. 이들은 SOXL, SOXS, TSLL, TQQQ 등 고위험 파생형 상품에 공격적으로 투자하며 시장의 변동성을 활용한 운용 전략을 이어갔다.

상대적으로 보수적인 투자 성향을 보여온 40~50대도 4월 들어 SOXL, SOXS, TQQQ 등 파생형 상품 구매를 늘리며 투자 전략에 변화를 꾀한 점은 주목할만한 변화다.

물론 ▲테슬라(TSLA) ▲엔비디아(NVDA) ▲팔란티어(PLTR) ▲아이온큐(IONQ) 등 개별 기술주에 대한 지속적인 매수세 역시 유지했다. 해당 연령층의 평균 수익률은 -1.6%로 전 연령대 중 가장 선방한 것으로 나타났다.

카카오페이증권은 “3월은 테슬라를 중심으로 기술주에 대한 상승·하락을 겨냥한 포지션이 주요 흐름이었다면, 4월은 반도체 섹터가 핵심 투자 대상으로 떠올라 ‘섹터 전환’이 나타났다”며 “SOXL과 SOXS가 동시에 상위권에 오른 점은 방향성에 대한 확신보다는 변동성 장세에서 분산 전략을 구사하는 투자자들이 늘고 있음을 보여준다”고 설명했다.

카카오페이증권 사용자들의 4월 투자 동향에 대한 자세한 내용은 카카오페이앱 하단 메뉴 ‘증권’ 내 ‘발견’ 탭에서 제공되는 ‘무지 쓸모있는 투자 소식’을 통해 확인할 수 있다.

'''
# few-shot 키워드 추출 문장( CoT 포함)
few_shot_keyword_prompt = '''
다음 문장에서 주요  키워드를 추출해줘, 단계별 추론 과정을 설명한뒤 키워드를 추출해

예시1:
문장 : "자동차는 첨단 안전 기능과 뛰어난 연비를 제공한다"
추론:
1 핵심 명사 와 구체적 개념식별: 자동차, 안전 기능, 연비
2 일반 단어 제외 : 제공한다, 뛰어난
3 최종키워드 선택 : 자동차, 안전 기능, 연비

예시2:
문장 : "인공지능 기술은 다양한 산업 분야에서 활용되고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 인공지능 기술, 산업 분야
2 일반 단어 제외 : 다양한, 활용되고 있다
3 최종키워드 선택 : 인공지능 기술, 산업 분야

예시3:
문장 : "스마트폰은 사용자 경험을 향상시키기 위한 여러 기능을 탑재하고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 스마트폰, 사용자 경험, 기능
2 일반 단어 제외 : 향상시키기 위한, 여러, 탑재하고 있다
3 최종키워드 선택 : 스마트폰, 사용자 경험, 기능

문장:"{}"
추론:
키워드:
'''

In [68]:
client.reset_chat()
result = client.chatsession(few_shot_keyword_prompt.format(sentences), temperature=0.5, max_tokens=2048)
print(result)

추론:
1. 핵심 명사와 구체적 개념식별: 스마트폰, 사용자 경험, 기능
2. 일반 단어 제외: 향상시키기 위한, 여러, 탑재하고 있다
3. 최종 키워드 선택: 스마트폰, 사용자 경험, 기능


In [69]:
zero_shot_keyword_prompt = '''
다음문장에서 키워드를 추출해 주세요

문장 : {}

키워드 :

'''

result = client.chatsession(zero_shot_keyword_prompt.format(sentences))
for word in result.split(","):
  print(word)

추론:
1. 핵심 명사와 구체적 개념식별: 스마트폰
 프로세스
 베터리 수명
 컨퍼런스
 AI
 클라우드 컴퓨팅
 사이버 보안
2. 일반 단어 제외: 강력한
 제공한다
 논의했다
3. 최종 키워드 선택: 스마트폰
 프로세스
 베터리 수명
 컨퍼런스
 AI
 클라우드 컴퓨팅
 사이버 보안


In [24]:
few_shot_keyword_prompt = '''
다음 문장에서 주요  키워드를 추출해줘, 단계별 추론 과정을 설명한뒤 키워드를 추출해

예시1:
문장 : "자동차는 첨단 안전 기능과 뛰어난 연비를 제공한다"
추론:
1 핵심 명사 와 구체적 개념식별: 자동차, 안전 기능, 연비
2 일반 단어 제외 : 제공한다, 뛰어난
3 최종키워드 선택 : 자동차, 안전 기능, 연비

예시2:
문장 : "인공지능 기술은 다양한 산업 분야에서 활용되고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 인공지능 기술, 산업 분야
2 일반 단어 제외 : 다양한, 활용되고 있다
3 최종키워드 선택 : 인공지능 기술, 산업 분야

예시3:
문장 : "스마트폰은 사용자 경험을 향상시키기 위한 여러 기능을 탑재하고 있다"
추론:
1 핵심 명사 와 구체적 개념식별: 스마트폰, 사용자 경험, 기능
2 일반 단어 제외 : 향상시키기 위한, 여러, 탑재하고 있다
3 최종키워드 선택 : 스마트폰, 사용자 경험, 기능

헤드라인:"{}"
추론:
키워드:
'''
enter = '\n'
# 네이버 뉴스 헤드라인을 COT 를 적용 한 Few-shot 러닝으로 각 헤드라인의 키워드 추출
for headline in crawl_naver_kin(5):
  result = client.chatsession(few_shot_keyword_prompt.format(headline))
  print(f"headline : {headline}, keyword : {result.split('3 최종키워드 선택 : ')[1]}")

headline : Korean Ph.D. graduates head overseas on promise of all-round better conditions, keyword : Korean, Ph.D. graduates, overseas, promise, all-round, better conditions
headline : [속보] 한덕수 “단일화 약속 지키라 할 것…오후 4시에 김문수와 다시 회동”, keyword : 한덕수, 단일화, 약속, 오후 4시, 김문수, 회동
headline : 김문수 ‘경주 회군’의 전말, 그리고 엇갈리는 민심, keyword : 김문수, 경주 회군, 전말, 민심, 엇갈리는
headline : "눈 깜짝할새 또"…압구정 아파트 105억 '신고가' [현장], keyword : 눈, 깜짝할새, 압구정 아파트, 105억, 신고가, 현장
headline : 대통령 적합도 이재명 43% 선두…김문수 12%·한덕수 23%[NBS], keyword : 대통령, 적합도, 이재명, 김문수, 한덕수, NBS


- 감성분석 파이프라인
- FAQ 쳇봇
- 뉴스요약 및 키워드 추출
- 비용분석

In [7]:
import os
import time

client = openai.OpenAI(api_key=api_key)

# openai api 호출 함수(비용추적 및 예외처리)
def call_openai(prompt, model="gpt-3.5-turbo", temperature=0.5, max_tokens=100,n=1):
  try:
    start_time = time.time()
    response = client.chat.completions.create(
      model=model,
      messages=[{"role": "user", "content": prompt}],
      temperature=temperature,
      max_tokens=max_tokens,
      n=n
  )
    elapsed_time = time.time() - start_time
    tokens_used = response.usage.total_tokens
    return {
        "results" : [choice.message.content for choice in response.choices],
        "tokens_used" : tokens_used,
        "elapsed_time" : elapsed_time
    }
  except Exception as e:
    print(f'api 호출 오류 : {e}')
    return {
        "results" : [],
        "tokens_used" : 0,
        "elapsed_time" : 0
    }

In [8]:
# 감성분석 프롬프트(few-shot)  3
few_shot_sentiment_prompt = '''
다음 리뷰의 감정을 긍정,부정, 또는 중립으로 분류해줘

예시1:
리뷰:"정말 훌륭한 제품입니다. 재 구매의사 있습니다."
감정:긍정

예시2:
리뷰:"품질이 너무 안좋아요, 실망했어요"
감정:부정

예시3:
리뷰:"보통이에요, 특별한 점은 없는거 같습니다"
감정:중립

리뷰:"{}"
감정:
'''
# FAQ 챗봇 프롬프트(few-shot)  2
few_shot_faq_prompt = '''
다음 고객의 문의에 대한 간결하고 친철하게 답변해줘

예시 1:
문의 : "배송은 언제되나요?"
답변 : "보통 주문후 영일일 기준 2~3일 내 배송됩니다"

예시 1:
문의 : "환불은 어떻게 하나요?"
답변 : "카드는 영업일 기준 7일이내, 계좌이체는 영업일 기준 1일 이내 환불됩니다."

문의 : "{}"
답변 :
'''

# 뉴스요약 및 키워드 추출 프롬프트(Chain-of-Thought  CoT) 1
summary_keyword_prompt = '''
다음 뉴스의 본문을 한 문장으로 요약하고, 주요 키워드를 단계별로 추출해줘

예시:
본문 : "자동차는 첨단 안전기능과 뛰어난 연비를 제공한다"
요약 : "자동차는 안전기능과 연비를 개선한다"
추론:
1. 핵심 명사 식별 : 자동차, 안전 기능, 연비
2. 일반 단어 제외 :제공한다 ,뛰어난
3. 최종 키워드 선택 : 자동차, 안전 기능, 연비
키워드 : 자동차, 안전 기능, 연비

본문 : "{}"
요약 :
추론 :
'''

In [9]:
# 감정분류용 리뷰
reviews = [
    '이 제품은 정말 훌륭합니다. 적극 추천합니다.',
    '배송이 너무 느리고 품질도 별로에요',
    '가격대비 괜찮은 제품인거 같습니다',
]
# 카테고리 분류용 뉴스 헤드라인
headlines = [
    '국가안보실, 북 미사일 대응 안보상황 점검회의',
    'DL이앤씨, 울릉공항 건설 위한 마지막 케이슨 설치 완료',
    "수도권 전세사기로 '88억 원' 가로챈 일당 송치",
]

In [10]:
# 감성분석
total_tokens = 0
for review in reviews:
  result = call_openai(few_shot_sentiment_prompt.format(review),max_tokens=50)
  print(f'리뷰 : {review}')
  print(f'감정 : {result}')
  print(f'토큰사용량 : {result["tokens_used"]},  응답시간:{result["elapsed_time"]:.2f}')
  total_tokens += result["tokens_used"]
print(f'총 토큰사용량 : {total_tokens}')

리뷰 : 이 제품은 정말 훌륭합니다. 적극 추천합니다.
감정 : {'results': ['긍정'], 'tokens_used': 207, 'elapsed_time': 0.8431000709533691}
토큰사용량 : 207,  응답시간:0.84
리뷰 : 배송이 너무 느리고 품질도 별로에요
감정 : {'results': ['부정'], 'tokens_used': 207, 'elapsed_time': 0.47433042526245117}
토큰사용량 : 207,  응답시간:0.47
리뷰 : 가격대비 괜찮은 제품인거 같습니다
감정 : {'results': ['긍정'], 'tokens_used': 202, 'elapsed_time': 0.316195011138916}
토큰사용량 : 202,  응답시간:0.32
총 토큰사용량 : 616


In [11]:
# FAQ 챗봇
faq_lists = [
    '배송이 얼마나 걸리나요?',
    '반품 정책이 어떻게 되나요?'
]
for review in faq_lists:
  result = call_openai(few_shot_faq_prompt.format(review),max_tokens=200)
  print(f'문의 : {review}')
  print(f'답변 : {result["results"][0]}')
  print(f'토큰사용량 : {result["tokens_used"]},  응답시간:{result["elapsed_time"]:.2f}')
  total_tokens += result["tokens_used"]
print(f'총 토큰사용량 : {total_tokens}')


문의 : 배송이 얼마나 걸리나요?
답변 : "일반적으로 주문 후 2~3일 내에 배송이 완료됩니다."
토큰사용량 : 220,  응답시간:0.85
문의 : 반품 정책이 어떻게 되나요?
답변 : "제품을 구매한 후 7일 이내에 반품 신청을 하시면 무료 반품이 가능합니다. 자세한 반품 절차는 고객센터로 문의해주세요."
토큰사용량 : 263,  응답시간:3.55
총 토큰사용량 : 1099


In [25]:
# 뉴스 요약 및 키워드 추출
news_lists = [
    '김 후보는 이날 오전 여의도 대선 캠프에서 연 긴급 기자회견에서 당 지도부를 향해 "이 시간 이후 강제 후보 단일화라는 미명으로 정당한 대통령 후보인 저 김문수를 끌어내리려는 작업에서 손 떼라"며 "강압적 단일화 요구를 중단하라"고 말했다',
    '합동참모본부는 "오늘 오전 8시 10분부터 9시 20분까지 북한 원산 일대에서 동해상으로 발사된 다양한 종류의 단거리 탄도미사일 수발을 포착했다"며 "북한의 미사일은 최대 약 800km 비행 후 동해상에 탄착했다"고 밝혔다'
]
for review in news_lists:
  result = call_openai(summary_keyword_prompt.format(review),max_tokens=1024)
  print(f'본문 : {review}')
  print(f'결과 : {result["results"][0]}')
  print(f'토큰사용량 : {result["tokens_used"]},  응답시간:{result["elapsed_time"]:.2f} \n')
  total_tokens += result["tokens_used"]
print(f'총 토큰사용량 : {total_tokens}')

본문 : 김 후보는 이날 오전 여의도 대선 캠프에서 연 긴급 기자회견에서 당 지도부를 향해 "이 시간 이후 강제 후보 단일화라는 미명으로 정당한 대통령 후보인 저 김문수를 끌어내리려는 작업에서 손 떼라"며 "강압적 단일화 요구를 중단하라"고 말했다
결과 : 1. 핵심 명사 식별 : 김 후보, 대선 캠프, 기자회견, 지도부, 대통령 후보, 김문수, 단일화
2. 일반 단어 제외 : 이날, 오전, 여의도, 연, 긴급, 미명으로, 정당한, 작업에서, 손, 끌어내리려는, 작업에서, 중단하라, 강압적
3. 최종 키워드 선택 : 김 후보, 대선 캠프, 기자회견, 지도부, 대통령 후보, 김문수, 단일화
키워드 : 김 후보, 대선 캠프, 기자회견, 지도부, 대통령 후보, 김문수, 단일화
토큰사용량 : 592,  응답시간:2.15 

본문 : 합동참모본부는 "오늘 오전 8시 10분부터 9시 20분까지 북한 원산 일대에서 동해상으로 발사된 다양한 종류의 단거리 탄도미사일 수발을 포착했다"며 "북한의 미사일은 최대 약 800km 비행 후 동해상에 탄착했다"고 밝혔다
결과 : 1. 핵심 명사 식별 : 합동참모본부, 북한, 원산, 동해상, 단거리 탄도미사일
2. 일반 단어 제외 : 오늘, 오전, 발사된, 다양한, 수발을, 포착했다, 최대, 약, 비행, 탄착했다, 밝혔다
3. 최종 키워드 선택 : 합동참모본부, 북한, 원산, 동해상, 단거리 탄도미사일
키워드 : 합동참모본부, 북한, 원산, 동해상, 단거리 탄도미사일
토큰사용량 : 548,  응답시간:2.24 

총 토큰사용량 : 2271


In [12]:
# ngrok 설치
!wget -q -c https://bin.equinox.io/c/bNyj1mQVY4c/ngrok-stable-linux-amd64.zip
!unzip -o ngrok-stable-linux-amd64.zip

# ngrok 토큰 등록
# 토큰은 https://dashboard.ngrok.com 페이지에서 확인 가능
!./ngrok config add-authtoken 2oN5uuM4xn4NWaWPPcCFTb2dHal_5HAvG4FgRDLaX6nRkyjHs

Archive:  ngrok-stable-linux-amd64.zip
  inflating: ngrok                   
Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml


In [None]:
# ngrok 설치
!wget -q -c https://bin.equinox.io/c/bNyj1mQVY4c/ngrok-stable-linux-amd64.zip
!unzip -o ngrok-stable-linux-amd64.zip

# ngrok 토큰 등록
# 토큰은 https://dashboard.ngrok.com 페이지에서 확인 가능
!./ngrok config add-authtoken 2oN5uuM4xn4NWaWPPcCFTb2dHal_5HAvG4FgRDLaX6nRkyjHs


# Flask + ngrok 자동 연결 코드
from flask import Flask
import threading
import time
import requests
import json
import subprocess


import openai
from openai import OpenAI
import os
import time
OPENAI_API_KEY  = api_key
client = OpenAI(api_key=OPENAI_API_KEY)

# openai api 호출 함수(비용추적 및 예외처리)
def call_openai(prompt, model="gpt-3.5-turbo", temperature=0.5, max_tokens=100,n=1):
  try:
    start_time = time.time()
    response = client.chat.completions.create(
      model=model,
      messages=[
        {"role": "user", "content": prompt}
      ],
      temperature=temperature,
      max_tokens=max_tokens,
      n=n
    )
    elapsed_time = time.time() - start_time
    tokens_used = response.usage.total_tokens
    return {
        "results" : [choice.message.content for choice in response.choices],
        "tokens_used" : tokens_used,
        "elapsed_time" : elapsed_time
    }
  except Exception as e:
    print(f'api 호출 오류 : {e}')
    return {
        "results" : [],
        "tokens_used" : 0,
        "elapsed_time" : 0
    }

# 뉴스요약 및 키워드 추출 프롬프트(Chain-of-Thought  CoT) 1
summary_keyword_prompt = '''
다음 뉴스의 본문을 한 문장으로 요약하고, 주요 키워드를 단계별로 추출해줘

예시:
본문 : "자동차는 첨단 안전기능과 뛰어난 연비를 제공한다"
추론:
요약 : "자동차는 안전기능과 연비를 개선한다"
1. 핵심 명사 식별 : 자동차, 안전 기능, 연비
2. 일반 단어 제외 :제공한다 ,뛰어난
3. 최종 키워드 선택 : 자동차, 안전 기능, 연비
키워드 : 자동차, 안전 기능, 연비

본문 : "{}"
요약 :
추론 :
'''

# 뉴스 요약 및 키워드 추출
news_lists = [
    '김 후보는 이날 오전 여의도 대선 캠프에서 연 긴급 기자회견에서 당 지도부를 향해 "이 시간 이후 강제 후보 단일화라는 미명으로 정당한 대통령 후보인 저 김문수를 끌어내리려는 작업에서 손 떼라"며 "강압적 단일화 요구를 중단하라"고 말했다',
    '합동참모본부는 "오늘 오전 8시 10분부터 9시 20분까지 북한 원산 일대에서 동해상으로 발사된 다양한 종류의 단거리 탄도미사일 수발을 포착했다"며 "북한의 미사일은 최대 약 800km 비행 후 동해상에 탄착했다"고 밝혔다'
]
def getApiResult():
  total_contents = ""
  total_tokens = 0
  for review in news_lists:
    result = call_openai(summary_keyword_prompt.format(review),max_tokens=1024)
    total_contents += f'본문 : <strong>{review}</strong> <br>'
    total_contents += f'결과 : <br> {result["results"][0]} <br>'
    total_contents += f'토큰사용량 : {result["tokens_used"]},  응답시간:{result["elapsed_time"]:.2f} <br>'
    total_tokens += result["tokens_used"]
  total_contents += f'총 토큰사용량 : {total_tokens} <br>'
  return total_contents

with open("result.html", 'w') as f:
  f.write(getApiResult())

Archive:  ngrok-stable-linux-amd64.zip
  inflating: ngrok                   
Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml


In [30]:
# Flask 앱 정의
app = Flask(__name__)

@app.route('/')
def index():
    # return "Flask 서버가 ngrok을 통해 노출되었습니다!"
    return getApiResult()

# Flask 백그라운드 실행
def run_flask():
    app.run(port=5000)

threading.Thread(target=run_flask).start()  # 백그라운드 모드로 실행

# ngrok 백그라운드 실행
def run_ngrok():
    # ngrok 실행
    subprocess.Popen(['./ngrok', 'http', '5000'])
    time.sleep(4)  # ngrok이 터널 열 시간을 기다림

    # ngrok 터널 정보 얻기
    try:
        response = requests.get("http://localhost:4040/api/tunnels")
        tunnel_url = response.json()['tunnels'][0]['public_url']
        print(f"외부 접속 주소: {tunnel_url}")
    except Exception as e:
        print("ngrok 주소를 가져오는 데 실패했습니다:", e)

run_ngrok()

 * Serving Flask app '__main__'
 * Debug mode: off


Address already in use
Port 5000 is in use by another program. Either identify and stop that program, or start the server with a different port.


ngrok 주소를 가져오는 데 실패했습니다: HTTPConnectionPool(host='localhost', port=4040): Max retries exceeded with url: /api/tunnels (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7886fe551010>: Failed to establish a new connection: [Errno 111] Connection refused'))


In [31]:
# ngrok와 Flask 서버 종료
!pkill -f flask
!pkill -f ngrok

In [18]:
ls -l ./ngrok

-rwxr-xr-x 1 root root 27762872 Apr 10 19:59 [0m[01;32m./ngrok[0m*


Fine-Tuning
```
모델에 추가 학습데이터를 제공해서 특정작업에 최적화
제한사항:
  데이터 품질 중요 : 최소한 50개이상의 고품질 데이터
  비용증가
데이터포멧
  jsonl 형식 {"messages" :[{"role":"user", "content":"입력"},{"role":"assistant","content":"출력"}]}  
한글전처리
  띄어쓰기 정제: 배송느리-> 배송 느림
  도메인용어 : AI->"인공지능" 통일
  데이터 정제 : 비속어,오타 제거
프로세스:
  데이터 업로드 : openai로 jsonl 파일 업로드
  fine-tuning job 생성 : ...... jobs.create
  모델 : fine_tuning 모델 id로 api호출
  관리 : 결과를 base64 인코딩되어서 출력 - openai 디코더를 이용해서 복원      
```

In [34]:
# 감정 분석용 데이터 10개
training_data = [
{"messages":[{"role":"user","content":"배송도 빠르고 제품 상태도 아주 좋아요!"},{"role":"assistant","content":"긍정"}]}
,{"messages":[{"role":"user","content":"정말 기대 이상이에요. 다음에도 꼭 재구매할게요."},{"role":"assistant","content":"긍정"}]}
,{"messages":[{"role":"user","content":"디자인이 예쁘고 사용하기도 편하네요."},{"role":"assistant","content":"긍정"}]}
,{"messages":[{"role":"user","content":"처음 사용해보는데 만족도가 높아요."},{"role":"assistant","content":"긍정"}]}
,{"messages":[{"role":"user","content":"가격 대비 성능이 뛰어납니다."},{"role":"assistant","content":"긍정"}]}

,{"messages":[{"role":"user","content":"작동이 안 돼서 너무 화가 납니다."},{"role":"assistant","content":"부정"}]}
,{"messages":[{"role":"user","content":"광고랑 다르게 품질이 별로였어요."},{"role":"assistant","content":"부정"}]}
,{"messages":[{"role":"user","content":"고장이 자주 나서 불편합니다."},{"role":"assistant","content":"부정"}]}
,{"messages":[{"role":"user","content":"배송이 느리고 포장도 부실했어요."},{"role":"assistant","content":"부정"}]}
,{"messages":[{"role":"user","content":"기대한 만큼의 성능이 아니네요."},{"role":"assistant","content":"부정"}]}

,{"messages":[{"role":"user","content":"기능은 많은데 아직 다 써보진 않았어요."},{"role":"assistant","content":"중립"}]}
,{"messages":[{"role":"user","content":"사용 중 특별한 문제는 없었어요."},{"role":"assistant","content":"중립"}]}
,{"messages":[{"role":"user","content":"평범한 제품입니다. 특별히 좋지도 나쁘지도 않아요."},{"role":"assistant","content":"중립"}]}
,{"messages":[{"role":"user","content":"가격도 적당하고 일반적인 성능이에요."},{"role":"assistant","content":"중립"}]}
,{"messages":[{"role":"user","content":"그럭저럭 쓸만합니다. 무난한 제품이에요."},{"role":"assistant","content":"중립"}]}

]

In [37]:
# 테스트 데이터
test_reviews = [
    '''
    온가족 맛있는 소고기로 저녁식탁을 즐겁게 보냈어요,투플이랑 원뿔 같이 먹었는데 둘다 가상비 훌륭했고
부드러운 육질로 입에서 살살 녹더라구요.
집앞 마트가격보다도 저렴하고 마블링은 훌륭해서
온라인으로 한우사는게 믿음이 생기고 지인한테 추천해줬어요!  믿고 먹을수 있는 소고기가 생겨서 너무 좋습니다!!
    '''
]
# 필요한 라이브러리 import
from openai import OpenAI
import os
import time
import json
# open ai 셋팅
client = OpenAI(api_key=api_key)

# json 파일 생성
def create_jsonl_file(data,filename):
  with open(filename, "w", encoding='utf-8') as f:
    for item in training_data:
      json_line = json.dumps(item,ensure_ascii=False)
      f.write(json_line + "\n")
  return filename

# 파인튜닝데이터 업로드
def upload_file(filename):
  with open(filename, "rb") as f:
    response = client.files.create(
        file=f,purpose="fine-tune"
    )
  return response.id

def create_fine_tuning_job(file_id, model = 'gpt-3.5-turbo'):
  job = client.fine_tuning.jobs.create(
      training_file=file_id,
      model=model
  )
  return job.id
# 파인튜닝 상태 확인
def check_fine_tuning_status(job_id):
  status = client.fine_tuning.jobs.retrieve(job_id)
  return status.status,status.fine_tuned_model

# openai api 호출 함수(비용추적 및 예외처리)
def call_openai(prompt, model="gpt-3.5-turbo", temperature=0.3, max_tokens=50,n=1):
  try:
    start_time = time.time()
    response = client.chat.completions.create(
      model=model,
      messages=[
        {"role": "user", "content": prompt}
      ],
      temperature=temperature,
      max_tokens=max_tokens,
      n=n
    )
    elapsed_time = time.time() - start_time
    tokens_used = response.usage.total_tokens
    return {
        "results" : [choice.message.content for choice in response.choices],
        "tokens_used" : tokens_used,
        "elapsed_time" : elapsed_time
    }
  except Exception as e:
    print(f'api 호출 오류 : {e}')
    return {
        "results" : [],
        "tokens_used" : 0,
        "elapsed_time" : 0
    }

In [38]:
# 파일생성 및 업로드
jsoned_file = create_jsonl_file(training_data,'20250508.jsonl')
file_id = upload_file(jsoned_file)
print(f'file id : {file_id}')
# 파인튜닝 작업(job 생성)
job_id = create_fine_tuning_job(file_id)
print(f'job id : {job_id}')

file id : file-9iREFXv9uKom6drd1MEdZs
job id : ftjob-uknTQ2DmMsqWDliQo1L59Jel


In [50]:
# 상태확인
status,fine_tuned_model = check_fine_tuning_status(job_id)
print(f'status : {status}, model : {fine_tuned_model}')

status : succeeded, model : ft:gpt-3.5-turbo-0125:personal::BUq5i67K


In [51]:
# 감성분석
sentiment_prompt = '''
리뷰 : "{}"
감정 :
'''
for review in test_reviews:
  result = call_openai(sentiment_prompt.format(review),max_tokens=20,model=fine_tuned_model)
  print(f'리뷰 : {review}')
  print(f'감정 : {result}')

리뷰 : 
    온가족 맛있는 소고기로 저녁식탁을 즐겁게 보냈어요,투플이랑 원뿔 같이 먹었는데 둘다 가상비 훌륭했고
부드러운 육질로 입에서 살살 녹더라구요.
집앞 마트가격보다도 저렴하고 마블링은 훌륭해서
온라인으로 한우사는게 믿음이 생기고 지인한테 추천해줬어요!  믿고 먹을수 있는 소고기가 생겨서 너무 좋습니다!!
    
감정 : {'results': ['긍정'], 'tokens_used': 219, 'elapsed_time': 8.70126986503601}


In [52]:
# 테스트 데이터
test_reviews = [
    "이 영화는 엄복동 이라는 영화의 평균 평점과 같았다"
]
# 감성분석
sentiment_prompt = '''
리뷰 : "{}"
감정 :
'''
for review in test_reviews:
  result = call_openai(sentiment_prompt.format(review),max_tokens=20,model=fine_tuned_model)
  print(f'리뷰 : {review}')
  print(f'감정 : {result}')

리뷰 : 이 영화는 엄복동 이라는 영화의 평균 평점과 같았다
감정 : {'results': ['중립'], 'tokens_used': 53, 'elapsed_time': 10.289474487304688}


쳇봇
```
유형
  FAQ 쳇봇
  대화형 쳇봇
프롬프트 설계
  few-shot : 문의-응답쌍 제공
  Role-base : 역활 부여(친절한 고객 상담사)
  한글 최적화 : 한국어 뉘앙스, 존댓말/반말 조정
최적화
  간결한 프롬프트:토큰소모 최소화
  맥락유지 : 대화 이력 포함(ex message 리스트)    
성능평가
  평가기준
    정확도 : 응답이 문의에 적합한지
    자연스러움 : 한국어 표현의 유연성
    응답시간 : API호출 속도
사용자 경험
  친절한 톤: 존댓말 공감표현
  오류 처리:모호한 문장에 기본응답제공
개선
  추가 fine-tuning:낮은 품질 응답 수정
  프롬프트조정 : 특정 문의 유형 강화    
```

In [78]:
# fine-tuning용 FAQ 데이터 10
training_data = [
  {"messages":[{"role":"user","content":"배송은 보통 얼마나 걸리나요?"},{"role":"assistant","content":"일반적으로 배송은 2~3일 정도 소요됩니다. 지역에 따라 다를 수 있습니다."}]},
  {"messages":[{"role":"user","content":"반품은 어떻게 신청하나요?"},{"role":"assistant","content":"마이페이지 > 주문 내역에서 해당 상품을 선택하고 반품 신청 버튼을 눌러주세요."}]},
  {"messages":[{"role":"user","content":"회원가입은 무료인가요?"},{"role":"assistant","content":"네, 회원가입은 무료이며 누구나 가입하실 수 있습니다."}]},
  {"messages":[{"role":"user","content":"고객센터 운영 시간은 어떻게 되나요?"},{"role":"assistant","content":"고객센터는 평일 오전 9시부터 오후 6시까지 운영됩니다."}]},
  {"messages":[{"role":"user","content":"현금영수증 발급 가능한가요?"},{"role":"assistant","content":"네, 결제 시 현금영수증 발급을 선택하시면 자동으로 발급됩니다."}]},
  {"messages":[{"role":"user","content":"비밀번호를 잊어버렸어요. 어떻게 해야 하나요?"},{"role":"assistant","content":"로그인 화면에서 '비밀번호 찾기'를 클릭하여 안내에 따라 재설정하실 수 있습니다."}]},
  {"messages":[{"role":"user","content":"제품 보증 기간은 얼마나 되나요?"},{"role":"assistant","content":"제품에 따라 다르지만 일반적으로 1년의 무상 보증 기간이 제공됩니다."}]},
  {"messages":[{"role":"user","content":"쿠폰은 어디서 확인할 수 있나요?"},{"role":"assistant","content":"마이페이지 > 쿠폰함에서 보유하신 쿠폰을 확인하실 수 있습니다."}]},
  {"messages":[{"role":"user","content":"배송지를 변경하고 싶어요."},{"role":"assistant","content":"배송 준비 전이라면 마이페이지에서 배송지 변경이 가능합니다. 준비 완료 이후에는 변경이 어려울 수 있습니다."}]},
  {"messages":[{"role":"user","content":"해외에서도 주문할 수 있나요?"},{"role":"assistant","content":"현재는 국내 배송만 지원하고 있으며, 해외 배송은 준비 중입니다."}]}
]
# 테스틑 데이터
text_inputs = [
    '배송이 언제 도착하나요?',
    '교환은 어떻게 하나요?',
    '재입고 예정이 있나요?'
]
# 모델은  gpt-4.1-mini-2025-04-14
# 파일 생성
def create_jsonl_file(data,filename):
  with open(filename, "w", encoding='utf-8') as f:
    for item in training_data:
      json_line = json.dumps(item,ensure_ascii=False)
      f.write(json_line + "\n")
  return filename

# 파일 업로드
def upload_file(filename):
  with open(filename, "rb") as f:
    response = client.files.create(
        file=f,purpose="fine-tune"
    )
  return response.id

# 파인튜닝(job id)
def create_fine_tuning_job(file_id, model='gpt-4.1-mini-2025-04-14'):
  job = client.fine_tuning.jobs.create(
      training_file=file_id,
      model=model
  )
  return job.id

# 상태확인후 successed 가 되면
def check_fine_tuning_status(job_id):
  status = client.fine_tuning.jobs.retrieve(job_id)
  return status.status, status.fine_tuned_model

# 모델 불러와서 test_inputs 실행
def call_openai(prompt, model='gpt-4.1-mini-2025-04-14', temperature=0.3, max_tokens=50,n=1):
  try:
    start_time = time.time()
    response = client.chat.completions.create(
      model=model,
      messages=[
        {"role": "user", "content": prompt}
      ],
      temperature=temperature,
      max_tokens=max_tokens,
      n=n
    )
    elapsed_time = time.time() - start_time
    tokens_used = response.usage.total_tokens
    return {
        "results" : [choice.message.content for choice in response.choices],
        "tokens_used" : tokens_used,
        "elapsed_time" : elapsed_time
    }
  except Exception as e:
    print(f'api 호출 오류 : {e}')
    return {
        "results" : [],
        "tokens_used" : 0,
        "elapsed_time" : 0
    }

In [81]:
# 파일생성 및 업로드
jsoned_file = create_jsonl_file(training_data,'20250508_3.jsonl')
file_id = upload_file(jsoned_file)
print(f'file id : {file_id}')
# 파인튜닝 작업(job 생성)
job_id = create_fine_tuning_job(file_id)
print(f'job id : {job_id}')

file id : file-4ppMSDNbEc2bChyGYKT1j7
job id : ftjob-mVdr1JIen3ZtPC5CTfVk4Sfd


In [82]:
# 상태확인
status,fine_tuned_model = check_fine_tuning_status(job_id)
print(f'status : {status}, model : {fine_tuned_model}')

status : validating_files, model : None


In [83]:
# 감성분석
sentiment_prompt = '''
질문 : "{}"
답변 :
'''
for text_input in text_inputs:
  result = call_openai(sentiment_prompt.format(text_input),max_tokens=200,model='ft:gpt-4.1-mini-2025-04-14:personal::BUrNWJAP')
  print(f'질문 : {text_input}')
  print(f'답변 : {result}')

질문 : 배송이 언제 도착하나요?
답변 : {'results': ['일반적으로 배송은 2~3일 정도 소요됩니다. 지역에 따라 다를 수 있습니다.'], 'tokens_used': 47, 'elapsed_time': 1.154235601425171}
질문 : 교환은 어떻게 하나요?
답변 : {'results': ['마이페이지 > 주문 내역에서 해당 상품을 선택하고 교환 신청 버튼을 눌러주세요.'], 'tokens_used': 46, 'elapsed_time': 1.221086025238037}
질문 : 재입고 예정이 있나요?
답변 : {'results': ['현재 해당 상품은 일시 품절 상태이며, 재입고는 준비 중입니다.'], 'tokens_used': 43, 'elapsed_time': 0.6214425563812256}
