# Chat Completions API

Chat Completions API는 OpenAI에서 제공하는 대화형 인공지능 모델(GPT 계열)을 활용해, 사용자의 메시지에 대해 자연스러운 대화 응답을 생성하는 API이다. 이 API는 챗봇, AI 비서, 자동화된 상담 시스템 등 다양한 대화형 서비스에 적용할 수 있다.


- **대화 문맥 유지**  
  Chat Completions API는 여러 메시지(대화 내역)를 입력받아, 이전 대화의 맥락을 이해하고 그에 맞는 응답을 생성한다. 즉, 단순히 한 문장만을 이어 쓰는 것이 아니라, 대화의 흐름을 반영하여 자연스러운 대화를 이어갈 수 있다.

- **역할(Role) 기반 메시지 구조**  
  입력 메시지는 배열 형태로 전달하며, 각 메시지는 `role`과 `content`로 구성된다.  
  - `system`: AI의 태도, 성격, 역할을 정의(예: "너는 친절한 도우미야.")
  - `user`: 사용자의 질문이나 요청
  - `assistant`: AI의 응답(이전 대화 내용 포함 가능)
  
  이 구조를 통해 AI의 응답 스타일이나 맥락을 세밀하게 제어할 수 있다[1][3][5].

**주요 파라미터 설명**

| 파라미터        | 설명                                                                 |
|----------------|----------------------------------------------------------------------|
| model          | 사용할 언어 모델명 (예: gpt-3.5-turbo, gpt-4o 등)                    |
| messages       | 대화 내역(역할/내용 포함) 배열                                        |
| max_tokens     | 생성할 응답의 최대 토큰 수(선택)                                     |
| temperature    | 창의성 조절(0~2, 낮을수록 일관성↑, 높을수록 다양성↑, 선택)           |
| top_p          | 누적 확률 기반 샘플링(temperature와 유사, 선택)                      |
| n              | 한 번에 생성할 응답 개수(선택)                                       |
| stop           | 응답 생성을 중단할 문자열 목록(선택)                                 |
| presence_penalty, frequency_penalty | 반복 억제 및 창의성 유도(선택)                 |
| user           | 사용자 식별자(선택, abuse monitoring 등 활용)                        |


- 위 예시에서 `messages` 배열에는 대화의 모든 메시지가 순서대로 들어가야 한다.  
- OpenAI는 이전 요청을 기억하지 않기 때문에, 매 API 호출마다 대화 내역 전체를 함께 보내야 한다.


In [2]:
from google.colab import userdata
import os
from openai import OpenAI

# OPENAI_API_KEY = userdata.get("OPENAI_API_KEY")
# client = OpenAI(api_key=OPENAI_API_KEY)

# 환경변수 지정
os.environ["OPENAI_API_KEY"] = userdata.get("OPENAI_API_KEY")
client = OpenAI()

## 대화형 챗봇

In [7]:
response = client.chat.completions.create(
    model='gpt-4.1-nano',
    messages=[
        {'role': 'system', 'content': '너는 친절한 챗봇입니다.'},
        {'role': 'user', 'content': '안녕, 내 이름은 차은우야~'},
        {'role': 'assistant', 'content': '안녕하세요, 차은우님! 만나서 반가워요. 어떻게 도와드릴까요?'},
        {'role': 'user', 'content': '잘 지냈어? 내 이름 기억하니?'},
    ]
)
print(response.choices[0].message.content)

네, 차은우님! 이름을 기억하고 있어요. 잘 지내셨어요? 최근에 어떤 일들이 있었는지 궁금하네요.


In [8]:
response = client.chat.completions.create(
    model='gpt-4.1-nano',
    messages=[
        {'role': 'system', 'content': '너는 LLM 전문가입니다.'},
        {'role': 'user', 'content': '안녕, 나는 LLM 꿈나무 차은우야~'},
        {'role': 'assistant', 'content': '안녕하세요, 차은우님! LLM 꿈나무라니 멋지네요! 어떤 부분에 대해 이야기하고 싶으신가요? LLM에 대한 질문이나 궁금한 점이 있다면 언제든지 말씀해 주세요.'},
        {'role': 'user', 'content': 'Transformer모델을 공부하고 싶어.'},
        {'role': 'assistant', 'content': """좋아요! Transformer 모델은 자연어 처리(NLP) 분야에서 매우 중요한 혁신을 가져온 아키텍처입니다. 기본적인 구조와 작동 원리를 설명해드릴게요.

### 1. Transformer의 기본 구조
Transformer는 크게 두 가지 부분으로 구성되어 있습니다: **인코더(Encoder)**와 **디코더(Decoder)**.

- **인코더**: 입력 문장을 처리하고, 문장의 의미를 포착하는 고차원 표현을 생성합니다.
- **디코더**: 인코더의 출력을 바탕으로 출력 문장을 생성합니다. 주로 번역, 텍스트 요약 등에 사용됩니다.

### 2. 자기 주의 메커니즘 (Self-Attention)
Transformer의 핵심 개념 중 하나는 자기 주의 메커니즘입니다. 이는 입력 시퀀스 내의 단어들이 서로에게 얼마나 주의를 기울이는지를 학습하는 방법입니다. 이를 통해 문맥을 더 잘 이해할 수 있습니다.

### 3. 포지셔널 인코딩 (Positional Encoding)
Transformers는 순차적인 정보를 처리하지 않기 때문에 단어의 순서를 이해하기 위한 포지셔널 인코딩을 사용합니다. 이를 통해 단어의 위치 정보를 추가합니다.

### 4. 다중 헤드 주의 (Multi-head Attention)
Transformer는 하나의 자기 주의 메커니즘 대신 여러 개의 주의 헤드를 사용하여 서로 다른 표현을 학습합니다. 각 헤드는 다른 부분에 초점을 맞출 수 있어 정보의 다양성을 높입니다.

### 5. 피드포워드 신경망
각 인코더와 디코더의 구조에는 자기 주의 레이어 뒤에 위치한 피드포워드 신경망이 있습니다. 이는 각 단어의 표현을 독립적으로 처리하는 역할을 합니다.

### 6. Layer Normalization & Residual Connections
모든 레이어에는 레이어 정규화와 잔차 연결이 포함되어 있어, 훈련이 더 쉽게 이루어지도록 돕습니다.

### 학습 방법
Transformer 모델은 대량의 데이터를 통해 사전 학습(pre-training)되고, 특정 작업에 대해 미세 조정(fine-tuning)됩니다. 여러 가지 변종이 있으며, BERT, GPT 같은 모델들이 이 구조를 기반으로 하고 있습니다.

이해가 잘 되셨나요? 더 궁금한 부분이나 구체적인 질문이 있다면 말씀해 주세요!
"""},
        {'role': 'user', 'content': '어려워~ 어텐션을 초등학생도 이해할 수 있게 설명해줘.'},
        {'role': 'assistant', 'content': """물론이죠! 어텐션(attention)을 초등학생도 이해할 수 있게 쉽게 설명해볼게요.

### 어텐션을 설명하는 이야기

상상해보세요! 여러분이 친구들과 함께 학교에서 이야기를 나누고 있다고 합시다. 그 많은 친구들 중에서 누군가가 아주 중요한 이야기를 하고 있어요. 여러분은 그 친구의 말을 잘 듣고 싶어서 그 친구에게 집중합니다. 반면, 주변의 다른 소리나 대화는 잘 듣지 않으려고 해요. 이런 식으로 우리는 중요한 정보에 주의를 기울이고, 다른 것들은 잠깐 잊어버리는 거예요.

### 어텐션은 같아요!

어텐션은 컴퓨터가 텍스트를 읽을 때 어떻게 중요한 단어에 집중하는지를 설명하는 방법이에요. 예를 들어, "내가 어제 강아지와 함께 놀았어요"라는 문장이 있다고 해볼까요. 이 문장에서 "강아지"라는 단어는 이야기에 중요한 부분이에요. 어텐션 메커니즘은 이 "강아지"라는 단어에 더 많은 주의를 기울이고, 나머지 단어는 그만큼 덜 신경 쓰는 거죠.

### 간단한 예시

이제 조금 더 구체적인 예를 들어볼게요. 만약 여러분이 "사과는 빨갛고 맛있다"라는 문장을 읽고 있을 때, 어텐션은 "사과"라는 단어에 특히 주목하게 해요. 왜냐하면 이 단어가 문장에서 가장 중요한 의미를 갖고 있기 때문이죠.

어텐션은 이처럼 중요한 정보를 찾아내어 컴퓨터가 더 똑똑하게 텍스트를 이해하도록 도와주는 역할을 해요.

이해가 안 되거나 더 알고 싶은 부분이 있다면 언제든지 물어보세요!
"""},
        {'role':'user', 'content':'이해가 되는 것 같아. 트랜스포머 내역을 하나의 markdown문서로 정리해줘'}
    ]
)
print(response.choices[0].message.content)

물론입니다! 아래에 Transformer 모델의 핵심 내용을 하나의 Markdown 문서로 정리해 드리겠습니다.

```markdown
# Transformer 모델 개요

## 1. 개요
Transformer는 자연어 처리(NLP)에서 널리 사용되는 딥러닝 아키텍처로, 2017년 Vaswani et al.이 제안했습니다. 순차적인 데이터를 처리하는 RNN과 달리 병렬 처리가 가능하며, 자기 주의(Self-Attention) 메커니즘을 핵심으로 합니다.

---

## 2. 주요 구성 요소

### 2.1 인코더(Encoder)
- 입력 시퀀스를 처리하여 문맥 정보를 담은 벡터로 변환.
- 여러 개의 동일한 인코더 층으로 구성됨.

### 2.2 디코더(Decoder)
- 인코더의 출력과 이전 단어 정보를 바탕으로 다음 단어를 생성.
- 여러 개의 동일한 디코더 층으로 구성됨.

---

## 3. 핵심 기술

### 3.1 자기 주의(Self-Attention)
- 입력 시퀀스 내의 모든 단어들이 서로에게 얼마나 집중할지 계산.
- 문맥 이해를 돕고, 연산 병렬성을 높임.

### 3.2 포지셔널 인코딩(Positional Encoding)
- 단어의 순서 정보를 제공.
- 각 단어 위치에 대한 고유한 벡터를 더하여 위치 정보를 전달.

### 3.3 다중 헤드 주의(Multi-Head Attention)
- 여러 개의 주의 헤드를 병렬로 사용.
- 각 헤드는 다른 부분에 집중하여 다양하고 풍부한 문맥 정보를 학습.

### 3.4 피드포워드 네트워크(Feed-Forward Networks)
- 각 인코더/디코더 층 내에서 선형 변환 후 비선형 활성화.
- 각 단어별 독립적 처리.

---

## 4. 기타 기술 요소
- **Residual Connections (잔차 연결)**: 정보 손실 방지 및 학습 안정화.
- **Layer Normalization (레이어 정규화)**: 학습 속도와 성능 향상.
- **Dropout**: 과적합 방지.

---

#

## 반복처리

In [9]:
# 대화내역을 로깅
messages = [{
    'role': 'system', 'content': '너는 친절한 챗봇이다.'}
]

print('종료하려면, exit를 입력하세요...')
while True:
    # 사용자 입력
    user_input = input('User: ')

    if user_input.strip().lower() == 'exit':
        print('채팅을 종료합니다.')
        break

    # messages에 사용자 입력 추가
    messages.append(({'role': 'user', 'content': user_input}))

    # LLM 요청
    response = client.chat.completions.create(
        model='gpt-4.1-nano',
        messages=messages,
        temperature=0.7
    )
    assistant_message = response.choices[0].message.content
    print(f'Assistant: {assistant_message}')

    # messages 챗봇 출력 추가
    messages.append({'role': 'assistant', 'content': assistant_message})

종료하려면, exit를 입력하세요...
User: dfsa
[{'role': 'system', 'content': '너는 친절한 챗봇이다.'}, {'role': 'user', 'content': 'dfsa'}]
User: exit
채팅을 종료합니다.


## stream

In [10]:
stream = client.chat.completions.create(
    model='gpt-4.1-nano',
    messages=[{'role': 'user', 'content': '지금 stream테스트 할 거야, 아주 긴 응답 메세지를 보내줘.'}],
    stream=True
)
for chunk in stream:
    content = chunk.choices[0].delta.content
    if content is not None:
        print(content, end='')

물론입니다! 지금부터 아주 긴 응답 메시지를 보내드릴게요. 아래 내용을 잘 읽어보시기 바랍니다.

---

안녕하세요! 지금 스트림 테스트를 위해 긴 응답 메시지를 보내드리고 있습니다. 이 메시지는 여러 문단과 상세한 설명, 그리고 다양한 예제들을 포함하고 있어요. 이렇게 긴 메시지를 통해서 스트림 시스템이 어떤 식으로 데이터를 처리하는지, 그리고 얼마나 안정적이고 연속적으로 데이터를 전달할 수 있는지 테스트할 수 있습니다.

먼저, 스트림 스트리밍 기술에 대한 기본 설명부터 시작해보겠습니다. 스트림 스트리밍은 데이터 또는 미디어 콘텐츠를 실시간으로 또는 거의 실시간에 가깝게 전송하는 기술로, 사용자 경험을 향상시키는 데 매우 중요한 역할을 합니다. 예를 들어, 음악 앱에서 곡이 재생되는 동안 다음 곡의 데이터가 동시에 다운로드되거나, 동영상 스트리밍 서비스에서 영상이 끊기지 않고 계속 재생될 수 있는 원리라고 할 수 있죠. 이는 데이터 블록들이 연속적으로 작은 단위로 전달되기 때문에 가능하며, 네트워크 상태에 따라 적절하게 버퍼링과 오류 수정 기법이 함께 적용됩니다.

이제 좀 더 구체적인 내용을 살펴보겠습니다. 스트림 처리는 크게 세 가지 단계로 나뉩니다. 첫째, 데이터 생성 또는 수집 단계입니다. 여기서는 원천 데이터가 생성되거나 수집되고, 이를 일정한 크기의 '패킷' 또는 '조각'으로 나누는 과정이 이루어집니다. 둘째, 데이터 전송 단계에서는 이러한 패킷들이 네트워크를 통해 전달됩니다. 이 단계에서는 라우팅, 오류 수정, 재전송 요청 등 복잡한 작업들이 이루어지며, 특히 불안정한 네트워크 환경에서도 안정성을 확보하는 것이 매우 중요합니다. 셋째, 마지막으로 데이터 수신 및 재생 단계에서는 도착한 데이터 패킷이 올바른 순서로 조합되고, 재생하거나 저장하는 과정이 진행됩니다.

이와 관련된 기술로는 TCP와 UDP 등이 있는데요, TCP는 안정성을 강조하는 프로토콜로, 데이터 손실 없이 전송을 보장하지만 약간의 지연이 발생할 수 있습니다. 반면 UDP는 속

In [11]:
# stream
# 대화내역을 로깅
messages = [
    {'role': 'system', 'content': '너는 친절한 챗봇이다.'}
]

print('종료하려면, exit를 입력하세요...')
while True:
    # 사용자 입력
    user_input = input('User: ')

    if user_input.strip().lower() == 'exit':
        print('채팅을 종료합니다...')
        break

    # messages에 사용자 입력 추가
    messages.append({'role': 'user', 'content': user_input})

    # LLM 요청
    stream = client.chat.completions.create(
        model='gpt-4.1-nano',
        messages=messages,
        temperature=0.7,
        stream=True
    )
    print(f'Assistant: ', end='')
    for chunk in stream:
        content = chunk.choices[0].delta.content
        if content is not None:
            print(content, end='' ,flush=True) # 내부 buffer 사용하지 않음
    print()

    # messages 챗봇 출력 추가
    messages.append({'role': 'assistant','content': assistant_message})

종료하려면, exit를 입력하세요...
User: exit
채팅을 종료합니다...


# Token counting

비용 = ((입력 토큰 수 * 단가) * (출력 토큰 수 * 단가)) * 월 서비스 호출 수

In [12]:
!pip install tiktoken



In [17]:
# 각 모델에 따른 토커나이져(인코딩) 가져오기
import tiktoken

gpt35 = tiktoken.encoding_for_model('gpt-3.5')
gpt4o = tiktoken.encoding_for_model('gpt-4o')
# gpt4o = tiktoken.encoding_for_model('gpt-4.1')
gpt41 = tiktoken.get_encoding('cl100k_base')

print(gpt35)
print(gpt4o)
print(gpt41)

<Encoding 'cl100k_base'>
<Encoding 'o200k_base'>
<Encoding 'cl100k_base'>


In [16]:
# 토큰수 세기
encoded_gpt35 = gpt35.encode('아버지가 방에 들어가신다.')
encoded_gpt4o = gpt4o.encode('아버지가 방에 들어가신다.')

print(len(encoded_gpt35))
print(len(encoded_gpt4o))

13
10


## 토큰 비용 계산하기

In [18]:
text = """
더불어민주당이 6일 한동훈 국민의힘 대표가 윤석열 대통령 탄핵에 사실상 찬성 입장을 시사하자 7일로 예정됐던 윤석열 대통령의 탄핵소추안 표결을 앞당기는 방안을 고심하고 있다. 이재명 민주당 대표는 “한 대표의 입장을 정확하게 파악하는 것이 우선”이라며 신중한 태도를 보였다.

이 대표는 이날 기자들을 만나 윤 대통령 탄핵 표결을 앞당기는 방안에 대해 “지금 저렇게 불확실한 얘기를 믿고 미리 당겨서 협의를 할 필요가 있는가, 그런 생각이 일단 든다”고 말했다. 한 대표와의 회동 가능성에 대해서는 “요청은 했는데 아직 결정을 통보받지 못했다. (한 대표 측에서) 오후에 다시 연락하자는 연락이 왔다”고 전했다.

이 대표는 또 “사실 오늘 밤이 저는 매우 위험하다고 생각이 드는데, 제가 가진 감으로 본다면 오늘 밤 새벽에 또 뭔가 일을 벌이지 않을까 그런 걱정이 들긴 한다”며 ‘2차 계엄’ 가능성을 우려했다.

민주당은 이날 오전 한동훈 대표가 “윤 대통령의 조속한 직무 집행 정지가 필요하다”며 입장을 선회하자 긴급 의원총회를 열고 당내 의견 수렴에 나섰다. 의원총회에서는 탄핵소추안 표결 시점을 앞당기는 방안도 논의될 전망이다.

노종면 원내대변인은 비공개 최고위원 간담회가 끝난 뒤 “한 대표의 입장이 보도된 이후 긴장감이 높아지고 있고, 12월 3일 당일에 짐작했던 것 이상으로 치밀하게 의원, 정치인 체포 시도가 있었던 것과 이번 내란 사태에서 매우 중요한 작전이었던 걸로 파악되고 있다”며 “윤 대통령 옹위 세력이 어떻게 나올지 모르는 상황이라고 판단해 이런 비상한 상황 인식 떄문에 긴급 의원총회를 소집했다”고 전했다.

탄핵소추안 표결 시점 변경에 대해서는 “의장실에 본회의 일정 변경을 요청한 바는 아직 없다”며 “일단 신중하고 침착하게 대응할 것이고, 지금 한 대표 쪽의 입장이 뭔지 정확하게 파악하는 것이 우선이다. 필요하면 본회의를 앞당기는 방안도 의장실과 협조해서 추진할 수 있지만 아직은 결정된 바 없다”고 밝혔다.

민주당에서는 7일 오후 7시로 예정됐던 표결을 2시간 당겨 오후 5시에 추진하는 방안도 거론된다. 박성준 원내운영수석부대표는 이날 MBC 라디오 ‘김종배의 시선집중’ 인터뷰에서 “당초 오후 7시 정도 표결을 예상했는데 5시 정도는 해야 한다고 보고 있다”며 “국민의힘에서 탄핵소추안 투표 관련 상당한 지연 전략을 펼쳐서 시간을 늦출 수 있는 상황까지 고려하고 있다”고 설명했다.
"""

encoded_text_gpt4o = gpt4o.encode(text)
encoded_text_gpt41 = gpt41.encode(text)

print("gpt-4o 토큰수: ", len(encoded_text_gpt4o))
print("gpt-4.1 토큰수: ", len(encoded_text_gpt41))

gpt-4o 토큰수:  703
gpt-4.1 토큰수:  1215


In [21]:
response_gpt4o = client.chat.completions.create(
    model='gpt-4o',
    messages=[
        {'role': 'system', 'content': '너는 똑부러지는 시사/경제 전문가로써, 제공된 뉴스기사의 핵심을 잘 요약해서 정리해주는 챗봇이야.'},
        {'role': 'user', 'content': text}
    ],
    temperature=.2
)

response_gpt41 = client.chat.completions.create(
    model='gpt-4.1',
    messages=[
        {'role': 'system', 'content': '너는 똑부러지는 시사/경제 전문가로써, 제공된 뉴스기사의 핵심을 잘 요약해서 정리해주는 챗봇이야.'},
        {'role': 'user', 'content': text}
    ],
    temperature=.2
)

output_gpt4o = response_gpt4o.choices[0].message.content
output_gpt41 = response_gpt41.choices[0].message.content

print("gpt-4o 응답: ", output_gpt4o)
print("gpt-4.1 응답: ", output_gpt41)

print('\n', 'gpt-4o 토큰수: ', len(gpt4o.encode(output_gpt4o)))
print('gpt-4.1 토큰수: ', len(gpt41.encode(output_gpt41)))

gpt-4o 응답:  더불어민주당은 한동훈 국민의힘 대표가 윤석열 대통령 탄핵에 사실상 찬성하는 입장을 시사하자, 7일로 예정된 탄핵소추안 표결을 앞당기는 방안을 검토하고 있습니다. 이재명 민주당 대표는 한 대표의 입장을 정확히 파악하는 것이 우선이라며 신중한 태도를 보이고 있습니다. 민주당은 한 대표의 입장 변화에 따라 긴급 의원총회를 열어 당내 의견을 수렴하고 있으며, 표결 시점을 앞당기는 방안도 논의 중입니다. 현재로서는 본회의 일정 변경 요청은 없지만, 필요시 의장실과 협조해 추진할 수 있다고 밝혔습니다. 민주당은 표결을 오후 7시에서 5시로 앞당기는 방안을 고려하고 있으며, 국민의힘의 지연 전략에 대비하고 있습니다.
gpt-4.1 응답:  ### 기사 핵심 요약

**1. 민주당, 윤석열 대통령 탄핵소추안 표결 시점 앞당기나**
- 더불어민주당이 7일로 예정된 윤석열 대통령 탄핵소추안 표결을 앞당기는 방안을 검토 중임.
- 한동훈 국민의힘 대표가 “윤 대통령의 조속한 직무 집행 정지가 필요하다”며 사실상 탄핵에 찬성하는 듯한 입장을 시사한 것이 계기.

**2. 이재명 대표, 신중한 태도**
- 이재명 민주당 대표는 “한동훈 대표의 입장을 정확히 파악하는 것이 우선”이라며 신중한 입장.
- 한 대표와의 회동 요청은 했으나 아직 답변을 받지 못함.
- ‘2차 계엄’ 등 추가적인 돌발 사태 가능성에 대한 우려도 표명.

**3. 민주당, 긴급 의원총회 소집**
- 한동훈 대표의 발언 이후 긴급 의원총회 개최, 당내 의견 수렴 중.
- 탄핵소추안 표결 시점 앞당기는 방안도 논의.

**4. 표결 시점 변경 가능성**
- 공식적으로 본회의 일정 변경 요청은 아직 없음.
- 필요시 본회의를 앞당기는 방안도 검토 중.
- 7일 오후 7시로 예정된 표결을 오후 5시로 앞당기는 방안이 거론됨.
- 국민의힘의 지연 전략에 대비해 시간 조정 논의.

**5. 민주당의 우려와 대응**
- 민주당은 윤 대통령 측의 돌발 행동 가능성, 정치인 체포 시도 등 비상 상황을 우려

In [27]:
# 모델별 가격(2025년 6월 기준, 1M=1,000,000 토큰)
PRICING = {
    "gpt-4.1": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "gpt-4.1-mini": {
        "input": 0.40,    # $0.40 / 1M input tokens
        "output": 1.60    # $1.60 / 1M output tokens
    },
    "gpt-4.1-nano": {
        "input": 0.10,    # $0.10 / 1M input tokens
        "output": 0.40    # $0.40 / 1M output tokens
    },
    "o1": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "o3": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "o4-mini": {
        "input": 1.10,    # $1.10 / 1M input tokens
        "output": 4.40    # $4.40 / 1M output tokens
    },
    "gpt-4o": {
        "input": 2.50,    # $2.50 / 1M input tokens
        "output": 10.00   # $10.00 / 1M output tokens
    },
    "gpt-4o-mini": {
        "input": 0.15,    # $0.15 / 1M input tokens
        "output": 0.60    # $0.60 / 1M output tokens
    }
}

def count_tokens(text, model):
    if model == 'gpt-4.1':
        encoding = tiktoken.get_encoding('cl100k_base')
    else:
        encoding = tiktoken.encoding_for_model(model)
    encoded = encoding.encode(text)
    return len(encoded)

def calc_cost(input_text, output_text, model, num_service_call=1_000_000):
    input_tokens = count_tokens(input_text, model)
    output_tokens = count_tokens(output_text, model)

    # 모델별 단가 가져오기
    price = PRICING[model]

    # 비용계산
    input_cost = (input_tokens / 1_000_000) * price['input']
    output_cost = (output_tokens / 1_000_000) * price['output']

    total_cost = (input_cost + output_cost) * num_service_call
    return total_cost

print('$', calc_cost(text, output_gpt4o, model='gpt-4o-mini'))
print('$', calc_cost(text, output_gpt41, model='gpt-4.1'))


$ 224.85
$ 9070.0
