# Chat Completions API

Chat Completions API는 OpenAI에서 제공하는 대화형 인공지능 모델(GPT 계열)을 활용해, 사용자의 메시지에 대해 자연스러운 대화 응답을 생성하는 API이다. 이 API는 챗봇, AI 비서, 자동화된 상담 시스템 등 다양한 대화형 서비스에 적용할 수 있다.


- **대화 문맥 유지**  
  Chat Completions API는 여러 메시지(대화 내역)를 입력받아, 이전 대화의 맥락을 이해하고 그에 맞는 응답을 생성한다. 즉, 단순히 한 문장만을 이어 쓰는 것이 아니라, 대화의 흐름을 반영하여 자연스러운 대화를 이어갈 수 있다.

- **역할(Role) 기반 메시지 구조**  
  입력 메시지는 배열 형태로 전달하며, 각 메시지는 `role`과 `content`로 구성된다.  
  - `system`: AI의 태도, 성격, 역할을 정의(예: "너는 친절한 도우미야.")
  - `user`: 사용자의 질문이나 요청
  - `assistant`: AI의 응답(이전 대화 내용 포함 가능)
  
  이 구조를 통해 AI의 응답 스타일이나 맥락을 세밀하게 제어할 수 있다[1][3][5].

**주요 파라미터 설명**

| 파라미터        | 설명                                                                 |
|----------------|----------------------------------------------------------------------|
| model          | 사용할 언어 모델명 (예: gpt-3.5-turbo, gpt-4o 등)                    |
| messages       | 대화 내역(역할/내용 포함) 배열                                        |
| max_tokens     | 생성할 응답의 최대 토큰 수(선택)                                     |
| temperature    | 창의성 조절(0~2, 낮을수록 일관성↑, 높을수록 다양성↑, 선택)           |
| top_p          | 누적 확률 기반 샘플링(temperature와 유사, 선택)                      |
| n              | 한 번에 생성할 응답 개수(선택)                                       |
| stop           | 응답 생성을 중단할 문자열 목록(선택)                                 |
| presence_penalty, frequency_penalty | 반복 억제 및 창의성 유도(선택)                 |
| user           | 사용자 식별자(선택, abuse monitoring 등 활용)                        |


- 위 예시에서 `messages` 배열에는 대화의 모든 메시지가 순서대로 들어가야 한다.  
- OpenAI는 이전 요청을 기억하지 않기 때문에, 매 API 호출마다 대화 내역 전체를 함께 보내야 한다.

In [2]:
import os
from google.colab import userdata
from openai import OpenAI

# OPENAI_API_KEY = userdata.get('OPENAI_API_KEY')
# client = OpenAI(api_key=OPENAI_API_KEY)

# 환경변수 지정
os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')
client = OpenAI()

## 대화형 챗봇

In [18]:
response = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[
        {'role': 'system', 'content': '너는 LLM 전문가입니다.'},
        {'role': 'user', 'content': '안녕, 나는 LLM 꿈나무 차은우야~'},
        {'role': 'assistant', 'content': '안녕하세요, 차은우님! LLM 꿈나무라니 멋지네요! 어떤 부분에 대해 이야기하고 싶으신가요? LLM에 대한 질문이나 궁금한 점이 있다면 언제든지 말씀해 주세요.'},
        {'role': 'user', 'content': 'Transformer모델을 공부하고 싶어.'},
        {'role': 'assistant', 'content':"""
        좋습니다! Transformer 모델은 자연어 처리(NLP) 분야에서 혁신적인 변화를 가져온 중요한 아키텍처입니다. 기본 개념부터 시작해볼까요?

1. **Transformer 구조**:
   - **인코더(Encoder)**와 **디코더(Decoder)**로 구성됩니다. 전통적인 RNN과 달리, Transformer는 입력 데이터의 모든 부분을 동시에 처리할 수 있습니다.
   - 인코더는 입력 문장을 이해하고, 디코더는 이 정보를 바탕으로 출력 문장을 생성합니다.

2. **Self-Attention 메커니즘**:
   - 이 메커니즘은 문장 내 단어들 간의 관계를 고려하여 각 단어의 표현을 생성합니다. 각 단어는 다른 단어의 정보를 참조할 수 있습니다.
   - 이를 통해 단어 간의 중요성을 동적으로 조정할 수 있습니다.

3. **포지셔널 인코딩**:
   - Transformer는 순서를 인식하지 못하기 때문에, 단어의 위치 정보를 추가하기 위해 포지셔널 인코딩을 사용합니다.

4. **다중 헤드 어텐션(Multi-Head Attention)**:
   - 여러 개의 어텐션 메커니즘을 동시에 사용할 수 있도록 하여 다양한 맥락에서 정보를 캡처합니다.

5. **피드포워드 신경망**:
   - 각 인코더와 디코더 블록 내에 위치하여, 각 단어의 표현을 변환합니다.

6. **Layer Normalization 및 Residual Connection**:
   - 각 층의 출력을 안정화하고 학습을 돕기 위해 사용됩니다.

Transformer 모델은 BERT, GPT, T5 등 다양한 변형이 있으며, 각각의 사용 사례에 맞게 최적화되어 있습니다.

Transformer에 대해 더 궁금한 점이 있거나 구체적으로 알고 싶은 내용이 있다면 말씀해 주세요!
        """},
        {'role': 'user', 'content': '어려워..어텐션을 초등학생도 이해할수있게 설명해줘.'},
        {'role':'assistant','content':"""
        물론이죠! 어텐션(attention) 메커니즘을 초등학생도 이해할 수 있도록 쉽게 설명해볼게요.

### 어텐션을 이해하기 위한 비유: 수업 시간에 친구의 말 듣기

Imagine you are in a classroom, and your teacher is explaining something very important. There are many friends around you talking and making noise, but you want to focus on what the teacher is saying. Here’s how attention works in this situation:

1. **선택적 집중**:
   - 여러분은 선생님의 목소리만 듣고, 친구들이 하는 말은 크게 신경 쓰지 않을 거예요. 즉, 여러분은 중요한 정보인 선생님의 설명에 "어텐션"을 집중하고 있다는 거죠.

2. **중요성 평가**:
   - 만약 선생님이 "키워드" 같은 중요한 단어를 말할 때, 여러분은 그 단어에 더 집중할 거예요. 예를 들어, "시험" 또는 "과제"라는 단어가 나오면, 그에 더 관심을 가질 거예요.

3. **정보 연결**:
   - 이제 선생님이 "곰이 나무 위에 있으면"이라고 말씀하셨다고 가정해보세요. "곰"과 "나무"가 어떤 관계가 있는지 생각하면서, 이전에 배운 내용을 떠올려 보세요. 이처럼 여러분은 선생님이 하는 말 속에서 중요한 단어들 사이의 관계를 이해하고, 연결 시켜 나갑니다.

### 어텐션의 역할
- 어텐션 메커니즘은 컴퓨터가 문장을 처리할 때도 비슷하게 작동합니다. 컴퓨터는 문장의 각 단어 사이의 관계를 이해하고, 중요한 단어에 더 많은 "관심"을 두게 됩니다. 이를 통해 문맥을 잘 파악하게 되는 거죠.

이렇게 어텐션은 우리가 소중한 정보에 집중할 수 있게 도와주는 '집중력'과 비슷한 역할을 합니다! 이해하기 쉬웠나요? 추가적인 질문이 있다면 언제든지 물어보세요!
        """},
        {'role': 'user', 'content': '이해가 잘된것같아. 그럼 트랜스포머 내용을 요약해서 하나의 markdown문서로 정리해줘'},
    ]
)
print(response.choices[0].message.content)

물론입니다! 아래는 Transformer 모델에 대한 내용을 요약한 Markdown 문서입니다.

```markdown
# Transformer 모델 요약

Transformer 모델은 자연어 처리(NLP)에서 혁신적인 아키텍처로, 주로 인코더(Encoder)와 디코더(Decoder)로 구성됩니다. 기존의 RNN과 달리, 입력 데이터의 모든 부분을 동시에 처리할 수 있는 특성을 가지고 있습니다.

## 1. 구조
- **인코더**: 입력 문장을 이해하고 정보를 압축합니다.
- **디코더**: 인코더에서 전달받은 정보를 바탕으로 출력 문장을 생성합니다.

## 2. Self-Attention 메커니즘
- 문장 내 단어들 간의 관계를 파악하여, 각 단어의 표현을 동적으로 생성합니다.
- 중요한 단어에 더 많은 "주의"를 기울임으로써 문맥을 이해합니다.

## 3. 포지셔널 인코딩
- 단어의 순서를 이해하기 위해 입력 정보에 위치 정보를 추가하는 과정입니다.

## 4. 다중 헤드 어텐션
- 여러 개의 어텐션을 동시에 사용하여 다양한 맥락에서 정보를 캡처합니다.

## 5. 피드포워드 신경망
- 각 인코더 및 디코더 블록 내에 위치하며, 단어 표현을 변환합니다.

## 6. Layer Normalization 및 Residual Connection
- 층의 출력을 안정화하고 학습 속도를 높이기 위해 사용됩니다.

## 7. 활용 및 발전
- Transformer 구조는 BERT, GPT, T5 등 다양한 NLP 모델의 기초가 됩니다.

## 결론
Transformer 모델은 자연어 처리를 혁신적으로 변화시키며, 다양한 변형 모델들이 연구되고 개발되고 있습니다.
```

이 문서를 복사하여 Markdown 형식으로 저장하거나 사용할 수 있습니다. 추가적으로 더 알고 싶은 내용이 있으면 언제든지 말씀해 주세요!


## 반복처리

In [30]:
# 대화내역을 로깅
messages = [
    {'role': 'system', 'content': '너는 친절한 챗봇이다.'}
]

print('종료하려면, exit를 입력하세요...')
while True:
    # 사용자 입력
    user_input = input('User: ')

    if user_input.strip().lower() == 'exit':
        print('채팅을 종료합니다...')
        break

    # messages에 사용자 입력 추가
    messages.append({'role': 'user', 'content': user_input})

    # LLM 요청
    response = client.chat.completions.create(
        model='gpt-4.1',
        messages=messages,
        temperature=1
    )
    assistant_message = response.choices[0].message.content
    print(f'Assistant: {assistant_message}')

    # messages 챗봇 출력 추가
    messages.append({'role': 'assistant','content': assistant_message})

종료하려면, exit를 입력하세요...
User: ㅇㅇ
Assistant: 안녕하세요! 😊 어떻게 도와드릴까요?
User: exit
채팅을 종료합니다...


## Stream

In [24]:
stream = client.chat.completions.create(
    model='gpt-4o-mini',
    messages=[{'role':'user', 'content': '지금 stream테스트할거야. 아주 긴 응답 메세지를 보내줘.'}],
    stream = True)
for chunk in stream:
    content = chunk.choices[0].delta.content
    if content is not None:
       print(chunk.choices[0].delta.content, end='')

물론 가능합니다! 아래 예시는 긴 응답 메시지입니다.

---

안녕하세요! 오늘은 다양한 주제에 대해 이야기를 나눠보겠습니다. 먼저, 여러분이 관심을 가질 수 있는 몇 가지 주제를 소개하겠습니다.

1. **기술 발전**: 현재 인공지능, 블록체인, 클라우드 컴퓨팅 등 다양한 기술들이 빠르게 발전하고 있습니다. 특히 인공지능은 여러 산업 분야에 혁신을 가져오고 있으며, 자동화와 데이터 분석의 역할이 더욱 중요해지고 있습니다.

2. **환경 문제**: 기후 변화는 현재 인류가 직면한 가장 큰 도전 중 하나입니다. 온실가스 배출 감소를 위한 노력, 재생 가능 에너지 개발, 플라스틱 사용 줄이기 등에 대한 논의가 활발히 이루어지고 있습니다. 개인의 작은 습관 변화가 큰 효과를 낼 수 있음을 기억하는 것이 중요합니다.

3. **문화와 사회**: 세계 각국의 다양한 문화가 서로 연결되고 있습니다. 문화 교류는 이해와 존중을 바탕으로 이루어져야 하며, 이를 통해 글로벌 사회에서 협력하고 공존하는 길을 모색할 수 있습니다.

4. **정신 건강**: 현대 사회에서 정신 건강의 중요성이 점점 부각되고 있습니다. 스트레스 관리, 우울증 예방, 심리적 지지 등이 필요하며, 이러한 이슈를 다루는 다양한 프로그램과 시민들의 참여가 요구됩니다.

5. **교육 변화**: 코로나19 팬데믹을 통해 원격 교육의 필요성이 강조되었습니다. 교육의 접근성과 질을 높이기 위한 다양한 노력이 필요하며, 기술을 활용한 학습 방법 개선과 함께 인성 교육도 중요하게 여겨지고 있습니다.

이러한 주제들은 각기 다르지만 모두 현대 사회에서 중요한 이슈들입니다. 이러한 주제들에 대해 더 깊이 이야기해 보고 싶다면 언제든지 질문해 주세요. 여러분의 의견이나 경험도 나눠주시면 더욱 풍성한 대화가 될 것입니다!

마지막으로, 우리는 각자의 위치에서 작은 변화를 이끌어낼 수 있는 힘을 가지고 있습니다. 그 변화는 누군가에게 큰 영향을 미칠 수 있으며, 우리의 노력은 결국 더 나은 미래로 이어질 것입니다. 그

In [40]:
# stream 버젼
messages = [
    {'role': 'system', 'content': '너는 친구같은 현명하고 mbti가 f인 챗봇이다.'}
]

print('종료하려면, exit를 입력하세요...')
while True:
    # 사용자 입력
    user_input = input('User: ')

    if user_input.strip().lower() == 'exit':
        print('채팅을 종료합니다...')
        break

    # messages에 사용자 입력 추가
    messages.append({'role': 'user', 'content': user_input})

    # LLM 요청
    stream = client.chat.completions.create(
        model='gpt-4.1',
        messages=messages,
        temperature=1,
        stream=True
    )
    print(f'Assistant: ', end='')
    for chunk in stream:
        content = chunk.choices[0].delta.content
        if content is not None:
            print(content, end='', flush=True) # 내부 buffer 사용하지 않음
    print()

    # messages 챗봇 출력 추가
    messages.append({'role': 'assistant','content': assistant_message})

종료하려면, exit를 입력하세요...
User: exit
채팅을 종료합니다...


# Token counting

비용 = ((입력토큰 수 * 단가) * (출력토큰 수 * 단가)) * 월 서비스 호출 횟수

In [34]:
!pip install tiktoken



In [42]:
# 각 모델에 따른 토커나이져(인코딩) 가져오기
import tiktoken

gpt35 = tiktoken.encoding_for_model('gpt-3.5')
gpt4o = tiktoken.encoding_for_model('gpt-4o')
gpt41 = tiktoken.get_encoding('cl100k_base')

print(gpt35)
print(gpt4o)

<Encoding 'cl100k_base'>
<Encoding 'o200k_base'>


In [38]:
# 토큰수 세기
encoded_gpt_35 = gpt35.encode('아버지가 방에 들어가신다.')
encoded_gpt_4o = gpt4o.encode('아버지가 방에 들어가신다.')

print(f'gpt-3.5: {len(encoded_gpt_35)} tokens')
print(f'gpt-4o: {len(encoded_gpt_4o)} tokens')

gpt-3.5: 13 tokens
gpt-4o: 10 tokens


## 토큰비용 계산하기


In [43]:
text = """
더불어민주당이 6일 한동훈 국민의힘 대표가 윤석열 대통령 탄핵에 사실상 찬성 입장을 시사하자 7일로 예정됐던 윤석열 대통령의 탄핵소추안 표결을 앞당기는 방안을 고심하고 있다. 이재명 민주당 대표는 “한 대표의 입장을 정확하게 파악하는 것이 우선”이라며 신중한 태도를 보였다.

이 대표는 이날 기자들을 만나 윤 대통령 탄핵 표결을 앞당기는 방안에 대해 “지금 저렇게 불확실한 얘기를 믿고 미리 당겨서 협의를 할 필요가 있는가, 그런 생각이 일단 든다”고 말했다. 한 대표와의 회동 가능성에 대해서는 “요청은 했는데 아직 결정을 통보받지 못했다. (한 대표 측에서) 오후에 다시 연락하자는 연락이 왔다”고 전했다.

이 대표는 또 “사실 오늘 밤이 저는 매우 위험하다고 생각이 드는데, 제가 가진 감으로 본다면 오늘 밤 새벽에 또 뭔가 일을 벌이지 않을까 그런 걱정이 들긴 한다”며 ‘2차 계엄’ 가능성을 우려했다.

민주당은 이날 오전 한동훈 대표가 “윤 대통령의 조속한 직무 집행 정지가 필요하다”며 입장을 선회하자 긴급 의원총회를 열고 당내 의견 수렴에 나섰다. 의원총회에서는 탄핵소추안 표결 시점을 앞당기는 방안도 논의될 전망이다.

노종면 원내대변인은 비공개 최고위원 간담회가 끝난 뒤 “한 대표의 입장이 보도된 이후 긴장감이 높아지고 있고, 12월 3일 당일에 짐작했던 것 이상으로 치밀하게 의원, 정치인 체포 시도가 있었던 것과 이번 내란 사태에서 매우 중요한 작전이었던 걸로 파악되고 있다”며 “윤 대통령 옹위 세력이 어떻게 나올지 모르는 상황이라고 판단해 이런 비상한 상황 인식 떄문에 긴급 의원총회를 소집했다”고 전했다.

탄핵소추안 표결 시점 변경에 대해서는 “의장실에 본회의 일정 변경을 요청한 바는 아직 없다”며 “일단 신중하고 침착하게 대응할 것이고, 지금 한 대표 쪽의 입장이 뭔지 정확하게 파악하는 것이 우선이다. 필요하면 본회의를 앞당기는 방안도 의장실과 협조해서 추진할 수 있지만 아직은 결정된 바 없다”고 밝혔다.

민주당에서는 7일 오후 7시로 예정됐던 표결을 2시간 당겨 오후 5시에 추진하는 방안도 거론된다. 박성준 원내운영수석부대표는 이날 MBC 라디오 ‘김종배의 시선집중’ 인터뷰에서 “당초 오후 7시 정도 표결을 예상했는데 5시 정도는 해야 한다고 보고 있다”며 “국민의힘에서 탄핵소추안 투표 관련 상당한 지연 전략을 펼쳐서 시간을 늦출 수 있는 상황까지 고려하고 있다”고 설명했다.
"""

encoded_text_gpt4o = gpt4o.encode(text)
encoded_text_gpt41 = gpt41.encode(text)

print("gpt-4o 토큰수: ", len(encoded_text_gpt4o))
print("gpt-4.1 토큰수: ", len(encoded_text_gpt41))


gpt-4o 토큰수:  703
gpt-4.1 토큰수:  1215


In [46]:
response_gpt4o = client.chat.completions.create(
    model='gpt-4o',
    messages=[
        {'role': 'system', 'content': '너는 똑부러지는 시사/경제 전문가로써, 제공된 뉴스기사의 핵심을 잘 요약해서 정리해주는 챗봇이야.'},
        {'role': 'user', 'content': text}
    ],
    temperature=.2
)

response_gpt41 = client.chat.completions.create(
    model='gpt-4.1',
    messages=[
        {'role': 'system', 'content': '너는 똑부러지는 시사/경제 전문가로써, 제공된 뉴스기사의 핵심을 잘 요약해서 정리해주는 챗봇이야.'},
        {'role': 'user', 'content': text}
    ],
    temperature=.2
)

output_gpt4o = response_gpt4o.choices[0].message.content
output_gpt41 = response_gpt41.choices[0].message.content

print(output_gpt4o)
print(output_gpt41)

print('\n', 'gpt-4o 토큰수: ', len(gpt4o.encode(output_gpt4o)))
print('gpt-4.1 토큰수: ', len(gpt41.encode(output_gpt41)))

더불어민주당은 한동훈 국민의힘 대표가 윤석열 대통령 탄핵에 사실상 찬성하는 입장을 시사하자, 예정된 탄핵소추안 표결 시점을 앞당기는 방안을 검토하고 있습니다. 이재명 민주당 대표는 한 대표의 입장을 정확히 파악하는 것이 우선이라며 신중한 태도를 보이고 있습니다. 민주당은 한 대표의 발언 이후 긴급 의원총회를 열어 당내 의견을 수렴하고 있으며, 표결 시점을 7일 오후 7시에서 5시로 앞당기는 방안도 논의 중입니다. 민주당은 국민의힘의 지연 전략을 염두에 두고 있으며, 상황에 따라 본회의 일정을 조정할 가능성도 열어두고 있습니다.
### 기사 핵심 요약

**1. 민주당, 윤석열 대통령 탄핵소추안 표결 시점 앞당길지 검토**
- 한동훈 국민의힘 대표가 윤 대통령 탄핵에 사실상 찬성하는 듯한 발언을 하자, 민주당이 7일로 예정된 탄핵소추안 표결을 더 앞당기는 방안을 논의 중임.
- 이재명 민주당 대표는 한동훈 대표의 진짜 의도를 먼저 파악해야 한다며 신중한 입장.

**2. 긴급 의원총회 소집 및 내부 논의**
- 한동훈 대표의 입장 변화 이후 민주당은 긴급 의원총회를 열어 당내 의견을 수렴.
- 표결 시점을 앞당기는 방안도 논의되고 있으나, 아직 국회의장실에 공식 요청은 하지 않은 상태.

**3. 민주당의 우려와 경계**
- 이재명 대표는 ‘2차 계엄’ 등 돌발 상황을 우려하며, 밤사이 돌발 사태 가능성에 경계.
- 민주당은 12월 3일에도 예상보다 치밀한 정치인 체포 시도가 있었다고 판단, 긴장감 고조.

**4. 표결 시간 변경 가능성**
- 당초 7일 오후 7시로 예정된 표결을 오후 5시로 앞당기는 방안이 거론됨.
- 국민의힘이 표결 지연 전략을 쓸 가능성에 대비해 시간 조정 논의.

**핵심 포인트 정리**
- 한동훈 대표의 탄핵 관련 발언이 민주당의 표결 전략에 변수로 작용.
- 민주당은 신중하게 상황을 파악하며, 필요시 표결 시점 조정 가능성 열어둠.
- 정치적 긴장감이 고조된 가운데, 돌발 사태에 대한 경계도 강화.

 gpt-4o 토큰수:  179

In [50]:
# 모델별 가격(2025년 6월 기준, 1M=1,000,000 토큰)
PRICING = {
    "gpt-4.1": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "gpt-4.1-mini": {
        "input": 0.40,    # $0.40 / 1M input tokens
        "output": 1.60    # $1.60 / 1M output tokens
    },
    "gpt-4.1-nano": {
        "input": 0.10,    # $0.10 / 1M input tokens
        "output": 0.40    # $0.40 / 1M output tokens
    },
    "o1": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "o3": {
        "input": 2.00,    # $2.00 / 1M input tokens
        "output": 8.00    # $8.00 / 1M output tokens
    },
    "o4-mini": {
        "input": 1.10,    # $1.10 / 1M input tokens
        "output": 4.40    # $4.40 / 1M output tokens
    },
    "gpt-4o": {
        "input": 2.50,    # $2.50 / 1M input tokens
        "output": 10.00   # $10.00 / 1M output tokens
    },
    "gpt-4o-mini": {
        "input": 0.15,    # $0.15 / 1M input tokens
        "output": 0.60    # $0.60 / 1M output tokens
    }
}

def count_tokens(text, model):
    if model == 'gpt-4.1':
        encoding = tiktoken.get_encoding('cl100k_base')
    else:
        encoding = tiktoken.encoding_for_model(model)
    encoded = encoding.encode(text)
    return len(encoded)

def calc_cost(input_text, output_text, model, num_service_call=1_000_000):
    input_tokens = count_tokens(input_text, model)
    output_tokens = count_tokens(output_text, model)

    # 모델별 단가 가져오기
    price = PRICING[model]

    # 비용계산
    input_cost = (input_tokens / 1_000_000) * price['input']
    output_cost = (output_tokens / 1_000_000) * price['output']

    total_cost = (input_cost + output_cost) * num_service_call
    return total_cost

print('$', calc_cost(text, output_gpt4o, model='gpt-4o-mini'))
print('$', calc_cost(text, output_gpt41, model='gpt-4.1'))

$ 212.85
$ 7862.000000000001
