<a href="https://colab.research.google.com/github/arumshin-dev/python_conda_jupyter/blob/main/codeit/3_4_1_gpt5_API.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GPT-5.1 와 API 사용 예

| 모드 (Mode)      | 용도 (Use Case)   | 속도 (Speed, 1~5) | 정확도 (Accuracy, 1~5) | 비용 (Cost, 1~5) |
|------------------|--------------------|---------------------|--------------------------|-------------------|
| **Instant**       | 일상 작업          | 3                   | 4                        | 2                 |
| **Thinking**      | 복잡한 추론        | 2                   | 5                        | 3                 |
| **No Reasoning**  | 빠른 응답          | 4                   | 3                        | 1                 |


✅ GPT-5.1 API 모델명 (Instant / Thinking)

**Instant 모드**
- 모델명: "gpt-5.1-chat-latest"
- 특징: 빠른 응답, 일상적인 작업·대화형 작업에 적합
- reasoning_effort="high" 옵션을 주면 Instant 모델에서도 일정 수준의 Thinking 스타일 추론을 유도할 수 있음

**Thinking 모드**
- 모델명: "gpt-5.1"
- 특징: 복잡한 추론, 논리적 문제 해결, 코드 분석에 적합

https://platform.openai.com/docs/pricing

https://platform.openai.com/docs/models


In [None]:
# 1. OpenAI Python 라이브러리 설치
!pip install openai python-dotenv

Name: openai
Version: 1.109.1
Summary: The official Python library for the openai API
Home-page: https://github.com/openai/openai-python
Author: 
Author-email: OpenAI <support@openai.com>
License: Apache-2.0
Location: /usr/local/lib/python3.12/dist-packages
Requires: anyio, distro, httpx, jiter, pydantic, sniffio, tqdm, typing-extensions
Required-by: 


In [None]:
import os
from getpass import getpass

# OpenAI API key
openai_api_key = getpass("Enter your OpenAI API key: ")

# API키 설정
os.environ["OPENAI_API_KEY"] = openai_api_key

Enter your OpenAI API key: ··········


### **API Key 발급**

1. https://platform.openai.com 접속
2. API Keys 메뉴에서 새 키 생성

In [None]:
from openai import OpenAI
import os

client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))

# 간단한 테스트
response = client.chat.completions.create(
    model="pt-5.1-chat-latest",
    messages=[{"role": "user", "content": "안녕!"}]
)
print(response.choices[0].message.content)

안녕! 반가워요. 무엇을 도와드릴까요? 몇 가지 예시를 드리면:

- 한국어 공부 도움: 표현, 문법, 어휘 공부
- 번역이나 문장 다듬기
- 정보 찾기: 과학, 기술, 역사 등
- 레시피나 여행 정보
- 코드나 수학 문제 풀이

먼저 하고 싶은 주제나 궁금한 점이 있나요? 오늘의 기분이나 관심사도 들려주시면 같이 얘기해 볼게요.


**OpenAI Key Pricing**
https://platform.openai.com/docs/pricing


##  Instant 모드

### 1. Adaptive Reasoning - 질문 난이도 자동 판단
- GPT-5.1 Instant는 질문의 난이도를 자동으로 판단
- 쉬운 질문: 빠른 응답 (2초)
- 어려운 질문: 깊은 사고 (10초)



In [None]:
# 쉬운 질문 - 빠른 응답
easy_question = "npm 전역 패키지 목록 명령어는?"
# 예상 응답 시간: ~2초

# API call
response = client.chat.completions.create(
    model="gpt-5.1-chat-latest",
    messages=[{"role": "user", "content": easy_question}]
)
print(response.choices[0].message.content)

npm에서 전역(global)으로 설치된 패키지 목록을 보려면 다음 명령어를 사용하면 됩니다.

npm list -g --depth=0

설명:
• -g : 전역(global) 패키지를 의미
• --depth=0 : 최상위 패키지만 보여줘서 보기 쉽게 함

추가로 전역 설치 경로를 확인하려면:

npm root -g

npm이 전역 패키지를 설치하는 위치를 확인할 수 있습니다.


In [None]:
# 어려운 질문 - 깊은 사고
hard_question = """
다음 시나리오에서 최적의 마이크로서비스 아키텍처를 설계하세요:
- 일일 1억 건의 트랜잭션
- 99.99% 가용성 요구
- 실시간 데이터 동기화
- 글로벌 배포
"""
# 예상 응답 시간: ~10초

# API call
response = client.chat.completions.create(
    model="gpt-5.1-chat-latest",
    messages=[{"role": "user", "content": hard_question}]
)
print(response.choices[0].message.content)

아래는 제시된 조건(일일 1억 트랜잭션, 99.99% 가용성, 실시간 동기화, 글로벌 배포)에 최적화된 **마이크로서비스 아키텍처 설계**입니다.  
특정 기술 이름은 예시이며, 전체 구조 설계를 중심으로 설명합니다.

---

최적 아키텍처 개요
- 글로벌 분산 환경을 전제로 한 **이벤트 기반 마이크로서비스 아키텍처**
- 지역별로 독립 운영하면서 데이터는 실시간으로 전 세계에 **Eventually Consistent** 또는 **Strong-consistency가 필요한 부분만 선택적 처리**
- 지역 장애에도 운영 가능한 **Active‑Active 배포**
- 99.99% 가용성을 위한 **자동 복구·무중단 배포·수평확장 구조**

---

핵심 구성 요소

1. API Gateway / Edge Layer  
   - 지역별(Region-local) API Gateway 운영  
   - 글로벌 트래픽 라우팅: Anycast DNS 또는 GSLB  
   - 기능  
     * Rate limiting  
     * Auth  
     * Request routing  
     * Zero-downtime failover

2. 마이크로서비스 구조  
   - 각 서비스는 독립 배포·스케일링 가능  
   - Stateless 우선 설계  
   - 필요 시 CQRS 패턴 적용(읽기/쓰기 분리)

3. 데이터 저장 계층  
   - 글로벌 분산 가능 DB 선택  
       * 예: DynamoDB Global Table, CockroachDB, Spanner 등  
   - 쓰기 강도가 높은 서비스는 지역-local write → 메시지 스트림 기반 글로벌 동기화  
   - 장점  
       * Latency 감소  
       * 장애 지역 독립성  
       * 글로벌 데이터 일관성 보장

4. 이벤트 스트리밍 & 실시간 동기화  
   - 핵심 메시지 버스: Kafka, Pulsar, 또는 Managed streaming

### 2. 실전 활용

**Use Case 1: 이메일 자동 작성**


In [None]:
prompt = """
다음 정보로 전문적인 이메일을 작성하세요:
- 받는 사람: 김철수 부장님
- 목적: 프로젝트 일정 연기 요청
- 이유: 외부 API 통합 지연
- 새로운 일정: 2주 연장
"""

# API call
response = client.chat.completions.create(
    model="gpt-5-nano",
    messages=[{"role": "user", "content": prompt}]
)
print(response.choices[0].message.content)

Subject: 프로젝트 일정 연기 요청의 건

수신: 김철수 부장님께

안녕하세요. 프로젝트 관리팀의 [발신인 이름]입니다.

현재 진행 중인 [프로젝트명]의 일정에 대해 보고 드리며, 일정 연기를 공식적으로 요청드립니다.

사유: 외부 API 통합 지연으로 인해 원래 계획대로 개발 및 검증을 완료하기 어려운 상황입니다. 이로 인해 전체 일정에 영향이 예상되므로 부득이한 일정 연장이 필요합니다.

새로운 일정: 기존 마감일로부터 2주 연장된 일정으로 조정하는 것을 제안드립니다. 구체적 마일스톤 및 예상 완료일은 부장님의 확인 후 확정해 드리겠습니다.

대책 및 관리: 리스크 관리 계획을 보강하고, 외부 API 상태를 주간으로 모니터링하며 필요 시 대체 시나리오를 마련하겠습니다. 또한, 진행 상황은 주간 업데이트를 통해 공유드리겠습니다.

부장님의 확인 및 승인을 부탁드립니다. 승인이 되면 즉시 상세 일정표를 공유하고, 필요한 경우 짧은 미팅을 통해 추가 설명드리겠습니다. 시간을 알려주시면 조정하겠습니다.

감사합니다.

[발신인 이름] [직책] [연락처] [소속/부서]


In [None]:
response

ChatCompletion(id='chatcmpl-CfIFXXT6Xoy0FOJZbGJYr8GsOIclQ', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='Subject: 프로젝트 일정 연기 요청의 건\n\n수신: 김철수 부장님께\n\n안녕하세요. 프로젝트 관리팀의 [발신인 이름]입니다.\n\n현재 진행 중인 [프로젝트명]의 일정에 대해 보고 드리며, 일정 연기를 공식적으로 요청드립니다.\n\n사유: 외부 API 통합 지연으로 인해 원래 계획대로 개발 및 검증을 완료하기 어려운 상황입니다. 이로 인해 전체 일정에 영향이 예상되므로 부득이한 일정 연장이 필요합니다.\n\n새로운 일정: 기존 마감일로부터 2주 연장된 일정으로 조정하는 것을 제안드립니다. 구체적 마일스톤 및 예상 완료일은 부장님의 확인 후 확정해 드리겠습니다.\n\n대책 및 관리: 리스크 관리 계획을 보강하고, 외부 API 상태를 주간으로 모니터링하며 필요 시 대체 시나리오를 마련하겠습니다. 또한, 진행 상황은 주간 업데이트를 통해 공유드리겠습니다.\n\n부장님의 확인 및 승인을 부탁드립니다. 승인이 되면 즉시 상세 일정표를 공유하고, 필요한 경우 짧은 미팅을 통해 추가 설명드리겠습니다. 시간을 알려주시면 조정하겠습니다.\n\n감사합니다.\n\n[발신인 이름] [직책] [연락처] [소속/부서]', refusal=None, role='assistant', annotations=[], audio=None, function_call=None, tool_calls=None))], created=1763957635, model='gpt-5-nano-2025-08-07', object='chat.completion', service_tier='default', system_fingerprint=None, usage=CompletionUsage(completion_tokens=34

**Use Case 2: 코드 리뷰**

In [None]:
prompt = """
다음 Python 코드를 리뷰하고 개선점을 제시하세요:

def process_data(data):
    result = []
    for i in range(len(data)):
        if data[i] > 0:
            result.append(data[i] * 2)
    return result
"""

# API call
response = client.chat.completions.create(
    model="gpt-5-nano",
    messages=[{"role": "user", "content": prompt}]
)
print(response.choices[0].message.content)

다음 코드의 의도는 데이터에서 양수인 값들만 남기고 각 값을 2배로 만드는 것입니다. 현재 구현은 파이썬답지 않게 인덱스 접근(range(len(data)))을 사용하고 있어 가독성과 성능 측면에서 개선 여지가 있습니다. 아래에 개선점과 간단한 대안을 제시합니다.

개선점 요약
- 파이썬ic하게 작성: 인덱스 순회 대신 직접 원소를 순회하기
- 간결한 표현: 리스트 컴프리헨션으로 한 줄로 표현 가능
- 타입 힌트 추가: 코드의 의도를 명확히 하고 IDE 도움을 받기 쉬움
- 문서화: 간단한 docstring 추가
- 입력 검증: data가 iterable인지 확인하거나 None 처리 등을 고려 가능
- 보완 옵션: 비례 계수(factor) 같은 파라미터화, 제네레이터 버전으로 메모리 절감 가능
- 부정적 예외 관리: 불리언(True/False)도 포함될 수 있는 점 주의(필요 시 제외 가능)

권장 개선 코드 예시

1) 가장 간단하고 파이썬답게
- 의도: 양수인 값 x에 대해 x*2를 결과로 만듦
- 구현: 리스트 컴프리헨션 사용

def process_data(data):
    """Return a list of doubled positive numbers from the input data."""
    return [x * 2 for x in data if x > 0]

2) 타입 힌트와 함께 더 명확하게
- Iterable을 받아서 List로 반환하는 형태로 명확히 표시

from typing import Iterable, List

def process_data(data: Iterable[float]) -> List[float]:
    """Return a list of doubled positive numbers from the input data."""
    return [x * 2 for x in data if x > 0]

참고: input에 정수도 들어올 수 있으므로 float로 표기해도 되지만, 파이썬 타입 시스템은 런타임에서 강제되

In [None]:
# 사용량 확인
print(f"입력 토큰: {response.usage.prompt_tokens}")
print(f"출력 토큰: {response.usage.completion_tokens}")
print(f"총 토큰: {response.usage.total_tokens}")

입력 토큰: 60
출력 토큰: 3879
총 토큰: 3939


### 3. 성능 최적화

**프롬프트 캐싱 활용:**

In [None]:
from openai import OpenAI
client = OpenAI()

# ============================================
# 1. 매우 긴 system 프롬프트 준비 (약 2000+ 토큰)
# ============================================

base_text = """
You are an expert AI engineer. Provide concise, correct answers.
This is prefix text for prompt caching demonstration.
Repeat this section many times to increase token length.
"""

# 동일한 문장을 여러 번 반복 → 길고 반복되는 prefix 생성
long_system_prompt = base_text * 150   # 약 2000~2500 토큰

# 유저 메시지
user_prompt = "이 프롬프트 캐싱 예제에서 system 프롬프트는 몇 글자인가요?"


# ============================================
# 2. 함수: API 호출 + usage 출력
# ============================================

def call_api(tag):
    print(f"\n=== {tag} 호출 ===")
    response = client.chat.completions.create(
        model="gpt-5.1-chat-latest",
        messages=[
            {"role": "system", "content": long_system_prompt},
            {"role": "user", "content": user_prompt},
        ],
    )

    print("입력 토큰:", response.usage.prompt_tokens)
    print("출력 토큰:", response.usage.completion_tokens)
    print("총 토큰:", response.usage.total_tokens)

    # 캐싱 정보
    details = getattr(response.usage, "prompt_tokens_details", None)
    print("prompt_tokens_details:", details)

    return response

In [None]:
# ============================================
# 3. 첫 번째 호출 (Warm-up: 캐시 생성)
# ============================================
first = call_api("1차 (캐시 생성)")

# ============================================
# 4. 두 번째 호출 (Cache Hit: 프롬프트 캐싱 발생)
# ============================================
second = call_api("2차 (캐시 재사용 기대)")


=== 1차 (캐시 생성) 호출 ===
입력 토큰: 4833
출력 토큰: 493
총 토큰: 5326
prompt_tokens_details: PromptTokensDetails(audio_tokens=0, cached_tokens=0)

=== 2차 (캐시 재사용 기대) 호출 ===
입력 토큰: 4833
출력 토큰: 188
총 토큰: 5021
prompt_tokens_details: PromptTokensDetails(audio_tokens=0, cached_tokens=4736)


- OpenAI 플랫폼 문서: [프롬프트 캐싱 가이드](https://platform.openai.com/docs/guides/prompt-caching/how-it-works?utm_source=chatgpt.com)
- OpenAI 블로그/제품 페이지 [API 프롬프트 캐싱](https://openai.com/index/api-prompt-caching/?utm_source=chatgpt.com)

#### OpenAI Chat Completion API에서 사용하는 3가지 role 설명
1) system    : 모델의 행동 규칙, 톤, 역할을 설정하는 메시지
2) user      : 사용자 입력(질문, 요구사항 등)을 전달하는 메시지
3) assistant : 모델이 이전에 했던 답변을 다시 포함할 때 사용하는 메시지
---

- 일반적으로 프롬프트를 보낼 때는 "user"를 사용하고,
- 대화 규칙을 설정하려면 "system",
- 이전 모델 답변을 컨텍스트로 넣을 때는 "assistant"를 사용합니다.

## Thinking 모드

### 1. 동적 사고 시간 이해

Thinking 모드의 특징:

- 쉬운 작업: 2배 빠름
- 어려운 작업: 2배 느림 (더 정확)
- reasoning_effort 파라미터로 제어

In [None]:
question = """
100만 개의 로그 데이터에서 특정 사용자 행동 패턴을 효율적으로 탐지하기 위한 알고리즘을 설계해 주세요.
시간 복잡도, 공간 복잡도, 그리고 왜 이 방법이 최적인지 단계별로 설명해 주세요.
"""

# reasoning_effort 설정
response = client.chat.completions.create(
    model="gpt-5.1",
    messages=[{"role": "user", "content": question}],
    reasoning_effort="high"  # low, medium, high
)

In [None]:
print(response.choices[0].message.content)

다음은 “100만 개 로그에서 특정 사용자 행동 패턴(정해진 순서의 액션들)을 효율적으로 찾는” 알고리즘 설계입니다.  

---

## 0. 문제 가정(모델링)

명확한 알고리즘 설명을 위해 아래와 같이 가정하겠습니다.

- 로그 포맷:  
  `(timestamp, user_id, action_type, ...)`
- 로그 수: `N = 1,000,000` (100만)
- 패턴: 길이 `m`인 사용자 행동 시퀀스  
  예: `P = [VIEW_PRODUCT, ADD_TO_CART, PURCHASE]` (m = 3)
- 목표:
  - 각 사용자별로, 시간 순서대로 발생한 `action_type` 시퀀스 안에 `P`가 부분 시퀀스로 등장하는지 탐지
  - 로그는 이미 `timestamp` 기준으로 정렬되어 있다고 가정(일반적인 로그 수집 시스템)

---

## 1. 직관적인(비효율적인) 방법과 한계

1. **사용자별로 로그를 모으고 정렬**
   - `user_id` 기준으로 그룹핑 → 각 사용자별로 시퀀스 생성
   - 각 시퀀스에서 패턴 문자열 탐색(예: 단순 탐색)
2. 문제점
   - 그룹핑/정렬: `O(N log N)` (정렬 필요)
   - 각 시퀀스 내 탐색을 단순하게 하면 최악 `O(N·m)`  
   - 전체적으로 비효율: 최대 `O(N log N + N·m)`

목표는 **정렬 없이 한 번의 스트리밍으로, 전체를 거의 선형 시간**에 처리하는 것입니다.

---

## 2. 핵심 아이디어: “사용자별 KMP 상태를 유지하는 1-pass 알고리즘”

문자열 패턴 매칭 알고리즘인 **KMP (Knuth-Morris-Pratt)** 를 응용해,  
각 사용자마다 현재 패턴이 얼마나 일치했는지 “부분 일치 길이”를 상태로 갖도록 합니다.

### 2.1 패턴 전처리(KMP prefix function)

패턴 `P` (길이 m)에 대해, KMP의 **prefix function(π 배열)** 을 미리 계산합니다.

- `π[i]` = `P[0.

### 2. 복잡한 문제 해결
- 전략:

In [None]:
strategy_problem = """
스타트업 초기 단계에서 다음 상황입니다:
- 예산: 5억원
- 팀: 개발자 3명, 디자이너 1명
- 목표: 6개월 내 MVP 출시
- 경쟁사: 이미 2개 존재

최적의 제품 개발 및 마케팅 전략을 수립하세요.
각 단계별 예산 배분과 타임라인을 포함하세요.
"""

# reasoning_effort 설정
response = client.chat.completions.create(
    model="gpt-5.1",
    messages=[{"role": "user", "content": question}]
)
print(response.choices[0].message.content)

아래에서는 “100만 개(log line) 규모에서 특정 사용자 행동 패턴(예: A → B → C 같은 이벤트 시퀀스)”을 효율적으로 탐지하는 대표적인 알고리즘 설계를 설명합니다.  
패턴이 하나냐/여럿이냐, 패턴이 순차 패턴이냐/일반 문자열 패턴이냐에 따라 달라지지만, 가장 일반적인 케이스인 “순서 있는 이벤트 시퀀스 패턴”을 기준으로 설명하겠습니다.

---

## 1. 문제 정의 정리

- 입력:
  - 로그 수: N ≈ 1,000,000 (각 로그는 `user_id, timestamp, event_type` 정도)
  - 행동 패턴: 길이 m인 이벤트 시퀀스 `P = [e1, e2, ..., em]`  
    예: `P = [login, view_product, add_to_cart, purchase]`
- 목표:
  - 각 사용자별로 타임라인에서 P가 등장하는 모든 위치(또는 존재 여부) 탐지
- 제약:
  - N이 크므로 최소 O(N)에 가까운 알고리즘이 바람직
  - 메모리도 전체 로그를 모두 복제하지 않고 스트리밍 처리 가능하면 좋음

---

## 2. 기본 아이디어: “사용자별로 상태를 가진 유한 상태 기계(FSM)”

패턴 매칭 문제를 “유한 상태 기계(또는 KMP 같은 문자열 매칭 알고리즘)”로 바꿉니다.

### 2.1. 단일 패턴(한 개의 행동 시퀀스)인 경우

패턴 P 길이 = m.  
각 사용자 u에 대해 “현재 패턴에서 어디까지 맞췄는지”를 상태로 관리합니다.

#### 알고리즘(스트리밍, 온라인 처리)

로그를 시간순(또는 `[user_id, timestamp]` 기준 정렬)으로 한 번씩만 훑습니다.

1. **사전 준비 (패턴 전처리)**  
   - KMP(Knuth-Morris-Pratt) 방식으로 패턴 P에 대한 실패 함수(failure function)를 계산  
   - 시간: O(m), 공간: O(m)

2. **로그 스트리밍 처리**
   - 해시맵 `state[user_id]`에 “현재 이 사용자가 패턴에서 몇

## No Reasoning 모드


#### No Reasoning이란?
- reasoning_effort='none' 설정
- 추론 과정 생략
- GPT-5.1의 지능 유지
- 도구 호출 성능 향상
- 예시)
  - 간단한 정보 조회
  - API 문서 검색
  - 실시간 챗봇 응답
  - 대량 데이터 처리

#### 2. 실시간 애플리케이션 구축
챗봇 예제:

In [None]:

def chatbot_response(user_message):
    response = client.chat.completions.create(
        model="gpt-5.1",
        messages=[
            {"role": "system", "content": "당신은 고객 지원 봇입니다."},
            {"role": "user", "content": user_message}
        ],
        reasoning_effort="none"  # 빠른 응답
    )
    return response.choices[0].message.content

# 평균 응답 시간: <1초
user_message = "주문한 제품 배송 조회가 가능한가요?"
print(response.choices[0].message.content)

아래에서는 “100만 개(log line) 규모에서 특정 사용자 행동 패턴(예: A → B → C 같은 이벤트 시퀀스)”을 효율적으로 탐지하는 대표적인 알고리즘 설계를 설명합니다.  
패턴이 하나냐/여럿이냐, 패턴이 순차 패턴이냐/일반 문자열 패턴이냐에 따라 달라지지만, 가장 일반적인 케이스인 “순서 있는 이벤트 시퀀스 패턴”을 기준으로 설명하겠습니다.

---

## 1. 문제 정의 정리

- 입력:
  - 로그 수: N ≈ 1,000,000 (각 로그는 `user_id, timestamp, event_type` 정도)
  - 행동 패턴: 길이 m인 이벤트 시퀀스 `P = [e1, e2, ..., em]`  
    예: `P = [login, view_product, add_to_cart, purchase]`
- 목표:
  - 각 사용자별로 타임라인에서 P가 등장하는 모든 위치(또는 존재 여부) 탐지
- 제약:
  - N이 크므로 최소 O(N)에 가까운 알고리즘이 바람직
  - 메모리도 전체 로그를 모두 복제하지 않고 스트리밍 처리 가능하면 좋음

---

## 2. 기본 아이디어: “사용자별로 상태를 가진 유한 상태 기계(FSM)”

패턴 매칭 문제를 “유한 상태 기계(또는 KMP 같은 문자열 매칭 알고리즘)”로 바꿉니다.

### 2.1. 단일 패턴(한 개의 행동 시퀀스)인 경우

패턴 P 길이 = m.  
각 사용자 u에 대해 “현재 패턴에서 어디까지 맞췄는지”를 상태로 관리합니다.

#### 알고리즘(스트리밍, 온라인 처리)

로그를 시간순(또는 `[user_id, timestamp]` 기준 정렬)으로 한 번씩만 훑습니다.

1. **사전 준비 (패턴 전처리)**  
   - KMP(Knuth-Morris-Pratt) 방식으로 패턴 P에 대한 실패 함수(failure function)를 계산  
   - 시간: O(m), 공간: O(m)

2. **로그 스트리밍 처리**
   - 해시맵 `state[user_id]`에 “현재 이 사용자가 패턴에서 몇