## LLM API Endpoints Test

**IMPORTANT: Backend 서버를 사전에 기동해야 합니다.**

```bash
# Terminal에서 실행:
uvicorn src.app.api.main:app --reload
```

Day1 작업 중에 FastAPI LLM 엔드포인트 기능 테스트

In [1]:
import json
import requests
from typing import Dict, List

# API base URL
BASE_URL = "http://127.0.0.1:8000"
LLM_BASE = f"{BASE_URL}/api/llm"  # /api prefix 추가!

print("✓ Setup complete")

✓ Setup complete


In [2]:
# Server health check
try:
    response = requests.get(f"http://127.0.0.1:8000/health", timeout=5.0)
    if response.status_code == 200:
        print("✅ Server is running and healthy!")
        print(f"Response: {response.json()}")
    else:
        print(f"⚠️ Server responded with status code: {response.status_code}")
except requests.exceptions.ConnectionError:
    print("❌ Cannot connect to server. Please start the backend:")
    print("   uvicorn src.app.api.main:app --reload")
except Exception as e:
    print(f"❌ Health check failed: {e}")

✅ Server is running and healthy!
Response: {'status': 'healthy'}


### 1. Basic Chat Completion

기본적인 채팅 완성 기능 테스트

In [3]:
# OpenAI 채팅 완성 테스트
request_data = {
    "provider": "openai",
    "model": "gpt-4o-mini",
    "messages": [
        {"role": "system", "content": "You are a helpful AI research assistant."},
        {"role": "user", "content": "2024년 AI 분야 키 트렌드 5가지를 알려줘."},
    ],
    "temperature": 0.7,
    "max_tokens": 300,
}

response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)

print("OpenAI Response:")
print(f"Status Code: {response.status_code}")

# 먼저 전체 응답을 확인
result = response.json()
print(f"Full Response: {result}")
print()

# 성공적인 응답인 경우에만 필드 출력
if response.status_code == 200 and "provider" in result:
    print(f"Provider: {result['provider']}")
    print(f"Model: {result['model']}")
    print(f"Content:\n{result['content']}")
else:
    print("Error occurred:")
    print(f"Response: {result}")

OpenAI Response:
Status Code: 200
Full Response: {'content': '2024년 AI 분야에서 주목할 만한 5가지 키 트렌드는 다음과 같습니다:\n\n1. **Generative AI의 발전**: 생성적 적대 신경망(GAN) 및 대규모 언어 모델의 발전으로 더욱 정교하고 창의적인 콘텐츠 생성이 가능해질 것입니다. 텍스트, 이미지, 음악 등 다양한 분야에서 AI가 인간과 협력하여 콘텐츠를 생성하는 사례가 늘어날 것입니다.\n\n2. **AI의 윤리 및 규제 강화**: AI 기술의 발전과 함께 윤리적 문제와 사회적 책임에 대한 논의가 활발해질 것입니다. 많은 국가에서 AI 관련 규제와 윤리 가이드라인이 마련되고, 기업들은 이러한 기준을 준수하는 방향으로 나아가야 할 것입니다.\n\n3. **AI의 자동화 및 효율화**: 기업들은 AI를 활용하여 업무 프로세스를 자동화하고 효율성을 높이는 데 집중할 것입니다. 특히, 로봇 프로세스 자동화(RPA)와 결합된 AI 솔루션이 증가할 것으로 예상됩니다.\n\n4. **AI와 IoT의 통합**: 사물인터넷(IoT) 장치와 AI의 결합이 더욱 강화되어, 실시간 데이터 분석 및 의사결정 지원이 개선될 것입니다. 스마트 홈, 스마트 시티 등 다양한 분야에서 AI가 IoT 데이터를 활용하는 사례가 늘어', 'provider': 'openai', 'model': 'gpt-4o-mini', 'finish_reason': 'stop'}

Provider: openai
Model: gpt-4o-mini
Content:
2024년 AI 분야에서 주목할 만한 5가지 키 트렌드는 다음과 같습니다:

1. **Generative AI의 발전**: 생성적 적대 신경망(GAN) 및 대규모 언어 모델의 발전으로 더욱 정교하고 창의적인 콘텐츠 생성이 가능해질 것입니다. 텍스트, 이미지, 음악 등 다양한 분야에서 AI가 인간과 협력하여 콘텐츠를 생성하는 사례가 늘어날 것입니다.

2. **AI의 윤리 및 규제 강화

### 2. Claude Chat Completion

Claude API를 사용한 채팅 완성을 테스트

In [4]:
# Claude 채팅 완성 테스트 (API 키가 설정된 경우에만)
try:
    request_data = {
        "provider": "claude",
        "messages": [{"role": "user", "content": "2024년 AI 분야 키 트렌드 5가지를 알려줘."}],
        "temperature": 0.7,
        "max_tokens": 300,
    }

    response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)
    result = response.json()

    print("Claude Response:")
    print(f"Status Code: {response.status_code}")
    print(f"Provider: {result['provider']}")
    print(f"Model: {result['model']}")
    print(f"Content:\n{result['content']}")
except Exception as e:
    print(f"Claude API not available: {e}")

Claude Response:
Status Code: 200
Provider: claude
Model: claude-sonnet-4-5-20250929
Content:
# 2024년 AI 분야 주요 트렌드 5가지

## 1. **생성형 AI의 멀티모달 진화**
- 텍스트, 이미지, 음성, 비디오를 통합 처리하는 멀티모달 AI 확산
- GPT-4V, Gemini 등 여러 형태의 데이터를 동시에 이해하고 생성
- 실용적 응용 분야 확대 (디자인, 교육, 콘텐츠 제작)

## 2. **온디바이스 AI (Edge AI)**
- 클라우드 의존도를 낮춘 로컬 디바이스 기반 AI 처리 증가
- 스마트폰, PC에서 직접 실행되는 경량화 모델 (Apple Silicon, Snapdragon)
- 개인정보 보호와 응답 속도 개선

## 3. **AI 에이전트와 자동화**
- 단순 응답을 넘어


### 3. JSON Response Format

JSON 형식의 응답을 요청하고 파싱

In [5]:
request_data = {
    "provider": "openai",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant that responds in JSON format."},
        {
            "role": "user",
            "content": """
            기사 타이틀을 분석하고 다음 기준으로 JSON 포맷으로 정리해줘:
            - category: one of (paper, news, report)
            - importance_score: 0.0 to 1.0
            - keywords: list of 3-5 relevant keywords
            - summary: brief one-line summary

            Title: "GPT-5 Achieves Human-Level Performance on Complex Reasoning Tasks"
            """,
        },
    ],
    "response_format": "json",
    "max_tokens": 300,
}

response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)
result = response.json()

print("JSON Response:")
print(result['content'])

# Parse JSON
data = json.loads(result['content'])
print("\nParsed Data:")
print(json.dumps(data, indent=2))

JSON Response:
{
    "category": "news",
    "importance_score": 0.9,
    "keywords": ["GPT-5", "human-level performance", "complex reasoning", "AI", "machine learning"],
    "summary": "GPT-5 has reached human-level performance on complex reasoning tasks, marking a significant milestone in AI development."
}

Parsed Data:
{
  "category": "news",
  "importance_score": 0.9,
  "keywords": [
    "GPT-5",
    "human-level performance",
    "complex reasoning",
    "AI",
    "machine learning"
  ],
  "summary": "GPT-5 has reached human-level performance on complex reasoning tasks, marking a significant milestone in AI development."
}


### 4. Article Summarization (Korean)

논문을 한국어로 요약하는 기능을 테스트

In [6]:
article_text = """
Researchers at MIT have developed a new neural network architecture
that combines the benefits of transformers with the efficiency of
convolutional neural networks. The hybrid model, dubbed TransConv,
achieves state-of-the-art results on image classification tasks while
requiring 40% less computational resources than traditional transformer
models. The key innovation lies in the selective attention mechanism
that adaptively chooses between local and global feature processing
based on the input characteristics.
"""

request_data = {
    "provider": "openai",
    "title": "TransConv: Hybrid Architecture for Efficient Image Classification",
    "content": article_text,
    "language": "ko",
    "max_sentences": 4,
}

response = requests.post(f"{LLM_BASE}/summarize", json=request_data)
result = response.json()

print("Korean Summary:")
print(f"Summary: {result['summary']}")
print(f"Original Length: {result['original_length']} characters")
print(f"Summary Length: {result['summary_length']} characters")

Korean Summary:
Summary: MIT 연구진이 트랜스포머의 장점과 합성곱 신경망의 효율성을 결합한 새로운 신경망 구조를 개발했습니다. 이 하이브리드 모델, TransConv는 이미지 분류 작업에서 최첨단 결과를 달성하면서도 기존 트랜스포머 모델보다 40% 적은 계산 자원을 필요로 합니다. 주요 혁신은 입력 특성에 따라 지역적 및 전역적 특징 처리를 선택적으로 수행하는 주의 메커니즘에 있습니다.
Original Length: 517 characters
Summary Length: 204 characters


### 5. Embedding Generation

텍스트 임베딩을 생성하고 유사도를 계산

In [7]:
import numpy as np

# 여러 텍스트의 임베딩 생성
texts = [
    "Transformer architecture in deep learning",
    "Attention mechanism for neural networks",
    "Reinforcement learning for robotics",
    "Computer vision using CNNs",
]

embeddings = []
for text in texts:
    request_data = {"text": text}
    response = requests.post(f"{LLM_BASE}/embeddings", json=request_data)
    result = response.json()
    embeddings.append(result['embedding'])

print(f"Generated {len(embeddings)} embeddings")
print(f"Embedding dimension: {len(embeddings[0])}")
print(f"First embedding (first 5 values): {embeddings[0][:5]}")

Generated 4 embeddings
Embedding dimension: 1536
First embedding (first 5 values): [-0.030603239312767982, -0.06797607243061066, 0.004770813975483179, -0.015896877273917198, 0.019433407112956047]


In [8]:
# 코사인 유사도 계산
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))


print("\nCosine Similarities:")
for i, text_i in enumerate(texts):
    for j, text_j in enumerate(texts):
        if i < j:
            similarity = cosine_similarity(embeddings[i], embeddings[j])
            print(f"'{text_i}' vs '{text_j}': {similarity:.4f}")


Cosine Similarities:
'Transformer architecture in deep learning' vs 'Attention mechanism for neural networks': 0.4854
'Transformer architecture in deep learning' vs 'Reinforcement learning for robotics': 0.3041
'Transformer architecture in deep learning' vs 'Computer vision using CNNs': 0.4224
'Attention mechanism for neural networks' vs 'Reinforcement learning for robotics': 0.3289
'Attention mechanism for neural networks' vs 'Computer vision using CNNs': 0.3612
'Reinforcement learning for robotics' vs 'Computer vision using CNNs': 0.3520


### 6. Temperature Comparison

다양한 temperature 값에 따른 응답 차이를 비교

In [9]:
temperatures = [0.0, 0.5, 1.0]
prompt = "Explain neural networks in one sentence."

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt},
]

print("Temperature Comparison:")
print(f"Prompt: {prompt}\n")

for temp in temperatures:
    request_data = {
        "provider": "openai",
        "messages": messages,
        "temperature": temp,
        "max_tokens": 100,
    }

    response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)
    result = response.json()

    print(f"Temperature {temp}:")
    print(f"  {result['content']}")
    print()

Temperature Comparison:
Prompt: Explain neural networks in one sentence.

Temperature 0.0:
  Neural networks are computational models inspired by the human brain, consisting of interconnected layers of nodes (neurons) that process and learn from data to perform tasks such as classification, regression, and pattern recognition.

Temperature 0.5:
  Neural networks are computational models inspired by the human brain's interconnected neuron structure, designed to recognize patterns and solve complex problems through layers of interconnected nodes.

Temperature 1.0:
  Neural networks are computational models inspired by the human brain, consisting of layers of interconnected nodes (neurons) that process input data to recognize patterns and make decisions or predictions.



### 7. Error Handling

에러 처리를 테스트

In [10]:
# Test invalid provider
try:
    request_data = {
        "provider": "invalid",
        "messages": [{"role": "user", "content": "Hello"}],
    }
    response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)
    print(f"Status Code: {response.status_code}")
    print(f"Error: {response.json()}")
except Exception as e:
    print(f"✓ Caught expected error for invalid provider: {e}")

# Test with very large max_tokens
try:
    request_data = {
        "provider": "openai",
        "messages": [{"role": "user", "content": "Hello"}],
        "max_tokens": 100000,
    }
    response = requests.post(f"{LLM_BASE}/chat/completions", json=request_data)
    if response.status_code == 500:
        print(f"\n✓ Error with large max_tokens: {response.json()['detail']}")
    else:
        print("\nResponse with large max_tokens received (API handled it)")
except Exception as e:
    print(f"Error with large max_tokens: {e}")

Status Code: 422
Error: {'detail': [{'type': 'literal_error', 'loc': ['body', 'provider'], 'msg': "Input should be 'openai' or 'claude'", 'input': 'invalid', 'ctx': {'expected': "'openai' or 'claude'"}}]}

Response with large max_tokens received (API handled it)


### 8. Article Analysis

연구 논문 분석 파이프라인 테스트

In [11]:
test_article = {
    "title": "Attention Is All You Need",
    "content": """
    The dominant sequence transduction models are based on complex recurrent or
    convolutional neural networks in an encoder-decoder configuration. The best
    performing models also connect the encoder and decoder through an attention
    mechanism. We propose a new simple network architecture, the Transformer,
    based solely on attention mechanisms, dispensing with recurrence and convolutions
    entirely.
    """,
}

request_data = {
    "provider": "openai",
    "title": test_article["title"],
    "content": test_article["content"],
}

response = requests.post(f"{LLM_BASE}/analyze", json=request_data)
result = response.json()

print("Research Article Analysis Result:")
print(json.dumps(result, indent=2, ensure_ascii=False))

Research Article Analysis Result:
{
  "category": "paper",
  "importance_score": 1.0,
  "keywords": [
    "Transformer",
    "attention mechanism",
    "sequence transduction",
    "neural networks",
    "encoder-decoder"
  ],
  "field": "NLP",
  "summary_korean": "이 논문은 기존의 복잡한 순환 신경망이나 합성곱 신경망을 사용하는 인코더-디코더 구조 대신, 주의 메커니즘만을 기반으로 한 새로운 간단한 네트워크 아키텍처인 트랜스포머를 제안합니다. 트랜스포머는 순환이나 합성곱을 완전히 배제하고 주의 메커니즘을 통해 인코더와 디코더를 연결하여 성능을 향상시킵니다. 이를 통해 더 효율적이고 단순한 모델 구조를 제공합니다."
}


### 9. Batch Processing

여러 문서를 동시에 처리

In [12]:
import concurrent.futures


def summarize_article(article_info):
    """단일 논문 요약"""
    title, content = article_info
    request_data = {
        "provider": "openai",
        "title": title,
        "content": content,
        "language": "ko",
        "max_sentences": 2,
    }
    response = requests.post(f"{LLM_BASE}/summarize", json=request_data)
    return response.json()["summary"]


# Test batch processing
articles = [
    ("GPT-5 Improvements", "GPT-5 shows remarkable improvements in reasoning capabilities."),
    (
        "New Transformer",
        "New transformer architecture reduces computational costs by 40%.",
    ),
    (
        "RL Breakthrough",
        "Reinforcement learning breakthrough enables better robot control.",
    ),
]

# 병렬 처리
with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
    summaries = list(executor.map(summarize_article, articles))

print("Batch Processing Results:")
for i, ((title, content), summary) in enumerate(zip(articles, summaries, strict=False), 1):
    print(f"\n{i}. Title: {title}")
    print(f"   Original: {content}")
    print(f"   Summary: {summary}")

Batch Processing Results:

1. Title: GPT-5 Improvements
   Original: GPT-5 shows remarkable improvements in reasoning capabilities.
   Summary: GPT-5는 추론 능력에서 눈에 띄는 향상을 보입니다. 이 모델은 복잡한 문제 해결과 논리적 사고에서 특히 강점을 나타내고 있습니다.

2. Title: New Transformer
   Original: New transformer architecture reduces computational costs by 40%.
   Summary: 새로운 트랜스포머 아키텍처는 계산 비용을 40% 절감합니다. 이로 인해 효율적인 모델 구현이 가능해졌습니다.

3. Title: RL Breakthrough
   Original: Reinforcement learning breakthrough enables better robot control.
   Summary: 강화 학습의 혁신적 발전으로 로봇 제어가 향상되었습니다. 이 기술은 로봇의 효율성과 정밀성을 크게 개선하는 데 기여합니다.


## Summary

이 노트북에서 다룬 내용:

1. ✓ Basic chat completion (OpenAI & Claude)
2. ✓ JSON response format
3. ✓ Korean summarization
4. ✓ Embedding generation and similarity
5. ✓ Temperature comparison
6. ✓ Error handling
7. ✓ Article analysis
8. ✓ Batch processing

LLM API 엔드포인트가 정상적으로 작동하며, 다양한 사용 사례에 활용할 수 있습니다.