## DSPy로 LLM을 프롬프팅이 아니라 프로그래밍하기 (Programming, not Prompting)

**[DSPy(Declarative Self-improving Python)](https://dspy.ai/)** 는 스탠퍼드 NLP에서 개발한 프레임워크로, 언어 모델을 프롬프트 템플릿이 아니라 프로그래밍 가능한 함수로 다룬다. DSPy는 PyTorch와 유사한 인터페이스를 제공하여 LLM 연산을 정의하고, 조합하며, 최적화할 수 있게 한다.

개발자는 복잡한 프롬프트를 직접 작성하고 유지하는 대신, **입·출력 시그니처만 선언**하면 되고, **프롬프트 엔지니어링과 최적화는 DSPy가 자동으로 처리**한다. 이 프레임워크는 자동 프롬프트 튜닝과 자기 개선(self-improvement)과 같은 기법을 통해 LLM 파이프라인을 체계적으로 개선할 수 있도록 한다.

<img src="./Media/dspy_workflow.png">

DSPy의 워크플로우는 다음의 네 가지 핵심 단계로 구성된다:

* 시그니처(Signature) 와 모듈(Module)을 사용해 프로그램을 정의한다.
* 프로그램의 성능을 명확하게 보여줄 수 있는 측정 가능한 성공 지표를 설계한다.
* 프로그램을 컴파일하고, 설정한 성공 지표를 기준으로 최적화한다.
* 추가 데이터를 수집하고, 이를 바탕으로 반복적으로 개선한다.

이 노트북에서는 이러한 단계 전반에 걸쳐 DSPy가 제공하는 다양한 접근 방식들을 살펴보고 실제로 적용해본다.

### Setup

<img src="./Media/dspy.png" width="200">

In [1]:
import dspy
import warnings
warnings.filterwarnings("ignore")

### Configure LLM

DSPy는 기본적으로 환경 전반에 걸쳐 모델과 응답을 캐시한다. 별도로 명시하지 않는 한, 한 번 언어 모델을 설정하면 이후의 모든 호출에서는 해당 언어 모델이 자동으로 사용된다.

In [2]:
import os
from dotenv import load_dotenv

_ = load_dotenv()

In [3]:
lm = dspy.LM('openai/gpt-4o-mini')
dspy.configure(lm=lm)

In [4]:
lm(messages=[{"role":"user", "content":"Say this is a test!"}])

['This is a test! How can I assist you further?']

---

### 시그니처(Signatures)

DSPy의 시그니처는 일반적인 함수 시그니처와 동일한 개념을 따르지만, 자연어로 정의된다는 점이 특징이다. 이는 DSPy가 대체하고자 하는 기존의 “프롬프팅(prompting)” 방식의 핵심에 해당한다. LLM에게 무엇을 하라고 지시하는 대신, LLM이 무엇을 하게 될지를 선언적으로 정의하는 접근을 취한다.

기본 형식은 다음과 같다.

'input -> output'

입력과 출력은 원하는 어떤 형태든 정의할 수 있으며, 여러 개의 입력과 출력, 타입 정보, 혹은 더 명확하게 구조화된 스키마를 함께 선언하는 것도 가능하다.

<img src="./Media/signatures.png">

내부적으로는 여전히 언어 모델을 위한 프롬프트가 사용되지만, 자연어로 정의한 시그니처를 기반으로 고정된 프롬프트가 아니라 모듈화된 형태로 동작한다. 즉, 시그니처에 따라 표현 방식과 구조가 동적으로 바뀌도록 설계되어 있다.

프롬프팅을 추상화한다는 점에서 다소 직관에 어긋나게 느껴질 수 있지만, DSPy는 이러한 구조를 통해 모델을 쉽게 교체할 수 있고, 이후에 살펴볼 알고리즘 수준의 최적화도 가능하도록 설계되었다.

### 단순한 입력과 출력(Simple Input & Output)

In [5]:
qna = dspy.Predict('question -> answer')
response = qna(question="Why is the sky blue")
print("Response: ", response.answer)

Response:  The sky appears blue because of a phenomenon called Rayleigh scattering. When sunlight enters the Earth's atmosphere, it collides with molecules and small particles in the air. Sunlight is made up of many colors, each having different wavelengths. Blue light waves are shorter and are scattered in all directions more than other colors with longer wavelengths, such as red and orange. This scattering causes us to see the sky as blue during the day.


In [6]:
lm.inspect_history()





[34m[2026-01-14T15:15:26.928240][0m

[31mSystem message:[0m

Your input fields are:
1. `question` (str):
Your output fields are:
1. `answer` (str):
All interactions will be structured in the following way, with the appropriate values filled in.

[[ ## question ## ]]
{question}

[[ ## answer ## ]]
{answer}

[[ ## completed ## ]]
In adhering to this structure, your objective is: 
        Given the fields `question`, produce the fields `answer`.


[31mUser message:[0m

[[ ## question ## ]]
Why is the sky blue

Respond with the corresponding output fields, starting with the field `[[ ## answer ## ]]`, and then ending with the marker for `[[ ## completed ## ]]`.


[31mResponse:[0m

[32m[[ ## answer ## ]]
The sky appears blue because of a phenomenon called Rayleigh scattering. When sunlight enters the Earth's atmosphere, it collides with molecules and small particles in the air. Sunlight is made up of many colors, each having different wavelengths. Blue light waves are shorter a

In [7]:
sum = dspy.Predict('document -> summary')

document = """
The market for our products is intensely competitive and is characterized by rapid technological change and evolving industry standards. 
We believe that theprincipal competitive factors in this market are performance, breadth of product offerings, access to customers and partners and distribution channels, softwaresupport, conformity to industry standard APIs, manufacturing capabilities, processor pricing, and total system costs. 
We believe that our ability to remain competitive will depend on how well we are able to anticipate the features and functions that customers and partners will demand and whether we are able todeliver consistent volumes of our products at acceptable levels of quality and at competitive prices. 
We expect competition to increase from both existing competitors and new market entrants with products that may be lower priced than ours or may provide better performance or additional features not provided by our products. 
In addition, it is possible that new competitors or alliances among competitors could emerge and acquire significant market share.
A significant source of competition comes from companies that provide or intend to provide GPUs, CPUs, DPUs, embedded SoCs, and other accelerated, AI computing processor products, and providers of semiconductor-based high-performance interconnect products based on InfiniBand, Ethernet, Fibre Channel,and proprietary technologies. 
Some of our competitors may have greater marketing, financial, distribution and manufacturing resources than we do and may bemore able to adapt to customers or technological changes. 
We expect an increasingly competitive environment in the future.
"""

response = sum(document=document)
print("Summary: ", response.summary)

Summary:  The market for our products is highly competitive and influenced by rapid technological advancements and changing industry standards. Key competitive factors include product performance, range, customer access, and distribution channels. Our competitiveness hinges on our ability to predict customer demands, deliver quality products consistently, and maintain competitive pricing. We anticipate increased competition from both current players and new entrants offering lower prices or superior features, as well as potential alliances among competitors. Significant competition arises from companies focused on GPUs, CPUs, DPUs, and other advanced computing products. Some rivals may possess greater resources, making it challenging to keep pace with market changes. The competitive landscape is expected to become more intense in the future.


### Multiple Inputs and Outputs

<img src='./Media/multiple_signature.png'>

In [8]:
multi = dspy.Predict('question, context -> answer, citation')

question = "What's my name?"
context = "The user you're talking to is Adam Lucek, AI youtuber extraordinare"

response = multi(question=question, context=context)

print("Answer: ", response.answer)
print("\nCitation: ", response.citation)

Answer:  Your name is Adam Lucek.

Citation:  The user identified as Adam Lucek in the context provided.


### Type Hints with Outputs

<img src="./Media/input_type.png">

In [9]:
emotion = dspy.Predict('input -> sentiment: str, confidence: float, reasoning: str')

text = "I don't quite know, I didn't really like it"

response = emotion(input=text)

print("Sentiment Classification: ", response.sentiment)
print("\nConfidence: ", response.confidence)
print("\nReasoning: ", response.reasoning)

Sentiment Classification:  negative

Confidence:  0.85

Reasoning:  The phrase "I didn't really like it" clearly expresses dissatisfaction or discontent, indicating a negative sentiment. The use of "didn't really like" suggests a strong sense of disapproval, thus reinforcing the negative sentiment. The confidence level is high due to the clarity of the expression.


### 클래스 기반 시그니처(Class-Based Signatures)

보다 고급 시그니처를 위해, DSPy는 단순한 인라인 문자열 방식 대신 Pydantic 클래스 또는 데이터 구조 스키마를 정의할 수 있도록 지원한다. 이러한 클래스는 기본적으로 dspy.Signature를 상속받아야 하며, 입력 필드는 dspy.InputField(), 출력 필드는 dspy.OutputField()를 사용해 명시적으로 정의해야 한다.

각 필드에는 선택적으로 desc 인자를 전달할 수 있으며, 이를 통해 해당 필드에 대한 추가적인 맥락이나 설명을 함께 제공할 수 있다.

In [10]:
from typing import Literal

class TextStyleTransfer(dspy.Signature):
    """Transfer text between different writing styles while preserving content."""
    text: str = dspy.InputField()
    source_style: Literal["academic", "casual", "business", "poetic"] = dspy.InputField()
    target_style: Literal["academic", "casual", "business", "poetic"] = dspy.InputField()
    preserved_keywords: list[str] = dspy.OutputField()
    transformed_text: str = dspy.OutputField()
    style_metrics: dict[str, float] = dspy.OutputField(desc="Scores for formality, complexity, emotiveness")

text = "This coffee shop makes the best lattes ever! Their new barista really knows what he's doing with the espresso machine."

style_transfer = dspy.Predict(TextStyleTransfer)

response = style_transfer(
    text=text,
    source_style="casual",
    target_style="poetic"
)

print("Transformed Text: ", response.transformed_text)
print("\nStyle Metrics: ", response.style_metrics)
print("\nPreserver Keywords: ", response.preserved_keywords)

Transformed Text:  In the haven of fragrant brews, a sanctuary for souls to meet,  
The coffee shop whispers secrets of lattes, a delightful treat.  
A bard behind the counter, with skilled hands and a knowing heart,  
Crafts magic with the espresso machine, a true work of art.

Style Metrics:  {'formality': 0.6, 'complexity': 0.75, 'emotiveness': 0.8}

Preserver Keywords:  ['coffee shop', 'lattes', 'barista', 'espresso machine']


### 모듈(Modules)

<img src="./Media/modules.png">

모듈은 시그니처에 다양한 프롬프팅 전략을 적용하는 계층이다. 앞선 시그니처 예제에서는 기본적인 Predict 모듈을 사용했지만, DSPy에는 이 외에도 널리 사용되는 여러 전략과 그 변형들이 준비되어 있다. 다음은 현재 제공되는 주요 모듈들이다.

* **ChainOfThought**: 출력을 생성하기 전에 추론 단계를 먼저 유도하는 체인-오브-쏘트(chain-of-thought) 프롬프팅을 구현한다. 이 모듈은 모델이 구조화된 사고를 하도록 "Let's think step by step"과 같은 문구를 자동으로 추가한다. 복잡한 문제를 여러 단계로 나누어 사고해야 하는 경우에 적합하다.
  
* **ProgramOfThought**: 문제 해결을 위해 실행 가능한 Python 코드를 생성하며, 오류 처리와 코드 재생성 기능을 기본적으로 포함한다. 수학적 문제나 알고리즘적 문제처럼 실제 코드 실행을 통해 해결하는 것이 더 효과적인 경우에 사용한다.

* **ReAct**: 사고(Reasoning), 행동(Acting: 도구 사용), 관찰(Observation)을 구조화된 루프 형태로 번갈아 수행하는 ReAct 방식을 구현한다.여러 단계의 추론과 외부 도구나 API와의 상호작용이 필요한 작업에 적합하다.

그리고 몇 가지 헬퍼 모듈:

* **MultiChainComparison**: 여러 번의 추론 시도(기본값 3회)를 수행한 뒤, 서로 다른 추론 경로를 비교하여 더 정확한 하나의 응답으로 통합한다. 문제 해결의 정확도가 중요하고, 여러 번의 시도를 감당할 수 있는 경우에 적합하다.

* **Majority**: 여러 개의 응답(completion)을 입력으로 받아 텍스트를 정규화한 뒤, 가장 많이 등장한 응답을 반환하는 유틸리티 함수다. 여러 번의 생성 결과에 대해 간단한 투표 방식을 적용해 신뢰도를 높이고 싶을 때 유용하다.

### Chain of Thought

<img src="./Media/cot_module.png" width="300">

**ChainOfThought**는 출력 전에 명시적인 추론 단계를 포함하도록 프롬프트 시그니처를 수정하는 방식으로 동작한다. 시그니처로 초기화되면, "Reasoning: Let's think step by step in order to"라는 접두어를 가진 reasoning 필드를 앞에 추가한 확장 시그니처를 생성한다. 이 reasoning 필드는 언어 모델이 최종 답변을 제공하기에 앞서 사고 과정을 먼저 작성하도록 강제한다.

In [11]:
# Define the Signature and Module
cot_emotion = dspy.ChainOfThought('input -> sentiment: str')

# Example
text = "That was phenomenal, but I hated it!"

# Run
cot_response = cot_emotion(input=text)

# Output
print("Sentiment: ", cot_response.sentiment)
# Inherently added reasoning
print("\nReasoning: ", cot_response.reasoning)

Sentiment:  mixed

Reasoning:  The phrase "That was phenomenal" suggests a positive experience or appreciation, indicating enjoyment or admiration. However, the phrase "but I hated it!" introduces a strong negative sentiment that contradicts the previous positive remark. This juxtaposition indicates a mixed sentiment where the speaker acknowledges something remarkable but also expresses strong dislike, possibly due to personal reasons or conflicting feelings about the experience.


### Program of Thought

<img src="./Media/program_of_thought.png">

ProgramOfThought(PoT)는 자연어 출력에 직접 의존하는 대신, 실행 가능한 Python 코드를 생성하여 과제를 해결한다. 작업이 주어지면, PoT는 먼저 ChainOfThought 예측기를 사용해 Python 코드를 생성한 뒤, 이를 격리된 Python 인터프리터 환경에서 실행한다. 코드 실행 중 오류가 발생하면, PoT는 해당 오류를 언어 모델에 다시 전달하고 수정된 코드를 생성하도록 요청하는 개선 루프에 들어간다. 이 과정은 최대 지정된 반복 횟수(기본값 3회)까지 반복된다. 최종 출력은 언어 모델이 직접 생성한 텍스트가 아니라, 성공적으로 실행된 코드의 실제 실행 결과에서 얻어진다.

In [12]:
# Define the Signature
class MathAnalysis(dspy.Signature):
    """Analyze a dataset and compute various statistical metrics."""
    numbers: list[float] = dspy.InputField(desc="List of numerical values to analyze")
    required_metrics: list[str] = dspy.InputField(desc="List of metrics to calculate (e.g. ['mean', variance', 'quartiles'])")
    analysis_results: dict[str, float] = dspy.OutputField(desc="Dictionary containing the calculated metrics")

# Create the module
math_analyzer = dspy.ProgramOfThought(MathAnalysis)

# Example
data = [1.5, 2.8, 3.2, 4.7, 5.1, 2.3, 3.9]
metrics = ['mean', 'median']

# Run
pot_response = math_analyzer(
    numbers=data,
    required_metrics=metrics
)

In [13]:
print("Reasoning: ", pot_response.reasoning)
print("\nResults: ", pot_response.analysis_results)

Reasoning:  The code provided calculates the mean and median of the given list of numbers using NumPy functions. The mean is the average of the numbers, while the median is the middle value when the numbers are sorted. The results were expected based on standard calculations for these statistics.

Results:  {'mean': 3.2857142857142856, 'median': 3.2}


### Reasoning + Acting (ReAct)

<img src="./Media/react.png">

ReAct는 **추론(reasoning)** 과 **도구 사용(tool usage)** 을 결합하여 상호작용적인 문제 해결을 가능하게 한다. 이는 모델이 **생각–행동(thought–action) 쌍의 흐름(trajectory)** 을 유지하면서 작동하는 방식으로, 각 단계마다 모델은 자신의 추론을 설명하고, 사용할 도구를 선택하며, 해당 도구에 전달할 인자를 제공한 뒤, 도구 실행 결과를 관찰하여 다음 단계를 결정한다. 각 반복(iteration)은 네 가지 요소로 구성된다. 즉, 전략을 설명하는 **생각(thought)**, 사용 가능한 도구 중 하나를 선택하는 **도구 선택**, 도구에 전달할 **인자(arguments)**, 그리고 도구를 실행한 결과인 **관찰(observation)** 이다. 이 과정은 모델이 스스로 “finish”를 선택하거나 최대 반복 횟수에 도달할 때까지 계속된다. 아래는 간단한 예시이다.

In [19]:
# Define a Tool
def wikipedia_search(query: str) -> list[str]:
    """Retrieves abstracts from Wikipedia."""
    # Existing Wikipedia Abstracts Server
    results = dspy.ConBERTv2(url='http://20.102.90.50:2017/wiki17_abstracts')(query, k=3)
    return [x['text'] for x in results]

# Define ReAct Module
react_module = dspy.ReAct('question -> response', tools=[wikipedia_search])

# Example
text = "Who won the world series in 1983 and who won the world cup in 1966?"

# Run
react_response = react_module(question=text)

print("Answer: ", react_response.response)
print("\nReasoning: ", react_response.reasoning)

Answer:  The Baltimore Orioles won the World Series in 1983, and England won the World Cup in 1966.

Reasoning:  The Baltimore Orioles won the World Series in 1983, and the England national team won the World Cup in 1966. This information is widely recognized in sports history and can be confirmed through reliable sources, despite the technical issues encountered while attempting to retrieve it.


### Multi Chain Comparison

<img src="./Media/multi_chain.png">

MultiChainComparison은 여러 개의 기존 응답(completion)을 하나의 더 견고한 최종 예측으로 종합하는 **메타 예측기(meta-predictor)** 이다. 이 모듈은 스스로 예측을 생성하지 않고, 대신 다른 예측기들로부터 **M개의 서로 다른 응답(기본값 3)** 을 입력으로 받는다. 이 응답들은 동일한 예측기를 서로 다른 temperature로 실행한 결과일 수도 있고, 완전히 다른 예측기에서 나온 결과일 수도 있으며, 혹은 동일한 설정으로 여러 번 호출한 결과일 수도 있다.

각 응답은 Student Attempt #1:, Student Attempt #2: 와 같은 형식으로 정리되며,
각 시도는 «나는 [추론 과정]을 바탕으로 생각해 보았고, 확신은 없지만 내 예측은 [답]이다»
와 같은 구조로 패키징된다.
이후 모듈은 “Accurate Reasoning: Thank you everyone. Let’s now holistically…”와 같은 프롬프트를 사용해, 모델이 이 여러 시도를 종합적으로 분석·비교·비판하도록 유도하고, 그 결과로 하나의 최종 답변을 도출한다.

이 접근법은 모델이 최종 결정을 내리기 전에 여러 해결 경로를 명시적으로 비교하고 검토하게 함으로써, 개별 예측에서 발생할 수 있는 오류를 완화하는 데 도움을 준다.

In [29]:
# Run CoT completions with increasing temperatures
text = "That was piculiar!"   # strange, piculiar, exotic, phenominal

cot_completions = []
for i in range(4):
    # Temperature increases: 0.7, 0.8, 0.9
    temp_config = dict(temperature=0.7+(0.1*i))
    completion = cot_emotion(input=text, config=temp_config)
    cot_completions.append(completion)

# Synthesize with MultiChainComparison
mcot_emotion = dspy.MultiChainComparison('input -> sentiment', M=4)
final_result = mcot_emotion(completions=cot_completions, input=text)

print(f"Sentiment: {final_result.sentiment}")
print(f"\nReasoning: {final_result.rationale}")

for i in range(4):
    print(f"\nCompletion {i+1}: ", cot_completions[i])

Sentiment: Positive

Reasoning: The word "piculous" conveys a sense of something being unusual or strange, and the exclamation mark implies an emotional reaction from the speaker. This suggests a mixture of surprise and intrigue. Therefore, the sentiment can be categorized as Positive, as the speaker seems to express an emotional response to an unexpected situation.

Completion 1:  Prediction(
    reasoning='The word "piciular" suggests that something was unusual or strange, which can indicate a sense of confusion or surprise. The exclamation mark emphasizes the speaker\'s emotional reaction, indicating that they found the experience noteworthy or unexpected.',
    sentiment='Surprised'
)

Completion 2:  Prediction(
    reasoning='The word "piculair" suggests that something was unusual or strange, potentially implying a sense of confusion or curiosity. The use of punctuation indicates a strong reaction, which could indicate surprise or intrigue.',
    sentiment='Neutral with a hint of 

### Majority

<img src="./Media/majority.png">

Majority는 여러 개의 응답(completion)을 대상으로 기본적인 투표 메커니즘을 적용해 가장 많이 등장한 답을 선택하는 유틸리티 함수다. 이 함수는 응답들을 포함한 Prediction 객체를 입력으로 받거나, 혹은 응답 리스트 자체를 직접 입력으로 받을 수 있다. 동작 과정에서 Majority는 대상 필드의 값을 정규화(normalization)하는데, 이때 사용할 필드는 명시적으로 지정할 수도 있고, 지정하지 않으면 기본적으로 마지막 출력 필드가 사용된다. 이 정규화 과정은 normalize_text 함수가 담당하며, 의미적으로 동일하지만 표현이 약간 다른 텍스트들을 같은 답으로 취급하도록 돕는다. 또한 무시되어야 할 답변의 경우 None을 반환하도록 처리한다. 표 수가 같은 경우(동률)에는 먼저 생성된 응답이 우선된다. 이 함수는 서로 다른 temperature로 예측기를 여러 번 실행하는 등, 다수의 응답을 생성하는 모듈들과 함께 사용할 때 특히 유용하며, 가장 일반적인 답을 간단히 선택할 수 있는 방법을 제공한다. 최종적으로 Majority는 선택된(승리한) 하나의 응답만을 포함하는 새로운 Prediction 객체를 반환한다.


In [30]:
# Example Completions From Prior Multi-Chain
majority_result = dspy.majority(cot_completions, field="sentiment")

# Results
print(f"Most common sentiment: {majority_result.sentiment}")

Most common sentiment: Surprised
