## 언어모델 제어하기

3장에서는 언어모델을 제어하는 두 가지 방법에 관해 다룹니다. 하나는 언어모델이 다양하게 반응할 수 있도록 만드는 여러 가지 매개변수와 그 설정 방법입니다. 다른 하나는 언어모델을 활용하여 서비스를 만들 때 유해한 서비스가 되지 않도록 메시지의 안전성을 점검하는 방법입니다. 이 가운데 매개변수를 이해하기 위해서는 언어모델의 동작 방식에 대한 지식이 선행되어야 하므로 이에 관해서도 함께 다룹니다.

### 매개변수 설정하기

언어모델의 동작은 학습 시점과 실행 시점 두 단계에 의해 결정됩니다. 학습 시점에는 가중치를 업데이트하는 방식으로 모델의 물리적 실체를 완성한다면, 추론 시점(실행 시점)에는 그렇게 만들어진 모델의 출력값을 조정함으로써 언어모델이 더욱 다양하게 반응하도록 돕습니다. 학습 시점에 업데이트되는 가중치(weights)와 출력값을 조정하는 설정값 모두 매개변수라고 부르지만, 이 책에서는 특별한 경우가 아니면 두 번째 의미로 매개변수라는 용어를 사용합니다.
<center>
<img src='https://wikidocs.net/images/page/229810/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2024-02-04_093623.png' /><br>
</center>

구글 제미나이 API에서 매개변수는 GenerationConfig 객체를 통해 설정됩니다. GenerationConfig 객체에는 모델의 응답 수인 candidate_count를 포함하여 총 6개의 매개변수가 있습니다.

tip => 업데이트되는 매개변수를 파라미터(parameter)라고 하고, 추론 시점에 사용되는 매개변수를 인퍼런스 파라미터(inference parameter)로 구분지어 부르기도 합니다.

#### candidate_count

1장에서 다루었던 응답 후보(Candidate) 수를 설정하는 매개변수입니다. 현재는 기본값인 1만 허용되므로 추후 구글에서 응답 후보 수를 늘리기 전까지는 별도의 설정이 불필요합니다. 만일 1이 아닌 값을 설정하면 다음과 같이 오류가 발생합니다.

In [8]:
import google.generativeai as genai

genai.configure(api_key="AIzaSyD0jMkUWWxa6O1qpGjMIz80zOVxM4KoyKU")
generation_config = genai.GenerationConfig(candidate_count=2)
model = genai.GenerativeModel('gemini-1.5-flash', generation_config=generation_config)
response = model.generate_content("인공지능에 대해 한 문장으로 설명하세요.")
print(response.text)
print(f"canidate 생성 건수: {len(response.candidates)}")

InvalidArgument: 400 Only one candidate can be specified in the current model

#### stop_sequences

언어모델이 언어를 생성하다가 stop_sequences에 있는 문자열을 만나면 생성을 중단합니다. 민감한 어휘의 등장을 막거나, 응답 길이를 제한할 때 유용하게 사용할 수 있습니다. 다음은 마침표나 느낌표가 등장하면 언어 생성을 중지시키는 코드입니다.

In [9]:
import google.generativeai as genai

genai.configure(api_key="AIzaSyD0jMkUWWxa6O1qpGjMIz80zOVxM4KoyKU")
generation_config = genai.GenerationConfig(stop_sequences=[". ","! "])
model = genai.GenerativeModel('gemini-1.5-flash', generation_config=generation_config)
response = model.generate_content("인공지능에 대해 설명하세요.")

print(response.text)

## 인공지능(AI)에 대해 설명해 드릴게요!

**인공지능(AI)**은 컴퓨터가 인간처럼 생각하고 행동할 수 있도록 하는 기술입니다


출력 결과에서 알 수 있듯이 온점(.)이 나타나자 언어 생성을 멈추었으며, 결과 반환 시 온점까지도 제외되었습니다. 참고로, stop_sequences는 최대 5개까지 설정할 수 있으며, 초과 시 InvalidArgument 오류가 발생합니다.

#### max_output_tokens

언어모델에게 언어의 최소 단위는 토큰입니다. 다음은 OpenAI GPT 모델의 토큰 예시입니다.

<center>
<img src='https://wikidocs.net/images/page/229813/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2024-02-04_083412_.png' /><br>
</center>
출처: platform.openai.com/tokenizer

"Learn about language model tokenization."이라는 문장이 총 7개의 토큰으로 표현되었습니다. 색깔에서 보듯이 한 개의 토큰이 단어 하나에 대응되는 것은 아닙니다. 토큰 하나가 단어의 일부만 표현할 수도 있고, 여러 개의 단어를 표현할 수도 있습니다. 구글 제미나이 SDK를 사용하면 다음의 메서드를 통해 토큰 수를 확인할 수 있습니다.

In [10]:
tokens = model.count_tokens("Learn about language model tokenization.")
print(tokens)

total_tokens: 7



제미나이 프로 모델은 영어의 경우 토큰 1개로 약 4글자를 표현합니다. 이에 비해 한글은 토큰 1개로 대략 1.5자를 표현합니다.

구글 제미나이 SDK에서 max_output_tokens는 모델이 생성하는 메시지가 최대 토큰 수를 넘지 않도록 제어하는 매개변수입니다.

In [12]:
generation_config = genai.GenerationConfig(max_output_tokens=10)
model = genai.GenerativeModel('gemini-1.5-flash', generation_config=generation_config)
user_message = "인공지능에 대해 한 문장으로 설명하세요."
response = model.generate_content(user_message)
print(response._result)

candidates {
  content {
    parts {
      text: "인공지능은 컴퓨터 시"
    }
    role: "model"
  }
  finish_reason: MAX_TOKENS
  index: 0
  safety_ratings {
    category: HARM_CATEGORY_SEXUALLY_EXPLICIT
    probability: NEGLIGIBLE
  }
  safety_ratings {
    category: HARM_CATEGORY_HATE_SPEECH
    probability: NEGLIGIBLE
  }
  safety_ratings {
    category: HARM_CATEGORY_HARASSMENT
    probability: NEGLIGIBLE
  }
  safety_ratings {
    category: HARM_CATEGORY_DANGEROUS_CONTENT
    probability: NEGLIGIBLE
  }
}
usage_metadata {
  prompt_token_count: 14
  candidates_token_count: 10
  total_token_count: 24
}



max_output_tokens=10으로 세팅했을 때 finish_reason이 MAX_TOKENS로 출력된 것을 볼 수 있습니다.