<a href="https://colab.research.google.com/github/rickiepark/llm-from-scratch/blob/main/ch06/01_main-chapter-code/exercise-solutions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="width:100%">
<tr>
<td style="vertical-align:middle; text-align:left;">
<font size="2">
세바스찬 라시카(Sebastian Raschka)가 쓴 <a href="http://mng.bz/orYv">Build a Large Language Model From Scratch</a>의 번역서 <br><<b><a href="<a href="http://tensorflow.blog/llm-from-scratch">밑바닥부터 만들면서 배우는 LLM</a></b>>의 예제 코드입니다.<br>
<br>코드 저장소: <a href="https://github.com/rickiepark/llm-from-scratch">https://github.com/rickiepark/llm-from-scratch</a>
</font>
</td>
<td style="vertical-align:middle; text-align:left;">
<a href="http://tensorflow.blog/llm-from-scratch"><img src="https://tensorflowkorea.wordpress.com/wp-content/uploads/2025/09/ebb091ebb094eb8ba5llm_ebb3b8ecb185_ec959eeba9b4.jpg" width="100px"></a>
</td>
</tr>
</table>

# 6장 연습문제 솔루션


## 연습문제 6.1: 문맥 길이 늘리기


모델이 지원하는 최대 토큰 수로 입력을 패딩하려면 `max_length`를 1024로 설정합니다.

```python
max_length = 1024

train_dataset = SpamDataset(base_path / "train.csv", max_length=max_length, tokenizer=tokenizer)
val_dataset = SpamDataset(base_path / "validation.csv", max_length=max_length, tokenizer=tokenizer)
test_dataset = SpamDataset(base_path / "test.csv", max_length=max_length, tokenizer=tokenizer)
```

또는 동일하게 다음과 같이 `max_length`를 정의할 수 있습니다.

```python
max_length = model.pos_emb.weight.shape[0]
```

또는

```python
max_length = BASE_CONFIG["context_length"]
```


편의상 다음과 같이 실험을 실행할 수 있습니다.

```bash
python additional_experiments.py --context_length "model_context_length"
```

[../02_bonus_additional-experiments](../02_bonus_additional-experiments) 폴더에 있는 코드를 사용하면 테스트 정확도가 78.33%로 (본문의 95.67%와 비교하여) 크게 떨어집니다.


## 연습문제 6.2: 전체 모델 미세 튜닝


마지막 트랜스포머 블록만 미세 조정하는 대신, 코드에서 다음 라인을 제거하여 전체 모델을 미세 튜닝할 수 있습니다.

```python
for param in model.parameters():
    param.requires_grad = False
```

다음과 같이 이 실험을 실행할 수 있습니다.

```bash
python additional_experiments.py --trainable_layers all
```

[../02_bonus_additional-experiments](../02_bonus_additional-experiments) 폴더에 있는 코드를 사용하면 본문의 95.67%에 비해 1% 향상된 96.67%의 테스트 정확도를 얻을 수 있습니다.


## 연습문제 6.3: 첫 번째 토큰 vs 마지막 토큰 미세 튜닝


마지막 출력 토큰을 미세 튜닝하는 대신, 다음 코드를

```python
model(input_batch)[:, -1, :]
```

에서

```python
model(input_batch)[:, 0, :]
```

으로 변경하여 첫 번째 출력 토큰을 미세 튜닝할 수 있습니다.

[../02_bonus_additional-experiments](../02_bonus_additional-experiments) 폴더에 있는 코드를 사용하여 다음과 같이 이 실험을 실행할 수 있습니다.

```
python additional_experiments.py --trainable_token first
```

이렇게 하면 테스트 정확도가 75.00%로 크게 떨어집니다(본문에서는 95.67%).
