In [2]:
!pip install transformers==4.40.1 accelerate==0.30.0 bitsandbytes==0.43.1 datasets==2.19.0 vllm==0.4.1 openai==1.25.1 -qqq

In [1]:
import os
os.environ['TF_ENABLE_ONEDNN_OPTS']='0'

## 효율적인 배치
언어모델 특성상 한 번에 하나씩 토큰을 생성하고 입력에 따라 몇 개의 토큰을 추가로 생성할지 예측하기 어렵기 때문에 기존 딥러닝 모델보다 배치 전략을 세우는 데 고려해야 할 사항이 더 많다. **일반 배치와 비슷한 시간대에 들어온 요청을 하나의 배치로 묶는 동적배치**,**배치데이터에서 생성이 완료된 데이터를 제거하고 새로운 데이터를 추가하는 연속 배치 전략**

### 일반 배치(정적배치)
![image.png](attachment:f4055d14-5231-430b-8ed7-e72a24f6067c.png)<br>
- 한번에 $N$개의 입력을 받아 모두 추론이 끝날 때까지 기다리는 방식
- 그림은 배치 크기가 4인 일반 배치 방식으로 입력을 처리한다. 왼쪽 첫번째,세번째 입력은 프롬프트가 3개의 토큰으로 이뤄져있고 두번째는 2개,네번째는 4개 토큰으로 이뤄져있다. 오른쪽 그림은 데이터 생성이 종료된 상태다. 세번째 입력은 1개만 토큰이 추가되고 두번째 입력은 5개 토큰이 추가되고 생성이 종료되었다.
- 이렇게 되면 2가지 문제가 발생하는데 <span style='background-color:yellow'>**세번째 입력은 생성이 종료된 이후에도 다른 데이터의 추론을 기다리며 결과 반환은 못하고 대기하게 된다.그리고 생성이 일찍 종료되는 문장이 있으면 결과적으로 배치 크기가 작아져 GPU를 효율적으로 사용하지 못하게 된다.**</span><br>

### 동적 배치
![image.png](attachment:92816485-bf56-4a0f-b0ac-b4682621ecd4.png)<br>
- 비슷한 시간대의 들어오는 요청을 하나의 배치로 묶어 배치 크기를 키우는 전략
- 서비스 제공시 언제 사용자가 요청을 보낼지 예측할 수 없다.만약 사용자가 요청을 보낼때마다 모델의 추론을 수행하면 가장 먼저 보낸 사용자는 빠르게 응답 받고,다음 요청을 보낸 사용자는 이전 사용자의 추론이 끝나고 자신의 요청을 처리 할 때 까지 대기하게 된다. **이런 문제를 줄이기 위해 사용자가 요청을 보내더라도 바로 추론을 시작하지 않고 일정 시간 대기하며 다른 사용자의 요청을 기다렸다가 한 번에 처리할 수 있다.**
- 왼쪽 그림은 동적배치를 사용하지 않는 경우 인데, 지연시간은 짧을 수 있지만 GPU를 효율적으로 사용하지 못한다.또한 $n$ms만큼 소요된다면 두번째 요청은 $n+1$만큼 소요된다.
- 오른쪽 그림은 첫번째 요청과 두 번째 요청은 지연시간이 추가되지만 전체적인 처리량을 높일 수 있다. <span style='background-color:yellow'>동적 배치는 온라인 서빙에서 배치 크기를 키워 처리량을 높일 수 았다. **하지만 토큰 길이 차이로 인해 처리하는 배치 크기가 점차 줄어 GPU를 비효율 적으로 사용하게 되는 문제는 여전히 남아있다**.</span>

### 연속 배치
![image.png](attachment:eb2fa4b5-f106-4b12-a5c5-aacd73676a2f.png)<br>
- 연속 배치는 일반배치와 달리 **배치데이터의 추론이 모두 끝날 때까지 기다리지 않고 하나의 토큰 생성이 끝날때마다 생성이 종료된 문장은 제거하고 새로운 문장을 추가한다.** 그림 오른쪽의 첫번째,세번째,네번째 문장 자리에 새로운 문장인 $S_5,S_6,S_7$ 을 추가한 것을 확인할 수 있다.
- 하지만 고려해야 할 사항이 있다. 언어 모델 추론 수행 시 프롬프트를 병렬로 처리하는 사전연산과 한 토큰씩 생성하는 디코딩으로 나눌 수 있는데, 사전 연산과 디코딩은 처리방식이 다르기 때문에 한번의 토큰 생성이 끝날 때마다 새로운 문장을 배치에 추가하지는 않고 처리 중인 문장과 대기중인 문장의 비율을 지켜보고 특정 조건을 달성했을때 추가하기도 한다.
- HugginfFace 의 Text-Generation-Inference의 경우 waiting_served_ratio와 같은 설정을 통해 새로운 요청을 배치에 추가하도록 한다.

## 효율적인 트랜스포머 연산

### FlashAttention
- transformer는 연산량이 학습 과정에서는 sequence 길이의 제곱에 비례하고 추론 과정에서는 sequence 길이에 비례하게 증가하기 때문에 긴 sequence를 처리하는 데 어려움이 있다.
- 플래시어텐션은 트랜스포머가 더 긴 sequence를 처리하도록 만들기 위해 개발됐다. 어텐션 연산 과정을 변경해 학습 과정에서 필요한 메모리를 시퀀스 길이에 비례하도록 개선했다.<br>
![image.png](attachment:d03df678-b5b6-4acb-87ac-fdacca6291d1.png)<br>
- 그림에서 쿼리와 키 행렬은 $N \times d$인데 여기서 $N$은 sequence의 길이, $d$는 잠재 상태의 차원이다.**잠재 상태의 차원**은 한 모델 내에서 변하지 않고 보통 700~1000 정도 의 값을 갖는데, sequence의 길이는 입력에 따라 얼마든지 증가할 수 있다. 어텐션 행렬은 $N \times N$ 크기의 행렬로 어텐션 행렬에 **마스크 연산,소프트맥스 처리,드롭아웃 처리**를 거친 후 값 벡터와 곱해 최종적으로 출력인 $O$ 행렬이 된다. 어텐션 행렬부터 드롭아웃 처리까지의 행렬 크기가 입력인 $Q,K,V$이나 출력 행렬 $O$에 비해 큰것을 알 수 있다.<br>
![image.png](attachment:174353d2-7bc9-4997-a92c-ebb71ccd7b43.png)<br>
- 어텐션 연산에 드는 시간을 측정하면## FlashAttention
- transformer는 연산량이 학습 과정에서는 sequence 길이의 제곱에 비례하고 추론 과정에서는 sequence 길이에 비례하게 증가하기 때문에 긴 sequence를 처리하는 데 어려움이 있다.
- 플래시어텐션은 트랜스포머가 더 긴 sequence를 처리하도록 만들기 위해 개발됐다. 어텐션 연산 과정을 변경해 학습 과정에서 필요한 메모리를 시퀀스 길이에 비례하도록 개선했다.<br>
![image.png](attachment:d03df678-b5b6-4acb-87ac-fdacca6291d1.png)<br>
- 그림에서 쿼리와 키 행렬은 $N \times d$인데 여기서 $N$은 sequence의 길이, $d$는 잠재 상태의 차원이다.**잠재 상태의 차원**은 한 모델 내에서 변하지 않고 보통 700~1000 정도 의 값을 갖는데, sequence의 길이는 입력에 따라 얼마든지 증가할 수 있다. 어텐션 행렬은 $N \times N$ 크기의 행렬로 어텐션 행렬에 **마스크 연산,소프트맥스 처리,드롭아웃 처리**를 거친 후 값 벡터와 곱해 최종적으로 출력인 $O$ 행렬이 된다. 어텐션 행렬부터 드롭아웃 처리까지의 행렬 크기가 입력인 $Q,K,V$이나 출력 행렬 $O$에 비해 큰것을 알 수 있다.<br>
![image.png](attachment:174353d2-7bc9-4997-a92c-ebb71ccd7b43.png)<br>
- 어텐션 연산에 드는 시간을 측정하면 mask,softmax,dropout의 시간이 matmul 시간보다 더 길다.하지만 연산량은 matmul이 훨씬 많다.<br>
<span style='background-color:yellow'>이유는 mask,softmax,dropout은 어텐션 행렬에 취하는 연산이기 때문이다. 큰 메모리를 사용하는 세 연산이 GPU에서 메모리를 읽고 쓰는 데 오랜 시간이 걸리기 때문인다.</span><br>
![image.png](attachment:7d95a00e-3a92-4724-bd34-7c1555c5f723.png)<br>
- GPU 메모리는 그림과 같이 계층적인 구조를 갖고있다. <span style='color:Orange'>데이터를 빠르게 이동시킬 수 있는 **SRAM**</span>,<span style='color:Green'>데이터 이동속도가 느린 **고대역폭 메모리(HBM)** </span>
- SRAM은 빠르지만 메모리 크기가 작아 대부분의 읽기 쓰기 작업은 HBM에서 이뤄진다. 어텐션 행렬은 크기가 크기 때문에 SRAM에서 처리할 수 없고 HBM에 쓰고 다시 읽으면서 연산을 수행해야한다. 데이터 전달 속도가 느리기 때문에 큰 어텐션 행렬을 쓰고 읽는 데 오래걸린다.<br>
![image.png](attachment:9271a444-42b2-44bd-bde6-8f9ef4ca1bbc.png)<br>
- **플래시어텐션**은 HBM에 어텐션 행렬을 쓰고 읽으면서 걸리는 시간을 줄이기 위해 그림의 상자처럼 블록단위로 어텐션 연산을 수행하고 전체 어텐션 행렬을 쓰거나 읽지 않는 방식으로 어텐션 연산의 속도를 높였다.
- 작은 블록 단위로 연산을 수행하기 때문에 HBM이 아닌 SRAM에 데이터를 읽고 쓰면서 더 빠르게 연산을 수행한다.**플래시 어텐션은 이 두가지 개선으로 속도를 높인다**
- 가운데에 어텐션 행렬이 점선으로 표시되어있는 것은 HBM에 읽고 쓰는 시간을 줄이기 위해 어텐션 행렬을 따로 저장하지 않는다는 것을 강조한 것이다. 속도가 느린 HBM에 큰 데이터를 쓰고 읽는 작업을 제거 했기 때문에 동일 연산을 수행하면서도 짧게 걸린다.
- <span style='background-color:yellow'>**블록 단위로 계산한 최종 결과를 그림 아랫 부분 HBM에 저장한다 최종 결과는 $N \times d$차원으로 어텐션 행렬에 비해 훨씬 작다.**</span>
- 이방식을 사용하면 $N \times N$ 크기의 행렬을 저장하지 않고 어텐션 연산이 가능하다. 하지만 역전파 계산 과정에서 순전파에서 계산한 $N \times N$ 행렬의 값이 필요한데 플래시 어텐션은 <span style='color:blue'>**역전파 과정에서 다시 순전파를 계산하는 방식으로 문제를 해결한다.계산량은 증가하지만 처리 시간이 대부분 HBM에서 쓰고 읽을때 발생하기 떄문에 실행시간은 감소한다.**</span> 


<hr>
<p><b>블록 단위 소프트맥스 연산 과정</b></p>

$$softmax(x_i)=\frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}$$

소프트맥스의 계산식은 위와 같은데 식에서 $x$는 벡터 $X$에 속한 요소(스칼라)다. 연산을 위해서는 분모에서 전체 벡터의 값이 필요한데, <b>블록 단위로 계산하려면 벡터 일부분의 소프트맥스 연산 결과로 전체 연산 결과를 만들 수 있어야 한다.</b><br>

예를 들어 벡터$X$의 소프트맥스를 계산한다고 할 때 
$$X=[1,2,3,4,5,6]$$

$$softmax(X) = \frac{[e^1,e^2,e^3,e^4,e^5,e^6]}{e^1+e^2+e^3+e^4+e^5+e^6} = \frac{f(X)}{l(X)}$$<br>
벡터 $X$를 요소 3개씩 나눠 $X_1,X_2$로 나눈다.
$$X_1[1,2,3],X_2[4,5,6]$$
그러면 전체의 소프트맥스 값은 $f(X_1),f(X_2)$을 조합하고,$l(X_1),l(X_2)$을 조합해 계산 할 수 있다. 분자에서는 $f(X_1),f(X_2)$를 연결해서 하나의 벡터로 만들고 분모에서는 $l(X_1),l(X_2)$를 더하면 된다.<br>
![image.png](attachment:c9857a2f-14dc-4ddf-82b8-d70564728913.png)<br>
![image.png](attachment:d87aed49-b349-4e42-bbf5-7bf790fe86fb.png)<br>
![image.png](attachment:57e01031-f181-4e8d-8535-d82d36ec22da.png)
<hr>


### 플래시어텐션2
- 플래시어텐션2는 플래시어텐션을 개선해 2배 정도 속도를 향상했다. 개선한 부분은 크게 두가지이며 <span style='background-color:yellow'>**행렬 곱이 아닌 연산 줄이기,Sequence 길이 방향의 병렬화 추가**</span>이다.
- **행렬 곱 아닌 연산 줄이기** : A100 기준으로 FP16,BF16의 행렬곱은 최대 312TFLOPS까지 가능하지만 FP32인 비 행렬곱 연산은 19.5TFLOPS밖에 처리하지 못한다. 대략 16배 속도 차이인데 비용측면에서 비 행렬곱 연산이 16배 비싸다고 볼 수 있다.
- **Sequence 길이 방향 병렬화 추가** : 기존 (배치크기 x 어텐션 헤드 수) 만큼의 스레드 블록으로 병렬 처리를 했는데 **시퀀스 길이 방향으로 병렬화를 추가**했다.<br>
![image.png](attachment:f8fb5305-e7e7-4542-b101-bd16180d4782.png)
- 예를 들어 A100 에는 108개의 SM이 있는데 32개의 어텐션 헤드가 있는 상황에서 1~2의 배치로 실행한다면 상당수의 SM이 실행되지 않고 낭비될수 있다. 그래서 그림과 같이 시퀀스의 길이 방향으로 여러 개의 묶음으로 나눠 사용하는 스레드 블록 수를 늘린다.

In [11]:
import torch

if torch.cuda.is_available():
    device = torch.cuda.get_device_name(0)  # 첫 번째 GPU의 이름을 가져옵니다
    properties = torch.cuda.get_device_properties(0)  # 첫 번째 GPU의 속성
    print(f"Device Name: {device}")
    print(f"Number of Streaming Multiprocessors (SMs): {properties.multi_processor_count}")
    print(f"CUDA Cores: {properties.multi_processor_count * 64}")  # SM당 64 CUDA Cores (NVIDIA 아키텍처에 따라 상이할 수 있음)
    print(f"Total Memory: {properties.total_memory / (1024 ** 2)} MB")
else:
    print("CUDA is not available on this system.")

Device Name: NVIDIA GeForce RTX 3060
Number of Streaming Multiprocessors (SMs): 28
CUDA Cores: 1792
Total Memory: 8191.5 MB


### 상대적 위치 인코딩
$$PE_(pos,2i) = sin (pos/10000^{2i/d_{model}})$$
$$PE_(pos,2i+1) = cos(pos/10000^{2i/d_{model}})$$
최초 트랜스포머 아키텍처는 위와같이 토큰 위치에 따라 sin,cos 수식으로 정해진 값을 더해줬다. $pos$는 토큰 위치,$d_{model}$은 임베딩차원,$i$는 임베딩에서 몇번째 차원인지 의미한다. 이 방식을 **사인파(sinusoidal) 위치 인코딩**이라고 한다.<br>

- 위치에 따라 정해진 값을 추가하는 방식을 **절대적 위치 인코딩**이라고 하는데, <span style='background-color:yellow'>학습 데이터와 비슷한 입력 데이터에서는 잘 동작하지만, 학습데이터보다 더 긴 입력이 들어오면 언어 모델의 생성 품질이 빠르게 떨어진다는 한계가 있다</span>.이 한계를 극복하기 위해 <span style='background-color:yellow'>**토큰의 절대적인 위치에 따라 임베딩을 더하는 것이 아니라 토큰 사이의 상대적인 위치 정보를 추가하는 상대적 위치 인코딩 방식이 연구됐다.**</span><br>
![image.png](attachment:3d57c530-4d3a-4d4e-8400-fc6bd0f45802.png)<br>
- 첫번째 문장에서 '검은 고양이가'는 첫 두단어고, 두번째 문장에서 네번째,다섯번째 단어에 해당한다. **절대적 위치 인코딩을 사용한다면 두 문장에서 절대적인 위치가 다르기 때문에 서로 다른 위치 임베딩 값이 더해진다.** 하지만 몇 번째 토큰으로 등장했는지 보다 '검은'과 '고양이가' **서로 한칸 떨어져 등장한다는 사실이 더 중요하다.** <span style='background-color:yellow'>상대적 위치 인코딩은 '검은'과 '고양이가'가 얼마나 떨어져있는지를 모델에 입력해 상대적 위치에 따라 문장의 의미가 어떻게 달라지는지 학습하도록 한다.</span><br>
![image.png](attachment:a779f8d8-a968-4dc9-8883-b27a803e6b85.png)<br>
- 상대적 위치 인코딩 방식 중 **RoPE(Rotary Positional Encoding)** 방식은 첫번째 그림이 '검은'과'고양이가'의 토큰임베딩이라고 했을 때 두번째 그림에서 '검은'은 첫번째 위치 '고양이가'가 두번째 위치에 있기 때문에 각각 $\theta$,$2\theta$씩 회전 시킨다. 세번째 그림에서 '검은''고양이가'가 네번째, 다섯번째 위치에 있기 때문에 각각 $4\theta$,$5\theta$씩 회전시켰다. <span style='color:blue'>**두번째 그림과 세번째 그림 을 비교했을 때 '검은'과 '고양이가'의 임베딩은 서로 달라지지만 둘다 한칸씩 떨어져있기 때문에 결과적으로 두 임베딩 사이의 각도는 동일하다. 즉, RoPE를 사용할 경우 토큰 사이의 위치 정보가 두 임베딩 사이의 각도를 통해 모델에 반영된다.**</span><br>
![image.png](attachment:4af85247-4938-48aa-9c76-8a32b3d500e4.png)<br>
- **ALiBi**는 더 간단한 상대적 위치 인코딩 방식인데 왼쪽 쿼리와 키 벡터를 곱한 어텐션 행렬에 오른쪽에서 왼쪽으로 갈수록 더 작은 값을 더하는 방식을 사용한다. 오른쪽의 행렬은 현재 쿼리의 위치를 의미하는 0을 기준으로 앞에 있을수록 더 작은 값을 더해 상대적인 위치를 나타낸다.<br>
![image.png](attachment:cc51290a-35bd-4431-896c-7aa60e2ac428.png)<br>
- 상대적 위치 인코딩을 사용하면 사인파에 비해 성능이 빠르게 나빠지지 않는다. 512개 토큰 길이를 갖는 학습 데이터로 학습시킨 모델에 더 긴 입력을 넣었을 때 사인파는 PPL이 빠르게 증가한다. <br>
![image.png](attachment:4f645c14-2743-4c67-a332-5558a5790d4b.png)<br>
- ALiBi의 경우 간단한 인코딩 방식을 사용하기 때문에 학습과 추론에도 별도로 처리 시간을 추가하지 않는다. RoPE는 토큰 임베딩 회전처리가 추가되기 때문에 학습 속도와 추론 속도가 느려지지만 사인파 방식와  ALiBi의 경우 속도가 거의 동일하다.

## 효율적인 추론 전략


### 커널퓨전(kernel fusion)
![image.png](attachment:6664a144-448f-4156-951c-c0a5034c00ac.png)<br>
- GPU에서 연산은 커널 단위로 이뤄진다. 예를들어 2개 텐서를 곱하는 경우 Matmul 커널이 실행된다. 하지만 위쪽 그림처럼 연산 전후 추가적인 작업을 위한 오버헤드가 발생한다. **대표적인 오버헤드로 HBM에서 데이터를 읽어오고 연산 결과를 쓰는 작업이 있다.** N개의 커널이 수행되는 경우 오버헤드도 그만큼 발생하기 때문에 연산 시간이 길어진다.
- 두번째 그림과 같이 <span style='color:blue'>연산을 하나로 묶어 오버헤드를 줄이는 커널 퓨전을 사용해 연산 과정을 더 효율적으로 만들 수 있다. </span><br>
![image.png](attachment:caf026a2-b1f7-41f5-be75-91828335e6cb.png)<br>
- 커널 퓨전의 대표적 예시는 플래시 어텐션이 있다. 플래시어텐션은 블록단위로 연산을 수행해 연산 속도를 높였다. 큰 행렬을 읽고 쓰는 과정에서 많은 오버헤드가 발생해 연산이 느려졌던 것이다.mask,softmax,dropout 처럼 큰 행렬을 읽고 쓰느라 오래 걸렸던 연산들을 하나로 묶어 연산시간을 대폭 줄였다.

### 페이지어텐션
![image.png](attachment:ece1ae50-c5db-472c-a0e3-a0bfaa6748bf.png)<br>
페이지 어텐션은 KV 캐시를 효율적으로 관리하면서 기존 최대 배치 크기가 8인 걸 40에 가까운 배치 크기로 사용하게 할 수 있다.<br>
![image.png](attachment:de26fc8a-a2d7-42be-9eb2-7a6722ce9227.png)<br>
- A요청 'Four score and seven years ago our'이라는 프롬프트로 생성을 시작했고 현재 'fathers brought' 2개의 토큰을 생성했다. 그리고 앞으로 'forth'를 생성하고 <eos> 토큰을 마지막으로 생성 종료할 예정이라고 했을 때 A 요청의 사용자는 최대 2048개의 토큰을 생성하도록 요청했는데 KV 캐시는 몇개의 토큰을 생성할지 모르기때문에 이미 최대 생성 토큰수 만큼 메모리를 예약해뒀다.결국 2038개의 메모리는 사용되지 않고 자리만 차지하게 된다. 두번째 요청에서도 507개의 메모리는 사용하지 않았다.
- 이 메모리 낭비는 '연속적인 물리 메모리'를 사용하기 위해 미리 메모리를 준비하기 때문에 발생한다. CS에서는 RAM을 효율적으로 활용하기 위해 가상메모리 같은 개념이 개발됐다. 실제 물리적 메모리 주소를 통해 메모리에 접근하지 않고 OS가 관리하는 논리적 메모리 주소를 사용하는 방식을 말한다.<br>
![image.png](attachment:1d23e5f0-4239-43ad-a4fe-665ba8f71923.png)<br>
- 페이지어텐션은 가상 메모리 개념을 빌려와 그림과 같이 중간에서 논리적 메모리와 물리적 메모리를 연결하는 **블록 테이블** 을 관리해서 실제 물리적으로 연속된 메모리를 사용하지 않으면서 논리적 메모리에서는 서로 연속적으로 만들었다. 또한 블록단위로 메모리를 배정하지 않기 때문에 512개 또는 2048개와 같이 큰 메모리를 예약하지 않고 최대 블록 크기만큼의 메모리만 배정한다.
- 블록 크기(또는 페이지크기)가 4인 페이지어텐션을 사용할때 입력 프롬프트로 'Four score and seven years ago our'이 들어온 상황인데, 입력 토큰은 논리적 KV블록(Logical KV blocks)에서는 블록 0 과 블록 1에 순차적으로 채워지고,생성하는 토큰 'fathers'와 'brought'도 블록 1과 블록 2에 순서대로 채워진다. 하지만 실제 GPU 메모리에 저장될 때는 블록7,블록1,블록3에 저장하고 논리적 블록과 물리적 블록이 어떻게 연결되는지 block table에서 관리한다.
- 기존 KV 캐시에서는 512개 또는 2048개의 메모리 슬롯을 예약하고 사용하지 않으면 낭비하게 됐다. 하지만 블록 크기가 4면 배정후에 생성이 종료돼 사용하지 않게되더라도 최대 $(블록크기-1)$의 메모리만 낭비한다.<br>
![image.png](attachment:5e8cc598-94b4-4ede-96a0-9299fee9faa0.png)<br>
- 페이지어텐션은 다양한 디코딩 방식에서 메모리를 절약할 수 있다. **병렬 샘플링에서 입력프롬프트에 대한 메모리를 공유함으로써 메모리를 절약한다.**
- 'Four score and seven years ago our '을 입력으로 2개의 텍스트를 생성하고 싶다고 한다면, 물리적 블록 7 과 1에 저장하고 sample A1과 A2가 공유한다. A1 에는 'father' A2에는 'mother'를 생성했다고 할때 각기 다른 토큰을 생성했기 때문에 블록을 공유하지 못하고 분리해야 하는데 이때 <span style='color:blue'>**참조카운트(reference count)**</span> 개념을 활용한다. 참조 카운트는 <span style='background-color:yellow'>물리적 블록을 공유하고 있는 논리적 블록 수를 의미하며 A1과A2가 물리적 블록 1을 공유하고 있는 상황에서는 물리적 블록 1은 2개의 샘플과 연결돼 있기 때문에 Ref count가 2다. </span>
- Ref count가 1보다 클 경우 새로운 토큰을 바로 이어서 저장하지 않고 새로운 블록에 **Copy-on-write**해서 새롭게 분리한다. A1의 'fathers'를 저장하기위해 블록 3에 저장했다. 이제 블록1은 A2만 연결돼 있기 때문에 Ref count가 1이된다. 그러고 이제 블록1에 'mother'를 저장한다. 이 방식을 사용하면 동일 토큰은 메모리를 공유하고 새롭게 생성한 토큰만 서로 분리해 저장해가며 GPU 메모리를 효율적으로 활용할 수 있다.

### 추측 디코딩
- '철수는 학교에'를 봤을 때 뒤에 '간다'가 이어진다고 쉽게 생각이 가능하지만, '반도체의 원리는' 이라는 문장에 어떤 다음 단어가 올지 빠르게 생각하기 어렵다.<span style='background-color:yellow'>이런 의문에 기반해 쉬운단어는 더작고 효율적인 모델이 예측하고 어려운 단어는 더 크고 성능 좋은 모델이 예측하는 방식을 **추측 디코딩(speculative decoding)** 이라고 한다.</span><br>
![image.png](attachment:a1e9d566-1d1f-41bf-9259-6ef80ba27ab7.png)<br>
- 추측 디코딩은 작은 **드래프트 모델(draft model)** 큰 **타깃 모델(target model)** 이라는 2개의 모델을 사용해 추론을 수행한다. 드래프트 모델은 빠르게 추론이 가능하기 때문에 $K$개의 토큰을 먼저 생성한다. 그리고 타깃 모델이 드래프트 모델이 생성한 $K$개의 토큰이 타깃 모델이 추론했다면 생성했을 결과와 동일한지 계산해 동일하다면 승인하고 동일하지 않다면 거절한다.<br>
![image.png](attachment:ad088316-64b1-4717-bf66-31adc390f611.png)<br>
- 추측 디코딩은 원본 모델에 비해 훨씬 작은 드래프트 모델의 추가만으로 원본 모델의 성능을 유지하면서 속도를 2배 이상 높일수 있다는 점에서 다양한 서빙 프레임워크에서 채택하고 있다.

# LLM Serving Framework
LLM serving framework인 vLLM은 HuggingFace의 유명 모델을 중심으로 serving을 지원하며 사용 가능한 모델군을 지속적으로 확대하고 있다. 사용하고자 하는 모델이 vLLM으로 추론할 수 있는지는 (https://docs.vllm.ai/en/latest/models/supported_models.html) 에서 확인할수 있다.

### 오프라인 서빙
정해진 입력 데이터에 대해 배치 추론을 수행하는 것을 말한다. 모델에 입력할 데이터가 이미 정해져 있기 때문에 배치 처리를 통해 처리량을 높일 수 있다.

In [1]:
import torch
from datasets import load_dataset

def make_prompt(ddl,question, query=''):
    prompt = f"""너는 SQL을 생성하는 SQL 봇이다. DDL 테이블을 활용한 Question을 해결할 수 있는 SQL 쿼리를 생성해
### DDL:
    {ddl}
### Question:
    {question}
### SQL:
    {query}"""
    return prompt
dataset = load_dataset('shangrilar/ko_text2sql','origin')['test']
dataset = dataset.to_pandas()
for idx,row in dataset.iterrows():
    prompt = make_prompt(row['context'],row['question'])
    dataset.loc[idx,'prompt'] = prompt

In [2]:
for idx, row in dataset.iterrows():
    if not isinstance(row['context'], str) or not isinstance(row['question'], str):
        print(f"Invalid data at index {idx}: context={row['context']}, question={row['question']}")

In [3]:
from huggingface_hub import login
login(token = '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')

In [4]:
import warnings
warnings.filterwarnings('ignore')

In [5]:
%%time
from transformers import AutoTokenizer, AutoModelForCausalLM,pipeline
model_id = 'shangrilar/yi-ko-6b-text2sql'
model = AutoModelForCausalLM.from_pretrained(model_id, device_map = "auto",load_in_4bit=True,bnb_4bit_compute_dtype = torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
model.config.pad_token_id = tokenizer.eos_token_id
hf_pipeline = pipeline('text-generation',model=model,tokenizer = tokenizer)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

CPU times: total: 3.05 s
Wall time: 12.6 s


In [6]:
import time
for batch_size in [1,2,4,8,16,32]:
    start_time = time.time()
    hf_pipeline(dataset['prompt'].tolist(), max_new_tokens=128, batch_size=batch_size)
    print(f'{batch_size}:{time.time()-start_time}')
    gc.collect()
    torch.cuda.empty_cache()
import gc


Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


1:196.35506319999695
2:431.9481403827667
4:296.1709785461426
8:208.38412070274353
16:147.60273098945618
32:3292.447944879532


배치 크기가 2일때 증가하긴 하지만 전체적으로 배치크기가 증가하면서 추론 시간이 줄어든다.32 배치일때는 다른 것들을 같이 하다보니 오래 걸렸다.

In [7]:
import winsound
## 끝난걸 확인하기 위한 사운드
def play_sound():
    frequency = 600  # 주파수 (헤르츠)
    duration = 900  # 지속 시간 (밀리초)
    winsound.Beep(frequency, duration)
play_sound()

In [43]:
#vLLM 불러오기
from vllm import LLM,SamplingParams

model_id = 'ministral/Ministral-3b-instruct'
llm = LLM(model=model_id,dtype = torch.float16,max_model_len = 1024)

for max_num_seqs in [1,2,4,8,16,32]:
    start_time = time.time()
    llm.llm_engine.scheduler_config.max_num_seqs = max_num_seqs
    sampling_params = SamplingParams(temperature = 1,top_p = 1,max_tokens = 128)
    outputs = llm.generate(dataset['prompt'].tolist(),sampling_params)
    print(f'{max_num_seqs}:{time.time()-start_time}')
play_sound()
gc.collect()
torch.cuda.empty_cache()

config.json:   0%|          | 0.00/619 [00:00<?, ?B/s]

ERROR 10-25 14:51:40 registry.py:267] Error in inspecting model architecture 'MistralForCausalLM'
ERROR 10-25 14:51:40 registry.py:267] Traceback (most recent call last):
ERROR 10-25 14:51:40 registry.py:267]   File "C:\Users\ktaek\anaconda3\Lib\site-packages\vllm\model_executor\models\registry.py", line 429, in _run_in_subprocess
ERROR 10-25 14:51:40 registry.py:267]     returned.check_returncode()
ERROR 10-25 14:51:40 registry.py:267]   File "C:\Users\ktaek\anaconda3\Lib\subprocess.py", line 502, in check_returncode
ERROR 10-25 14:51:40 registry.py:267]     raise CalledProcessError(self.returncode, self.args, self.stdout,
ERROR 10-25 14:51:40 registry.py:267] subprocess.CalledProcessError: Command '['C:\\Users\\ktaek\\anaconda3\\python.exe', '-m', 'vllm.model_executor.models.registry']' returned non-zero exit status 1.
ERROR 10-25 14:51:40 registry.py:267] 
ERROR 10-25 14:51:40 registry.py:267] The above exception was the direct cause of the following exception:
ERROR 10-25 14:51:40 

ValueError: Model architectures ['MistralForCausalLM'] are not supported for now. Supported architectures: ['AquilaModel', 'AquilaForCausalLM', 'ArcticForCausalLM', 'BaiChuanForCausalLM', 'BaichuanForCausalLM', 'BloomForCausalLM', 'CohereForCausalLM', 'DbrxForCausalLM', 'DeciLMForCausalLM', 'DeepseekForCausalLM', 'DeepseekV2ForCausalLM', 'ExaoneForCausalLM', 'FalconForCausalLM', 'GemmaForCausalLM', 'Gemma2ForCausalLM', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTJForCausalLM', 'GPTNeoXForCausalLM', 'GraniteForCausalLM', 'GraniteMoeForCausalLM', 'InternLMForCausalLM', 'InternLM2ForCausalLM', 'JAISLMHeadModel', 'JambaForCausalLM', 'LlamaForCausalLM', 'LLaMAForCausalLM', 'MambaForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'QuantMixtralForCausalLM', 'MptForCausalLM', 'MPTForCausalLM', 'MiniCPMForCausalLM', 'MiniCPM3ForCausalLM', 'NemotronForCausalLM', 'OlmoForCausalLM', 'OlmoeForCausalLM', 'OPTForCausalLM', 'OrionForCausalLM', 'PersimmonForCausalLM', 'PhiForCausalLM', 'Phi3ForCausalLM', 'Phi3SmallForCausalLM', 'PhiMoEForCausalLM', 'Qwen2ForCausalLM', 'Qwen2MoeForCausalLM', 'RWForCausalLM', 'StableLMEpochForCausalLM', 'StableLmForCausalLM', 'Starcoder2ForCausalLM', 'SolarForCausalLM', 'XverseForCausalLM', 'BartModel', 'BartForConditionalGeneration', 'Gemma2Model', 'MistralModel', 'Qwen2ForRewardModel', 'Phi3VForCausalLM', 'Blip2ForConditionalGeneration', 'ChameleonForConditionalGeneration', 'ChatGLMModel', 'ChatGLMForConditionalGeneration', 'FuyuForCausalLM', 'InternVLChatModel', 'LlavaForConditionalGeneration', 'LlavaNextForConditionalGeneration', 'LlavaNextVideoForConditionalGeneration', 'LlavaOnevisionForConditionalGeneration', 'MiniCPMV', 'MolmoForCausalLM', 'NVLM_D', 'PaliGemmaForConditionalGeneration', 'PixtralForConditionalGeneration', 'QWenLMHeadModel', 'Qwen2VLForConditionalGeneration', 'UltravoxModel', 'MllamaForConditionalGeneration', 'EAGLEModel', 'MedusaModel', 'MLPSpeculatorPreTrainedModel']

##  현재 어떤 모델을 넣어도 지원하지 않는다고 나오는 문제가 있는데 해결 방법을 찾은 뒤 다시 실행 해봐야 겠다.

## 온라인 서빙

아래와 같이 명령을 수행하면 모델을 허깅페이스 허브에서 다운로드 하고 API 서버를 실행한다 이 명령에서는 --model 인자에 모델 아이디를 전달하고 --host 인자로 로컬에서 실행하기 위해 127.0.0.1을,--port 인자에는 8888을 전달해 로컬호스트의 8888로 요청 받도록 설정했다. nohup이 없다면 새로운 셀을 실행할 수 없기 때문에 nohup을 추가하자.// 현재 내 로컬은 윈도우 환경이기 때문에 wsl설치를 진행하고 실시

In [13]:
!start python -m vllm.entrypoints.openai.api_server \--model shangrilar/yi-ko-6b-text2sql --host 127.0.0.1 --port 8888 --max-model-len 1024

In [2]:
!jupyter server list

Currently running servers:
http://localhost:8888/?token=f83dee91a911bd7e97f963d3350526a1be6439472bcbdc24 :: C:\Users\ktaek\OneDrive\Desktop\업무
http://localhost:8888/?token=00726767d9bd1617d54000c7859f3ff2fe45d5117dc00984 :: C:\Users\ktaek\OneDrive\Desktop\LLM
http://localhost:8888/?token=f8b3935dd2decacf7244873aa9a28e4cd122e392567b4226 :: C:\Users\ktaek\OneDrive\Desktop\LLM


In [16]:
# API 요청
import json

json_data = json.dumps(
    {"model": "shangrilar/yi-ko-6b-text2sql",
      "prompt": dataset.loc[0, "prompt"],
      "max_tokens": 128,
      "temperature": 1}
    )

!curl http://localhost:8888/v1/completions \
    -H "Content-Type: application/json" \
    -d '{json_data}'

<!DOCTYPE HTML>
<html>

<head>

    <meta charset="utf-8">

    <title>Jupyter Server</title>
    <link id="favicon" rel="shortcut icon" type="image/x-icon" href="/static/favicon.ico?v=50afa725b5de8b00030139d09b38620224d4e7dba47c07ef0e86d4643f30c9bfe6bb7e1a4a1c561aa32834480909a4b6fe7cd1e17f7159330b6b5914bf45a880">
    
    <link rel="stylesheet" href="/static/style/bootstrap.min.css?v=0e8a7fbd6de23ad6b27ab95802a0a0915af6693af612bc304d83af445529ce5d95842309ca3405d10f538d45c8a3a261b8cff78b4bd512dd9effb4109a71d0ab" />
    <link rel="stylesheet" href="/static/style/bootstrap-theme.min.css?v=8b2f045cb5b4d5ad346f6e816aa2566829a4f5f2783ec31d80d46a57de8ac0c3d21fe6e53bcd8e1f38ac17fcd06d12088bc9b43e23b5d1da52d10c6b717b22b3" />
    <link rel="stylesheet" href="/static/style/index.css?v=30372e3246a801d662cf9e3f9dd656fa192eebde9054a2282449fe43919de9f0ee9b745d7eb49d3b0a5e56357912cc7d776390eddcab9dac85b77bdb17b4bdae" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <meta name="viewp

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100  3079  100  3071  100     8   769k   2052 --:--:-- --:--:-- --:--:-- 1002k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0curl: (6) Could not resolve host: shangrilar
curl: (3) URL rejected: Port number was not a decimal number between 0 and 65535
curl: (3) URL rejected: Malformed input to a URL function
curl: (3) URL rejected: Port number was not a decimal number between 0 and 65535
curl: (3) URL rejected: