# LLM Memory calculator

* Requried memory(GB) = # of parameter X precision(bytes) / 1024^3

LLM 필요 메모리는 모델 파라미터 개수와 precision 외에도 여러 요인에 따라 달라지기 때문에 정확히 계산하기는 어렵습니다. 하지만, 간단한 추정을 위해 다음과 같은 공식을 사용할 수 있습니다.

*** 필요 메모리 (GB) ≈ (파라미터 개수 × Precision (bytes)) / (1024^3) ***

파라미터 개수: 모델의 파라미터 개수입니다. 예를 들어, 100억 개의 파라미터를 가진 모델의 경우 10,000,000,000 을 입력합니다.
Precision (bytes): 모델의 precision에 따라 달라지는 값입니다. 일반적인 precision과 그에 해당하는 bytes는 다음과 같습니다.

* FP32 (float32): 4 bytes
* FP16 (float16): 2 bytes
* BF16 (bfloat16): 2 bytes
* INT8 (int8): 1 byte

예시:

100억 개의 파라미터를 가진 모델을 FP16 precision으로 실행하는 경우 필요한 메모리는 다음과 같이 계산할 수 있습니다.

*** 필요 메모리 (GB) ≈ (10,000,000,000 × 2) / (1024^3) ≈ 18.63 GB ***

주의 사항:

* 추가적인 메모리: 위 공식은 모델 가중치를 저장하는 데 필요한 메모리만 고려합니다. 그래디언트, optimizer 상태, 활성화 값 등을 저장하기 위한 추가 메모리가 필요합니다. 일반적으로 이러한 추가 메모리는 모델 가중치 메모리의 20% 정도로 추정할 수 있습니다.
* 활성화 값: 모델의 활성화 값은 입력 시퀀스 길이에 따라 달라지므로 필요한 메모리에 영향을 미칩니다. 긴 시퀀스를 처리할수록 더 많은 메모리가 필요합니다.
* 배치 크기: 배치 크기가 클수록 더 많은 메모리가 필요합니다.
* 기타 요인: 모델 아키텍처, 최적화 기술, 하드웨어 및 소프트웨어 환경 등 여러 요인이 필요한 메모리에 영향을 미칠 수 있습니다.
정확한 메모리 요구량을 확인하려면:

* 실험: 모델을 직접 실행하여 메모리 사용량을 모니터링하는 것이 가장 정확합니다.
* 문서: 모델 제공자의 문서 또는 모델 카드를 참조하여 메모리 요구량에 대한 정보를 확인할 수 있습니다.

참고:

위 공식은 대략적인 추정치를 제공하며 실제 메모리 사용량은 다를 수 있습니다.
LLM을 효율적으로 실행하려면 충분한 메모리를 가진 GPU를 사용하는 것이 중요합니다.
메모리 사용량을 줄이기 위해 quantization, mixed precision training, gradient checkpointing 등의 기술을 사용할 수 있습니다.

In [7]:
# 40B
memory_gb = (2 * 40000000000)/(1024*1024*1024)
memory_gb


74.50580596923828

In [9]:
# 405B
memory_gb = (2 * 405000000000)/(1024*1024*1024)
memory_gb

754.3712854385376