## 하드웨어를 이용한 성능 최적화

딥러닝에서 성능 최적화는 데이터와 알고리즘을 이용하는 것 외에 하드웨어를 이용하는 방법이 있습니다. 즉, 기존 cpu가 아닌 gpu를 이용하는 것인데, gpu를 이용할 경우 성능 향상이 가능한 이유를 살펴보겠습니다.

### CPU와 GPU 사용의 차이
CPU와 GPU는 무엇일까요> 딥러닝에서 GPU를 사용해야 분석 시간이 단축된다고 하는데 실제로 맞을까요? 다음 성능 비교 그래프를 살펴보겠습니다.

![](../Static/446.jpg)

그래프를 살펴보면 CPU 다섯 개를 동시에 돌려도 GPU 한개 보다 성능이 좋지 못한 것을 확인할 수 있습니다. 그럼 왜 CPU와 GPU의 성능 차이가 발생할까요? CPU와 GPU는 개발된 목적이 다르고, 그에 따라 내부 구조도 다르기 때문입니다.

CPU는 연산을 담당하는 ALU와 명령어를 해석하고 실행하는 컨트롤(control), 그리고 데이터를 담아 두는 캐시(cache)로 구성되어 있습니다. 따라서 CPU는 명령어가 입력되는 순서대로 데이터를 처리하는 `직렬 처리 방식`입니다. 즉, CPU는 한 번에 하나의 명령어만 처리하기 때문에 연산을 담당하는 ALU(Arithmetic Logic Unit(산술 논리 장치)) 개수가 많을 필요가 없습니다.

반면 GPU는 `병렬 처리`를 위해 개발되었습니다. 캐시 메모리 비중은 낮고, 연산을 수행하는 ALU 개수가 많아졌습니다. GPU는 서로 다른 명령어를 동시에 병렬적으로 처리하도록 설계되었기때문에 성능에 부담이 없습니다. 즉, GPU는 연산을 수행하는 많은 ALU로 구성되어 있기 때문에 여러 명령을 동시에 처리하는 `병렬 처리 방식에 특화`되어 있습니다. 또한, 하나의 코어에 ALU 수백~수천 개가 장착되어 있기 때문에 CPU로는 시간이 많이 걸리는 3D 그래픽 작업등을 빠르게 수행할 수 있습니다.

개별적 코어 속도는 CPU가 GPU보다 훨씬 빠릅니다. 예쩐보다 GPU 코어 속도가 빨라졌다고는 하지만 여전히 CPU 만큼 성능을 내기는 어렵습니다. 달리 말하면 CPU가 적합한 분야가 따로 있고, GPU가 적합한 분야가 따로 있습니다. 구체적으로 딥러닝을 예로 들어 보겠습니다.

파이썬이나 매트랩(MATLAB)처럼 행렬 연산을 많이 사용하는 재귀 연산이 대표적인 '직렬' 연산을 수행합니다. 즉, 3X3 행렬에서 A,B,C열이 있을 때 A열이 처리된 후에야 B열이 처리되고 C열이 처리되는 순차적 연산일 때는 CPU가 적합합니다.

![](../Static/447.jpg)

하지만 역전파(Backpropagation)처럼 복잡한 미적분은 `병렬 연산`을 해야 속도가 빨라집니다. A,B,C 열을 얼마나 동시에 처리하느냐에 따라 계산 시간이 달라지기 때문입니다. 이처럼 병렬 처리는 복잡한 연산이 수반되는 딥러닝에서 속도와 성능을 높여 주는 주요 요인이 될 수 있습니다. 딥러닝은 데이터를 수백에서 수천만 건까지 다루는데, 여기에서 다룬다는 것은 데이터를 벡터로 변환한 후 연산을 수행한다는 의미입니다. 연산을 수행할 때 CPU에서 한 번에 하나의 명령어만 처리한다면 하나의 모델을 후년시키는 데 며칠 혹은 몇 달이 걸릴 수 있습니다. 하지만 GPU에서 병렬로 처리할 경우 모델 훈련 시간을 많이 단축시킬 수 있기 때문에 딥러닝에서 GPU사용은 선택이 아닌 필수라고 할 수 있습니다.

파이토치에서는 GPU를 어떻게 사용할 수 있을까요? 이제부터 GPU를 사용하기 위해 설치를 진행해 보겠습니다. 책의 전체 예제는 CPU와 GPU 모두에서 실행할 수 있습니다. 다만 책 뒷부분으로 갈수록 CPU를 사용하면 예제 실행에 좀 더 많은 시간이 걸릴 수 있습니다.

