In [1]:
from IPython.display import Image

# 일반적인 통신 패턴

오늘날에는 클라이언트가 생성하는 데이터를 시스템으로 가져오기 위해 몇 개의 프로토콜을 사용하고 있다. IOT 등장과 함께 다양한 통신 패턴이 존재하지만, 다음 몇 가지의 통신 패턴 중 한 가지를 선택하여 통신하는 것이 일반적이다.  

- **요청/응답 패턴(Request/Response)**  
- **발행/구독 패턴(Publish/Subscribe)**  
- **단방향 패턴(One-way)**  
- **요청/확인응답 패턴(Request/Acknowledge)**  
- **스트림 패턴(Stream)**

### Request/Response Pattern

가장 간단한 패턴으로, 서버가 지연 없이 즉각적으로 응답하여 작업을 완료하는 것을 목표로 할 때 사용한다. 웹 브라우저 등에서 자주 활용된다.  

이 패턴은 (1) 클라이언트 애플리케이션이 서버에 명령을 내리거나 데이터를 요청하면, (2) 서버는 클라이언트로 응답을 보내는 방식으로 통신한다. 

서버에서 응답을 받기 위해 클라이언트는 기다려야 하는 시간이 반드시 필요하다는 단점이 있기에 3가지 전략을 활용한다.
- 클라이언트에서 비동기로 요청하면 서버로 요청을 날리고 응답이 오기 전까지 다른 일을 수행하므로 지연이 느껴지지 않는다. 브라우저는 많은 수의 리소스를 받기 위해 비동기 요청을 서버로 날리고 기다린다. 오늘날 대부분 프로그래밍 언어와 프레임워크는 비동기로 요청할 수 있도록 설계되어 있기 때문에 구현이 어렵지 않다. 이런 방식을 **반비동기(Half-async)** 라고도 한다.
- 서버를 비동기 방식으로 지원할 수도 있다. 이도 구현이 쉬우며, 클라이언트에서 요청한 처리를 수행하는 동안, 처리가 완료된 데이터는 클라이언트에 응답으로 반환한다.
- 클라이언트와 서버 둘다 비동기로 동작시킬 수도 있다.

### Request/Acknowledge Pattern

R/R 패턴과 유사하게 통신하지만 서버에서 반환하는 Response가 필요하지는 않고 서버가 요청을 정상적으로 받았는지만 확인해야할 경우가 있다. 이런 경우 R/A 패턴이 적합하다.  

고객이 홈페이지에 머무는 동안 구매 성향 점수를 매기는 알고리즘을 적용한다고 가정해보자. 이때 고객이 접속하면 모든 페이지에 대한 정보와 클릭한 링크에 대한 데이터를 R/A 패턴으로 수집한다. 성공 또는 실패의 응답을 해주는 R/R 패턴과 달리, 여기서는 다음 요청부터 사용할 데이터를 넘겨준다. 특히, 고객이 이후에 방문하는 페이지를 추적하는데 사용할 고유식별자를 넘겨주며, 고유식별자로 고객이 누구인지, 성향이 어떤지, 현재 구매 성향 점수가 얼마인지 측정할 수 있다.  

또 다른 예로, 온라인에서 특정 제품을 구매하고 나서 주문 번호가 부여되면 주문 번호를 통해 주문 상태를 확인할 수도 있다. R/A 패턴은 이런 식으로 서버에 요청을 통해 이후에 사용할 수 있는 토큰을 얻어 활용하는 방식이다. 고객에게 굳이 응답을 주지 않는다.

### Publish-Subscribe Pattern

P/S 패턴은 메시지 기반 데이터 시스템에서 많이 활용된다. **Producer-Broker-Consumer**로 구성되며, Producer가 데이터를 만들어서 메시지(**Topic 형태**)로 Broker에게 전달한다. 그러면 Broker가 데이터를 Consumer에게 Push하든가, Consumer가 Broker로부터 메시지를 Pull해서 최종 데이터가 Consumer에게 전달된다.  

예를 들어, 고속 도로에 있는 자동차들(Consumers)이 각자의 교통 상태에 대한 정보를 어떤 시스템(Broker)에 보내면, 거기서 교통 데이터를 분석해 현재 전국 고속도로의 교통 상태를 각 자동차(Consumer)에게 돌려주는 식이다.

### One-way Pattern

아예 요청을 하는 시스템이 응답 자체가 필요하지 않은 경우 주로 One-way pattern을 사용한다. 기본적으로 R/R이나 R/A 패턴과 유사하나 *'서버가 응답을 다시 보내지 않아도 된다'* 는 점에서 차이가 난다.  

단방향 통신은 일부 데이터가 유실되는 것을 허용하고 통신의 단순화, 리소스 감소, 전송 속도를 보장해야 하는 환경에서 활용한다. 예를 들어 풋볼 선수들이 차고 있는 RFID 태그는 1초에 25개의 데이터를 보내고, 0.5초 이내에 해설자들의 모니터로 분석 결과가 전송된다. RFID 태그는 데이터를 보내기만 할 뿐, 응답을 받더라도 처리할 리소스가 없다.  

자세한 내용은 *Nicolai M. Josuttis*의 **SOA in Practice**를 참조하자.

### Stream Pattern

Stream Pattern은 이의 패턴들과는 사뭇 다르다. 앞의 패턴들은 클라이언트가 서비스로부터 응답을 받거나 받지 않도록 설계가 되어 있는데, 스림 패턴은 한 번의 요청에 대해 데이터를 전달하지 않거나 지속적으로 데이터를 응답하는 특징을 갖고 있다. 즉, 하나의 요청에 대해서도 응답이 있거나 없거나 할 수 있다.  

그리고 스트림 패턴을 사용하면 수집 단계와 연결하여 클라이언트가 꼭 외부에 존재해야할 필요가 없어진다. 예를 들어 스트리밍 시스템으로 트위터 게시글 분석을 하려고 하면, 트위터를 수집 단계에 연결시키고 수집 단계에 저장될 게시글을 지속적으로 가져갈 수 있다. 스트림 데이터가 존재하는 단계에 연동하여 데이터를 지속적으로 처리할 수 있는 것이다.  

# 통신 패턴 확장

앞서 언급했던 통신 패턴을 2가지 카테고리로 나눠보자.

### 요청/응답 파생 패턴

미국의 2억 5천만 대의 자동차가 5조 km를 달렸다. 그러면 1대의 자동차는 언제든지 현재 교통 상황과 경로 추천을 받을 수 있다. 그러려면 자동차는 수천에서 수백만 건의 데이터를 처리할 수 있어야 한다.  

스트리밍 시스템을 구성할 때는 모든 단계에서 수평 확장이 가능해야 하는데, 이 예시에서 요청/응답 파생 패턴을 사용하면 수평 확장이 정말 잘 작동한다. 먼저 클라이언트가 요청할 때 상태 정보가 없어서 실행되고 있는 임의의 서버에 요청을 날리기만 하면 되며, 두 번째로 이 특성으로 인해 신규 서버 추가가 쉽기 때문이다. 이러한 비상태기반(Sateless) 서버 확장 방식은 Amazon 등의 클라우드 기반 서비스에서 널리 사용된다. 이런 클라우드 서버 호스팅 업체는 리소스 사용량에 따라 서버를 늘리거나 줄일 수 있는 오토 스케일링 기능을 제공한다.  

즉, 차량에서 어던 중계기로 요청을 보내면 중계기가 수요에 따라 실행 중인 서버로 라우팅한다.  
(스트리밍 시스템의 각 단계를 구현할 때 수평 확장을 달성하는 것이 목표라는 걸 잊지 말자)

### 스트림 패턴 확장

구글 검색량은 초당 46000개라고 한다. 스트리밍 패턴을 사용한 프로토콜은 클라이언트와 서버가 지속적으로 연결된 상태라는 점을 기억하자.  

수집 단계를 확장하는 방법은 몇 가지가 있다. 스트림 데이터를 처리하는 수집 서버를 확장하거나, 수집 단계에 버퍼링 층(Buffering layer)을 도입하는 것이다. 버퍼 계층과 수집 단계는 dependent하고 스틀팀 데이터의 유입량이나 크기에 따라 둘다 구현되어야 할 수도 있다. 버퍼 계층을 쓸거면 스트림 데이터가 수집된 이후 최대한 빠르게 수집 서버를 거쳐 버퍼 계층으로 전달되어야 한다. 그런 다음 다시 수집 단계의 서버들이 데이터를 가져가서 비즈니스 로직들을 수행한다. 이러면 버퍼 계층 이후의 수집 서버들도 수평 확장이 가능하게 설계할 수 있다.

# 내결함성(Fault-tolerance)

어떤 패턴을 사용하든 언젠가는 분명히 수집 서버에서 장애가 발생할 것이다. 코드의 버그일 수도 잇고, 연동되는 소프트웨어 또는 하드웨어 이슈일 수도 있다. 원인이 무엇이든 수집 단계의 신뢰성을 높이고 장애를 해결할 수 있게 구현하기 위해 내결함성 기술을 알아야 한다. 물론 수집 단계의 수평 확장과 내결함성 증가라는 목표를 이루어도 데이터가 유실되면 복구가 불가능해 클라이언트에게 데이터를 다시 보내줄 수 없을 수도 있다. 이것이 치명적인지 아닌지는 비즈니스의 문제이다.  

가장 중요한 목표는 수집 단계 서버에 장애가 발생해도 발생하지 않은 것처럼 데이터를 유실하지 않는 것이다. 내결함성을 달성하기 위해 2가지 방식을 활용할 수 있다.  
- Checkpointing : 체크포인팅은 2가지 특징이 있다. 수집 단계 뿐 아니라 시스템 전역 상태에 대한 스냅샷을 정기적으로 특정 저장소에 저장하는 Global snapshot, 가장 최근에 기록된 전역 상태까지 복구하고 이후 처리된 메시지는 유실되는 Potential for data loss이다. 워드나 구글 독스의 자동 저장 기능이 Global Snapshot의 예시이다. 소프트웨어가 비정상 종료되면 마지막 체크포인트로 복구된다. 다만 HDFS나 NoSQL을 구축하고 사용하는 경우에는 활용이 가능하나, 스트리밍 시스템에서 모든 시점에 snapshot을 찍는 것은 불가능하다.  
- logging : 로깅은 체크포인팅의 복잡성을 극복하고 마지막으로 수신된 메시지까지 복구하는 기능을 제공한다. 즉, 메시지를 replay할 수만 있으면 snapshot을 굳이 찍을 필요가 없다는 것이 핵심이다. 로깅은 시스템을 구성하는 각 단계가 수신한 모든 메시지를 자체 저장하고 장애가 발생하면 저장된 메시지를 재처리(replay)한다. 로깅은 **RBML(Receiver-Based Message Logging)**, **SBML(Sender-Based Message Logging)**이라는 2가지 classic한 기술과 **HML(Hybrid Message Logging)** 이라는 기술이 있다. RBML은 서버가 데이터를 받을 때, SBML은 데이터를 다음 단계로 보낼 때 데이터의 유실을 방지할 수 있다. HML은 이 둘을 적절하 조합한 로직이다.

### RBML

RBML은 모든 메시지를 저장소에 저장하고 로직을 처리한다.  

정상적인 데이터 흐름은 다음과 같다. 클라이언트가 데이터를 전송하면 RBML 로거 역할을 하는 수집 서버로 전달되고, 다시 저장소로 전달되어 저장된다. 그다음 로직에 따라 프로세싱을 수행해 다음 단계인 메시지 큐 단계로 메시지가 전송된다.  

하지만 장애가 발생하면 수집 서버에 더이상 메시지가 유입되지 않는다. 그러면 로드밸런서가 다수의 수집 서버와 연결되어 있기 때문에 장애가 발생한 서버를 연결에서 제외시키고, RBML 로거가 메시지가 저장된 저장소에서 처리되지 않은 메시지를 읽어 로직을 처리하는 서버로 보낸다. 모든 메시지가 처리되면, 서버가 복구된 것으로 간주해 다시 로드 밸런서에 연결된다.

### SBML

SBML은 저장소에 저장하는 것도 포함한다. 시스템에서 장애가 발생했을 때 외부에서 들어오는 메시지를 기록해 안전하게 처리하는 것이 RBML이라면, 서버가 처리한 데이터를 다음 단계로 보내기 전에 수집 서버에서 외부로 나가는 모든 메시지를 로깅하는게 SBML이다. 둘의 중요한 차이점은 RBML은 메시지를 처리하기 전에 저장하고, SBML은 메시지를 처리하고 나서 다음 단계로 보내기 전에 미시지를 저장한다는 점이다. 따라서 RBML이 저장한 데이터는 RAW DATA이고, SBML로 저장된 데이터는 처리가 완료된 데이터이다.  

SBML에서 장애 복구를 위한 방법은 몇 가지 있다. 먼저 메시지 큐 단계에서 정상적으로 메시지를 받았다고 수집 단계에 확인 응답을 보내는 방법이다. 정상적으로 응답을 받으면 수집 단계에서 데이터를 보관할 필요가 없으므로 저장소에서 삭제하거나 처리가 완료되었다는 표시를 하면 된다. 확인 응답을 보낼 수 없는 경우에는 수집 단계의 영속 저장소에서 삭제하는 방식을 쓰면 된다.

### HBL

RBML과 SBML을 모두 도입하면 처리해야 하는 데이터 양보다 로깅하는데 쓰이는 데이터 양이 더 많아질 수 있다. 이때 HML은 저장소의 데이터 쓰기 이슈를 해결하면서 RBML와 SBML의 장점을 활용하도록 설계되었다.  

먼저 RBML과 SBML을 둘다 사용함으로써 저장소 2개가 필요한데, 이를 하나로 줄이는 방법이 있고, 저장소에 저장을 비동기로 처리하는 방법이 있다. 장애에 대응해 복잡성은 증가할 수 있으며, 제한된 시간 내에 많은 처리를 위해 멀티코어를 사용하면 성능을 높일 수 있다.