### 분산 시스템

- Elasticsearch의 분산 시스템은 데이터의 샤딩(Sharding)과 복제(Replication)를 통해 높은 가용성과 확장성, 안정성, 그리고 성능을 제공합니다. 
- 이러한 특징들은 Elasticsearch를 대규모 데이터셋을 처리하는 데 매우 적합하게 만듭니다.

1. 분산 시스템의 기본 개념

클러스터(Cluster)
- Elasticsearch를 실행하는 서버 노드(Node)의 집합입니다.
- 클러스터는 하나 이상의 노드로 구성되며, 각 노드는 데이터의 일부를 보유합니다.
- 클러스터는 데이터의 추가, 검색, 업데이트 및 삭제 작업을 관리합니다.

노드(Node)
- 클러스터의 일부인 단일 서버 인스턴스입니다.
- 데이터를 저장하고, 클러스터의 인덱싱 및 검색 기능을 처리합니다.
- 다양한 유형의 노드가 있으며, 각각 특정 역할을 수행합니다 (예: 마스터 노드, 데이터 노드).

2. 샤딩(Sharding)
- 샤드의 개념
  - 샤드는 인덱스를 여러 조각으로 나누는 것을 의미합니다.
  - 각 샤드는 독립적인 인덱스로 작동하며, 다른 노드에서 별도로 운영될 수 있습니다.
  - 샤딩을 통해 데이터를 여러 노드에 분산시켜 처리 성능을 향상시킵니다.
- 샤딩의 장점
  - 확장성(Scalability): 데이터와 부하를 여러 노드에 분산시켜 대용량 데이터를 처리할 수 있습니다.
  - 성능 향상: 병렬 처리를 통해 검색 및 색인 성능을 향상시킵니다.
3. 복제(Replication)
- 복제본의 개념
  - 복제는 샤드의 사본을 만드는 과정입니다.
    - 각 주 샤드(primary shard)는 하나 이상의 복제 샤드(replica shard)를 가질 수 있습니다.
    - 복제 샤드는 주 샤드와 동일한 데이터를 보유하지만, 다른 노드에 위치합니다.
  - 복제의 장점
    - 데이터 안정성(Data Durability): 주 샤드가 실패할 경우 복제 샤드가 데이터 손실을 방지합니다.
    - 읽기 성능 향상: 검색 쿼리는 복제 샤드에서도 수행될 수 있어, 읽기 부하를 분산시키고 읽기 성능을 향상시킵니다.
4. 고가용성(High Availability)
- 노드 장애 대응: 하나 이상의 노드가 실패하더라도, 클러스터는 계속 작동할 수 있습니다.
- 데이터 손실 방지: 복제를 통해 하드웨어 장애나 노드 실패 시 데이터 손실 위험을 최소화합니다.
5. 클러스터 및 노드 관리
- 마스터 노드: 클러스터 관리 작업(샤딩, 복제 설정, 클러스터 구성 변경 등)을 담당합니다.
- 데이터 노드: 실제 데이터를 저장하고, 색인 및 검색 쿼리를 처리합니다.
- 로드 밸런싱: 클러스터는 샤드와 복제 샤드를 자동으로 노드 간에 균등하게 분산시킵니다.
6. 클러스터 상태 모니터링
- Elasticsearch는 클러스터의 상태를 모니터링하고, 문제가 발생하면 자동으로 조치를 취합니다.
- 사용자는 Kibana나 API를 통해 클러스터의 상태를 실시간으로 확인할 수 있습니다.
- Elasticsearch의 분산 시스템은 대용량 데이터셋과 높은 부하 상황에서도 안정적이고 신속한 데이터 처리를 가능하게 합니다. 
- 샤딩과 복제를 통한 확장성과 높은 가용성은 Elasticsearch를 대규모 검색 및 분석 작업에 이상적인 선택으로 만듭니다.

### 실습
#### 1. 클러스터 구성

- 각 노드의 config/elasticsearch.yml 설정 파일을 편집합니다. (vi config/elasticsearch.yml)
  
- 다음과 같은 주요 설정을 구성합니다:
  - cluster.name: 모든 노드가 동일한 클러스터 이름을 사용하도록 설정합니다.
  
  - node.name: 각 노드에 고유한 이름을 부여합니다.
  
  - network.host: 노드가 통신할 네트워크 주소를 설정합니다.
  
  - http.port: 노드가 사용할 HTTP 포트를 설정합니다.
  
  - discovery.seed_hosts: 클러스터의 다른 노드를 찾기 위한 초기 노드 목록을 설정합니다.

예시:

공통 설정 (모든 노드에 적용)
```yaml
cluster.name: my-elasticsearch-cluster
```

- cluster.name은 모든 노드가 동일하게 설정되어야 합니다.

노드별 설정

- 노드 1 설정 (elasticsearch.yml)
```yaml
node.name: node-1
network.host: 192.168.1.1
http.port: 9200
discovery.seed_hosts: ["192.168.1.2", "192.168.1.3"]
```
- node.name은 각 노드에 고유한 이름을 지정합니다.
- network.host는 해당 노드의 IP 주소 또는 호스트 이름입니다.
- http.port는 Elasticsearch HTTP 서비스가 실행될 포트입니다.
- discovery.seed_hosts는 클러스터 형성을 위해 연결할 다른 노드들의 목록입니다.

노드 2 설정 (elasticsearch.yml)
```yaml
node.name: node-2
network.host: 192.168.1.2
http.port: 9200
discovery.seed_hosts: ["192.168.1.1", "192.168.1.3"]
```
노드 3 설정 (elasticsearch.yml)
```yaml
node.name: node-3
network.host: 192.168.1.3
http.port: 9200
discovery.seed_hosts: ["192.168.1.1", "192.168.1.2"]
```
추가 설정
- cluster.initial_master_nodes: 최초 클러스터 형성 시 마스터 노드 후보를 지정합니다. 이 설정은 클러스터를 최초로 시작할 때 필요합니다.
- path.data와 path.logs: 데이터와 로그 파일의 저장 위치를 지정할 수 있습니다.

설정 후 클러스터 시작
- 설정을 완료한 후 각 노드에서 Elasticsearch 서비스를 시작합니다.
- 모든 노드가 서로를 발견하고 클러스터를 형성해야 합니다.

클러스터 상태 확인

- 클러스터 상태를 확인하기 위해 다음 API를 사용할 수 있습니다: (bash)
```bash
GET /_cluster/health
```
- 이 요청은 클러스터의 상태, 클러스터를 구성하는 노드의 수, 샤드의 상태 등의 정보를 제공합니다.

##### 주의사항
- 네트워크 설정(network.host 및 discovery.seed_hosts)은 실제 네트워크 환경에 맞게 조정해야 합니다.
- 클러스터를 구성하는 모든 노드가 서로 통신할 수 있도록 방화벽 설정을 확인하고 필요한 포트(기본적으로 9200-9300)를 열어야 합니다.


#### 2. 인덱스 생성 및 샤딩 구성

a. 인덱스 생성
- 인덱스를 생성하면서 샤드의 수를 지정합니다.
  
예시: my_index라는 인덱스를 3개의 주 샤드와 2개의 복제본으로 생성
```json
PUT /my_index
{
  "settings": {
    "index": {
      "number_of_shards": 3,
      "number_of_replicas": 2
    }
  }
}
``````

b. 샤드 할당 확인
- 인덱스의 샤드 할당 상태를 확인합니다.
```bash
GET /_cat/shards/my_index
````
위 API를 사용하여 각 샤드가 어느 노드에 위치하는지 확인합니다.


#### 3. 데이터 색인 및 검색
데이터 색인
- 생성한 인덱스에 데이터를 색인합니다.

예시: my_index 인덱스에 데이터 색인
```json
POST /my_index/_doc/1
{
  "title": "Document 1",
  "content": "Elasticsearch is a distributed search engine."
}
```
데이터 검색
- 색인된 데이터를 검색합니다.

예시: my_index 인덱스에서 'Elasticsearch' 단어 검색
```json
GET /my_index/_search
{
  "query": {
    "match": {
      "content": "Elasticsearch"
    }
  }
}
```

#### 4. 노드 실패 및 복구 실험
노드 실패 시뮬레이션
- 임의의 노드를 중지하여 실패를 시뮬레이션합니다.
- 이는 단순히 Elasticsearch 프로세스를 중지하는 것으로 수행할 수 있습니다.

복구 과정 확인
- 다른 노드에서 복제 샤드가 주 샤드의 역할을 수행하는 것을 확인합니다.
- 중지된 노드를 다시 시작하면, 클러스터가 자동으로 복구되고 데이터가 동기화됩니다.

#### 5. 복제본 조정
복제본 수 조정
- 인덱스의 복제본 수를 조정합니다.

예시: my_index 인덱스의 복제본 수를 1로 변경
```json
PUT /my_index/_settings
{
  "index": {
    "number_of_replicas": 1
  }
}
```

#### 6. 모니터링 및 성능 최적화
클러스터 상태 모니터링
- 클러스터의 상태와 성능을 모니터링합니다.
- '_cluster/health', '_cat/nodes', '_cat/shards' API를 사용하여 클러스터의 상태를 확인합니다.

샤딩 및 성능 최적화
- 샤딩 전략을 검토하여 검색 및 색인 성능을 최적화합니다.
- 적절한 샤드 크기와 분포를 통해 부하를 균등하게 분산시킵니다.

#### 주의사항
- 노드 실패 실험은 개발 또는 테스트 환경에서만 수행해야 합니다.
- 클러스터 설정 변경은 데이터 손실이나 클러스터의 안정성에 영향을 줄 수 있으므로 주의가 필요합니다.
- 성능 최적화는 클러스터의 사용 패턴과 데이터 특성에 따라 다를 수 있습니다.

이러한 단계를 통해 Elasticsearch의 분산 시스템의 핵심 개념을 실제로 경험하고, 샤딩과 복제, 클러스터 관리의 중요성을 이해할 수 있습니다.