# W3M2a - Hadoop Multi-Node Cluster on Docker

---

#### **학습 목표**
- **W3M2의 첫 번째 파트**: Apache Hadoop에 대한 이해를 증명하기 위해 Docker를 사용하여 다중 노드 Hadoop 클러스터를 설정합니다. 
- 이 프로젝트를 통해 Hadoop 클러스터 구성과 Docker 컨테이너화를 실습할 수 있습니다.

---

#### **사전 지식**
- **기능 요구사항**
  1. **Docker 이미지**:
     - **Docker 이미지는 완전히 작동 가능한 Hadoop 마스터 및 워커 노드를 포함해야 합니다.**
     - Docker 컨테이너 실행 시 모든 필요한 Hadoop 서비스를 자동으로 시작해야 합니다.
     - 마스터 노드와 워커 노드 간의 통신을 위해 동일한 Docker 네트워크에서 컨테이너가 연결될 수 있어야 합니다.

  2. **HDFS 작업**:
     - 마스터 노드에서 HDFS와 상호작용할 수 있어야 합니다.
     - HDFS에 디렉토리를 생성, 파일을 업로드 및 다운로드할 수 있어야 합니다.
     - 호스트 머신에서 HDFS 웹 인터페이스에 접속하여 파일 시스템을 모니터링할 수 있어야 합니다.

  3. **클러스터 작업**:
     - Hadoop 클러스터가 워커 노드를 인식하고 이를 분산 저장 및 처리에 활용할 수 있어야 합니다.
     - YARN ResourceManager가 워커 노드의 NodeManager에 작업을 분배해야 합니다.
     - 분산 처리를 보여주는 샘플 MapReduce 작업을 성공적으로 실행할 수 있어야 합니다.

  4. **데이터 영속성**:
     - Docker 컨테이너 내부의 Hadoop 데이터 디렉토리는 컨테이너 재시작 시 데이터를 유지하도록 구성되어야 합니다.
     - 컨테이너가 중지되거나 재시작되더라도 HDFS에 저장된 데이터는 손실되지 않아야 합니다.

  5. **문서화**:
     - Docker 이미지를 빌드하고 컨테이너를 실행하는 방법에 대한 명확한 설명서를 제공해야 합니다.
     - 컨테이너 내부에서 Hadoop을 설정하고 서비스를 시작하는 단계를 포함해야 합니다.
     - 디렉토리 생성, 파일 업로드, MapReduce 작업 실행, 파일 검색과 같은 기본 HDFS 작업을 수행하는 방법을 문서화해야 합니다.

---

#### **프로그래밍 요구사항**
1. **Docker 설정**:
   - 로컬 머신에 Docker가 설치되지 않은 경우 설치해야 합니다.
   - 여러 노드를 위한 Hadoop 환경을 구성하기 위한 Dockerfile을 생성해야 합니다.
   - Dockerfile에서 Docker 이미지를 빌드하여 Hadoop 마스터 노드와 최소 1개의 워커 노드를 설정해야 합니다.

2. **Hadoop 설정**:
   - 다중 노드 클러스터를 위한 `core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`, `yarn-site.xml` 파일을 구성해야 합니다.
   - 마스터 및 워커 노드를 위한 Hadoop 환경 변수를 설정해야 합니다.
   - 마스터 노드에서 HDFS 네임노드를 포맷해야 합니다.

3. **네트워크 설정**:
   - Docker 컨테이너 간 통신을 보장하기 위해 Docker 네트워크를 구성해야 합니다.
   - 마스터 노드가 워커 노드를 인식하고 통신할 수 있도록 Hadoop 클러스터를 구성해야 합니다.

4. **Hadoop 서비스 시작**:
   - 마스터 노드에서 Hadoop NameNode 서비스를, 각 워커 노드에서 Hadoop DataNode 서비스를 시작해야 합니다.
   - 모든 노드에서 HDFS가 정상적으로 실행 중임을 확인해야 합니다.
   - 각 노드에서 YARN ResourceManager 및 NodeManager 서비스를 시작해야 합니다.

5. **데이터 작업**:
   - HDFS에 디렉토리를 생성해야 합니다.
   - 로컬 파일 시스템에서 HDFS로 샘플 파일을 업로드해야 합니다.
   - HDFS에서 파일을 검색하여 성공적으로 업로드되었음을 확인해야 합니다.
   - Hadoop 클러스터에서 MapReduce 작업을 실행하여 기능을 검증해야 합니다.

---

#### **예상 결과 및 동작 예시**
1. **실행 중인 컨테이너**:
   - Hadoop 마스터 노드와 최소 1개의 워커 노드를 포함한 Docker 컨테이너 실행.
   - 모든 Hadoop 서비스(NameNode, DataNode, ResourceManager, NodeManager 등)가 컨테이너 내에서 실행 중이어야 합니다.

2. **HDFS 작업**:
   - 마스터 노드에서 HDFS에 디렉토리를 생성할 수 있어야 합니다.
   - 로컬 파일 시스템에서 HDFS로 파일을 업로드할 수 있어야 합니다.
   - 업로드된 파일을 HDFS에서 로컬 파일 시스템으로 검색할 수 있어야 합니다.

3. **클러스터 작업**:
   - Hadoop 클러스터에서 샘플 MapReduce 작업을 실행할 수 있어야 합니다.
   - 작업이 마스터 및 워커 노드를 활용하여 처리됨을 확인해야 합니다.

4. **접근성**:
   - 호스트 머신에서 HDFS 및 YARN 웹 인터페이스에 접속하여 클러스터 상태를 확인하고 파일 시스템 및 작업 모니터링 작업을 수행할 수 있어야 합니다.

5. **제출물**:
   - Hadoop 클러스터 설정에 사용된 Dockerfile 및 기타 설정 파일 제출.
   - Docker 이미지 빌드, 컨테이너 실행, HDFS 및 MapReduce 작업 수행 방법에 대한 단계별 README 파일 제공.

---

Docker 이미지를 빌드하고 컨테이너를 실행하며 HDFS 작업을 수행하는 단계별 설명이 포함된 README 파일을 작성하는데 도와주세요.

1. Docker 이미지 빌드
docker-compose build

2. 클러스터 실행
docker-compose up -d

2. 컨테이너 실행
docker run -it -p 9870:9870 -p 8088:8088 -v {path}/data:/usr/local/hadoop/data hadoop-single-node

3. HDFS 작업 수행-1 (폴더 생성)
hdfs dfs -mkdir /{폴더}

4. HDFS 작업 수행-2 (로컬에서 샘플 파일 생성 후 hdfs에 업로드)
echo "hello world" > test.txt
hdfs dfs -put test.txt /test/test.txt

5. HDFS 작업 수행-3 (업로드된 파일을 HDFS에서 검색 후 업로드 확인)
hdfs dfs -cat /test/test.txt

6. MapReduce 작업 실행:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 16 1000

Docker 이미지를 빌드하고 컨테이너를 실행하는 방법에 대한 명확한 설명서를 제공
Docker 이미지 빌드, 컨테이너 실행, HDFS 및 MapReduce 작업 수행 방법에 대한 단계별 README 파일 제공해야함
1. 컨테이너 내부에서 Hadoop을 설정하고 서비스를 시작하는 단계를 포함
2. 디렉토리 생성, 파일 업로드, MapReduce 작업 실행, 파일 검색과 같은 기본 HDFS 작업을 수행하는 방법을 문서화

- Docker 이미지는 완전히 작동 가능한 Hadoop 마스터 및 워커 노드를 포함
- Docker 컨테이너 실행 시 모든 필요한 Hadoop 서비스를 자동으로 시작
- 마스터 노드에서 HDFS 네임노드를 포맷
- 마스터 노드와 워커 노드 간의 통신을 위해 동일한 Docker 네트워크에서 컨테이너가 연결
- 마스터 노드에서 HDFS와 상호작용(HDFS에 디렉토리를 생성, 파일을 업로드 및 다운로드)
- 호스트 머신에서 HDFS 웹 인터페이스에 접속하여 파일 시스템을 모니터링
- YARN ResourceManager가 워커 노드의 NodeManager에 작업을 분배 (분산 처리를 보여주는 샘플 MapReduce 작업을 성공적으로 실행)
- 컨테이너 재시작 시 데이터를 유지 (컨테이너가 중지되거나 재시작되더라도 HDFS에 저장된 데이터는 손실되지 않음)
- 마스터 노드에서 Hadoop NameNode 서비스를, 각 워커 노드에서 Hadoop DataNode 서비스를 시작해야 합니다.
- 모든 노드에서 HDFS가 정상적으로 실행 중임을 확인해야 합니다.
- 각 노드에서 YARN ResourceManager 및 NodeManager 서비스를 시작해야 합니다.


# Setting Up and Running an Apache Hadoop Multi-Node Cluster Using Docker

## Prerequisites

1. **Download Hadoop Binary**
   - Visit the [Apache Hadoop Release Page](https://hadoop.apache.org/releases.html) and download the 3.3.6 version binary file along with its checksum signature.
   - Place the downloaded files in the same directory as this repository before proceeding.

2. **Install Docker and Docker Compose**
   - Ensure Docker and Docker Compose are installed on your system.
   - Verify installation with:
     ```bash
     docker --version
     docker-compose --version
     ```

## Steps to Build and Run the Cluster

### 1. Build Docker Images and Start Containers

- Use Docker Compose to build the images and start the containers.

```bash
docker-compose up --build -d
```

This command will:
- Build the Docker image specified in the `Dockerfile`.
- Start the Hadoop master and worker nodes as defined in the `docker-compose.yml` file.

### 2. Format the Namenode

- Access the Hadoop master container:

```bash
docker exec -it hadoop-master bash
```

- Format the Namenode:

```bash
hdfs namenode -format
```

### 3. Access Hadoop Web Interfaces

- HDFS Namenode UI: [http://localhost:9870](http://localhost:9870)
- YARN Resource Manager UI: [http://localhost:8088](http://localhost:8088)

## Performing HDFS Operations

### 1. Create a Folder in HDFS

```bash
hdfs dfs -mkdir /<folder_name>
```

### 2. Upload a File to HDFS

- Create a sample file on your local machine:

```bash
echo "hello world" > test.txt
```

- Upload the file to the previously created folder in HDFS:

```bash
hdfs dfs -put test.txt /<folder_name>/test.txt
```

### 3. Verify the Uploaded File

- View the contents of the uploaded file in HDFS:

```bash
hdfs dfs -cat /<folder_name>/test.txt
```

## Running a MapReduce Job

Execute a sample MapReduce job to calculate the value of Pi:

```bash
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 16 1000
```

This command uses 16 mappers and performs 1,000 iterations to estimate the value of Pi.

## File Descriptions

- **Dockerfile**: Defines the custom Hadoop Docker image.
- **docker-compose.yml**: Specifies the multi-node cluster configuration with one master and multiple workers.
- **core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml**: Hadoop configuration files to set up HDFS, MapReduce, and YARN.

## Notes

- Ensure all configuration files (e.g., `core-site.xml`, `hdfs-site.xml`) are correctly placed and customized for your setup before starting the cluster.
- Use `docker logs <container_name>` to debug any issues.

Feel free to modify and extend this setup as needed for your use case.

