# W3M1 - Hadoop Single-Node Cluster on Docker

---

**학습 목표**  
Apache Hadoop에 대한 이해를 증명하기 위해 Docker를 사용하여 단일 노드 Hadoop 클러스터를 설정합니다. 이 프로젝트를 통해 Hadoop 클러스터 구성과 Docker 컨테이너화를 직접 경험할 수 있습니다.  

---
 
**사전지식 및 기능 요구사항**  

**Docker 이미지:**  
- Docker 이미지는 완전히 작동하는 단일 노드 Hadoop 클러스터를 포함해야 합니다.  
- Docker 컨테이너가 실행될 때 모든 필요한 Hadoop 서비스를 자동으로 시작해야 합니다.  
- 컨테이너는 호스트 머신의 네트워크에 연결되어 HDFS(Hadoop Distributed File System)에 접근할 수 있어야 합니다.  

**HDFS 작업:**  
- 사용자는 Docker 컨테이너 내에서 HDFS와 상호작용할 수 있어야 합니다.  
- 사용자는 HDFS에 디렉토리를 생성하고, 파일을 업로드하며, 파일을 검색할 수 있어야 합니다.  
- HDFS 웹 인터페이스는 호스트 머신에서 접근 가능하여 파일 시스템을 모니터링할 수 있어야 합니다.  

**데이터 지속성:**  
- Docker 컨테이너 내의 Hadoop 데이터 디렉토리는 컨테이너 재시작 간 데이터를 유지하도록 구성되어야 합니다.  
- HDFS에 저장된 데이터는 컨테이너가 중지되거나 재시작되더라도 손실되지 않아야 합니다.  

**HDFS에 파일 생성 및 쓰기:**  
- 사용자는 HDFS에 디렉토리를 생성해야 합니다.  
- 사용자는 생성된 디렉토리에 텍스트 파일을 작성해야 합니다.  
- 해당 텍스트 파일의 내용은 HDFS에서 검색하여 확인할 수 있어야 합니다.  

**문서화:**  
- Docker 이미지를 빌드하고 컨테이너를 실행하는 방법에 대한 명확한 설명을 제공합니다.  
- 컨테이너 내에서 Hadoop을 구성하고 서비스를 시작하는 단계들을 포함해야 합니다.  
- 디렉토리 생성 및 파일 업로드와 같은 기본적인 HDFS 작업을 수행하는 방법을 문서화합니다.  

---

**프로그래밍 요구사항**  

**Docker 설정:**  
- 로컬 머신에 Docker가 설치되어 있지 않다면 설치합니다.  
- Hadoop 환경을 구성하기 위한 Dockerfile을 작성합니다.  
- Dockerfile에서 단일 노드 Hadoop 클러스터를 설정하는 Docker 이미지를 빌드합니다.  
- Docker 이미지는 Hadoop에 필요한 모든 구성 및 종속성을 포함해야 합니다.  

**Hadoop 구성:**  
- 단일 노드 클러스터를 위해 core-site.xml, hdfs-site.xml, mapred-site.xml 파일을 구성합니다.  
- Hadoop 환경 변수를 설정합니다.  
- Docker 컨테이너 내에서 HDFS의 네임노드(namenode)를 포맷합니다.  

**Hadoop 서비스 시작:**  
- Docker 컨테이너 내에서 Hadoop 네임노드(namenode) 및 데이터노드(datanode) 서비스를 시작합니다.  
- HDFS가 올바르게 작동하는지 확인합니다.  

**데이터 작업:**  
- HDFS에 디렉토리를 생성합니다.  
- 로컬 파일 시스템에서 HDFS로 샘플 파일을 업로드합니다.  
- 업로드된 파일을 HDFS에서 검색하여 성공적으로 업로드되었는지 확인합니다.  

---

**예상 결과 및 동작 예시**  

**실행 중인 컨테이너:**  
- 단일 노드 Hadoop 클러스터가 실행 중인 Docker 컨테이너.  
- 컨테이너 내에서 모든 Hadoop 서비스(네임노드, 데이터노드 등)가 실행 중이어야 합니다.  

**HDFS 작업:**  
- HDFS에 디렉토리를 생성합니다.  
- 로컬 파일 시스템에서 HDFS 디렉토리로 파일을 성공적으로 업로드합니다.  
- 업로드된 파일을 HDFS에서 로컬 파일 시스템으로 검색합니다.  

**접근성:**  
- 호스트 머신에서 HDFS 웹 인터페이스에 접근하여 클러스터 상태를 확인하고 파일 시스템 작업을 수행합니다.  

---

**제출**  
- Hadoop 클러스터를 설정하는 데 사용된 Dockerfile 및 기타 구성 파일을 제출합니다.  
- Docker 이미지를 빌드하고 컨테이너를 실행하며 HDFS 작업을 수행하는 단계별 설명이 포함된 README 파일을 제공합니다.  

---

# Docker 컨테이너가 실행될 때 모든 필요한 Hadoop 서비스를 자동으로 시작

### **Dockerfile을 사용해 Hadoop 단일 노드 클러스터 환경을 생성**
```bash
docker build -t hadoop-single-node .
```

Docker 이미지를 기반으로 컨테이너를 실행

### **Docker 이미지를 기반으로 컨테이너를 실행**
```bash
docker run -it -p 9870:9870 -p 8088:8088 -v {path}/data:/usr/local/hadoop/data hadoop-single-node
```

- `hadoop-single-node`라는 이름으로 Docker 이미지를 생성


### **컨테이너 내에서 모든 Hadoop 서비스(네임노드, 데이터노드 등)가 실행 중**

![build_1.png](attachment:build_1.png) ![build_2.png](attachment:build_2.png)

---

# HDFS 웹 인터페이스는 호스트 머신에서 접근 가능

### **HDFS UI 확인**
- **HDFS 웹 UI**: [http://localhost:9870](http://localhost:9870)
- **YARN ResourceManager UI**: [http://localhost:8088](http://localhost:8088)

![localhost_1.png](attachment:localhost_1.png) 
![localhost_2.png](attachment:localhost_2.png)

---

# 사용자는 Docker 컨테이너 내에서 HDFS와 상호작용

### HDFS에 파일 생성 및 쓰기

![mkdir.png](attachment:mkdir.png)

---

# HDFS에 저장된 데이터는 컨테이너가 중지되거나 재시작되더라도 손실되지 않음

![restart_1.png](attachment:restart_1.png) 
![restart_2.png](attachment:restart_2.png)

---