# W3M1: Hadoop Single-Node Cluster on Docker

## 학습 목표
- 도커를 사용해서 single-node Hadoop cluster를 세팅하면서 아파치 하둡 이해하기
- 하둡 클러스터 설정과 도커 컨테이너화를 하며 실제적인 경험 얻기

## 사전지식
## 기능요구사항
### Docker Image:
- fully functional single-node Hadoop cluster 추상화하기
- Docker container가 실행되면, 필요한 모든 Hadoop services가 자동으로 시작되어야 한다.
- HDFS에 접근하기 위해 도커 컨테이너는 호스트 머신의 네트워크에 연결되어야 한다.
### HDFS Operations:
- 도커 컨테이너 안에서 HDFS와 상호작용할 수 있어야 한다.
- create directories, upload files, and retrieve files from HDFS.
- 파일 시스템을 모니터하기 위해 호스트 머신에서 HDFS web interface에 접근할수 있어야 한다. 
### Persistence:
- 도커 컨테이너에 있는 하둡 데이터 디렉토리는 컨테이너가 새로시작되어도 데이터가 유지되도록 설정되어야 한다.
- 컨테이너가 중단되었다가 다시 시작돼도 HDFS에 저장된 데이터가 그대로여야 한다. 

### Create and Write File in HDFS:
- 사용자는 HDFS에서 디렉토리를 생성해야 한다. 
- 사용자는 생성된 디렉토리에서 텍스트 파일을 작성해야 한다.
- The content of the text file should be verifiable by retrieving it from HDFS.
### Documentation:
- 어떻게 도커를 build하고 컨테이너를 실행하는지에 대한 instruction 작성하기
- 컨테이너와 서비스 시작을 포함한 하둡 설정하는 단계를 포함하기
- 기본적인 HDFS operations들도 기술하기(디렉토리 생성, 파일 업로드 등)

## 프로그래밍 요구사항
### Docker Setup:
- 로컬에 도커 설치하기
- 하둡환경 configure해서 도커파일 생성하기
- single-node 하둡 클러스터로 세팅된 도커 이미지 build하기
- 하둡에 필요한 모든 configurations과 dependencies 포함하는지 확인하기
### Hadoop Configuration:
- 하둡 single-node cluster위해서 core-site.xml, hdfs-site.xml, and mapred-site.xml 파일들 설정하기
- 하둡 환경변수 설정하기
- 도커 컨테이너 내의 HDFS namenode 틀잡기
### Start Hadoop Services:
- 하둡 namenode와 datanode 서비스 시작하기 (도커 컨테이너에서)
- HDFS가 맞게 작동하는지 확인하기
### Data Operations:
- HDFS에서 디렉토리 생성하기
- 로컬 파일시스템에 있는 샘플 파일 HDFS에 업로드하기
- 파일 업로드 잘 되었는지 HDFS에서 다시 다운받아보기

## 예상결과 및 동작예시
### Running Container:
- a single-node Hadoop cluster로 작동하는 도커 컨테이너
- 모든하둡 서비스(네임노드, 데이터 노드 등)가 컨테이너에서 작동해야 한다.
### HDFS Operations:
- Create a directory in HDFS
- Successfully upload a file from the local file system to the directory in HDFS.
- Retrieve the uploaded file from HDFS to the local file system.
### Accessibility:
- Access the HDFS web interface from the host machine to verify the cluster's status and perform file system operations.
### Submission
- 도커파일과 하둡 클러스터 세팅에 사용된 모든 configuration file 제출하기
- step-by-step instructions 작성한 README 파일 제출하기 (도커이미지 빌딩, 컨테이너 실행, HDFS operation 수행)

#### Hadoop Components
- HDFS: Storage Layer
- Hadoop Yarn: Resource Management Layer
- Hadoop MapReduce: Application Layer

#### 하둡 아키텍처
- 마스터 노드(네임노드, 리소스 매니저)
- 슬레이브 노드(데이터노드, 노드 매니저, 맵, 리듀스)

#### Assumptions and Goals of HDFS
- Hardware Failure
- Streaming Data Access
- Large Data sets
- Simple Coherency Model
- Moving Computation is Cheaper than Moving Data
- Portability across Heterogeneous Hardware and Software Platforms

네임노드(in Master node)는 파일시스템의 메타데이터를 저장한다.  
어플리케이션 매니저(in Master node)  
데이터 노드(in Master node)는 실제 데이터를 저장한다.(네임노드 지시에 따라 동작함)  
어플리케이션 마스터(in Slave node): 리소스매니절  


- YARN: 리소스 관리와 잡 스케줄링을 분리함


# W3M2a: Hadoop Multi-Node Cluster on Docker

## 학습 목표
- 도커를 사용해서 multi-node Hadoop cluster를 세팅하면서 아파치 하둡 이해하기
- 하둡 클러스터 설정과 도커 컨테이너화를 하며 실제적인 경험 얻기

## 사전지식
## 기능요구사항
### Docker Images:
- 도커 이미지는 fully functional Hadoop master and worker node를 추상화해야 한다.
- 도커 컨테이너가 실행되면, 필요한 모든 하둡 서비스가 자동적으로 시작해야 한다.
- master와 worker 노드 사이에 통신을 해주기 위해 컨테이너는 같은 도커 네트워크에 연결되어야 한다.

### HDFS Operations:
- 사용자는 master node의 HDFS와 상호작용할 수 있어야 한다.
- 사용자는 디렉토리 생성, 파일 업로드, HDFS로부터 파일 가져오기를 할 수 있어야 한다.
- 파일 시스템을 확인하기 위해 호스트 머신에서 HDFS 웹 인터페이스에 연결되어야 한다.

### Cluster Operations:
- 하둡 클러스터는 분산 저장과 분산 processing을 위해서 worker nodes를 인식하고 사용할 수 있어야한다.
- YARN ResourceManager는 task들을 work nodes에서 실행되는 NodeManager들에게 분산시켜야 한다. 
- 클러스터는 sample MapReduce job을 성공적으로 실행해야 하고, 분산 processing을 보여주어야 한다.

### Persistence:
- 도커 컨테이너에 있는 하둡 데이터디렉토리는 컨테이너가 재시작되어도 데이터가 유지되도록 설정되어야 한다.
- HDFS에 저장된 데이터가 컨테이너가 중단되거나 재시작되어도 남아있도록 해라

### Documentation:
- 도커 이미지를 빌드하고 컨테이너를 실행하도록 clear instructions를 작성해라
- 컨테이너에 있는 하둡 설정과 서비스 시작을 위한 단계를 포함해라
- 기본적은 HDFS operation을 어떻게 실행하는지 작성해라 (디렉토리 생성, 파일 업로드, MapReduce jobs 실행, file 재다운로드 등)
- 
## 프로그래밍 요구사항
### Docker Setup:
- 로컬 머신에 도커를 설치해라
- Dockerfile을 생성해서 multiple nodes를 위한 하둡 환경을 설정해라
- 도커파일로 도커 이미지를 빌드하고 적어도 하나의 Hadoop worker node를 가지는 하둡 마스터 노드를 세팅해라

### Hadoop Configuration:
- multi-node cluster를 위해 <core-site.xml, hdfs-site.xml, mapred-site.xml, and yarn-site.xml> 파일들을 설정해라
- master nodes와 worker nodes를 위한 하둡 환경 변수를 설정해라
- master node에 있는 HDFS 네임노드를 정해라

### Network Configuration:
- 도커 네트워크로 세팅된 도커 컨테이너들이 다른 기기와 통신할 수 있는지 확인해라
- 마스터 노드가 worker 노드를 인식하고 통신할 수 있도록 하둡 클러스터를 설정해라 

### Start Hadoop Services:
- 마스터 노드와 각 worker node에 있는 하둡 데이터노드 서비스에서 하둡 네임노드 서비스를 시작해라
- HDFS가 모든 노드에서 정상적으로 실행되는지 확인해라
- 각각의 노드들에서 YARN ResourceManager와 NodeManager services를 시작해라

### Data Operations:
- HDFS에서 디렉토리 생성하기
- 로컬 파일 시스템에서 HDFS로 샘플 파일 업로드하기
- 로컬에서 HDFS로 업로드가 잘 되었는지 확인하기
- 하둡 클러스터의 기능 증명하기 위해 MapReduce job 실행해보기

## 예상결과 및 동작예시

### Running Containers:
- 하둡 마스터 노드와 최소 한 워커 노드에서 도커 컨테이너 실행하기
- 모든 하둡 서비스(namenode, datanode, ResourceManager, NodeManager, etc.)가 컨테이너들에서 실행되어야 한다. 

### HDFS Operations:
- HDFS의 마스터 노드에서 디렉토리 생성하기
- 로컬 파일 시스템에서 HDFS로 파일 업로드하기
- 업로드된 파일 Retrieve하기

### Cluster Operations:
- 하둡 클러스터에서 sample MapReduce job 실행하기
- 마스터와 워커 노드에서 프로세싱되며 job이 운용되는지 확인하기

### Accessibility:
- 호스트 머신에서 클러스터의 상태와 파일시스템과 job monitoring operation 작동하는지 검증하기 위해 HDFS와 YARN web interfaces에 접속하기

### Submission:
- 도커파일들과 하둡 클러스터 세팅에 사용된 다른 설정 파일들 제출하기
- 수행 순서가 적힌 README file 제출하기(도커 이미지 빌드, 컨테이너 실행, HDFS 실행, MapReduce operation등)

# W3M2b: Understanding of Hadoop Configuration Files

## 학습 목표
- 도커를 사용여 Apache Hadoop multi-node cluster를 세팅하고 설정하기
- 최소 두개의 도커 컨테이너를 사용하고 <core-site.xml, hdfs-site.xml, mapred-site.xml, and yarn-site.xml>의 중요한 파라미터들을 설정하기

## 사전지식
### Configuration Files:
##### core-site.xml
- fs.defaultFS: default file system URI을 명시
- hadoop.tmp.dir: temporary directory를 명시
- io.file.buffer.size: reading/writing files 의 버퍼 사이즈를 명시

#### hdfs-site.xml
- dfs.replication: HDFS 디폴트 replication factor 정의
- dfs.blocksize: 디폴트 block size 명시
- dfs.namenode.name.dir: NameNode 가 저장하고 있는 namespace와 transaction logs가 있는 로컬 파일 시스템 경로를 명시

#### mapred-site.xml
- mapreduce.framework.name: 맵리듀스의 framework 이름 명시
- mapreduce.job.tracker: JobTracker host와 port 명시
- mapreduce.task.io.sort.mb: 맵(map) 출력 데이터를 정렬할 때 사용할 메모리의 양 명시

#### yarn-site.xml
- yarn.resourcemanager.address: ResourceManager IPC의 주소
- yarn.nodemanager.resource.memory-mb: YARM에 사용가능한 memory 양 결정
- yarn.scheduler.minimum-allocation-mb: ResourceManager에서 각 컨테이너 요청에 대해 할당되는 최소 자원 명시

## 기능요구사항 : 설정 값들 아래 값들로 수정하기
### core-site.xml
- Change fs.defaultFS to hdfs://namenode:9000.
- Change hadoop.tmp.dir to /hadoop/tmp.
- Change io.file.buffer.size to 131072.
### hdfs-site.xml
- Change dfs.replication to 2.
- Change dfs.blocksize to 134217728 (128 MB).
- Change dfs.namenode.name.dir to /hadoop/dfs/name.
### mapred-site.xml
- Change mapreduce.framework.name to yarn.
- Change mapreduce.jobhistory.address to namenode:10020.
- Change mapreduce.task.io.sort.mb to 256.
### yarn-site.xml
- Change yarn.resourcemanager.address to namenode:8032.
- Change yarn.nodemanager.resource.memory-mb to 8192.
- Change yarn.scheduler.minimum-allocation-mb to 1024.
### Configuration Modification Script:
- 스크립트는 인자로 받은 하둡 설정 디렉토리를 경로로 받아야 한다.
- 수정하기 전에 original 설정 파일들을 백업해 두어야 한다.
- 스크립트는 주어진 값에 따라 xml 파일안의 값들을 수정해야 한다.
- 에러들을 잘 처리하고 각 변화에 대한 상태를 기술해라
- original 설정 파일들을 백업해라
- 설정 파일들의 특정 값들을 수정해라
- 하둡 서비스를 재시작해라

### Verification Script:
- 적절한 Hadoop 명령어를 실행하여 기본 파일 시스템 이름이 올바르게 설정되었는지 확인하고 출력 결과를 파싱하여 설정이 정확한지 확인한다.
- HDFS에 테스트 파일을 생성하고 복제 계수(Replication Factor)를 확인하여 설정(수정한 것_이 올바르게 적용되었는지 검증한다.
- 간단한 MapReduce 작업을 실행하고, 해당 작업이 YARN 프레임워크를 사용했는지 확인한다.
- YARN ResourceManager를 쿼리하여 YARN에 할당된 총 사용 가능 메모리를 확인한다.
- 설정들이 올바르게 적용되었는지 확인한다.(temporary directory, buffer size, block size, NameNode directory, JobTracker, sort memory buffer size, ResourceManager hostname, NodeManager memory allocation, and container minimum allocation)
- Hadoop 설정값을 쿼리하여 변경된 설정들이 제대로 적용되었는지 확인합니다.
- 결과 출력하고 각 설정이 기대한 값과 일치하는지 확인해라
- HDFS에 테스트 파일을 생성하고, 복제 계수를 확인하여 설정이 올바르게 반영되었는지 검증합니다.

## 프로그래밍 요구사항
- 셸 스크립트나 파이썬 프록램을 작성해서 설정 파일들의 특정 값들을 수정해라
- 다른 스크립트나 프로그램을 만들어서 수정된 설정 값들을 증명해라
- 적절한 커맨드와 API들을 사용해서 하둡 클러스터와 상호작용해라

## 예상결과 및 동작예시
### Configuration Modification Script

### Verification Script

Each PASS line indicates that the setting matches the expected value.
If a setting does not match, it would print FAIL with the actual value, like this:


### Submission:
- 2 scripts or Python programs 제출하기
- 원래 설정 파일과 수정한 설정 파일 제출하기(core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml)
- 테스트 스크립트 실행하는 데 필요한 모든 파일들 포함하기
- 스크립트나 프로그램 셋업하고 실행하는 데 필요한 자세한 instruction을 작성한 README 파일 제출하기

## 팀 활동 요구사항
4개의 xml files들을 살펴 보고 각 화일의 셋팅 중에 중요하거나 유용하다고 생각되는 것들을 각자 골라서 용법을 파악해 보아라 </br>
그리고 팀과 함께 토의한 다음, 위키에 정리해라