# W3M1: Hadoop Single-Node Cluster on Docker

## 학습 목표
- 도커를 사용해서 single-node Hadoop cluster를 세팅하면서 아파치 하둡 이해하기
- 하둡 클러스터 설정과 도커 컨테이너화를 하며 실제적인 경험 얻기

## 사전지식
## 기능요구사항
### Docker Image:
- fully functional single-node Hadoop cluster 추상화하기
- Docker container가 실행되면, 필요한 모든 Hadoop services가 자동으로 시작되어야 한다.
- HDFS에 접근하기 위해 도커 컨테이너는 호스트 머신의 네트워크에 연결되어야 한다.
### HDFS Operations:
- 도커 컨테이너 안에서 HDFS와 상호작용할 수 있어야 한다.
- create directories, upload files, and retrieve files from HDFS.
- 파일 시스템을 모니터하기 위해 호스트 머신에서 HDFS web interface에 접근할수 있어야 한다. 
### Persistence:
- 도커 컨테이너에 있는 하둡 데이터 디렉토리는 컨테이너가 새로시작되어도 데이터가 유지되도록 설정되어야 한다.
- 컨테이너가 중단되었다가 다시 시작돼도 HDFS에 저장된 데이터가 그대로여야 한다. 

### Create and Write File in HDFS:
- 사용자는 HDFS에서 디렉토리를 생성해야 한다. 
- 사용자는 생성된 디렉토리에서 텍스트 파일을 작성해야 한다.
- The content of the text file should be verifiable by retrieving it from HDFS.
### Documentation:
- 어떻게 도커를 build하고 컨테이너를 실행하는지에 대한 instruction 작성하기
- 컨테이너와 서비스 시작을 포함한 하둡 설정하는 단계를 포함하기
- 기본적인 HDFS operations들도 기술하기(디렉토리 생성, 파일 업로드 등)

## 프로그래밍 요구사항
### Docker Setup:
- 로컬에 도커 설치하기
- 하둡환경 configure해서 도커파일 생성하기
- single-node 하둡 클러스터로 세팅된 도커 이미지 build하기
- 하둡에 필요한 모든 configurations과 dependencies 포함하는지 확인하기
### Hadoop Configuration:
- 하둡 single-node cluster위해서 core-site.xml, hdfs-site.xml, and mapred-site.xml 파일들 설정하기
- 하둡 환경변수 설정하기
- 도커 컨테이너 내의 HDFS namenode 틀잡기
### Start Hadoop Services:
- 하둡 namenode와 datanode 서비스 시작하기 (도커 컨테이너에서)
- HDFS가 맞게 작동하는지 확인하기
### Data Operations:
- HDFS에서 디렉토리 생성하기
- 로컬 파일시스템에 있는 샘플 파일 HDFS에 업로드하기
- 파일 업로드 잘 되었는지 HDFS에서 다시 다운받아보기

## 예상결과 및 동작예시
### Running Container:
- a single-node Hadoop cluster로 작동하는 도커 컨테이너
- 모든하둡 서비스(네임노드, 데이터 노드 등)가 컨테이너에서 작동해야 한다.
### HDFS Operations:
- Create a directory in HDFS
- Successfully upload a file from the local file system to the directory in HDFS.
- Retrieve the uploaded file from HDFS to the local file system.
### Accessibility:
- Access the HDFS web interface from the host machine to verify the cluster's status and perform file system operations.
### Submission
- 도커파일과 하둡 클러스터 세팅에 사용된 모든 configuration file 제출하기
- step-by-step instructions 작성한 README 파일 제출하기 (도커이미지 빌딩, 컨테이너 실행, HDFS operation 수행)

# W3M2a: Hadoop Multi-Node Cluster on Docker

## 학습 목표
- 도커를 사용해서 multi-node Hadoop cluster를 세팅하면서 아파치 하둡 이해하기
- 하둡 클러스터 설정과 도커 컨테이너화를 하며 실제적인 경험 얻기

## 사전지식
## 기능요구사항
### Docker Images:
- 도커 이미지는 fully functional Hadoop master and worker node를 추상화해야 한다.
- 도커 컨테이너가 실행되면, 필요한 모든 하둡 서비스가 자동적으로 시작해야 한다.
- master와 worker 노드 사이에 통신을 해주기 위해 컨테이너는 같은 도커 네트워크에 연결되어야 한다.

### HDFS Operations:
- 사용자는 master node의 HDFS와 상호작용할 수 있어야 한다.
- 사용자는 디렉토리 생성, 파일 업로드, HDFS로부터 파일 가져오기를 할 수 있어야 한다.
- 파일 시스템을 확인하기 위해 호스트 머신에서 HDFS 웹 인터페이스에 연결되어야 한다.

### Cluster Operations:
- 하둡 클러스터는 분산 저장과 분산 processing을 위해서 worker nodes를 인식하고 사용할 수 있어야한다.
- YARN ResourceManager는 task들을 work nodes에서 실행되는 NodeManager들에게 분산시켜야 한다. 
- 클러스터는 sample MapReduce job을 성공적으로 실행해야 하고, 분산 processing을 보여주어야 한다.

### Persistence:
- 도커 컨테이너에 있는 하둡 데이터디렉토리는 컨테이너가 재시작되어도 데이터가 유지되도록 설정되어야 한다.
- HDFS에 저장된 데이터가 컨테이너가 중단되거나 재시작되어도 남아있도록 해라

### Documentation:
- 도커 이미지를 빌드하고 컨테이너를 실행하도록 clear instructions를 작성해라
- 컨테이너에 있는 하둡 설정과 서비스 시작을 위한 단계를 포함해라
- 기본적은 HDFS operation을 어떻게 실행하는지 작성해라 (디렉토리 생성, 파일 업로드, MapReduce jobs 실행, file 재다운로드 등)
- 
## 프로그래밍 요구사항
### Docker Setup:
- 로컬 머신에 도커를 설치해라
- Dockerfile을 생성해서 multiple nodes를 위한 하둡 환경을 설정해라
- 도커파일로 도커 이미지를 빌드하고 적어도 하나의 Hadoop worker node를 가지는 하둡 마스터 노드를 세팅해라

### Hadoop Configuration:
- multi-node cluster를 위해 <core-site.xml, hdfs-site.xml, mapred-site.xml, and yarn-site.xml> 파일들을 설정해라
- master nodes와 worker nodes를 위한 하둡 환경 변수를 설정해라
- master node에 있는 HDFS 네임노드를 정해라

### Network Configuration:
- 도커 네트워크로 세팅된 도커 컨테이너들이 다른 기기와 통신할 수 있는지 확인해라
- 마스터 노드가 worker 노드를 인식하고 통신할 수 있도록 하둡 클러스터를 설정해라 

### Start Hadoop Services:
- 마스터 노드와 각 worker node에 있는 하둡 데이터노드 서비스에서 하둡 네임노드 서비스를 시작해라
- HDFS가 모든 노드에서 정상적으로 실행되는지 확인해라
- 각각의 노드들에서 YARN ResourceManager와 NodeManager services를 시작해라

### Data Operations:
- HDFS에서 디렉토리 생성하기
- 로컬 파일 시스템에서 HDFS로 샘플 파일 업로드하기
- 로컬에서 HDFS로 업로드가 잘 되었는지 확인하기
- 하둡 클러스터의 기능 증명하기 위해 MapReduce job 실행해보기

## 예상결과 및 동작예시

### Running Containers:
- 하둡 마스터 노드와 최소 한 워커 노드에서 도커 컨테이너 실행하기
- 모든 하둡 서비스(namenode, datanode, ResourceManager, NodeManager, etc.)가 컨테이너들에서 실행되어야 한다. 

### HDFS Operations:
- HDFS의 마스터 노드에서 디렉토리 생성하기
- 로컬 파일 시스템에서 HDFS로 파일 업로드하기
- 업로드된 파일 Retrieve하기

### Cluster Operations:
- 하둡 클러스터에서 sample MapReduce job 실행하기
- 마스터와 워커 노드에서 프로세싱되며 job이 운용되는지 확인하기

### Accessibility:
- 호스트 머신에서 클러스터의 상태와 파일시스템과 job monitoring operation 작동하는지 검증하기 위해 HDFS와 YARN web interfaces에 접속하기

### Submission:
- 도커파일들과 하둡 클러스터 세팅에 사용된 다른 설정 파일들 제출하기
- 수행 순서가 적힌 README file 제출하기(도커 이미지 빌드, 컨테이너 실행, HDFS 실행, MapReduce operation등)

# W3M2b: Understanding of Hadoop Configuration Files

## 학습 목표
- 도커를 사용여 Apache Hadoop multi-node cluster를 세팅하고 설정하기
- 최소 두개의 도커 컨테이너를 사용하고 <core-site.xml, hdfs-site.xml, mapred-site.xml, and yarn-site.xml>의 중요한 파라미터들을 설정하기

## 사전지식
### Configuration Files:
##### core-site.xml
- fs.defaultFS: Specifies the default file system URI.
- hadoop.tmp.dir: Specifies the temporary directory.
- io.file.buffer.size: Specifies the buffer size for reading/writing files.
#### hdfs-site.xml
- dfs.replication: Defines the default replication factor for HDFS.
- dfs.blocksize: Specifies the default block size.
- dfs.namenode.name.dir: Specifies the path on the local filesystem where the NameNode stores the namespace and transaction logs.
#### mapred-site.xml
- mapreduce.framework.name: Specifies the framework name for MapReduce.
- mapreduce.job.tracker: Specifies the JobTracker host and port.
- mapreduce.task.io.sort.mb: Specifies the amount of memory to use while sorting map output.
#### yarn-site.xml
- yarn.resourcemanager.address: The address of the ResourceManager IPC.
- yarn.nodemanager.resource.memory-mb: Determines the amount of memory available to YARN.
- yarn.scheduler.minimum-allocation-mb: Specifies the minimum allocation for every container request at the ResourceManager.
## 기능요구사항

Modifying Configuration Settings

For each configuration file, change the identified settings to the specified values. Ensure that you follow the correct XML structure and syntax.
### core-site.xml

Change fs.defaultFS to hdfs://namenode:9000.
Change hadoop.tmp.dir to /hadoop/tmp.
Change io.file.buffer.size to 131072.
### hdfs-site.xml

Change dfs.replication to 2.
Change dfs.blocksize to 134217728 (128 MB).
Change dfs.namenode.name.dir to /hadoop/dfs/name.
### mapred-site.xml

Change mapreduce.framework.name to yarn.
Change mapreduce.jobhistory.address to namenode:10020.
Change mapreduce.task.io.sort.mb to 256.
### yarn-site.xml

Change yarn.resourcemanager.address to namenode:8032.
Change yarn.nodemanager.resource.memory-mb to 8192.
Change yarn.scheduler.minimum-allocation-mb to 1024.
### Configuration Modification Script:

The script should accept the path to the Hadoop configuration directory as an argument.
It should back up the original configuration files before making any changes.
The script should modify the specified settings in the XML files to the given values.
It should handle any errors gracefully and report the status of each change.
Backup the original configuration files.
Modify the specified settings in the configuration files.
Restart the Hadoop services.
### Verification Script:

The script should confirm the default file system name is set correctly by running a relevant Hadoop command and parsing the output.
It should create a test file in HDFS and check its replication factor to verify the change.
The script should run a simple MapReduce job and ensure it uses the YARN framework.
It should query YARN ResourceManager to verify the total available memory for YARN.
The script should verify the temporary directory, buffer size, block size, NameNode directory, JobTracker, sort memory buffer size, ResourceManager hostname, NodeManager memory allocation, and container minimum allocation.
Query the Hadoop configuration to check the modified settings.
Print the results, indicating whether each setting matches the expected value.
Create a test file in HDFS and verify the replication factor.
## 프로그래밍 요구사항

Write a shell script or a Python program to modify the specified settings in the configuration files.
Develop another script or program to verify the configuration changes.
Use appropriate commands and APIs to interact with the Hadoop cluster.
## 예상결과 및 동작예시

Example Expected Outcome:

### Configuration Modification Script



In [None]:
### Verification Script


Each PASS line indicates that the setting matches the expected value.
If a setting does not match, it would print FAIL with the actual value, like this:


### Submission:

Submit 2 scripts or Python programs
Provide the original and the changed configuration files (core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml).
Include all the files to run testing scripts if necessary.
Provide a README file with detailed instructions for setting up and running the scripts or programs
## 팀 활동 요구사항
4개의 xml files들을 살펴 보고 각 화일의 셋팅 중에 중요하거나 유용하다고 생각되는 것들을 각자 골라서 용법을 파악해 보아라 </br>
그리고 팀과 함께 토의한 다음, 위키에 정리해라