Skip to content

Installation CentOS on VirtualBox with vdi file

suhyunjeon edited this page Dec 1, 2013 · 4 revisions

JDK, hadoop, tajo 등 환경설정이 모두 virtual box에서 완료된 후, vdi(virtual disk image) 파일로 공유가 되었다는 가정하에 tajo를 실행하는 메뉴얼이다.

  1. CentOS에서 tadpole 계정으로 접속한다. hadoop 구동과 모든 작업은 이 tadpole 계정으로 작업한다.

  2. Apache Tajo 실행 전 hadoop 을 구동한다.

${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode
${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode ${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager
${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

$ jps
ResourceManager
NameNode
DataNode

  1. 하둡이 정상적으로 구동되었다면 이제 tajo 를 시작한다.
    Note. http://tajo.incubator.apache.org/tajo-0.2.0-doc.html#GettingStarted 참조

$ ${TAJO_HOME}/bin/start-tajo.sh

$ jps
ResourceManager
NameNode
DataNode
TajoWorker
TajoMaster

$ ${TAJO_HOME}/bin/tsql

tajo를 실행할 수 있는 커맨드 창이 제대로 뜬다면 이제 로컬에 있는 파일을 tajo에 테이블로 생성해보자. $ mkdir /home/x/table1
$ cd /home/x/table1
$ cat > data.csv
1|abc|1.1|a
2|def|2.3|b
3|ghi|3.4|c
4|jkl|4.5|d
5|mno|5.6|e
<CTRL + D>

$ $TAJO_HOME/bin/tsql

tajo> create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'file:/home/x/table1';

tajo> \d
table1

tajo> select * from table1 where id > 2;
final state: QUERY_SUCCEEDED, init time: 0.069 sec, response time: 0.397 sec
result: file:/tmp/tajo-hadoop/staging/q_1363768615503_0001_000001/RESULT, 3 rows ( 35B)

id, name, score, type


3, ghi, 3.4, c
4, jkl, 4.5, d
5, mno, 5.6, e

여기까지는 간단히 tajo를 실행하는 단계였고, 이제 HDFS 클러스터에서 분산 모드로 실행하는 단계를 시작해보자.