# About: Hadoop - Set! Inventory

----

このお手本では、ホスト表に記述されたマシンにNotebook(Ansible)からアクセスするため、
Ansible用のInventoryファイルを更新する手順を説明しています。

Hadoopクラスタを構成するホストのマスタは表形式で管理しています(例:  [hosts.csv](../edit/hosts.csv))

このホスト表には、複数のクラスタに関して以下の情報が記述されます。

- ホストが所属するクラスタ名
- ホストの名前, マシンタイプ
- ホストのIPアドレス
- ホストのスペック
- ホストに配置するサービス

## *Operation Note*

*This is a cell for your own recording.  ここに経緯を記述*

# 構築対象の指定

Hadoopクラスタを構成するホスト表ファイル名を指定します。

In [1]:
# ホスト表ファイルのパス
hosts_csv = 'hosts.csv'

## クラスタ情報の更新

クラスタ情報を更新する。ここではテストクラスタに関する情報を追加することにします。(クラスタ名は `TestCluster` とします)

まず、現在のホスト表ファイルをバックアップしておく。

In [2]:
import tempfile
work_dir = tempfile.mkdtemp()
work_dir

'/tmp/tmpC7TYKk'

In [3]:
!cp hosts.csv {work_dir}/hosts-old.csv

[hosts.csv](../edit/hosts.csv) にVMの情報を追加し、各VMにロールを割り当てる。

In [4]:
!diff -ur {work_dir}/hosts-old.csv hosts.csv

--- /tmp/tmpC7TYKk/hosts-old.csv	2016-08-26 11:27:12.642144914 +0900
+++ hosts.csv	2016-08-26 11:27:38.622366625 +0900
@@ -19,3 +19,10 @@
 Cluster2,sn0202,sn02020801,XXX.XXX.XXX.10,XXX.XXX.XXX.229,16,65536,10,15,64512,,x,x,,x,,x,,x,,x,,,,,,,,,
 Cluster2,sn0202,sn02021601,XXX.XXX.XXX.6,XXX.XXX.XXX.227,16,65536,10,15,64512,,,,,x,,x,,,,x,,,,,,,,,
 Cluster2,sn0203,sn02030801,XXX.XXX.XXX.22,XXX.XXX.XXX.235,16,65536,10,15,64512,,,,,x,,x,,,,x,,,,,,,,,
+TestCluster,vm,testvm001,,XXX.XXX.XXX.70,2,10240,-,-,-,x,x,x,x,,x,,,,x,,,,,,,,,,
+TestCluster,vm,testvm002,,XXX.XXX.XXX.71,2,10240,-,-,-,,x,x,x,,x,,,,x,,,,,,,,,,
+TestCluster,vm,testvm003,,XXX.XXX.XXX.72,2,10240,-,-,-,,x,x,,,,,x,x,,,x,x,x,x,x,x,,,
+TestCluster,vm,testvm004,,XXX.XXX.XXX.73,2,10240,1,1,4096,,,,,x,,x,,,,x,,,,,,,,,
+TestCluster,vm,testvm005,,XXX.XXX.XXX.112,2,10240,1,1,4096,,,,,x,,x,,,,x,,,,,,,,,
+TestCluster,vm,testvm006,,XXX.XXX.XXX.113,2,10240,1,1,4096,,,,,x,,x,,,,x,,,,,,,,,
+TestCluster,vm,testvm007,,XXX.XXX.XXX.114

## クラスタの情報の確認

最新のホスト一覧を表で確認します。

In [5]:
%run scripts/loader.py

header, machines = read_machines(hosts_csv)

pd.DataFrame([get_row(header, m) for m in machines], columns=header)

Unnamed: 0,Cluster,Type,Name,Internal IP,Service IP,VCPUs,Memory(MiB),DFS Volumes,YARN VCPUs,YARN Total Memory(MB),...,HBase RegionServer,Tez,Hive,Pig,Client,Spark,Spark HistoryServer,KDC Master,KDC Slave,Docker
0,Cluster1,cn0107,cn01070401,XXX.XXX.XXX.85,XXX.XXX.XXX.197,12,98304,,,,...,False,False,False,False,False,False,False,True,False,False
1,Cluster1,cn0107,cn01070402,XXX.XXX.XXX.86,XXX.XXX.XXX.198,12,98304,,,,...,False,False,False,False,False,False,False,False,True,False
2,Cluster1,cn0107,cn01070403,XXX.XXX.XXX.87,XXX.XXX.XXX.199,12,98304,,,,...,False,False,False,False,False,False,False,False,False,False
3,Cluster1,cn0107,cn01070404,XXX.XXX.XXX.88,XXX.XXX.XXX.200,12,98304,,,,...,False,True,True,True,True,True,True,False,False,False
4,Cluster1,cn0107,cn01070603,XXX.XXX.XXX.83,XXX.XXX.XXX.195,12,98304,,,,...,False,False,False,False,False,False,False,False,False,True
5,Cluster1,cn0107,cn01070604,XXX.XXX.XXX.84,XXX.XXX.XXX.196,12,98304,,,,...,False,False,False,False,False,False,False,False,False,True
6,Cluster1,sn0202,sn02020401,XXX.XXX.XXX.12,XXX.XXX.XXX.230,16,65536,10.0,15.0,64512.0,...,True,False,False,False,False,False,False,False,False,False
7,Cluster1,sn0202,sn02021201,XXX.XXX.XXX.8,XXX.XXX.XXX.228,16,65536,10.0,15.0,64512.0,...,True,False,False,False,False,False,False,False,False,False
8,Cluster1,sn0202,sn02022001,XXX.XXX.XXX.4,XXX.XXX.XXX.226,16,65536,10.0,15.0,64512.0,...,True,False,False,False,False,False,False,False,False,False
9,Cluster1,sn0202,sn02022401,XXX.XXX.XXX.2,XXX.XXX.XXX.225,16,65536,10.0,15.0,64512.0,...,True,False,False,False,False,False,False,False,False,False


# Ansible用ファイルの更新


AnsibleにHadoop環境構築をおこなわせるため、以下の2つのファイルを更新します。

- Inventory ... グループとホストの対応関係
- group_vars ... 各Playbookに渡す変数

このNotebookではInventoryのひな型のみを提供し、実際のマージは人手で行います。




## Inventoryの更新

Inventoryをアップデートします。先に確認したホスト表に基づいて、グループ定義を含むInventoryの内容を生成します。

In [6]:
%run scripts/inventory-hadoop.py

with open('{work_dir}/hosts'.format(work_dir=work_dir), "w") as f:
    aliases = []
    for cluster in sorted(set(map(lambda m: m['Cluster'], machines))):
        aliases += write_hadoop_inventory(filter(lambda m: m['Cluster'] == cluster, machines), f)
    for group in sorted(set(map(lambda a: a[0], aliases))):
        f.write('''[{group}:children]
{targets}

'''.format(group=group, targets='\n'.join(map(lambda a: a[1], filter(lambda a: a[0] == group, aliases)))))

!cat {work_dir}/hosts

[hadoop_all_cluster1:children]
hadoop_master_cluster1 
hadoop_client_cluster1 
hadoop_slavenode_cluster1 
hadoop_hbase_cluster1 
hadoop_spark_cluster1 

[hadoop_swimlane_cluster1]
XXX.XXX.XXX.200 

[hadoop_master_cluster1:children]
hadoop_namenode_cluster1 
hadoop_journalnode_cluster1 
hadoop_zookeeperserver_cluster1 
hadoop_resourcemanager_cluster1 

[hadoop_hbase_cluster1:children]
hadoop_hbase_master_cluster1 
hadoop_hbase_regionserver_cluster1 

[hadoop_spark_history_cluster1]
XXX.XXX.XXX.200 

[hadoop_journalnode_cluster1]
XXX.XXX.XXX.197 
XXX.XXX.XXX.198 
XXX.XXX.XXX.199 

[hadoop_client_cluster1]
XXX.XXX.XXX.200 

[hadoop_zookeeperserver_cluster1]
XXX.XXX.XXX.197 zookeeper_server_id=1
XXX.XXX.XXX.198 zookeeper_server_id=2
XXX.XXX.XXX.199 zookeeper_server_id=3

[hadoop_namenode_cluster1:children]
hadoop_namenode_primary_cluster1 
hadoop_namenode_backup_cluster1 

[kerberos_master_cluster1]
XXX.XXX.XXX.197 

[hadoop_hive_cluster1]
XXX.XX

上の出力結果を、Inventoryに反映します。すでにInventoryには別のマシンに関する情報もある可能性を考慮し、手作業でのマージとします。

In [7]:
!cp inventory {work_dir}/inventory-old

[Inventory](../edit/inventory) を修正する。

In [8]:
!diff -ur {work_dir}/inventory-old inventory

--- /tmp/tmpC7TYKk/inventory-old	2016-08-26 11:28:11.990651381 +0900
+++ inventory	2016-08-26 11:28:47.486954290 +0900
@@ -196,89 +196,194 @@
 [hadoop_tez_cluster2]
 XXX.XXX.XXX.194 
 
+[hadoop_all_testcluster:children]
+hadoop_master_testcluster 
+hadoop_client_testcluster 
+hadoop_slavenode_testcluster 
+hadoop_hbase_testcluster 
+hadoop_spark_testcluster 
+
+[hadoop_swimlane_testcluster]
+XXX.XXX.XXX.72 
+
+[hadoop_master_testcluster:children]
+hadoop_namenode_testcluster 
+hadoop_journalnode_testcluster 
+hadoop_zookeeperserver_testcluster 
+hadoop_resourcemanager_testcluster 
+
+[hadoop_hbase_testcluster:children]
+hadoop_hbase_master_testcluster 
+hadoop_hbase_regionserver_testcluster 
+
+[hadoop_spark_history_testcluster]
+XXX.XXX.XXX.72 
+
+[hadoop_journalnode_testcluster]
+XXX.XXX.XXX.70 
+XXX.XXX.XXX.71 
+XXX.XXX.XXX.72 
+
+[hadoop_client_testcluster]
+XXX.XXX.XXX.72 
+
+[hadoop_zookeeperserver_testcluster]
+XXX.XXX.XXX.70 zookeeper_serve

hadoop_all グループでHadoopクラスタに所属するサーバすべてに疎通することを確認する。

In [9]:
!ansible -m ping hadoop_all

[0;32mXXX.XXX.XXX.197 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.198 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.199 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.200 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.230 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.228 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.226 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.225 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.236 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.234 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.232 | SUCCESS => {
    "changed": false, 
    "ping": "pong"
}[0m
[0;32mXXX.XXX.XXX.231 | SUCCESS => {
    "changed": f

## グループ変数定義(hadoop\_all\_{cluster})の生成

In [10]:
archive_url = 'http://xxx.xxx.nii.ac.jp:YYYY/v1/AUTH_XXXXXXXXXXXXXXXXXXXXXXXX/HDP-2.x/archive'

In [11]:
!mkdir -p {work_dir}/group_vars

for cluster in sorted(set(map(lambda m: m['Cluster'], machines))):
    with open("{work_dir}/group_vars/hadoop_all_{cluster}".format(work_dir=work_dir, cluster=cluster.lower()), "w") as f:
        write_hadoop_group_vars(filter(lambda m: m['Cluster'] == cluster, machines), f, archive_url)
    
!cat {work_dir}/group_vars/hadoop_all_testcluster


# HDP repository
hdp_version: 'XXX.XXX.XXX.0-258'
base_hdp_hdp_baseurl: 'http://public-repo-1.hortonworks.com/HDP/centos6/2.x/updates/XXX.XXX.XXX.0'
base_hdp_hdp_gpgcheck: '1'
base_hdp_hdp_gpgkeyurl: 'http://public-repo-1.hortonworks.com/HDP/centos6/2.x/updates/XXX.XXX.XXX.0/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins'
base_hdp_util_baseurl: 'http://public-repo-1.hortonworks.com/HDP-UTILS-XXX.XXX.XXX.20/repos/centos6'
base_hdp_util_gpgcheck: '1'
base_hdp_util_gpgkeyurl: 'http://public-repo-1.hortonworks.com/HDP/centos6/2.x/updates/XXX.XXX.XXX.0/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins'

# define servers
gmond: 'XXX.XXX.XXX.70'
ganglia_cluster: 'TestCluster'
ganglia_master: 'XXX.XXX.XXX.70'

zookeeper_servers:
  - 'testvm001'
  - 'testvm002'
  - 'testvm003'

hadoop_namenode_servers:
  - 'testvm001'
  - 'testvm002'

hadoop_slavenode_servers:
  - 'testvm004'
  - 'testvm005'
  - 'testvm006'
  - 'testvm007'

hadoop_journalnode_servers:
  - 'testvm001'
  - 'testvm002'
  - 'testv

このファイルをInventoryと同じディレクトリ配下の[group_vars](../tree/group_vars/)ディレクトリに配置する。

In [12]:
!cp {work_dir}/group_vars/hadoop_all_testcluster group_vars/

In [13]:
!ls -la group_vars/

total 36
drwxr-xr-x  3 root root  4096 Aug 26 11:30 .
drwxr-xr-x 19 root root 12288 Aug 26 11:30 ..
-rw-r--r--  1 root root    71 Jul 29 12:03 docker_host
-rw-r--r--  1 root root     0 Aug 22 11:35 .gitkeep
-rw-r--r--  1 root root  2985 Aug  8 14:25 hadoop_all_cluster1
-rw-r--r--  1 root root  2883 Jul 28 14:01 hadoop_all_cluster2
-rw-r--r--  1 root root  2179 Aug 26 11:30 hadoop_all_testcluster
drwxr-xr-x  2 root root  4096 Jul 29 12:02 .ipynb_checkpoints


# 動作確認

変数が読み込まれていることを確認する。

In [14]:
%%writefile {work_dir}/test.yml
- hosts: hadoop_all
  tasks:
    - debug: msg={{ hadoop_timelineservice_server }}

Writing /tmp/tmpC7TYKk/test.yml


In [15]:
!ansible-playbook {work_dir}/test.yml


PLAY [hadoop_all] **************************************************************

TASK [setup] *******************************************************************
[0;32mok: [XXX.XXX.XXX.197][0m
[0;32mok: [XXX.XXX.XXX.198][0m
[0;32mok: [XXX.XXX.XXX.199][0m
[0;32mok: [XXX.XXX.XXX.200][0m
[0;32mok: [XXX.XXX.XXX.230][0m
[0;32mok: [XXX.XXX.XXX.228][0m
[0;32mok: [XXX.XXX.XXX.226][0m
[0;32mok: [XXX.XXX.XXX.225][0m
[0;32mok: [XXX.XXX.XXX.236][0m
[0;32mok: [XXX.XXX.XXX.234][0m
[0;32mok: [XXX.XXX.XXX.232][0m
[0;32mok: [XXX.XXX.XXX.231][0m
[0;32mok: [XXX.XXX.XXX.193][0m
[0;32mok: [XXX.XXX.XXX.194][0m
[0;32mok: [XXX.XXX.XXX.233][0m
[0;32mok: [XXX.XXX.XXX.229][0m
[0;32mok: [XXX.XXX.XXX.227][0m
[0;32mok: [XXX.XXX.XXX.235][0m
[0;32mok: [XXX.XXX.XXX.70][0m
[0;32mok: [XXX.XXX.XXX.71][0m
[0;32mok: [XXX.XXX.XXX.73][0m
[0;32mok: [XXX.XXX.XXX.72][0m
[0;32mok: [XXX.XXX.XXX.112][0m
[0;32mok: [XXX.XXX.XXX.114][0m
[0;32mok: [XXX.XXX.XXX.113][0m

TASK [debug] *

OK。

# 後始末

一時ディレクトリを削除する。

In [16]:
!rm -fr {work_dir}