Skip to content

zz22394/cdf-workshop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 

Repository files navigation

Cloudera CDP / CDF Workshop

Hands on概要:

1) NiFi でテストデータを集めて、Kafkaに送る

2) SMMのWebUIで、KafkaのTopic作成とKafka管理

3) NiFiで、KafkaのデータをHDFSに保存

4) HDFSに保存したデータをHUE+Hiveで分析

5) HDFSに保存したデータをCML+Sparkで分析

1)データ収集

自分のアカウント・サーバーを取得。 サーバーアドレス:

1.1 Cloudera Managerにログイン

CM URL:

Note
参加者が利用するEC2インスタンスのIPアドレスが異なる

admin/admin

1.2 NiFi でデータ収集のデータフロー作成

105 CM

1.2.1 NiFi にログイン

108 CM NiFi

1.2.2 テンプレートをアップロード

link::smm/produce-movies.xml[NiFi→Kafkaへのテストデータ生成データフロー]

110 NiFi Template
112 NiFi Template2
113 NiFi Template3
Note
プロセッサーグループ(プロセッサーのフォルダみたいなもの)を作成し、プロセッサーグループに入る
113 NiFi Template4
113 NiFi Template5

1.2.3 Template を選択:

114 NiFi Choose Temp

1.2.4 Template Import完了

115 NiFi Choose Temp2.png
116 NiFi Choose Temp3.png

1.3 SMM でKafka管理

1.3.1 SMM にログイン

130 SMM 01
130 SMM 02

1.3.2 SMMで、KafkaのTopic作成

132 SMM New Topic 1
132 SMM New Topic 2
132 SMM New Topic 3
132 SMM New Topic 4

1.3.3 SMMで、KafkaのTopic確認

132 SMM New Topic 5
132 SMM New Topic 6

1.3.4 NiFiで、KafkaのTopicにメッセージを投入

134 Kafka MQ 1
134 Kafka MQ 2
134 Kafka MQ 3
134 Kafka MQ 4

1.3.5 SMMで、KafkaのTopicとProducer関係の確認

135 Kafka MQ Producer

1.3.6 NiFiで、Kafkaに入ったデータを読み込んで、ある程度纏めてHDFSに保存

link::smm/consume-movies.xml[NiFiでKafkaからHDFSへデータ保存データフロー]

110 NiFi Template
112 NiFi Template2
113 NiFi Template3

2) Hive、HUE、CDSW(CML)でデータを分析・ETL

2.1) NiFiのデータフローで、Kafka をConsumeして、HDFSに保存

201 Import 1
201 Import 2
201 Import 3

2.2) HUEで、保存したデータを分析

2.2.1) HUEにログイン

204 HUE 1
204 HUE 2

2.2.1) HUEでファイルを確認

204 HUE 3
204 HUE 4
204 HUE 5
204 HUE 6
204 HUE 7

2.3.1) HUEのHiveを使ってデータを分析

206 HUE Hive 1

2.3.2) HiveのメタデータをAtlasで確認

206 HUE Hive 2
206 HUE Hive 3
206 HUE Hive 4
206 HUE Hive 5
206 HUE Hive 6
206 HUE Hive 7

2.3.3) Hive でテーブル作成、データ分析

create database testdb;
use testdb;
create table test01 (a01 string);

CREATE EXTERNAL TABLE IF NOT EXISTS movies
  (ID int,
  title string,
  genres string
  )
  ROW FORMAT DELIMITED
  FIELDS TERMINATED BY ','
  STORED AS TEXTFILE
  LOCATION '/tmp/movies';

select count(*) from testdb.movies;

select * from testdb.movies limit 10;
206 HUE Hive 8
206 HUE Hive 9
206 HUE Hive 10

2.3.4) Hiveで作ったメタデータを、再びAtlasで確認

206 HUE Hive 11
206 HUE Hive 12
206 HUE Hive 13
206 HUE Hive 14

2.4) データサイエンティストがCML+Sparkを使って分析

//import org.apache.spark
import org.apache.spark.sql.types._;

val schema = (new StructType).add("id", IntegerType).add("title", StringType).add("genres", StringType)

val input_df = spark.read.option("Sep", ",").schema(schema).csv("/tmp/movies/")
input_df.write.option("compression", "snappy").parquet("/tmp/movies_parquet/")
210 CML 01
210 CML 02
210 CML 03

About

Cloudera CDP/CDF Workshop

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published