1) NiFi でテストデータを集めて、Kafkaに送る
2) SMMのWebUIで、KafkaのTopic作成とKafka管理
3) NiFiで、KafkaのデータをHDFSに保存
4) HDFSに保存したデータをHUE+Hiveで分析
5) HDFSに保存したデータをCML+Sparkで分析
自分のアカウント・サーバーを取得。 サーバーアドレス:
CM URL:
Note
|
参加者が利用するEC2インスタンスのIPアドレスが異なる |
admin/admin
link::smm/produce-movies.xml[NiFi→Kafkaへのテストデータ生成データフロー]
Note
|
プロセッサーグループ(プロセッサーのフォルダみたいなもの)を作成し、プロセッサーグループに入る |
create database testdb;
use testdb;
create table test01 (a01 string);
CREATE EXTERNAL TABLE IF NOT EXISTS movies
(ID int,
title string,
genres string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/tmp/movies';
select count(*) from testdb.movies;
select * from testdb.movies limit 10;
//import org.apache.spark
import org.apache.spark.sql.types._;
val schema = (new StructType).add("id", IntegerType).add("title", StringType).add("genres", StringType)
val input_df = spark.read.option("Sep", ",").schema(schema).csv("/tmp/movies/")
input_df.write.option("compression", "snappy").parquet("/tmp/movies_parquet/")