# Kafkaの起動を行います

/home/pyspark/kafka/bin/kafka-topics.sh \
    --create --topic pyspark-topic1 \
    --replication-factor 1 \
    --partitions 3 \
    --bootstrap-server kafka:9092 

In [None]:
# コンソールで設定したSparkとNoteBookを接続します(動かす前に毎度実行する必要があります)
import findspark
findspark.init("/home/pyspark/spark")

In [None]:
#pysparkに必要なライブラリを読み込む
from pyspark import SparkConf
from pyspark import SparkContext
from pyspark.sql import SparkSession

#spark sessionの作成
# spark.ui.enabled trueとするとSparkのGUI画面を確認することができます
# spark.eventLog.enabled true　とすると　GUIで実行ログを確認することができます
# GUIなどの確認は最後のセクションで説明を行います。
spark = SparkSession.builder \
    .appName("chapter1") \
    .config("hive.exec.dynamic.partition", "true") \
    .config("hive.exec.dynamic.partition.mode", "nonstrict") \
    .config("spark.sql.session.timeZone", "JST") \
    .config("spark.ui.enabled","true") \
    .config("spark.eventLog.enabled","true") \
    .config("spark.jars.packages", "org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.3") \
    .enableHiveSupport() \
    .getOrCreate()

# パッケージを複数渡したい時は「,」で繋いで渡します。

# WebUIでライブラリが保存されているか確認してみましょう

100000

In [None]:
# PySparkをKafkaと接続します

# Subscribe to 1 topic
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "pyspark-topic1") \
  .load()


In [None]:
# kafkaのダウンロード
wget https://dlcdn.apache.org/kafka/3.0.0/kafka-3.0.0-src.tgz

In [None]:
bin/kafka-topics.sh \
    --delete --topic quickstart-events \
    --bootstrap-server localhost:9092 

In [None]:
# 繋ぐコマンド
# ちょこちょこバグがあって、接続できない時があるので、今回の講座で使っているバージョンをおさらいします。

# Spark 3.2
# Java11(openjdk version "11.0.12)
# Kafkka(3.0.0)
# 
pyspark --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.3

In [None]:
spark.stop()
spark.sparkContext.stop()