In [1]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
PySpark Hello World サンプルコード
基本的なSparkアプリケーションの例
"""

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit

def main():
    # SparkSessionの作成
    print("PySpark Hello World アプリケーションを開始します...")
    
    spark = SparkSession.builder \
        .appName("PySparkHelloWorld") \
        .config("spark.sql.adaptive.enabled", "true") \
        .getOrCreate()
    
    print(f"Spark バージョン: {spark.version}")
    print(f"アプリケーション名: {spark.conf.get('spark.app.name')}")
    
    # 1. 基本的なRDD操作の例
    print("\n=== RDD操作の例 ===")
    
    # 簡単なリストからRDDを作成
    data = ["Hello", "World", "from", "PySpark", "!"]
    rdd = spark.sparkContext.parallelize(data)
    
    print("元のデータ:")
    print(rdd.collect())
    
    # 文字数を数える
    word_lengths = rdd.map(lambda word: (word, len(word)))
    print("\n各単語の文字数:")
    print(word_lengths.collect())
    
    # 2. DataFrame操作の例
    print("\n=== DataFrame操作の例 ===")
    
    # サンプルデータの作成
    sample_data = [
        ("Alice", 25, "エンジニア"),
        ("Bob", 30, "デザイナー"),
        ("Charlie", 35, "マネージャー"),
        ("Diana", 28, "エンジニア"),
        ("Eve", 32, "デザイナー")
    ]
    
    # DataFrameの作成（英語のカラム名を使用）
    df = spark.createDataFrame(sample_data, ["name", "age", "job"])
    
    print("元のDataFrame:")
    df.show()
    
    # 基本的なフィルタリング
    print("\n30歳以上の従業員:")
    df.filter(col("age") >= 30).show()
    
    # グループ化と集計
    print("\n職種別の平均年齢:")
    df.groupBy("job").agg({"age": "avg"}).show()
    
    # 3. SQL操作の例
    print("\n=== SQL操作の例 ===")
    
    # DataFrameを一時ビューとして登録
    df.createOrReplaceTempView("employees")
    
    # SQLクエリの実行（英語のカラム名を使用）
    result = spark.sql("""
        SELECT job, 
               COUNT(*) as count,
               AVG(age) as avg_age
        FROM employees 
        GROUP BY job
        ORDER BY count DESC
    """)
    
    print("SQLクエリの結果:")
    result.show()
    
    # 4. 簡単な計算例
    print("\n=== 計算例 ===")
    
    # 1から10までの数字の二乗を計算
    numbers = spark.range(1, 11)
    squared = numbers.select(col("id"), (col("id") ** 2).alias("squared"))
    
    print("1から10までの数字とその二乗:")
    squared.show()
    
    # 合計の計算
    total_squared = squared.agg({"squared": "sum"}).collect()[0][0]
    print(f"\n二乗の合計: {total_squared}")
    
    print("\n=== PySpark Hello World アプリケーションが正常に完了しました！ ===")
    
    # SparkSessionの停止
    spark.stop()

if __name__ == "__main__":
    main() 

PySpark Hello World アプリケーションを開始します...


Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/06/29 05:38:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Spark バージョン: 4.0.0
アプリケーション名: PySparkHelloWorld

=== RDD操作の例 ===
元のデータ:
['Hello', 'World', 'from', 'PySpark', '!']

各単語の文字数:


                                                                                

[('Hello', 5), ('World', 5), ('from', 4), ('PySpark', 7), ('!', 1)]

=== DataFrame操作の例 ===
元のDataFrame:
+-------+---+------------+
|   name|age|         job|
+-------+---+------------+
|  Alice| 25|  エンジニア|
|    Bob| 30|  デザイナー|
|Charlie| 35|マネージャー|
|  Diana| 28|  エンジニア|
|    Eve| 32|  デザイナー|
+-------+---+------------+


30歳以上の従業員:
+-------+---+------------+
|   name|age|         job|
+-------+---+------------+
|    Bob| 30|  デザイナー|
|Charlie| 35|マネージャー|
|    Eve| 32|  デザイナー|
+-------+---+------------+


職種別の平均年齢:
+------------+--------+
|         job|avg(age)|
+------------+--------+
|  エンジニア|    26.5|
|  デザイナー|    31.0|
|マネージャー|    35.0|
+------------+--------+


=== SQL操作の例 ===
SQLクエリの結果:
+------------+-----+-------+
|         job|count|avg_age|
+------------+-----+-------+
|  エンジニア|    2|   26.5|
|  デザイナー|    2|   31.0|
|マネージャー|    1|   35.0|
+------------+-----+-------+


=== 計算例 ===
1から10までの数字とその二乗:
+---+-------+
| id|squared|
+---+-------+
|  1|    1.0|
|  2|    4.0|
|  3|    9.0