# 第1章：Spark 基礎概念

## 學習目標
- 理解 Apache Spark 的基本概念
- 掌握 SparkSession 的創建和使用
- 學會第一個 Spark 程式的編寫
- 了解 Spark 的核心架構

## 環境設置
首先確保 Spark 環境已經正確設置

In [None]:
# 導入必要的模組
import findspark
findspark.init()

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when
import pandas as pd

## 創建 SparkSession

In [None]:
# 創建 SparkSession
spark = SparkSession.builder \
    .appName("Spark基礎概念") \
    .master("local[*]") \
    .getOrCreate()

print("🎉 歡迎來到 Spark 101！")
print(f"Spark 版本: {spark.version}")
print(f"Spark 應用程式名稱: {spark.sparkContext.appName}")

## 創建第一個 DataFrame

In [None]:
# 創建簡單的 DataFrame
data = [
    ("Alice", 25, "Engineer"),
    ("Bob", 30, "Manager"),
    ("Charlie", 35, "Designer"),
    ("Diana", 28, "Analyst")
]

columns = ["name", "age", "job"]
df = spark.createDataFrame(data, columns)

print("📊 創建的 DataFrame:")
df.show()

## DataFrame 基本操作

In [None]:
# 查看 DataFrame 結構
print("📋 DataFrame 結構:")
df.printSchema()

In [None]:
# 基本統計信息
print("📈 基本統計信息:")
df.describe().show()

In [None]:
# 過濾操作
print("🔍 年齡大於 28 的人:")
df.filter(col("age") > 28).show()

In [None]:
# 選擇特定列
print("📝 選擇姓名和年齡:")
df.select("name", "age").show()

In [None]:
# 添加新列
print("➕ 添加年齡分組:")
df_with_group = df.withColumn("age_group", 
                             when(col("age") < 30, "Young")
                             .otherwise("Senior"))
df_with_group.show()

## 與 Pandas 的比較

In [None]:
# 轉換為 Pandas DataFrame
pandas_df = df.toPandas()
print("🐼 轉換為 Pandas DataFrame:")
display(pandas_df)

In [None]:
# 從 Pandas 創建 Spark DataFrame
spark_df_from_pandas = spark.createDataFrame(pandas_df)
print("🔄 從 Pandas 創建 Spark DataFrame:")
spark_df_from_pandas.show()

## 練習題

### 練習1：創建自己的 DataFrame
創建一個包含學生信息的 DataFrame，包含姓名、年齡、科系、成績等欄位

In [None]:
# 在這裡寫你的代碼
# 提示：使用 spark.createDataFrame() 方法

# 你的代碼在此


### 練習2：DataFrame 操作
1. 篩選出成績大於 80 的學生
2. 計算每個科系的平均成績
3. 添加一個成績等級欄位（A: 90+, B: 80-89, C: 70-79, D: <70）

In [None]:
# 在這裡寫你的代碼

# 你的代碼在此


## 清理資源

In [None]:
# 停止 SparkSession
spark.stop()
print("✅ Spark 應用程式已結束")

## 總結

在本章中，我們學習了：

1. **SparkSession 的創建** - Spark 應用程式的入口點
2. **DataFrame 的基本操作** - 創建、查看、篩選、轉換
3. **與 Pandas 的互操作** - 數據框架之間的轉換
4. **基本的數據操作** - 選擇、過濾、添加列

### 下一步
- 繼續學習 [第2章：RDD 基本操作](02_rdd_operations.ipynb)
- 深入了解 Spark 的分散式計算模型
- 探索更多 DataFrame API