In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("lesson5") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate()

## 数据源与数据格式：DataFrame的创建

DataFrame 是 Spark SQL 的重要入口，换句话说，通过创建 DataFrame 并使用 DataFrame 的 API，我们才能充分利用 Spark SQL 优化引擎提供的种种“红利”。显然，对于初学者来说，第一步就是搞明白怎么创建 DataFrame，Spark支持丰富的数据源格式
![image.png](attachment:6924c212-ab8d-4dc3-adf4-50db1bc92ee3.png)

这里只介绍最常用的几个数据源

### 1. 从 Driver 创建 DataFrame

相比 RDD，DataFrame 仅仅是多了一个 Schema，因此基于创建rdd，Spark 可以直接从数组、元组、映射等数据结构在 Driver 端创建 DataFrame。使用这种方式创建的 DataFrame 通常数据量有限，因此这样的 DataFrame 往往不直接参与分布式计算，而是用于辅助计算或是数据探索

基于基础变量创建df：createDataFrame 方法示例：

In [None]:
# 创建 Python 列表
data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]

# 将列表转换为 DataFrame
df = spark.createDataFrame(data, ["Name", "Age"])

# 显示 DataFrame
df.show()

基于rdd创建df: toDF 方法示例

In [None]:
rdd = spark.sparkContext.parallelize(["Alice", "Bob", "Charlie"])

# 将 RDD 转换为 DataFrame
df = rdd.map(lambda x: (x, )).toDF(["Name"])

# 显示 DataFrame
df.show()

### 2. 从文件系统创建 DataFrame

Spark 支持多种文件系统，常见的有 HDFS、Amazon S3、本地文件系统。不过无论哪种文件系统，Spark 都要通过 SparkSession 的 read API 来读取数据并创建 DataFrame

read API 由 SparkSession 提供，它帮助开发者以统一的形式来创建 DataFrame

![image.png](attachment:cb029874-b932-490e-be99-d85e6384bedc.png)

要使用 read API 创建 DataFrame，开发者只需要调用 SparkSession 的 read 方法，同时提供 3 类参数即可。这 3 类参数分别是文件格式、加载选项和文件路径，它们分别由函数 format、option 和 load 来指定，其中支持的format文件格式如下
![image.png](attachment:1d7bd6bb-bf53-414c-9c11-666d0d24f898.png)
每个文件格式对应了不同的格式选项option，具体参考[官方列表](https://docs.databricks.com/external-data/index.html)，可以根据官方给的示例，了解具体文件格式 read api 的使用方法

load在指定文件路径时，本地文件系统路径表示为“/dataSources/wikiOfSpark.txt”，HDFS 分布式文件系统表示为“hdfs://hostname:port/myFiles/userProfiles.csv”， Amazon S3 上的“s3://myBucket/myProject/myFiles/results.parquet”，

此外，对于常见的文件格式 read api 都提供了工具函数，比如我们之前用到的 sc.read.parquet()就是用来处理parquet格式的文件数据

csv文件使用示例：

In [None]:
# csv 文件格式
from pathlib import Path

file_path = Path('../') / 'data' / 'salaries.csv'

df = spark.read.csv(str(file_path))

df.show()

# 配置可选项 
file_path = Path('../') / 'data' / 'salaries.csv'

df = spark.read.option("header", True).csv(str(file_path))

df.show()

In [None]:
# 列文件格式
df = sc.read.parquet(str(file_path))

### 3. 从 RDBMS 读取数据
和读取本地文件一样，spark 使用 read API 来读取数据库，通过 option 选项传入参数来指定数据库驱动、数据库地址、用户名、密码等关键信息，注意这里在创建sparksession时需要 config("spark.jars", "/path/to/mysql-connecto.jar")

使用 read API 连接数据库表，并创建 DataFrame：

In [21]:
spark_sql = SparkSession.builder \
    .appName("lesson5") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .config("spark.jars", "/home/jovyan/work/notebooks/mysql-connector-java-5.1.49.jar") \
    .getOrCreate()

# 直接将整个数据库表导入df
url = "jdbc:mysql://mysql:3306/sys"
properties = {"user": "root", "password": "123456"}

df = spark_sql.read.option("driver", "com.mysql.jdbc.Driver").option("numPartitions", 8).jdbc(url=url, table="sys_config", properties=properties)
df.show()

+--------------------+-----+-------------------+------+
|            variable|value|           set_time|set_by|
+--------------------+-----+-------------------+------+
|diagnostics.allow...|  OFF|2023-06-20 04:31:41|  null|
|diagnostics.inclu...|  OFF|2023-06-20 04:31:41|  null|
|ps_thread_trx_inf...|65535|2023-06-20 04:31:41|  null|
|statement_perform...|  100|2023-06-20 04:31:41|  null|
|statement_perform...| null|2023-06-20 04:31:41|  null|
|statement_truncat...|   64|2023-06-20 04:31:41|  null|
+--------------------+-----+-------------------+------+



----------------------------------------
Exception occurred during processing of request from ('127.0.0.1', 40214)
Traceback (most recent call last):
  File "/opt/conda/lib/python3.11/socketserver.py", line 317, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/opt/conda/lib/python3.11/socketserver.py", line 348, in process_request
    self.finish_request(request, client_address)
  File "/opt/conda/lib/python3.11/socketserver.py", line 361, in finish_request
    self.RequestHandlerClass(request, client_address, self)
  File "/opt/conda/lib/python3.11/socketserver.py", line 755, in __init__
    self.handle()
  File "/usr/local/spark/python/pyspark/accumulators.py", line 281, in handle
    poll(accum_updates)
  File "/usr/local/spark/python/pyspark/accumulators.py", line 253, in poll
    if func():
       ^^^^^^
  File "/usr/local/spark/python/pyspark/accumulators.py", line 257, in accum_updates
    num_updates = read_int(self.rfile)
                  

### 4. 从 hive 表中读取数据

这里只介绍最简单的一种spark访问 hive 的方式，需要保证hive的metastore服务是启动的, 这样 Spark 就能通过访问 Hive Metastore 服务，访问保存在hive中的数据

In [None]:
from pyspark.sql import SparkSession

spark_hive = SparkSession.builder \
    .appName("hive") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .config("hive.metastore.uris", r"thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()

df = spark_hive.sql("select * from my_table")
df.show()

## 2. 数据转换：在DataFrame之上做数据处理

有了 DataFrame 之后，我们就可以使用spark_sql 提供的API在 DataFrame 之上做各式各样的数据转换，完成数据分析的工作。
对于 DataFrame 之上的数据处理，Spark SQL 支持两类开发入口：一个是大家所熟知的结构化查询语言：SQL，另一类是 DataFrame 各类数据转换的算子。

### 1. SQL 语句