In [12]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("lesson5") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate()

## 数据源与数据格式：DataFrame的创建

DataFrame 是 Spark SQL 的重要入口，换句话说，通过创建 DataFrame 并使用 DataFrame 的 API，我们才能充分利用 Spark SQL 优化引擎提供的种种“红利”。显然，对于初学者来说，第一步就是搞明白怎么创建 DataFrame，Spark支持丰富的数据源格式
![image.png](attachment:6924c212-ab8d-4dc3-adf4-50db1bc92ee3.png)

这里只介绍最常用的几个数据源

### 1. 从 Driver 创建 DataFrame

相比 RDD，DataFrame 仅仅是多了一个 Schema，因此基于创建rdd，Spark 可以直接从数组、元组、映射等数据结构在 Driver 端创建 DataFrame。使用这种方式创建的 DataFrame 通常数据量有限，因此这样的 DataFrame 往往不直接参与分布式计算，而是用于辅助计算或是数据探索

基于基础变量创建df：createDataFrame 方法示例：

In [None]:
# 创建 Python 列表
data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]

# 将列表转换为 DataFrame
df = spark.createDataFrame(data, ["Name", "Age"])

# 显示 DataFrame
df.show()

基于rdd创建df: toDF 方法示例

In [15]:
rdd = spark.sparkContext.parallelize([("Alice", ['math', "chinese"]), ("Bob", []),  ("Charlie", ["computer"])])

# 将 RDD 转换为 DataFrame
interests_df = rdd.toDF(["Name", "interests"])

# 显示 DataFrame
interests_df.show()

+-------+---------------+
|   Name|      interests|
+-------+---------------+
|  Alice|[math, chinese]|
|    Bob|             []|
|Charlie|     [computer]|
+-------+---------------+



### 2. 从文件系统创建 DataFrame

Spark 支持多种文件系统，常见的有 HDFS、Amazon S3、本地文件系统。不过无论哪种文件系统，Spark 都要通过 SparkSession 的 read API 来读取数据并创建 DataFrame

read API 由 SparkSession 提供，它帮助开发者以统一的形式来创建 DataFrame

![image.png](attachment:cb029874-b932-490e-be99-d85e6384bedc.png)

要使用 read API 创建 DataFrame，开发者只需要调用 SparkSession 的 read 方法，同时提供 3 类参数即可。这 3 类参数分别是文件格式、加载选项和文件路径，它们分别由函数 format、option 和 load 来指定，其中支持的format文件格式如下
![image.png](attachment:1d7bd6bb-bf53-414c-9c11-666d0d24f898.png)
每个文件格式对应了不同的格式选项option，具体参考[官方列表](https://docs.databricks.com/external-data/index.html)，可以根据官方给的示例，了解具体文件格式 read api 的使用方法

option配置中的mode，用来指定文件的读取模式，明确了 Spark SQL 应该如何对待 CSV 文件中的“脏数据”,mode 支持 3 个取值，分别是 permissive、dropMalformed 和 failFast

![image.png](attachment:0ff97b6a-2823-4d7b-bccd-b471b11e76e0.png)

load在指定文件路径时，本地文件系统路径表示为“/dataSources/wikiOfSpark.txt”，HDFS 分布式文件系统表示为“hdfs://hostname:port/myFiles/userProfiles.csv”， Amazon S3 上的“s3://myBucket/myProject/myFiles/results.parquet”

此外，对于常见的文件格式 read api 都提供了工具函数，比如我们之前用到的 sc.read.parquet()就是用来处理parquet格式的文件数据




csv文件使用示例：

In [None]:
# csv 文件格式
from pathlib import Path

file_path = Path('../') / 'data' / 'salaries.csv'

df = spark.read.csv(str(file_path))

df.show()

# 配置可选项 
file_path = Path('../') / 'data' / 'salaries.csv'

df = spark.read.option("header", True).csv(str(file_path))

df.show()

In [None]:
# 列文件格式
df = sc.read.parquet(str(file_path))

In [None]:
# 文件读入时，需要指定 df 的数据模式(因为默认情况下，csv文件读取时 会把所有列设置为string类型)
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

# 定义模式
mySchema = StructType([
    StructField("name", StringType()),
    StructField("age", IntegerType()),
    StructField("salary", DoubleType())
])

# 读入CSV文件并应用模式
df = spark.read.format("csv").schema(mySchema).option("header", "true") \
        .option("mode", "dropMalformed").load("path/to/csv/file.csv")

### 3. 从 RDBMS 读取数据
和读取本地文件一样，spark 使用 read API 来读取数据库，通过 option 选项传入参数来指定数据库驱动、数据库地址、用户名、密码等关键信息，注意这里在创建sparksession时需要 config("spark.jars", "/path/to/mysql-connecto.jar")

使用 read API 连接数据库表，并创建 DataFrame：

In [None]:
spark_sql = SparkSession.builder \
    .appName("lesson5") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .config("spark.jars", "/home/jovyan/work/notebooks/mysql-connector-java-5.1.49.jar") \
    .getOrCreate()

# 直接将整个数据库表导入df
url = "jdbc:mysql://mysql:3306/sys"
properties = {"user": "root", "password": "123456"}

df = spark_sql.read.option("driver", "com.mysql.jdbc.Driver").option("numPartitions", 8).jdbc(url=url, table="sys_config", properties=properties)
df.show()

### 4. 从 hive 表中读取数据

这里只介绍最简单的一种spark访问 hive 的方式，需要保证hive的metastore服务启动, 这样 Spark 就能通过 Hive Metastore 服务，访问保存在hive中的数据

In [None]:
from pyspark.sql import SparkSession

spark_hive = SparkSession.builder \
    .appName("hive") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .config("hive.metastore.uris", r"thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()

In [None]:
df = spark_hive.sql("select * from my_table")
df.show()

## 2. 数据转换：在DataFrame之上做数据处理

In [1]:
from pyspark.sql import SparkSession

spark_sql = SparkSession.builder \
    .appName("hive") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate()

有了 DataFrame 之后，我们就可以使用spark_sql 提供的API在 DataFrame 之上做各式各样的数据转换，完成数据分析的工作。
对于 DataFrame 之上的数据处理，Spark SQL 支持两类开发入口：一个是大家所熟知的结构化查询语言：SQL，另一类是 DataFrame 各类数据转换的算子。

### 1. SQL 语句

对于任意的 DataFrame，可以使用 createTempView 或是 createGlobalTempView 在 Spark SQL 中创建 DataFrame 数据对应的临时数据表，之后就可以在该数据表上使用sql语句进行数据处理。

两种创建临时表的方式区别在于，createTempView 创建的临时表，其生命周期仅限于 SparkSession 内部，而 createGlobalTempView 创建的临时表，可以在同一个应用程序中跨 SparkSession 提供访问

Spark SQL 还提供大量 Built-in Functions（内置函数），用于辅助数据处理，如 array_distinct、collect_list，更多内容可以浏览[官网](https://spark.apache.org/docs/3.0.1/api/sql/index.html)

In [2]:
from random import randint

rdd = spark_sql.sparkContext.parallelize(["bob", "lisa", "victor"])
rdd.map(lambda x: (x, randint(0, 90))).toDF(['name', "age"]).createTempView("user")
df = spark_sql.sql("select * from user")

df.show()

+------+---+
|  name|age|
+------+---+
|   bob| 71|
|  lisa| 71|
|victor| 71|
+------+---+



## 2. DataFrame 算子

DataFrame 来自 RDD，与 RDD 具有同源性，因此 RDD 支持的大部分算子，DataFrame 都支持。另一方面，DataFrame 携带 Schema，是结构化数据，因此它同时提供了一套与结构化查询同源的计算算子

![image.png](attachment:fc2d96c5-99a9-40a2-9524-c677bb747ec4.png)

对于同源类算子 用法和RDD完全一样 这里不再介绍 重点放在其他几类算子


### 探索类算子
数据探索类算子的作用，在于帮助开发者初步了解并认识数据，比如数据的模式（Schema）、数据的分布...

![image.png](attachment:5b8ddf4e-0add-4ab4-b0ea-7474558043bd.png)

其他几个api非常简单，介绍一下 describe 查看数值列的统计分布。比如，通过调用 df.describe("age")，你可以查看 age 列的极值、平均值、方差等统计数值

In [None]:
df.describe("age").show()

### 清洗类算子

在数据处理前期，我们往往需要对数据进行适当地“清洗”，“洗掉”那些不符合业务逻辑的“脏数据”

![image.png](attachment:b74c1753-77db-452a-98bb-c0df82676bee.png)

In [None]:
# drop 算子允许开发者直接把指定列从 DataFrame 中予以清除
df.drop("age").show()

# 当有多条数据记录的所有字段值都相同时，使用 distinct 可以仅保留其中的一条数据记录
df.distinct()

df.dropDuplicates()

#用于删除 DataFrame 中带 null 值的数据记录
df.na.drop()

# 将 DataFrame 中所有的 null 值都自动填充为整数零
df.na.fill(0) 

### 转换类算子

转换类算子的主要用于数据的生成、提取与转换。

![image.png](attachment:10b6e1c8-607a-4995-ba9d-6634c27e22e3.png)


In [9]:
# 过滤列
df.select("name").show()

# 支持使用 sql 语句提取数据(通常传入sql内置函数来产生新的列 )
df.selectExpr("name", "age", "concat(name, '_', age) as id").show()

# withColumn 可以充分利用 Spark SQL 提供的 Built-in Functions 来灵活地生成数据
from pyspark.sql.functions import hash
df.withColumn("crypto", hash('age')).show()

+------+
|  name|
+------+
|   bob|
|  lisa|
|victor|
+------+

+------+---+---------+
|  name|age|       id|
+------+---+---------+
|   bob| 71|   bob_71|
|  lisa| 71|  lisa_71|
|victor| 71|victor_71|
+------+---+---------+

+------+---+----------+
|  name|age|    crypto|
+------+---+----------+
|   bob| 71|1163960443|
|  lisa| 71|1163960443|
|victor| 71|1163960443|
+------+---+----------+



表格中的最后一个算子是 explode，其实它并不是df的算子而是一个内建函数，通常和withColumn一起使用，它的作用是展开数组类型的数据列，数组当中的每一个元素，都会生成一行新的数据记录,

对应记录的数组若为空，则对应的数据记录会被删除

In [16]:
from pyspark.sql.functions import explode
interests_df.withColumn("interest", explode("interests")).show()

+-------+---------------+--------+
|   Name|      interests|interest|
+-------+---------------+--------+
|  Alice|[math, chinese]|    math|
|  Alice|[math, chinese]| chinese|
|Charlie|     [computer]|computer|
+-------+---------------+--------+



### 数据分析类算子

前面的探索、清洗、转换统称为数据预处理工作，都是在为数据分析做准备，在大多数的数据应用中，数据分析往往是最为关键的那环，甚至是应用本身的核心目的 

![image.png](attachment:e102d820-ff85-4046-af11-967da7fbf4d1.png)

这里以员工薪水表为例，学习算子的具体用法


In [18]:
# 创建员工数据
employeeData = [(1, "Mike", 28, "Male"), (2, "Lily", 30, "Female"), (3, "Raymond", 26, "Male")]
employees = spark.createDataFrame(employeeData, ["id", "name", "age", "gender"])
# 创建薪水信息
salaryData = [(1, 26000), (2, 30000), (4, 25000), (3, 20000)]
salaries = spark.createDataFrame(salaryData, ["id", "salary"])

In [19]:
# 数据关联
join_df = employees.join(salaries, "id")
join_df.show()

+---+-------+---+------+------+
| id|   name|age|gender|salary|
+---+-------+---+------+------+
|  1|   Mike| 28|  Male| 26000|
|  2|   Lily| 30|Female| 30000|
|  3|Raymond| 26|  Male| 20000|
+---+-------+---+------+------+



In [24]:
# 数据分析：
# 以性别为维度，统计不同性别下的总薪水和平均薪水，借此分析薪水与性别之间可能存在的关联关系
from pyspark.sql.functions import sum, avg

result = join_df.groupBy("gender").agg(sum("salary").alias("sum_salary"), avg("salary").alias("avg_salary"))

result.show()

+------+----------+----------+
|gender|sum_salary|avg_salary|
+------+----------+----------+
|Female|     30000|   30000.0|
|  Male|     46000|   23000.0|
+------+----------+----------+



使用 Built-in Functions 提供的聚合函数，可以灵活地对数据做统计分析

In [27]:
# 排序 
result.orderBy("gender", ascending=False).show()

+------+----------+----------+
|gender|sum_salary|avg_salary|
+------+----------+----------+
|  Male|     46000|   23000.0|
|Female|     30000|   30000.0|
+------+----------+----------+



### 持久化类算子
与read api对应，将数据写入的write API 也有 3 个关键环节，分别是同样由 format 定义的文件格式，零到多个由 option 构成的“写入选项”，以及由 save 指定的存储路径

![image.png](attachment:562b3d67-3eb0-4d98-8611-79c38c5b481e.png)

重点介绍下 mode，这里的 mode 用于指定“写入模式”，分别有 Append、Overwrite、ErrorIfExists、Ignore 这 4 种模式

![image.png](attachment:fe431471-074e-467c-9527-c99e01d22ef6.png)

In [None]:
# 将数据写入 hive表

data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]

# 将列表转换为 DataFrame
df = spark_hive.createDataFrame(data, ["Name", "Age"])
df.write.mode("overwrite").saveAsTable("user")

In [None]:
spark_hive.sql("select * from user").show()