## Tổng quan

- API Apache Spark DataFrame là 1 trong những thành phần chính của Spark SQL
Cung cấp giao diện lập trình phân tán để xử lý các tập dữ liệu cấu trúc
- DataFrame trong Apache Spark giống như một bảng trong cơ sở dữ liệu quan hệ hoặc một bảng Excel, với các hàng và cột được tổ chức có cấu trúc. 
- DataFrame cung cấp một tập hợp các API phong phú để thực hiện các phép biến đổi và hành động khác nhau trên dữ liệu.


In [0]:
display(dbutils.fs.ls('/databricks-datasets'))

path,name,size,modificationTime
dbfs:/databricks-datasets/COVID/,COVID/,0,0
dbfs:/databricks-datasets/README.md,README.md,976,1532468253000
dbfs:/databricks-datasets/Rdatasets/,Rdatasets/,0,0
dbfs:/databricks-datasets/SPARK_README.md,SPARK_README.md,3359,1455043490000
dbfs:/databricks-datasets/adult/,adult/,0,0
dbfs:/databricks-datasets/airlines/,airlines/,0,0
dbfs:/databricks-datasets/amazon/,amazon/,0,0
dbfs:/databricks-datasets/asa/,asa/,0,0
dbfs:/databricks-datasets/atlas_higgs/,atlas_higgs/,0,0
dbfs:/databricks-datasets/bikeSharing/,bikeSharing/,0,0


## Tải dữ liệu mẫu

In [0]:
display(dbutils.fs.ls('/databricks-datasets/samples/population-vs-price/data_geo.csv'))

path,name,size,modificationTime
dbfs:/databricks-datasets/samples/population-vs-price/data_geo.csv,data_geo.csv,10952,1456359632000


In [0]:
# SPARKSESSION
# spark.read.format("csv") : Đọc dữ liệu từ 1 tệp CSV
# .option("header", "true") : Lấy dòng đầu tiên của tệp CSV làm tên các cột
# .option("inferSchema", "true") : Tự động suy luận kiểu dữ liệu
# .load("/databricks-datasets/samples/population-vs-price/data_geo.csv") : Tải tệp CSV vào DataFrame

data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/samples/population-vs-price/data_geo.csv")

data.cache() # Lưu data vào bộ nhớ cache (Tăng tốc độ xử lý - ko cần đọc lại data từ tệp gốc hoặc thực hiện các phép tính trước đó)
data = data.dropna() # Xóa các giá trị thiếu
data.printSchema() # In ra cấu trúc của DataFrame


root
 |-- 2014 rank: integer (nullable = true)
 |-- City: string (nullable = true)
 |-- State: string (nullable = true)
 |-- State Code: string (nullable = true)
 |-- 2014 Population estimate: integer (nullable = true)
 |-- 2015 median sales price: double (nullable = true)



In [0]:
# SQLCONTEXT
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
pop = sqlContext.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true")
pop.printSchema()



root
 |-- 2014 rank: integer (nullable = true)
 |-- City: string (nullable = true)
 |-- State: string (nullable = true)
 |-- State Code: string (nullable = true)
 |-- 2014 Population estimate: integer (nullable = true)
 |-- 2015 median sales price: double (nullable = true)



SQLContext là phiên bản cũ và giới hạn trong việc thao tác với SQL và DataFrame. SparkSession đã thay thế SQLContext và tích hợp nhiều chức năng hơn, giúp quản lý các tác vụ phức tạp và linh hoạt hơn trong việc sử dụng. Nếu bạn đang làm việc với Spark phiên bản mới (2.x trở lên), bạn nên sử dụng SparkSession để tận dụng tối đa các tính năng của Spark.

## Xem DataFrame

In [0]:
data.take(10)

Out[19]: [Row(2014 rank=101, City='Birmingham', State='Alabama', State Code='AL', 2014 Population estimate=212247, 2015 median sales price=162.9),
 Row(2014 rank=125, City='Huntsville', State='Alabama', State Code='AL', 2014 Population estimate=188226, 2015 median sales price=157.7),
 Row(2014 rank=122, City='Mobile', State='Alabama', State Code='AL', 2014 Population estimate=194675, 2015 median sales price=122.5),
 Row(2014 rank=114, City='Montgomery', State='Alabama', State Code='AL', 2014 Population estimate=200481, 2015 median sales price=129.0),
 Row(2014 rank=6, City='Phoenix', State='Arizona', State Code='AZ', 2014 Population estimate=1537058, 2015 median sales price=206.1),
 Row(2014 rank=33, City='Tucson', State='Arizona', State Code='AZ', 2014 Population estimate=527972, 2015 median sales price=178.1),
 Row(2014 rank=119, City='Little Rock', State='Arkansas', State Code='AR', 2014 Population estimate=197706, 2015 median sales price=131.8),
 Row(2014 rank=56, City='Anaheim', S

In [0]:
data.show()

+---------+-----------------+-----------+----------+------------------------+-----------------------+
|2014 rank|             City|      State|State Code|2014 Population estimate|2015 median sales price|
+---------+-----------------+-----------+----------+------------------------+-----------------------+
|      101|       Birmingham|    Alabama|        AL|                  212247|                  162.9|
|      125|       Huntsville|    Alabama|        AL|                  188226|                  157.7|
|      122|           Mobile|    Alabama|        AL|                  194675|                  122.5|
|      114|       Montgomery|    Alabama|        AL|                  200481|                  129.0|
|        6|          Phoenix|    Arizona|        AZ|                 1537058|                  206.1|
|       33|           Tucson|    Arizona|        AZ|                  527972|                  178.1|
|      119|      Little Rock|   Arkansas|        AR|                  197706|     

In [0]:
display(data)

2014 rank,City,State,State Code,2014 Population estimate,2015 median sales price
101,Birmingham,Alabama,AL,212247,162.9
125,Huntsville,Alabama,AL,188226,157.7
122,Mobile,Alabama,AL,194675,122.5
114,Montgomery,Alabama,AL,200481,129.0
6,Phoenix,Arizona,AZ,1537058,206.1
33,Tucson,Arizona,AZ,527972,178.1
119,Little Rock,Arkansas,AR,197706,131.8
56,Anaheim,California,CA,346997,685.7
2,Los Angeles,California,CA,3928864,434.7
59,Riverside,California,CA,319504,281.0


## Chạy truy vấn SQL 

In [0]:
# Lưu data DataFrame dưới dạng bảng tạm thời
data.createOrReplaceTempView("data_geo")

Lợi ích:
- Cho phép bạn sử dụng câu truy vấn SQL trực tiếp trên DataFrame mà không cần phải chuyển đổi cấu trúc dữ liệu.
- Hữu ích khi bạn cần thực hiện các truy vấn phức tạp với cú pháp SQL hoặc muốn tận dụng các tính năng của SQL như JOIN, GROUP BY, HAVING, v.v.
- Tính năng này rất thuận tiện khi kết hợp với các hệ thống khác cần truy vấn dữ liệu bằng SQL, chẳng hạn như Hive.

### Liệt kê giá bán trung bình năm 2015 theo tiểu bảng
 

In [0]:
%sql
select `State Code`, `2015 median sales price` from data_geo

State Code,2015 median sales price
AL,162.9
AL,157.7
AL,122.5
AL,129.0
AZ,206.1
AZ,178.1
AR,131.8
CA,685.7
CA,434.7
CA,281.0


### Truy vấn ước tính dân số ở tiểu bang Washington

In [0]:
%sql
select City, `2014 Population estimate` from data_geo where `State Code` = 'WA';

City,2014 Population estimate
Seattle,668342
Spokane,212052


In [0]:
pop.createOrReplaceTempView('pops')
sqlContext.sql('SELECT * FROM pops limit 10').collect()

Out[27]: [Row(2014 rank=101, City='Birmingham', State='Alabama', State Code='AL', 2014 Population estimate=212247, 2015 median sales price=162.9),
 Row(2014 rank=125, City='Huntsville', State='Alabama', State Code='AL', 2014 Population estimate=188226, 2015 median sales price=157.7),
 Row(2014 rank=122, City='Mobile', State='Alabama', State Code='AL', 2014 Population estimate=194675, 2015 median sales price=122.5),
 Row(2014 rank=114, City='Montgomery', State='Alabama', State Code='AL', 2014 Population estimate=200481, 2015 median sales price=129.0),
 Row(2014 rank=64, City='Anchorage[19]', State='Alaska', State Code='AK', 2014 Population estimate=301010, 2015 median sales price=None),
 Row(2014 rank=78, City='Chandler', State='Arizona', State Code='AZ', 2014 Population estimate=254276, 2015 median sales price=None),
 Row(2014 rank=86, City='Gilbert[20]', State='Arizona', State Code='AZ', 2014 Population estimate=239277, 2015 median sales price=None),
 Row(2014 rank=88, City='Glendale'

In [0]:
sqlContext.sql("DESCRIBE pops" )

Out[28]: DataFrame[col_name: string, data_type: string, comment: string]

In [0]:
%sql
DESCRIBE pops

col_name,data_type,comment
2014 rank,int,
City,string,
State,string,
State Code,string,
2014 Population estimate,int,
2015 median sales price,double,


In [0]:
sqlContext.sql(
'SELECT max(`2014 Population estimate`) FROM pops' ).collect()

Out[31]: [Row(max(2014 Population estimate)=8491079)]

In [0]:
%sql
SELECT max(`2014 Population estimate`) FROM pops

max(2014 Population estimate)
8491079


In [0]:
sqlContext.sql(
'SELECT * FROM pops WHERE `2014 Population estimate` is not null \
ORDER BY `2014 Population estimate` ASC ' ).collect()

Out[33]: [Row(2014 rank=294, City='Las Cruces', State='New Mexico', State Code='NM', 2014 Population estimate=101408, 2015 median sales price=None),
 Row(2014 rank=293, City='Tyler', State='Texas', State Code='TX', 2014 Population estimate=101421, 2015 median sales price=None),
 Row(2014 rank=292, City='Sandy Springs', State='Georgia', State Code='GA', 2014 Population estimate=101908, 2015 median sales price=None),
 Row(2014 rank=291, City='Clovis', State='California', State Code='CA', 2014 Population estimate=102189, 2015 median sales price=None),
 Row(2014 rank=290, City='Lakeland', State='Florida', State Code='FL', 2014 Population estimate=102346, 2015 median sales price=136.0),
 Row(2014 rank=289, City='Davenport', State='Iowa', State Code='IA', 2014 Population estimate=102448, 2015 median sales price=109.4),
 Row(2014 rank=288, City='Rialto', State='California', State Code='CA', 2014 Population estimate=102741, 2015 median sales price=None),
 Row(2014 rank=287, City='Lewisville', 

In [0]:
%sql
SELECT * FROM pops WHERE `2014 Population estimate` IS NOT NULL ORDER BY `2014 Population estimate` ASC

2014 rank,City,State,State Code,2014 Population estimate,2015 median sales price
294,Las Cruces,New Mexico,NM,101408,
293,Tyler,Texas,TX,101421,
292,Sandy Springs,Georgia,GA,101908,
291,Clovis,California,CA,102189,
290,Lakeland,Florida,FL,102346,136.0
289,Davenport,Iowa,IA,102448,109.4
288,Rialto,California,CA,102741,
287,Lewisville,Texas,TX,102889,
286,San Mateo,California,CA,102893,
285,El Cajon,California,CA,103091,


##DataFrames và SQL

## Trực quan hóa DataFrame

In [0]:
%sql
select `State Code`, `2015 median sales price` from data_geo

State Code,2015 median sales price
AL,162.9
AL,157.7
AL,122.5
AL,129.0
AZ,206.1
AZ,178.1
AR,131.8
CA,685.7
CA,434.7
CA,281.0


Databricks visualization. Run in Databricks to view.

## Bài tập

Dataframe dưới đây chứa data về dân số và giá nhà trung vị (median) của các thành phố ở Mỹ.

- "2014 rank": xếp hạng năm 2014
- "City": tên thành phố
- "State": tên bang (một bang thường có nhiều thành phố)
- "State Code": mã của bang
- "2014 Population estimate": Ước lượng dân số năm 2014
- "2015 median sales price": Giá nhà trung vị năm 2015
- Bạn phải viết code Pyspark (dùng Dataframe và Spark-SQL) để lấy / tính toán các data dưới đây.

In [0]:
from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc)
pop = sqlContext.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true")
pop.printSchema()

#pop.show()
#pop.collect()



root
 |-- 2014 rank: integer (nullable = true)
 |-- City: string (nullable = true)
 |-- State: string (nullable = true)
 |-- State Code: string (nullable = true)
 |-- 2014 Population estimate: integer (nullable = true)
 |-- 2015 median sales price: double (nullable = true)



(a) Có bao nhiêu dòng trong dataframe pop?

(b) Có bao nhiêu bang (state) trong tập dữ liệu trên?

(c) Thành phố nào có số dân (2014 Population estimate) đông nhất, thành phố nào có số dân ít nhất?

(d) Thống kê theo bang:

- Số thành phố trong từng bang
- Tổng số dân của các thành phố trong bang
- Trung bình của giá nhà trung vị

In [0]:
# a
row_count = pop.count()
row_count

Out[37]: 294

In [0]:
# b
state_count = pop.select("State").distinct().count()
state_count

Out[40]: 46

In [0]:
# c
most_populous_city = pop.orderBy(pop["2014 Population estimate"].desc()).first()
print(most_populous_city)

least_populous_city = pop.orderBy(pop["2014 Population estimate"].asc()).first()
print(least_populous_city)


Row(2014 rank=1, City='New York[6]', State='New York', State Code='NY', 2014 Population estimate=8491079, 2015 median sales price=388.6)
Row(2014 rank=164, City='Macon', State='Georgia', State Code='GA', 2014 Population estimate=None, 2015 median sales price=None)


In [0]:
# d
# Số thành phố trong từng bang
city_per_state = pop.groupBy("State").count()
city_per_state.show()


+--------------------+-----+
|               State|count|
+--------------------+-----+
|                Utah|    4|
|             Hawai'i|    1|
|           Minnesota|    3|
|                Ohio|    6|
|            Arkansas|    1|
|              Oregon|    4|
|               Texas|   36|
|        North Dakota|    1|
|        Pennsylvania|    3|
|         Connecticut|    5|
|            Nebraska|    2|
|              Nevada|    4|
|          Washington|    7|
|            Illinois|    8|
|            Oklahoma|    4|
|District of Columbia|    1|
|              Alaska|    1|
|          New Mexico|    2|
|            Missouri|    5|
|        Rhode Island|    1|
+--------------------+-----+
only showing top 20 rows



In [0]:
# d
# Tổng số dân của các thành phố trong bang
total_population_per_state = pop.groupBy("State").agg(
    {"2014 Population estimate": "sum"}
)
# Hiển thị kết quả
total_population_per_state.show()




+--------------------+-----------------------------+
|               State|sum(2014 Population estimate)|
+--------------------+-----------------------------+
|                Utah|                       551100|
|             Hawai'i|                       350399|
|           Minnesota|                       816249|
|                Ohio|                      2143536|
|            Arkansas|                       197706|
|              Oregon|                      1051450|
|               Texas|                     12355786|
|        North Dakota|                       115863|
|        Pennsylvania|                      1984813|
|         Connecticut|                       640184|
|            Nebraska|                       719595|
|              Nevada|                      1358822|
|          Washington|                      1623569|
|            Illinois|                      3709778|
|            Oklahoma|                      1243050|
|District of Columbia|                       6

In [0]:
# d
# Trung bình của giá nhà trung vị
medium_price_per_state = pop.groupBy("State").agg(
    {"2015 median sales price": "avg"}
)
# Hiển thị kết quả
medium_price_per_state.show()

+--------------------+----------------------------+
|               State|avg(2015 median sales price)|
+--------------------+----------------------------+
|                Utah|                       243.3|
|             Hawai'i|                       699.3|
|           Minnesota|                       209.4|
|                Ohio|          112.86666666666667|
|            Arkansas|                       131.8|
|              Oregon|          231.53333333333333|
|               Texas|           173.4777777777778|
|        North Dakota|                       180.0|
|        Pennsylvania|                       183.8|
|         Connecticut|          250.13333333333333|
|            Nebraska|          149.14999999999998|
|              Nevada|                       237.3|
|          Washington|          266.29999999999995|
|            Illinois|          122.87499999999999|
|            Oklahoma|                       145.1|
|District of Columbia|                       367.8|
|           