In [1]:
import findspark
findspark.init()

In [2]:
from pyspark import SparkContext
from pyspark.sql import SparkSession

In [3]:
sc = SparkContext()
spark = SparkSession(sc)

### 1. Đọc dữ liệu => df

In [16]:
df = spark.read.csv(['AA_data'],inferSchema=True,header=True)

### 3. Dữ liệu bao nhiêu dòng, in schema, in 5 dòng đầu

In [17]:
df.count()

583718

In [18]:
df.printSchema()

root
 |-- Date (MM/DD/YYYY): string (nullable = true)
 |-- Flight Number: integer (nullable = true)
 |-- Destination Airport: string (nullable = true)
 |-- Actual elapsed time (Minutes): integer (nullable = true)



In [19]:
df.show(5)

+-----------------+-------------+-------------------+-----------------------------+
|Date (MM/DD/YYYY)|Flight Number|Destination Airport|Actual elapsed time (Minutes)|
+-----------------+-------------+-------------------+-----------------------------+
|       01/01/2014|            5|                HNL|                          519|
|       01/01/2014|            7|                OGG|                          505|
|       01/01/2014|           35|                SLC|                          174|
|       01/01/2014|           43|                DTW|                          153|
|       01/01/2014|           52|                PIT|                          137|
+-----------------+-------------+-------------------+-----------------------------+
only showing top 5 rows



### 3. Kiểm tra dữ liệu nan, null

In [28]:
from pyspark.sql.functions import when, isnan,isnull,count,col

In [22]:
df.select([count(when(isnan(c),c)).alias(c) for c in df.columns]).show()

+-----------------+-------------+-------------------+-----------------------------+
|Date (MM/DD/YYYY)|Flight Number|Destination Airport|Actual elapsed time (Minutes)|
+-----------------+-------------+-------------------+-----------------------------+
|                0|            0|                  0|                            0|
+-----------------+-------------+-------------------+-----------------------------+



In [23]:
df.select([count(when(isnull(c),c)).alias(c) for c in df.columns]).show()

+-----------------+-------------+-------------------+-----------------------------+
|Date (MM/DD/YYYY)|Flight Number|Destination Airport|Actual elapsed time (Minutes)|
+-----------------+-------------+-------------------+-----------------------------+
|                0|            0|                  0|                            0|
+-----------------+-------------+-------------------+-----------------------------+



### 4. Kiểm tra dữ liệu trùng, xóa dữ liệu trùng:

In [26]:
print('Dứ liệu gốc:',df.count())
print('Dứ liệu duy nhất: ',df.distinct().count())

Dứ liệu gốc: 583718
Dứ liệu duy nhất:  583718


In [27]:
# Không có dữ liệu trùng

### 5. Trong df, thêm cột airport lấy từ Destination Airport. Định dạng chữ thường cho nội dung

In [29]:
from pyspark.sql.functions import lower

In [32]:
df = df.withColumn('airport',lower(col('Destination Airport')))

In [45]:
df = df.drop('Destination Airport')

In [46]:
df.show(2)

+-------+----------+----------+-----------+
|airport|      date|flight_num|actual_time|
+-------+----------+----------+-----------+
|    hnl|01/01/2014|         5|        519|
|    ogg|01/01/2014|         7|        505|
+-------+----------+----------+-----------+
only showing top 2 rows



### 6. Trong df thêm cột date lấy dữ liệu từ Date sau đó xóa bỏ cột Date

In [35]:
df = df.withColumn('date',col('Date (MM/DD/YYYY)'))

In [36]:
df = df.drop('Date (MM/DD/YYYY)')

In [37]:
df.show(3)

+-------------+-------------------+-----------------------------+-------+----------+
|Flight Number|Destination Airport|Actual elapsed time (Minutes)|airport|      date|
+-------------+-------------------+-----------------------------+-------+----------+
|            5|                HNL|                          519|    hnl|01/01/2014|
|            7|                OGG|                          505|    ogg|01/01/2014|
|           35|                SLC|                          174|    slc|01/01/2014|
+-------------+-------------------+-----------------------------+-------+----------+
only showing top 3 rows



### 7. Trong df đổi tên cột Flight Number thành flight_num. Cột Actual elapsed thành actual_time

In [38]:
df = df.withColumn('flight_num',col('Flight Number'))
df = df.drop('Flight Number')

In [39]:
df = df.withColumn('actual_time', col('Actual elapsed time (Minutes)'))
df = df.drop('Actual elapsed time (Minutes)')

In [40]:
df.show(3)

+-------------------+-------+----------+----------+-----------+
|Destination Airport|airport|      date|flight_num|actual_time|
+-------------------+-------+----------+----------+-----------+
|                HNL|    hnl|01/01/2014|         5|        519|
|                OGG|    ogg|01/01/2014|         7|        505|
|                SLC|    slc|01/01/2014|        35|        174|
+-------------------+-------+----------+----------+-----------+
only showing top 3 rows



### 8. Lưu df dưới dạng Parquet format với tên AA_DFW_ALL.parquet

In [47]:
df.write.parquet('AA_DFW_ALL.parquet',mode='overwrite')

### 9. Đọc AA_DFW_ALL.parquet => df_new

In [48]:
df_new = spark.read.parquet('AA_DFW_ALL.parquet')

In [49]:
df_new.show(3)

+-------+----------+----------+-----------+
|airport|      date|flight_num|actual_time|
+-------+----------+----------+-----------+
|    hnl|01/01/2016|         5|        529|
|    ogg|01/01/2016|         7|        512|
|    phl|01/01/2016|        25|        161|
+-------+----------+----------+-----------+
only showing top 3 rows



### 10. Tạo bảng tạm flights . Cho biết trung bình của actual_time trong flight

In [50]:
df_new.createOrReplaceTempView('flights')

In [52]:
spark.sql('select avg(actual_time) from flights').show()

+------------------+
|  avg(actual_time)|
+------------------+
|147.59399915712726|
+------------------+



### 11. Caching các dòng dữ liệu duy nhất của df_new. Đếm số dòng. Cho biết thời gian thực hiện các công việc này.

In [53]:
import time

In [54]:
start_time = time.time()
df_new = df_new.distinct().cache()
print('đếm %i dòng trong vòng %s' %(df_new.count(),time.time()-start_time))

đếm 583718 dòng trong vòng 6.929647207260132


### 13. Kiểm tra df_new có trong cache không, bỏ df_new ra khỏi cache

In [56]:
df_new.is_cached

True

In [58]:
df_new.unpersist()

DataFrame[airport: string, date: string, flight_num: int, actual_time: int]

In [59]:
df_new.is_cached

False