<a href="https://colab.research.google.com/github/aekanun2020/2022-PUB_COC-Data-Science-for-Tourism/blob/main/B_Checked_Subdata_using_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# ติดตั้ง Spark และตั้งค่าการทำงานของ Spark ให้สามารถ run PySpark ได้
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-2.4.1/spark-2.4.1-bin-hadoop2.7.tgz
!tar xf spark-2.4.1-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.1-bin-hadoop2.7"
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
from pyspark.sql import SparkSession
spark = SparkSession.builder \
   .appName("Neural Network Model") \
   .config("spark.executor.memory", "3gb") \
   .getOrCreate()
   
sc = spark.sparkContext
sc

In [2]:
# สมมติข้อมูลขึ้นมาในโครงสร้างของ List ซึ่งมีทั้งหมด 6 Elements และ Assign ข้อมูล
# ให้กับตัวแปรของ Python คือ colors
colors = ['white','green','yellow','red','brown','pink']

In [3]:
# ใช้ Spark อ่านและแปลงเป็น DataFrame
color_df = sc.parallelize(colors).map(lambda x:(x,len(x))).toDF(['color','length'])

In [4]:
color_df

DataFrame[color: string, length: bigint]

In [5]:
# แสดงชื่อ Columns และ Data Types
color_df.printSchema()

root
 |-- color: string (nullable = true)
 |-- length: long (nullable = true)



In [6]:
# นับจำนวน Rows
color_df.count()

6

In [7]:
# แสดงข้อมูลทุก Columns เฉพาะ 2 Rows แรก
color_df.show(2)

+-----+------+
|color|length|
+-----+------+
|white|     5|
|green|     5|
+-----+------+
only showing top 2 rows



In [8]:
# แสดงรายชื่อ Columns ในโครงสร้างแบบ List
color_df.columns

['color', 'length']

In [9]:
# แสดงข้อมูลเฉพาะ 20 Rows แรก โดยแสดงทุก Columns ยกเว้น Column 'length'
color_df.drop('length').show()

+------+
| color|
+------+
| white|
| green|
|yellow|
|   red|
| brown|
|  pink|
+------+



In [10]:
# แสดงข้อมูลเฉพาะ 20 Rows แรก โดยแสดงทุก Columns
color_df.show()

+------+------+
| color|length|
+------+------+
| white|     5|
| green|     5|
|yellow|     6|
|   red|     3|
| brown|     5|
|  pink|     4|
+------+------+



In [11]:
# Assign ข้อมูลทั้งหมดใน color_df ยกเว้น Column 'length' ให้กับตัวแปร nolength_color_df
nolength_color_df = color_df.drop('length')
# แสดงข้อมูลเฉพาะ 20 Rows แรก โดยแสดงทุก Columns ของ nolength_color_df
nolength_color_df.show()

+------+
| color|
+------+
| white|
| green|
|yellow|
|   red|
| brown|
|  pink|
+------+



In [12]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่ามากกว่า 4 แล้วแสดงผล
color_df.filter(color_df['length']>4).show()

+------+------+
| color|length|
+------+------+
| white|     5|
| green|     5|
|yellow|     6|
| brown|     5|
+------+------+



In [13]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่ามากกว่า 4 แล้วแสดงผล
color_df.filter(color_df.length>4).show()

+------+------+
| color|length|
+------+------+
| white|     5|
| green|     5|
|yellow|     6|
| brown|     5|
+------+------+



In [14]:
# Import ฟังก์ชั่นที่อยู่ใน Module 'sql' ของ Spark มาใช้
from pyspark.sql import functions as sparkf

In [15]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่ามากกว่า 4 แล้วแสดงผล
color_df.filter(sparkf.col('length')>4).show()

+------+------+
| color|length|
+------+------+
| white|     5|
| green|     5|
|yellow|     6|
| brown|     5|
+------+------+



In [16]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่ามากกว่า 4 
# และ Columns 'color' ไม่ใช่ 'white' แล้วแสดงผล
color_df.filter(color_df.length > 4).filter(color_df[0]!="white").show()

+------+------+
| color|length|
+------+------+
| green|     5|
|yellow|     6|
| brown|     5|
+------+------+



In [17]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่าตั้งแต่ 4 ถึง 5 
# แล้วแสดงผล
color_df.filter(color_df.length.between(4,5)).show()

+-----+------+
|color|length|
+-----+------+
|white|     5|
|green|     5|
|brown|     5|
| pink|     4|
+-----+------+



In [18]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่าตั้งแต่ 4 ถึง 5 
# แล้วนำมาแสดงทุก Columns โดยเปลี่ยนชื่อ Column จาก 'length' เป็น 'mid_length'
color_df.filter(color_df.length.between(4,5))\
.select(color_df.color.alias("mid_length")).show()


+----------+
|mid_length|
+----------+
|     white|
|     green|
|     brown|
|      pink|
+----------+



In [19]:
# เรียงข้อมูลในแบบมากไปหาน้อย โดยเรียง Columns 'length' และ 'color' ตามลำดับ 
# แล้วแสดงผล
color_df.sort("length", 'color',ascending=False).show()

+------+------+
| color|length|
+------+------+
|yellow|     6|
| white|     5|
| green|     5|
| brown|     5|
|  pink|     4|
|   red|     3|
+------+------+



In [20]:
# เรียงข้อมูลในแบบมากไปหาน้อย โดยเรียง Columns 'length' และ 'color' ตามลำดับ 
# แล้วแสดงผล

color_df.orderBy("length", 'color',ascending=False).show()

+------+------+
| color|length|
+------+------+
|yellow|     6|
| white|     5|
| green|     5|
| brown|     5|
|  pink|     4|
|   red|     3|
+------+------+



In [21]:
# เรียงข้อมูลโดยเรียง Columns 'length' ในแบบมากไปหาน้อย และ 'color' ในแบบน้อยไปหามาก 
# ตามลำดับ แล้วแสดงผล

color_df.orderBy(sparkf.col("length").desc(), sparkf.col('color').asc()).show()

+------+------+
| color|length|
+------+------+
|yellow|     6|
| brown|     5|
| green|     5|
| white|     5|
|  pink|     4|
|   red|     3|
+------+------+



In [22]:
# กรองเอาเฉพาะ Rows ที่ Columns 'length' มีค่ามากกว่าหรือเท่ากับ 4 
# แล้วนำมาเรียงข้อมูลโดยเรียง Columns 'length' ในแบบมากไปหาน้อย 
# และ 'color' ในแบบน้อยไปหามาก ตามลำดับ  
# แล้วแสดงผล

color_df.filter(color_df['length']>=4)\
.orderBy(sparkf.col("length").desc(), sparkf.col('color').asc()).show()

+------+------+
| color|length|
+------+------+
|yellow|     6|
| brown|     5|
| green|     5|
| white|     5|
|  pink|     4|
+------+------+

