In [1]:
from pyspark.sql import SparkSession

# สร้าง SparkSession ใหม่
spark = (
    SparkSession.builder
        # กำหนดชื่อแอปพลิเคชัน
        .appName("Social Commerce")
        # กำหนด URL ของ Spark master
        .master("spark://spark-master:7077")
        # กำหนดจำนวน memory ที่ executor จะใช้
        .config("spark.executor.memory", "1000m")
        # กำหนดจำนวน cores ที่ executor จะใช้
        .config("spark.executor.cores", "2")
        # กำหนดจำนวน cores สูงสุดที่ Spark จะใช้
        .config("spark.cores.max", "6")
        # สร้าง SparkSession ถ้ายังไม่มี, ถ้ามีแล้วจะใช้ SparkSession ที่มีอยู่
        .getOrCreate()
)

23/05/23 01:15:32 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


In [2]:
# ใช้ SparkSession ที่เราสร้างขึ้น (spark) ในการอ่านข้อมูล

raw_df = (
    spark.read  # ใช้วิธีการอ่านข้อมูล (read method)
        .format("csv")  # กำหนดรูปแบบของไฟล์ที่จะอ่านเป็น CSV
        .option("header", "true")  # กำหนดว่าไฟล์ CSV มี header ที่บรรทัดแรก
        .option("inferSchema","true")  # อนุญาตให้ Spark ทำการสืบความหมายของ schema จากข้อมูล
        .load("000000000000")  # โหลดข้อมูลจากไฟล์ที่ชื่อ "000000000000"
)

                                                                                

In [3]:
# printSchema เป็นฟังก์ชันที่ใช้แสดง schema ของ DataFrame
# Schema คือโครงสร้างของ DataFrame ซึ่งประกอบด้วยชื่อคอลัมน์ ชนิดข้อมูล และคุณสมบัติอื่นๆ
# การใช้ printSchema ช่วยให้เราเข้าใจโครงสร้างข้อมูลของเรา

raw_df.printSchema()

root
 |-- source: string (nullable = true)
 |-- isTrueDirect: boolean (nullable = true)
 |-- sourceKeyword: string (nullable = true)
 |-- medium: string (nullable = true)
 |-- isVideoAd: boolean (nullable = true)
 |-- fullVisitorId: long (nullable = true)
 |-- visitId: integer (nullable = true)
 |-- date: integer (nullable = true)
 |-- newVisits: integer (nullable = true)
 |-- hitReferer: string (nullable = true)
 |-- hitType: string (nullable = true)
 |-- hitAction_type: integer (nullable = true)
 |-- hitNumber: integer (nullable = true)
 |-- hitHour: integer (nullable = true)
 |-- hitMin: integer (nullable = true)
 |-- timeMicroSec: integer (nullable = true)
 |-- v2ProductName: string (nullable = true)
 |-- productListName: string (nullable = true)
 |-- isClick: boolean (nullable = true)
 |-- isImpression: boolean (nullable = true)
 |-- sessionQualityDim: integer (nullable = true)
 |-- timeOnScreen: string (nullable = true)
 |-- timeOnSite: integer (nullable = true)
 |-- totalTransac

In [4]:
# count เป็นฟังก์ชันที่ใช้ในการนับจำนวนแถวใน DataFrame
# ใช้สำหรับการตรวจสอบขนาดของ DataFrame ซึ่งสามารถช่วยเราเข้าใจจำนวนข้อมูลที่ต้องจัดการ

raw_df.count()


                                                                                

917814

In [5]:
# describe เป็นฟังก์ชันที่ใช้สร้างสถิติของ DataFrame
# สถิติที่สร้างขึ้นจะมีการนับ (count), ค่าเฉลี่ย (mean), ค่าส่วนเบี่ยงเบนมาตรฐาน (stddev), ค่าต่ำสุด (min), และค่าสูงสุด (max) ของแต่ละคอลัมน์
# toPandas เป็นฟังก์ชันที่ใช้แปลง Spark DataFrame เป็น Pandas DataFrame
# transpose เป็นฟังก์ชันของ Pandas ที่ใช้สลับแถวเป็นคอลัมน์และคอลัมน์เป็นแถว
# การ transpose มักจะใช้เพื่อทำให้ข้อมูลง่ายต่อการมองเห็น

raw_df.describe().toPandas().transpose()


                                                                                

Unnamed: 0,0,1,2,3,4
summary,count,mean,stddev,min,max
source,917814,,,(direct),youtube.com
sourceKeyword,322031,,,(Remarketing/Content targeting),yyoutubr
medium,917814,,,(none),referral
fullVisitorId,917814,4.7679506549928141E18,1.42707561410277811E18,514359656957582,5487531102128447544
visitId,917814,1.4828991660307045E9,9692290.975135243,1470037326,1501656575
date,917814,2.0165139267192483E7,4699.035428253384,20160801,20170801
newVisits,647359,1.0,0.0,1,1
hitReferer,119959,,,http://googleads.g.doubleclick.net/pagead/ads?...,https://youtube.com/yt/about/copyright/
hitType,917814,,,EVENT,PAGE


(1) Missing Value

การขาดหายของข้อมูล (Missing Value) คือความผิดปกติที่สำคัญที่สุดในข้อมูลของเรา. count ใน describe() บอกเราว่ามีข้อมูลทั้งหมดกี่รายการในแต่ละคอลัมน์. เราสามารถเปรียบเทียบค่า count นี้กับจำนวนรายการทั้งหมดที่คาดว่าจะมีในข้อมูล. หาก count ต่ำกว่าที่คาดความหายของข้อมูลจะเป็นปัญหาที่เราต้องจัดการ.

(2) Outlier

ค่าผิดปกติ (Outliers) เป็นจุดข้อมูลที่มีค่าต่างจากส่วนใหญ่ของข้อมูล. min และ max ใน describe() จะบอกเราว่าข้อมูลเริ่มที่ค่าเท่าไรและลุกลามถึงค่าเท่าไร หากมีค่า min หรือ max ที่ผิดปกติ (เช่น ค่าที่สูงหรือต่ำมากเกินไป) เราอาจต้องสงสัยว่ามีข้อมูลผิดปกติ.

(3) Dispersion

ค่าการกระจาย (Dispersion) บอกเราว่าข้อมูลกระจายอย่างไร. stddev ใน describe() บอกเราว่าข้อมูลมีการกระจายมากเท่าไร หาก stddev สูง ข้อมูลจะมีการกระจายมาก หาก stddev ต่ำ ข้อมูลจะมีการกระจายน้อย.

(4) Difference Scale

ค่าสเกลต่างกัน (Difference Scale) หมายถึงความแตกต่างในการวัดข้อมูลระหว่างคอลัมน์ต่างๆ mean ใน describe() บอกเราว่าข้อมูลมีค่าเฉลี่ยเท่าไร โดยเราสามารถใช้เพื่อเปรียบเทียบค่าเฉลี่ยของคอลัมน์ต่างๆ เราสามารถปรับสเกลของข้อมูลในคอลัมน์ให้สอดคล้องกันโดยใช้การปรับสเกล (scaling) เช่น min-max scaling หรือ standard scaling.