In [1]:
from pyspark.sql import SparkSession

# สร้าง SparkSession ใหม่
spark = (
    SparkSession.builder
        # กำหนดชื่อแอปพลิเคชัน
        .appName("Social Commerce")
        # กำหนด URL ของ Spark master
        .master("spark://spark-master:7077")
        # กำหนดจำนวน memory ที่ executor จะใช้
        .config("spark.executor.memory", "1000m")
        # กำหนดจำนวน cores ที่ executor จะใช้
        .config("spark.executor.cores", "2")
        # กำหนดจำนวน cores สูงสุดที่ Spark จะใช้
        .config("spark.cores.max", "6")
        # สร้าง SparkSession ถ้ายังไม่มี, ถ้ามีแล้วจะใช้ SparkSession ที่มีอยู่
        .getOrCreate()
)

23/05/23 01:21:41 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


In [2]:
# ใช้ SparkSession ที่เราสร้างขึ้น (spark) ในการอ่านข้อมูล

raw_df = (
    spark.read  # ใช้วิธีการอ่านข้อมูล (read method)
        .format("csv")  # กำหนดรูปแบบของไฟล์ที่จะอ่านเป็น CSV
        .option("header", "true")  # กำหนดว่าไฟล์ CSV มี header ที่บรรทัดแรก
        .option("inferSchema","true")  # อนุญาตให้ Spark ทำการสืบความหมายของ schema จากข้อมูล
        .load("000000000000")  # โหลดข้อมูลจากไฟล์ที่ชื่อ "000000000000"
)

                                                                                

In [3]:
# printSchema เป็นฟังก์ชันที่ใช้แสดง schema ของ DataFrame
# Schema คือโครงสร้างของ DataFrame ซึ่งประกอบด้วยชื่อคอลัมน์ ชนิดข้อมูล และคุณสมบัติอื่นๆ
# การใช้ printSchema ช่วยให้เราเข้าใจโครงสร้างข้อมูลของเรา

raw_df.printSchema()

root
 |-- source: string (nullable = true)
 |-- isTrueDirect: boolean (nullable = true)
 |-- sourceKeyword: string (nullable = true)
 |-- medium: string (nullable = true)
 |-- isVideoAd: boolean (nullable = true)
 |-- fullVisitorId: long (nullable = true)
 |-- visitId: integer (nullable = true)
 |-- date: integer (nullable = true)
 |-- newVisits: integer (nullable = true)
 |-- hitReferer: string (nullable = true)
 |-- hitType: string (nullable = true)
 |-- hitAction_type: integer (nullable = true)
 |-- hitNumber: integer (nullable = true)
 |-- hitHour: integer (nullable = true)
 |-- hitMin: integer (nullable = true)
 |-- timeMicroSec: integer (nullable = true)
 |-- v2ProductName: string (nullable = true)
 |-- productListName: string (nullable = true)
 |-- isClick: boolean (nullable = true)
 |-- isImpression: boolean (nullable = true)
 |-- sessionQualityDim: integer (nullable = true)
 |-- timeOnScreen: string (nullable = true)
 |-- timeOnSite: integer (nullable = true)
 |-- totalTransac

In [4]:
# count เป็นฟังก์ชันที่ใช้ในการนับจำนวนแถวใน DataFrame
# ใช้สำหรับการตรวจสอบขนาดของ DataFrame ซึ่งสามารถช่วยเราเข้าใจจำนวนข้อมูลที่ต้องจัดการ

raw_df.count()


                                                                                

917814

In [5]:
# describe เป็นฟังก์ชันที่ใช้สร้างสถิติของ DataFrame
# สถิติที่สร้างขึ้นจะมีการนับ (count), ค่าเฉลี่ย (mean), ค่าส่วนเบี่ยงเบนมาตรฐาน (stddev), ค่าต่ำสุด (min), และค่าสูงสุด (max) ของแต่ละคอลัมน์
# toPandas เป็นฟังก์ชันที่ใช้แปลง Spark DataFrame เป็น Pandas DataFrame
# transpose เป็นฟังก์ชันของ Pandas ที่ใช้สลับแถวเป็นคอลัมน์และคอลัมน์เป็นแถว
# การ transpose มักจะใช้เพื่อทำให้ข้อมูลง่ายต่อการมองเห็น

raw_df.describe().toPandas().transpose()


                                                                                

Unnamed: 0,0,1,2,3,4
summary,count,mean,stddev,min,max
source,917814,,,(direct),youtube.com
sourceKeyword,322031,,,(Remarketing/Content targeting),yyoutubr
medium,917814,,,(none),referral
fullVisitorId,917814,4.7679506549928141E18,1.42707561410277811E18,514359656957582,5487531102128447544
visitId,917814,1.4828991660307045E9,9692290.975135243,1470037326,1501656575
date,917814,2.0165139267192483E7,4699.035428253384,20160801,20170801
newVisits,647359,1.0,0.0,1,1
hitReferer,119959,,,http://googleads.g.doubleclick.net/pagead/ads?...,https://youtube.com/yt/about/copyright/
hitType,917814,,,EVENT,PAGE


In [6]:
# โปรดสังเกตว่า ผลจาก .printSchema() จะไม่แสดง column ที่เป็น Boolean
# isTrueDirect: ค่า Boolean ที่บอกว่าผู้ใช้เข้าถึงเว็บไซต์โดยตรงหรือไม่ (เช่นผ่าน URL โดยตรง)
# isVideoAd: ค่า Boolean ที่บอกว่าการเข้าชมนั้นได้เกิดขึ้นจากโฆษณาวิดีโอหรือไม่
# isClick: ค่า Boolean ที่บอกว่าผู้ใช้ได้คลิกที่สิ่งต่าง ๆ บนเว็บไซต์หรือไม่
# isImpression: ค่า Boolean ที่บอกว่าผู้ใช้ได้เห็นสิ่งต่าง ๆ บนเว็บไซต์หรือไม่

# หลังจากนี้เป็นวิธีทำให้เห็นว่ามี null อยู่ใน column ที่เป็น Boolean หรือไม่

In [7]:
# Loop over all columns in the dataframe
for a in raw_df.columns:
  # For each column, perform a group by operation. This groups the dataframe by the unique values in the column
  # Then, count the number of occurrences of each unique value
  # Finally, order the results by the count in descending order and display the result
  raw_df.groupBy(a).count().orderBy('count',ascending = False).show()


                                                                                

+--------------------+------+
|              source| count|
+--------------------+------+
|            (direct)|502654|
|              google|320612|
|         youtube.com| 34750|
|            Partners|  9949|
|                 dfa|  8696|
|analytics.google.com|  6144|
|          google.com|  4537|
|    sites.google.com|  3866|
|siliconvalley.abo...|  3399|
|      m.facebook.com|  2283|
|        facebook.com|  2073|
|          reddit.com|  1978|
|     mail.google.com|  1833|
|                bing|  1543|
|           qiita.com|  1496|
|               yahoo|  1441|
|           quora.com|  1252|
|                t.co|   996|
|   groups.google.com|   950|
|      l.facebook.com|   517|
+--------------------+------+
only showing top 20 rows



                                                                                

+------------+------+
|isTrueDirect| count|
+------------+------+
|        null|580491|
|        true|337323|
+------------+------+



                                                                                

+--------------------+------+
|       sourceKeyword| count|
+--------------------+------+
|                null|595783|
|      (not provided)|296422|
|    6qEhsCssdK0z36ri| 12471|
|  Google Merchandise|  2529|
|    1hZbAqLCbjwfgOH7|  2273|
|google merchandis...|  2061|
|    category_l1==166|   457|
|(Remarketing/Cont...|   373|
|    1X4Me6ZKNV0zg-jV|   330|
|googlemerchandise...|   323|
|             youtube|   207|
|+google +merchand...|   201|
|        google merch|   198|
|         google stor|   171|
|       youtube merch|   169|
|+Google +Merchandise|   164|
|Google Merchandis...|   164|
|      +google +store|   162|
|             Youtube|   140|
|        google store|   121|
+--------------------+------+
only showing top 20 rows



                                                                                

+---------+------+
|   medium| count|
+---------+------+
|   (none)|502654|
|  organic|302345|
| referral| 72078|
|      cpc| 21580|
|affiliate|  9949|
|      cpm|  9136|
|(not set)|    72|
+---------+------+



                                                                                

+---------+------+
|isVideoAd| count|
+---------+------+
|     null|885422|
|    false| 32392|
+---------+------+



                                                                                

+-------------------+-----+
|      fullVisitorId|count|
+-------------------+-----+
|5456301402188625337| 3416|
|5208937953046059083| 2377|
|5399906287295745418| 2338|
|5310912563447452038| 1792|
|5370310992308515600| 1777|
|5143600689169444167| 1651|
|5217792392522047587| 1605|
|4998444590527389280| 1550|
|5479405825116961439| 1482|
|5174129705003851738| 1472|
|5341271361784611942| 1443|
|5305785224618680102| 1413|
|5423659711610895780| 1267|
|5002959687839673544| 1211|
|5128888224452873031| 1179|
|5315382266855883329| 1164|
|5457033415990547887| 1143|
| 506797253390432707| 1094|
|5031234556107572838| 1081|
|5391968741622668774| 1081|
+-------------------+-----+
only showing top 20 rows



                                                                                

+----------+-----+
|   visitId|count|
+----------+-----+
|1487093395| 1777|
|1472342843| 1306|
|1474845319|  995|
|1473902040|  986|
|1471629165|  950|
|1474799746|  924|
|1472479074|  920|
|1472343066|  919|
|1473468179|  913|
|1479842010|  867|
|1481587574|  817|
|1478550894|  793|
|1473022577|  790|
|1470432463|  786|
|1471836187|  781|
|1474775547|  779|
|1471884865|  775|
|1471752880|  773|
|1473181908|  755|
|1483021729|  753|
+----------+-----+
only showing top 20 rows



                                                                                

+--------+-----+
|    date|count|
+--------+-----+
|20160815| 8733|
|20160914| 8693|
|20160822| 8214|
|20160831| 7571|
|20160804| 7514|
|20160816| 7394|
|20160811| 7300|
|20160823| 6858|
|20160906| 6836|
|20160921| 6828|
|20160907| 6598|
|20160913| 6506|
|20160812| 6430|
|20160902| 6246|
|20160809| 6237|
|20160817| 6064|
|20160827| 6021|
|20160805| 5946|
|20160802| 5946|
|20160909| 5633|
+--------+-----+
only showing top 20 rows



                                                                                

+---------+------+
|newVisits| count|
+---------+------+
|        1|647359|
|     null|270455|
+---------+------+



                                                                                

+--------------------+------+
|          hitReferer| count|
+--------------------+------+
|                null|797855|
|https://www.googl...| 38623|
|https://www.googl...|  7437|
|https://www.youtu...|  7204|
|https://www.googl...|  6743|
|https://www.googl...|  3560|
|https://www.googl...|  2873|
|https://www.googl...|  2854|
|http://www.google...|  2356|
|https://www.googl...|  1912|
|https://www.googl...|  1909|
|https://www.googl...|  1573|
|https://www.googl...|  1329|
|https://www.googl...|  1200|
|https://www.googl...|   968|
|https://www.googl...|   967|
|https://www.googl...|   845|
|https://www.googl...|   839|
|https://www.googl...|   768|
|https://www.googl...|   764|
+--------------------+------+
only showing top 20 rows



                                                                                

+-------+------+
|hitType| count|
+-------+------+
|   PAGE|886585|
|  EVENT| 31229|
+-------+------+



                                                                                

+--------------+------+
|hitAction_type| count|
+--------------+------+
|             0|853903|
|             1| 22253|
|             2| 18313|
|             5| 12380|
|             3|  6200|
|             6|  3880|
|             4|   885|
+--------------+------+



                                                                                

+---------+------+
|hitNumber| count|
+---------+------+
|        1|128949|
|        3|104988|
|        2|101344|
|        4| 75432|
|        5| 54931|
|        6| 45212|
|        7| 40069|
|        8| 33037|
|        9| 28159|
|       10| 24166|
|       11| 21807|
|       12| 18867|
|       13| 17060|
|       14| 14858|
|       15| 13635|
|       16| 12554|
|       17| 11389|
|       18| 10054|
|       19|  9889|
|       20|  8821|
+---------+------+
only showing top 20 rows





+-------+-----+
|hitHour|count|
+-------+-----+
|     11|64196|
|     10|60383|
|     13|57946|
|     14|54553|
|     12|53822|
|      9|48343|
|      8|45227|
|     16|44962|
|     15|43676|
|     18|39950|
|     17|39395|
|     20|39173|
|      7|37065|
|     22|34531|
|     19|34193|
|     21|33678|
|     23|31245|
|      6|30732|
|      5|24574|
|      0|23328|
+-------+-----+
only showing top 20 rows



                                                                                

+------+-----+
|hitMin|count|
+------+-----+
|    21|16750|
|    43|16699|
|    58|16398|
|    23|16368|
|    52|16307|
|    41|16248|
|    30|16110|
|    57|16085|
|    54|16050|
|    36|15954|
|    56|15943|
|    28|15817|
|    53|15790|
|    26|15789|
|    20|15767|
|     9|15726|
|    35|15698|
|    40|15657|
|     6|15593|
|    42|15579|
+------+-----+
only showing top 20 rows



                                                                                

+------------+------+
|timeMicroSec| count|
+------------+------+
|           0|129394|
|      374888|    80|
|       13598|    80|
|        9553|    80|
|       11300|    80|
|       13027|    80|
|       13796|    79|
|       11756|    79|
|       17138|    73|
|           1|    72|
|       56918|    71|
|       33192|    70|
|       32959|    70|
|        8860|    70|
|       97580|    70|
|       11187|    69|
|       10930|    68|
|      211748|    68|
|        8108|    68|
|      143667|    68|
+------------+------+
only showing top 20 rows



                                                                                

+--------------------+-----+
|       v2ProductName|count|
+--------------------+-----+
|Google Men's 100%...|15365|
|22 oz YouTube Bot...|10277|
|YouTube Men's Sho...|10125|
|YouTube Custom De...| 9866|
|Google Men's 100%...| 9319|
|YouTube Men's Sho...| 9286|
|   YouTube Twill Cap| 9252|
|Google Men's 100%...| 9227|
|Electronics Acces...| 8507|
|YouTube Men's Sho...| 7970|
|YouTube Wool Heat...| 7968|
|Google Laptop and...| 7866|
|YouTube Leatheret...| 7599|
|Google Men's  Zip...| 7392|
| YouTube Trucker Hat| 7285|
|Google Men's Wate...| 7100|
|Suitcase Organize...| 7014|
|Google Men's 100%...| 6847|
|Google Alpine Sty...| 6602|
|Google Men's Vint...| 6565|
+--------------------+-----+
only showing top 20 rows



                                                                                

+----------------+------+
| productListName| count|
+----------------+------+
|        Category|847919|
|Related Products| 28085|
|       (not set)| 23657|
|  Search Results| 18153|
+----------------+------+



                                                                                

+-------+------+
|isClick| count|
+-------+------+
|   null|895561|
|   true| 22253|
+-------+------+



                                                                                

+------------+------+
|isImpression| count|
+------------+------+
|        true|853903|
|        null| 63911|
+------------+------+



                                                                                

+-----------------+------+
|sessionQualityDim| count|
+-----------------+------+
|             null|856032|
|                1| 28967|
|                2|  4177|
|                3|  1816|
|                4|  1641|
|                5|  1529|
|                7|   825|
|                6|   824|
|               68|   679|
|               19|   601|
|               44|   596|
|               10|   596|
|                8|   569|
|               77|   561|
|               76|   492|
|               80|   478|
|               54|   466|
|                9|   462|
|               12|   451|
|               62|   433|
+-----------------+------+
only showing top 20 rows



                                                                                

+------------+------+
|timeOnScreen| count|
+------------+------+
|        null|917814|
+------------+------+



                                                                                

+----------+-----+
|timeOnSite|count|
+----------+-----+
|      null|67305|
|        64| 2333|
|        67| 2264|
|        24| 2246|
|        55| 2230|
|        54| 2214|
|        13| 2212|
|        26| 2210|
|       106| 2188|
|       158| 2174|
|        87| 2120|
|        56| 2120|
|        90| 2119|
|        38| 2117|
|        35| 2113|
|      2469| 2099|
|        86| 2070|
|        52| 2060|
|       215| 2045|
|       169| 2026|
+----------+-----+
only showing top 20 rows



[Stage 52:>                                                         (0 + 4) / 4]

+-----------------------+------+
|totalTransactionRevenue| count|
+-----------------------+------+
|                   null|847514|
|              186860000|   950|
|              220520000|   920|
|              681400000|   817|
|              192440000|   786|
|               81980000|   704|
|              108630000|   671|
|               32950000|   652|
|               79150000|   644|
|              355970000|   626|
|              208640000|   583|
|               80060000|   579|
|              127380000|   577|
|               54000000|   569|
|              150340000|   565|
|              101940000|   556|
|               29980000|   540|
|              216630000|   524|
|              307740000|   522|
|               28980000|   511|
+-----------------------+------+
only showing top 20 rows



                                                                                

In [8]:
from pyspark.sql.functions import col, sum

# Iterating through each column in DataFrame
for col_name in raw_df.columns:
    # Using `isNull()` to create a new DataFrame where each row is either true (if the original value was null) or false
    # Then, using `cast()` to convert booleans to integers (true becomes 1, false becomes 0)
    # And using `sum()` to find the total number of nulls in the column
    null_count = raw_df.select(sum(col(col_name).isNull().cast("int")).alias(col_name)).collect()[0][col_name]
    print(f"The column '{col_name}' has {null_count} null values.")


                                                                                

The column 'source' has 0 null values.


                                                                                

The column 'isTrueDirect' has 580491 null values.


                                                                                

The column 'sourceKeyword' has 595783 null values.


                                                                                

The column 'medium' has 0 null values.


                                                                                

The column 'isVideoAd' has 885422 null values.


                                                                                

The column 'fullVisitorId' has 0 null values.


                                                                                

The column 'visitId' has 0 null values.


                                                                                

The column 'date' has 0 null values.
The column 'newVisits' has 270455 null values.


                                                                                

The column 'hitReferer' has 797855 null values.


                                                                                

The column 'hitType' has 0 null values.


                                                                                

The column 'hitAction_type' has 0 null values.


                                                                                

The column 'hitNumber' has 0 null values.


                                                                                

The column 'hitHour' has 0 null values.


                                                                                

The column 'hitMin' has 0 null values.
The column 'timeMicroSec' has 0 null values.


                                                                                

The column 'v2ProductName' has 0 null values.


                                                                                

The column 'productListName' has 0 null values.
The column 'isClick' has 895561 null values.


                                                                                

The column 'isImpression' has 63911 null values.
The column 'sessionQualityDim' has 856032 null values.


                                                                                

The column 'timeOnScreen' has 917814 null values.


                                                                                

The column 'timeOnSite' has 67305 null values.




The column 'totalTransactionRevenue' has 847514 null values.


                                                                                

In [9]:
# ลบแถวที่มีค่า null ในคอลัมน์ 'sourceKeyword'
noNull_df = raw_df.filter(raw_df.sourceKeyword.isNotNull())


In [10]:
noNull_df.count()

                                                                                

322031

In [11]:
# การเรียกใช้ฟังก์ชัน describe() บน DataFrame จะให้ผลลัพธ์คือสถิติเชิงพรรณนา รวมถึง count, mean, stddev, min, และ max
# สำหรับคอลัมน์ 'sourceKeyword' ที่ไม่มีค่า null (หลังจากการลบแถวที่มีค่า null ออกแล้ว)
noNull_df.select('sourceKeyword').describe().show()



+-------+--------------------+
|summary|       sourceKeyword|
+-------+--------------------+
|  count|              322031|
|   mean|                null|
| stddev|                null|
|    min|(Remarketing/Cont...|
|    max|            yyoutubr|
+-------+--------------------+



                                                                                

In [12]:
# แทนที่ค่า null ด้วยค่าคงที่ 'unknown'
fillConstant_df = raw_df.fillna('unknown', subset=['sourceKeyword'])

In [13]:
fillConstant_df.count()

917814

In [14]:
fillConstant_df.select('sourceKeyword').describe().show()



+-------+--------------------+
|summary|       sourceKeyword|
+-------+--------------------+
|  count|              917814|
|   mean|                null|
| stddev|                null|
|    min|(Remarketing/Cont...|
|    max|            yyoutubr|
+-------+--------------------+



                                                                                

In [15]:
# นำเข้าฟังก์ชัน col จาก pyspark.sql.functions
# ฟังก์ชัน col ใช้สร้างคอลัมน์ที่สามารถใช้ในการดำเนินการทางคำนวณหรือเงื่อนไขใน DataFrame
from pyspark.sql.functions import col

# ฟังก์ชัน groupBy() ใช้รวมแถวที่มีค่าเดียวกันในคอลัมน์ 'sourceKeyword'
# ฟังก์ชัน count() ใช้นับจำนวนแถวในแต่ละกลุ่ม
# ฟังก์ชัน filter() ใช้เลือกเฉพาะแถวที่มีค่า 'sourceKeyword' เป็น 'unknown'
# ฟังก์ชัน show() ใช้แสดงผลลัพธ์ออกมา
fillConstant_df.groupBy('sourceKeyword').count().filter(col('sourceKeyword')=='unknown').show()


                                                                                

+-------------+------+
|sourceKeyword| count|
+-------------+------+
|      unknown|595783|
+-------------+------+



In [16]:
# แทนที่ค่า null ในคอลัมน์ 'totalTransactionRevenue' ด้วย 0
fillZero_df = raw_df.fillna({'totalTransactionRevenue': 0})

In [17]:
fillZero_df.select('totalTransactionRevenue').describe().show()



+-------+-----------------------+
|summary|totalTransactionRevenue|
+-------+-----------------------+
|  count|                 917814|
|   mean|   1.5156677464061346E7|
| stddev|    1.384032236608996E8|
|    min|                      0|
|    max|             5608400000|
+-------+-----------------------+



                                                                                

In [18]:
fillZero_df.count()

917814

In [19]:
# ลบแถวที่มีค่า null ในคอลัมน์ 'totalTransactionRevenue'
noNull_df = raw_df.dropna(subset=['totalTransactionRevenue'])


In [20]:
noNull_df.select('totalTransactionRevenue').describe().show()

                                                                                

+-------+-----------------------+
|summary|totalTransactionRevenue|
+-------+-----------------------+
|  count|                  70300|
|   mean|    1.978806652916074E8|
| stddev|    4.625284848391805E8|
|    min|                6980000|
|    max|             5608400000|
+-------+-----------------------+



In [21]:
noNull_df.count()

                                                                                

70300

In [22]:
from pyspark.sql.functions import mean

# คำนวณค่าเฉลี่ยของคอลัมน์ 'totalTransactionRevenue'
mean_value = raw_df.select(mean(raw_df['totalTransactionRevenue'])).collect()[0][0]

# แทนที่ค่า null ด้วยค่าเฉลี่ย
imputed_df = raw_df.fillna({'totalTransactionRevenue': mean_value})


                                                                                

In [23]:
imputed_df.select('totalTransactionRevenue').describe().show()

[Stage 130:>                                                        (0 + 4) / 4]

+-------+-----------------------+
|summary|totalTransactionRevenue|
+-------+-----------------------+
|  count|                 917814|
|   mean|   1.9788066502233568E8|
| stddev|    1.280076589653642E8|
|    min|                6980000|
|    max|             5608400000|
+-------+-----------------------+



                                                                                

In [24]:
imputed_df.count()

917814