## **Initiation**

In [1]:
from pyspark.sql import SparkSession
import os

In [2]:
spark = SparkSession.builder.config("spark.driver.memory", "8g").getOrCreate()

## **Understanding data**

In [3]:
def read_json(path_name):
    df = spark.read.json(path_name)
    df = df.select("_source.*")
    return df

def read_all_files():
    project_path = os.getcwd()
    log_content_path = os.path.join(project_path, "log_content")
    list_files = os.listdir(log_content_path)

    union_df = None
    for file_name in list_files:
        path_name = os.path.join("./log_content", file_name)
        df = read_json(path_name)

        if union_df is None:
            union_df = df
        else:
            union_df = union_df.unionByName(df, allowMissingColumns=True)

    return union_df

In [4]:
df = read_all_files()
df.limit(5).show()

+-------+---------+------------+-------------+
|AppName| Contract|         Mac|TotalDuration|
+-------+---------+------------+-------------+
|  KPLUS|HNH579912|0C96E62FC55C|          254|
|  KPLUS|HUFD40665|CCEDDC333614|         1457|
|  KPLUS|HNH572635|B068E6A1C5F6|         2318|
|  KPLUS|HND141717|08674EE8D2C2|         1452|
|  KPLUS|HNH743103|402343C25D7D|          251|
+-------+---------+------------+-------------+



In [5]:
df.count()

48457499

In [6]:
df.select("AppName").distinct().show(100)

+-------+
|AppName|
+-------+
|  KPLUS|
|  RELAX|
|  CHILD|
|CHANNEL|
|    VOD|
|   FIMS|
|  SPORT|
|    BHD|
|    APP|
+-------+



## **Summary**


- Các file JSON từ ngày 01/04/2022 đến 30/04/2022 

- Dạng dữ liệu lồng 

- Table cần dùng _source.*

- Tổng 48.457.499 records

- Bảng mô tả thời lượng của từng khách hàng (tính theo hợp đồng) theo từng chương trình họ xem và thiết bị của họ.
 
- Danh sách Appname: KPLUS, RELAX, CHILD, CHANNEL, VOD, FIMS, SPORT, BHD, APP

In [9]:
spark.stop()