In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import expr
import os
from time import sleep

In [0]:
class BDSTestSuite:
    def __init__(self,base_dir):
        self.base_dir = base_dir
        self.read_path = self.base_dir+'/input'
        self.write_path = self.base_dir+'/output'
        self.checkpoint_path = self.base_dir+'/checkpoint'
        self.sample_data_path = self.base_dir+'/sameple_data'

    def clean_test(self):
        print(f"Starting Cleanup...", end='')
        spark.sql("drop table if exists bds_silver")
        dbutils.fs.rm(self.base_dir, recurse=True)
        dbutils.fs.mkdirs(self.read_path)
        dbutils.fs.mkdirs(self.write_path)
        dbutils.fs.mkdirs(self.checkpoint_path)
        dbutils.fs.mkdirs(self.sample_data_path)
        print("Done")

    def ingest_data(self,itr):
        print(f"\tStarting Ingestion...", end='')
        dbutils.fs.cp(f"{self.sample_data_path}/sample_data_{itr}.json", f"{self.read_path}/sample_data_{itr}.json")
        print('Done')
        

    def createSampleData(self):
        import json
        import os  
        sameple_data_1 = [
            {
                "Diện tích": "138,7 m²",
                "Mức giá": "16,2 tỷ",
                "Mặt tiền": "6 m",
                "Đường vào": "7 m",
                "Hướng nhà": "Đông - Bắc",
                "Hướng ban công": "Đông - Bắc",
                "Số tầng": "3 tầng",
                "Số phòng ngủ": "4 phòng",
                "Số toilet": "4 phòng",
                "Pháp lý": "Sổ đỏ/ Sổ hồng",
                "Nội thất": "Cửa Eurowindow hai lớp cách âm, sàn gỗ nhập từ Đức, cửa cuốn Đức, thiết bị phòng toilet nhập từ Italy, Cầu thang lát đá cao cấp, nội thất gạch, đồ gỗ cao cấp, tinh tế, sang trọng.",
                "Ngày đăng": "01/01/2024",
                "Ngày hết hạn": "16/01/2024",
                "Loại tin": "Tin thường",
                "Mã tin": "32320245",
                "Địa chỉ": "Đường 163 Đặng Văn Bi, Phường Trường Thọ, Thủ Đức, Hồ Chí Minh",
                "latitude": 10.8442983372416,
                "longtitude": 106.759748676305,
                "url": "https://batdongsan.com.vn/ban-nha-rieng-duong-dang-van-bi-phuong-truong-tho-2/can-ban-gap-chinh-chu-hien-dai-rat-dep-tai-khu-do-thi-trung-tam-thu-duc-pr32320245"
            },
            {
                "Diện tích": "28,5 m²",
                "Mức giá": "3,5 tỷ",
                "Mặt tiền": "3 m",
                "Đường vào": "5 m",
                "Hướng nhà": None,
                "Hướng ban công": None,
                "Số tầng": "3 tầng",
                "Số phòng ngủ": "4 phòng",
                "Số toilet": "3 phòng",
                "Pháp lý": "Sổ đỏ/ Sổ hồng",
                "Nội thất": "Cơ bản",
                "Ngày đăng": "28/12/2023",
                "Ngày hết hạn": "12/01/2024",
                "Loại tin": "Tin VIP Vàng",
                "Mã tin": "37980805",
                "Địa chỉ": "Đường Chiến Lược, Phường Bình Trị Đông, Bình Tân, Hồ Chí Minh",
                "latitude": 10.761891,
                "longtitude": 106.6135907,
                "url": "https://batdongsan.com.vn/ban-nha-rieng-duong-chien-luoc-phuong-binh-tri-dong/ban-gap-3-lau-gia-3-ty-790-tl-luoc-pr37980805"
            }
        ]

        sameple_data_2 = [
            {
                "Diện tích": "100 m²",
                "Mức giá": "2,58 tỷ",
                "Mặt tiền": "4 m",
                "Đường vào": "6 m",
                "Hướng nhà": None,
                "Hướng ban công": None,
                "Số tầng": "3 tầng",
                "Số phòng ngủ": "4 phòng",
                "Số toilet": "3 phòng",
                "Pháp lý": "Sổ đỏ/ Sổ hồng",
                "Nội thất": "Đầy đủ",
                "Ngày đăng": "04/01/2024",
                "Ngày hết hạn": "19/01/2024",
                "Loại tin": "Tin VIP Vàng",
                "Mã tin": "38942422",
                "Địa chỉ": "Đường Lê Trọng Tấn, Phường Tây Thạnh, Tân Phú, Hồ Chí Minh",
                "latitude": 10.8159855,
                "longtitude": 106.6019505,
                "url":'https://batdongsan.com.vn/'
            },
            {
                "Diện tích": "38,5 m²",
                "Mức giá": "3,85 tỷ",
                "Mặt tiền": None,
                "Đường vào": None,
                "Hướng nhà": None,
                "Hướng ban công": None,
                "Số tầng": None,
                "Số phòng ngủ": "2 phòng",
                "Số toilet": "2 phòng",
                "Pháp lý": None,
                "Nội thất": None,
                "Ngày đăng": "04/01/2024",
                "Ngày hết hạn": "14/01/2024",
                "Loại tin": "Tin VIP Vàng",
                "Mã tin": "38941742",
                "Địa chỉ": "Đường Phạm Văn Chiêu, Phường 14, Gò Vấp, Hồ Chí Minh",
                "latitude": 10.8482095,
                "longtitude": 106.6480933,
                "url":'https://batdongsan.com.vn/'
            }
        ]


        print('\nCreate 2 sample data files....')
        
        dbutils.fs.put(self.sample_data_path+"/sample_data_1.json",json.dumps(sameple_data_1, indent=4,ensure_ascii=False) , True)
        dbutils.fs.put(self.sample_data_path+"/sample_data_2.json",json.dumps(sameple_data_2, indent=4,ensure_ascii=False) , True)
        print('Done')

    
    def start_test(self):
        self.createSampleData()

        print("Testing first iteration of stream...") 
        self.ingest_data(1)
        sleep(5)

        print("\nTesting second iteration of stream...") 
        self.ingest_data(2)
        sleep(5)

In [0]:
%run "/Users/vinhquoc2049@gmail.com/bds_streaming_pipeline"

In [0]:
%run "/Users/vinhquoc2049@gmail.com/get_credentials"

In [0]:
from delta.tables import DeltaTable
import os

def stop_all_streaming_queries():
    # Get the active streaming queries
    active_queries = spark.streams.active

    # Check if there are any active queries
    if active_queries:
        print("List of Active Streaming Queries:")
        for query in active_queries:
            print(f"Query Name: {query.name}, ID: {query.id}")
            query.stop()
    else:
        print("No active streaming queries.")


def is_delta_table(table_path):
    try:
        delta_table = DeltaTable.forPath(spark, table_path)
        return delta_table is not None
    except Exception as e:
        return False

def main():
    test_base_dir='/FileStore/bds_test_suite'
    ts=BDSTestSuite(test_base_dir)
    ts.clean_test()
    ts.createSampleData()

    bronze=BronzeBDS(ts.read_path,ts.write_path,ts.checkpoint_path)
    silver=SilverBDS(bronze.write_path,ts.write_path,ts.checkpoint_path)
    
    # Fist iteration of testing
    trigger='1 seconds'
    bzQuery=bronze.process(trigger)
    slQuery=silver.process(trigger)
    ts.start_test()

    # Increase or decrease this if your streaming queries do not finish in time
    sleep(20)

    bzQuery.stop()
    slQuery.stop()

stop_all_streaming_queries()
main()

No active streaming queries.
Starting Cleanup...Done

Create 2 sample data files....
Wrote 2065 bytes.
Wrote 1519 bytes.
Done

Starting Bronze Stream...

Starting Silver Stream...
Create 2 sample data files....
Wrote 2065 bytes.
Wrote 1519 bytes.
Done
Testing first iteration of stream...
	Starting Ingestion...Done

Testing second iteration of stream...
	Starting Ingestion...Done


In [0]:
# stop_all_streaming_queries()
df=spark.read \
    .format('delta')\
    .load('/FileStore/bds_test_suite/output/silver_property_df')

df.select('price').show()

+-----------+
|      price|
+-----------+
| -979869184|
| -794967296|
|-1714967296|
| -444967296|
+-----------+

