In [0]:
%sh
# pip uninstall pandas -y

In [1]:
%sh
# pip install -U pandas==1.5.3

In [2]:
%sh
# pip install ksql

- 기존의 pandas 버전과 ksql이 충돌나는 것으로 보여
- pandas 다른 버전을 다운받아서 진행

In [4]:
%spark.pyspark

from ksql import KSQLAPI
import pandas as pd
import time
import datetime
import numpy as np
from pyspark.ml.regression import RandomForestRegressionModel
from pyspark.ml.feature import VectorAssembler
import ast

In [5]:
%spark.pyspark
client = KSQLAPI("http://localhost:8089", timeout=None)

In [6]:
%spark.pyspark

# 하둡에 저장된 모델 읽어서 저장
load_rf = RandomForestRegressionModel.load("/spark_rf_model/")

In [7]:
%spark.pyspark
load_rf

In [8]:
%spark.pyspark
feature_name_list = [
                    'now_latitude', 'now_longitude', 'now_arrive_time',
                    'distance','next_latitude','next_longitude','weekday'
                    ]

In [9]:
%spark.pyspark
feature_name_list

In [10]:
%spark.pyspark
# 실시간 버스 위치가 저장된 테이블의 모든 레코드 조회하는 객체 생성

get_change_table = client.query("""SELECT * FROM bus_location_topic EMIT CHANGES;""")

In [11]:
%spark.pyspark
# bus_location_topic에 추가된 데이터가 있을 때까지 대기하고 있다
## 추가된 데이터가 있으면 반복문 실행

for i in get_change_table:
    print(f"수정된 테이블 조회 : {i}")
    
    if "row" in i:
        location = ast.literal_eval(i)[0]["row"]["columns"]
        print(f"위치 : {location}")
        
        id = location[0]
        date = location[1]
        route_id = location[2]
        vh_id = location[3]
        route_nm = location[4]
        now_latitude = location[5]
        now_longitude = location[6]
        now_station = location[7]
        now_arrive_time = location[8]
        distance = location[9]
        next_station = location[10]
        next_latitude = location[11]
        next_longitude = location[12]
        weekday = location[13]
        
        # 예측을 위해 버스 위치 정보를 Pandas DataFrame 으로 생성
        df_location = pd.DataFrame({
            "now_latitude" : [now_latitude],
            "now_longitude" : [now_longitude],
            "now_arrive_time" : [now_arrive_time],
            "distance" : [distance],
            "next_latitude" : [next_latitude],
            "next_longitude" : [next_longitude],
            "weekday" : [weekday]
        })
        
        # Pandas DataFrame인 df_location을 Spark DataFrame 으로 변환
        # Spark RandomForest 모델에서 예측을 위해
        df_spark = spark.createDataFrame(df_location)
        
        assembler = VectorAssembler(inputCols=feature_name_list, outputCol="features")
        
        assembler_df = assembler.transform(df_spark)
        
        prediction = load_rf.transform(assembler_df)
        
        arrive_time = prediction.toPandas().loc[0,"prediction"]
        print("#"*100)

        # 학습시 예측을 로그 값으로 예측하기 때문에 np.exp(로그값) => 원래 값으로 변환 출력
        print(f"버스로 전송할 도착 예정 시간 : {np.exp(arrive_time)}")
        print("#"*100)
        
        # 다음 정류장에 도착 예정 시간을 소수 3번째 자리 반올림
        next_arrive_time = round(np.exp(arrive_time),3)
        
        insert_query = f"""INSERT INTO bus_arrive_topic (
                id
                ,route_id
                ,vh_id
                ,route_nm
                ,now_latitude
                ,now_longitude
                ,now_station
                ,now_arrive_time
                ,distance
                ,next_station
                ,next_latitude
                ,next_longitude
                ,weekday
                ,date
                ,next_arrive_time
                ) VALUES ({id},'{route_id}','{vh_id}'
                        ,'{route_nm}',{now_latitude}
                        ,{now_longitude},'{now_station}'
                        ,{now_arrive_time},{distance}
                        ,'{next_station}',{next_latitude}
                        ,{next_longitude},{weekday}
                        ,'{date}',{next_arrive_time}
                        );"""
        print(f"insert query :\n{insert_query}")

        try:
            client.ksql(insert_query) # KSQLDB에 현재 위치 추가
        except Exception as e:
            print(f"Exception : \n{e}")
            
    print("="*100)

In [12]:
%spark.pyspark
