In [0]:
%spark.pyspark

from pyspark.sql.functions import col,isnan, when, count
from pyspark.sql.types import IntegerType, DoubleType
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyspark.sql import functions as F
from pyspark.sql.functions import translate
from pyspark.sql.functions import log1p
from pyspark.sql.functions import dayofweek
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import RandomForestRegressor
from pyspark.mllib.evaluation import RegressionMetrics
from pyspark.sql.functions import exp
import joblib

from pyspark.sql.types import DoubleType
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf
from pyspark.sql.functions import lit

#그래프의 모양을 설정
plt.style.use('ggplot')
#글자 크기 설정 
sns.set(font_scale=2) 

#경고 메시지가 출력되지 않도록 설정
import warnings
warnings.filterwarnings('ignore')


In [1]:
%spark.pyspark

# 하둡 data 디렉토리의 bus_train.csv 를 읽어 들임
df_train = spark.read.csv("/data/bus_train.csv",  header=True)

In [2]:
%spark.pyspark
# df_train에 저장된 데이터 출력
df_train.show()

In [3]:
%spark.pyspark

# csv 파일을 읽어 들인 df_train 의 타입은 spark 의 DataFrame
type(df_train)

In [4]:
%spark.pyspark
#translate(컬럼명, 원래문자, 바꿀 문자)
#translate('now_arrive_time', '시', '') : now_arrive_time 컬럼에서 '시' 를 삭제 
df_train = df_train.withColumn('now_arrive_time', translate('now_arrive_time', '시', ''))

In [5]:
%spark.pyspark

df_train.show()

In [6]:
%spark.pyspark

# df_train 의 컬럼 타입 조회
df_train.schema

In [7]:
%spark.pyspark

#데이터 프레임의 컬럼 이름 조회
df_train.schema.names

In [8]:
%spark.pyspark

column_name_list = df_train.schema.names

In [9]:
%spark.pyspark



In [10]:
%spark.pyspark
# 전체 컬럼명에서 문자열이 저장된 컬럼명 "date",'now_station', 'next_station' 제거한 리스트 리턴
numeric_column_name_list = list(
                    set(column_name_list) 
                    - set([
                            "id","route_id","vh_id",
                            "date",'now_station', 
                            'next_station', "route_nm"
                            ]
                          )
                    )

In [11]:
%spark.pyspark
numeric_column_name_list

In [12]:
%spark.pyspark
# double 숫자 타입으로 변환

for i in  numeric_column_name_list:
    print("column_name = ", i)
    df_train = df_train.withColumn(i, df_train[i].cast('double'))
    print("=" * 100)

In [13]:
%spark.pyspark

# df_train 의 컬럼 타입 조회
df_train.schema

In [14]:
%spark.pyspark

df_train.show()

In [15]:
%spark.pyspark

#df_train.columns : df_train의 컬럼 이름을 조회

#for column_name in df_train.columns: df_train의 컬럼 이름을 column_name에 대입

#count(column_name) : 컬럼의 데이터 수 조회(결측치 제외) 

# df_train.select 데이터 조회


df_train.select([count(column_name) for column_name in df_train.columns] ).show()

In [16]:
%spark.pyspark
import missingno as msno
#msno.bar는 각 컬럼의 null 이 아닌 데이터의 비율을 그래프로 그려주는 패키지
# df_train.toPandas() : Spark DataFrame인 df_train 을 Pandas DataFrame으로 변환 
msno.bar(df=df_train.toPandas())

In [17]:
%spark.pyspark

# SQL 사용을 위해서 Spark DataFrame을 View(데이터를 추가 수정 할 수 없는 테이블) 형태로 변환
df_train.createOrReplaceTempView('bus_view')

In [18]:
%spark.sql

--데이터 조회
select * from bus_view

In [19]:
%spark.sql

-- 운행시간 (now_arrive_time), 데이터수 (count(*) ) 조회

select now_arrive_time, count(*)  -- 운행시간 (now_arrive_time), 데이터수 (count(*) ) 조회
from bus_view 
group by now_arrive_time   -- 운행 시간별 그룹
order by now_arrive_time   -- 운행 시간으로 정렬

In [20]:
%spark.sql

-- now_station(정류소명), now_longitude(위도), now_latitude (경도) 조회
select now_station, now_longitude, now_latitude
from bus_view

In [21]:
%spark.sql

-- now_station(정류소명), now_longitude(위도), now_latitude (경도) 조회
select now_station, now_longitude, now_latitude
from bus_view
-- now_station(정류소명), now_longitude(위도), now_latitude (경도) 를 그룹으로 그룹당 1개씩 조회
group by now_station, now_longitude, now_latitude 
order by now_station -- 정류소 이름으로 정렬

In [22]:
%spark.pyspark
#그래프의 크기 설정 가로20 세로10
plt.figure(figsize=(20, 10))

#자동으로 그래프의 모양을 맞춰줌
plt.tight_layout()

#df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
#데이터.plot(kind="kde") 는 비율을 그래프로 그려줌
#도착 시간 next_arrive_time의비율을 그래프로 그림
df_train.toPandas()["next_arrive_time"].plot(kind='kde')

In [23]:
%spark.pyspark
#그래프의 크기 설정 가로20 세로10
plt.figure(figsize=(20, 10))

#자동으로 그래프의 모양을 맞춰줌
plt.tight_layout()

#df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
#데이터.plot(kind="kde") 는 비율을 그래프로 그려줌
#distance (거리) 의 비율을 그래프로 그림
df_train.toPandas()["distance"].plot(kind='kde')

In [24]:
%spark.pyspark
df_train.toPandas().info()

In [25]:
%spark.pyspark

#각 컬럼의 기울어 짐 정도 조회
##df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
(df_train.toPandas()[numeric_column_name_list]).skew()

In [26]:
%spark.pyspark
#그래프의 크기 설정 가로20 세로10
plt.figure(figsize=(20, 10))
##df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
#가장 기울어진 컬럼 시각화
plt.hist(df_train.toPandas()["next_arrive_time"])

In [27]:
%spark.pyspark

# df_train.withColumn(수정할 컬럼의 이름, 수정할 값)

#df_train.withColumn(next_arrive_time : next_arrive_time 컬럼의 값 수정

# log1p("next_arrive_time") : next_arrive_time에 log(1+데이터) 를 곱한 값을 리턴하는 log1p 호출해서 컬럼갑 수정

df_train = df_train.withColumn("next_arrive_time", log1p("next_arrive_time"))

In [28]:
%spark.pyspark

df_train.show()

In [29]:
%spark.pyspark

#각 컬럼의 기울어 짐 정도 조회
##df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
(df_train.toPandas()[numeric_column_name_list]).skew()

In [30]:
%spark.pyspark

#그래프의 크기 설정 가로20 세로10
plt.figure(figsize=(20, 10))
##df_train.toPandas() : Spark DataFrame을 Pandas DataFrame으로 변경
#가장 기울어진 컬럼 시각화
plt.hist(df_train.toPandas()["next_arrive_time"])

In [31]:
%spark.pyspark

# 또 다른 기울임이 심한 컬럼 distance
plt.figure(figsize=(20, 10))

plt.hist(df_train.toPandas()["distance"])

In [32]:
%spark.pyspark

df_train = df_train.withColumn("distance", log1p("distance"))

df_train.show()

In [33]:
%spark.pyspark


#각 distance 및 next_arrive_time 을 변환한 기울임 조회
(df_train.toPandas()[numeric_column_name_list]).skew()

In [34]:
%spark.pyspark

# 조정된 distance 시각화
plt.figure(figsize=(20, 10))

plt.hist(df_train.toPandas()["distance"])

In [35]:
%spark.pyspark

#F.to_date(df_train["date"] : date 컬럼의 타입을 String 에서 날짜 타입으로 변환
df_train = df_train.withColumn('date',F.to_date(df_train["date"]))

In [36]:
%spark.pyspark

df_train.schema

In [37]:
%spark.pyspark
#dayofweek(df_train["date"]) : date 컬럼의 운행 날짜의 요일 리턴 (일요일 1, 월요일 2 ..)

# 운행 날짜의 요일을 weekday 컬럼에 저장
df_train.withColumn("weekday", dayofweek(df_train["date"]) ).show()

In [38]:
%spark.pyspark
#dayofweek(df_train["date"]) : date 컬럼의 운행 날짜의 요일 리턴 (일요일 1, 월요일 2 ..)

# 운행 날짜의 요일을 weekday 컬럼에 저장

df_train = df_train.withColumn("weekday", dayofweek(df_train["date"]) )

In [39]:
%spark.pyspark

df_train.show()

In [40]:
%spark.pyspark
# SQL 사용을 위해서 Spark DataFrame을 View(데이터를 추가 수정 할 수 없는 테이블) 형태로 변환
df_train.createOrReplaceTempView('bus_view')

In [41]:
%spark.sql

--데이터 조회
select * from bus_view

In [42]:
%spark.sql
-- weekday (요일 1-> 일요일, 2-> 월요일 ...) 별로 개수 조회
select weekday , count(*)
from bus_view
group by weekday
order by weekday

In [43]:
%spark.sql
--데이터 조회
select * from bus_view

In [44]:
%spark.pyspark
#분석에 사용할 독립변수 컬럼 이름 저장
feature_name_list = ['now_latitude', 'now_longitude','now_arrive_time', 
                     'distance', 'next_latitude', 'next_longitude',  'weekday'
                     ]

In [45]:
%spark.pyspark

feature_name_list

In [46]:
%spark.pyspark
# inputCols=feature_name_list
# feature_name_list (['now_latitude', 'now_longitude','now_arrive_time', 
#                     'distance', 'next_latitude', 'next_longitude',  'weekday'])  
#                      컬럼의 값을 합쳐서
# outputCol="features" : feature 컬럼을 생성 
# 할 객체 VectorAssembler 

assembler = VectorAssembler(inputCols=feature_name_list, outputCol="features")

In [47]:
%spark.pyspark
# feature_name_list (['now_latitude', 'now_longitude','now_arrive_time', 
#                     'distance', 'next_latitude', 'next_longitude',  'weekday'])  
#                      컬럼의 값을 합쳐서
# outputCol="features" : feature 컬럼을 생성 

asembler_df = assembler.transform(df_train)

In [48]:
%spark.pyspark

asembler_df.show()

In [49]:
%spark.pyspark

# asembler_df 의 데이터를 75:25 으로 나눠서
# 75%는 trainingData 에 대입
# 25%는 testData에 대입

(trainingData, testData) = asembler_df.randomSplit([0.75, 0.25])

In [50]:
%spark.pyspark

# trainingData 출력
trainingData.show()

In [51]:
%spark.pyspark

# testData 조회

testData.show()

In [52]:
%spark.pyspark

# RandomForestRegressor 객체 생성
# featuresCol = "features" : 독립변수는 features 컬럼에 저장
# labelCol = " next_arrive_time" : 종속 변수는  next_arrive_time 컬럼에 저장
# numTrees=100 : DecisionTree 개수 100

rf = RandomForestRegressor(featuresCol = "features", labelCol = "next_arrive_time", numTrees=100)

In [53]:
%spark.pyspark
rf

In [54]:
%spark.pyspark
# trainingData를 이용해서 RandomForest에 포함된 Decision Tree들을 만듬
rfModel = rf.fit(trainingData)

In [55]:
%spark.pyspark
# dtModel.transform(testData) : testData 를 예측
prediction = rfModel.transform(testData)

In [56]:
%spark.pyspark
# 예측값 조회
prediction.show()

In [57]:
%spark.pyspark
# next_arrive_time (실제값), prediction ("예측값") 컬럼 조회
prediction["next_arrive_time", "prediction"].show()

In [58]:
%spark.pyspark
# next_arrive_time (실제값), prediction ("예측값") 컬럼 조회

pred_label = prediction.select("next_arrive_time", "prediction")

In [59]:
%spark.pyspark
pred_label.show()

In [60]:
%spark.pyspark
#next_arrive_time 컬럼의 로그 값을 실제 값으로 변환

pred_label = pred_label.withColumn("next_arrive_time",
           exp(pred_label["next_arrive_time"]) - 1  )

In [61]:
%spark.pyspark
#prediction 컬럼의 로그 값을 실제 값으로 변환

pred_label = pred_label.withColumn("prediction", 
             exp(pred_label["prediction"]) - 1  )

In [62]:
%spark.pyspark
pred_label.show()

In [63]:
%spark.pyspark
#RootMeanSquared Error 를 계산할 객체 생성

metrics = RegressionMetrics(pred_label.rdd)

In [64]:
%spark.pyspark
#Root Mean Squared Error 계산
#값이 낮을수록 좋음 -> 오차가 적다.

metrics.rootMeanSquaredError

In [65]:
%spark.pyspark

#모델 저장
rfModel.write().overwrite().save("/spark_rf_model")

In [66]:
%spark.pyspark


In [67]:
%spark.pyspark
