## 이용량 결측치 처리

#### 노선 이용량을 활용성 지수로 변환
* 이용량 결측치 처리 과정에서 더 정확하게 분석하고 시각화한 후 예측
* 예측 성능 검증 진행

In [2]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [12]:
meta_data = pd.read_csv("../data/total_data.csv")
data = pd.read_csv("../data/여진_total_busdata.csv")

In [13]:
data["총인구수"] = meta_data["총인구수"]
data["노인(수)"] = meta_data["노인(수)"]
data["총인구수"] = data["총인구수"].apply(lambda x: int(x.replace(",", "")))
data["노인(수)"] = data["노인(수)"].apply(lambda x: int(x.replace(",", "")))

In [14]:
data.head()

Unnamed: 0,city_name,routeno,routetp,startnodenm,endnodenm,startvehicletime,endvehicletime,intervaltime,intervalsattime,intervalsuntime,...,노선정류장수,노선거리(km),굴곡도,start,end,total_operating_time,interval_avg,num_bus,총인구수,노인(수)
0,창원시,1,마을버스,신전,창원역,540.0,2210.0,40.0,40.0,40.0,...,105,55.9,2.0,340.0,1330.0,990.0,40.0,24,1003731,276574
1,창원시,2,마을버스,유등,창원역,725.0,2150.0,170.0,170.0,170.0,...,83,53.5,1.7,445.0,1310.0,865.0,170.0,5,1003731,276574
2,창원시,3,마을버스,상리,진영시외주차장,750.0,1655.0,220.0,220.0,220.0,...,74,43.8,2.6,470.0,1015.0,545.0,220.0,2,1003731,276574
3,창원시,7,마을버스,창원역,자여입구,620.0,2310.0,11.0,15.0,15.0,...,35,21.1,1.0,380.0,1390.0,1010.0,12.142857,83,1003731,276574
4,창원시,8,마을버스,창원역,삼성창원병원종점(8),600.0,2240.0,17.0,17.0,17.0,...,39,8.8,1.8,360.0,1360.0,1000.0,17.0,58,1003731,276574


In [15]:
data.columns

Index(['city_name', 'routeno', 'routetp', 'startnodenm', 'endnodenm',
       'startvehicletime', 'endvehicletime', 'intervaltime', 'intervalsattime',
       'intervalsuntime', 'usage', '노선정류장수', '노선거리(km)', '굴곡도', 'start', 'end',
       'total_operating_time', 'interval_avg', 'num_bus', '총인구수', '노인(수)'],
      dtype='object')

In [16]:
use_col = [ 
    'city_name',
    'routetp',
    '노선정류장수', 
    '노선거리(km)', 
    '굴곡도', 
    'total_operating_time', 
    'interval_avg', 
    'num_bus', 
    '총인구수', 
    '노인(수)', 
    'usage'
    ]

In [17]:
data = data[use_col]
data.head()

Unnamed: 0,city_name,routetp,노선정류장수,노선거리(km),굴곡도,total_operating_time,interval_avg,num_bus,총인구수,노인(수),usage
0,창원시,마을버스,105,55.9,2.0,990.0,40.0,24,1003731,276574,33931.0
1,창원시,마을버스,83,53.5,1.7,865.0,170.0,5,1003731,276574,2558.0
2,창원시,마을버스,74,43.8,2.6,545.0,220.0,2,1003731,276574,299.0
3,창원시,마을버스,35,21.1,1.0,1010.0,12.142857,83,1003731,276574,63612.0
4,창원시,마을버스,39,8.8,1.8,1000.0,17.0,58,1003731,276574,68306.0


### 데이터 전처리

* https://scikit-learn.org/stable/modules/preprocessing.html#non-linear-transformation

* https://wikidocs.net/87190

* 범주형 변수 전처리: 
  1. Infrequent categories
     * OneHotEncoder: 
     * OrdinalEncoder:
     * LabelEncoder: 
  2. Target Encoder
     * y값이 범주형 변수의 영향을 받을 경우(`city_name` 이나 `routetp`의 경우 괜찮을지도)

* 연속형 변수 전처리:
  1. MaxAbsScaler
  2. MinMaxScaler
      * 매우 다른 스케일의 범위를 0과 1사이로 변환
  3. PowerTransformer: 
      * Box-Cox transformer
  4. QuantileTransformer
  5. RobustScaler
      * 특성들이 같은 스케일을 갖게 되지만 평균대신 중앙값을 사용 ==> 극단값에 영향을 받지 않음
  6. StandardScaler
      * 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 가지게 함
  7. SplineTransformer

In [None]:
from sklearn.preprocessing import OneHotEncoder, RobustScaler, MinMaxScaler, StandardScaler