#  3. Models for Predicting Estimated Time of Arrival

## 3.1 Machine Learning Models 개요

### 3.1.1 머신러닝을 공부하기 위한 교재 추천

본 장에서는 ETA(통행시간예측) 모델을 만들기 위한 기초적인 머신러닝 이론을 공부한다.  
기초적인 지식을 위해 아래의 교재를 공부하기를 추천한다. 

- [Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition, Aurélien Géron](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/)
- 강의노트(원서): https://github.com/ageron/handson-ml3
- [(번역서)핸즈온 머신러닝 3판](https://www.hanbit.co.kr/store/books/look.php?p_code=B1539397165)
- 강의노트(번역): https://github.com/rickiepark/handson-ml3


해당 교재는 머신러닝의 기초부터, 딥러닝까지 폭넓게 다루고 있으며 각 챕터마다의 상세한 예제 코드 파일을 함께 제공 하고 있어, 초심자가 공부하기에 적합하다.  
하지만, 본 교재에서 모두 다루기에는 양이 방대하므로, 머신러닝에 집중해서 공부를 하는 것을 추천하며, 그 중에서도 1장, 2장, 3장, 6장, 7장까지 공부하여 Supervised Learning의 개념을 이해하고, 그 중에서도 가장 널리 쓰이는 Ensemble Model에 대해 이해하는 것이 중요하다.

### 3.1.2 도시/교통 분야에서의 머신러닝 응용사례

도시와 교통 분야에서 머신러닝 기술은 다양한 문제 해결과 의사결정 지원에 활용되고 있다. 지도학습과 비지도학습 기법을 통해 복잡한 도시 시스템을 분석하고 최적화하는 데 큰 기여를 하고 있다. 본 절에서는 주요 응용사례를 살펴본다.
#### 지도학습 (Supervised Learning)

지도학습은 레이블이 지정된 데이터를 사용하여 입력과 출력 사이의 관계를 학습하는 머신러닝 기법이다. 이 방법은 과거의 데이터와 그에 대응하는 결과(레이블)를 바탕으로 모델을 훈련시켜, 새로운 데이터에 대한 예측이나 분류를 수행한다. 지도학습의 주요 목적은 입력 데이터로부터 정확한 출력을 예측하는 함수를 찾는 것이다.
도시 및 교통 분야에서 지도학습은 주로 다음과 같은 목적으로 활용된다:

- 미래의 상황이나 수치를 예측하는 회귀(Regression) 분석
- 데이터를 특정 범주로 분류하는 분류(Classification) 작업
- 시계열 데이터를 분석하여 미래 트렌드를 예측하는 작업

이러한 기법들은 도시 계획, 교통 관리, 안전 시스템 등 다양한 영역에서 중요한 역할을 한다. 다음은 도시/교통 분야에서의 대표적인 지도학습 응용 사례들이다:

- **통행수요 예측**: 통행수요 예측은 특정 지역이나 노선의 미래 통행량을 예측하는 모델이다. 이 모델은 과거 통행 데이터, 인구통계, 경제지표, 날씨 등의 특성을 입력으로 사용한다. 예측 결과는 대중교통 노선 계획이나 도로 확장 계획 수립 등에 활용된다.
- **통행시간 예측**: 출발지에서 목적지까지의 예상 소요시간을 예측하는 모델이다. 실시간 교통 데이터, 과거 통행시간 패턴, 도로 상태 등을 고려하여 예측을 수행한다. 이는 네비게이션 서비스나 교통정보 제공 시스템에서 중요한 역할을 한다.
- **통행속도 예측**: 특정 도로나 구간의 미래 통행속도를 예측하는 모델이다. 현재 교통량, 시간대, 날씨 조건 등을 고려하여 예측을 수행한다. 예측 결과는 교통 흐름 최적화나 신호 제어 시스템 등에 활용된다.
- **교통사고 발생(사고위험도) 예측**: 특정 지역이나 도로에서의 교통사고 발생 가능성을 예측하는 모델이다. 도로 설계, 교통량, 날씨, 시간대 등의 요소를 고려하여 위험도를 산출한다. 이는 교통안전 정책 수립이나 위험 구간 개선 등에 중요한 정보를 제공한다.
- **주차수요 예측**: 특정 지역이나 시설의 주차 수요를 예측하는 모델이다. 시간대, 요일, 주변 이벤트 등을 고려하여 예측을 수행한다. 예측 결과는 주차 관리 시스템이나 스마트 주차 솔루션 등에 활용된다.
- **대중교통 승하차 인원 예측**: 버스나 지하철 역의 시간대별 승하차 인원을 예측하는 모델이다. 과거 데이터, 주변 환경, 이벤트 정보 등을 활용하여 예측을 수행한다. 이는 대중교통 운행 계획 수립이나 혼잡도 관리 등에 중요한 정보를 제공한다.

#### 비지도 학습 (Unsupervised Learning)

비지도 학습은 레이블이 지정되지 않은 데이터에서 패턴이나 구조를 찾아내는 머신러닝 기법이다. 이는 주로 데이터의 숨겨진 구조를 발견하거나, 데이터를 의미 있는 방식으로 그룹화하는 데 사용된다. 비지도 학습의 주요 특징은 사전에 정의된 '정답'이 없다는 점이다. 대신, 알고리즘이 데이터 자체의 특성을 바탕으로 패턴을 찾아낸다. 도시 및 교통 분야에서 비지도 학습은 주로 다음과 같은 목적으로 활용된다

- 유사한 특성을 가진 데이터 포인트들을 그룹화하는 군집화  
- 정상 패턴에서 벗어난 데이터를 감지하는 이상치 탐지  
- 복잡한 고차원 데이터를 더 단순한 저차원으로 변환하는 차원 축소  

이러한 기법들은 도시와 교통 시스템의 복잡한 패턴을 이해하고, 효율적인 관리 및 계획 수립에 중요한 인사이트를 제공한다. 다음은 도시/교통 분야에서의 대표적인 비지도 학습 응용 사례들이다:

- **교통 패턴 군집화**: 유사한 교통 패턴을 가진 지역이나 시간대를 그룹화하는 기법이다. K-means, DBSCAN 등의 알고리즘을 주로 사용한다. 군집화 결과는 교통 정책 수립이나 신호 체계 최적화 등에 활용된다.
- **이상 교통 상황 탐지**: 평소와 다른 비정상적인 교통 패턴을 자동으로 감지하는 기법이다. 이상치 탐지 알고리즘을 사용하여 분석을 수행한다. 이는 교통사고, 도로 공사, 대규모 행사 등의 영향을 빠르게 파악하는 데 사용된다.
- **도시 기능 지역 분류**: 도시 내 다양한 지역의 기능(주거, 상업, 업무 등)을 자동으로 분류하는 기법이다. 토지 이용 패턴, 건물 형태, 유동인구 데이터 등을 활용하여 분석을 수행한다. 분류 결과는 도시계획이나 토지이용 정책 수립 등에 활용된다.
- **차량 주행 패턴 분석**: 차량의 주행 데이터를 분석하여 유사한 주행 패턴을 찾아내는 기법이다. GPS 데이터, 속도 데이터 등을 활용하여 분석을 수행한다. 분석 결과는 친환경 운전 방식 개발이나 차량 설계 최적화 등에 활용된다. 예를들어 버스/택시기사들의 운행기록 데이터 정보가 있다면, 유사하게 운전하는 운전자들끼리 군집화가 가능할 것이며, 이 군집화를 기반으로 운전자들의 성향을 파악하는 것이 가능하다. 


이러한 머신러닝 기법들은 도시와 교통 시스템을 더욱 효율적이고 지속가능하게 만드는 데 중요한 역할을 한다. 실제 적용 시에는 데이터의 품질, 모델의 정확성, 윤리적 고려사항 등 다양한 요소를 종합적으로 고려해야 한다. 도시/교통 분야의 머신러닝 응용에 대한 실제 구현 사례와 코드를 살펴보고 싶다면, GitHub에서 제공하는 'Traffic-Prediction-Open-Code-Summary' 리포지토리를 참고하는 것이 도움이 될 수 있다. 이 리소스는 다양한 교통 예측 모델의 오픈 소스 코드를 제공하고 있어, 실제 구현 방법을 이해하는 데 도움을 준다. 이밖에도 Kaggle, 데이콘, 콤파스 등에 다양한 도시/교통 관련된 머신러닝 문제들과 데이터가 있으니 도전해보면 좋다. 

## 3.2 ETA (Estimated Time of Arrival) Models (O-D based Travel Time Prediction)

### 3.2.1 Problem Definitions for Predicting Estimated Time of Arrival

도착 예정 시간(ETA, Estimated Time of Arrival) 예측은 교통 및 물류 분야에서 중요한 과제이다. 이 작업의 목표는 차량이 출발지에서 목적지까지 이동하는 데 걸리는 시간을 정확하게 예측하는 것이다. 이 예측은 이동 시간에 영향을 미칠 수 있는 다양한 요인들을 기반으로 한다.

ETA 예측 문제는 다음과 같이 공식적으로 정의할 수 있다:

입력 특성 집합 $X = \{x_1, x_2, ..., x_n\}$이 주어졌을 때, 각 $x_i$는 다음과 같은 관련 요인을 나타낸다:

- 출발지와 목적지의 위도 및 경도 좌표
- 출발지와 목적지 사이의 직선 거리
- 출발 시간
- 요일
- 공휴일 여부
- 출발지와 목적지의 행정 구역

목표는 이러한 입력 특성을 사용하여 예상 도착 시간 $y$를 예측하는 함수 $f$를 학습하는 것이다:

$y = f(X)$

여기서 $y$는 분 단위의 예상 이동 시간을 나타낸다.

### 3.2.2 Data Preparation

이 단계에서는 ETA 예측을 위한 데이터를 수집하고 정리한다. 주요 작업으로는 다양한 소스에서 데이터를 수집하고, 데이터의 일관성을 확인하며, 누락된 값이나 이상치를 처리하는 것이 포함된다. 또한 데이터의 형식을 통일하고, 필요한 경우 데이터를 결합하는 작업도 수행한다.

### 3.2.3 EDA (Exploratory Data Analysis)

탐색적 데이터 분석 단계에서는 수집된 데이터의 특성과 패턴을 파악한다. 여기에는 각 변수의 분포 확인, 변수 간 상관관계 분석, 시간에 따른 추세 파악 등이 포함된다. 또한 이상치나 특이점을 식별하고, 데이터의 품질을 평가하는 작업도 수행한다. 이 과정을 통해 모델 구축에 유용한 인사이트를 얻을 수 있다.

### 3.2.4 Data Preprocessing (파이프라인 구축)

전처리 단계에서는 원시 데이터를 모델 학습에 적합한 형태로 변환한다. 이 과정에는 특성 스케일링, 범주형 변수의 인코딩, 결측치 처리 등이 포함된다. 또한 효율적이고 일관된 데이터 처리를 위해 전처리 파이프라인을 구축한다. 이 파이프라인은 향후 새로운 데이터에 대해서도 동일한 전처리를 적용할 수 있도록 설계된다.

### 3.2.5 Construct Model

모델 구축 단계에서는 ETA 예측을 위한 적절한 머신러닝 또는 딥러닝 모델을 선택하고 구현한다. 다양한 알고리즘을 비교하고, 모델의 구조와 하이퍼파라미터를 최적화하는 작업이 포함된다. 또한 모델의 성능을 향상시키기 위한 앙상블 기법이나 고급 학습 방법을 적용할 수 있다.

### 3.2.6 Validation

검증 단계에서는 구축된 모델의 성능을 평가한다. 교차 검증이나 홀드아웃 검증과 같은 기법을 사용하여 모델의 일반화 능력을 측정한다. 평가 지표로는 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE) 등을 사용할 수 있다. 또한 모델의 예측 결과를 실제 값과 비교하여 모델의 강점과 약점을 분석한다.

## 3.4 Link-based Travel Time Prediction