# 자전거 배치 및 운영 전략 최적화 : 수요 예측 모델 개발

[목차]

1. 개요
    - 배경
    - 분석 목적
    - 분석 목표
    - 데이터 설명
    - 라이브러리 호출

2. 데이터 전처리
    - 변수간 상관관계 확인
    - 결측치 처리
    - 중복값 처리
    - 이상치 처리
    - QQ-plot으로 정규성 검증
    

3. EDA
    - 시계열분석
    - 상관관계분석

4. 예측 모델 개발
    - 회귀 모델 실험(선형/릿지/라쏘)

5. 결론

---
---

## 개요

### 1) 배경
- 자전거 대여 시스템의 운영 담당자로, 최적화된 자전거 배치 및 운영 전략을 기획하여 사용자 만족도를 제고시키고 시스템의 효율성을 증가시키는 것이 요구됨

### 2) 분석 목적
- 자전거 대여 패턴을 분석하여 자전거 배치 및 운영 전략을 최적화하고, 대여 수요를 정확히 예측하여 대여 시스템의 효율성을 높이고 사용자 만족도를 증가시키기 위함

### 3) 분석 목표
- 다양한 머신러닝 모델과 전략을 실험하여 가장 정확한 수요 예측 모델을 개발

- 모델의 핵심 평가 지표인 RMSLE (Root Mean Squared Logarithmic Error)를 최대한 낮추는 것

### 4) 데이터 설명

| 컬럼명       | 데이터 타입 | 설명                                           |
|-------------|------------|----------------------------------------------|
| datetime    | datetime   | 자전거 대여 기록의 날짜 및 시간. 예시: 2011-01-01 00:00:00 |
| season      | int        | 계절 (1: 봄, 2: 여름, 3: 가을, 4: 겨울)      |
| holiday     | int        | 공휴일 여부 (0: 평일, 1: 공휴일)              |
| workingday  | int        | 근무일 여부 (0: 주말/공휴일, 1: 근무일)       |
| weather     | int        | 날씨 상황 (1: 맑음, 2: 구름낌/안개, 3: 약간의 비/눈, 4: 폭우/폭설) |
| temp        | float      | 실측 온도 (섭씨)                              |
| atemp       | float      | 체감 온도 (섭씨)                              |
| humidity    | int        | 습도 (%)                                      |
| windspeed   | float      | 풍속 (m/s)                                   |
| casual      | int        | 등록되지 않은 사용자의 대여 수                |
| registered  | int        | 등록된 사용자의 대여 수                      |
| count       | int        | 총 대여 수 (종속 변수)                        |

### 5) 라이브러리 호출 및 데이터 프레임 생성

In [1]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

from math import sqrt

import numpy as np
import pandas as pd

In [4]:
# train 데이터 셋 호출
train_df = pd.read_csv('./data/train.csv')
train_df

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


## 데이터 전처리

### 결측값 처리

### 중복값 처리

### 이상치 처리

### 이상치 처리

## EDA