## 따릉이 데이터를 활용한 데이터 분석

- 각 날짜의 1시간 전의 기상상황을 가지고 1시간 후의 따릉이 대여수를 예측해보세요. 

## 0. 라이브러리 설치

In [None]:
!pip install pandas scikit-learn matplotlib seaborn

## 1. 라이브러리 및 데이터
## Library & Data

In [None]:
import pandas as pd #판다스 패키지 불러오기
import numpy as np # numpy 패키지 불러오기
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor #랜덤 포레스트 불러오기
import matplotlib.pyplot as plt
from IPython.display import Image

##### https://pandas.pydata.org/

##### https://numpy.org/

In [None]:
# 데이터 불러오기
train = pd.read_csv('./train.csv') # 모델 학습 파일
test = pd.read_csv('./test.csv') # 모델 시험지 파일
submission = pd.read_csv('./submission.csv') #답안지 파일 

## 2. 탐색적 자료분석
## Exploratory Data Analysis (EDA)


### pd.DataFrame.head()
 - 데이터 프레임의 위에서 부터 n개 행을 보여주는 함수
 - n의 기본 값(default 값)은 5

In [None]:
train.head()

### pd.DataFrame.tail()
 - 데이터 프레임의 아래에서 부터 n개 행을 보여주는 함수
 - n의 기본 값(default 값)은 5

#### 학습데이터

In [None]:
train.tail()

#### 테스트 데이터

In [None]:
test.tail()

#### 답안데이터

In [None]:
submission.tail()

### pd.DataFrame.shape
 - 데이터 프레임의 행의 개수와 열의 개수가 저장되어 있는 속성(attribute)

In [None]:
print('train:', train.shape)
print('test:', test.shape)
print('submission:', submission.shape)

### pd.DataFrame.info()
- 데이터셋의 column별 정보를 알려주는 함수
- 비어 있지 않은 값은 (non-null)은 몇개인지?
- column의 type은 무엇인지?
 - type의 종류 : int(정수), float(실수), object(문자열), 등등 (date, ...)

In [None]:
train.info() # 데이터 타입 및 결측치 확인

In [None]:
test.info()

In [None]:
submission.info()

### pd.DataFrame.describe()
- 숫자형 (int, float) column들의 기술 통계량을 보여주는 함수

- 기술통계량이란?
 - 해당 column을 대표할 수 있는 통계값들을 의미
 
 
- 기술통계량 종류
 - count: 해당 column에서 비어 있지 않은 값의 개수
 - mean: 평균
 - std: 표준편차
 - min: 최솟값 (이상치 포함)
 - 25% (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
 - 50% (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
 - 75% (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
 - max: 최댓값 (이상치 포함) 
 
 
 
- 이상치: 울타리 밖에 있는 부분을 이상치라고 정의함
   - 아래쪽 울타리: $Q_1$ - $1.5 * IQR$
   - 위쪽 울타리: $Q_3$ + $1.5 * IQR$
   - $IQR$ = $Q_3 - Q_1$
 
 
<img src="https://miro.medium.com/max/10125/1*NRlqiZGQdsIyAu0KzP7LaQ.png" width="700" height="500">

In [None]:
train.describe()

In [None]:
test.describe()

### pd.DataFrame.groupby()
 - 집단에 대한 통계량 확인 
 
<img src="https://s3.amazonaws.com/files.dezyre.com/images/Tutorials/Split+Apply+Combine+Strategy.png" width="700" height="500">

In [None]:
np.sort(train['hour'].unique())

In [None]:
train.groupby('hour').mean()

In [None]:
count = train.groupby('hour').mean()['count']
count

In [None]:
count.plot()

In [None]:
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
font_path = "C:/Windows/Fonts/NGULIM.TTF"
font = font_manager.FontProperties(fname=font_path).get_name()
rc('font', family=font)

##### https://matplotlib.org/

### plt.plot()의 스타일

색깔

|문자열|약자|
|----|-----|
|blue|b|
|green|g|
|red|r|
|cyan|c|
|magenta|m|
|yellow|y|
|black|k|
|white|w|

마커

|마커|의미|
|----|----|
|.|점|
|o|원|
|v|역삼각형|
|^|삼각형|
|s|사각형|
|*|별|
|x|엑스|
|d|다이아몬드|

선

|문자열|의미|
|-----|-----|
| - | 실선|
|-- | 끊어진 실선|
| -.| 점+실선|
|:|점선|

### plt.title(label, fontsize)
- 그래프 제목 생성

### plt.xlabel(label, fontsize)
- x축 이름 설정

### plt.ylabel(label, fontsize)
- y축 이름 설정

In [None]:
plt.plot(count, 'go-')
plt.grid()
plt.title('시간별 자전거 대여횟수', fontsize=15)
plt.xlabel('시간별')
plt.ylabel('대여횟수')
plt.savefig('count.png')
plt.show()

### plt.axvline(x, color)
- 축을 가로지르는 세로 선 생성

### plt.text(x, y, s, fontsize)
- 원하는 위치에 텍스트 생성

In [None]:
mean_val = count.mean()
mean_val

In [None]:
max_val = int(count.max())
min_val = int(count.min())

In [None]:
plt.plot(count, 'go-')
plt.grid()
plt.title('시간별 자전거 대여횟수', fontsize=15)
plt.xlabel('시간별')
plt.ylabel('대여횟수')

plt.axvline(8, color='r')
plt.text(8.5, count.iloc[8], f'출근 ({round(count.iloc[8], 1)})', fontsize=10)

plt.axvline(18, color='r')
plt.text(18.5, count.iloc[18], f'퇴근 ({round(count.iloc[18], 1)})', fontsize=10)

plt.savefig('count.png')
plt.show()

In [None]:
plt.plot(count, 'go-')
plt.grid()
plt.title('시간별 자전거 대여횟수', fontsize=15)
plt.xlabel('시간별')
plt.ylabel('대여횟수')

plt.axhline(max_val, color='b')
plt.text(0, max_val - 13, f'최대값 ({max_val})', fontsize=10)

plt.axhline(mean_val, color='r')
plt.text(0, mean_val + 5, f'평균값 ({round(mean_val, 1)})', fontsize=10)

plt.axhline(min_val, color='b')
plt.text(20, min_val + 5, f'최소값({min_val})', fontsize=10)

plt.savefig('count.png')
plt.show()

### 상관계수

- 상관계수: 두 개의 변수가 같이 일어나는 강도를 나타내는 수치 
- -1에서 1사이의 값을 지닙니다. 
- -1이나 1인 수치는 현실 세계에서 관측되기 힘든 수치입니다. 
- 분야별로 기준을 정하는 것에 따라 달라지겠지만, 보통 0.4이상이면 두 개의 변수간에 상관성이 있다고 얘기합니다. 

![상관계수](https://t1.daumcdn.net/cfile/tistory/99DEE1425C6A9F2008)

- 상관관계는 인과관계와 다릅니다. 아래의 예시를 확인해 봅시다.

![상관성 예시](https://miro.medium.com/max/684/1*JLYI5eCVEN7ZUWXBIrrapw.png)

- 선글라스 판매량이 증가함에 따라, 아이스크림 판매액도 같이 증가하는 것을 볼 수 있습니다. 
- 하지만 선글라스 판매량이 증가했기 **때문에** 아이스크림 판매액이 증가했다라고 해석하는 것은 타당하지 않습니다. 
- 선글라스 판매량이 증가했다는 것은 여름 때문이라고 볼 수 있으므로, 날씨가 더워짐에 따라 선글라스 판매량과 아이스크림 판매액이 같이 증가했다고 보는 것이 타당할 것입니다. 

### pd.DataFrame.corr()

- correlation coefficient 의 줄임말 입니다 

In [None]:
import seaborn as sns

##### https://seaborn.pydata.org/

In [None]:
train.head()

In [None]:
train.corr()

In [None]:
plt.figure(figsize=(8, 8))
sns.heatmap(train.corr(), annot=True)
plt.show()

In [None]:
plt.figure(figsize=(8, 8))
sns.heatmap(train.corr(), annot=True, cmap='crest')
plt.show()

In [None]:
plt.figure(figsize=(8, 8))
sns.heatmap(train.corr(),
            annot=True,
            cmap=sns.cubehelix_palette(as_cmap=True),
            linewidths=0.5,
            fmt='.1f')
plt.show()

## 3. 데이터 전처리
## Data Cleansing & Pre-Processing  

### pd.Series.isna()
- 결측치 여부를 확인해줍니다.
- 결측치면 True, 아니면 False

In [None]:
train.head()

In [None]:
train.isna().sum()

In [None]:
train[train['hour_bef_temperature'].isna()]

### pd.DataFrame.fillna()
- 결측치를 채우고자 하는 column과 결측치를 대신하여 넣고자 하는 값을 명시해주어야 합니다.

In [None]:
train.groupby('hour').mean()['hour_bef_temperature'].plot()

In [None]:
mean_value = train.groupby('hour').mean()['hour_bef_temperature'].mean()
mean_value

In [None]:
temperatures = train.groupby('hour').mean()['hour_bef_temperature']
temperatures.plot()
plt.axhline(mean_value, color='r')

In [None]:
temperatures[0]

In [None]:
temperatures[18]

In [None]:
train['hour_bef_temperature'] = train['hour_bef_temperature'].fillna({934:temperatures[0], 1035:temperatures[18]})

In [None]:
train[train['hour_bef_temperature'].isna()]

In [None]:
train.loc[[934, 1035], 'hour_bef_temperature']

In [None]:
train[train['hour_bef_windspeed'].isna()]

In [None]:
train[train['hour_bef_windspeed'].isna()]['hour'].reset_index()

In [None]:
train[train['hour_bef_windspeed'].isna()]

In [None]:
mean_windspeed = train.groupby('hour').mean()['hour_bef_windspeed']
mean_windspeed

In [None]:
train['hour_bef_windspeed'].fillna({18:mean_windspeed[13],
                                  244:mean_windspeed[1],
                                  260:mean_windspeed[3],
                                  376:mean_windspeed[0],
                                  780:mean_windspeed[20],
                                  934:mean_windspeed[0],
                                  1035:mean_windspeed[18],
                                  1138:mean_windspeed[12],
                                  1229:mean_windspeed[2]}, inplace=True)

In [None]:
train[train['hour_bef_windspeed'].isna()]

In [None]:
train.isna().sum()

In [None]:
test.isna().sum()

In [None]:
test[test['hour_bef_temperature'].isna()]

In [None]:
test['hour_bef_temperature'].fillna(temperatures[19], inplace=True)

In [None]:
test[test['hour_bef_windspeed'].isna()]

In [None]:
test['hour_bef_windspeed'].fillna(mean_windspeed[19], inplace=True)

In [None]:
test.isna().sum()

## 4. 변수 선택 및 모델 구축
## Feature Engineering & Initial Modeling  

##### https://scikit-learn.org/stable/

##### https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

In [None]:
Image("https://scikit-learn.org/stable/_static/ml_map.png")

### sklearn.ensemble.RandomForestRegressor()
- 랜덤 포레스트 모형

In [None]:
features = ['hour', 'hour_bef_temperature', 'hour_bef_windspeed']
X_train = train[features]
y_train = train['count']
X_test = test[features]

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)

## 5. 모델 학습 및 검증
## Model Tuning & Evaluation

In [None]:
model_100 = RandomForestRegressor(n_estimators=100, random_state=0)
model_100_5 = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=0)
model_200 = RandomForestRegressor(n_estimators=200, random_state=0)

### model.fit()
- 모델 학습

In [None]:
model_100.fit(X_train, y_train)
model_100_5.fit(X_train, y_train)
model_200.fit(X_train, y_train)

### model.predict()
- 모델 예측

In [None]:
ypred1 = model_100.predict(X_test)
ypred2 = model_100_5.predict(X_test)
ypred3 = model_200.predict(X_test)

In [None]:
ypred1.shape

In [None]:
submission.shape

### pd.DataFrame.to_csv()
 - csv파일 저장하는 함수

In [None]:
submission['count'] = ypred1
submission.to_csv('model100.csv', index = False)

submission['count'] = ypred2
submission.to_csv('model100_5.csv', index = False)

submission['count'] = ypred3
submission.to_csv('model200.csv', index = False)

## 6. 결과 및 결언
## Conclusion & Discussion

In [None]:
Image('./result.png')