## 따릉이 데이터를 활용한 데이터 분석

- 각 날짜의 1시간 전의 기상상황을 가지고 1시간 후의 따릉이 대여수를 예측해보세요. 

## 1. 라이브러리 및 데이터
## Library & Data

In [None]:
import pandas as pd # 판다스 패키지 불러오기
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor # 랜덤 포레스트 불러오기

In [None]:
# 데이터 불러오기
train = pd.read_csv('~~~~/train.csv') # 모델 학습 파일
test = pd.read_csv('~~~~/test.csv')# 모델 시험지 파일
submission = pd.read_csv('~submission.csv') # 답안지 파일 

## 2. 탐색적 자료분석
## Exploratory Data Analysis (EDA)


### pd.DataFrame.head()
 - 데이터 프레임의 위에서 부터 n개 행을 보여주는 함수
 - n의 기본 값(default 값)은 5

In [None]:
train.head()

+ id : 날짜와 시간별 id
+ hour_bef_temperature : 1시간 전 기온
+ hour_bef_precipitation : 1시간 전 비 정보, 비가 오지 않았으면 0, 비가 오면 1
+ hour_bef_windspeed : 1시간 전 풍속(평균)
+ hour_bef_humidity : 1시간 전 습도
+ hour_bef_visibility : 1시간 전 시정(視程), 시계(視界)(특정 기상 상태에 따른 가시성을 의미)
+ hour_bef_ozone : 1시간 전 오존
+ hour_bef_pm10 : 1시간 전 미세먼지(머리카락 굵기의 1/5에서 1/7 크기의 미세먼지)
+ hour_bef_pm2.5 : 1시간 전 미세먼지(머리카락 굵기의 1/20에서 1/30 크기의 미세먼지)
+ count : 시간에 따른 따릉이 대여 수 

In [None]:
test.head()

In [None]:
submission.head()

### pd.DataFrame.tail()
 - 데이터 프레임의 아래에서 부터 n개 행을 보여주는 함수
 - n의 기본 값(default 값)은 5

In [None]:
train.tail()

### pd.DataFrame.shape
 - 데이터 프레임의 행의 개수와 열의 개수가 저장되어 있는 속성(attribute)

In [None]:
print(train.shape)
print(test.shape)
print(submission.shape)

NameError: ignored


### pd.DataFrame.info()
- 데이터셋의 column별 정보를 알려주는 함수
- 비어 있지 않은 값은 (non-null)은 몇개인지?
- column의 type은 무엇인지?
 - type의 종류 : int(정수), float(실수), object(문자열), 등등 (date, ...)

In [None]:
train.info()

In [None]:
test.info()

### pd.DataFrame.describe()
- 숫자형 (int, float) column들의 기술 통계량을 보여주는 함수

- 기술통계량이란?
 - 해당 column을 대표할 수 있는 통계값들을 의미
 
 
- 기술통계량 종류
 - count: 해당 column에서 비어 있지 않은 값의 개수
 - mean: 평균
 - std: 표준편차
 - min: 최솟값 (이상치 포함)
 - 25% (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
 - 50% (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
 - 75% (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
 - max: 최댓값 (이상치 포함) 
 
 
 
- 이상치: 울타리 밖에 있는 부분을 이상치라고 정의함
   - 아래쪽 울타리: $Q_1$ - $1.5 * IQR$
   - 위쪽 울타리: $Q_3$ + $1.5 * IQR$
   - $IQR$ = $Q_3 - Q_1$
 
 
<img src="https://miro.medium.com/max/10125/1*NRlqiZGQdsIyAu0KzP7LaQ.png" width="700" height="500">

In [None]:
train.describe()

In [None]:
test.describe()

### pd.DataFrame.groupby()
 - 집단에 대한 통계량 확인 
 
<img src="https://s3.amazonaws.com/files.dezyre.com/images/Tutorials/Split+Apply+Combine+Strategy.png" width="700" height="500">

In [None]:
train.groupby('hour').mean() # hour별로 그룹화 한뒤에 각각에 평균을 해준다

In [None]:
train.groupby('hour').mean()['count'] # hour별로 그룹화 한뒤에 각각에 평균을 해준 값 중 'count'만을 뽑는다.

In [None]:
train.groupby('hour').mean()['count'].plot() # 시각화하여 확인. 기본 plot 사용 출근시간, 퇴근시간(8시, 18시)에 확연히 많아짐.

In [None]:
import matplotlib.pyplot as plt

### plt.plot()의 스타일

색깔

|문자열|약자|
|----|-----|
|blue|b|
|green|g|
|red|r|
|cyan|c|
|magenta|m|
|yellow|y|
|black|k|
|white|w|

마커

|마커|의미|
|----|----|
|.|점|
|o|원|
|v|역삼각형|
|^|삼각형|
|s|사각형|
|*|별|
|x|엑스|
|d|다이아몬드|

선

|문자열|의미|
|-----|-----|
| - | 실선|
|-- | 끊어진 실선|
| -.| 점+실선|
|:|점선|

In [None]:
plt.plot(train.groupby('hour').mean()['count'], 'go-')
plt.grid()

### plt.title(label, fontsize)
- 그래프 제목 생성

### plt.xlabel(label, fontsize)
- x축 이름 설정

### plt.ylabel(label, fontsize)
- y축 이름 설정

### plt.axvline(x, color)
- 축을 가로지르는 세로 선 생성

### plt.text(x, y, s, fontsize)
- 원하는 위치에 텍스트 생성

In [None]:
plt.plot(train.groupby('hour').mean()['count'], 'go-')
plt.grid()

plt.title('count by hours', fontsize = 15)
plt.xlabel('hours', fontsize = 15)
plt.ylabel('count', fontsize = 15)

plt.axvline(8, color='r')
plt.axvline(18, color='r')

plt.text(8, 120, 'go work', fontsize = 10)
plt.text(18, 120, 'leave work', fontsize = 10)

# pt.savefig('picture.png') 그림 저장하는 법

### 상관계수

- 상관계수: 두 개의 변수가 같이 일어나는 강도를 나타내는 수치 
- -1에서 1사이의 값을 지닙니다. 
- -1이나 1인 수치는 현실 세계에서 관측되기 힘든 수치입니다. 
- 분야별로 기준을 정하는 것에 따라 달라지겠지만, 보통 0.4이상이면 두 개의 변수간에 상관성이 있다고 얘기합니다. 

![상관계수](https://t1.daumcdn.net/cfile/tistory/99DEE1425C6A9F2008)

- 상관관계는 인과관계와 다릅니다. 아래의 예시를 확인해 봅시다.

![상관성 예시](https://miro.medium.com/max/684/1*JLYI5eCVEN7ZUWXBIrrapw.png)

- 선글라스 판매량이 증가함에 따라, 아이스크림 판매액도 같이 증가하는 것을 볼 수 있습니다. 
- 하지만 선글라스 판매량이 증가했기 **때문에** 아이스크림 판매액이 증가했다라고 해석하는 것은 타당하지 않습니다. 
- 선글라스 판매량이 증가했다는 것은 여름 때문이라고 볼 수 있으므로, 날씨가 더워짐에 따라 선글라스 판매량과 아이스크림 판매액이 같이 증가했다고 보는 것이 타당할 것입니다. 

### pd.DataFrame.corr()

- correlation coefficient 의 줄임말 입니다 

In [None]:
import seaborn as sns

In [None]:
plt.figure(figsize=(10,10)) # 도화지 크기를 키워줌
sns.heatmap(train.corr(), annot = True) # seaborn의 heatmap 함수에 train.corr() 상관계수를 넣어준다.
                                        # annot < 수치도 같이 나타내줌

## 3. 데이터 전처리
## Data Cleansing & Pre-Processing  

### pd.Series.isna()
- 결측치 여부를 확인해줍니다.
- 결측치면 True, 아니면 False

In [None]:
train.isna().sum()

In [None]:
train[train['hour_bef_temperature'].isna()] # 1시간전 온도의 결측치가 어디있는 뒤 찾은 뒤 그 인덱스를 적용

In [None]:
train[train['hour_bef_windspeed'].isna()] # 마찬가지로 1시간전 풍속 - 노가다

여기서, 결측치의 대체 방안으로 중간값이나 평균을 쓰는 것은 이상함. 
8시와 18시의 온도가 결측치인데, 아침과 밤의 온도는 확연히 다르기에 이 점을 고려해주어야함.

In [None]:
train.groupby('hour').mean()['hour_bef_temperature'].plot()

In [None]:
plt.axhline(train .groupby('hour').mean()['hour_bef_temperature'].mean())
# 만약 그냥 평균으로 대체한다면? // 평균을 수평선으로 그어서 확인.
# 8시와 18시는 평균과 꽤 차이가 나는 것을 볼 수 있다.

In [None]:
train.groupby('hour').mean()['hour_bef_windspeed'].plot()

### pd.DataFrame.fillna()
- 결측치를 채우고자 하는 column과 결측치를 대신하여 넣고자 하는 값을 명시해주어야 합니다.

In [None]:
train['hour_bef_temperature'].fillna({934:14.788136, 1035:20.926667}, inplace = True) 
# 8시, 18시의 평균온도를 넣어줌.

In [None]:
train['hour_bef_temperature'].fillna(18:3.281356, 244:1.836667, 260:1.620000, 376:1.965517, 780:3.278333, 934:1.965517, 1035:3.838333, 1138:2.766667, 1229:1.633333}, inplace = True) 

In [None]:
train.isna().sum() # 결측치가 모두 채워졌음을 알 수 있다.

여기까지가 train 결측치 제거. 이번엔 test 결측치를 제거한다.

In [None]:
test.isna().sum() # 결측치가 모두 채워졌음을 알 수 있다.

In [None]:
test[test['hour_bef_temperature'].isna()]

test의 전날 온도 결측치를 train set의 평균으로 대체해주도록 하겠다.

In [None]:
# train의 시간별 전날 온도 확인 / 19시 : 19.704918
train.groupby('hour').mean()['hour_bef_temperature']

In [None]:
# 결측치가 하나니까, 인덱싱할 필요없이 전체에 적용되는 함수를 사용해보도록함.

SyntaxError: ignored

In [None]:
test['hour_bef_temperature'].fillna(19.704918, inplace = Ture)

In [None]:
test[test['hour_bef_windspeed'].isna()] # test풍속도 대체해주도록함. 19시 train의 평균 : 3.595082

In [None]:
test['hour_bef_windspeed'].fillna(3.595082, inplace = Ture)

In [None]:
test.isna().sum() # 사용하는 결측치 ( hour, 온도, 풍속 )의 결측치가 없음을 알 수 있다.

## 4. 변수 선택 및 모델 구축
## Feature Engineering & Initial Modeling  

In [None]:
features = ['hour', 'hour_bef_temperature', 'hour_bef_windspeed']
X_train = train[feautres]
Y_train = train['count']
X_test = test[features]

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)

NameError: ignored

### sklearn.ensemble.RandomForestRegressor()
- 랜덤 포레스트 모형

RandomForestRegressor()에 커서를 올리고 ctrl + space를 하면 인자들을 볼 수 있음.
랜덤포레스트와 의사결정트리의 인자가 매우 비슷함을 알 수 있음.

DecisionTreeRegressor()

In [None]:
model100 = RandomForestRegressor(n_estimators=100, random_state=0)
model100_5 = RandomForestRegressor(n_estimators=100, max_depth = 5, random_state=0)
model200 = RandomForestRegressor(n_estimators=200)

**이렇게 다양한 실험을 해보며 가장 적합한 옵션을 찾아가는 과정을 실행. 이것을 '튜닝'이라고 한다.**

## 5. 모델 학습 및 검증
## Model Tuning & Evaluation

### model.fit()
- 모델 학습

In [None]:
model100.fit(X_train, y_train)
model100_5.fit(X_train, y_train)
model200.fit(X_train, y_train)

### model.predict()
- 모델 예측

In [None]:
ypred1 = model100.predict(X_test)
ypred2 = model100_5.predict(X_test)
ypred3 = model200.predict(X_test)

### pd.DataFrame.to_csv()
 - csv파일 저장하는 함수

In [None]:
submission['count'] = ypred1
submission.to_csv('model100.csv', index = False)

NameError: ignored

In [None]:
submission['count'] = ypred2
submission.to_csv('model100_5.csv', index = False)

In [None]:
submission['count'] = ypred3
submission.to_csv('model200.csv', index = False)

## 6. 결과 및 결언
## Conclusion & Discussion