### Data Science Project Life-Cycle
##### 1. Domain Understanding - 대상 분야 이해
##### 2. Data Understanding - 데이터 이해하기
##### 3. Data Exploration - 데이터 탐색
##### 4. Data Preparation - 데이터 준비
##### 5. Model Planning - 모델 기획
##### 6. Model Building - 모델 수립
##### 7. Communicate Results - 결과 토의
##### 8. Operationalize - 사내 시스템 적용

# 데이터 준비 단계
* 모델링 알고리즘에 집어넣기 위해 데이터 셋을 준비하는 단계
* 학습 / 평가용으로 데이터 셋 분리 -> row 분리
* feature / label 분리 -> column 분리
* A가 B에 영향을 주나? 또는 상관/연관이 있나? 라는 문장이 있다면
* 각 컬럼은 A 또는 B에 들어갑니다.
* A로 B 설명 가능?
* A에 들어가는 컬럼들을 Feature 라 합니다.
* B에 들어가는 컬럼을 Label 이라 합니다.

In [None]:
import pandas as pd
df = pd.read_csv('processed.csv')
print(df.shape)
df.head()

In [None]:
df.describe().columns

In [None]:
features = ['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp',
       'humidity', 'windspeed', 'year','month', 'day', 'hour', 'dayofweek']
label = 'count'
# label 은 알고리즘에서 맞추고자 하는 대상입니다.
# 따라서 feature 들로 label을 맞추고자 하는 것입니다.
# 날짜와 날씨 정보를 이용해 자전거 수요량을 알아맞추고자 합니다.
X, y = df[features], df[label]
# f(X) -> y
# f? 

# 학습의 분야
* 지도학습(supervised learning)
* 수치를 맞추는 경우(회귀, regression), 경우의 수를 맞추는 경우(분류, classification)
* 비지도학습(unsupervised learning)
* 알고리즘이 데이터 안의 패턴을 스스로 찾아내게 만드는 과정

In [None]:
from sklearn.tree import DecisionTreeRegressor as dt
from sklearn.ensemble import RandomForestRegressor as rf
from sklearn.ensemble import GradientBoostingRegressor as gb
model = dt()
# regressor 라는 것은 label(맞추고자 하는 값)이 수치인 경우
# 다음 주에 다룰 classifier 는 label이 경우의 수입니다.
model.fit(X, y) # 공부
# fit 이라는 것은 공부(학습)를 하는 것입니다.
# X에 들어있는 날짜, 날씨 정보 이용해 y에 있는 수요량을 맞추게끔
# 학습을 진행합니다.
model.score(X, y) # 시험
# 잘 맞췄는지 못 맞췄는지 평가하려면 숫자이기 때문에 
# 예측한 숫자가 원래 숫자와 얼마나 가까운가? 로 판단합니다.
# R2(R-squared) 라고 하는 평가 지표입니다.(점수 산정 방식)
# R2 의 특징은 보통 0 ~ 1 사이의 값을 갖고, 1에 가까울수록 예측을 잘 한 것입니다.
# 가끔씩 - 값을 갖는 경우도 있는데, 예측을 아주 못 했다고 보시면 되겠습니다.
# .fit에서 공부한 데이터와 .score로 시험 본 데이터는 같은 데이터입니다.
# 이러면 학습이 제대로 되지 않았다고 해도 고득점이 가능할 것입니다.
# 공부할 문제와 시험 볼 문제를 나누어야 합니다.

In [None]:
import seaborn as sns
for_plot = pd.DataFrame()
for_plot['predict'] = model.predict(X)
for_plot['actual'] = y
sns.scatterplot(data=for_plot, x='actual', y='predict')

In [None]:
train, test = df[0::2], df[1::2]
# 홀 / 짝 기준으로 학습용과 시험용 데이터 셋을 분할하였습니다.
train, test = train.reset_index(), test.reset_index()
# 인덱스(순서)를 다시 매겨주기 위해서 reset_index() 이용하였습니다.
X_train, y_train = train[features], train[label]
X_test, y_test = test[features], test[label]
# X, y 나눈것과 동일하게 feature 와 label 로 문제 부분과 정답 부분을 나누어 줍니다.
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
# dt, rf, gb
model = rf()
model.fit(X_train, y_train) # 공부용 문제집과 공부용 정답지 주고 공부 시작
model.score(X_test, y_test) # 시험용 문제집과 시험용 정답지 주고 시험 시작

In [None]:
import seaborn as sns
for_plot = pd.DataFrame()
for_plot['predict'] = model.predict(X_test)
for_plot['actual'] = y_test
sns.scatterplot(data=for_plot, x='actual', y='predict')

##### feature selection - 변수 선택법
* 알고리즘에 집어넣을 변수를 선택하는 방법
* 알고리즘에 넣을 변수는 정확도가 유사하다면 변수 개수가 적을수록 좋습니다.
* 1. 단변량 - filter -> 컬럼 하나 정해서 한 컬럼이 의미가 있나 보는 것(기초통계)
* 2. 전진/후진 선택법 - wrapper -> 하나씩 넣으며 점수 확인, 하나씩 빼며 점수 확인
* 3. 임베드 - embed -> 알고리즘의 성질 이용(알고리즘 내부를 뜯어볼 수 있는 경우)
* 4. SHAP, permutaion importance
* ---알코반에서는 다루지 않음, 원래는 이 용도로 만들어진 것이 아님

In [None]:
model = rf()
model.fit(X_train, y_train)
test_score = model.score(X_test, y_test)
train_score = model.score(X_train, y_train)
print(train_score, test_score)

##### filter method
* 한 컬럼만 딱 정해서 통계량을 뽑는 것입니다.
* 예) 표준편차가 0에 가깝다? 또는 다른 feature들과 상관관계가 너무 높다?

In [None]:
df['for_filter'] = 1
df.describe().T.sort_values('std')['std']

In [None]:
sns.scatterplot(data=df, x='temp', y='atemp')

In [None]:
df.corr()
# df.corr() 이용하면 각 컬럼간 상관계수가 들어있는
# 상관계수행렬 이라고 하는 정보가 나옵니다.

In [None]:
import matplotlib.pyplot as plt
fig, ax1 = plt.subplots()
fig.set_size_inches(16, 8)
sns.heatmap(df.corr(), ax=ax1)
# 이를 숫자 대신 그래프로 보기 위해 heatmap 방식을 이용합니다.

##### filter 방식으로 변수 선택한 결과
* temp, atemp 사이에 상관계수가 높았기 때문에 둘 중 하나를 제거.

In [None]:
features = ['season', 'holiday', 'workingday', 'weather', 'temp', 'humidity', 
            'windspeed', 'year', 'month', 'day', 'hour', 'dayofweek']

##### wrapper - 전진 / 후진 선택
* feature에 변수를 추가 / 제거하면 모델의 성능이 달라질 것이다.

In [None]:
def df_split(df, features, label):
    # 데이터 셋, feature 대상, label 을 넣었을 때
    # 데이터 셋 분할을 해 주는 함수를 만들어주었습니다.
    train, test = df[0::2], df[1::2]
    train, test = train.reset_index(), test.reset_index()
    X_train, y_train = train[features], train[label]
    X_test, y_test = test[features], test[label]
    return X_train, y_train, X_test, y_test

In [None]:
sample_features = ['temp', 'holiday', 'temp']
X_train, y_train, X_test, y_test = df_split(df, sample_features, 'count')
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
from itertools import combinations as co
sample_bag = [1, 2, 3]
for c in co(sample_bag, 2):
    # co(sample_bag, 2) 는 sample_bag 으로부터 2개를 뽑는 경우의 수 입니다.
    print(c)

##### 전진 선택법(Forward 방식)

In [None]:
all_result = []
for c in co(features, 2):
    # co(features, 2) 는 features 으로부터 2개를 뽑는 경우의 수 입니다.
    X_train, y_train, X_test, y_test = df_split(df, list(c), 'count')
    # features 로부터 2개씩 뽑고, 이를 이용해 feature로 사용합니다.
    # 그러면 예측에 필요한 재료가 달라진 데이터 셋이 완성되게 됩니다.
    model = rf()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    sub_result = {'combination' : str(c), 'score' : score}
    # 이 조합일 때 이 점수였다는 정보를 딕셔너리로 만들어줍니다.
    all_result.append(sub_result)
    # 한 번 반복시마다 한 조합과 그 조합의 점수가 나오게 됩니다.
    # 이를 리스트에 차곡차곡 쌓았습니다.
result_df = pd.DataFrame(all_result).sort_values(by='score')
# 같은 키를 공유하는 딕셔너리들이 리스트에 들어있으면
# 이를 이용해 데이터 프레임을 만들어낼 수 있습니다.

In [None]:
result_df.tail()

In [None]:
feature_candidate = ['season', 'holiday', 'weather', 'temp', 'humidity',
                      'windspeed', 'year', 'month', 'day', 'dayofweek']
# 가장 점수가 잘 나왔던 조합인 ['workingday', 'hour'] 를 제외하고
# 하나 추가할 feature의 후보군을 추리기 위해 feature_cand 를 만들어 줍니다.

In [None]:
for c in feature_candidate:
    good_features = ['workingday', 'hour']
    good_features.append(c)
    X_train, y_train, X_test, y_test = df_split(df, good_features, 'count')
    model = rf()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    sub_result = {'combination' : str(good_features), 'score' : score}
    all_result.append(sub_result)
result_df = pd.DataFrame(all_result).sort_values(by='score')

In [None]:
result_df.tail()

In [None]:
feature_candidate = ['season', 'holiday', 'weather', 'temp', 'humidity',
                      'windspeed', 'month', 'day', 'dayofweek']

In [None]:
for c in feature_candidate:
    good_features = ['workingday', 'hour', 'year']
    good_features.append(c)
    X_train, y_train, X_test, y_test = df_split(df, good_features, 'count')
    model = rf()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    sub_result = {'combination' : str(good_features), 'score' : score}
    all_result.append(sub_result)
result_df = pd.DataFrame(all_result).sort_values(by='score')

In [None]:
result_df.tail()

##### 후진 제거(Backward 방식)
* 하나씩 제거하는 방식
* 전체 feature를 다 집어넣은 상태에서 시작
* 하나씩 빼 가면서 점수를 확인합니다.

In [None]:
all_result = []
for item in co(features, len(features)-1):
    target = list(item)
    X_train, y_train, X_test, y_test = df_split(df, target, 'count')
    model = rf()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    dropped = str(set(features) - set(target))
    sub_result = {'dropped' : dropped, 'score' : score}
    all_result.append(sub_result)
result_df = pd.DataFrame(all_result).sort_values(by='score')

In [None]:
result_df.tail()

In [None]:
from sklearn.feature_selection import RFE
# recursive feature ellimination
# 직접 구현하지 안아도 sklearn에서 이미 도구로 구현되어있음
rfe = RFE(estimator=model)
rfe.fit(X_train, y_train)

for_rfe = pd.DataFrame()
for_rfe['ranking'] = rfe.ranking_
for_rfe['features'] = X_train.columns
for_rfe.sort_values(by='ranking')

##### embed - 임베드 방식, 알고리즘 내부를 뜯어볼 수 있는 경우.
* 내부에서 각 feature 구성요소들이 얼마나 사용되었는지를 알아보는 방식
* 알고리즘 중에서는 내부에 변수의 중요도를 내포하고 있는 것들이 있습니다.
* 이러한 알고리즘들을 이용해 변수의 중요도를 파악, 중요도 낮은 것을 지울 수 있습니다.
* Tree 계열, Regularizer 가 있는 경우
* Random Forest, Decision Tree 등이 Tree 계열
* L1(lasso), L2(ridge) regularizer 가 있는 경우. L1 많이 사용.

In [None]:
model = rf()
model.fit(X_train, y_train)
model.feature_importances_
X_train.columns

In [None]:
scores = pd.DataFrame()
scores['feature'] = X_train.columns
scores['importance'] = model.feature_importances_
scores = scores.sort_values(by='importance')
scores.head()

# kaggle 따라잡기

In [1]:
import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
print(train.shape)
print(test.shape)

(10886, 12)
(6493, 9)


In [2]:
datetimer = train['datetime'].apply(lambda x : pd.to_datetime(x))
train['year'] = datetimer.apply(lambda x : x.year)
train['month'] = datetimer.apply(lambda x : x.month)
train['hour'] = datetimer.apply(lambda x : x.hour)
train['dayofweek'] = datetimer.apply(lambda x : x.dayofweek)

datetimer = test['datetime'].apply(lambda x : pd.to_datetime(x))
test['year'] = datetimer.apply(lambda x : x.year)
test['month'] = datetimer.apply(lambda x : x.month)
test['hour'] = datetimer.apply(lambda x : x.hour)
test['dayofweek'] = datetimer.apply(lambda x : x.dayofweek)

In [3]:
test.describe().columns

Index(['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp',
       'humidity', 'windspeed', 'year', 'month', 'hour', 'dayofweek'],
      dtype='object')

In [7]:
# data preparation 단계
features = ['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp',
       'humidity', 'windspeed', 'year', 'month', 'hour', 'dayofweek']
label = 'count'
X_train, y_train = train[features], train[label]
X_test = test[features]

In [8]:
# Modelling 단계
from sklearn.ensemble import RandomForestRegressor as rf
model = rf()
model.fit(X_train, y_train)
test['count'] = model.predict(X_test)

In [9]:
interested = ['datetime', 'count']
test[interested].to_csv('submit.csv', index=False)