# Data Analysis
데이터 분석 활용 코드 Repository로 Kaggle과 같은 Data Competition에서 활용할 수 있는 code를 정리해놓은 곳입니다.

기본적인 process를 알 수 있는 code를 시작으로 데이터 분석을 위한 모듈도 만들고 활용 code를 모을 것입니다.

많은 사람들이 대회에 접해서 data 활용 스킬을 길렀으면 좋겠습니다.

아직까지 ML/DL/AI 의 용어활용이 모호한 것 같습니다. 
그래서 저는 data analysis 즉, 데이터분석이 있어야 모델링하여 예측하기 때문에 데이터분석에 초점을 둘 것입니다.

# 1. Library Setting & Data Load

In [None]:
import pandas as pd                         # 데이터 분석 패키지
import numpy as np                          # 계산 패키지

import seaborn as sns                   # 데이터 시각화 라이브러리
import matplotlib.pyplot as plt         # 데이터 시각화 라이브러리

import sys
import os
print ('Python version ->', sys.version)
print ('Numpy version ->', np.__version__)
print ('Pandas version ->', pd.__version__)

print (os.listdir('../data'))           #본인의 데이터 파일 경로 설정

In [None]:
datapath = '../data/' 

train = pd.read_csv(datapath + 'train.csv')
test = pd.read_csv(datapath + 'test.csv')
submission = pd.read_csv(datapath + 'submission.csv')

# 2.Data Description

#### train
* 입력

#### test
* 입력

#### submission
* 입력

In [None]:
train.head()

In [None]:
test.head()

In [None]:
#결측값 및 데이터형태 확인
train.info()

# 3.EDA & Preprocessing & Engineering

## 데이터 왜도, 첨도 확인

In [None]:
#column명과 dataframe을 대입하면 왜도와 첨도를 수치로 알려주고 모두 그래프로 그려줍니다.
import math
import seaborn as sns                   # 데이터 시각화 라이브러리
import matplotlib.pyplot as plt         # 데이터 시각화 라이브러리

def ske_kur_check(columns, df, figsize = (15,10)):
    num = len(columns)

    row_num = math.ceil(num/2)

    f, ax = plt.subplots(row_num, 2, figsize = figsize)

    count = 0

    try:
        for row in range(row_num):
  
          for col in range(2):
            sns.distplot(df[columns[count]], ax=ax[row][col])
            print("%s -> Skewness: %f, Kurtosis: %f" %  (columns[count],df[columns[count]].skew(),
                                                 df[columns[count]].kurt()))
            count += 1

    except IndexError:
        print('columns count is odd')

In [None]:
train.columns

In [None]:
dep_columns = train.columns[:-1]
indep_column = train.columns[-1]

In [None]:
X_train = train[dep_columns]
y_train = train[indep_column]

## 상관관계 확인 (Correlation Check)

# 4.Model Traing & Validation

현재 제 기준에서 경험적으로 봤을 때, XGBoost와 LightGBM이 제일 강력한 모델인 것 같습니다.

추가적으로 sklearn에 RandomForest도 활용할 수 있다고 생각합니다. (sklearn.ensemble.randomforest~)

신경망모델을 사용하지 않으면, 위 두가지 모델이 제일 강력하여 기본적으로 사용하는 코드를 작성했습니다.

In [None]:
import xgboost as xgb                       # XGBoost 패키지
import lightgbm as lgb                      # LightGBM - 패키지

## XGBoost 학습

In [None]:
def xgb_train(X_train, y_train, params):
    
    train = xgb.DMatrix(data = X_train, label = y_train)
    
    print("cv start")
    cv_result = xgb.cv(
        params,
        train,
        num_boost_round=99999,
        nfold=5,
        early_stopping_rounds=100,
        stratified=False,
        verbose_eval=10)

    print("train start")
    xgb_model = xgb.train(
        params,
        train,
        num_boost_round=cv_result.shape[0])
    
    return xgb_model

In [None]:
#y가 한개인 경우

xgb_params = {
            'objective': 'reg:squarederror',
            'eval_metric': 'mae',
            'seed':2020
            }

xgb_models = xgb_train(X_train, y_train, xgb_params)

In [None]:
#y가 여러개 인경우

xgb_params = {
            'objective': 'reg:squarederror',
            'seed':2020
            }

xgb_models = {}
for label in y_train.columns:
    print('train column : ', label)
    xgb_models[label] = xgb_train(train_df, y_train[label], xgb_params)

## LightGBM 학습

In [None]:
def lgb_train(X_train, y_train, params):
    features = list(X_train.columns)
    feature_importance_df = pd.DataFrame()
    
    train = lgb.Dataset(X_train, label=y_train)

    print("cv start")
    cv_result = lgb.cv(
        params,
        train,
        num_boost_round=99999,
        nfold=5,
        early_stopping_rounds=10,
        stratified=False,
        verbose_eval=500
    )

    print("train start")
    lgb_model = lgb.train(
        params,
        train,
        num_boost_round=len(cv_result["l1-mean"])
    )
    
    print("importance feature")
    
    feature_importance_df['feature'] = features
    feature_importance_df['importance'] = lgb_model.feature_importance()
    
    return lgb_model, feature_importance_df

In [None]:
# y가 한개인경우

lgb_params = {
        "objective":"regression",
        "metrics":"mae",
        "learning_rate":0.01,
        'seed':2020
}

lgb_models, lgb_features = lgb_train(X_train, y_train, lgb_params)

In [None]:
# y가 여러개인경우

lgb_params = {
        "objective":"regression",
        "metrics":"mae",
        "learning_rate":0.01,
        'seed':2020
}

lgb_models = {}
lgb_features = {}
for label in y_train.columns:
    print('train column : ', label)
    lgb_models[label], lgb_features[label] = lgb_train(train_df, y_train[label], lgb_params)

## model averaging

보통 2가지 모델을 합치는 경우에선 항상 좋은 결과를 이뤄냈기에 ensemble 기법중 가장 간단한 평균법을 사용하여 최종 결과물을 만들겠습니다.

In [None]:
xgb_pred = xgb_model.predict(xgb.DMatrix(test.loc[:, dep_columns]))
lgb_pred = lgb_model.predict(test.loc[:, dep_columns])

In [None]:
submission.iloc[:, 1] = (xgb_pred+lgb_pred)/2

## Save submission file 

In [None]:
#submission file 관리를 위해 파일 저장시 현재시간을 파일이름으로 저장
#신경망 모델 활용 시 weights 저장 파일이름에서도 활용 가능

from datetime import datetime
from pytz import timezone

date_today = datetime.now(timezone('Asia/Seoul')).strftime("%Y%m%dT%H%M")
print('today time : ' + date_today)

submission.to_csv(datapath + '{}.csv'.format(date_today), index=False)