# Load modules

In [None]:
import sys, os
import gc
import time
import copy
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import configparser
from glob import glob
from pathlib import Path

%matplotlib inline

In [None]:
# third-party module
import japanize_matplotlib

In [None]:
gc.collect()

# Configuration

## warningの削除

In [None]:
# warningの削除
import warnings
warnings.filterwarnings('ignore')

## 左寄せにするマジックコマンド

In [None]:
%%html
<style>
    table{float:left}
    .MathJax{float: left;}
</style>

## データフレームの表示設定

In [None]:
# データフレームの表示行数、表示列数
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 200)

# カラム内の文字数。デフォルトは50。
pd.set_option('display.max_colwidth', 100)

## パスの設定

In [None]:
# ファイルのパス
path = os.getcwd()
# 一応チェンジディレクトリしておく
os.chdir(path)

# Constants

## paths

In [None]:
# 入力データ
input_path = '../input/'

# 出力データ
output_path = '../output/'

# 中間データ
interm_path = '../intermediate/'

## features

In [None]:
# 説明変数
features = []

## target

In [None]:
# 目的変数
target = ''

# Functions

## pro_round

In [None]:
def pro_round(num, ndigits=0):
    """
    数字を四捨五入で丸める。

    Args:
        num: int or float
            丸めたい数字。

        ndigits: int, optional(default=0)
            丸めた後の小数部分の桁数。

    Returns:
        rounded: int or float
            丸めた後の数字。
    """
    num *= 10 ** ndigits
    rounded = ( 2 * num + 1 ) // 2
    rounded /= 10 ** ndigits

    if ndigits == 0:
        rounded = int(rounded)

    return rounded

## sturges_rule

In [None]:
def sturges_rule(num):
    """
    スタージェスの公式を用いて、
    サンプルサイズから階級(カテゴリ、ビン(bins))の数を計算する。
    公式のTeX表記: \[bins = 1 + \log_2{N} \nonumber \]

    Args:
        num: int
            サンプルサイズ。原則1以上の整数を想定。
    
    Returns:
        n_bins: int
            スタージェスの公式から導かれた適切な階級の数。
    """
    # numが0以下の時は1を返す
    if num <= 0:
        num = 1
        return 1
    
    # スタージェスの公式
    n_bins = int(pro_round(1 + np.log2(num), 0))
    
    return n_bins

## print_elapsed_time

In [None]:
def print_elapsed_time(start):
    """
    経過時間を表示する。
    使用前にtime.time()でスタート時間を取得しておく。

    Args:
        start: float
            計測開始時間。
    
    Returns:
        elapsed_time: float
            経過時間。
    """
    end = time.time()
    elapsed_time = float(end - start)
    rounded_elapsed_time = pro_round(num=elapsed_time, ndigits=1)
    print('elapsed time:', rounded_elapsed_time, 's')
    return elapsed_time

## list_segments

In [None]:
def list_segments(dir_path='./', rescursive=False, extension=None):
    """
    dir_path以下にあるファイルの相対パスのリストを返す

    Args:
        dir_path: str, optional(default='./')
            検索したいディレクトリのパス。

        rescursive: bool, optional(default=False)
            再帰的に検索するかどうか。

        extension: str, list of str or tuple of str, optional(default=None)
            拡張子。'csv'とか['csv', 'xlsx']とかみたいな形で指定。

    Returns:
        path_list: list of str
            ファイルの相対パスのリスト。
    """
    # ディレクトリ
    dir_p = Path(dir_path)

    # 再帰的に検索するかどうか
    resc_path = './*'
    if rescursive:
        resc_path = '**/*'

    # 拡張子
    if extension is None:
        ext_list = ['']
    elif (type(extension) == tuple) or (type(extension) == list):
        extension = list(extension)
        ext_list = ['.' + str(ii) for ii in extension]
    else:
        ext_list = ['.' + str(extension)]

    # それぞれの拡張子について検索
    path_list = []
    for ext in ext_list:
        path_list += list(dir_p.glob(resc_path + ext))

    # strに直す
    path_list = [str(ii) for ii in path_list]
    # 重複の削除
    path_list = sorted(set(path_list), key=path_list.index) # 3.6以降ではl=list(dict.fromkeys(l))でも

    return path_list

In [None]:
# list segmentsのエイリアス
ls = list_segments

# Load data

## get file paths

In [None]:
# inputディレクトリに置かれたファイルパス一覧
paths = ls(input_path)
paths

# Exploratory data analysis

# Preprocessing

# Modeling

# Predict

# Output

# Check memory

In [None]:
mem_cols = ['Variable Name', 'Memory']
memory_df = pd.DataFrame(columns=mem_cols)

for var_name in dir():
    if not var_name.startswith("_"):
        memory_df = memory_df.append(pd.DataFrame([[var_name, sys.getsizeof(eval(var_name))]], columns=mem_cols))

memory_df = memory_df.sort_values(by='Memory', ascending=False).reset_index(drop=True)
display(memory_df)