In [1]:
import numpy as np
import pandas as pd
import sklearn as sk

In [2]:
print(np.__version__)
print(pd.__version__)
print(sk.__version__)

1.17.0
1.0.3
0.22


### 맞는 버전
 * numpy : 1.17
 * scikit learn : 0.22

### page 121

```
# 결측치를 지정하고 train.csv를 불러오기
train = pd.read_csv('train.csv', na_values=['', 'NA', -1, 9999])
```

### page 122

```
# 열 col1의 값 -1을 결측치(nan)으로 변환
train = pd.read_csv('train.csv', na_values=['', 'NA', -1, 9999])
```

In [3]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）

train = pd.read_csv('../input/sample-data/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed.csv')

# 説明用に学習データとテストデータの元の状態を保存しておく
train_x_saved = train_x.copy()
test_x_saved = test_x.copy()


# 学習データとテストデータを返す関数
def load_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()
    return train_x, test_x


# 変換する数値変数をリストに格納
num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

### page 124

In [4]:
### 사전 준비
# -----------------------------------
# 표준화
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------

In [5]:
from sklearn.preprocessing import StandardScaler

# 학습 데이터를 기반으로 복수열의 표준화를 정의
# 学習データに基づいて複数列の標準化を定義
scaler = StandardScaler()
scaler.fit(train_x[num_cols])

# 변환 후의 데이터를 컬럼명을 치환
# 変換後のデータで各列を置換
train_x[num_cols] = scaler.transform(train_x[num_cols])
test_x[num_cols] = scaler.transform(test_x[num_cols])

### page 125

In [6]:
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------
from sklearn.preprocessing import StandardScaler

# 학습데이터와 테스트 데이터를 결합한 데이터를 기준으로 복수 열의 표준화를 정의
# 学習データとテストデータを結合したものに基づいて複数列の標準化を定義
scaler = StandardScaler()
scaler.fit(pd.concat([train_x[num_cols], test_x[num_cols]]))

# 변환 후, 데이터의 컬럼명을 치환
# 変換後のデータで各列を置換
train_x[num_cols] = scaler.transform(train_x[num_cols])
test_x[num_cols] = scaler.transform(test_x[num_cols])

### page 126

In [7]:
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------

In [8]:
from sklearn.preprocessing import StandardScaler

# 학습 데이터와 테스트 데이터를 각각 표준화(나쁜 예）
scaler_train = StandardScaler()
scaler_train.fit(train_x[num_cols])
train_x[num_cols] = scaler_train.transform(train_x[num_cols])
scaler_test = StandardScaler()
scaler_test.fit(test_x[num_cols])
test_x[num_cols] = scaler_test.transform(test_x[num_cols])

In [9]:
# -----------------------------------
# Min-Max 스케일링(scaling)
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [10]:
from sklearn.preprocessing import MinMaxScaler

# 학습 데이터를 기반으로 여러 열의 Min-Max 스케일링을 정의
scaler = MinMaxScaler()
scaler.fit(train_x[num_cols])

# 변환 후의 데이터로 각 열을 치환
train_x[num_cols] = scaler.transform(train_x[num_cols])
test_x[num_cols] = scaler.transform(test_x[num_cols])

### 3.4.3 비선형 변환(p127~ )

In [11]:
# -----------------------------------
# 로그 변환
# -----------------------------------
x = np.array([1.0, 10.0, 100.0, 1000.0, 10000.0])

# 간단하게 로그를 취함.
x1 = np.log(x)

# 1을 더한 후에 로그를 취함
x2 = np.log1p(x)

# 절대값의 로그를 취하고, 원래의 부호를 취한다.
x3 = np.sign(x) * np.log(np.abs(x))


In [12]:
# -----------------------------------
# Box-Cox 변환
# -----------------------------------
# 데이터의 불러오기
train_x, test_x = load_data()
# -----------------------------------

In [13]:
# 양의 값만을 취하는 변수를 변환 대상으로 하여 리스트에 추가한다.
# 또한 결측치도 포함하는 경우에는 (~)(train_x[c] <=0.0).all() 등으로 할 필요가 있으므로 주의
pos_cols = [c for c in num_cols if (train_x[c] > 0.0).all() and (test_x[c] > 0.0).all()]

from sklearn.preprocessing import PowerTransformer

# 학습 데이터를 기반으로 복수열의 Box-Cox 변환을 정의
pt = PowerTransformer(method='box-cox')
pt.fit(train_x[pos_cols])

# 변환 후의 데이터로 각 열 치환
train_x[pos_cols] = pt.transform(train_x[pos_cols])
test_x[pos_cols] = pt.transform(test_x[pos_cols])

In [14]:
# -----------------------------------
# Yeo-Johnson 변환
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------

In [15]:
from sklearn.preprocessing import PowerTransformer

# 학습 데이터를 기반으로 복수열의 Yeo-Johnson 변환을 정의
pt = PowerTransformer(method='yeo-johnson')
pt.fit(train_x[num_cols])

# 변환후의 데이터로 각 열을 치환
train_x[num_cols] = pt.transform(train_x[num_cols])
test_x[num_cols] = pt.transform(test_x[num_cols])

### 3.4.4 clipping

In [16]:
# -----------------------------------
# clipping
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------

In [17]:
# 열마다 학습 데이터의 1%점, 99%점 계산
p01 = train_x[num_cols].quantile(0.01)
p99 = train_x[num_cols].quantile(0.99)

# 1％ 점 이하의 값은 1%점에, 99%점 이상의 값은 99%점에 clipping 한다.
train_x[num_cols] = train_x[num_cols].clip(p01, p99, axis=1)
test_x[num_cols] = test_x[num_cols].clip(p01, p99, axis=1)


### 3.4.5 binning

In [18]:
# -----------------------------------
# binning
# -----------------------------------
x = [1, 7, 5, 4, 6, 3]

# pandas의 cut함수로 binning을 수행한다.

# bin의 수를 지정하는 경우,
binned = pd.cut(x, 3, labels=False)
print(binned)
# [0 2 1 1 2 0] - 변환된 값은 3개의 bin 중에 어떤 것에 포함되었는지 나타냄.

# bin의 범위를 지정하는 경우
# (3.0이하, 3.0보다 크게 5.0이하, 5.0보다 큼)
bin_edges = [-float('inf'), 3.0, 5.0, float('inf')]
binned = pd.cut(x, bin_edges, labels=False)
print(binned)
# [0 2 1 1 2 0] - 변환된 값은 3개의 bin 중 어느 것에 들어갔는지를 나타냄.

[0 2 1 1 2 0]
[0 2 1 1 2 0]


In [19]:
# -----------------------------------
# 순위의 변환
# -----------------------------------
x = [10, 20, 30, 0, 40, 40]

# pandas의 rank함수로 순위를 변환
rank = pd.Series(x).rank()
print(rank.values)
# 처음이 1, 같은 순위가 있을 경우, 평균 순위가 된다.
# [2. 3. 4. 1. 5.5 5.5]

# numpy의 argsort함수를 2회 적용하는 방법으로 순위를 변환
order = np.argsort(x)
rank = np.argsort(order)
print(rank)
# 시작이 0、같은 순위가 있는 경우는 어느쪽이든 상위가 된다.
# [1 2 3 0 4 5]

[2.  3.  4.  1.  5.5 5.5]
[1 2 3 0 4 5]


In [20]:
# -----------------------------------
# RankGauss
# -----------------------------------
# 데이터 불러오기
train_x, test_x = load_data()
# -----------------------------------


In [21]:
from sklearn.preprocessing import QuantileTransformer

# 학습 데이터를 기반으로 여러 열의 Rank Gauss를 통한 변환을 정의
transformer = QuantileTransformer(n_quantiles=100, random_state=0, output_distribution='normal')
transformer.fit(train_x[num_cols])

# 변환 후의 데이터로 각 열을 치환
train_x[num_cols] = transformer.transform(train_x[num_cols])
test_x[num_cols] = transformer.transform(test_x[num_cols])


### 3.5 범주형 변수의 변환

### 사전에 필요한 부분

In [22]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）

train = pd.read_csv('../input/sample-data/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test.csv')

# 説明用に学習データとテストデータの元の状態を保存しておく
train_x_saved = train_x.copy()
test_x_saved = test_x.copy()


# 学習データとテストデータを返す関数
def load_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()
    return train_x, test_x


# 変換するカテゴリ変数をリストに格納
cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

In [23]:
# -----------------------------------
# one-hot encoding
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [24]:
# 学習データとテストデータを結合してget_dummiesによるone-hot encodingを行う
all_x = pd.concat([train_x, test_x])
all_x = pd.get_dummies(all_x, columns=cat_cols)

# 学習データとテストデータに再分割
train_x = all_x.iloc[:train_x.shape[0], :].reset_index(drop=True)
test_x = all_x.iloc[train_x.shape[0]:, :].reset_index(drop=True)

In [25]:
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [26]:
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoderでのencoding
ohe = OneHotEncoder(sparse=False, categories='auto')
ohe.fit(train_x[cat_cols])

# ダミー変数の列名の作成
columns = []
for i, c in enumerate(cat_cols):
    columns += [f'{c}_{v}' for v in ohe.categories_[i]]

# 生成されたダミー変数をデータフレームに変換
dummy_vals_train = pd.DataFrame(ohe.transform(train_x[cat_cols]), columns=columns)
dummy_vals_test = pd.DataFrame(ohe.transform(test_x[cat_cols]), columns=columns)

# 残りの変数と結合
train_x = pd.concat([train_x.drop(cat_cols, axis=1), dummy_vals_train], axis=1)
test_x = pd.concat([test_x.drop(cat_cols, axis=1), dummy_vals_test], axis=1)

### 3.5.2 label encoding

In [27]:
# -----------------------------------
# label encoding
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [28]:
from sklearn.preprocessing import LabelEncoder

# カテゴリ変数をループしてlabel encoding
for c in cat_cols:
    # 学習データに基づいて定義する
    le = LabelEncoder()
    le.fit(train_x[c])
    train_x[c] = le.transform(train_x[c])
    test_x[c] = le.transform(test_x[c])

### 3.5.3 featuer hashing

In [29]:
# -----------------------------------
# feature hashing
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [30]:
from sklearn.feature_extraction import FeatureHasher

# カテゴリ変数をループしてfeature hashing
for c in cat_cols:
    # FeatureHasherの使い方は、他のencoderとは少し異なる

    fh = FeatureHasher(n_features=5, input_type='string')
    # 変数を文字列に変換してからFeatureHasherを適用
    hash_train = fh.transform(train_x[[c]].astype(str).values)
    hash_test = fh.transform(test_x[[c]].astype(str).values)
    # データフレームに変換
    hash_train = pd.DataFrame(hash_train.todense(), columns=[f'{c}_{i}' for i in range(5)])
    hash_test = pd.DataFrame(hash_test.todense(), columns=[f'{c}_{i}' for i in range(5)])
    # 元のデータフレームと結合
    train_x = pd.concat([train_x, hash_train], axis=1)
    test_x = pd.concat([test_x, hash_test], axis=1)

# 元のカテゴリ変数を削除
train_x.drop(cat_cols, axis=1, inplace=True)
test_x.drop(cat_cols, axis=1, inplace=True)

### 3.5.4 frequency encoding

In [31]:
# -----------------------------------
# frequency encoding
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [32]:
# 変数をループしてfrequency encoding
for c in cat_cols:
    freq = train_x[c].value_counts()
    # カテゴリの出現回数で置換
    train_x[c] = train_x[c].map(freq)
    test_x[c] = test_x[c].map(freq)

### 3.5.5 target encoing

In [33]:
# -----------------------------------
# target encoding
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [34]:
from sklearn.model_selection import KFold

# 変数をループしてtarget encoding
for c in cat_cols:
    # 学習データ全体で各カテゴリにおけるtargetの平均を計算
    data_tmp = pd.DataFrame({c: train_x[c], 'target': train_y})
    target_mean = data_tmp.groupby(c)['target'].mean()
    # テストデータのカテゴリを置換
    test_x[c] = test_x[c].map(target_mean)

    # 学習データの変換後の値を格納する配列を準備
    tmp = np.repeat(np.nan, train_x.shape[0])

    # 学習データを分割
    kf = KFold(n_splits=4, shuffle=True, random_state=72)
    for idx_1, idx_2 in kf.split(train_x):
        # out-of-foldで各カテゴリにおける目的変数の平均を計算
        target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
        # 変換後の値を一時配列に格納
        tmp[idx_2] = train_x[c].iloc[idx_2].map(target_mean)

    # 変換後のデータで元の変数を置換
    train_x[c] = tmp

### page 146

In [35]:
# -----------------------------------
# target encoding - クロスバリデーションのfoldごとの場合
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [36]:
from sklearn.model_selection import KFold

# クロスバリデーションのfoldごとにtarget encodingをやり直す
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_x)):

    # 学習データからバリデーションデータを分ける
    tr_x, va_x = train_x.iloc[tr_idx].copy(), train_x.iloc[va_idx].copy()
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

    # 変数をループしてtarget encoding
    for c in cat_cols:
        # 学習データ全体で各カテゴリにおけるtargetの平均を計算
        data_tmp = pd.DataFrame({c: tr_x[c], 'target': tr_y})
        target_mean = data_tmp.groupby(c)['target'].mean()
        # バリデーションデータのカテゴリを置換
        va_x.loc[:, c] = va_x[c].map(target_mean)

        # 学習データの変換後の値を格納する配列を準備
        tmp = np.repeat(np.nan, tr_x.shape[0])
        kf_encoding = KFold(n_splits=4, shuffle=True, random_state=72)
        for idx_1, idx_2 in kf_encoding.split(tr_x):
            # out-of-foldで各カテゴリにおける目的変数の平均を計算
            target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
            # 変換後の値を一時配列に格納
            tmp[idx_2] = tr_x[c].iloc[idx_2].map(target_mean)

        tr_x.loc[:, c] = tmp

    # 必要に応じてencodeされた特徴量を保存し、あとで読み込めるようにしておく

### page 147

In [37]:
# -----------------------------------
# target encoding - クロスバリデーションのfoldとtarget encodingのfoldの分割を合わせる場合
# -----------------------------------
# データの読み込み
train_x, test_x = load_data()
# -----------------------------------

In [38]:
from sklearn.model_selection import KFold

# クロスバリデーションのfoldを定義
kf = KFold(n_splits=4, shuffle=True, random_state=71)

# 変数をループしてtarget encoding
for c in cat_cols:

    # targetを付加
    data_tmp = pd.DataFrame({c: train_x[c], 'target': train_y})
    # 変換後の値を格納する配列を準備
    tmp = np.repeat(np.nan, train_x.shape[0])

    # 学習データからバリデーションデータを分ける
    for i, (tr_idx, va_idx) in enumerate(kf.split(train_x)):
        # 学習データについて、各カテゴリにおける目的変数の平均を計算
        target_mean = data_tmp.iloc[tr_idx].groupby(c)['target'].mean()
        # バリデーションデータについて、変換後の値を一時配列に格納
        tmp[va_idx] = train_x[c].iloc[va_idx].map(target_mean)

    # 変換後のデータで元の変数を置換
    train_x[c] = tmp

### 3.7 변수의 조합

In [39]:
import numpy as np
import pandas as pd

# -----------------------------------
# データの結合
# -----------------------------------
# データの読み込み
train = pd.read_csv('../input/ch03/multi_table_train.csv')
product_master = pd.read_csv('../input/ch03/multi_table_product.csv')
user_log = pd.read_csv('../input/ch03/multi_table_log.csv')

In [40]:
# -----------------------------------
# 図の形式のデータフレームがあるとする
# train         : 学習データ（ユーザID, 商品ID, 目的変数などの列がある）
# product_master: 商品マスタ（商品IDと商品の情報を表す列がある）
# user_log      : ユーザの行動のログデータ（ユーザIDと各行動の情報を表す列がある）

# 商品マスタを学習データと結合する
train = train.merge(product_master, on='product_id', how='left')

# ログデータのユーザごとの行数を集計し、学習データと結合する
user_log_agg = user_log.groupby('user_id').size().reset_index().rename(columns={0: 'user_count'})
train = train.merge(user_log_agg, on='user_id', how='left')

### 3.10.3 

In [41]:
# ワイドフォーマットのデータを読み込む
df_wide = pd.read_csv('../input/ch03/time_series_wide.csv', index_col=0)
# インデックスの型を日付型に変更する
df_wide.index = pd.to_datetime(df_wide.index)

print(df_wide.iloc[:5, :3])
'''
              A     B     C
date
2016-07-01  532  3314  1136
2016-07-02  798  2461  1188
2016-07-03  823  3522  1711
2016-07-04  937  5451  1977
2016-07-05  881  4729  1975
'''

# ロングフォーマットに変換する
df_long = df_wide.stack().reset_index(1)
df_long.columns = ['id', 'value']

print(df_long.head(10))
'''
           id  value
date
2016-07-01  A    532
2016-07-01  B   3314
2016-07-01  C   1136
2016-07-02  A    798
2016-07-02  B   2461
2016-07-02  C   1188
2016-07-03  A    823
2016-07-03  B   3522
2016-07-03  C   1711
2016-07-04  A    937
...
'''

# ワイドフォーマットに戻す
df_wide = df_long.pivot(index=None, columns='id', values='value')

              A     B     C
2016-07-01  532  3314  1136
2016-07-02  798  2461  1188
2016-07-03  823  3522  1711
2016-07-04  937  5451  1977
2016-07-05  881  4729  1975
           id  value
2016-07-01  A    532
2016-07-01  B   3314
2016-07-01  C   1136
2016-07-02  A    798
2016-07-02  B   2461
2016-07-02  C   1188
2016-07-03  A    823
2016-07-03  B   3522
2016-07-03  C   1711
2016-07-04  A    937


### 3.10.4 lag 종속변수

In [42]:
# -----------------------------------
# ラグ変数
# -----------------------------------
# ワイドフォーマットのデータをセットする
x = df_wide
# -----------------------------------

In [43]:
# xはワイドフォーマットのデータフレーム
# インデックスが日付などの時間、列がユーザや店舗などで、値が売上などの注目する変数を表すものとする

# 1期前のlagを取得
x_lag1 = x.shift(1)

# 7期前のlagを取得
x_lag7 = x.shift(7)

In [44]:
# 1期前から3期間の移動平均を算出
x_avg3 = x.shift(1).rolling(window=3).mean()

In [45]:
# 1期前から7期間の最大値を算出
x_max7 = x.shift(1).rolling(window=7).max()

In [46]:
# 7期前, 14期前, 21期前, 28期前の値の平均
x_e7_avg = (x.shift(7) + x.shift(14) + x.shift(21) + x.shift(28)) / 4.0

In [47]:
# 1期先の値を取得
x_lead1 = x.shift(-1)

### 3.10.5

In [48]:
# -----------------------------------
# ラグ変数
# -----------------------------------
# データの読み込み
train_x = pd.read_csv('../input/ch03/time_series_train.csv')
event_history = pd.read_csv('../input/ch03/time_series_events.csv')
train_x['date'] = pd.to_datetime(train_x['date'])
event_history['date'] = pd.to_datetime(event_history['date'])
# -----------------------------------

In [49]:
# train_xは学習データで、ユーザID, 日付を列として持つDataFrameとする
# event_historyは、過去に開催したイベントの情報で、日付、イベントを列として持つDataFrameとする

# occurrencesは、日付、セールが開催されたか否かを列として持つDataFrameとなる
dates = np.sort(train_x['date'].unique())
occurrences = pd.DataFrame(dates, columns=['date'])
sale_history = event_history[event_history['event'] == 'sale']
occurrences['sale'] = occurrences['date'].isin(sale_history['date'])

# 累積和をとることで、それぞれの日付での累積出現回数を表すようにする
# occurrencesは、日付、セールの累積出現回数を列として持つDataFrameとなる
occurrences['sale'] = occurrences['sale'].cumsum()

# 日付をキーとして学習データと結合する
train_x = train_x.merge(occurrences, on='date', how='left')

### 3.11 차원감소, 비지도학습학습에 따른 피처 생성

### 사전 준비

In [50]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）

train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')

# 説明用に学習データとテストデータの元の状態を保存しておく
train_x_saved = train_x.copy()
test_x_saved = test_x.copy()

from sklearn.preprocessing import StandardScaler, MinMaxScaler


# 標準化を行った学習データとテストデータを返す関数
def load_standarized_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()

    scaler = StandardScaler()
    scaler.fit(train_x)  # numpy version 1.18 error발생 
    train_x = scaler.transform(train_x)
    test_x = scaler.transform(test_x)
    return pd.DataFrame(train_x), pd.DataFrame(test_x)


# MinMaxスケーリングを行った学習データとテストデータを返す関数
def load_minmax_scaled_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()

    # Min-Max Scalingを行う
    scaler = MinMaxScaler()
    scaler.fit(pd.concat([train_x, test_x], axis=0))
    train_x = scaler.transform(train_x)
    test_x = scaler.transform(test_x)

    return pd.DataFrame(train_x), pd.DataFrame(test_x)

In [55]:
train_x1, test_x1 = train_x_saved.copy(), test_x_saved.copy()
scaler = StandardScaler()
train_x1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 59 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   age                  10000 non-null  int64  
 1   sex                  10000 non-null  int64  
 2   height               10000 non-null  float64
 3   weight               10000 non-null  float64
 4   product_0            10000 non-null  int64  
 5   product_1            10000 non-null  int64  
 6   product_2            10000 non-null  int64  
 7   product_3            10000 non-null  int64  
 8   product_4            10000 non-null  int64  
 9   product_5            10000 non-null  int64  
 10  product_6            10000 non-null  int64  
 11  product_7            10000 non-null  int64  
 12  product_8            10000 non-null  int64  
 13  product_9            10000 non-null  int64  
 14  product_10           10000 non-null  int64  
 15  amount               10000 non-null  

In [62]:
for i in train_x1.columns:
    print(i)
    print( train_x1[i].unique() )

age
[50 68 77 17 62 14 63 42  9 40 54  5 44 55 67 33 43 11 56 35  8 46 36 28
 39  6 27 34 18 73 37 65 47 51 25 66 12  7 45 49 59 53 64 78 13 10 52 71
 31 20 41 23 30 16 21 24 29 22 57 60 38 76 19 79 15 32 74 70 58 48 26 61
 72 75 69]
sex
[1 0]
height
[166.44560805 164.33461501 167.46291654 ... 145.60999802 165.79601735
 180.30176166]
weight
[65.01673234 56.54421749 54.24226666 ... 47.73939704 57.56769457
 71.42513527]
product_0
[0 1]
product_1
[0 1]
product_2
[0 1]
product_3
[0 1]
product_4
[0 1]
product_5
[0 1]
product_6
[0 1]
product_7
[0 1]
product_8
[0 1]
product_9
[1 0]
product_10
[0 1]
amount
[ 7000000  6000000  8000000  9000000    10000  3000000     2000     6000
  5000000  2000000  1000000  4000000     5000     4000     1000 10000000
     3000     7000     9000     8000]
medical_info_a1
[134 438 313 342 327 389  57 307 201 209 349 284 441 432 397 341 289 193
 476 292 323 399 250 410 325 371 360 303 321 332 318 230 136 252 421 248
 494 287 131 210 285 330 146 305 295 196 240  95

### 3.11.1 주성분 분석(PCA)

In [56]:
# -----------------------------------
# PCA
# -----------------------------------
# 標準化されたデータを用いる
train_x, test_x = load_standarized_data()
# -----------------------------------

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

### 3.11.1 은 에러 발생하여 이후부터

### 3.11.2 NMF

In [63]:
# -----------------------------------
# NMF
# -----------------------------------
# 非負の値とするため、MinMaxスケーリングを行ったデータを用いる
train_x, test_x = load_minmax_scaled_data()
# -----------------------------------

In [64]:
from sklearn.decomposition import NMF

# データは非負の値から構成されているとする

# 学習データに基づいてNMFによる変換を定義
model = NMF(n_components=5, init='random', random_state=71)
model.fit(train_x)

# 変換の適用
train_x = model.transform(train_x)
test_x = model.transform(test_x)

### 3.11.3 Latent Dirichlet Allocation(LDA)
 * 에러 발생. 해결 필요

In [66]:
# -----------------------------------
# LatentDirichletAllocation
# -----------------------------------
# MinMaxスケーリングを行ったデータを用いる
# カウント行列ではないが、非負の値であれば計算は可能
train_x, test_x = load_minmax_scaled_data()
# -----------------------------------

In [68]:
from sklearn.decomposition import LatentDirichletAllocation

# データは単語文書のカウント行列などとする

# 学習データに基づいてLDAによる変換を定義

model = LatentDirichletAllocation(n_components=5, random_state=71)
model.fit(train_x)

# 変換の適用
train_x = model.transform(train_x)
test_x = model.transform(test_x)

### 3.11.4 LDA

### Error 발생하여 추후 확인 필요
```
# -----------------------------------
# LinearDiscriminantAnalysis
# -----------------------------------
# 標準化されたデータを用いる
train_x, test_x = load_standarized_data()
# -----------------------------------
```

```
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# データは標準化などのスケールを揃える前処理が行われているものとする

# 学習データに基づいてLDAによる変換を定義
lda = LDA(n_components=1)
lda.fit(train_x, train_y)

# 変換の適用
train_x = lda.transform(train_x)
test_x = lda.transform(test_x)

```

### 3.11.5

In [69]:
# -----------------------------------
# t-sne
# -----------------------------------
# 標準化されたデータを用いる
train_x, test_x = load_standarized_data()
# -----------------------------------

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [None]:
import bhtsne

# データは標準化などのスケールを揃える前処理が行われているものとする

# t-sneによる変換
data = pd.concat([train_x, test_x])
embedded = bhtsne.tsne(data.astype(np.float64), dimensions=2, rand_seed=71)

In [None]:
# -----------------------------------
# UMAP
# -----------------------------------
# 標準化されたデータを用いる
train_x, test_x = load_standarized_data()
# -----------------------------------

In [None]:
import umap

# データは標準化などのスケールを揃える前処理が行われているものとする

# 学習データに基づいてUMAPによる変換を定義
um = umap.UMAP()
um.fit(train_x)

# 変換の適用
train_x = um.transform(train_x)
test_x = um.transform(test_x)

### 3.11.7 clustering(군집)

In [None]:
# -----------------------------------
# クラスタリング
# -----------------------------------
# 標準化されたデータを用いる
train_x, test_x = load_standarized_data()
# -----------------------------------

In [None]:
from sklearn.cluster import MiniBatchKMeans

# データは標準化などのスケールを揃える前処理が行われているものとする

# 学習データに基づいてMini-Batch K-Meansによる変換を定義
kmeans = MiniBatchKMeans(n_clusters=10, random_state=71)
kmeans.fit(train_x)

# 属するクラスタを出力する
train_clusters = kmeans.predict(train_x)
test_clusters = kmeans.predict(test_x)

# 各クラスタの中心までの距離を出力する
train_distances = kmeans.transform(train_x)
test_distances = kmeans.transform(test_x)