# データ・パッケージの読込

## パッケージ読み込み

In [None]:
### 必要なパッケージ（ライブラリ）の読み込み ###
import pandas as pd             # データフレーム型変数を取り扱えるパッケージ"pandas"を読込み（以降"pd"と略記）
import matplotlib.pyplot as plt # グラフ描画のパッケージ"matplotlib"を読込み（以降"plt"と略記）
import seaborn as sns           # 上記matplotlibをベースにした高機能可視化モジュール"saeborn"を読込み（以降"sns"と略記）
import numpy as np              # 数値演算のためのパッケージ"numpy"を読込み（以降"np"と略記）

## 参考：描画設定
※重なりなどの描画崩れや、文字化けなど、描画がうまくいかない場合

In [None]:
### 以下、描画の細かいデザイン設定 ###

# 出力されるグラフ画像の解像度を上げる
%config InlineBackend.figure_formats = {'png', 'retina'}

# グラフのサイズ指定
# plt.rcParams['figure.figsize'] = 10, 5

# 文字化け対策にフォント指定（Win/Macなどの環境に依らず、横断的に設定）
plt.rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic', 'Meirio', 'Takao',
                                   'IPAexGothic', 'IPAPGothic', 'VL PGothic', 'Noto Sans CJK JP']

# フォントサイズ一括指定
# plt.rcParams['font.size'] = 14

## データ読込

In [None]:
# 不良種別ごとの発生状況データを読み込み
df = #各自入力

# データの理解（観察）

## データ概観把握

In [None]:
### 要約統計量 ###
#各自入力

In [None]:
### 欠測値確認 ###
#各自入力

## データ可視化（グラフ）

### ヒストグラム

In [None]:
#各自入力

### 箱ひげ図

In [None]:
#各自入力
df.boxplot()

### 散布図

In [None]:
#各自入力

### 散布図行列

In [None]:
# 通常の散布図行列
#各自入力

In [None]:
# 散布図行列（天候で色分け）
#各自入力

### 棒グラフ

In [None]:
# 棒グラフ

# グラフのサイズ指定
plt.rcParams['figure.figsize'] = 15, 5

# グラフ描画
df.plot.bar(x='日付')

In [None]:
# 積み上げ棒グラフ
df.plot.bar(x='日付', stacked=True)

### 面グラフ

In [None]:
# 面グラフ
df.plot.area(x='日付')

# 凡例の位置が邪魔なので、グラフ外側に表示
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0, fontsize=14)

### 相関行列

In [None]:
### 相関行列による変数間の関係性確認 ###
#各自入力

# pandasのv2.0.0以降、数値以外のデータが入っているとエラーになるため、
# 数値以外を含む場合、数値データのみに絞り込むオプション numeric_only=True を指定する
# （今回のデータは数値のみなので、オプション無しでもエラーなく実行できる）

In [None]:
### 相関行列のお化粧（ヒートマップ） ###

# 描画の設定
colormap = plt.cm.RdBu_r                #カラーマップの設定 (RdBu:赤〜青 ⇔ RdBu_r:青〜赤)
plt.rcParams['figure.figsize'] = 10, 5  # Figureサイズの指定

# 相関行列の算出
corr = df.corr() #数値以外も含まれている場合には、numeric_only=True を引数に指定

# ヒートマップの描画
sns.heatmap(corr,linewidths=0.1, linecolor='white', #相関行列df.corr()を引数としヒートマップ作成	
            vmax=1.0, vmin=-1.0, cmap=colormap,     #最大値、最小値、カラーマップの指定 
            annot=True, fmt='.2f',                  #各セル内に表示する数値の設定
            # mask=np.triu(corr) #相関行列の右上半分を隠したい場合はこのコメントを解除
           )

            # linewidths/linecolor: 格子線の太さ/色
            # cmap:                 カラーマップの指定
            # vmax/vmin:            最大値/最小値
            # annot:                各要素への数値表示
            # annot_kws={'fontsize':8}: 各要素内に表示する数値の文字サイズを指定
            # fmt='.2f':            各要素内に表示する数値の小数点桁数を指定（'.2f'で小数第二位まで）
            # mask:                 可視化から除外する対象


## データの準備（加工）

### 欠損値処理
※今回は不要

### One-Hotベクトル表現への変換

In [None]:
df

In [None]:
# 2以上は全て "1" に変換
df.loc[:,'塗装不良':'バリ'] = np.where(df.loc[:,'塗装不良':'バリ']>=1, 1, 0)

In [None]:
# 「天候」列もone-hot形式に変換
df_onehot = pd.get_dummies(df, columns=['天候'])

# 「日付」列は除外
df_onehot = df_onehot.drop(columns=['日付'])

df_onehot

## モデルの構築

### 必要なパッケージなどのインポート

In [None]:
### アソシエーション分析に必要なaprioriクラスをインポート ### 
from mlxtend.frequent_patterns import apriori

### モデル構築

In [None]:
### アソシエーション分析モデル構築（アプリオリ実行）###
frequent_itemsets = apriori( df_onehot, min_support=0.1, use_colnames=True )

                        # df_oneohot: 入力データ（one-hotベクトル形式で与える必要あり）
                        # min_support=0.4: 最小の支持度（全体の中での同時購入率）を0.4として設定（出力されるルールが多すぎてしまうため）
                        # use_colnames=True: 出力結果に、番号ではなく実際のカラム名（製品名）を出力する

### 結果出力

In [None]:
### 指定した支持度以上の商品組み合わせを出力 ###
display ( frequent_itemsets )

In [None]:
### 支持度の大きい順に並び替え（ソート） ###
display ( frequent_itemsets.sort_values(['support'], ascending=False) )

## モデルの評価

### 各ルールの信頼度・リフト値出力

#### 確信度（Confidence）上位ランキング

In [None]:
### 各ルールの信頼度/リフト値算出に必要なaprioriassociation_rulesクラスをインポート ### 
from mlxtend.frequent_patterns import association_rules

rules1 = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.3)
                        # frequent_itemsets: 入力データ（アプリオリにより抽出された最小支持度以上の商品組み合わせ）
                        # metric="confidence": 出力の閾値を設定する指標
                        # min_threshold=0.7:   閾値

In [None]:
### 抽出されたルールの出力 ###
display( rules1.sort_values(['confidence'], ascending=False) )

#### リフト値上位ランキング

In [None]:
rules2 = association_rules(frequent_itemsets, metric='lift', min_threshold=1.1)
                        # frequent_itemsets: 入力データ（アプリオリにより抽出された最小支持度以上の商品組み合わせ）
                        # metric="lift":     出力の閾値を設定する指標
                        # min_threshold=0.7: 閾値
display( rules2.sort_values(['lift'], ascending=False).head(50) )