<a href="https://colab.research.google.com/github/ailab-nda/ML/blob/main/Python/chap12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第12章 パターンマイニング

In [None]:
!pip list | grep mlxtend

In [None]:
# mlxtendを最新版 0.23.0 (2023/10/23現在) に更新
!pip install -U mlxtend

## 頻出項目集合抽出

Aprioriアルゴリズムの実装

http://rasbt.github.io/mlxtend/api_subpackages/mlxtend.frequent_patterns/

### 例題12.1

例題12.1 のデータを読み込んで、pandasのDataFrameに変換します。項目がアルファベット順にソートされていることに注意。

In [None]:
import numpy as np
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules, fpgrowth

In [None]:
dataset = [
    ['Milk', 'Bread', 'Butter'],
    ['Milk', 'Bread', 'Jam'],
    ['Milk', 'Magazine'],
    ['Bread', 'Butter'],
    ['Milk', 'Bread', 'Butter', 'Jam'],
    ['Magazine'],
    ['Milk', 'Bread', 'Jam', 'Magazine'],
    ['Jam']]

In [None]:
# 警告が出る場合は以下で抑制
import warnings
warnings.simplefilter('ignore')

In [None]:
# 疎行列形式の表現を、真偽値を値とする行列に変換
te = TransactionEncoder()
te_ary = te.fit_transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Aprioriアルゴリズムで3事例以上出現する項目集合を抽出

In [None]:
freq = apriori(df, min_support= 3/len(df), use_colnames=True)
freq

## 規則抽出


### 例題12.2

confidenceが0.7以上の規則を抽出します。

In [None]:
ar = association_rules(freq, metric='confidence', min_threshold=0.7)

In [None]:
ar[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

抽出された規則をplotlyで可視化するために、データ形式を変換します。この事例ではスコアが同じ規則が複数あって、プロットが重なってしまっていることに注意してください。

In [None]:
alist = []
clist = []
for a, c in zip(ar['antecedents'], ar['consequents']):
  alist.append(','.join(a))
  clist.append(','.join(c))
ar2 = ar.drop(['antecedents','consequents'], axis=1)
ar2['antecedents'] = alist
ar2['consequents'] = clist
ar2

In [None]:
import plotly.express as px
fig = px.scatter(ar2, x = 'support', y = 'confidence', color='lift', hover_data=['antecedents','consequents'], range_x=[0.3, 0.6])
fig.show()

### 例題12.3

supermarket.arffでFPGrowth（Aprioriの高速化版）を試してみます。データをダウンロードし、scipyのloadarffでWekaのarff形式のデータを読み込みます。そしてpandasのDataFrameで値を文字t/?から真偽値True/Falseとし、最終列のtotalは除きます。

In [None]:
!wget https://raw.githubusercontent.com/fracpete/wekamooc/master/dataminingwithweka/data/supermarket.arff

In [None]:
from scipy.io import arff
data, meta = arff.loadarff('supermarket.arff')
df = pd.DataFrame(data)
df2 = df.replace({b'?':False, b't':True})
df2 = df2.drop('total', axis=1)
df2

FPGrowthで頻出項目集合を求め、association_rulesで規則を抽出します。

In [None]:
freq2 = fpgrowth(df2, min_support=0.3, use_colnames=True)

In [None]:
ar = association_rules(freq2, metric='lift', min_threshold=1.2)

plotlyで可視化するためのデータ変換

In [None]:
alist = []
clist = []
for a, c in zip(ar['antecedents'], ar['consequents']):
  alist.append(','.join(a))
  clist.append(','.join(c))
ar2 = ar.drop(['antecedents','consequents'], axis=1)
ar2['antecedents'] = alist
ar2['consequents'] = clist
ar2

各規則がsupportとconfidenceの2次元空間にプロットされ、lift値は色の明るさで示されます。点にカーソルを合わせると、その点が表現している規則とそのスコアが表示されます。

In [None]:
import plotly.express as px
fig = px.scatter(ar2, x = 'support', y = 'confidence', color='lift', hover_data=['antecedents','consequents'])
fig.show()

## 行列分解

小規模な映画評価データを使って、行列分解を行います。



ライブラリの読み込み

In [None]:
import numpy as np
from sklearn.decomposition import NMF

<a href="http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/">参考ページ</a>のデータ例を使用します。行がユーザ(5人)、列が映画(4作品)、数値が1-5の5段階評価で、0は評価なしです。

In [None]:
X = np.array([
    [5,3,0,1],
    [4,0,0,1],
    [1,1,0,5],
    [1,0,0,4],
    [0,1,5,4]
])

ここでは、非負値行列分解[NMF](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html)を使います。NMFはXを非負の行列WとHに分解します。引数n_componentsは潜在変数の次元数です。

In [None]:
model = NMF(n_components = 2)
W = model.fit_transform(X)
H = model.components_

空所の値を予測してみます。似たようなユーザを参考に、埋められた値の妥当性を評価してみてください。

In [None]:
np.set_printoptions(suppress=True)
np.dot(W,H)

人を表す2次元ベクトルを表示します。同じような評価をする人が似たベクトルになっていることを確認してください。

In [None]:
W

映画を表す2次元ベクトルを表示します。同じような評価をされる映画がないので、それぞれ異なったベクトルになっていることを確認してください。

In [None]:
H.T

## 練習問題

a prioriアルゴリズムによる規則抽出のコード例で求めた規則よりも、Lift値の高い規則を探すにはどうすればよいか？以下のテキストセルに方針を記し、コードセルでプログラムを実行させよ。

### 解答欄（ここに方針を記述）

In [None]:
# ここにプログラムを記述
