### 15. アソシエーション分析（バスケット分析）

#### ユーザーアニメ視聴リスト(kaggleより)

https://www.kaggle.com/azathoth42/myanimelist

CSVデータ（分割の1つ目）： https://raw.githubusercontent.com/jiai-tus/FirstTerm/main/20201201/dataset/UserAnimeList/ual1.csv
ual2, ual3, のように末尾数字を変えれば2つ目以降にアクセス可能

In [None]:
## 分析対象のデータについて整形する
# pandasをimport

In [None]:
# 空のlist変数を用意

In [None]:
# .read_csv("path")でCSVファイルを読み込むと同時にデータフレーム形式にしてくれる

In [None]:
# .head(n)で読み込んだデータの先頭n行を確認

In [None]:
# .tail(n)で読み込んだデータの末尾n行を確認

In [None]:
# anime_idの値の範囲を確認
# .idxmin() .idxmax() で最小値/最大値を取得できる

In [None]:
# 不要な列の削除（使用する列のみを切り出す）
# .loc[] でスライシング
# 今必要なのは、username と anime_id の組

In [None]:
# 固有なusernameを抽出する
# ここではset()を使いましょう

In [None]:
# usernameごとに、視聴したanime_idを集計してlist化する
## if文、for文だけでも処理を書けますが、全てのusernameについて集計すると
## 処理に時間がかかりすぎるので、講義中は100個に絞ってください

In [None]:
## 以上でデータの整形完了、以下分析していきます

#### <font color=red>task : </font> 処理の高速化/省力化の工夫をして、1120ユーザー全てについて集計する。所要時間を計時して比較も行うとなおよい。

#### アソシエーション分析用ライブラリ
mlxtend というデータサイエンス用ツールが詰まった機械学習の拡張ライブラリがある

$\downarrow \downarrow$ 公式リファレンス $\downarrow \downarrow$\
https://rasbt.github.io/mlxtend/

In [None]:
# 前処理：　mlxtend.preprocessing.TransactionEncoder により bool値へ変換（One-Hotエンコーディング）

In [None]:
'''
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_ary = te.fit(datalist).transform(datalist)
df_dataset = pd.DataFrame(te_ary, columns=te.columns_)
df_dataset

In [None]:
# mlxtend.frequent_patterns.apriori により Supportの高い組み合わせのみ（比較的）高速に抽出できる

In [None]:
'''
from mlxtend.frequent_patterns import apriori

k = 0.3
# 支持度 (Support) k 以上でアイテム集合の検出（default: 0.5）

l = 4
# 組み合わせ個数が l 以下について対象とする（default: None  あらゆる組み合わせについて検出する）

support_itemsets = apriori(df_dataset, min_support=k, use_colnames=True, max_len=l)

support_itemsets

In [None]:
# 検出したアイテム集合に対し、mlxtend.frequent_patterns.association_rules によりアソシエーションルールを分析

In [None]:
'''
from mlxtend.frequent_patterns import association_rules

# 信頼度 confidece が 0.7 以上のアソシエーションルールを分析
rules = association_rules(support_itemsets, metric="confidence", min_threshold=0.7)

In [None]:
# rules は pandas.DataFrame なので条件によるデータの選択も容易に行える
# 作成したルールから、リフト値 (Lift) が 2.0 以上のルールを選択かつ降順表示

In [None]:
'''
rules2 = rules.sort_values('lift', ascending=False)
rules2[rules2['lift'] >= 2.0]

In [None]:
# 作成したルールから、リフト値 (Lift) が 2.0 以上のルールを選択かつ 支持度（Support） で降順表示

In [None]:
'''
rules3 = rules.sort_values('support', ascending=False)
rules3[rules3['lift'] >= 2.0]

In [None]:
# 作成したルールから、リフト値 (Lift) が 2.0 以上のルールを選択かつ 信頼度（Confidence） で降順表示

In [None]:
'''
rules4 = rules.sort_values('confidence', ascending=False)
rules4[rules4['lift'] >= 2.0].head(20)

##### anime_idの数字だけではよくわからない。実際には何のアニメなのだろうか…？

データの出所である以下のサイトにて、

https://myanimelist.net/anime/ "anime_id" /

とURLを手打ちすると anime_id のアニメタイトルがわかる。

In [None]:
'''
# おまけ：視覚化

import matplotlib.pyplot as plt
import seaborn as sns

# Transform the DataFrame of rules into a matrix using the lift metric
pivot = rules[rules['lift'] >= 2.4].pivot(index = 'antecedents', 
                                          columns = 'consequents', 
                                          values= 'lift'
                                          )

# 図のサイズ調整
plt.figure(figsize=(10, 7))

# Generate a heatmap with annotations on and the colorbar off
sns.heatmap(pivot, annot = True)
plt.yticks(rotation=0)
plt.xticks(rotation=90)
plt.show()

#### <font color=red>task : </font> apriori()の引数 min_support と max_len についてグリッドサーチしてみる
グリッドサーチ(GridSearch)：ある範囲内でパラメータの組み合わせを全て試し比較評価する手法

### 16. 相関分析

#### 顧客消費金額のデータセット(kaggleより)

https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python

CSVデータ： https://raw.githubusercontent.com/jiai-tus/FirstTerm/main/20201201/dataset/Mall_Customers.csv

In [None]:
# データセットを読み込む

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

df = pd.read_csv("hogehoge")
df.head()

In [None]:
# 変数名（カラム名）の確認
df.columns

In [None]:
## Age, Annual Income (k$), Spending Score (1-100) の３変数について相関分析を行う
# まずデータの散布図を見てみる

df2 = df.loc[:, 'hogehoge':'hogehoge']
sns.pairplot(df2)

In [None]:
# numpy.corrcoef() を使用して相関係数を計算

import matplotlib.pyplot as plt
cr = pd.DataFrame(np.corrcoef(df2.T), columns = df2.columns, index = df2.columns)
sns.heatmap(cr, annot=True, square=True, vmin=-1, vmax=1, fmt=".2f", cmap="RdBu")
plt.show()

In [None]:
## Male/Femaleごとの相関分析をしてみる
# ラベル付けしたデータの散布図を見てみる

df3 = df.loc[:, 'hogehoge':'hogehoge']
sns.pairplot(df3, hue='hogehoge')

In [None]:
# Male だけ抜き出して散布図を作成

df_Male = df[df['Gender'] == 'Male'].loc[:, 'hogehoge':'hogehoge']
#df_Male

sns.pairplot(df_Male)

In [None]:
# Male だけ抜き出して相関係数を計算

cr = pd.DataFrame(np.corrcoef(df_Male.T), columns = df_Male.columns, index = df_Male.columns)
sns.heatmap(cr, annot=True, square=True, vmin=-1, vmax=1, fmt=".2f", cmap="RdBu")
plt.show()

In [None]:
# Female だけ抜き出して散布図を作成



In [None]:
# Female だけ抜き出して散布図を作成



#### <font color=red>task : </font> ここまでの相関分析について、pdf教材を参考に、numpyを使わずに行ってみる

In [None]:
# 前処理なしでやってみる

In [None]:
# 規格化や標準化などの前処理を施して同じ計算を行ってみる

#### <font color=red>task : </font> Gender を数値化して、４変数の相関分析を行う

#### Boston house-prices (ボストン市の住宅価格)
米国ボストン市郊外における地域別の住宅価格のデータセット

| レコード数	| 506 |
|---:|:---|
| カラム数 | 14 |

データセットの詳細： https://archive.ics.uci.edu/ml/datasets/Housing


In [None]:
# データセットを読み込み

from sklearn.datasets import load_boston
boston = load_boston()

In [None]:
# 説明変数を Pandas のデータフレームとして表示

import pandas as pd
pd.DataFrame(boston.data, columns=boston.feature_names)

In [None]:
# 目的変数 (1,000 ドル台でオーナーが所有する住宅の価格の中央値)

boston.target

| 変数名	| 説明 |
|---:|:---|
| CRIM | 人口 1 人当たりの犯罪発生数 |
| ZN | 25,000 平方フィート以上の住居区画の占める割合 |
| INDUS	| 小売業以外の商業が占める面積の割合 |
| CHAS | チャールズ川によるダミー変数 |
|  | 1: 川の周辺, 0: それ以外 |
| NOX	| NOx の濃度 |
| RM | 住居の平均部屋数 |
| AGE	| 1940 年より前に建てられた物件の割合 |
| DIS	| 5 つのボストン市の雇用施設からの距離 (重み付け済) |
| RAD	| 環状高速道路へのアクセスしやすさ |
| TAX	| $10,000 ドルあたりの不動産税率の総計 |
| PTRATIO	| 町毎の児童と教師の比率 |
| B	| 町毎の黒人 (Bk) の比率を次の式で表したもの |
|  | 1000(Bk – 0.63)^2 |
| LSTAT	| 給与の低い職業に従事する人口の割合 (%) |

In [None]:
## ボストンの住宅価格データについても、相関分析を行ってみましょう

#### <font color=red>task : </font> 非線形相関 (MIC) 係数行列の計算をしてみる

$\downarrow \downarrow$ minepy 公式リファレンス $\downarrow \downarrow$\
https://minepy.readthedocs.io/en/latest/

In [None]:
# colaboratoryにライブラリをインストールするコード
!pip install minepy

from minepy import MINE