# アイスクリーム統計学 with Python 第10章

第１２回講義（2017年11月3日講義、11月7日課題提出締切）

このページは、<a href="http://kogolab.chillout.jp/elearn/icecream/index.html" target="_blank">アイスクリーム統計学にようこそ！</a>を終えた学生向けに、復習と補足のために私が追記したものです。

<h1 STYLE="background: #c2edff;padding: 0.5em;">第１０章 主成分分析</h1>

<a href="IceCreamStatistics08.ipynb">第８章</a>・<a href="IceCreamStatistics09.ipynb">第９章</a> では因子分析の概要を勉強しました。似て非なる手法として「主成分分析」があります。

<h2 STYLE="background: #c2edff;padding: 0.5em;">10.1 因子分析と主成分分析の違い</h2>

（図は http://www.f.waseda.jp/oshio.at/edu/data_b/top.html から）

<h4 style="border-bottom: solid 1px black;">因子分析の目的は「共通因子を見つけること」</h4>

<b>X</b><sub>j</sub> = <b>a</b><sub>j1</sub><b>f</b><sub>1</sub> + <b>a</b><sub>j2</sub><b>f</b><sub>2</sub> + <b>e</b><sub>j</sub>
* <b>X</b> : 測定された変数（観測変数）
* <b>a</b> : 因子負荷
* <b>f</b> : 潜在因子（共通因子）
* <b>e</b> : 独自因子
<img src="image/ad_01.jpg">
* 因子は変数を説明する独立変数
* 共通因子の影響を除いたら変数間の偏相関が0になるように因子負荷を求める
* 誤差は独自因子に含まれ、共通因子に誤差は含まれない
* 変数間の相関関係を因子によって説明する
* 因子の数を少なくすることが目的ではない。

<h4 style="border-bottom: solid 1px black;">主成分分析の目的は「情報を縮約すること」</h4>

<b>Z</b><sub>j</sub> = <b>a</b><sub>j1</sub><b>X</b><sub>1</sub> + <b>a</b><sub>j2</sub><b>X</b><sub>2</sub>
* <b>Z</b> : 主成分
* <b>a</b> : 主成分負荷量
* <b>X</b> : 測定された変数（観測変数）

<img src="image/ad_02.jpg">
* 主成分分析はデータの記述であり、因子分析のような潜在変数を想定したモデルではない。観測変数が共有する情報を合成変数として集約する
* 主成分は変数によってその値が決まる従属変数
* 主成分の分散が最大になるように変数にかかる重みを求める
* 独自因子を考慮せず、誤差を含む観測変数からそのまま主成分を合成するので、主成分にも誤差は含まれる
* <b>a</b><sub>j1</sub><sup>2</sup> + <b>a</b><sub>j2</sub><sup>2</sup> = 1
* もとの変数群の分散をできるだけ取り込むような合成変数を求める
* 主成分をできる限り少なくすることが目的

<h2 STYLE="background: #c2edff;padding: 0.5em;">10.2 主成分分析</h2>

<h4 style="border-bottom: solid 1px black;">主成分の決め方</h4>

(図は https://www.macromill.com/service/data_analysis/d009.html から)

<img src="image/image_002.gif">

* まず、分散が最大になるように第1主成分を決めます。
* 次に、第1主成分とは相関しないという条件下で分散が最大になるように、第2主成分を決めます。
* 第3主成分以降も同様。

<h4 style="border-bottom: solid 1px black;">主成分分析の解釈</h4>

* 第一主成分は総合指標になることが多い
* 上位の主成分ほど個体の散らばりをよく表す
* 異なる主成分どうしは無相関 (軸が直交)。すなわち、異なる主成分は互いに無関係な意味をもつ。
* 主成分はどちらの方向が正か負かを決められないので、主成分の正負と意味づけにおける正負が逆転してもよい。

<h2 STYLE="background: #c2edff;padding: 0.5em;">10.3 Pythonで主成分分析</h2>

Pythonでは、主成分分析を行うためのライブラリが使えます。

<h4 style="padding: 0.25em 0.5em;color: #494949;background: transparent;border-left: solid 5px #7db4e6;">課題10.1</h4>

主成分分析を行う以下のコードを実行してください。

In [None]:
# URL によるリソースへのアクセスを提供するライブラリをインポートする。
# import urllib # Python 2 の場合
import urllib.request # Python 3 の場合

In [None]:
# ウェブ上のリソースを指定する
url = 'https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/icecream_chosa.txt'

In [None]:
# 指定したURLからリソースをダウンロードし、名前をつける。
# urllib.urlretrieve(url, 'icecream_chosa.txt') # Python 2 の場合
urllib.request.urlretrieve(url, 'icecream_chosa.txt') # Python 3 の場合

In [None]:
import pandas as pd # データフレームワーク処理のライブラリをインポート

In [None]:
df = pd.read_csv('icecream_chosa.txt', sep='\s+', index_col=0) # スペース区切りで読み込み

In [None]:
df.head() #最初の数レコードだけ確認

In [None]:
df2 = df.iloc[:, 4:] # 指定した行、指定した列だけ抜き出す

In [None]:
df2.head() #最初の数レコードだけ確認

In [None]:
# 行列の正規化を行います。
# 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。
# axis=1 とすれば、列ではなく行単位で正規化します。
df3 = df2.apply(lambda x: (x-x.mean())/x.std(), axis=0)

In [None]:
df3.head() #最初の数レコードだけ確認

In [None]:
# 図やグラフを図示するためのライブラリをインポートする。
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
import sklearn #機械学習のライブラリ
from sklearn.decomposition import PCA #主成分分析器

In [None]:
#主成分分析の実行
pca = PCA()
pca.fit(df3)

In [None]:
# 主成分負荷量：上から順に第一主成分、第二主成分、、、
pd.DataFrame(pca.components_, columns=df3.columns)

In [None]:
# 主成分負荷量：上から順に第一主成分、第二主成分、、、
# 主成分負荷量の表をカラーマップで表して俯瞰してみる
import numpy as np
fig = plt.figure(figsize=(6, 5))
plt.imshow(pca.components_, interpolation='nearest', cmap=plt.cm.coolwarm)
plt.colorbar()
plt.xticks(np.arange(len(df3.columns)), df3.columns, rotation=90)
plt.yticks(np.arange(len(pca.components_)), range(len(pca.components_)))
plt.tight_layout()

In [None]:
# 第一主成分と第二主成分でプロットする
plt.figure(figsize=(8, 8))
for x, y, name in zip(pca.components_.T[:, 0], pca.components_.T[:, 1], df3.columns):
    plt.text(x, y, name, alpha=0.8, size=10)
plt.scatter(pca.components_.T[:, 0], pca.components_.T[:, 1], alpha=0.8)
plt.title("PCA Loading Plot")
plt.xlabel("Loadings 1")
plt.ylabel("Loadings 2")
plt.grid(True)
plt.show()

In [None]:
# 主成分得点：データを主成分空間に写像 = 次元圧縮
pd.DataFrame(pca.transform(df3))

In [None]:
# 主成分得点をカラーマップで表したもの
transformed = pca.transform(df3)
fig = plt.figure(figsize=(20, 20))
plt.imshow(transformed, interpolation='nearest', cmap=plt.cm.coolwarm)
plt.colorbar()
plt.xticks(np.arange(len(pca.components_)), range(len(pca.components_)), rotation=90)
plt.yticks(np.arange(len(transformed)), range(len(transformed)))
plt.tight_layout()

In [None]:
# 第一主成分と第二主成分でプロットする
plt.figure(figsize=(10, 10))
for x, y, name in zip(transformed[:, 0], transformed[:, 1], df3.index):
    plt.text(x, y, name, alpha=0.8, size=15)
plt.scatter(transformed[:40, 0], transformed[:40, 1], alpha=0.8, color='red') # 女性は赤色
plt.scatter(transformed[40:, 0], transformed[40:, 1], alpha=0.8, color='blue') # 男性は青色
plt.title("Principal Component Analysis")
plt.xlabel("The first principal component score (PC1)")
plt.ylabel("The second principal component score (PC2)")
plt.grid()
plt.show()

<h2 STYLE="background: #c2edff;padding: 0.5em;">アイスクリーム統計学 第１０章 課題</h2>

__課題10.1__ を解いて、指定のメールアドレスまでメールしてください。メール送信後は、エラーが帰ってきてないことを確認してください（メールアドレスを間違える人がときどき居ます）。
* 締切：11月7日（今すぐでなくても結構です）
* メールタイトル：「アイスクリーム統計学 第１０章」
* 学籍番号と氏名を明記すること。
* 感想などがあれば書いてくれると嬉しいです。次回以降の講義の改善につながるかも知れません。

In [None]:
# アイスクリーム統計学 第１０章 課題

<h2 STYLE="background: #c2edff;padding: 0.5em;">終わったら、<a href="IceCreamStatistics11.ipynb">第１１章：線形回帰の復習</a> に進んでください。</h2>
（2017年11月3日講義、11月7日課題提出締切）