# 自己組織化マップ（SOM)＆クラスタリング

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
# import PIL.Image
# import cv2

# 都道府県の自己組織化マップ

[都道府県データランキング](http://uub.jp/pdr/)

上のデータランキングのデータを適当に組合せて、kendata.csv というデータを作成した。 生データは一番下にしてある。

# １．データの読み込み

In [None]:
data = pd.read_csv("kendata.csv", delimiter=",", encoding="utf-8")  # header がない場合は header=None
#data = pd.read_csv("jinko.csv", delimiter=",", encoding="utf-8")  # header がない場合は header=None
data.head() # 上から５データ分表示

データに特に深い意味はない。都道府県別の人口、面積、外国人の人数などの基礎データと、公務員より右は獣医師の人数である。
都道府県名を除く解析に使う部分の見出しを dataindex として抜き出しておく。

In [None]:
dataindex = data.columns[1:] # カラムインデックス
pref = data['都道府県'] # 都道府県名のリスト
X = data[dataindex] # SOMで対象とする学習用データ
X.head()

# ２．標準化
データ X は項目ごとにデータの粒度が違うので標準化、もしくは正規化して使う。

## 標準化

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
stdX = sc.fit_transform(X) 
#  stdX には X が標準化されたデータが格納される。この操作で pandas dataframe から 普通の numpy 配列に変わる。

stdX[0:5] # 上から５つ表示

# ３．SOM のメソッドを定義

In [None]:
import scipy.stats as st
# ガウス分布
def gkern(kernlen=21, nsig=3):
    interval = (2*nsig+1.)/(kernlen)
    x = np.linspace(-nsig-interval/2., nsig+interval/2., kernlen+1)
    kern1d = np.diff(st.norm.cdf(x))
    kernel_raw = np.sqrt(np.outer(kern1d, kern1d))
    kernel = kernel_raw/kernel_raw.sum()
    return kernel

# 自己組織化マップ SOM を生成する　　　　M :２次元配置されたニューロンの重み配列    x : 入力データ,  alpha：学習係数
def organize_som(M, x, alpha=0.3, ksize=3):
    gk = gkern(2*ksize+1,ksize)/np.max(gkern(2*ksize+1,ksize))
    mini, minj = get_winner(M,x)
    dim = x.shape[0]
    MM = np.zeros((M.shape[0]+2*ksize, M.shape[1]+2*ksize,dim),np.float64)
    MM[ksize:-ksize,ksize:-ksize]=M
    for i in range(-ksize,ksize+1): #  勝者の近傍7x7 の範囲を与えられたデータ（このプログラムでは色）に近づける
        for j in range(-ksize,ksize+1):
            try:
                MM[ksize+mini+i,ksize+minj+j] += alpha * (x - MM[ksize+mini+i,ksize+minj+j])*gk[ksize+i,ksize+j]
            except:
                pass
    return MM[ksize:-ksize,ksize:-ksize]

# 境界の描画
def plotBoundary(labels, somcenters,cmap='Pastel1'):
    row = labels.shape[0]
    col = labels.shape[1]
    
    YY,XX = np.mgrid[0:row, 0:col] # make a grid    
    
    plt.pcolormesh(XX, YY, labels, cmap=cmap,zorder=-10) 
            
    for index, p in enumerate(somcenters):
        plt.text(p[1],p[0],str(index),ha='center', va='center',
           bbox=dict(facecolor='white', alpha=0.3, lw=0))

# Map M において、ベクトルｘともっとも近い重みベクトルを持つノードの座標を得る
def get_winner(M,x):
    col =  M.shape[1]
    # row =  M.shape[0]
    min_i = np.argmin(((M-x)**2).sum(axis=2)) 
    mini = min_i // col # argmin は1次元化した番号が返ってくるので　2次元化
    minj = min_i % col
    return mini, minj


# ４．メインプログラムの実行

In [None]:
# メインプログラム
row = 20  # 高さ
col = 30 # 幅
learntime = 256# 繰り返し学習回数
alpha = 0.3 # 学習係数

W = np.random.random([row,col,len(dataindex)]) # Map 用の配列

for time in range(learntime):
    for color in stdX:
        W=organize_som(W, color,alpha=alpha,ksize=5) # 競合学習の実行


このマップは20ｘ30個のRGBのデータ集合だと考えられる。

上のブロックの実行で，SOMは配列Wとして生成されているが，個々のニューロンは８次元ベクトルなのでそのままでは表示できない．

この600個のデータをK-Means法でクラスタリングし，クラスタにカラーを割り当てて表示することにしよう．


# ５．クラスタリング
## ５．１　クラスタリングのプログラム


In [None]:
from sklearn.cluster import KMeans

def kmeans(M,k,itr):   # 配列Mの要素を対象として k-Means 法でクラスタリングを実行する　　k クラスタ数、 itr 繰り返し処理回数
    row = M.shape[0]
    col = M.shape[1]
    ch = M.shape[2]
    data = M.reshape(col*row,ch)
    km = KMeans(n_clusters=k,init='random',n_init=1,max_iter=itr,random_state=1)
    labelimage = (km.fit(data).labels_).reshape(row,col)
    centers = km.cluster_centers_
    return labelimage, centers 

# 都道府県名の描画
def writePref(W, pref, data, dataindex):
     for index, pname in enumerate(pref):
        d1 =  np.array(data[index])
        (y,x)= get_winner(W,d1)
        plt.text(x,y,pref.loc[index],ha='center', va='center',
           bbox=dict(facecolor='white', alpha=0.2, lw=0))   

# 5.2　クラスタリング実験
##  （１）データをk-means法で３分割

In [None]:
# 3-means
labelimage, centers = kmeans(W,3,100)
somcenters = [get_winner(W,c) for c in centers]
plt.rcParams['font.family'] = 'HGMaruGothicMPRO'
#plt.rcParams['font.family'] = "Meiryo"
fig = plt.figure(figsize=(10,6))
plotBoundary(labelimage, somcenters)
writePref(W,pref,stdX,dataindex)

# （２）データをk-means法で5分割


In [None]:
# 5-means
labelimage, centers = kmeans(W,5,100)
somcenters = [get_winner(W,c) for c in centers]
fig = plt.figure(figsize=(10,6))
plotBoundary(labelimage, somcenters)
writePref(W,pref,stdX,dataindex)

# （２）データをk-means法で8分割

In [None]:
# 8-means
labelimage, centers = kmeans(W,8,100)
somcenters = [get_winner(W,c) for c in centers]
fig = plt.figure(figsize=(10,6))
plotBoundary(labelimage, somcenters)
writePref(W,pref,stdX,dataindex)

In [None]:
with open("kendata.csv", encoding="utf-8") as f:
    print(f.read())