#### 先端データ科学特論第2回レポートの解析用プログラム
以下のことを行う
1. 計測したファイルの読み込み
1. 必要な刺激の部分だけ取り出し
1. 該当部分のスパイク波形の取り出し
1. 主成分分析
1. ソーティング

データ量を削減するために16chの内100μm間隔で8ch、WBのデータを取り出し、そのデータに対して300-8000Hzのバンドパスフィルタをかける  
この時の計測では全38種類の刺激を各30回印加したが、問題の簡単化のため,  
刺激は60dBのClick音及び、158VのBurst波を抽出して使用する

In [1]:
%matplotlib notebook
#使用するライブラリの読み込み
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import json
import os
import sys
import scipy.io
import matplotlib as mpl
import matplotlib.pyplot as plt
import statistics
import math
import gc
from mpl_toolkits.mplot3d import Axes3D
from scipy import signal,stats
from scipy.cluster.hierarchy import linkage, dendrogram, cophenet,fcluster
from scipy.spatial.distance import pdist
from sklearn.preprocessing import scale
from collections import defaultdict
import sklearn #機械学習のライブラリ
from sklearn.decomposition import PCA #主成分分析器

In [2]:
#bandpass_filterの設定
def bandpass(x, samplerate, fp, fs, gpass, gstop):
    fn = samplerate / 2                           #ナイキスト周波数
    wp = fp / fn                                  #ナイキスト周波数で通過域端周波数を正規化
    ws = fs / fn                                  #ナイキスト周波数で阻止域端周波数を正規化
    N, Wn = signal.buttord(wp, ws, gpass, gstop)  #オーダーとバターワースの正規化周波数を計算
    b, a = signal.butter(N, Wn, "band")           #フィルタ伝達関数の分子と分母を計算
    y = signal.filtfilt(b, a, x)                  #信号に対してフィルタをかける
    return y                                      #フィルタ後の信号を返す


In [3]:
#使用する計測データ(.matファイル)刺激呈示順番記録(.csvファイル)の読み込み
mat_filepath="./1129_trial1_WB.mat"
csv_filepath="./order/211129_1749_order.csv"
Data=scipy.io.loadmat(mat_filepath)
# 電極の深さ方向のチャンネルマップを記録
# 100μm-800μmまで100μmステップで波形の取得
channel_map=[1,2,5,3,7,8,6,3]

In [4]:
Data.keys()

dict_keys(['__header__', '__version__', '__globals__', 'AllFile', 'EVT02', 'Start', 'Stop', 'WB01', 'WB01_ind', 'WB01_ts', 'WB01_ts_step', 'WB02', 'WB02_ind', 'WB02_ts', 'WB02_ts_step', 'WB03', 'WB03_ind', 'WB03_ts', 'WB03_ts_step', 'WB04', 'WB04_ind', 'WB04_ts', 'WB04_ts_step', 'WB05', 'WB05_ind', 'WB05_ts', 'WB05_ts_step', 'WB06', 'WB06_ind', 'WB06_ts', 'WB06_ts_step', 'WB07', 'WB07_ind', 'WB07_ts', 'WB07_ts_step', 'WB08', 'WB08_ind', 'WB08_ts', 'WB08_ts_step'])

In [5]:
#まず波形が取れてそうな3ch(深さ400μm)に着目
WB_wave=Data["WB03"]
# timestamp(刺激が入るタイミングがを取得)単位second
ts=Data["WB03_ts"][0][0]
timestamp=Data["EVT02"]
del Data
gc.collect()

250

In [6]:
WB_wave=np.array([WB_wave[i][0] for i in range(len(WB_wave))])

In [7]:
WB_wave[:10]

array([-0.06500244, -0.06011963, -0.0680542 , -0.07537842, -0.06958008,
       -0.07049561, -0.07080078, -0.07019043, -0.06591797, -0.06256104])

In [8]:
#filter用変数設定
fp=np.array([600,8000])
fs=np.array([400,12000])
gpass=3
gstop=30
samplerate=40000
#バンドパスフィルタをかけた波形を取得
WB_wave=bandpass(WB_wave,samplerate,fp,fs,gpass,gstop)

In [9]:
# ずれをtsを使って校正
# timestampには刺激がサンプリングレートが40000であるため40000をかけて
# 刺激が印加されるindexを取得
samplerate_timestamp=[(timestamp[i][0]-ts)*40000 for i in range(len(timestamp))]

In [10]:
samplerate_timestamp=np.array(list(map(int,samplerate_timestamp)))

In [11]:
#呈示した刺激の種類が格納されている配列
order_table = pd.read_csv(csv_filepath)
#order_table

In [12]:
click_lists=[]
us_lists=[]
offset=50 #ms
duration=350 #ms
#400ms秒区間の計測波形を取得し結果配列に格納
index=0
for timepoint in samplerate_timestamp:
    wave_info = order_table.iloc[index]
    index+=1
    if wave_info["state"]=="click" and wave_info["db"]==60:
        wave=WB_wave[int(timepoint-offset*samplerate/1000):int(timepoint+duration*samplerate/1000)]
        click_lists.append(wave)
    elif wave_info["state"]=="us_burst" and wave_info["amp"]==1.58 and wave_info["window"]==0:
        wave=WB_wave[int(timepoint-offset*samplerate/1000):int(timepoint+duration*samplerate/1000)]
        us_lists.append(wave)
    else:
        continue


In [13]:
# 波形が取得できているか確認
print(len(click_lists),len(us_lists))

30 30


In [27]:
#各刺激のスパイクの様子を1試行分だけ描画して閾値を決める
fig=plt.figure()
ax=fig.add_subplot(111)
xlim=[-50,350]
single_trial=us_lists[23]
time=np.linspace(xlim[0],xlim[1],len(single_trial))
ax.plot(time,single_trial,color="k")
ax.set_xlabel("time[ms]")
ax.set_ylabel("voltage[mV]")
ax.set_title("us spike")
ax.set_xlim(41,43)
#plt.savefig("us_spike_i=23.png")

<IPython.core.display.Javascript object>

(41.0, 43.0)

In [32]:
#各刺激のスパイクの様子を1試行分だけ描画して閾値を決める
fig=plt.figure()
ax=fig.add_subplot(111)
xlim=[-50,350]
single_trial=click_lists[4]
time=np.linspace(xlim[0],xlim[1],len(single_trial))
ax.plot(time,single_trial,color="k")
ax.set_xlabel("time[ms]")
ax.set_ylabel("voltage[mV]")
ax.set_title("sound spike")
ax.set_xlim(44,46)
#plt.savefig("sound_spike_i=4.png")

<IPython.core.display.Javascript object>

(44.0, 46.0)

In [16]:
# Spike波形を取得する関数
def get_spikes(wave_list,Th,offset_inus,duration_inus):
    spikes=[]
    global samplerate
    for single_wave in wave_list:
        i=1
        while i<len(single_wave)-int(duration_inus*samplerate/1000000):
            if single_wave[i-1]>Th and wave[i]<Th:
                spike=single_wave[i-int(offset_inus*samplerate/1000000):i+int(duration_inus*samplerate/1000000)]
                spikes.append(spike)
                i+=int(duration_inus*samplerate/1000000)
            else:
                i+=1
    return spikes

In [33]:
Th=-0.018
offset_inus=250
duration_inus=750
click_spikes=get_spikes(click_lists,Th,offset_inus,duration_inus)
us_spikes=get_spikes(us_lists,Th,offset_inus,duration_inus)

In [34]:
print(f"clickのスパイク数:{len(click_spikes)}")
print(f"usのスパイク数:{len(us_spikes)}")

clickのスパイク数:210
usのスパイク数:209


In [35]:
#clickの主成分分析
#まずは各波形の標準化
#for i in range(len(click_spikes)):
#   click_spikes[i]=stats.zscore(click_spikes[i])
#標準化すると寄与率が下がるため棄却

In [36]:
#主成分分析の画像
pca = PCA()
pca.fit(click_spikes)
#データを主成分空間に写像
feature=pca.transform(click_spikes)

In [37]:
# 最初の5レコードに対して各主成分に対する値を描画
pd.DataFrame(feature, columns=["PC{}".format(x + 1) for x in range(len(click_spikes[0]))]).head()

Unnamed: 0,PC1,PC2,PC3,PC4,PC5,PC6,PC7,PC8,PC9,PC10,...,PC31,PC32,PC33,PC34,PC35,PC36,PC37,PC38,PC39,PC40
0,-2.990871,-2.902262,0.860211,-1.200478,-2.054634,-0.962291,-0.602486,-2.698298,-1.192836,1.0471,...,-2.54156e-07,6.317659e-08,1.213359e-08,2.066778e-08,2.538114e-09,-1.850552e-10,-1.082112e-11,-5.558443e-12,-2.34901e-12,5.5511150000000004e-17
1,3.19531,1.144297,-2.949757,-0.586199,-2.799676,1.109198,-1.746514,0.177652,0.968219,-1.329222,...,-9.074285e-08,3.492635e-08,7.443869e-08,-1.394908e-08,1.211683e-09,-4.905725e-10,7.125633e-11,3.901768e-12,-1.128795e-12,-9.575674e-16
2,1.841006,-3.554489,-2.862163,-1.412544,1.809027,0.814429,1.135612,0.443007,-0.098018,0.742081,...,-2.940756e-07,-1.523318e-07,-3.527993e-08,1.934304e-10,8.509037e-10,4.735276e-10,3.169742e-11,1.282541e-11,2.367884e-12,-7.598089e-16
3,-3.927283,1.380953,-4.396418,0.636964,-0.545464,0.049121,-0.177538,0.763414,0.542809,0.476479,...,-1.827395e-07,1.855979e-08,-5.067378e-10,-7.935493e-09,-3.031249e-09,5.339263e-11,-8.310913e-11,-2.084344e-11,3.529954e-13,1.526557e-16
4,-0.883916,-0.775749,-1.181546,-2.004962,3.629699,-2.374155,1.11619,-0.030331,1.532934,-1.862372,...,-9.493126e-08,-1.513385e-07,-8.48138e-08,5.873366e-09,-1.11581e-09,-3.852012e-11,-1.589255e-10,2.156098e-11,-5.993539e-13,-5.689893e-16


In [38]:
#各主成分寄与率を描画
print(pca.explained_variance_ratio_[:5])

[0.20069919 0.17781879 0.11566532 0.08760543 0.06714065]


In [39]:
#累積寄与率を出力
total=0
explained_variance=np.array(list(pca.explained_variance_ratio_))
for i in range(8):
    total+=explained_variance[i]
    print(f"i= {i+1} の累積寄与率は: {total}")
    

i= 1 の累積寄与率は: 0.20069918806511927
i= 2 の累積寄与率は: 0.37851798022796507
i= 3 の累積寄与率は: 0.49418329937623945
i= 4 の累積寄与率は: 0.5817887343134983
i= 5 の累積寄与率は: 0.648929380153193
i= 6 の累積寄与率は: 0.7075039848366793
i= 7 の累積寄与率は: 0.7569194550227833
i= 8 の累積寄与率は: 0.8051761517771486


In [131]:
# 累積寄与率を図示する
import matplotlib.ticker as ticker
plt.gca().get_xaxis().set_major_locator(ticker.MaxNLocator(integer=True))
fig=plt.figure()
ax=fig.add_subplot(111)
ax.plot([0] + list( np.cumsum(explained_variance[:30])), "-o",color="k")
ax.set_xlabel("Number of principal components")
ax.set_ylabel("Cumulative contribution rate")
plt.grid()
plt.savefig("click_cumlative_contrivution.png")
#plt.show()

<IPython.core.display.Javascript object>

In [50]:
#第3主成分までをdataとして使用
datas=feature[:,:3]
datas

array([[-2.01926534e-03, -7.74875413e-03, -3.54699759e-03],
       [ 1.96385942e-02, -1.83261932e-03,  4.32793098e-03],
       [-1.64255400e-02,  1.74462063e-02,  8.39704004e-03],
       [-6.15217970e-03, -2.80101875e-02,  2.68853052e-03],
       [ 1.44641763e-02,  2.83425505e-04,  6.89853064e-03],
       [-1.63013101e-02, -2.52102162e-02, -2.83973757e-03],
       [ 9.15365841e-03, -7.95081943e-03,  2.00447969e-03],
       [ 6.29505437e-03, -3.97574478e-03,  6.30264617e-03],
       [ 2.44572041e-02, -1.22662285e-02, -1.84627185e-02],
       [-6.28011536e-03,  2.22956351e-02, -6.15942809e-03],
       [ 2.19822371e-02,  6.53736715e-03,  1.75690926e-06],
       [ 1.47608307e-02, -5.39113930e-03,  1.51673070e-02],
       [-3.06525023e-03, -6.59417677e-03,  3.59176324e-03],
       [-3.09020425e-02, -8.91085506e-03,  3.22574770e-03],
       [-3.45928023e-04, -1.11445969e-02,  1.05996011e-03],
       [ 1.65641563e-02, -1.40184966e-03,  2.23073930e-02],
       [ 1.72533639e-02, -4.42955135e-04

In [51]:
def clustering_score(datas):
    methods = ["single", "complete", "average", "weighted",
               "centroid", "median", "ward"]
    for method in methods:
        S = pdist(datas,metric="braycurtis")
        Z = linkage(S, method=method)
        c, d = cophenet(Z, S)
        print("{0} {1:.3f}".format(method, c))

In [52]:
clustering_score(datas)

single -0.044
complete 0.331
average 0.380
weighted 0.352
centroid 0.363
median 0.326
ward 0.342


In [53]:
# 階層的クラスタリング
# 結果の作成　Bray-Curtis距離を用いて群平均法でクラスター間の距離を算出
#pdistを使用する
S=pdist(datas,metric="braycurtis")
result=linkage(S,method="average")
dendrogram(result,color_threshold=0.8)

{'icoord': [[35.0, 35.0, 45.0, 45.0],
  [25.0, 25.0, 40.0, 40.0],
  [15.0, 15.0, 32.5, 32.5],
  [55.0, 55.0, 65.0, 65.0],
  [95.0, 95.0, 105.0, 105.0],
  [85.0, 85.0, 100.0, 100.0],
  [75.0, 75.0, 92.5, 92.5],
  [60.0, 60.0, 83.75, 83.75],
  [23.75, 23.75, 71.875, 71.875],
  [125.0, 125.0, 135.0, 135.0],
  [175.0, 175.0, 185.0, 185.0],
  [165.0, 165.0, 180.0, 180.0],
  [155.0, 155.0, 172.5, 172.5],
  [145.0, 145.0, 163.75, 163.75],
  [130.0, 130.0, 154.375, 154.375],
  [115.0, 115.0, 142.1875, 142.1875],
  [47.8125, 47.8125, 128.59375, 128.59375],
  [205.0, 205.0, 215.0, 215.0],
  [195.0, 195.0, 210.0, 210.0],
  [245.0, 245.0, 255.0, 255.0],
  [235.0, 235.0, 250.0, 250.0],
  [225.0, 225.0, 242.5, 242.5],
  [202.5, 202.5, 233.75, 233.75],
  [265.0, 265.0, 275.0, 275.0],
  [295.0, 295.0, 305.0, 305.0],
  [285.0, 285.0, 300.0, 300.0],
  [270.0, 270.0, 292.5, 292.5],
  [218.125, 218.125, 281.25, 281.25],
  [88.203125, 88.203125, 249.6875, 249.6875],
  [325.0, 325.0, 335.0, 335.0],
  [315.0

In [54]:
#閾値を決めてクラスター分割
cluster_result = fcluster(result, t=0.8, criterion="distance")
d = defaultdict(list)
for i, r in enumerate(cluster_result):
    d[r].append(i)
for k, v in d.items():
    print(k, v)

4 [0, 3, 5, 24, 25, 34, 35, 37, 38, 39, 49, 54, 56, 57, 58, 59, 60, 64, 65, 70, 72, 83, 88, 90, 93, 96, 113, 114, 117, 122, 134, 135, 145, 148, 150, 153, 160, 171, 173, 178, 181, 183, 185, 188, 195, 201, 205, 214, 218, 221, 222, 243, 248, 272, 276, 285, 286, 287, 295, 304, 306, 317, 318, 327]
2 [1, 4, 6, 7, 8, 11, 16, 18, 19, 28, 29, 40, 42, 46, 48, 51, 52, 55, 61, 62, 66, 74, 78, 79, 81, 84, 86, 107, 112, 116, 125, 126, 127, 128, 131, 140, 151, 157, 158, 161, 162, 163, 167, 187, 191, 193, 194, 213, 215, 216, 223, 227, 233, 242, 244, 245, 247, 253, 257, 258, 260, 264, 266, 279, 283, 284, 292, 293, 297, 298, 299, 300, 305, 310, 311, 316, 324, 325]
3 [2, 12, 13, 14, 17, 21, 22, 26, 33, 43, 44, 45, 53, 63, 85, 87, 97, 98, 100, 102, 105, 108, 109, 111, 118, 119, 121, 129, 132, 136, 137, 138, 141, 143, 144, 149, 154, 156, 166, 177, 182, 186, 190, 196, 197, 198, 199, 203, 204, 210, 211, 212, 219, 225, 230, 231, 232, 235, 236, 237, 240, 252, 263, 265, 268, 277, 280, 281, 282, 296, 301, 302, 3

In [55]:
#各パラメータデータに入れる
X=datas[:,0]
Y=datas[:,1]
Z=datas[:,2]

# グラフの枠を作成
fig = plt.figure()
ax = fig.add_subplot(111,projection='3d')

# X,Y,Z軸にラベルを設定
ax.set_xlabel("PC1")
ax.set_ylabel("PC2")
ax.set_zlabel("PC3")
#ax.set_xlim(0,20000)
#ax.set_zlim(0,7500)

#各クラスターに対して散布図の描画
for key in sorted(d):
    values=d[key]
    x=[X[value] for value in values]
    y=[Y[value] for value in values]
    z=[Z[value] for value in values]
    ax.scatter(x,y,z,label=str(key))
ax.view_init(elev=20, azim=240)
plt.legend()
#plt.show()
plt.savefig("pca_result_click")

<IPython.core.display.Javascript object>

In [153]:
fig.clear()
plt.close(fig)
del fig
gc.collect()


52878