## ガウスカーネルによる古文時代判定

In [1]:
# ライブラリ読込
import numpy as np
from sklearn.metrics.pairwise import rbf_kernel
import pandas as pd

In [2]:
# サンプルの古文テキストをもとにした素性データ (例)
# ここでは、10個の仮想的な特徴量を数値として表します（0〜1のランダム値を仮定）
np.random.seed(0)
n_samples = 5  # 古文サンプル数
n_features = 10  # 素性の数
features = np.random.rand(n_samples, n_features)

In [3]:
# 素性名のリスト（例）
feature_names = [
    "平仮名率", "カタカナ率", "名詞数", "動詞数", "助詞数",
    "形容詞数", "古語率", "漢字率", "句読点数", "特殊語彙数"
]

In [4]:
# データフレームとして表示
df = pd.DataFrame(features, columns=feature_names)
print("古文テキストの素性データ:\n", df)

古文テキストの素性データ:
        平仮名率     カタカナ率       名詞数       動詞数       助詞数      形容詞数       古語率  \
0  0.548814  0.715189  0.602763  0.544883  0.423655  0.645894  0.437587   
1  0.791725  0.528895  0.568045  0.925597  0.071036  0.087129  0.020218   
2  0.978618  0.799159  0.461479  0.780529  0.118274  0.639921  0.143353   
3  0.264556  0.774234  0.456150  0.568434  0.018790  0.617635  0.612096   
4  0.359508  0.437032  0.697631  0.060225  0.666767  0.670638  0.210383   

        漢字率      句読点数     特殊語彙数  
0  0.891773  0.963663  0.383442  
1  0.832620  0.778157  0.870012  
2  0.944669  0.521848  0.414662  
3  0.616934  0.943748  0.681820  
4  0.128926  0.315428  0.363711  


In [5]:
# RBFカーネルによる相関行列の計算
gamma = 0.5  # ガウスカーネルのパラメータ
correlation_matrix = rbf_kernel(features, gamma=gamma)

In [6]:
# 相関行列をデータフレームとして表示
correlation_df = pd.DataFrame(correlation_matrix, columns=[f"Sample_{i+1}" for i in range(n_samples)],
                              index=[f"Sample_{i+1}" for i in range(n_samples)])
print("\nガウスカーネル（RBF）による相関行列:\n", correlation_df)


ガウスカーネル（RBF）による相関行列:
           Sample_1  Sample_2  Sample_3  Sample_4  Sample_5
Sample_1  1.000000  0.569704  0.723933  0.791968  0.479273
Sample_2  0.569704  1.000000  0.687655  0.542801  0.264730
Sample_3  0.723933  0.687655  1.000000  0.564843  0.348896
Sample_4  0.791968  0.542801  0.564843  1.000000  0.415302
Sample_5  0.479273  0.264730  0.348896  0.415302  1.000000
