In [1]:
import pandas as pd
import numpy as np

# CSVデータを読み込み
file_path = "./example/data.csv"  # CSVファイルのパス
df = pd.read_csv(file_path)

In [2]:
from scipy.spatial.distance import cosine

# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# コサイン類似度を計算
similarities = {}
for col in comparison_columns:
    # コサイン距離を類似度に変換 (1 - cosine distance)
    similarity = 1 - cosine(df[reference_column], df[col])
    similarities[col] = similarity

# 類似度が高い順に並べて上位3つを選択
similar_columns = sorted(similarities, key=similarities.get, reverse=True)[:3]

print("基準カラムに最も似たカラム:", similar_columns)

基準カラムに最も似たカラム: ['C', 'D', 'A']


In [3]:
# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# ユークリッド距離を計算
distances = {}
for col in comparison_columns:
    # ユークリッド距離を計算
    distance = np.linalg.norm(df[reference_column] - df[col])
    distances[col] = distance

# 距離が小さい順に並べて上位3つを選択
closest_columns = sorted(distances, key=distances.get)[:3]

print("基準カラムに最も近いカラム:", closest_columns)
print("各カラムとのユークリッド距離:", distances)

基準カラムに最も近いカラム: ['D', 'A', 'B']
各カラムとのユークリッド距離: {'A': 1.0, 'B': 2.23606797749979, 'C': 66.74578638386096, 'D': 0.22360679774997877}
