In [5]:
import pandas as pd
import numpy as np

# CSVデータを読み込み
file_path = "./example/data.csv"  # CSVファイルのパス
df = pd.read_csv(file_path)

In [6]:
from scipy.spatial.distance import cosine

# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# コサイン類似度を計算
similarities = {}
for col in comparison_columns:
    # コサイン距離を類似度に変換 (1 - cosine distance)
    similarity = 1 - cosine(df[reference_column], df[col])
    similarities[col] = similarity

# 類似度が高い順に並べて上位3つを選択
similar_columns = sorted(similarities, key=similarities.get, reverse=True)[:3]

print("基準カラムに最も似たカラム:", similar_columns)

基準カラムに最も似たカラム: ['C', 'D', 'A']


In [7]:
# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# ユークリッド距離を計算
distances = {}
for col in comparison_columns:
    # ユークリッド距離を計算
    distance = np.linalg.norm(df[reference_column] - df[col])
    distances[col] = distance

# 距離が小さい順に並べて上位3つを選択
closest_columns = sorted(distances, key=distances.get)[:3]

print("基準カラムに最も近いカラム:", closest_columns)
print("各カラムとのユークリッド距離:", distances)

基準カラムに最も近いカラム: ['D', 'A', 'B']
各カラムとのユークリッド距離: {'A': 1.0, 'B': 2.23606797749979, 'C': 66.74578638386096, 'D': 0.22360679774997877}


In [8]:
# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# マンハッタン距離を計算
distances = {}
for col in comparison_columns:
    distance = np.sum(np.abs(df[reference_column] - df[col]))
    distances[col] = distance

# 距離が小さい順に並べて上位3つを選択
closest_columns = sorted(distances, key=distances.get)[:3]

print("基準カラムに最も近いカラム（マンハッタン距離）:", closest_columns)
print("各カラムとのマンハッタン距離:", distances)

基準カラムに最も近いカラム（マンハッタン距離）: ['D', 'A', 'B']
各カラムとのマンハッタン距離: {'A': 1, 'B': 5, 'C': 135, 'D': 0.49999999999999956}


In [10]:
output_file = "output_distances.xlsx"  # 出力先のエクセルファイル名

# 基準カラム
reference_column = "基準"

# 比較に不要なカラムを指定
exclude_columns = ["日付"]

# 比較対象のカラムを抽出
comparison_columns = [col for col in df.columns if col not in exclude_columns + [reference_column]]

# 結果を格納する辞書
results = {
    "カラム名": [],
    "ユークリッド距離": [],
    "マンハッタン距離": [],
    "コサイン類似度": []
}

# 各カラムとの距離・類似度を計算
for col in comparison_columns:
    # ユークリッド距離
    euclidean_distance = np.linalg.norm(df[reference_column] - df[col])
    # マンハッタン距離
    manhattan_distance = np.sum(np.abs(df[reference_column] - df[col]))
    # コサイン類似度
    cosine_similarity = 1 - cosine(df[reference_column], df[col])
    
    # 結果を格納
    results["カラム名"].append(col)
    results["ユークリッド距離"].append(euclidean_distance)
    results["マンハッタン距離"].append(manhattan_distance)
    results["コサイン類似度"].append(cosine_similarity)

# DataFrameに変換
results_df = pd.DataFrame(results)

# 結果をエクセルファイルに出力
results_df.to_excel(output_file, index=False, sheet_name="距離と類似度")

print(f"距離と類似度の結果を {output_file} に保存しました。")

距離と類似度の結果を output_distances.xlsx に保存しました。
