# 유클리드 거리

In [None]:
import pandas as pd
import numpy as np

# 유클리드 거리 계산 함수
def euclidean_distance(vector1, vector2):
    vector1 = np.array(vector1)
    vector2 = np.array(vector2)
    distance = np.linalg.norm(vector1 - vector2)
    return distance

# 초기 데이터프레임
df = pd.DataFrame(z_scores)
df_name = 'z_scores'
pattern_column = '종가_OHLC_괴리율'
index_length = len(z_scores.index)

# 반복을 위한 데이터프레임 초기화
new_df = pd.DataFrame(index=range(index_length))

distances = []  # 유클리드 거리를 저장할 리스트

for i in range(2, len(df.columns)):
    # 컬럼 이름 추출
    column_name = df.columns[i]
    
    # 패턴 컬럼 추출
    pattern = df.iloc[:, i].tolist()
    
    # 새로운 데이터 프레임 패턴 컬럼 추가
    new_df[column_name] = pattern
    
    # 유클리드 거리 계산
    distance = euclidean_distance(df[pattern_column].tolist(), pattern)
    distances.append((column_name, distance))  # 컬럼 이름과 유클리드 거리를 튜플로 저장

# 유클리드 거리를 기준으로 상위 5개 컬럼 추출
top_5_columns = sorted(distances, key=lambda x: x[1])[:5]

print("가장 유사한 패턴을 가진 상위 5개 컬럼:")
for column in top_5_columns:
    print(f"컬럼 {column[0]}: 유클리드 거리 {column[1]:.2f}")

# 코사인 유사도

In [ ]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

# 데이터 프레임 벡터 표현 추출
# 행과 열 스위칭
vectors = All_Stock_cosine.values.T

# 기존 데이터 프레임 컬럼 이름 추출
column_names = All_Stock_cosine.columns

# 코사인 유사도 계산
cosine_sim = cosine_similarity(vectors)

# 코사인 유사도 결과를 데이터 프레임 변환
cosine_sim_df = pd.DataFrame(cosine_sim, columns=column_names, index=column_names)

# 첫 번째 컬럼과 가장 유사한 코사인 유사도 정렬 상위 5개 추출
similar_columns = cosine_sim_df.iloc[:, 0].sort_values(ascending=False)[1:6]

print("가중치가 높은 상위 5개의 유사한 컬럼:")
for column in similar_columns.index:
    weight = similar_columns[column]
    print(f"{column} (가중치: {weight:.2f})")

# 자카드 유사도

In [ ]:
import pandas as pd

# 데이터 프레임
All_Stock_Rate = pd.DataFrame(All_Stock_Rate)

# 기준 컬럼
base_column = '수익률'

# 기준 컬럼의 집합
base_set = set(All_Stock_Rate[base_column])

# 변수 초기화
similar_columns = []
similarities = []

# 나머지 컬럼의 자카드 유사도 계산
for column in All_Stock_Rate.columns[1:]:
    # 비교할 컬럼의 집합 구하기
    compare_set = set(All_Stock_Rate[column])
    
    # 집합의 길이가 0인 경우, 자카드 유사도 0으로 설정
    if len(base_set) == 0 or len(compare_set) == 0:
        jaccard_similarity = 0
    else:
        # 집합의 길이가 다른 경우, 짧은 집합을 기준으로 자카드 유사도 계산
        if len(base_set) <= len(compare_set):
            intersection = base_set.intersection(compare_set)
            jaccard_similarity = len(intersection) / len(base_set)
        else:
            intersection = compare_set.intersection(base_set)
            jaccard_similarity = len(intersection) / len(compare_set)
    
    # 유사한 컬럼과 유사도 리스트 저장
    similar_columns.append(column)
    similarities.append(jaccard_similarity)

# 유사도 기준 상위 5개 컬럼 추출
top_similar_columns = [x for _, x in sorted(zip(similarities, similar_columns), reverse=True)][:5]

# 상위 5개의 유사한 컬럼 출력
print("가중치가 높은 상위 5개의 유사한 컬럼:")
for column in top_similar_columns:
    weight = similarities[similar_columns.index(column)]
    print(f"{column} (가중치: {weight:.2f})")