## 1. 파일 불러오기

#### 1) embedding 데이터 불러오기

##### **임베딩 데이터를 저장할때 데이터프레임에 to_list()로 저장해놔서 데이터를 사용하기 용이하게 다시 리스트를 numpy배열로 변환

*** to_list()로 저장하는 이유:    
1. 리스트 형식으로 저장하면 각 문장에 대한 임베딩을 쉽게 관리    
2. Pandas 데이터프레임은 기본적으로 다양한 타입의 데이터를 저장할 수 있지만, numpy 배열은 특정 형태로 저장해야 합니다. 리스트는 각 셀에 다양한 형태의 데이터를 저장할 수 있게 해줌    
3. 리스트로 저장된 임베딩은 나중에 다시 numpy 배열로 쉽게 변환가능

In [1]:
import pandas as pd
import numpy as np
import ast

# CSV 파일 불러오기
df_inheritance = pd.read_csv('df_inheritance_kobertmodel.csv')

# 다시 리스트를 NumPy 배열로 변환
df_inheritance['판례내용이유임베딩'] = df_inheritance['판례내용이유임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)
df_inheritance['키워드임베딩'] = df_inheritance['키워드임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)
df_inheritance['판결요지임베딩'] = df_inheritance['판결요지임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)
df_inheritance['판시사항임베딩'] = df_inheritance['판시사항임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)


#### 2) 데이터확인

In [2]:
df_inheritance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4166 entries, 0 to 4165
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   판례정보일련번호       4166 non-null   int64 
 1   사건번호           4166 non-null   object
 2   선고             4166 non-null   object
 3   판결유형           4166 non-null   object
 4   판시사항           3250 non-null   object
 5   판결요지           2932 non-null   object
 6   참조조문           3225 non-null   object
 7   참조판례           1935 non-null   object
 8   판례내용           4166 non-null   object
 9   판례내용_상단        4166 non-null   object
 10  판례내용_이유        4166 non-null   object
 11  판례내용_이유_전처리    4146 non-null   object
 12  판례내용_이유_불용어제거  4131 non-null   object
 13  클러스터           4166 non-null   int64 
 14  키워드            4166 non-null   object
 15  사건명            3924 non-null   object
 16  판례내용이유임베딩      4166 non-null   object
 17  키워드임베딩         4166 non-null   object
 18  판결요지임베딩        2932 non-null

In [3]:
df_inheritance.head(2)

Unnamed: 0,판례정보일련번호,사건번호,선고,판결유형,판시사항,판결요지,참조조문,참조판례,판례내용,판례내용_상단,판례내용_이유,판례내용_이유_전처리,판례내용_이유_불용어제거,클러스터,키워드,사건명,판례내용이유임베딩,키워드임베딩,판결요지임베딩,판시사항임베딩
0,238913,2023다221144,선고,판결,"[1] 가분채권이 공동상속되는 경우의 법률관계 / 주식이 공동상속되는 경우, 공동...",[1] 금전채권과 같이 급부의 내용이 가분인 채권은 공동상속되는 경우 상속개시와 ...,"[1] 민법 제269조, 제278조, 제547조 제1항, 제1005조, 제1006...","[1] 대법원 2003. 5. 30. 선고 2003다7074 판결, 대법원 200...","【원고, 상고인】 원고 (소송대리인 법무법인 참진 담당변호사 이영동)【피고, 피상고...","【원고, 상고인】 원고 (소송대리인 법무법인 참진 담당변호사 이영동)【피고, 피상고...",【이 유】 상고이유를 판단한다. 1. 사안의 개요 가. 사실관계 원...,상고이유를 판단한다. 1. 사안의 개요 가. 사실관계 원심판결 이유와 기록에 따르면...,개요 사실관계 망인 은행 예금 채권 은행 판매 투자신탁 형태 MMF Money Ma...,2,"신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주",예금[투자신탁 형태 단기금융집합투자기구(MMF) 수익권의 공동상속 효과가 문제된 사건],"[[0.09682950377464294, -0.2833014726638794, 0....","[[0.08193794637918472, 0.05260368064045906, 0....","[[0.12045687437057495, -0.09459716826677322, 0...","[[0.20212049782276154, -0.06857649981975555, 0..."
1,240673,2021두52143,선고,판결,대한민국에서 주로 체류하며 대한민국에 있는 건축사무소 등에서 건축설계사로 근무하...,,구 섭외사법(2001. 4. 7. 법률 제6465호 국제사법으로 전부 개정되기 전의...,,"【원고, 상고인】 원고 1 외 3인 (소송대리인 변호사 이종건)【피고, 피상고인】 ...","【원고, 상고인】 원고 1 외 3인 (소송대리인 변호사 이종건)【피고, 피상고인】 ...","【이 유】 상고이유를 판단한다. 1. 원심판결 이유와 기록에 따르면, 다...","상고이유를 판단한다. 1. 원심판결 이유와 기록에 따르면, 다음의 사실을 알 수 있...",인과 대한민국 혼인신고 마쳤고 자녀 미합중국 캘리포니아 출생 미합중국 시민권 취...,2,"신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주",상속세부과처분취소,"[[0.1609489917755127, -0.2994731664657593, 0.6...","[[0.08193794637918472, 0.05260368064045906, 0....",,"[[0.053899895399808884, 0.21528321504592896, 0..."


##### 3) 오류날때 참고할 코드

##### ** '키워드' 리스트형태인지 확인하기

In [4]:
# '키워드' 열의 몇 개의 샘플 데이터 확인
print(df_inheritance['키워드'].head())

0        신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주
1        신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주
2    상속, 재산, 분할, 유류분, 상속인, 부동산, 민법, 한정승인, 피상, 포기
3      망인, 손해, 차량, 위자료, 지급, 손해배상, 사망, 유족, 운전, 운행
4        상속세, 세액, 부과, 납부, 과세, 상속, 재산, 가액, 신고, 납세
Name: 키워드, dtype: object


In [5]:
# 각 행의 키워드 문자열을 쉼표로 분리하고 리스트 형태로 저장
df_inheritance['키워드'] = df_inheritance['키워드'].apply(lambda x: x.split(', '))

##### ** 키워드 임베딩 값이 같은지 확인하기

In [6]:
# 두 행의 임베딩 값이 같은지 확인
embedding_0 = df_inheritance.loc[0, '키워드임베딩']
embedding_1000 = df_inheritance.loc[1000, '키워드임베딩']
print(np.array_equal(embedding_0, embedding_1000))  # True면 동일, False면 다름

True


In [7]:
print(df_inheritance['키워드'].iloc[0])
print(df_inheritance['키워드'].iloc[1000])

['신청', '상속', '부동산', '주택', '사망', '건물', '계약', '회사', '재산', '호주']
['신청', '상속', '부동산', '주택', '사망', '건물', '계약', '회사', '재산', '호주']


## 2. 유사도계산코드

#### 1) 판결요지

In [8]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 사용자 키워드에 대한 임베딩을 찾기 위한 함수
def get_keyword_embedding(user_keyword, df):
    # 키워드가 포함된 행을 필터링
    matching_rows = df[df['키워드'].apply(lambda x: user_keyword in x if isinstance(x, list) else False)]
    
    if not matching_rows.empty:
        # 첫 번째 매칭된 키워드의 임베딩을 반환
        return matching_rows['키워드임베딩'].iloc[0]
    else:
        return None  # 매칭되는 키워드가 없으면 None 반환

# 사용자 입력
user_keyword = "토지"  # 사용자가 입력한 키워드
user_keyword_embedding = get_keyword_embedding(user_keyword, df_inheritance)

if user_keyword_embedding is not None:
    # 판례내용 임베딩 유사도 계산 및 사건명 추출
    content_similarity_scores = []

    for idx, row in df_inheritance.iterrows():
        if row['판결요지임베딩'] is not None and not np.isnan(row['판결요지임베딩']).any():
            
            content_similarity = cosine_similarity(user_keyword_embedding, row['판결요지임베딩']).flatten()[0]
            content_similarity_scores.append((row['사건번호'], content_similarity))
            
            

    # 유사도 기준으로 정렬 및 상위 N개 선택
    sorted_content_scores = sorted(content_similarity_scores, key=lambda x: x[1], reverse=True)
    top_n_contents = sorted_content_scores[:10]

    # 추천 사건명 출력
    print("사용자 키워드와 관련된 사건명 :")
    for 사건번호, score in top_n_contents:
        사건명 = df_inheritance.loc[df_inheritance['사건번호'] == 사건번호, '사건명'].values
        사건명 = 사건명[0] if 사건명.size > 0 else "사건명 없음"
        print(f"사건번호: {사건번호}, 사건명: {사건명}, 유사도: {score:.4f}")
else:
    print("해당 키워드에 대한 임베딩이 없습니다.")


사용자 키워드와 관련된 사건명 :
사건번호: 71나689, 사건명: 손해배상청구사건, 유사도: 0.8384
사건번호: 80스44, 사건명: 호적정정허가신청각하결정에대한재항고, 유사도: 0.8140
사건번호: 86누147, 사건명: 상속세부과처분취소, 유사도: 0.7983
사건번호: 90르1595, 사건명: 재산상속회복및상속재산분할, 유사도: 0.7925
사건번호: 88나6148, 사건명: 손해배상(자), 유사도: 0.7867
사건번호: 81다카1257, 사건명: 대여금등, 유사도: 0.7819
사건번호: 93다41174, 사건명: 소유권보존등기말소, 유사도: 0.7815
사건번호: 2018두32927, 사건명: 취득세등경정청구거부처분취소, 유사도: 0.7790
사건번호: 73나755, 사건명: 손해배상등청구사건, 유사도: 0.7781
사건번호: 97도632, 사건명: 사기미수·사문서위조·위조사문서행사, 유사도: 0.7774


#### 2) 판례내용_이유

In [9]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 사용자 키워드에 대한 임베딩을 찾기 위한 함수
def get_keyword_embedding(user_keyword, df):
    # 키워드가 포함된 행을 필터링
    matching_rows = df[df['키워드'].apply(lambda x: user_keyword in x if isinstance(x, list) else False)]
    
    if not matching_rows.empty:
        # 첫 번째 매칭된 키워드의 임베딩을 반환
        return matching_rows['키워드임베딩'].iloc[0]
    else:
        return None  # 매칭되는 키워드가 없으면 None 반환

# 사용자 입력
user_keyword = "토지"  # 사용자가 입력한 키워드
user_keyword_embedding = get_keyword_embedding(user_keyword, df_inheritance)

if user_keyword_embedding is not None:
    # 판례내용 임베딩 유사도 계산 및 사건명 추출
    content_similarity_scores = []

    for idx, row in df_inheritance.iterrows():
        if row['판례내용이유임베딩'] is not None and not np.isnan(row['판례내용이유임베딩']).any():
            # 판례내용 임베딩과 사용자 키워드 임베딩 간의 유사도 계산
            content_similarity = cosine_similarity(user_keyword_embedding.reshape(1, -1), row['판례내용이유임베딩'].reshape(1, -1)).flatten()[0]
            content_similarity_scores.append((row['사건번호'], content_similarity))

    # 유사도 기준으로 정렬 및 상위 N개 선택
    sorted_content_scores = sorted(content_similarity_scores, key=lambda x: x[1], reverse=True)
    top_n_contents = sorted_content_scores[:10]

    # 추천 사건명 출력
    print("사용자 키워드와 관련된 사건명 :")
    for 사건번호, score in top_n_contents:
        사건명 = df_inheritance.loc[df_inheritance['사건번호'] == 사건번호, '사건명'].values
        사건명 = 사건명[0] if 사건명.size > 0 else "사건명 없음"
        print(f"사건번호: {사건번호}, 사건명: {사건명}, 유사도: {score:.4f}")
else:
    print("해당 키워드에 대한 임베딩이 없습니다.")


사용자 키워드와 관련된 사건명 :
사건번호: 2015나6250, 사건명: 건물명도등, 유사도: 0.8014
사건번호: 2003가합1087, 사건명: 부당이득금, 유사도: 0.7841
사건번호: 2015구합66579, 사건명: 상속세부과처분취소청구의소, 유사도: 0.7805
사건번호: 88르3635, 사건명: 상속재산분할, 유사도: 0.7645
사건번호: 2002누1657, 사건명: 상속세등부과처분취소, 유사도: 0.7643
사건번호: 84구346, 사건명: 상속세등부과처분취소청구사건, 유사도: 0.7640
사건번호: 82구125, 사건명: 상속세등부과처분취소청구사건, 유사도: 0.7638
사건번호: 2009나16058(본소),2010나28569(반소), 사건명: nan, 유사도: 0.7617
사건번호: 2002구합4914, 사건명: 상속세부과처분취소, 유사도: 0.7614
사건번호: 2009두7103, 사건명: 양도소득세부과처분취소, 유사도: 0.7604


#### 3) 판시사항

In [10]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 사용자 키워드에 대한 임베딩을 찾기 위한 함수
def get_keyword_embedding(user_keyword, df):
    # 키워드가 포함된 행을 필터링
    matching_rows = df[df['키워드'].apply(lambda x: user_keyword in x if isinstance(x, list) else False)]
    
    if not matching_rows.empty:
        # 첫 번째 매칭된 키워드의 임베딩을 반환
        return matching_rows['키워드임베딩'].iloc[0]
    else:
        return None  # 매칭되는 키워드가 없으면 None 반환

# 사용자 입력
user_keyword = "재산"  # 사용자가 입력한 키워드
user_keyword_embedding = get_keyword_embedding(user_keyword, df_inheritance)

if user_keyword_embedding is not None:
    # 판례내용 임베딩 유사도 계산 및 사건명 추출
    content_similarity_scores = []

    for idx, row in df_inheritance.iterrows():
        if row['판시사항임베딩'] is not None and not np.isnan(row['판시사항임베딩']).any():
            # 판례내용 임베딩과 사용자 키워드 임베딩 간의 유사도 계산
            content_similarity = cosine_similarity(user_keyword_embedding.reshape(1, -1), row['판시사항임베딩'].reshape(1, -1)).flatten()[0]
            content_similarity_scores.append((row['사건번호'], content_similarity))

    # 유사도 기준으로 정렬 및 상위 N개 선택
    sorted_content_scores = sorted(content_similarity_scores, key=lambda x: x[1], reverse=True)
    top_n_contents = sorted_content_scores[:10]

    # 추천 사건명 출력
    print("사용자 키워드와 관련된 사건명 :")
    for 사건번호, score in top_n_contents:
        사건명 = df_inheritance.loc[df_inheritance['사건번호'] == 사건번호, '사건명'].values
        사건명 = 사건명[0] if 사건명.size > 0 else "사건명 없음"
        print(f"사건번호: {사건번호}, 사건명: {사건명}, 유사도: {score:.4f}")
else:
    print("해당 키워드에 대한 임베딩이 없습니다.")


사용자 키워드와 관련된 사건명 :
사건번호: 97다30349, 사건명: 소유권확인, 유사도: 0.7635
사건번호: 97다8809, 사건명: 구상금, 유사도: 0.7605
사건번호: 97누12853, 사건명: 상속세물납불허가처분취소등, 유사도: 0.7600
사건번호: 2003두9817, 9824, 사건명: nan, 유사도: 0.7585
사건번호: 2008다31485, 사건명: 소유권이전등기, 유사도: 0.7571
사건번호: 2007다57619, 사건명: 소유권이전등기, 유사도: 0.7568
사건번호: 96므1137, 사건명: 호주승계회복, 유사도: 0.7541
사건번호: 2022스597, 598, 사건명: nan, 유사도: 0.7539
사건번호: 2010다29409, 사건명: 유류분 청구, 유사도: 0.7536
사건번호: 2002다694, 700, 사건명: nan, 유사도: 0.7535


#### **** 2D배열로 사용하는 코드

##### reshape하는 이유는 cosine_similarity함수가 1D,2D배열 구조로 받아들이는데 일부 2D배열이 섞여 있을 경우 오류가 나니까 미리 모든 배열을 2D로 바꿔줌

In [11]:
    for idx, row in df_inheritance.iterrows():
        if row['판결요지임베딩'] is not None and not np.isnan(row['판결요지임베딩']).any():
            # 판례내용 임베딩과 사용자 키워드 임베딩 간의 유사도 계산
            content_similarity = cosine_similarity(user_keyword_embedding.reshape(1, -1), row['판결요지임베딩'].reshape(1, -1)).flatten()[0]
            content_similarity_scores.append((row['사건번호'], content_similarity))
            