## 1. 파일 불러오기

#### 1) embedding 데이터 불러오기

##### **임베딩 데이터를 저장할때 데이터프레임에 to_list()로 저장해놔서 데이터를 사용하기 용이하게 다시 리스트를 numpy배열로 변환

*** to_list()로 저장하는 이유:    
1. 리스트 형식으로 저장하면 각 문장에 대한 임베딩을 쉽게 관리    
2. Pandas 데이터프레임은 기본적으로 다양한 타입의 데이터를 저장할 수 있지만, numpy 배열은 특정 형태로 저장해야 합니다. 리스트는 각 셀에 다양한 형태의 데이터를 저장할 수 있게 해줌    
3. 리스트로 저장된 임베딩은 나중에 다시 numpy 배열로 쉽게 변환가능

In [1]:
import pandas as pd
import numpy as np
import ast

# CSV 파일 불러오기
df_inheritance = pd.read_csv('df_inheritance_kobertmodel.csv')

# 다시 리스트를 NumPy 배열로 변환
df_inheritance['판례내용이유임베딩'] = df_inheritance['판례내용이유임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)
df_inheritance['키워드임베딩'] = df_inheritance['키워드임베딩'].apply(lambda x: np.array(ast.literal_eval(x)) if pd.notnull(x) else None)


#### 2) 데이터확인

In [2]:
df_inheritance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4127 entries, 0 to 4126
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   판례정보일련번호       4127 non-null   int64 
 1   사건번호           4127 non-null   object
 2   선고             4127 non-null   object
 3   판결유형           4127 non-null   object
 4   판시사항           3233 non-null   object
 5   판결요지           2916 non-null   object
 6   참조조문           3206 non-null   object
 7   참조판례           1924 non-null   object
 8   판례내용           4127 non-null   object
 9   판례내용_상단        4127 non-null   object
 10  판례내용_이유        4127 non-null   object
 11  판례내용_이유_전처리    4127 non-null   object
 12  판례내용_이유_불용어제거  4127 non-null   object
 13  클러스터           4127 non-null   int64 
 14  키워드            4127 non-null   object
 15  사건명            3892 non-null   object
 16  판례내용이유임베딩      4127 non-null   object
 17  키워드임베딩         4127 non-null   object
 18  판결요지임베딩        2916 non-null

In [3]:
df_inheritance.head(2)

Unnamed: 0,판례정보일련번호,사건번호,선고,판결유형,판시사항,판결요지,참조조문,참조판례,판례내용,판례내용_상단,판례내용_이유,판례내용_이유_전처리,판례내용_이유_불용어제거,클러스터,키워드,사건명,판례내용이유임베딩,키워드임베딩,판결요지임베딩,판시사항임베딩
0,238913,2023다221144,선고,판결,"[1] 가분채권이 공동상속되는 경우의 법률관계 / 주식이 공동상속되는 경우, 공동...",[1] 금전채권과 같이 급부의 내용이 가분인 채권은 공동상속되는 경우 상속개시와 ...,"[1] 민법 제269조, 제278조, 제547조 제1항, 제1005조, 제1006...","[1] 대법원 2003. 5. 30. 선고 2003다7074 판결, 대법원 200...","【원고, 상고인】 원고 (소송대리인 법무법인 참진 담당변호사 이영동)【피고, 피상고...","【원고, 상고인】 원고 (소송대리인 법무법인 참진 담당변호사 이영동)【피고, 피상고...",【이 유】 상고이유를 판단한다. 1. 사안의 개요 가. 사실관계 원...,상고이유를 판단한다. 1. 사안의 개요 가. 사실관계 원심판결 이유와 기록에 따르면...,개요 사실관계 망인 은행 예금 채권 은행 판매 투자신탁 형태 MMF Money Ma...,2,"신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주",예금[투자신탁 형태 단기금융집합투자기구(MMF) 수익권의 공동상속 효과가 문제된 사건],"[[0.09682950377464294, -0.2833014726638794, 0....","[[0.08193794637918472, 0.05260368064045906, 0....","[[0.12045687437057495, -0.09459716826677322, 0...","[[0.20212049782276154, -0.06857649981975555, 0..."
1,240673,2021두52143,선고,판결,대한민국에서 주로 체류하며 대한민국에 있는 건축사무소 등에서 건축설계사로 근무하...,,구 섭외사법(2001. 4. 7. 법률 제6465호 국제사법으로 전부 개정되기 전의...,,"【원고, 상고인】 원고 1 외 3인 (소송대리인 변호사 이종건)【피고, 피상고인】 ...","【원고, 상고인】 원고 1 외 3인 (소송대리인 변호사 이종건)【피고, 피상고인】 ...","【이 유】 상고이유를 판단한다. 1. 원심판결 이유와 기록에 따르면, 다...","상고이유를 판단한다. 1. 원심판결 이유와 기록에 따르면, 다음의 사실을 알 수 있...",인과 대한민국 혼인신고 마쳤고 자녀 미합중국 캘리포니아 출생 미합중국 시민권 취...,2,"신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주",상속세부과처분취소,"[[0.1609489917755127, -0.2994731664657593, 0.6...","[[0.08193794637918472, 0.05260368064045906, 0....",,"[[0.053899895399808884, 0.21528321504592896, 0..."


##### 3) 오류날때 참고할 코드

##### ** '키워드' 리스트형태인지 확인하기

In [4]:
# '키워드' 열의 몇 개의 샘플 데이터 확인
print(df_inheritance['키워드'].head())

0        신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주
1        신청, 상속, 부동산, 주택, 사망, 건물, 계약, 회사, 재산, 호주
2    상속, 재산, 분할, 유류분, 상속인, 부동산, 민법, 한정승인, 피상, 포기
3      망인, 손해, 차량, 위자료, 지급, 손해배상, 사망, 유족, 운전, 운행
4        상속세, 세액, 부과, 납부, 과세, 상속, 재산, 가액, 신고, 납세
Name: 키워드, dtype: object


In [4]:
# 각 행의 키워드 문자열을 쉼표로 분리하고 리스트 형태로 저장
df_inheritance['키워드'] = df_inheritance['키워드'].apply(lambda x: x.split(', '))

##### ** 키워드 임베딩 값이 같은지 확인하기

In [6]:
# 두 행의 임베딩 값이 같은지 확인
embedding_0 = df_inheritance.loc[0, '키워드임베딩']
embedding_1000 = df_inheritance.loc[1000, '키워드임베딩']
print(np.array_equal(embedding_0, embedding_1000))  # True면 동일, False면 다름

True


In [7]:
print(df_inheritance['키워드'].iloc[0])
print(df_inheritance['키워드'].iloc[1000])

['신청', '상속', '부동산', '주택', '사망', '건물', '계약', '회사', '재산', '호주']
['신청', '상속', '부동산', '주택', '사망', '건물', '계약', '회사', '재산', '호주']


## 2. 유사도계산코드

#### 사용자가 입력하는 input 키워드로 계산

#### 1) 클러스터 주제 및 키워드 데이터 정의

In [8]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 예시 데이터 생성
data = {
    '주제': [
        '상속 및 재산 평가', '부동산 소유권 및 취득', '부동산 상속 및 사망 관련',
        '부동산 등기 및 소유권 이전', '손해배상 및 사망 보상', '농지 및 경작',
        '상속세 및 납부', '부동산 등기 및 거래', '상속 분할 및 유류분', '보험 및 보상'
    ],
    '키워드': [
        ['가액', '시가', '평가', '상속', '세법', '주식', '재산', '과세', '증여', '상속세'],
        ['점유', '토지', '취득시효', '등기', '소유권', '완성', '자주', '부동산', '취득', '의사'],
        ['신청', '상속', '부동산', '주택', '사망', '건물', '계약', '회사', '재산', '호주'],
        ['등기', '임야', '소유권', '부동산', '이전', '명의', '원인', '상속', '명의신탁', '토지'],
        ['망인', '손해', '차량', '위자료', '지급', '손해배상', '사망', '유족', '운전', '운행'],
        ['농지', '분배', '농지개혁법', '토지', '상환', '등기', '본건', '소유권', '경작', '완료'],
        ['상속세', '세액', '부과', '납부', '과세', '상속', '재산', '가액', '신고', '납세'],
        ['토지', '등기', '소유권', '이전', '명의', '분할', '지번', '주소', '환지', '매매'],
        ['상속', '재산', '분할', '유류분', '상속인', '부동산', '민법', '한정승인', '피상', '포기'],
        ['보험', '보험금', '계약', '지급', '망인', '보험료', '자동차', '연금', '수익', '상해']
    ]
}

df_clusterdata = pd.DataFrame(data)

# 주제와 클러스터 매핑 정의
topic_cluster_map = {
    '상속 및 재산 평가': 0,
    '부동산 소유권 및 취득': 1,
    '부동산 상속 및 사망 관련': 2,
    '부동산 등기 및 소유권 이전': 3,
    '손해배상 및 사망 보상': 4,
    '농지 및 경작': 5,
    '상속세 및 납부': 6,
    '부동산 등기 및 거래': 7,
    '상속 분할 및 유류분': 8,
    '보험 및 보상': 9
}

# 사용자 키워드에 대한 임베딩을 찾기 위한 함수
def get_keyword_embedding(user_keyword, df, cluster):
    # 주어진 클러스터로 필터링한 데이터에서 키워드 찾기
    matching_rows = df[(df['클러스터'] == cluster) & 
                       (df['키워드'].apply(lambda x: user_keyword in x if isinstance(x, list) else False))]
    
    if not matching_rows.empty:
        # 첫 번째 매칭된 키워드의 임베딩 반환
        return matching_rows['키워드임베딩'].iloc[0]
    else:
        return None  # 매칭되는 키워드가 없으면 None 반환

# 모든 주제와 키워드에 대해 유사도 계산 결과 저장
results = []

for idx, row in df_clusterdata.iterrows():
    user_topic = row['주제']
    cluster = topic_cluster_map.get(user_topic)
    keywords = row['키워드']
    
    # 각 주제에 속하는 10개 키워드 반복
    for user_keyword in keywords:
        # 해당 클러스터에서 사용자 키워드 임베딩 찾기
        user_keyword_embedding = get_keyword_embedding(user_keyword, df_inheritance, cluster)

        if user_keyword_embedding is not None:
            # 필터링된 클러스터 내에서 판례내용 임베딩 유사도 계산 및 사건명 추출
            content_similarity_scores = []

            for idx, row in df_inheritance[df_inheritance['클러스터'] == cluster].iterrows():
                if row['판례내용이유임베딩'] is not None and not np.isnan(row['판례내용이유임베딩']).any():
                    # 판례내용 임베딩과 사용자 키워드 임베딩 간의 유사도 계산
                    content_similarity = cosine_similarity(
                        user_keyword_embedding.reshape(1, -1), 
                        row['판례내용이유임베딩'].reshape(1, -1)
                    ).flatten()[0]
                    content_similarity_scores.append((row['사건번호'], content_similarity))

            # 유사도 기준으로 정렬 및 상위 N개 선택
            sorted_content_scores = sorted(content_similarity_scores, key=lambda x: x[1], reverse=True)
            top_n_contents = sorted_content_scores[:10]

            # 결과 저장
            for 사건번호, score in top_n_contents:
                사건명 = df_inheritance.loc[df_inheritance['사건번호'] == 사건번호, '사건명'].values
                사건명 = 사건명[0] if 사건명.size > 0 else "사건명 없음"
                results.append({
                    '주제': user_topic,
                    '키워드': user_keyword,
                    '사건번호': 사건번호,
                    '사건명': 사건명,
                    '유사도': score
                })
        else:
            print(f"'{user_keyword}'에 대한 임베딩이 없습니다. 주제: {user_topic}")

# 결과 데이터프레임으로 변환
df_results = pd.DataFrame(results)
df_results.to_csv('inheritance_results.csv', index=False)
print(df_results)


             주제 키워드          사건번호             사건명       유사도
0    상속 및 재산 평가  가액        82구125  상속세등부과처분취소청구사건  0.783160
1    상속 및 재산 평가  가액     2009두7103             NaN  0.778677
2    상속 및 재산 평가  가액        85구188   상속세부과처분취소청구사건  0.773895
3    상속 및 재산 평가  가액    2002두11196       상속세부과처분취소  0.763083
4    상속 및 재산 평가  가액        82구834   상속세부과처분취소청구사건  0.762343
..          ...  ..           ...             ...       ...
995     보험 및 보상  상해      93다48373       광업권이전등록말소  0.689644
996     보험 및 보상  상해    2006나14163  사기미수(인정된죄명:배임)  0.689618
997     보험 및 보상  상해  2015가합534383             보험금  0.686999
998     보험 및 보상  상해  2002가단237623    부당이득금환수처분의취소  0.684795
999     보험 및 보상  상해    2005가합3764             약정금  0.683641

[1000 rows x 5 columns]


In [7]:
a=df_results[df_results['주제'] == '상속 및 재산 평가']
a

Unnamed: 0,주제,키워드,사건번호,사건명,유사도
0,상속 및 재산 평가,가액,82구125,상속세등부과처분취소청구사건,0.783160
1,상속 및 재산 평가,가액,2009두7103,,0.778677
2,상속 및 재산 평가,가액,85구188,상속세부과처분취소청구사건,0.773895
3,상속 및 재산 평가,가액,2002두11196,상속세부과처분취소,0.763083
4,상속 및 재산 평가,가액,82구834,상속세부과처분취소청구사건,0.762343
...,...,...,...,...,...
95,상속 및 재산 평가,상속세,84구128,상속세등부과처분취소,0.761060
96,상속 및 재산 평가,상속세,83구582,행정처분무효확인,0.758113
97,상속 및 재산 평가,상속세,93구18442,상속세등부과처분취소청구사건,0.757958
98,상속 및 재산 평가,상속세,2004누6039,손해배상(기),0.750447
