In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install scikit-learn
!pip install nltk



In [None]:
import nltk
nltk.download('punkt')
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
import os
import json

In [None]:
# JSON 파일로부터 사건의 사실 내용을 추출하는 함수
def load_data_from_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
        # 'facts' -> 'bsisFacts' 경로를 따라 사건의 사실 내용 추출 및 문자열로 결합
        case_description = " ".join(data['facts']['bsisFacts'])
        case_number = " ".join(data['info']['caseNo'])
    return case_description

# 특정 디렉토리 내의 모든 JSON 파일로부터 데이터 로딩
def load_cases_from_directory(directory_path):
    cases = []
    for filename in os.listdir(directory_path):
        if filename.endswith('.json'):
            file_path = os.path.join(directory_path, filename)
            case_description = load_data_from_json(file_path)
            cases.append(case_description)
    return cases

In [None]:
directory_path = ['/content/drive/MyDrive/SKT_FLY_AI/Project/civil',
                  '/content/drive/MyDrive/SKT_FLY_AI/Project/criminal']
cases_all = load_cases_from_directory(directory_path)

In [None]:
cases_all

['상고사건을 수임한 변호사가 상고이유서 제출기간을 도과하여 상고기각된 경우에 상고이유서를 기간 내에 제출하였더라면 승소하였을 것이라는 점에 관한 입증이 없다고 하여 손해배상청구를 기각한 원심판결이 정당하다고 본 사례',
 '배서가 위조된 어음을 할인에 의하여 취득한 사람이 입은 손해액 배서위조를 원인으로 손해배상을 청구함에 있어서도 배서인에 대한 소구요건을 갖추어야 하는지 여부',
 "사고신고담보금을 예치받은 지급은행이 정당한 어음상의 권리자임이 판명된 어음소지인에 대하여 언제든지 위 담보금을 반환할 의무를 부담하는지 여부 지급은행이 어음발행인에게 사고신고담보금을 지급하는 경우로서 '이해관계인이 지급제시일로부터 6개월 이내에 소송계속중임을 입증하는 서면을 지급은행에 제출하지 아니한 경우'를 정한 어음교환소규약의 취지",
 '국가를 상대로 한 토지소유권확인청구가 확인의 이익이 있는 경우 토지대장의 소관청이 신토지대장을 작성함에 있어 구토지대장상의 소유자란의 기재를 참고자료로 보아 소유자미복구로 처리하였다면 그 토지는 토지대장상 소유자가 복구되지 아니한 것인지 여부',
 '취득시효완성으로 인한 소유권이전등기청구소송에 있어서 전소와 점유권원 점유개시 시점을 달리 주장하는 후소가 전소와 소송물을 달리하는지 여부',
 '하나의 사업 내에서 차등퇴직금제도를 설정하는 내용으로 변경된 취업규칙의 효력',
 '민사소송으로 농지개량사업 또는 농가주택개량사업의 시행자를 상대로 구 농촌근대화촉진법에 의한 손실보상금청구를 할 수 있는지 여부',
 '소송 진행 도중 송달이 불가능하게 되어 공시송달된 경우와 귀책사유',
 '대한광업진흥공사가 광산업자에게 금원을 융자하여 준 행위가 상행위에 해당하는지 여부',
 '부동산등기법   소정의 "판결"의 범위 국가를 상대로 한 토지소유권확인청구가 확인의 이익이 있는 경우',
 '전파법 개정에 의해 설립된 무선국관리사업단이 종전 무선종사자협회의 근로관계를 포괄승계한 경우 종전보다 불리한 취업규칙의 효력 보수규정의 개정 후 7년간 근로자들의 명시적

In [None]:
len(cases_all)

17071

In [None]:
# 새로운 사건 입력 (예시)
new_case = "보증금을 반환받지 못했어."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases_all)
case_vectors = vectorizer.transform(cases_all)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 가장 유사한 판례 찾기
most_similar_case_index = cosine_similarities.argmax()
most_similar_case_similarity = cosine_similarities[most_similar_case_index]

print(f"가장 유사한 사건: {cases_all[most_similar_case_index]}")
print(f"유사도: {most_similar_case_similarity}")

가장 유사한 사건: 고의에 의한 불법행위를 원인으로 손해배상을 청구한 경우 그 청구에 과실에 의한 손해배상의 주장도 포함되는지 여부 전차인이 전대인의 임대차보증금과 월세에 관한 안내인의 거짓말을 믿고 전대차계약을 체결하였다가 보증금을 반환받지 못하게 된 경우 그 안내인의 손해배상 책임을 배척한 원심판결을 심리미진을 이유로 파기한 사례
유사도: 0.2741415382718355


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 새로운 사건 입력
new_case = "나 교통사고가 크게 났어."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases_all)
case_vectors = vectorizer.transform(cases_all)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 유사도가 높은 순서로 인덱스 정렬
similar_indices = cosine_similarities.argsort()[::-1]

# 상위 5개의 유사한 사건 출력
top_n = 5
print(f"새로운 사건과 유사한 상위 {top_n}개의 사건:")
for i in range(top_n):
    similar_case_index = similar_indices[i]
    similarity_score = cosine_similarities[similar_case_index]
    similar_case = cases_all[similar_case_index]
    print(f"사건 {i+1}:")
    print(f"사건 내용: {similar_case}")
    print(f"유사도: {similarity_score}")
    print()


새로운 사건과 유사한 상위 5개의 사건:
사건 1:
사건 내용: 적색 점멸중인 가변차선으로 진행하다가 교통사고가 일어난 경우 교통사고처리특례법상 신호위반에 해당하는지 여부
유사도: 0.23211159500645798

사건 2:
사건 내용: 일정한 직업이 있다는 사정은 곤궁범이 아닌 강간죄에 있어서는 사회보호법상의 재범의 위험성을 크게 감살시키는 요인이 될 수 없다고 한 예
유사도: 0.20000069677121976

사건 3:
사건 내용: 교통사고처리특례법   단서  전단 소정의 도로교통법  의 규정에 위반하여 차선이 설치된 도로의 중앙선을 침범하였을 때의 의미 전방에 고인 빗물을 피하기 위해 차선을 변경하다가 미끄러지면서 중앙선을 침범하여 교통사고가 발생한 경우 교통사고처리특례법   단서  전단에 해당하는지 여부
유사도: 0.1353747481486534

사건 4:
사건 내용: 갑 을 2명이 승차한 승용차의 운행 중 교통사고가 발생하였고 갑과 을 모두 서로 운전을 하지 않았다고 주장하는 상황에서 수사기관에 의해 운전자로 지목되어 공소가 제기된 갑에 대하여 무죄의 확정판결이 선고되었지만 민사사건에서 증거에 의해 다시 갑을 운전자로 확정한 사례
유사도: 0.13439734047295587

사건 5:
사건 내용: 법률상 사항에 관한 법원의 석명 또는 지적의무 종중의 법적 성질 및 종중규약의 자율성 갑 종중이 ‘정기 대의원회의가 총회를 갈음한다.’고 정한 규약에 따라 대의원회의의 의결을 거쳐 을 주식회사 등을 상대로 불법행위에 기한 손해배상을 구하였는데 항소심에서 위 소가 총유재산의 관리·처분에 관하여 적법한 사원총회의 결의 없이 이루어진 것이고 이는 단시일 안에 보정될 수 없는 것으로서 부적법하다고 한 사안에서 항소심이 직권으로 위 소가 부적법하다고 한 것은 석명의무를 위반하여 필요한 심리를 다하지 아니함으로써 판결에 영향을 미친 잘못이 있고 위 규약이 종원이 가지는 고유하고 기본적인 권리의 본질적인 내용을 침해하는 등 갑 종중의 본질이나 설립 목적에 크게

In [None]:
import os
import json
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# JSON 파일로부터 사건의 사실 내용과 사건 번호를 추출하는 함수
def load_data_from_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
        case_description = " ".join(data['facts']['bsisFacts'])
        case_number = data['info']['caseNo']  # case_number는 문자열이므로 join 사용 안 함
    return case_description, case_number

# 여러 디렉토리 내의 모든 JSON 파일로부터 데이터 로딩
def load_cases_from_multiple_directories(directory_paths):
    cases = []
    case_numbers = []
    for directory_path in directory_paths:  # directory_paths 리스트를 순회
        for filename in os.listdir(directory_path):
            if filename.endswith('.json'):
                file_path = os.path.join(directory_path, filename)
                case_description, case_number = load_data_from_json(file_path)
                cases.append(case_description)
                case_numbers.append(case_number)
    return cases, case_numbers

# 여러 디렉토리 경로를 포함하는 리스트
directory_paths = [
    '/content/drive/MyDrive/SKT_FLY_AI/Project/civil',
    '/content/drive/MyDrive/SKT_FLY_AI/Project/criminal'
]

# 수정된 함수를 사용하여 사건 데이터 로딩
cases, case_numbers = load_cases_from_multiple_directories(directory_paths)

# 새로운 사건 입력
new_case = "나 교통사고가 크게 났어."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases)
case_vectors = vectorizer.transform(cases)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 유사도가 높은 순서로 인덱스 정렬
similar_indices = cosine_similarities.argsort()[::-1]

# 상위 5개의 유사한 사건 출력
top_n = 5
print(f"새로운 사건과 유사한 상위 {top_n}개의 사건:")
for i in range(top_n):
    similar_case_index = similar_indices[i]
    similarity_score = cosine_similarities[similar_case_index]
    similar_case_description = cases[similar_case_index]
    similar_case_number = case_numbers[similar_case_index]  # 사건 번호 추가
    print(f"사건 {i+1}:")
    print(f"사건 번호: {similar_case_number}")
    print(f"사건 내용: {similar_case_description}")
    print(f"유사도: {similarity_score}")
    print()

새로운 사건과 유사한 상위 5개의 사건:
사건 1:
사건 번호: 95노1878
사건 내용: 적색 점멸중인 가변차선으로 진행하다가 교통사고가 일어난 경우 교통사고처리특례법상 신호위반에 해당하는지 여부
유사도: 0.23211159500645798

사건 2:
사건 번호: 82도155982감도316
사건 내용: 일정한 직업이 있다는 사정은 곤궁범이 아닌 강간죄에 있어서는 사회보호법상의 재범의 위험성을 크게 감살시키는 요인이 될 수 없다고 한 예
유사도: 0.20000069677121976

사건 3:
사건 번호: 87도2171
사건 내용: 교통사고처리특례법   단서  전단 소정의 도로교통법  의 규정에 위반하여 차선이 설치된 도로의 중앙선을 침범하였을 때의 의미 전방에 고인 빗물을 피하기 위해 차선을 변경하다가 미끄러지면서 중앙선을 침범하여 교통사고가 발생한 경우 교통사고처리특례법   단서  전단에 해당하는지 여부
유사도: 0.1353747481486534

사건 4:
사건 번호: 99가합79652000가합3648
사건 내용: 갑 을 2명이 승차한 승용차의 운행 중 교통사고가 발생하였고 갑과 을 모두 서로 운전을 하지 않았다고 주장하는 상황에서 수사기관에 의해 운전자로 지목되어 공소가 제기된 갑에 대하여 무죄의 확정판결이 선고되었지만 민사사건에서 증거에 의해 다시 갑을 운전자로 확정한 사례
유사도: 0.13439734047295587

사건 5:
사건 번호: 2018다261605
사건 내용: 법률상 사항에 관한 법원의 석명 또는 지적의무 종중의 법적 성질 및 종중규약의 자율성 갑 종중이 ‘정기 대의원회의가 총회를 갈음한다.’고 정한 규약에 따라 대의원회의의 의결을 거쳐 을 주식회사 등을 상대로 불법행위에 기한 손해배상을 구하였는데 항소심에서 위 소가 총유재산의 관리·처분에 관하여 적법한 사원총회의 결의 없이 이루어진 것이고 이는 단시일 안에 보정될 수 없는 것으로서 부적법하다고 한 사안에서 항소심이 직권으로 위 소가 부적법하다고 한 것은 석명의무를 위반하여 필요한 

In [None]:
import os
import json
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# JSON 파일로부터 사건의 사실 내용과 사건 번호를 추출하는 함수
def load_data_from_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
        case_description = " ".join(data['facts']['bsisFacts'])
        case_number = data['info']['caseNo']  # case_number는 문자열이므로 join 사용 안 함
    return case_description, case_number

# 여러 디렉토리 내의 모든 JSON 파일로부터 데이터 로딩
def load_cases_from_multiple_directories(directory_paths):
    cases = []
    case_numbers = []
    for directory_path in directory_paths:  # directory_paths 리스트를 순회
        for filename in os.listdir(directory_path):
            if filename.endswith('.json'):
                file_path = os.path.join(directory_path, filename)
                case_description, case_number = load_data_from_json(file_path)
                cases.append(case_description)
                case_numbers.append(case_number)
    return cases, case_numbers

# 여러 디렉토리 경로를 포함하는 리스트
directory_paths = [
    '/content/drive/MyDrive/SKT_FLY_AI/Project/civil',
    '/content/drive/MyDrive/SKT_FLY_AI/Project/criminal'
]

# 수정된 함수를 사용하여 사건 데이터 로딩
cases, case_numbers = load_cases_from_multiple_directories(directory_paths)

# 새로운 사건 입력
new_case = "집을 구했는데 전세 사기를 당한 것 같아."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases)
case_vectors = vectorizer.transform(cases)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 유사도가 높은 순서로 인덱스 정렬
similar_indices = cosine_similarities.argsort()[::-1]

# 상위 5개의 유사한 사건 출력
top_n = 5
print(f"새로운 사건과 유사한 상위 {top_n}개의 사건:")
for i in range(top_n):
    similar_case_index = similar_indices[i]
    similarity_score = cosine_similarities[similar_case_index]
    similar_case_description = cases[similar_case_index]
    similar_case_number = case_numbers[similar_case_index]  # 사건 번호 추가
    print(f"사건 {i+1}:")
    print(f"사건 번호: {similar_case_number}")
    print(f"사건 내용: {similar_case_description}")
    print(f"유사도: {similarity_score}")
    print()

새로운 사건과 유사한 상위 5개의 사건:
사건 1:
사건 번호: 2006도9042
사건 내용: 공직선거법  에 정한 호별방문죄의 성립요건 공직선거법  에 정한 호별방문죄에서 각 집의 방문이 ‘연속적’인 것으로 인정되기 위한 요건 공직선거법  에서 정한 호별방문죄로 기소된 사안에서 갑의 집을 방문한 것은 을의 집과 병의 집을 방문한 때로부터 3개월 내지 4개월 전이고 정의 집을 방문한 것은 을의 집과 병의 집을 방문한 때로부터 다시 6개월 내지 7개월 후로서 시간적 간격이 매우 크므로 갑의 집과 정의 집을 각 방문한 행위와 을의 집과 병의 집을 각 방문한 행위 사이에 시간적 근접성이 있다고 하기는 어렵다고 보아 갑 을 병 정의 집을 방문한 행위를 포괄일죄로 보고 하나의 형을 선고한 원심판결을 파기한 사례
유사도: 0.4088073355044687

사건 2:
사건 번호: 62노99
사건 내용: 임의수사에 당한 경찰관의 폭행과 공무집행방해죄의 성부
유사도: 0.24945562350074227

사건 3:
사건 번호: 80나2302
사건 내용: 교통정리중 사고를 당한 교통순시원의 과실이 인정된 사례
유사도: 0.23903401845302627

사건 4:
사건 번호: 91노331
사건 내용: 노후되고 전기사용량이 많은 건물 소유자가 전기차단기를 내리지않고 집을 비운사이에 전기의 합선으로 화재가 발생한 경우 실화죄의 성립을 부정한 사례
유사도: 0.20447002074599793

사건 5:
사건 번호: 78다1542
사건 내용: 부당소송을 당한 자가 입은 정신상 고통에 대한 위자료가 인용되는 요건
유사도: 0.19240603714024576



In [None]:
# 새로운 사건 입력
new_case = "보증금을 반환받지 못했어."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases)
case_vectors = vectorizer.transform(cases)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 유사도가 높은 순서로 인덱스 정렬
similar_indices = cosine_similarities.argsort()[::-1]

# 상위 5개의 유사한 사건 출력
top_n = 5
print(f"새로운 사건과 유사한 상위 {top_n}개의 사건:")
for i in range(top_n):
    similar_case_index = similar_indices[i]
    similarity_score = cosine_similarities[similar_case_index]
    similar_case_description = cases[similar_case_index]
    similar_case_number = case_numbers[similar_case_index]  # 사건 번호 추가
    print(f"사건 {i+1}:")
    print(f"사건 번호: {similar_case_number}")
    print(f"사건 내용: {similar_case_description}")
    print(f"유사도: {similarity_score}")
    print()

새로운 사건과 유사한 상위 5개의 사건:
사건 1:
사건 번호: 94다21078
사건 내용: 고의에 의한 불법행위를 원인으로 손해배상을 청구한 경우 그 청구에 과실에 의한 손해배상의 주장도 포함되는지 여부 전차인이 전대인의 임대차보증금과 월세에 관한 안내인의 거짓말을 믿고 전대차계약을 체결하였다가 보증금을 반환받지 못하게 된 경우 그 안내인의 손해배상 책임을 배척한 원심판결을 심리미진을 이유로 파기한 사례
유사도: 0.2741415382718355

사건 2:
사건 번호: 83다카1847
사건 내용: 전세보증금 반환을 계약서 지참자에게 하기로 특약한 경우에 있어서 보증금을 받을 수 있는 자
유사도: 0.21728957194537116

사건 3:
사건 번호: 82도2428
사건 내용: 임차인이 보증금반환청구권을 양도하기로 약정한 후 그 양도통지 전에 보증금을 반환받은 경우 사기죄의 성부
유사도: 0.2170435127179206

사건 4:
사건 번호: 90다카24076
사건 내용: 임대차 종료 후 임대차보증금을 반환받지 못한 임차인이 동시이행의 항변권을 행사하여 목적물을 계속 점유하는 경우 불법점유 여부 임대차 종료 후 임차인이 임차건물을 계속 점유하였으나 사용 수익하지 아니한 경우 임차인의 부당이득반환의무의 성부
유사도: 0.1715837542526905

사건 5:
사건 번호: 2002마234
사건 내용: 입찰에 있어 공유자의 우선매수신고 및 보증의 제공의 시한 공유자가 입찰기일 전에 우선매수신고서만을 제출하거나 최고가입찰자가 제공한 입찰보증금에 미달하는 금액의 보증금을 제공한 경우 입찰기일에 집행관은 최고가매수신고를 확인한 다음 공유자의 출석 여부를 확인하고 공유자에게 최고가매수신고가격으로 매수할 것인지를 물어 보증금을 납부할 기회를 주어야 하는지 여부 입찰기일 전에 공유자우선매수신고서를 제출한 공유자가 입찰기일에 입찰에 참가하여 입찰표를 제출한 경우 우선매수권을 포기한 것으로 볼 수 있는지 여부
유사도: 0.1611223613902261



In [None]:
# 새로운 사건 입력
new_case = "전세사기를 당한 것 같아."

# TF-IDF 벡터라이저 생성 및 학습
vectorizer = TfidfVectorizer()
vectorizer.fit(cases)
case_vectors = vectorizer.transform(cases)

# 새로운 사건의 벡터 생성
new_case_vector = vectorizer.transform([new_case])

# 유사도 계산
cosine_similarities = cosine_similarity(new_case_vector, case_vectors).flatten()

# 유사도가 높은 순서로 인덱스 정렬
similar_indices = cosine_similarities.argsort()[::-1]

# 상위 5개의 유사한 사건 출력
top_n = 5
print(f"새로운 사건과 유사한 상위 {top_n}개의 사건:")
for i in range(top_n):
    similar_case_index = similar_indices[i]
    similarity_score = cosine_similarities[similar_case_index]
    similar_case_description = cases[similar_case_index]
    similar_case_number = case_numbers[similar_case_index]  # 사건 번호 추가
    print(f"사건 {i+1}:")
    print(f"사건 번호: {similar_case_number}")
    print(f"사건 내용: {similar_case_description}")
    print(f"유사도: {similarity_score}")
    print()

새로운 사건과 유사한 상위 5개의 사건:
사건 1:
사건 번호: 62노99
사건 내용: 임의수사에 당한 경찰관의 폭행과 공무집행방해죄의 성부
유사도: 0.3959046725480788

사건 2:
사건 번호: 80나2302
사건 내용: 교통정리중 사고를 당한 교통순시원의 과실이 인정된 사례
유사도: 0.37936480835925196

사건 3:
사건 번호: 78다1542
사건 내용: 부당소송을 당한 자가 입은 정신상 고통에 대한 위자료가 인용되는 요건
유사도: 0.3053627256875844

사건 4:
사건 번호: 89도1102
사건 내용: 법인의 대표자가 법인경비에서 직무집행정지가처분결정을 당한 이사의 소송비용을 지급한 경우 업무상 횡령죄의 성립여부
유사도: 0.2934688266298365

사건 5:
사건 번호: 70다1765
사건 내용: 점유의 침탈을 당한 것으로 볼 것이 아니고 점유의 방해를 받은 것으로 보아야 할 사례.
유사도: 0.289780634311923

