In [1]:
import numpy as np
import itertools
import sqlite3
import os
import re

from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

In [2]:
conn_src = sqlite3.connect("../Precedents.db")
conn_dst = sqlite3.connect("../Precedents_Keyword.db")
curs_src = conn_src.cursor()
curs_dst = conn_dst.cursor()

sql = "SELECT * FROM Precedents_IC"
curs_src.execute(sql)

fetchedData = curs_src.fetchall()
length = len(fetchedData)
fetchedData = [list(fetchedData[x]) for x in range(length)]

In [4]:
for x in range(length):
    filepath = "C:/Temp/Cases/판례내용/{}.txt".format(fetchedData[x][0])
    
    if os.path.getsize(filepath) != 0:
        with open(filepath) as file:
            doc = file.read()
    
        okt = Okt()
        tokenized_doc = okt.pos(doc)
        tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])

        n_gram_range = (2, 3)

        count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
        candidates = count.get_feature_names_out()

        print('trigram 개수 :',len(candidates))
        print('trigram 다섯개만 출력 :',candidates[:5])

        model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')
        doc_embedding = model.encode([doc])
        candidate_embeddings = model.encode(candidates)

        top_n = 30
        distances = cosine_similarity(doc_embedding, candidate_embeddings)
        keyword = [candidates[index] for index in distances.argsort()[0][-top_n:]]

    else:
        keyword = "내용없음"
    
    curs_dst.execute(f"INSERT INTO Precedents_Keyword Values (\"{fetchedData[x][0]}\", \"{keyword}\")")

trigram 개수 : 883
trigram 다섯개만 출력 : ['개인정보 내용' '개인정보 내용 성격' '개인정보 보호' '개인정보 보호 위반' '개인정보 보호 준용']
trigram 개수 : 1232
trigram 다섯개만 출력 : ['가입 이용자' '가입 이용자 적용' '가입 접근' '가입 접근 사건' '가입 회원']
trigram 개수 : 933
trigram 다섯개만 출력 : ['개념 구성' '개념 구성 원칙' '개념 형사법' '개념 형사법 고의범' '개인 자유']
trigram 개수 : 247
trigram 다섯개만 출력 : ['강국 국선' '강국 국선 원심판결' '개월 집행유예' '개월 집행유예 사회봉사명령' '개인정보 종류']
trigram 개수 : 686
trigram 다섯개만 출력 : ['간인 공소장' '간인 공소장 형식' '간인 누락' '간인 누락 공소제기' '간인 범죄']
trigram 개수 : 538
trigram 다섯개만 출력 : ['가입 금제' '가입 금제 판매' '가입 범죄' '가입 범죄 일람표' '가입 일로']
trigram 개수 : 1433
trigram 다섯개만 출력 : ['가납 항소' '가납 항소 이유' '가능성 공연' '가능성 공연 성의' '가능성 공연 인정']
trigram 개수 : 827
trigram 다섯개만 출력 : ['강력 근무' '강력 근무 개인정보처리자' '개인 규정' '개인 규정 법인격' '개인 대리인']
trigram 개수 : 605
trigram 다섯개만 출력 : ['가액 추징' '가액 추징 규정' '가액 추징 형법' '개념 정의' '개념 정의 사정']
trigram 개수 : 764
trigram 다섯개만 출력 : ['가꼬온 엄마' '가꼬온 엄마 지랄' '가납 명령' '가납 명령 형사소송법' '가납 범죄사실']
trigram 개수 : 487
trigram 다섯개만 출력 : ['가장 선거범' '가장 선거범 여부' '가장 처벌' '가장 처벌 처벌' '검사 법무법인']
trigram 개수 : 749
trigra

trigram 개수 : 1635
trigram 다섯개만 출력 : ['가능성 실질' '가능성 실질 판단' '가장 수단' '가장 수단 다른' '간주 원고']
trigram 개수 : 636
trigram 다섯개만 출력 : ['가담 정도' '가담 정도 중하' '가지 양형' '가지 양형 조건' '개인정보 건당']
trigram 개수 : 1291
trigram 다섯개만 출력 : ['가액 산정' '가액 산정 검사' '가액 산정 균형' '가액 얼마' '가액 얼마 문제']
trigram 개수 : 759
trigram 다섯개만 출력 : ['가능성 개인정보' '가능성 개인정보 유출' '가치 지니' '가치 지니 물의' '가치 훼손']
trigram 개수 : 694
trigram 다섯개만 출력 : ['개인 개인정보처리자' '개인 개인정보처리자 정의' '개인 한정' '개인 한정 업무' '개인정보 누설']
trigram 개수 : 4271
trigram 다섯개만 출력 : ['가능성 대량' '가능성 대량 개인정보' '가능성 보험회사' '가능성 보험회사 수행' '가독 응모']
trigram 개수 : 614
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 범죄사실' '가납 범죄사실 피고인' '개인 규정']
trigram 개수 : 526
trigram 다섯개만 출력 : ['강문 원심판결' '강문 원심판결 광주' '거나 반대' '거나 반대 내용' '거나 후보자']
trigram 개수 : 868
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 피고인' '가납 피고인 대판' '가지 조합원']
trigram 개수 : 880
trigram 다섯개만 출력 : ['가지 대법원' '가지 대법원 선고' '거기 상고이유' '거기 상고이유 주장' '거기 출력']
trigram 개수 : 8285
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 사건' '가납 사건 공소' '가능성 대해']
trigram 개수 : 695
tr

trigram 개수 : 977
trigram 다섯개만 출력 : ['가지 사건' '가지 사건 특허권' '가진 이하' '가진 이하 통상' '각각 선행']
trigram 개수 : 334
trigram 다섯개만 출력 : ['개인정보 금정산' '개인정보 금정산 목적' '개인정보 당초' '개인정보 당초 동의' '개인정보 동의']
trigram 개수 : 2393
trigram 다섯개만 출력 : ['가공 저장' '가공 저장 검색' '가능성 전혀' '가능성 전혀 광고주' '가담 사실']
trigram 개수 : 1328
trigram 다섯개만 출력 : ['가로 채무자' '가로 채무자 광고' '가처분 범위' '가처분 범위 법리' '가처분 보전']
trigram 개수 : 203
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 범죄사실' '가납 범죄사실 피고인' '가진 피고인']
trigram 개수 : 653
trigram 다섯개만 출력 : ['가장 접근' '가장 접근 해석' '개인정보 교인' '개인정보 교인 명단' '개인정보 보호']
trigram 개수 : 731
trigram 다섯개만 출력 : ['가능 여부' '가능 여부 비밀번호' '가부 절차' '가부 절차 방법' '각서 작성']
trigram 개수 : 538
trigram 다섯개만 출력 : ['갈비뼈 복장' '갈비뼈 복장 염좌' '개새끼 씨발' '개새끼 씨발 욕설' '개설 등록']
trigram 개수 : 1068
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 피고인' '가납 피고인 대한' '가능성 피고인']
trigram 개수 : 190
trigram 다섯개만 출력 : ['가납 명령' '가납 명령 형사소송법' '가납 범죄사실' '가납 범죄사실 누구' '개인정보 적부']
trigram 개수 : 2150
trigram 다섯개만 출력 : ['가격 광고' '가격 광고 광고' '가납 명령' '가납 명령 피고인' '가납 피고인']
trigram 개수 : 485
trigra

trigram 개수 : 2471
trigram 다섯개만 출력 : ['가감 보도' '가감 보도 사장' '가중 노역장유치' '가중 노역장유치 피고인' '가지 기사']
trigram 개수 : 735
trigram 다섯개만 출력 : ['가지 사정' '가지 사정 고려' '가해 의사' '가해 의사 내지' '개최 교육']
trigram 개수 : 889
trigram 다섯개만 출력 : ['가결 고소인' '가결 고소인 시청' '가지 피고인' '가지 피고인 고소인' '가진 인물']
trigram 개수 : 1137
trigram 다섯개만 출력 : ['가능성 문제' '가능성 문제 사용' '가치 평가' '가치 평가 침해' '가치판단 평가']
trigram 개수 : 1097
trigram 다섯개만 출력 : ['가지 사정' '가지 사정 종합' '가지 행동' '가지 행동 사실' '개인정보 개인정보']
trigram 개수 : 423
trigram 다섯개만 출력 : ['가입 광고' '가입 광고 내용' '가입 명목' '가입 명목 취하' '가입 명목 편취할']
trigram 개수 : 838
trigram 다섯개만 출력 : ['가량 중단' '가량 중단 피해' '가사 심신상실' '가사 심신상실 인정' '가사 해악']
trigram 개수 : 723
trigram 다섯개만 출력 : ['가의 구별' '가의 구별 표현' '가해 의사' '가해 의사 내지' '감도 판결']
trigram 개수 : 1042
trigram 다섯개만 출력 : ['가지 번호' '가지 번호 포함' '개인 사업체' '개인 사업체 운영' '거나 돌침대']
trigram 개수 : 1916
trigram 다섯개만 출력 : ['가능성 공연' '가능성 공연 성의' '가입 자만' '가입 자만 내용' '가장 공갈죄']
trigram 개수 : 2516
trigram 다섯개만 출력 : ['가목 나목' '가목 나목 소정' '가입 외적' '가입 외적 주로' '각각 독립']
trigram 개수 : 970
trigram 다섯개만 출력 : ['가정 거의' '가정

이 밑부터는 초기(221103) 테스트코드

In [15]:
okt = Okt()

tokenized_doc = okt.pos(doc)
tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])

품사 태깅 10개만 출력 : [('\n', 'Foreign'), ('【', 'Foreign'), ('피고인', 'Noun'), ('】', 'Foreign'), ('【', 'Foreign'), ('검사', 'Noun'), ('】', 'Foreign'), ('최세훈', 'Noun'), ('【', 'Foreign'), ('변호인', 'Noun')]
명사 추출 : 피고인 검사 최세훈 변호인 변호사 이경환 주문 피고인 징역 처 이 판결 선고 전 구금일수 위 형 산입 공소 사실 중 부동산 매물 정보 저장 파일 침해 부분 무죄 이유 범죄사실 피고인 지방법원 정보통신망 이용 촉진 및 정보보호 등 관 법률 위반 죄 징역 집행유예 선고 현재 그 유예기간 중 데 한게임 아이디 패스워드 해당 아이디 보유 사이버 포커 를 현금 목적 인터넷 사이트 회원 가입 시 대부분 사람 아이디 패스워드 사용 점 착안 보안 취약 웹사이트 해킹 회원 아이디 비밀번호 소외 공모 경 경 사이 서울 성동구 송정동 프로게이머 피시방 부동산개발 관련 정보 업체 코리아 셋 인베스트먼트 주 의 인터넷 사이트 접속 위 회사 사용 프로그램 의 실행 취약점 이용 위해 위 사이트 문서 소스코드 조작 아이디 의 문자 정보 숫자 뒤 웹서버 입력 를 실행 수 명령어 아이디 란 입력 함 위 회사 접속 접근권한 정보통신망 침입 나 경 위 프로게이머 피시방 부동산 매물 중개회사 셋 메이커 주 의 인터넷 사이트 접속 위 항 방법 위 회사 접속 접근권한 정보통신망 침입 그 무렵 장소 항 위 회사 접속 후 권한 실행 수 상태 이나 의 명령어 실행 명의 회원정보 저장 파일 다운로드 사이트 내 디렉토리 보관 정보통신망 보관 타인 비밀 침해 경 위 프로게이머 피시방 인터넷 결혼 정보 회사 주 듀오 인터넷 사이트 접속 위 항 방법 위 회사 접속 접근권한 정보통신망 침입 그 무렵 장소 항 위 회사 접속 후 권한 실행 수 상태 이나 의 명령어 실행 약 회원정보 저장 파일 다운로드 위 나 항의 디렉토리 보관 정보통신망 보관 타인 비밀 침해 경 서울

In [16]:
n_gram_range = (2, 3)

count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
candidates = count.get_feature_names_out()

print('trigram 개수 :',len(candidates))
print('trigram 다섯개만 출력 :',candidates[:5])

trigram 개수 : 656
trigram 다섯개만 출력 : ['가입 대부분' '가입 대부분 사람' '가중 형법' '가중 형법 전단' '개발 사용']


In [17]:
model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')
doc_embedding = model.encode([doc])
candidate_embeddings = model.encode(candidates)

In [25]:
top_n = 30
distances = cosine_similarity(doc_embedding, candidate_embeddings)
keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
print(keywords)

['구금일수 산입 공소', '항의 디렉토리 보관', '선고 구금일수 산입', '서울 성동구', '포함 피고인 다운로드', '미결구금일수 산입 형법', '악성코드 게시판 업로드', '대한 경찰 피의자신문조서', '비밀 침해 서울', '박정인 대한 경찰', '서울 서초구', '송정동 프로게이머 피시방', '피고인 다운로드 저장', '업체 코리아', '정보 업체 코리아', '성동구 송정동', '이용 일명 악성코드', '사이 서울 성동구', '침해 서울 서초구', '성동구 송정동 프로게이머', '코리아 인베스트먼트', '서울 성동구 송정동', '업체 코리아 인베스트먼트', '코리아 인베스트먼트 인터넷', '전단 미결구금일수 산입', '서울 서초구 서초동', '대한 검찰 피의자신문조서', '경찰 피의자신문조서 박정인', '피의자신문조서 박정인', '피의자신문조서 박정인 대한']
