In [31]:
import pandas as pd
import json
import re
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import linear_kernel
import pickle
from konlpy.tag import Okt
okt=Okt() #형태소 분해 객체 생성

In [32]:
file_path = r'D:\Study\Python\Jupyter\law_json_data\clean_laws_jo_total.json'
with open(file_path, 'r', encoding="UTF-8") as jsonfile:
    json_data = json.load(jsonfile)  

In [33]:
laws_data_list = json_data["laws"]
len(laws_data_list)

145279

In [34]:
def tokenizer(raw, pos = ['Noun', 'Verb', 'Adjective']):
    okt = Okt()
    # 길이가 1 이하인 토근은 제외, 위에서 지정한 (Okt 사전에 따른) 토큰들만 특징으로 삼기  
    return [word for word, tag in okt.pos(raw) if len(word) > 1 and tag in pos]

In [35]:
tfidfvectoriser=TfidfVectorizer(tokenizer= tokenizer, ngram_range=(1,2), min_df=2, max_features = 20000) 

In [36]:
tfidf = tfidfvectoriser.fit(laws_data_list) # 벡터라이저가 단어들을 학습



In [57]:
#학습한 TF-IDF 저장
pickle.dump(tfidf, open("tfidf_fit.pickle", "wb"))

In [58]:
# TF-IDF 불러오기
with open("tfidf_fit.pickle", 'rb') as f:
    load_tfidf_fit = pickle.load(f) 

In [40]:
load_tfidf_fit.vocabulary_ # 벡터라이저가 학습한 단어사전을 출력

{'관련': 2041,
 '하여': 18013,
 '피해': 17531,
 '입은': 13141,
 '명예': 5906,
 '회복': 19825,
 '시켜': 10041,
 '인권': 12831,
 '신장': 10293,
 '국민': 2669,
 '이바지': 12517,
 '목적': 5961,
 '한다': 18446,
 '관련 하여': 2091,
 '피해 입은': 17540,
 '명예 회복': 5908,
 '이바지 목적': 12518,
 '목적 한다': 5980,
 '사용': 8116,
 '하는': 17660,
 '용어': 11587,
 '정의': 14519,
 '다음': 4008,
 '같다': 277,
 '계엄': 1382,
 '사령부': 7853,
 '합동': 18821,
 '수사': 9594,
 '본부': 7320,
 '사단': 7788,
 '정화': 14582,
 '강제': 243,
 '위반': 11856,
 '군경': 2781,
 '전국': 14072,
 '사찰': 8236,
 '수색': 9629,
 '사건': 7756,
 '피해자': 17542,
 '인하여': 12956,
 '사망': 7860,
 '상이': 8656,
 '자를': 13487,
 '종교': 14992,
 '단체': 4074,
 '훼손': 19973,
 '당시': 4151,
 '소속': 9345,
 '사용 하는': 8153,
 '하는 용어': 17817,
 '용어 정의': 11589,
 '정의 다음': 14520,
 '다음 같다': 4010,
 '인하여 사망': 12958,
 '자를 한다': 13489,
 '종교 단체': 14993,
 '이하': 12691,
 '자등': 13444,
 '한다의': 18752,
 '사항': 8242,
 '심의': 10537,
 '의결': 12282,
 '하기': 17639,
 '문화': 6044,
 '체육관': 16491,
 '광부': 2297,
 '장관': 13638,
 '위원회': 11949,
 '한다를': 18701,
 '둔다': 4807,
 '호의

In [42]:
sorted(load_tfidf_fit.vocabulary_.items()) # 단어사전을 정렬

[('가감', 0),
 ('가격', 1),
 ('가격 결정', 2),
 ('가격 공시', 3),
 ('가격 기준', 4),
 ('가격 산정', 5),
 ('가격 안정', 6),
 ('가격 이하', 7),
 ('가격 한다', 8),
 ('가공', 9),
 ('가공 시설', 10),
 ('가공 식품', 11),
 ('가공 제품', 12),
 ('가공업', 13),
 ('가공품', 14),
 ('가구', 15),
 ('가까운', 16),
 ('가능', 17),
 ('가능 발전', 18),
 ('가능성', 19),
 ('가능하도록', 20),
 ('가능한', 21),
 ('가능한 방법', 22),
 ('가능한 이용', 23),
 ('가능할', 24),
 ('가동', 25),
 ('가등기', 26),
 ('가등록', 27),
 ('가로', 28),
 ('가맹', 29),
 ('가맹 본부', 30),
 ('가맹 점사', 31),
 ('가맹사업', 32),
 ('가목', 33),
 ('가목 규정', 34),
 ('가목 나목', 35),
 ('가목 따른', 36),
 ('가뭄', 37),
 ('가사', 38),
 ('가산', 39),
 ('가산 금액', 40),
 ('가산 복무', 41),
 ('가산 하여', 42),
 ('가산금', 43),
 ('가산금 징수', 44),
 ('가산세', 45),
 ('가상', 46),
 ('가상 자산', 47),
 ('가석방', 48),
 ('가설건축물', 49),
 ('가스', 50),
 ('가스 공급', 51),
 ('가스 사용', 52),
 ('가스 안전공사', 53),
 ('가스 용품', 54),
 ('가스공급시설', 55),
 ('가습기', 56),
 ('가습기 살균제', 57),
 ('가압류', 58),
 ('가압류 가처분', 59),
 ('가액', 60),
 ('가액 다음', 61),
 ('가액 평가', 62),
 ('가액 한다', 63),
 ('가액 합계', 64),
 ('가액 해당', 65),
 ('가업', 66),
 ('

In [43]:
load_tfidf_fit.idf_.shape

(20000,)

In [41]:
tfidf_vectors=load_tfidf_fit.transform(laws_data_list)
print(tfidf_vectors)

  (0, 19825)	0.25288694964574965
  (0, 18446)	0.049079615037825666
  (0, 18013)	0.0672464710950464
  (0, 17540)	0.32549827566182826
  (0, 17531)	0.2079158148691132
  (0, 13141)	0.2650892898155746
  (0, 12831)	0.2795052776297303
  (0, 12518)	0.25550132649681034
  (0, 12517)	0.24206215057113548
  (0, 10293)	0.3424528883912471
  (0, 10041)	0.28061404000166396
  (0, 5980)	0.17842200460512908
  (0, 5961)	0.13509255818283672
  (0, 5908)	0.3197607641532684
  (0, 5906)	0.2649500126221371
  (0, 2669)	0.18772329824076137
  (0, 2091)	0.19722470529226865
  (0, 2041)	0.12240477329003233
  (1, 19973)	0.11454327078977386
  (1, 18821)	0.3943024193859947
  (1, 18446)	0.07077801291664955
  (1, 17817)	0.11030270328426986
  (1, 17660)	0.02975166359442292
  (1, 17542)	0.23053548200200732
  (1, 17531)	0.09994555593695595
  :	:
  (145278, 6306)	0.11588329485867359
  (145278, 6297)	0.08144254512716584
  (145278, 5237)	0.025181738334268695
  (145278, 5170)	0.219262704947185
  (145278, 5020)	0.07648007843957645

In [59]:
#TF-IDF transform저장
pickle.dump(tfidf_vectors, open("tfidf_vectors.pickle", "wb"))

In [60]:
# TF-IDF transform불러오기
with open("tfidf_vectors.pickle", 'rb') as f:
    load_tfidf_vectors = pickle.load(f) 

In [61]:
features = load_tfidf_fit.get_feature_names() 

In [62]:
input_text_data =  '등록금 건축적립금의 관리'

In [63]:
srch = [ t for t in tokenizer(input_text_data) if t in features]
srch

['등록금', '건축', '적립금', '관리']

In [64]:
srch_vector = load_tfidf_fit.transform([input_text_data])

In [65]:
cosine_similar =  linear_kernel(srch_vector, load_tfidf_vectors).flatten()

In [66]:
sim_rank_idx = cosine_similar.argsort()[::-1]

In [67]:
#tfidf result
tf_idf_result_index = [] #실 데이터 인덱스
tf_idf_sentences = []# 결과 조문
for i in sim_rank_idx:
    if cosine_similar[i] > 0.13:
        print('{} /score : {}'.format(laws_data_list[i],cosine_similar[i]))
        tf_idf_result_index.append(i)
        tf_idf_sentences.append(laws_data_list[i])

제11조등록금 및 등록금심의위원회  학교의 설립자경영자는 수업료와 그 밖의 납부금이하 등록금이라 한다을 현금 또는 여신전문금융업법 제2조에 따른 신용카드 직불카드 선불카드에 의한 결제로 납부 받을 수 있다 이 경우 학생은 학칙으로 정하는 바에 따라 해당 학기에 납부하여야 할 등록금을 2회 이상으로 분할하여 납부할 수 있다    제1항에도 불구하고 학교제30조에 따른 대학원대학은 제외한다의 설립자경영자는 해당 학교에 입학 또는 편입학하는 사람제29조에 따라 대학원에 두는 학위과정 연구과정 및 제29조의3에 따라 통합된 학위과정에 입학 또는 편입학하는 사람은 제외한다으로부터 입학금을 받을 수 없다    각 학교는 등록금을 책정하기 위하여 교직원사립대학의 경우에는 학교법인이 추천하는 재단인사를 포함한다 학생 관련 전문가 등으로 구성되는 등록금심의위원회를 설치운영하여야 한다 이 경우 학생 위원은 전체 위원 정수의 10분의 3 이상 구성단위별 위원은 10분의 5 미만이 되도록 하고 관련 전문가 위원을 선임할 때에는 학칙으로 정하는 바에 따라 학교를 대표하는 측과 학생을 대표하는 측이 협의하여야 한다    학교는 재난 및 안전관리 기본법 제3조제1호에 따른 재난으로 인하여 학교시설의 이용 및 실험실습이 제한되거나 수업시수가 감소하는 등 학사운영이 정상적으로 이루어지지 아니한 경우 등록금을 면제감액할 수 있다    학교는 특별한 사정이 없으면 등록금심의위원회의 심의결과를 최대한 반영하여야 한다    제3항의 등록금심의위원회는 교육관련기관의 정보공개에 관한 특례법 제6조제1항제8호의2의 등록금 및 학생 1인당 교육비 산정근거 도시근로자 평균가계소득 제7조제3항의 고등교육 지원계획 등록금 의존율대학교육비에서 등록금이 차지하는 비율을 말한다 등을 감안하여 해당 연도의 등록금을 적정하게 산정하여야 한다    제4항에 따른 등록금의 면제감액 규모는 등록금심의위원회에서 논의하여야 한다    등록금심의위원회는 등록금 산정을 위하여 필요한 경우 대통령령으로 정하는 바에 따라 학교의 장에

In [56]:
len(tf_idf_sentences)

283

In [68]:
sbert_result_index = []
from sentence_transformers import SentenceTransformer, util
import numpy as np
# 'sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens'
# "jhgan/ko-sroberta-multitask"
embedder = SentenceTransformer("jhgan/ko-sroberta-multitask")

# TF-IDF 결과 조문을 Corpus로
corpus = tf_idf_sentences
corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

# Query sentences:
q_list = []
q_list.append(input_text_data)
queries = q_list

# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = 20
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)
    cos_scores = util.pytorch_cos_sim(query_embedding, corpus_embeddings)[0]
    cos_scores = cos_scores.cpu()

     #We use np.argpartition, to only partially sort the top_k results
    top_results = np.argpartition(-cos_scores, range(top_k))[0:top_k]

    print("\n\n======================\n\n")
    print("Query:", query)
    print("\nTop 5 most similar sentences in corpus:")

    for idx in top_results[0:top_k]:
        print(corpus[idx].strip(), "(Score: %.4f)" % (cos_scores[idx]))
        sbert_result_index.append(tf_idf_result_index[idx])

Downloading:   0%|          | 0.00/4.86k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/744 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/123 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/443M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet connection is on.

In [None]:
sbert_result_index

In [None]:
import pandas as pd
tatal_laws_data = pd.read_csv('total.csv')

In [None]:
tatal_laws_data.head()

In [None]:
result_law_dic = {} #{"우체국보험특별회계법 시행규칙":[123513,12345,234,123]}
for i in sbert_result_index:
    index_num = int(i)
    #print(laws_data_list_cut[index_num])
    data_detail = tatal_laws_data.iloc[[index_num],:]
    # print(tatal_laws_data.iloc[index_num]["법령명"])
    
    law_name = tatal_laws_data.iloc[index_num]["법령명"]
    print('법령명 : ',tatal_laws_data.iloc[index_num]["법령명"])
    if law_name in result_law_dic:
        value_list = result_law_dic[law_name] 
        value_list.append(index_num)
        
    else:
        result_law_dic[law_name] = [index_num]
            

In [None]:
choice_law_name_value = result_law_dic['우체국보험특별회계법 시행규칙']

In [None]:
for i in choice_law_name_value:
   
    #print(laws_data_list_cut[index_num])
    data_detail = tatal_laws_data.iloc[[i],:]         
    print('법령명 : ',tatal_laws_data.iloc[index_num]["법령명"])
    print('법령MST : ',tatal_laws_data.iloc[index_num]["법령MST"])
    print('법령ID : ', tatal_laws_data.iloc[index_num]["법령ID"])
    print('시행일자 : ', tatal_laws_data.iloc[index_num]["시행일자"])
    print('공포번호 : ', tatal_laws_data.iloc[index_num]["공포번호"])
    print('법령구분명 : ', tatal_laws_data.iloc[index_num]["법령구분명"])
    print('조문번호 : ', tatal_laws_data.iloc[index_num]["조문번호"])
    print('조문 : ', tatal_laws_data.iloc[index_num]["조문내용"])
    print("")