In [7]:
import json
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import linear_kernel

In [8]:
file_path = 'clean_laws_jo_total.json'
with open(file_path, 'r', encoding="UTF-8") as jsonfile:
    json_data = json.load(jsonfile)  

In [9]:
laws_data_list = json_data["laws"]
len(laws_data_list)

145279

In [10]:
# laws_data_list

In [11]:
laws_data_list_cut = laws_data_list[0:300]

In [12]:
def tokenizer(raw, pos = ['Noun', 'Verb', 'Adjective']):
    okt = Okt()
    # 길이가 1 이하인 토근은 제외, 위에서 지정한 (Okt 사전에 따른) 토큰들만 특징으로 삼기  
    return [word for word, tag in okt.pos(raw) if len(word) > 1 and tag in pos]

In [13]:
tfidfvectoriser=TfidfVectorizer(tokenizer= tokenizer, ngram_range=(1,2), min_df=2, max_features = 20000) 

In [14]:
tfidfvectoriser.fit(laws_data_list_cut) # 벡터라이저가 단어들을 학습



TfidfVectorizer(max_features=20000, min_df=2, ngram_range=(1, 2),
                tokenizer=<function tokenizer at 0x00000195D67278B0>)

In [15]:
tfidfvectoriser.vocabulary_ # 벡터라이저가 학습한 단어사전을 출력

{'법난': 1270,
 '관련': 390,
 '하여': 3356,
 '피해': 3259,
 '입은': 2480,
 '불교': 1414,
 '명예': 1138,
 '회복': 3711,
 '시켜': 1857,
 '국민': 564,
 '이바지': 2332,
 '목적': 1146,
 '한다': 3425,
 '관련 하여': 405,
 '명예 회복': 1139,
 '이바지 목적': 2333,
 '목적 한다': 1147,
 '사용': 1500,
 '하는': 3298,
 '용어': 2115,
 '정의': 2715,
 '다음': 782,
 '같다': 39,
 '본부': 1373,
 '사단': 1435,
 '정화': 2728,
 '연행': 2060,
 '위반': 2153,
 '전국': 2651,
 '수색': 1779,
 '사건': 1432,
 '피해자': 3262,
 '인하여': 2438,
 '사망': 1452,
 '상이': 1592,
 '자를': 2557,
 '종교': 2782,
 '단체': 792,
 '훼손': 3747,
 '당시': 804,
 '소속': 1731,
 '사용 하는': 1507,
 '하는 용어': 3322,
 '용어 정의': 2116,
 '정의 다음': 2716,
 '다음 같다': 783,
 '법난 인하여': 1272,
 '상이 입은': 1593,
 '자를 한다': 2559,
 '피해 종교': 3261,
 '종교 단체': 2783,
 '법난 당시': 1271,
 '이하': 2368,
 '자등': 2549,
 '한다의': 3490,
 '사항': 1523,
 '심의': 1957,
 '의결': 2283,
 '하기': 3294,
 '문화': 1150,
 '체육관': 3073,
 '광부': 435,
 '장관': 2577,
 '위원회': 2180,
 '한다를': 3472,
 '둔다': 946,
 '호의': 3627,
 '삭제': 1557,
 '대한': 850,
 '의료': 2290,
 '원금': 2139,
 '지급': 2869,
 '건립': 126,
 '대통령령': 8

In [16]:
sorted(tfidfvectoriser.vocabulary_.items()) # 단어사전을 정렬

[('가격', 0),
 ('가능', 1),
 ('가능 기간', 2),
 ('가능성', 3),
 ('가능한', 4),
 ('가능한 경우', 5),
 ('가설건축물', 6),
 ('가설건축물 건축허가', 7),
 ('가족', 8),
 ('가족 관계', 9),
 ('가진', 10),
 ('각각', 11),
 ('간병', 12),
 ('간병 보조장', 13),
 ('간사', 14),
 ('간사 두며', 15),
 ('간의', 16),
 ('갈음', 17),
 ('갈음 있다', 18),
 ('감독', 19),
 ('감면', 20),
 ('감면 국가', 21),
 ('감면 있다', 22),
 ('감염', 23),
 ('감염 방지', 24),
 ('감염 질병', 25),
 ('감염병', 26),
 ('강구', 27),
 ('강원도', 28),
 ('강원도 지사', 29),
 ('갖추고', 30),
 ('갖추어', 31),
 ('갖추어 도지사', 32),
 ('갖추어야', 33),
 ('갖추어야 장비', 34),
 ('갖추어야 하는', 35),
 ('갖추어야 한다', 36),
 ('갖춘', 37),
 ('갖춘 법인', 38),
 ('같다', 39),
 ('같다 규정', 40),
 ('같다 도지사', 41),
 ('같다 화체', 42),
 ('같다에', 43),
 ('같다에게', 44),
 ('같다의', 45),
 ('같은', 46),
 ('같은 따른', 47),
 ('같은 불구', 48),
 ('같은 시행', 49),
 ('개발', 50),
 ('개발 계획', 51),
 ('개발 관리', 52),
 ('개발 따른', 53),
 ('개발 운영', 54),
 ('개발 지원', 55),
 ('개발 촉진', 56),
 ('개발 촉진법', 57),
 ('개발 필요한', 58),
 ('개발사업', 59),
 ('개발사업 계획', 60),
 ('개발사업 시행', 61),
 ('개발사업 실시', 62),
 ('개발사업 원활한', 63),
 ('개발사업 필요한', 64),
 ('개발사업 하

In [17]:
tfidfvectoriser.idf_.shape

(3753,)

In [18]:
tfidf_vectors=tfidfvectoriser.transform(laws_data_list_cut)
print(tfidf_vectors)

  (0, 3711)	0.2502862913215987
  (0, 3425)	0.072112438712518
  (0, 3356)	0.08120239900401244
  (0, 3259)	0.2629663804828357
  (0, 2480)	0.27931385862994795
  (0, 2333)	0.27931385862994795
  (0, 2332)	0.27055427605199295
  (0, 1857)	0.31870181315337553
  (0, 1414)	0.31870181315337553
  (0, 1270)	0.2629663804828357
  (0, 1147)	0.235377492718292
  (0, 1146)	0.19821824763693396
  (0, 1139)	0.27055427605199295
  (0, 1138)	0.25627338225363255
  (0, 564)	0.22013344354575004
  (0, 405)	0.235377492718292
  (0, 390)	0.13212242775131597
  (1, 3747)	0.1230214416893688
  (1, 3425)	0.08350792943133514
  (1, 3322)	0.11181656919844962
  (1, 3298)	0.03433780519448526
  (1, 3262)	0.19784713892594097
  (1, 3261)	0.1230214416893688
  (1, 3259)	0.10150712015957322
  (1, 2783)	0.1230214416893688
  :	:
  (299, 899)	0.14884807088917115
  (299, 842)	0.03603693061911417
  (299, 814)	0.04403475017139116
  (299, 786)	0.05361944691891222
  (299, 782)	0.051101120906627176
  (299, 748)	0.06060176719080283
  (299, 74

In [19]:
features = tfidfvectoriser.get_feature_names() 
features



['가격',
 '가능',
 '가능 기간',
 '가능성',
 '가능한',
 '가능한 경우',
 '가설건축물',
 '가설건축물 건축허가',
 '가족',
 '가족 관계',
 '가진',
 '각각',
 '간병',
 '간병 보조장',
 '간사',
 '간사 두며',
 '간의',
 '갈음',
 '갈음 있다',
 '감독',
 '감면',
 '감면 국가',
 '감면 있다',
 '감염',
 '감염 방지',
 '감염 질병',
 '감염병',
 '강구',
 '강원도',
 '강원도 지사',
 '갖추고',
 '갖추어',
 '갖추어 도지사',
 '갖추어야',
 '갖추어야 장비',
 '갖추어야 하는',
 '갖추어야 한다',
 '갖춘',
 '갖춘 법인',
 '같다',
 '같다 규정',
 '같다 도지사',
 '같다 화체',
 '같다에',
 '같다에게',
 '같다의',
 '같은',
 '같은 따른',
 '같은 불구',
 '같은 시행',
 '개발',
 '개발 계획',
 '개발 관리',
 '개발 따른',
 '개발 운영',
 '개발 지원',
 '개발 촉진',
 '개발 촉진법',
 '개발 필요한',
 '개발사업',
 '개발사업 계획',
 '개발사업 시행',
 '개발사업 실시',
 '개발사업 원활한',
 '개발사업 필요한',
 '개발사업 하여',
 '개발이익',
 '개발이익 환수',
 '개발행위',
 '개발행위 허가',
 '개선',
 '개선 하여',
 '개설',
 '개설 허가',
 '개수',
 '개수 보수',
 '개요',
 '개월',
 '개월 이내',
 '개의',
 '개의 출석',
 '개인',
 '개인 보상',
 '개장',
 '개장 허가',
 '개최',
 '개최 하여',
 '개축',
 '개축 보수',
 '거나',
 '거나 개월',
 '거나 다음',
 '거나 대부',
 '거나 변경',
 '거나 시행',
 '거나 압류',
 '거나 위촉',
 '거나 의료',
 '거나 인계',
 '거나 지급',
 '거나 필요한',
 '거래',
 '거래 계약',
 '거래 신고',
 '거래 지원',
 '거래 통장',
 '거부',
 '거

In [20]:
test_data = '소방 대원 관련'

In [21]:
srch = [ t for t in tokenizer(test_data) if t in features]

In [22]:
srch

['소방', '관련']

In [23]:
srch_vector = tfidfvectoriser.transform([test_data])

In [24]:
srch_vector

<1x3753 sparse matrix of type '<class 'numpy.float64'>'
	with 2 stored elements in Compressed Sparse Row format>

In [25]:
cosine_similar =  linear_kernel(srch_vector, tfidf_vectors).flatten()

In [26]:
sim_rank_idx = cosine_similar.argsort()[::-1]

In [28]:
print(cosine_similar)

[0.06556133 0.02530719 0.01517992 0.         0.         0.02955947
 0.         0.01396889 0.         0.02808934 0.03427271 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.13408782 0.02464795
 0.06986973 0.         0.01207097 0.0157896  0.07678939 0.01175051
 0.         0.         0.         0.         0.         0.
 0.01373212 0.         0.         0.         0.01588668 0.05003353
 0.         0.         0.         0.02176536 0.         0.04248075
 0.         0.         0.11909496 0.         0.         0.02080936
 0.01424416 0.0303284  0.07382356 0.         0.0228626  0.
 0.         0.         0.         0.         0.         0.18811915
 0.03570696 0.         0.         0.         0.         0.
 0.00980863 0.0516056  0.         0.04735319 0.         0.
 0.02522094 0.01145178 0.01098307 0.         0.         0.
 0.11688528 0.16741547 0.04684114 0.         0.12056644 0.01595527
 0.12640541 0.         0.         0.0108077  0.0158

In [29]:
result = {}
for cos in cosine_similar:
    
    print(cos)

0.06556132540980066
0.025307194493738323
0.015179917300020053
0.0
0.0
0.02955946655166231
0.0
0.013968891674022915
0.0
0.028089344894119767
0.034272709509867855
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.13408781941566572
0.02464795438355565
0.06986972912767146
0.0
0.012070970087273316
0.015789595256055344
0.07678938670829709
0.01175050741173805
0.0
0.0
0.0
0.0
0.0
0.0
0.013732123733216143
0.0
0.0
0.0
0.01588667734615307
0.050033530533009296
0.0
0.0
0.0
0.021765364122386412
0.0
0.042480752515787694
0.0
0.0
0.11909495750789098
0.0
0.0
0.020809360917791443
0.014244155830783601
0.03032840143966287
0.07382355938136002
0.0
0.022862601904080324
0.0
0.0
0.0
0.0
0.0
0.0
0.18811915099699872
0.0357069575718624
0.0
0.0
0.0
0.0
0.0
0.009808629677329143
0.05160559622115757
0.0
0.04735319249220604
0.0
0.0
0.025220939131326194
0.011451782478700708
0.010983069581011284
0.0
0.0
0.0
0.11688527672559554
0.16741547136497015
0.04684113559255965
0.0
0.1205664358238024
0.01595527215238158
0.12640541331580

In [30]:
sorted(cosine_similar, reverse = True)

[0.18811915099699872,
 0.16741547136497015,
 0.13408781941566572,
 0.1264054133158072,
 0.1205664358238024,
 0.11909495750789098,
 0.11688527672559554,
 0.09849297604876897,
 0.07678938670829709,
 0.07382355938136002,
 0.07146264649706277,
 0.07030353655977323,
 0.06986972912767146,
 0.06556132540980066,
 0.05994741703089485,
 0.05873627023478803,
 0.05748226403956613,
 0.056765902101524345,
 0.05529764400898378,
 0.055288312327951686,
 0.054852752262004756,
 0.054020103406143265,
 0.05246616279260825,
 0.05160559622115757,
 0.050033530533009296,
 0.04880143420074474,
 0.04735319249220604,
 0.04684113559255965,
 0.04360346861186378,
 0.042480752515787694,
 0.03851971659313797,
 0.03726911457995897,
 0.03709583804537924,
 0.03641267708455761,
 0.0357069575718624,
 0.03518996035896348,
 0.03483764348097389,
 0.034689192067150855,
 0.034488488851040895,
 0.034272709509867855,
 0.03238527252592607,
 0.0320706026467223,
 0.031205303426318613,
 0.03032840143966287,
 0.030006030466851876,
 0.

In [31]:
for i in sim_rank_idx:
    if cosine_similar[i] > 0.13:
        print('{} /score : {}'.format(laws_data_list_cut[i],cosine_similar[i]))

제16조119항공대의 업무 119항공대는 다음 각 호의 업무를 수행한다  인명구조 및 응급환자의 이송의사가 동승한 응급환자의 병원 간 이송을 포함한다 화재 진압 장기이식환자 및 장기의 이송 항공 수색 및 구조 활동 공중 소방 지휘통제 및 소방에 필요한 인력장비 등의 운반 방역 또는 방재 업무의 지원 그 밖에 재난관리를 위하여 필요한 업무 /score : 0.18811915099699872
제3조119구조대에서 갖추어야 할 장비의 기준  119구조구급에 관한 법률 시행령이하 영이라 한다 제5조에 따른 119구조대이하 구조대라 한다 중 특별시광역시특별자치시도특별자치도이하 시도라 한다 소방본부 및 소방서119안전센터를 포함한다에 설치하는 구조대에서 법 제8조제3항에 따라 갖추어야 하는 장비의 기본적인 사항은 소방력 기준에 관한 규칙 및 소방장비관리법 시행규칙에 따른다    소방청에 설치하는 구조대에서 법 제8조제3항에 따라 갖추어야 하는 장비의 기본적인 사항은 제1항을 준용한다    제1항과 제2항에서 규정한 사항 외에 구조대가 갖추어야 하는 장비에 관하여 필요한 사항은 소방청장이 정한다  /score : 0.16741547136497015
제2조정의 이 법에서 사용하는 용어의 뜻은 다음과 같다  구조란 화재 재난재해 및 테러 그 밖의 위급한 상황이하 위급상황이라 한다에서 외부의 도움을 필요로 하는 사람이하 요구조자라 한다의 생명 신체 및 재산을 보호하기 위하여 수행하는 모든 활동을 말한다 119구조대란 탐색 및 구조활동에 필요한 장비를 갖추고 소방공무원으로 편성된 단위조직을 말한다 구급이란 응급환자에 대하여 행하는 상담 응급처치 및 이송 등의 활동을 말한다 119구급대란 구급활동에 필요한 장비를 갖추고 소방공무원으로 편성된 단위조직을 말한다 응급환자란 응급의료에 관한 법률 제2조제1호의 응급환자를 말한다 응급처치란 응급의료에 관한 법률 제2조제3호의 응급처치를 말한다 구급차등이란 응급의료에 관한 법률 제2조제6호의 구급차등을 말한다 지도의사란 응급의료에 관한 법률