In [None]:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import re
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import euclidean_distances
# key => 
# 산업안전보건법 + "1"
# 건설기술진흥법 + "2"
# 위험물안전관리법 + '3'
# 전기안전관리법 + "4"
# 화학물질관리법 + "5"

In [None]:
df_industrial = pd.read_excel("산업안전보건법.xlsx")
df_erection = pd.read_excel("건설기술진흥법.xlsx")
df_danger = pd.read_excel("위험물안전관리법.xlsx")
df_electric = pd.read_excel("전기안전관리법.xlsx")
df_chemistry = pd.read_excel("화학물질관리법.xlsx")
df_info = pd.DataFrame()
df_info = df_info.append(df_industrial,ignore_index = True)
df_info = df_info.append(df_erection,ignore_index = True)
df_info = df_info.append(df_danger,ignore_index = True)
df_info = df_info.append(df_electric,ignore_index = True)
df_info = df_info.append(df_chemistry,ignore_index = True)
df_info

In [None]:
#df_info.to_excel('전체법.xlsx',index = False)

In [None]:
# 불용어 리스트
# 불용어, 불필요 단어 제거
stop_words_df = pd.read_excel("stopwords.xlsx")
stop_words_df

In [None]:
posts = df_info.get("조내용")
posts_key = df_info.get("키")
key = [i for i in posts_key]
posts

In [None]:
def get_key(**key) :
    dic = {}
    for k, y in key.items():
        if k[-1] == "1" :
            s = "OSH"+k[0:(len(k)-4)]
        elif k[-1]=="2":
            s = "CTP"+k[0:(len(k)-4)]
        elif k[-1]=="3":
            s = "HSM"+k[0:(len(k)-4)]
        elif k[-1]=="4":
            s = "ESM"+k[0:(len(k)-4)]
        elif k[-1]=="5":
            s = "CMM"+k[0:(len(k)-4)]     
        if k[-3] != "0":
            s += "의 "+k[-3]   
        dic[s] = y
    return dic   

In [None]:
def get_law(law):
    if law == 'OSH':
        num = '1'
    elif law == 'CTP':
        num = '2'
    elif law == 'HSM':
        num = '3'
    elif law == 'ESM':
        num = '4'
    elif law == 'CMM':
        num = '5'
    return num

In [None]:
from konlpy.tag import Okt
okt = Okt()

oo = okt.pos(posts[0],
        norm=True,   # 정규화(normalization)
        stem=True    # 어간추출(stemming)
        )
print(oo)

In [None]:
def tokenizer_1(raw_texts, pos=["Noun","Alpha","Verb","Number"], stopword=list(stop_words_df.get("불용어"))):
    p = okt.pos(raw_texts, 
            norm=True,   # 정규화(normalization)
            stem=True    # 어간추출(stemming)
            )
    o = [word for word, tag in p if len(word) > 1 and tag in pos and word[0] not in stopword]
    return(o)

tokenizer_1(posts[80])


In [None]:
from konlpy.tag import Mecab
tagger = Mecab()
# from eunjeon import Mecab
# tagger = Mecab()
def tokenizer_2(raw_texts, pos=["Noun","Alpha","Verb","Number"], stop_words=list(stop_words_df.get("불용어"))):
    nouns = []
  
    for noun in tagger.nouns(raw_texts):
        if noun not in stop_words:
            nouns.append(noun)
    return nouns

tokenizer_2(posts[80])

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorize = TfidfVectorizer(
    tokenizer=tokenizer_1, # 문장에 대한 tokenizer (위에 정의한 함수 이용)
    min_df=1,            # 단어가 출현하는 최소 문서의 개수
    sublinear_tf=True    # tf값에 1+log(tf)를 적용하여 tf값이 무한정 커지는 것을 막음
)

X = vectorize.fit_transform(posts)
X.toarray() 

In [None]:
# 모든 조에 해당하는 euclidean distance 를 계산
euclidean_result = []
for x in range(len(df_info)):
    tmp = []
    for y in range(len(df_info)):
        tmp.append(euclidean_distances(X[x], X[y])[0][0])
    euclidean_result.append(tmp)
# euclidean_result

In [None]:
# 모든 조에 해당하는 euclidean distance 결과 값을
# DataFrame 형태로 변환
euclidean_result_df = pd.DataFrame(euclidean_result)
euclidean_result_df

In [None]:
law_jo = 'OSH24'
        
if law_jo[-3] == '의':
    if len(law_jo) == 7 :
        jo_key = law_jo[3] + '0' + law_jo[-1] + '1'+ get_law(law_jo[0:3])
    elif len(law_jo) == 8 :
        jo_key = law_jo[3:5] + '0' + law_jo[-1] + '1'+ get_law(law_jo[0:3])
    elif len(law_jo) == 9 :
        jo_key = law_jo[3:6] + '0' + law_jo[-1] + '1'+ get_law(law_jo[0:3])
else:    
    jo_key = law_jo[3:] + '001' + get_law(law_jo[0:3])

In [None]:
# euclidean distance 값으로 
# 8조와 가장 비슷한 조를 찾기위한 과정
# jo_key = 240011
jo = key.index(int(jo_key))
y_euclidean = euclidean_result_df[jo]
dic = {}
for i in range(len(y_euclidean)):
    dic[str(posts_key[i])] = y_euclidean[i] 
dic = get_key(**dic)
#8조와 비슷한 조 찾기 위함
# euclidean distance 를 dic에 씌워 sorting 함(1부터 10위까지)
sorted(dic.items(), key=lambda x: x[1])[0:15]

In [None]:
cosine_result = []
for x in range(len(df_info)):
    tmp = []
    for y in range(len(df_info)):
        tmp.append(cosine_similarity(X[x], X[y])[0][0])
    cosine_result.append(tmp)

In [None]:
# 모든 조에 해당하는 cosine similarity 결과 값을
# DataFrame 형태로 변환
cosine_result_df = pd.DataFrame(cosine_result)
cosine_result_df

In [None]:
# cosine similarity 값으로 
# 8조와 가장 비슷한 조를 찾기위한 과정
y_cosine = cosine_result_df[jo]
dic ={}
for i in range(len(y_cosine)):
    dic[str(posts_key[i])] = y_cosine[i]
dic = get_key(**dic)
#8조와 비슷한 조 찾기 위함
# euclidean distance 를 dic에 씌워 sorting 함(1부터 10위까지)
sorted(dic.items(), key=lambda x: x[1], reverse = True)[0:10]

In [None]:
import openpyxl
# 워크북 열기
wb = openpyxl.load_workbook('TF-IDF결과.xlsx')
# 시트 열기(활성화)
sheet = wb['안전보건법령 간']

# 제시된 틀 만들기
sheet['A1'] = '안전보건법령 간 TF-IDF 기준'
for i in range(10) :
    sheet.cell(row=2, column=i+2).value = i+1
for i in range(0,141) :
    s = "OSH"+str(i+1)
    sheet.cell(row=i+3, column=1).value = s

# 상위 유사조항 10개   
for j in range(0,141) :
    y_cosine = cosine_result_df[j]
    dic ={}
    for i in range(len(y_cosine)):
        dic[str(posts_key[i])] = y_cosine[i]
    dic = get_key(**dic)
    a = sorted(dic.items(), key=lambda x: x[1], reverse = True)[1:11]
    for i in range(10) :
        sheet.cell(row=j+3, column=i+2).value = str(a[i][0])

# 저장
wb.save('TF-IDF결과.xlsx')

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
countv = CountVectorizer(stop_words = list(stop_words_df.get("불용어")))
sp_mat = countv.fit_transform(posts)
# 희소행렬을 np array로
sp_mat.toarray()

In [None]:
vectorize = CountVectorizer(
    tokenizer=tokenizer_2, # 문장에 대한 tokenizer (위에 정의한 함수 이용)
    min_df=1,            # 단어가 출현하는 최소 문서의 개수
)

X = vectorize.fit_transform(posts)
X.toarray() 

In [None]:
# 모든 조에 해당하는 euclidean distance 를 계산
euclidean_result = []
for x in range(len(df_info)):
    tmp = []
    for y in range(len(df_info)):
        tmp.append(euclidean_distances(X[x], X[y])[0][0])
    euclidean_result.append(tmp)
# euclidean_result

In [None]:
# 모든 조에 해당하는 euclidean distance 결과 값을
# DataFrame 형태로 변환
euclidean_result_df = pd.DataFrame(euclidean_result)
euclidean_result_df

In [None]:
# euclidean distance 값으로 
# 8조와 가장 비슷한 조를 찾기위한 과정
y_euclidean = euclidean_result_df[jo]
dic = {}
for i in range(len(y_euclidean)):
    dic[str(posts_key[i])] = y_euclidean[i]
dic = get_key(**dic)
#8조와 비슷한 조 찾기 위함
# euclidean distance 를 dic에 씌워 sorting 함(1부터 10위까지)
sorted(dic.items(), key=lambda x: x[1])[0:10]

In [None]:
import openpyxl
# 워크북 열기
wb = openpyxl.load_workbook('count결과(Eu).xlsx')
# 시트 열기(활성화)
sheet = wb['안전보건법령 간']

# 제시된 틀 만들기
sheet['A1'] = '안전보건법령 간 count결과(Eu) 기준'
for i in range(10) :
    sheet.cell(row=2, column=i+2).value = i+1
for i in range(0,141) :
    s = "OSH"+str(i+1)
    sheet.cell(row=i+3, column=1).value = s

# 상위 유사조항 10개   
for j in range(0,141) :
    y_euclidean = euclidean_result_df[j]
    dic ={}
    for i in range(len(y_euclidean)):
        dic[str(posts_key[i])] = y_euclidean[i]
    dic = get_key(**dic)
    a = sorted(dic.items(), key=lambda x: x[1])[1:11]
    for i in range(10) :
        sheet.cell(row=j+3, column=i+2).value = str(a[i][0])

# 저장
wb.save('count결과(Eu).xlsx')

In [None]:
cosine_result = []
for x in range(len(df_info)):
    tmp = []
    for y in range(len(df_info)):
        tmp.append(cosine_similarity(X[x], X[y])[0][0])
    cosine_result.append(tmp)

In [None]:
# 모든 조에 해당하는 cosine similarity 결과 값을
# DataFrame 형태로 변환
cosine_result_df = pd.DataFrame(cosine_result)
cosine_result_df

In [None]:
# cosine similarity 값으로 
# 8조와 가장 비슷한 조를 찾기위한 과정
y_cosine = cosine_result_df[jo]
dic ={}
for i in range(len(y_cosine)):
    dic[str(posts_key[i])] = y_cosine[i]
dic = get_key(**dic)
#8조와 비슷한 조 찾기 위함
# euclidean distance 를 dic에 씌워 sorting 함(1부터 10위까지)
sorted(dic.items(), key=lambda x: x[1], reverse = True)[0:10]

In [None]:
import openpyxl
# 워크북 열기
wb = openpyxl.load_workbook('count결과(C).xlsx')
# 시트 열기(활성화)
sheet = wb['안전보건법령 간']

# 제시된 틀 만들기
sheet['A1'] = '안전보건법령 간 count결과(C) 기준'
for i in range(10) :
    sheet.cell(row=2, column=i+2).value = i+1
for i in range(0,141) :
    s = "OSH"+str(i+1)
    sheet.cell(row=i+3, column=1).value = s

# 상위 유사조항 10개   
for j in range(0,141) :
    y_cosine = cosine_result_df[j]
    dic ={}
    for i in range(len(y_cosine)):
        dic[str(posts_key[i])] = y_cosine[i]
    dic = get_key(**dic)
    a = sorted(dic.items(), key=lambda x: x[1], reverse = True)[1:11]
    for i in range(10) :
        sheet.cell(row=j+3, column=i+2).value = str(a[i][0])

# 저장
wb.save('count결과(C).xlsx')