In [43]:
from konlpy.tag import Kkma
from konlpy.tag import Twitter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
import numpy as np

In [44]:
def build_sent_graph(tfidf, sentences):
    tfidf_mat = tfidf.fit_transform(sentences).toarray()
    graph_sentence = np.dot(tfidf_mat, tfidf_mat.T)
    return graph_sentence

def build_words_graph(cnt_vec, sentence):
    cnt_vec_mat = normalize(cnt_vec.fit_transform(sentence).toarray().astype(float), axis=0)
    vocab = cnt_vec.vocabulary_
    return np.dot(cnt_vec_mat.T, cnt_vec_mat), {vocab[word] : word for word in vocab}

In [64]:
def get_ranks(graph, d=0.85): # d = damping factor
    A = graph
    matrix_size = A.shape[0]
    print('AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA')
    for id in range(matrix_size):
        A[id, id] = 0 # diagonal 부분을 0으로
        link_sum = np.sum(A[:,id]) # A[:, id] = A[:][id]
        if link_sum != 0:
            A[:, id] /= link_sum
            A[:, id] *= -d
            A[id, id] = 1

    B = (1-d) * np.ones((matrix_size, 1))
    print(A)
    print(B)
    print('AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA')
    ranks = np.linalg.solve(A, B) # 연립방정식 Ax = b
    return {idx: r[0] for idx, r in enumerate(ranks)}
def summarize(sorted_sent_rank_idx, texts, sent_num=3):
    summary = []
    index=[]
    for idx in sorted_sent_rank_idx[:sent_num]:
        index.append(idx)
    index.sort()
    for idx in index:
        summary.append(texts[idx])
    return summary
def keywords(words_graph, sorted_rank_idx, idx2word, word_num=10):
    rank_idx = get_ranks(words_graph)
    sorted_rank_idx = sorted(rank_idx, key=lambda k: rank_idx[k], reverse=True)
    keywords = []
    index=[]
    for idx in sorted_rank_idx[:word_num]:
        index.append(idx)
    
    #index.sort()
    for idx in index:
        keywords.append(idx2word[idx])
    return keywords

In [65]:
def run(texts):
    stopwords = ['중인' ,'만큼', '마찬가지', '꼬집었', "연합뉴스", "데일리", "동아일보", "중앙일보", "조선일보", "기자", "해당"
    ,"아", "휴", "아이구", "아이쿠", "아이고", "어", "나", "우리", "저희", "따라", "의해", "을", "를", "에", "의", "가", "조", "4조", "14조", "14"]
    kkma = Kkma()

    nouns = []
    for sentence in texts:
        if sentence is not '':
            nouns.append(' '.join([noun for noun in kkma.nouns(sentence)
                                  if noun not in stopwords and len(noun) > 1]))
    tfidf = TfidfVectorizer()
    cnt_vec = CountVectorizer()
    graph_sentence = []

    sent_graph = build_sent_graph(tfidf, nouns)
    print(sent_graph)
    words_graph, idx2word = build_words_graph(cnt_vec, nouns)

    sent_rank_idx = get_ranks(sent_graph)
    sorted_sent_rank_idx = sorted(sent_rank_idx, key=lambda k: sent_rank_idx[k], reverse=True)
    print(words_graph, idx2word)
    word_rank_idx = get_ranks(words_graph)
    sorted_word_rank_idx = sorted(word_rank_idx, key=lambda k: word_rank_idx[k], reverse=True)
    # print(summarize(sorted_sent_rank_idx, texts, 3))
    # print(keywords(words_graph, sorted_word_rank_idx, idx2word, word_num=10))

In [58]:
texts = ['계약업체는 발주기관으로부터 받은 장비, 서류 및 중간･최종산출물 등 모든 자료를 전량 반납하고 삭제하여야 함',
'사업완료 시, 계약 상대자는 사업관련 자료를 보유하고 있지 않으며 이를 위반 시 향후 법적책임이 있음을 포함한 ‘대표자명의 보안확약서’를 작성하여 제출',
'정보통신망 구성도, 정보시스템구성도, 용역사업 산출물 및 개인정보 등은 비공개 자료로 분류하여 관리하여야 함',
'계약사는 본 사업 관리를 위한 산출물을 추가 요구시에 발주기관에서 요구하는 서식의 형태로 작성하여 제출하여야 함',
'「소프트웨어산업진흥법 제22조」에 따라 해당 사업 수주자는 SW 사업정보(SW사업 수행 및 실적 정보) 데이터를 작성하여 제출하여야 함',
'SW사업정보 데이터 작성 및 제출에 관한 사항은 www.spir.kr 자료실의 ‘SW사업정보 저장소 데이터 제출 안내’ 문서를 참조토록 함',
'SW사업정보 데이터는 사업수행계획서 작성 시 단계별 산출물 리스트에 반드시 명시하도록 함',
'공급자는 지식재산권의 활용을 위하여 SW산출물의 반출을 요청할 수 있으며, 발주기관에서는 「보안업무규정」 제4조 및 제안요청서에 명시된 누출금지정보에 해당하지 않을 경우 SW산출물을 제공함. 다만, SW산출물의 활용 절차와 공급자가 SW산출물 활용 절차를 지키지 않는 경우 입찰참가자격 제한 등에 관하여는「소프트웨어사업 관리감독에 관한 일반기준」(과학기술정보정통부 고시) 제14조의2(산출물의 활용)에 따름']
run(texts)

[[1.         0.06518971 0.06774846 0.13308762 0.         0.
  0.03315857 0.03844535]
 [0.06518971 1.         0.04324562 0.10424106 0.05322361 0.06842813
  0.04009221 0.03063509]
 [0.06774846 0.04324562 1.         0.09744756 0.03874783 0.04981703
  0.08386305 0.05960252]
 [0.13308762 0.10424106 0.09744756 1.         0.08350837 0.10736442
  0.10143756 0.08318065]
 [0.         0.05322361 0.03874783 0.08350837 1.         0.2139994
  0.25286494 0.05201845]
 [0.         0.06842813 0.04981703 0.10736442 0.2139994  1.
  0.23651743 0.02826976]
 [0.03315857 0.04009221 0.08386305 0.10143756 0.25286494 0.23651743
  1.         0.08789573]
 [0.03844535 0.03063509 0.05960252 0.08318065 0.05201845 0.02826976
  0.08789573 1.        ]]
8
0.3376297231581189
0.40505543813876
0.44047208535108573
0.7102672503914489
0.6943625908886712
0.7043961677774351
0.8358294915751834
0.38004755752607416
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
[[ 1.         -0.13679919 -0.13073744 -0.1592703  -0.         -0.
  -0.03372073 -

In [66]:
texts = ['하자보수기간은 시스템의 안정성이 확보될 수 있도록 검수완료일로부터 12개월로 함',
'용역계약일반조건 제58조(하자보수 등)에서 정한 하자보수 이외의 기능개선, 사업방법의 개선 등 유상 유지관리 및 재개발에 대해서는 계약목적물의 인수직후 별도의 계약체결을 통해 유상으로 사업을 추진할 수 있음',
'사과 맛있다',
'과업 종료 전 시스템 운영 및 유지보수 등을 시스템 운영자가 수행할 수 있도록 교육 지원']

run(texts)

[[1.         0.05358604 0.         0.09704329]
 [0.05358604 1.         0.         0.0588774 ]
 [0.         0.         1.         0.        ]
 [0.09704329 0.0588774  0.         1.        ]]
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
-0.85
-0.85
-0.85
[[ 1.         -0.4050039   0.         -0.52903047]
 [-0.30238554  1.          0.         -0.32096953]
 [-0.         -0.          0.         -0.        ]
 [-0.54761446 -0.4449961   0.          1.        ]]
[[0.15]
 [0.15]
 [0.15]
 [0.15]]
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA


LinAlgError: Singular matrix

In [27]:
texts = ['하자보수기간은 시스템의 안정성이 확보될 수 있도록 검수완료일로부터 12개월로 함',
'용역계약일반조건 제58조(하자보수 등)에서 정한 하자보수 이외의 기능개선, 사업방법의 개선 등 유상 유지관리 및 재개발에 대해서는 계약목적물의 인수직후 별도의 계약체결을 통해 유상으로 사업을 추진할 수 있음',
'과업 종료 전 시스템 운영 및 유지보수 등을 시스템 운영자가 수행할 수 있도록 교육 지원']

run(texts)

[[1.         0.04870088 0.08866261]
 [0.04870088 1.         0.05357986]
 [0.08866261 0.05357986 1.        ]]
[[1. 1. 0. ... 0. 1. 1.]
 [1. 1. 0. ... 0. 1. 1.]
 [0. 0. 1. ... 1. 0. 0.]
 ...
 [0. 0. 1. ... 1. 0. 0.]
 [1. 1. 0. ... 0. 1. 1.]
 [1. 1. 0. ... 0. 1. 1.]] {48: '하자', 50: '하자보수기간', 20: '보수', 13: '기간', 24: '시스템', 25: '안정성', 51: '확보', 5: '검수', 6: '검수완료일로', 26: '완료', 0: '12', 1: '12개월', 4: '개월', 27: '용역', 7: '계약', 37: '일반', 38: '일반조건', 42: '조건', 41: '제58조', 2: '58', 49: '하자보수', 34: '이외', 14: '기능', 15: '기능개선', 3: '개선', 21: '사업', 22: '사업방법', 18: '방법', 30: '유상', 31: '유지', 32: '유지관리', 11: '관리', 40: '재개발', 8: '계약목적물의', 16: '목적', 17: '물의', 35: '인수', 36: '인수직후', 45: '직후', 19: '별도', 9: '계약체결', 46: '체결', 47: '추진', 39: '있음', 10: '과업', 43: '종료', 28: '운영', 33: '유지보수', 29: '운영자', 23: '수행', 12: '교육', 44: '지원'}
