In [1]:
import numpy as np
import pandas as pd
import itertools


from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

### 전처리가 이미 완료된 후의 데이터를 사용
보안상 데이터를 전체 공개 불가

In [2]:
df = pd.read_csv('../data/dataset/CAI_data_003.csv')

In [3]:
df['sentence'][1]

'고객 요청사항 수신불인터넷 연결오류 뜸재부팅해 봄 모텔 영업용 일중 꼭 점검원하여 지사 이관함회선 단말특이사항 진단 결과 기타 추가 연락처'

In [4]:
okt = Okt()

tokenized_doc = okt.pos(df['sentence'][1])
tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] != 0])

print('품사 태깅 10개만 출력 :',tokenized_doc[:10])
print('추출 :',tokenized_nouns)

품사 태깅 10개만 출력 : [('고객', 'Noun'), ('요청', 'Noun'), ('사항', 'Noun'), ('수', 'Modifier'), ('신', 'Modifier'), ('불', 'Noun'), ('인터넷', 'Noun'), ('연결', 'Noun'), ('오류', 'Noun'), ('뜸', 'Noun')]
추출 : 고객 요청 사항 수 신 불 인터넷 연결 오류 뜸 재부팅 해 봄 모텔 영업 용 일 중 꼭 점검 원하여 지사 이 관함 회선 단말 특이 사항 진단 결과 기타 추가 연락처


In [5]:
n_gram_range = (2, 3)

count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
candidates = count.get_feature_names_out()

print('trigram 개수 :',len(candidates))
print('trigram 다섯개만 출력 :',candidates[:5])

trigram 개수 : 41
trigram 다섯개만 출력 : ['결과 기타' '결과 기타 추가' '고객 요청' '고객 요청 사항' '관함 회선']


In [6]:
model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')
doc_embedding = model.encode([df['sentence'][1]])
candidate_embeddings = model.encode(candidates)

In [7]:
top_n = 5
distances = cosine_similarity(doc_embedding, candidate_embeddings)
keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
print(keywords)

['점검 원하여', '연결 오류 재부팅', '원하여 지사 관함', '점검 원하여 지사', '영업 점검 원하여']


In [8]:
def max_sum_sim(doc_embedding, candidate_embeddings, words, top_n, nr_candidates):
    # 문서와 각 키워드들 간의 유사도
    distances = cosine_similarity(doc_embedding, candidate_embeddings)

    # 각 키워드들 간의 유사도
    distances_candidates = cosine_similarity(candidate_embeddings,
                                            candidate_embeddings)

    # 코사인 유사도에 기반하여 키워드들 중 상위 top_n개의 단어를 pick.
    words_idx = list(distances.argsort()[0][-nr_candidates:])
    words_vals = [candidates[index] for index in words_idx]
    distances_candidates = distances_candidates[np.ix_(words_idx, words_idx)]

    # 각 키워드들 중에서 가장 덜 유사한 키워드들간의 조합을 계산
    min_sim = np.inf
    candidate = None

    for combination in itertools.combinations(range(len(words_idx)), top_n):
        sim = sum([distances_candidates[i][j] for i in combination for j in combination if i != j])
        if sim < min_sim:
            candidate = combination
            min_sim = sim

    return [words_vals[idx] for idx in candidate]

def mmr(doc_embedding, candidate_embeddings, words, top_n, diversity):

    # 문서와 각 키워드들 간의 유사도가 적혀있는 리스트
    word_doc_similarity = cosine_similarity(candidate_embeddings, doc_embedding)

    # 각 키워드들 간의 유사도
    word_similarity = cosine_similarity(candidate_embeddings)

    # 문서와 가장 높은 유사도를 가진 키워드의 인덱스를 추출.
    # 만약, 2번 문서가 가장 유사도가 높았다면
    # keywords_idx = [2]
    keywords_idx = [np.argmax(word_doc_similarity)]

    # 가장 높은 유사도를 가진 키워드의 인덱스를 제외한 문서의 인덱스들
    # 만약, 2번 문서가 가장 유사도가 높았다면
    # ==> candidates_idx = [0, 1, 3, 4, 5, 6, 7, 8, 9, 10 ... 중략 ...]
    candidates_idx = [i for i in range(len(words)) if i != keywords_idx[0]]

    # 최고의 키워드는 이미 추출했으므로 top_n-1번만큼 아래를 반복.
    # ex) top_n = 5라면, 아래의 loop는 4번 반복됨.
    for _ in range(top_n - 1):
        candidate_similarities = word_doc_similarity[candidates_idx, :]
        target_similarities = np.max(word_similarity[candidates_idx][:, keywords_idx], axis=1)

        # MMR을 계산
        mmr = (1-diversity) * candidate_similarities - diversity * target_similarities.reshape(-1, 1)
        mmr_idx = candidates_idx[np.argmax(mmr)]

        # keywords & candidates를 업데이트
        keywords_idx.append(mmr_idx)
        candidates_idx.remove(mmr_idx)

    return [words[idx] for idx in keywords_idx]

In [9]:
sentences = []

stopwords = ['고객','요청사','항','요청사항','안심권유','기타 추가 연락처']

for sentence in df['sentence']:
    for word in stopwords:
        sentence = sentence.replace(word, '')
        sentence = sentence.lstrip()
    sentences.append(sentence)
df['sen'] = sentences

In [10]:
df['sen']

0                                            안됨상담 중 자연회복됨
1       수신불인터넷 연결오류 뜸재부팅해 봄 모텔 영업용 일중 꼭 점검원하여 지사 이관함회선...
2                                  수신불회선 단말특이사 진단 결과  연후방
3                                       수신 불네트워크 오류 접수 보류
4                              수신불 연락 후회선 단말특이사 진단 결과 인 입
                              ...                        
8661    화질 불량 시청 중 화면 멈추고 꺼졌다 켜지는 현상이 있다고 함 연락 후 방문요회선...
8662                       리콜넷플릭스 연령인증 문의 건 리콜하니 해결했다고 하심
8663                                           대수신불전송 후리셋
8664    빠른 점검 요청   시청 불인터넷 연결오류나 옴 모든 장비 재부팅 안내회선 단말특이...
8665      수신불 연락 후 방문지니 셋 탑 전원안 들어옴 교체 요청회 선 단말특이사 진단 결과 
Name: sen, Length: 8666, dtype: object

In [None]:
abstract_sen = []


for i in range(len(df)) :
    

    try :
        okt = Okt()

        tokenized_doc = okt.pos(df['sen'][i])
        tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] != 0])

        n_gram_range = (1, 2)

        count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
        candidates = count.get_feature_names_out()

        doc_embedding = model.encode([df['sen'][i]])
        candidate_embeddings = model.encode(candidates)

        distances = cosine_similarity(doc_embedding, candidate_embeddings)
        keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
        
        
        keywords = max_sum_sim(doc_embedding, candidate_embeddings, candidates, top_n=3, nr_candidates=5)
        
        
        abstract_sen.append(keywords)
        print('----------------------------------------------------------')
        print('원본 : ', df['sen'][i])
        print('요약 : ', abstract_sen[i])
        print('----------------------------------------------------------')

    except :
        abstract_sen.append(df['sen'][i])

----------------------------------------------------------
원본 :  안됨상담 중 자연회복됨
요약 :  ['자연 회복', '상담 자연', '안됨 상담']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불인터넷 연결오류 뜸재부팅해 봄 모텔 영업용 일중 꼭 점검원하여 지사 이관함회선 단말특이사 진단 결과 
요약 :  ['재부팅 모텔 영업', '원하여 지사 관함', '연결 오류 재부팅']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과  연후방
요약 :  ['단말 특이 진단', '회선 단말', '단말 특이']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신 불네트워크 오류 접수 보류
요약 :  ['수신 네트워크', '네트워크 오류 접수', '접수 보류']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불 연락 후회선 단말특이사 진단 결과 인 입
요약 :  ['회선 단말', '회선 단말 특이', '단말 특이']
----------------------------------------------------------
--------------------------------------------

----------------------------------------------------------
원본 :  수신 불방쪽만 안됨 셋탑재 부팅 후 정상
요약 :  ['수신 불방쪽 안됨', '탑재 부팅', '부팅 정상']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불인터넷 연결오류 뜸재부팅해 봄 연락 먼저 회선 단말특이사 진단 결과 
요약 :  ['재부팅 연락', '먼저 회선 단말', '재부팅 연락 먼저']
----------------------------------------------------------
----------------------------------------------------------
원본 :  가능한 일방 요 분 정도 시청되면 화면 꺼짐 소리 정상회선 단말특이사 진단 결과  코로나 미 대상
요약 :  ['화면 꺼짐', '소리 정상 회선', '시청 되면 화면']
----------------------------------------------------------
----------------------------------------------------------
원본 :  일반 아들 방안됨 전원 적색점 등재부팅해도 동일 기량 자 방문 요청함 방문 시간 참고
요약 :  ['기량 방문 요청', '해도 동일 기량', '재부팅 해도 동일']
----------------------------------------------------------
----------------------------------------------------------
원본 :  안됨 셋 탑 전원 빨간불껏 다 켜도 아무 반응 없음 최대한 빠른 방문 요청
요약 :  ['켜도 아무 반응', '빨간 불껏 켜도', '없음 최대한 빠른']
---------------------

----------------------------------------------------------
원본 :  수신불 연락 후 전원회선 단말특이사 진단 결과 인 입
요약 :  ['회선 단말', '연락 전원', '단말 특이']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨 작동 불리모컨에 버튼을 안 눌러도 리모컨에 불이 계속 들어오면서 오작동이 됨연 후방 회선 단말특이사 진단 결과 
요약 :  ['작동 리모컨', '리모컨 버튼', '리모컨 작동']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불인터넷 오류회선 단말특이사 진단 결과  연후방
요약 :  ['회선 단말', '오류 회선 단말', '단말 특이']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신 불네트워크 오류 홈 너무 뜨겁다며 문제 있는 건 아닌 지 방문해서 확인 요회선 단말특이사 진단 결과 
요약 :  ['방문 해서 확인', '문제 있는 아닌', '오류 너무 뜨겁다며']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨 안됨 가까이에서는 되고 멀리서는 안됨 리모컨 페어링재부팅에 택배 접수함
요약 :  ['택배 접수', '에서는 되고', '에서는 되고 멀리']
-----------------

----------------------------------------------------------
원본 :  수신 불 외부 신고함
요약 :  ['외부 고함', '수신 외부 고함', '수신 외부']
----------------------------------------------------------
----------------------------------------------------------
원본 :  일시시 수신불올인 홈 정상포트리셋리 부팅 안내함
요약 :  ['정상 포트', '정상 포트 리셋', '시시 올인']
----------------------------------------------------------
----------------------------------------------------------
원본 :  자연회복회선 단말특이사 진단 결과 
요약 :  ['단말 특이', '진단 결과', '회복 회선']
----------------------------------------------------------
----------------------------------------------------------
원본 :  장비 장애 안내
요약 :  ['장애 안내', '장비 장애', '장비 장애 안내']
----------------------------------------------------------
----------------------------------------------------------
원본 :  화질이 상장비리셋 안내 후 정상회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['정상기 추가 연락처', '리셋 안내', '화질 장비 리셋']
----------------------------------------------------------
----------------------------------------------------------
원본 :  셋탑박스 전원선을 뺐다 꼽아

----------------------------------------------------------
원본 :  수신불 연락 후 방문회선 단말특이사 진단 결과 
요약 :  ['방문 회선 단말', '방문 회선', '연락 방문']
----------------------------------------------------------
----------------------------------------------------------
원본 :  차리셋 후 동일 빠른 방문원함 잦은 고장 불만 꼼꼼하게 점검 요청 지난번 다녀간 엔지니어 말고 기술 뛰어난 엔지니어 방문원함 민원심함  리셋 접수 수신불회선 단말특이사 진단 결과 
요약 :  ['말고 기술 뛰어난', '불만 꼼꼼하게', '불만 꼼꼼하게 점검']
----------------------------------------------------------
----------------------------------------------------------
원본 :  코로나 이 상무재확인 필   티비수 신불회선 단말특이사 최대한 빠른 방문 희망매장 인터넷 진단 결과 
요약 :  ['특이 최대한 빠른', '단말 특이', '방문 희망 매장']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리셋 시청 불수신 미약회선 단말특이사 진단 결과 
요약 :  ['시청 불수신 미약', '단말 특이', '리셋 시청']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신 불셋탑리셋동일회선단말특이사 진단 결과 
요약 :  ['불셋탑 리셋', '리셋 동일', '수신 불셋탑 리셋']
-

----------------------------------------------------------
원본 :  일시 대중 어머님 방티비 안됨 화면에 업그레이드합니다오류만 떠서 사라지지 않는 다심재부팅해도 안 됨
요약 :  ['않는 다심 재부팅', '떠서 사라지지 않는', '다심 재부팅 해도']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨 고장까지 같이 점검 요청 함 추가일 오전 시시 방문 안내함 메뉴 실행 불가 네트워크 오류 송출됨 안됨 링크 비정상 확인됨
요약 :  ['같이 점검 요청', '까지 같이', '요청 추가 오전']
----------------------------------------------------------
----------------------------------------------------------
원본 :  코로나 이 상무재확인 필   티비시청 불모뎀 셋톱재부팅해도 동일 현상 반복 방문점검 요청회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['방문 점검 요청', '시청 모뎀 셋톱', '셋톱 재부팅 해도']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['결과 정상기 추가', '단말 특이', '추가 연락처']
----------------------------------------------------------
----------------------------------------------------------
원본 :  임 의회 선  세탑 작동 이상회선 단말특이사 진단 결과 
요

----------------------------------------------------------
원본 :  일시수신불인터넷 연결오류 메세지
요약 :  ['수신 인터넷', '인터넷 연결 오류', '연결 오류 메세지']
----------------------------------------------------------
----------------------------------------------------------
원본 :  차현재 셋탑 자동이상 셋 탑 전원 적색불수동으로 해도 동일함 셋탑 음성인식도 안됨  리셋 접수 수신 불리셋 회선 단말특이사 진단 결과 
요약 :  ['현재 셋탑 자동', '동일함 셋탑 음성인식', '접수 수신 리셋']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '단말 특이 진단', '진단 결과']
----------------------------------------------------------
----------------------------------------------------------
원본 :  일시 시청 불셋 탑재 부팅해 봄
요약 :  ['탑재 부팅', '시청 불셋', '일시 시청 불셋']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리셋 접수방수신불리셋 회선 단말특이사 진단 결과 
요약 :  ['접수 방수', '단말 특이', '접수 방수 리셋']
----------------------------------------------------------
---------------------

----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '단말 특이 진단', '진단 결과']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '단말 특이 진단', '진단 결과']
----------------------------------------------------------
----------------------------------------------------------
원본 :  전원이상회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '단말 특이', '이상 회선']
----------------------------------------------------------
----------------------------------------------------------
원본 :  봇리셋 접수인수신 불리셋 안내
요약 :  ['리셋 접수', '접수 수신', '접수 수신 리셋']
----------------------------------------------------------
----------------------------------------------------------
원본 :  오전   수신 불신 비정상 점검 요청회선 단말특이사 진단 결과 인 입
요약 :  ['오전 수신', '점검 요청 회선', '단말 특이']
----------------------------------------------------------
----------------------------------------------------------
원본 :  시청 불부전원 정상 외부 입력 정상

----------------------------------------------------------
원본 :  리셋 접수시간 내외 리콜 안내수신불회선 단말특이사 진단 결과 
요약 :  ['안내 수신', '리셋 접수', '내외 리콜 안내']
----------------------------------------------------------
----------------------------------------------------------
원본 :  접속 불연 후방 회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '단말 특이', '접속 불연 후방']
----------------------------------------------------------
----------------------------------------------------------
원본 :  멀고 객 티수신 불재부팅해도 동일회선 단말특이사 진단 결과 
요약 :  ['회선 단말 특이', '단말 특이 진단', '재부팅 해도 동일']
----------------------------------------------------------
----------------------------------------------------------
원본 :  수신불회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['결과 정상기 추가', '단말 특이', '추가 연락처']
----------------------------------------------------------
----------------------------------------------------------
원본 :  티수신불회선 단말특이사 진단 결과 
요약 :  ['회선 단말', '진단 결과', '단말 특이 진단']
----------------------------------------------------------
-----------------------------------------

----------------------------------------------------------
원본 :  멀고 객  티 대끊김 현 상태풍오고 난 후 계속 그렇다고 하심코로나 이 상무회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['계속 그렇다고 코로나', '추가 연락처', '끊김 태풍 오고']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨기가 지니리모콘 작동 불배터리 방전이 빨리 된다고 함 교체해봐도 동일 택배 교체 요청 전 송 후 등록함
요약 :  ['빨리 된다고 교체', '해봐도 동일 택배', '된다고 교체 해봐도']
----------------------------------------------------------
----------------------------------------------------------
원본 :  화면이 시청 중 꺼졌다 켜졌다 반복됨 잦은 고장 꼼꼼하게 점검 요청회선 단말특이사 진단 결과 
요약 :  ['고장 꼼꼼하게 점검', '켜졌다 반복 잦은', '잦은 고장 꼼꼼하게']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨 일부 버튼 작동 불회선 단말특이사 진단 결과 
요약 :  ['일부 버튼 작동', '작동 회선 단말', '리모컨 일부']
----------------------------------------------------------
----------------------------------------------------------
원본 :  코로나 이 상무재확인 필  기가 지니리모컨 너무 뜨거워서 교체 요청회 선 단말특이

----------------------------------------------------------
원본 :  코로나 이 상무재확인 필   티 전원이 꺼짐 회선 단말특이사 진단 결과 정상기 타 추가 연락처
요약 :  ['코로나 상무 확인', '단말 특이', '추가 연락처']
----------------------------------------------------------
----------------------------------------------------------
원본 :  기가 지니리모컨 작동 불전원 버튼부터 채널버튼 등 다 안됨 불안 들어 옴건전지 교체해도 안됨 점검 요청회선 단말특이사 진단 결과 
요약 :  ['해도 안됨 점검', '불안 들어 건전지', '건전지 교체 해도']
----------------------------------------------------------
----------------------------------------------------------
원본 :  대만 시청 중 끊김 현상점검 요청회선 단말특이사 진단 결과 
요약 :  ['점검 요청 회선', '단말 특이', '대만 시청 끊김']
----------------------------------------------------------
----------------------------------------------------------
원본 :  무출동   리모컨 작동 불모든 버튼 안됨택배 배송 요청하여 처리 함회선 단말특이사 진단 결과 
요약 :  ['불모 버튼 안됨', '배송 요청 하여', '택배 배송 요청']
----------------------------------------------------------
----------------------------------------------------------
원본 :  리모컨 파손 배송 요청 본인 문자 발송 통합설정 문자 발송회선 단말특이사 진단 결과 
요약 :  ['파손 

In [None]:
df['sentence']

In [None]:
abstract_sen

## Max Sum Similarity
데이터 쌍 사이의 최대 합 거리는 데이터 쌍 간의 거리가 최대화되는 데이터 쌍으로 정의됩니다. 여기서의 의도는 후보 간의 유사성을 최소화하면서 문서와의 후보 유사성을 극대화하고자 하는 것입니다.