In [1]:
import os
import kss
import re

### Read dataset

In [2]:
removal_list =  "‘, ’, ◇, ‘, ”,  ’, ', ·, \“, ·, △, ●,  , ■, (, ), \", >>, `, /, -,∼,=,ㆍ<,>, .,?, !,【,】, …, ◆,%"

def cleansing_special(sentence):
    # 특수문자 전처리 함수
    sentence = re.sub("[.,\'\"’‘”“!?]", "", sentence)
    sentence = re.sub('[^가-힣\w\\s]',' ', sentence)
    sentence = re.sub('\s+', ' ',sentence)
    
    # removal_list의 값을 ' '로 대체
    sentence = sentence.translate(str.maketrans(removal_list, ' '*len(removal_list)))
    sentence = sentence.strip()
    
    return sentence

def cleansing_numbers(sentence):
    # 숫자 전처리 함수(delexicalization)
    sentence = re.sub('[0-9]+', 'NUM', sentence)
    sentence = re.sub('NUM\s+', 'NUM', sentence)
    sentence = re.sub('[NUM]+', 'NUM', sentence)
    
    return sentence

In [3]:
from konlpy.tag import Mecab

mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic')

In [4]:
data_path = '../data'
all_sentences = []
with open(os.path.join(data_path, 'news_sample.txt'), 'r', encoding='utf-8') as f:
    for idx, line in enumerate(f.readlines()):
        print(f"--- 문서 {idx} 번 ---")
        preprocessed = cleansing_numbers(line)
        preprocessed = cleansing_special(preprocessed)
        
        # 명사 추출
        preprocessed_news = ' '.join(list(set(mecab.nouns(preprocessed))))
        
        # 문장 분리해서 사용하는 방법
        # preprocessed_news = ' '.join(kss.split_sentences(preprocessed))
        print(preprocessed_news)
        
        all_sentences.append(preprocessed_news)

--- 문서 0 번 ---
원년 배치 자본 폐쇄 추진 몸 소망 표출 어제 점 외교 국호 변화 모색 쇠 욕 미국 한반도 능력 휘하 아침 민 기반 고유 년 부여 방향 경협 단계 행정력 극대 현안 대통령 인구 경기 중요 금강산 대결 고난 흑인 단체장 과정 달성 한뜻 마음 우리 정책 미증유 유념 극복 뒤 지역 지난해 청사진 취임 나열 출발 파악 평화 면적 결정 의 동계 한국 정과 한미 직무 얼마 짐 그동안 조기 국내 글로벌 선거 절망 정부 기회비용 예산 경제 시련 추진력 수 과제 정치력 후보 책임 발휘 자치 미래 축년 丑年 처음 인재 집행 운행 불신 틀 자신 올해 회한 시간 것 포함 평창 북 가치 기업 련 방법 발전 시대 강원도 바다 변수 성과 암투 개성관광 시 성향 간 생명력 선진국 이것 번 코드 유능 다음 정치색 정립 행정 성공 다이 당국 활력 유치 문제 구체 己 좌절 도 때문 단체 관행 새해 몫 국익 공직자 공유 사람 협의 날 도시 도약 근거 개성 전력 업그레이드 땅 무엇 꿈 적재적소 번지 일 중단 화두 불씨 등 현상 기초자치단체 기 떼 바탕 열차 최대 동해 민족 전환점 슬기 도정 화해 지 피 논리 정상 정치 질주 역사 기축 바람 퇴행 목적 낭비성 실행 자생력 속 남북한 저력 육 조화 해다 동기 당위 활용 태양 올림픽 열쇠 오바마 이 역량 때 대화 희망 통행 도민 암울 군 공감대 단추 해결 청산 위기 생산 여건 회생 기대 음모 국민 통일 구축 자질 증오 대비 듯 핵 인원 단절 햇살 인맥 관계 후 약점 혼란 지혜 건국 기억 인사 발굴 사무소 지방 광채 갈등 경의선 남북 도전
--- 문서 1 번 ---
체제 모습 감사 목별 정산 생활 노인 터전 핫 체육회 김흥수 주력 도종 부회장 회장 운동 애 엘리트 교육청 양 년 지원 준비 부지런 방 안 봉사 김용주 단계 가운데 해 경기 시기 마련 기관 적극 년차 활체 유기 성원 단체장 연구 이사 사무 정책 우리 뒤 지역 지난해 밀알 확립 역동 출범 육회 그동안 면모 메달 일조 요구 도내 수 자치 장애 경제 증진 창단 발휘 축년 

### Scikit-learn을 사용한 TF-IDF

> - Useful option : tokenizer, stop_words

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

print(len(all_sentences))

20


In [6]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(all_sentences)
word2id = defaultdict(lambda : 0)

for idx, feature in enumerate(tfidf_vectorizer.get_feature_names()):
    word2id[feature] = idx

In [7]:
tfidf_vectorizer.vocabulary_

{'원년': 1579,
 '배치': 892,
 '자본': 1796,
 '폐쇄': 2406,
 '추진': 2255,
 '소망': 1186,
 '표출': 2426,
 '어제': 1393,
 '외교': 1540,
 '국호': 317,
 '변화': 912,
 '모색': 752,
 '미국': 795,
 '한반도': 2477,
 '능력': 501,
 '휘하': 2639,
 '아침': 1348,
 '기반': 371,
 '고유': 199,
 '부여': 969,
 '방향': 883,
 '경협': 162,
 '단계': 512,
 '행정력': 2526,
 '극대': 341,
 '현안': 2545,
 '대통령': 581,
 '인구': 1724,
 '경기': 144,
 '중요': 2046,
 '금강산': 351,
 '대결': 547,
 '고난': 178,
 '흑인': 2642,
 '단체장': 525,
 '과정': 244,
 '달성': 530,
 '한뜻': 2475,
 '마음': 697,
 '우리': 1561,
 '정책': 1948,
 '미증유': 805,
 '유념': 1615,
 '극복': 342,
 '지역': 2088,
 '지난해': 2067,
 '청사진': 2192,
 '취임': 2282,
 '나열': 425,
 '출발': 2268,
 '파악': 2375,
 '평화': 2401,
 '면적': 737,
 '결정': 138,
 '동계': 631,
 '한국': 2470,
 '정과': 1918,
 '한미': 2476,
 '직무': 2111,
 '얼마': 1399,
 '그동안': 339,
 '조기': 1973,
 '국내': 302,
 '글로벌': 349,
 '선거': 1127,
 '절망': 1907,
 '정부': 1931,
 '기회비용': 396,
 '예산': 1493,
 '경제': 154,
 '시련': 1272,
 '추진력': 2256,
 '과제': 245,
 '정치력': 1951,
 '후보': 2634,
 '책임': 2171,
 '발휘': 867,
 '자치': 1814,
 '미래': 

In [8]:
for idx, sent in enumerate(all_sentences):
    print(f'-- 문서 {idx}번 --')
    
    results = [(token, tfidf_matrix[idx, word2id[token]]) for token in sent.split()]
    
    results.sort(key = lambda element : element[1], reverse=True)
    print(results)
    print()
    print()

-- 문서 0번 --
[('폐쇄', 0.08287398490467827), ('몸', 0.08287398490467827), ('소망', 0.08287398490467827), ('어제', 0.08287398490467827), ('점', 0.08287398490467827), ('외교', 0.08287398490467827), ('국호', 0.08287398490467827), ('쇠', 0.08287398490467827), ('욕', 0.08287398490467827), ('한반도', 0.08287398490467827), ('휘하', 0.08287398490467827), ('아침', 0.08287398490467827), ('민', 0.08287398490467827), ('년', 0.08287398490467827), ('부여', 0.08287398490467827), ('경협', 0.08287398490467827), ('대결', 0.08287398490467827), ('흑인', 0.08287398490467827), ('미증유', 0.08287398490467827), ('유념', 0.08287398490467827), ('뒤', 0.08287398490467827), ('청사진', 0.08287398490467827), ('취임', 0.08287398490467827), ('나열', 0.08287398490467827), ('의', 0.08287398490467827), ('정과', 0.08287398490467827), ('한미', 0.08287398490467827), ('직무', 0.08287398490467827), ('짐', 0.08287398490467827), ('선거', 0.08287398490467827), ('기회비용', 0.08287398490467827), ('추진력', 0.08287398490467827), ('수', 0.08287398490467827), ('정치력', 0.08287398490467827), ('丑年

[('해빙', 0.08531893893515742), ('집중호우', 0.08531893893515742), ('기후', 0.08531893893515742), ('자연재해', 0.08531893893515742), ('보급', 0.08531893893515742), ('토끼', 0.08531893893515742), ('위협', 0.08531893893515742), ('파력', 0.08531893893515742), ('피해액', 0.08531893893515742), ('뒷받침', 0.08531893893515742), ('지표', 0.08531893893515742), ('감축', 0.08531893893515742), ('온도', 0.08531893893515742), ('수백', 0.08531893893515742), ('냉해', 0.08531893893515742), ('생태관광', 0.08531893893515742), ('황사', 0.08531893893515742), ('해안', 0.08531893893515742), ('인류', 0.08531893893515742), ('사와', 0.08531893893515742), ('야심', 0.08531893893515742), ('교체', 0.08531893893515742), ('재앙', 0.08531893893515742), ('태풍', 0.08531893893515742), ('바텔', 0.08531893893515742), ('폭설', 0.08531893893515742), ('해수면', 0.08531893893515742), ('대학원', 0.08531893893515742), ('다도', 0.08531893893515742), ('계변', 0.08531893893515742), ('홍수', 0.08531893893515742), ('생존', 0.08531893893515742), ('온실가스', 0.08531893893515742), ('마리', 0.08531893893515742), (

[('예고', 0.0781210592578513), ('영업자', 0.0781210592578513), ('동향', 0.0781210592578513), ('군장', 0.0781210592578513), ('농상', 0.0781210592578513), ('부장', 0.0781210592578513), ('금고', 0.0781210592578513), ('신용보증기금', 0.0781210592578513), ('배당', 0.0781210592578513), ('지부장', 0.0781210592578513), ('농정', 0.0781210592578513), ('소유', 0.0781210592578513), ('전산망', 0.0781210592578513), ('병석', 0.0781210592578513), ('제값', 0.0781210592578513), ('부응', 0.0781210592578513), ('앞장', 0.0781210592578513), ('종영', 0.0781210592578513), ('신용도', 0.0781210592578513), ('진심', 0.0781210592578513), ('둘째', 0.0781210592578513), ('상품권', 0.0781210592578513), ('지기', 0.0781210592578513), ('협동', 0.0781210592578513), ('여신', 0.0781210592578513), ('도약대', 0.0781210592578513), ('총액', 0.0781210592578513), ('앞수표', 0.0781210592578513), ('체결', 0.0781210592578513), ('김상엽', 0.0781210592578513), ('민영화', 0.0781210592578513), ('차세대', 0.0781210592578513), ('한계점', 0.0781210592578513), ('신종백', 0.0781210592578513), ('김시환', 0.0781210592578513), ('