In [1]:
# from google.colab import drive
# drive.mount('/content/drive')

- kss는 한국어 문장 분리 모듈로, 자세한 내용은 [링크](https://pypi.org/project/kss/)를 참고하세요.

In [4]:
!pip install kss



In [5]:
import os
import kss
import re

In [3]:
# 형태소 기반 토크나이징 (Konlpy)
!python3 -m pip install konlpy
# mecab (ubuntu, mac 기준)
# 다른 os 설치 방법 및 자세한 내용은 다음 참고: https://konlpy.org/ko/latest/install/#id1
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Python
지정된 파일을 찾을 수 없습니다.


### Read dataset
- Github의 data 디렉토리에서 news_sample.txt 파일을 다운받아서 분석에 사용해주세요.

In [60]:
removal_list =  "‘, ’, ◇, ‘, ”,  ’, ', ·, \“, ·, △, ●,  , ■, (, ), \", >>, `, /, -,∼,=,ㆍ<,>, .,?, !,【,】, …, ◆,%"

def cleansing_special(sentence):
    # 특수문자를 전처리를 하는 함수
    sentence = re.sub("[.,\'\"’‘”“!?]", "", sentence)
    sentence = re.sub("[^가-힣0-9a-zA-Z\\s]", " ", sentence)
    sentence = re.sub("\s+", " ", sentence)
    
    sentence = sentence.translate(str.maketrans(removal_list, ' '*len(removal_list)))
    sentence = sentence.strip()
    
    return sentence

def cleansing_numbers(sentence):
    # 숫자를 전처리(delexicalization) 하는 함수    
    sentence = re.sub('[0-9]+', 'NUM', sentence)
    sentence = re.sub('NUM\s+', "NUM", sentence)
    sentence = re.sub('[NUM]+', "NUM", sentence)
    
    return sentence

In [61]:
from konlpy.tag import Mecab
mecab = Mecab(dicpath="C:/mecab/mecab-ko-dic")

In [63]:
# 각자 작업 환경에 맞는 경로를 지정해주세요. Google Colab과 Jupyter환경에서 경로가 다를 수 있습니다.
data_path = './../data'
all_sentences = []
with open(os.path.join(data_path, 'news_sample.txt'), 'r', encoding='utf-8') as f:
    for idx, line in enumerate(f.readlines()):
        print(f"--- 문서 {idx} 번 ---")
        preprocessed = cleansing_numbers(line)
        preprocessed = cleansing_special(preprocessed)
        
        # 명사만 추출하기
        preprocessed_news = ' '.join(list(set(mecab.nouns(preprocessed))))
        
        # 문장 분리해서 사용하는 방법
        # preprocessed_news = ' '.join(kss.split_sentences(preprocessed))
        
        print(preprocessed_news)
        all_sentences.append(preprocessed_news)

--- 문서 0 번 ---
개성관광 욕 암울 예산 기초자치단체 결정 면적 때 고난 달성 경협 미증유 사람 약점 바다 쇠 성공 최대 듯 출발 청사진 당위 지 구체 대통령 운행 위기 지혜 정상 나열 미국 조기 선거 남북한 증오 기반 갈등 기억 자질 과제 시련 암투 화두 기축 정치력 점 실행 것 열차 단절 소망 정치색 때문 어제 당국 몸 추진력 희망 자신 짐 자생력 조화 파악 퇴행 인구 불씨 공유 군 정과 피 년 인맥 시대 구축 후보 단추 슬기 유념 부여 뒤 도시 건국 기회비용 단체 정치 도정 태양 경제 인재 회한 땅 행정 변화 동계 간 발휘 회생 자본 우리 지역 햇살 모색 올림픽 번지 대비 역량 청산 날 북 의 문제 목적 새해 동해 지난해 절망 국내 전력 직무 이것 도민 여건 한국 민 오바마 금강산 음모 육 적재적소 련 번 발전 단체장 중요 한미 질주 과정 강원도 동기 평창 도 핵 원년 속 지방 가치 해결 선진국 전환점 능력 포함 바람 추진 글로벌 화해 남북 국민 휘하 집행 도전 후 유치 낭비성 불신 중단 인사 관계 시간 좌절 떼 대결 한뜻 공감대 취임 행정력 개성 방법 외교 해다 근거 일 무엇 생명력 책임 현상 다음 미래 꿈 배치 열쇠 그동안 경기 고유 변수 업그레이드 사무소 공직자 아침 정부 이 올해 흑인 극대 관행 통일 인원 얼마 성향 대화 협의 시 처음 기대 다이 민족 평화 방향 현안 성과 자치 역사 한반도 등 광채 저력 경의선 유능 몫 활력 도약 정책 폐쇄 활용 축년 국익 틀 코드 통행 표출 바탕 논리 생산 발굴 기 기업 정립 마음 극복 단계 국호 수 혼란
--- 문서 1 번 ---
육회 증원 수동 핫 초석 메달 나무 향상 절차 질 반영 모두 선수 준수 안 삶 제공 라인 적극 도종 활체 영광 창단 일조 체전 정산 쾌거 보람 이사 역할 노인 갈등 기축 임직원 가능 것 내실 김흥수 북경 자년 복지 개최 소 희망 교육청 조화 활동 노력 과시 사업 도내 도체 년 구축 혼신 운영 계축 뒤 기관 협의회 단체 인센티브 참여 성숙 터전 폭 출범 서비스 정기 인과 회의 

### Scikit-learn을 사용한 TF-IDF

- 한글자 단어 제외
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
- Useful option: tokenizer, stop_words



In [64]:
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

In [65]:
print(len(all_sentences))

20


In [66]:
print(' '.join(all_sentences))

개성관광 욕 암울 예산 기초자치단체 결정 면적 때 고난 달성 경협 미증유 사람 약점 바다 쇠 성공 최대 듯 출발 청사진 당위 지 구체 대통령 운행 위기 지혜 정상 나열 미국 조기 선거 남북한 증오 기반 갈등 기억 자질 과제 시련 암투 화두 기축 정치력 점 실행 것 열차 단절 소망 정치색 때문 어제 당국 몸 추진력 희망 자신 짐 자생력 조화 파악 퇴행 인구 불씨 공유 군 정과 피 년 인맥 시대 구축 후보 단추 슬기 유념 부여 뒤 도시 건국 기회비용 단체 정치 도정 태양 경제 인재 회한 땅 행정 변화 동계 간 발휘 회생 자본 우리 지역 햇살 모색 올림픽 번지 대비 역량 청산 날 북 의 문제 목적 새해 동해 지난해 절망 국내 전력 직무 이것 도민 여건 한국 민 오바마 금강산 음모 육 적재적소 련 번 발전 단체장 중요 한미 질주 과정 강원도 동기 평창 도 핵 원년 속 지방 가치 해결 선진국 전환점 능력 포함 바람 추진 글로벌 화해 남북 국민 휘하 집행 도전 후 유치 낭비성 불신 중단 인사 관계 시간 좌절 떼 대결 한뜻 공감대 취임 행정력 개성 방법 외교 해다 근거 일 무엇 생명력 책임 현상 다음 미래 꿈 배치 열쇠 그동안 경기 고유 변수 업그레이드 사무소 공직자 아침 정부 이 올해 흑인 극대 관행 통일 인원 얼마 성향 대화 협의 시 처음 기대 다이 민족 평화 방향 현안 성과 자치 역사 한반도 등 광채 저력 경의선 유능 몫 활력 도약 정책 폐쇄 활용 축년 국익 틀 코드 통행 표출 바탕 논리 생산 발굴 기 기업 정립 마음 극복 단계 국호 수 혼란 육회 증원 수동 핫 초석 메달 나무 향상 절차 질 반영 모두 선수 준수 안 삶 제공 라인 적극 도종 활체 영광 창단 일조 체전 정산 쾌거 보람 이사 역할 노인 갈등 기축 임직원 가능 것 내실 김흥수 북경 자년 복지 개최 소 희망 교육청 조화 활동 노력 과시 사업 도내 도체 년 구축 혼신 운영 계축 뒤 기관 협의회 단체 인센티브 참여 성숙 터전 폭 출범 서비스 정기 인과 회의 경제 체육회 년차 동물 애인 보조 발휘 간 공조 도출 

In [68]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(all_sentences)

In [73]:
word2id = defaultdict(lambda : 0)
for idx, feature in enumerate(tfidf_vectorizer.get_feature_names()):
    word2id[feature] = idx

In [74]:
word2id

defaultdict(<function __main__.<lambda>()>,
            {'가격': 0,
             '가격대': 1,
             '가계': 2,
             '가계부': 3,
             '가공': 4,
             '가급적': 5,
             '가늠': 6,
             '가능': 7,
             '가닥': 8,
             '가동': 9,
             '가락동': 10,
             '가량': 11,
             '가마터': 12,
             '가뭄': 13,
             '가방': 14,
             '가속도': 15,
             '가습기': 16,
             '가시': 17,
             '가시화': 18,
             '가용': 19,
             '가운데': 20,
             '가을': 21,
             '가입': 22,
             '가전제품': 23,
             '가정': 24,
             '가족': 25,
             '가지': 26,
             '가치': 27,
             '가치관': 28,
             '각계': 29,
             '각계각층': 30,
             '각광': 31,
             '각급': 32,
             '각오': 33,
             '각종': 34,
             '간담회': 35,
             '간염': 36,
             '간직': 37,
             '갈등': 38,
             '갈색': 39,
             '감독원': 40,
       

In [75]:
tfidf_vectorizer.vocabulary_

{'개성관광': 77,
 '암울': 1343,
 '예산': 1477,
 '기초자치단체': 376,
 '결정': 122,
 '면적': 721,
 '고난': 162,
 '달성': 514,
 '경협': 146,
 '미증유': 789,
 '사람': 1017,
 '약점': 1359,
 '바다': 811,
 '성공': 1135,
 '최대': 2211,
 '출발': 2252,
 '청사진': 2176,
 '당위': 527,
 '구체': 278,
 '대통령': 565,
 '운행': 1559,
 '위기': 1582,
 '지혜': 2089,
 '정상': 1919,
 '나열': 409,
 '미국': 779,
 '조기': 1957,
 '선거': 1111,
 '남북한': 420,
 '증오': 2043,
 '기반': 355,
 '갈등': 38,
 '기억': 362,
 '자질': 1796,
 '과제': 229,
 '시련': 1256,
 '암투': 1344,
 '화두': 2563,
 '기축': 377,
 '정치력': 1935,
 '실행': 1311,
 '열차': 1454,
 '단절': 505,
 '소망': 1170,
 '정치색': 1936,
 '때문': 654,
 '어제': 1377,
 '당국': 519,
 '추진력': 2240,
 '희망': 2629,
 '자신': 1785,
 '자생력': 1783,
 '조화': 1975,
 '파악': 2359,
 '퇴행': 2331,
 '인구': 1708,
 '불씨': 988,
 '공유': 201,
 '정과': 1902,
 '인맥': 1714,
 '시대': 1254,
 '구축': 279,
 '후보': 2618,
 '단추': 510,
 '슬기': 1242,
 '유념': 1599,
 '부여': 953,
 '도시': 590,
 '건국': 97,
 '기회비용': 380,
 '단체': 508,
 '정치': 1934,
 '도정': 600,
 '태양': 2303,
 '경제': 138,
 '인재': 1719,
 '회한': 2610,
 '행정': 2509,
 '변화': 

In [76]:
tfidf_matrix.shape

(20, 2630)

In [77]:
with open(os.path.join(data_path, 'news_sample.txt'), 'r', encoding='utf-8') as f:
    for idx, line in enumerate(f.readlines()):
        print(f"--- 문서 {idx} 번 ---")
        print(line[:200])

--- 문서 0 번 ---
새로운 희망 공유하고 새 출발하자 기축년(己丑年) 새해다.새로운 희망을 공유하고 새 출발을 다짐할 때다.짙푸른 동해바다를 뚫고 이글거리는 광채를 뿜으며 힘차게 솟아오르는 태양을 안는다. 어제와 다른 이 아침의 햇살을 받으며 왜 간절한 소망이 없겠는가.지난날의 갈등과 혼란 회한을 뒤로하고 새로 일어서야 한다.올해는 불신과 증오, 암투와 음모, 좌절과 절망 등
--- 문서 1 번 ---
<새해 이렇게 하겠습니다>스포츠 "최일선 현장에서 진솔한 소리 듣겠다" 최동용 도체육회 사무처장 지도자와 선수 등 체육의 최일선 현장에서 진솔한 소리를 더 많이 듣겠다. 강원체육이 지금까지 잘 할 수 있었던 것은 운동장 체육관 등 현장에서 지도자와 선수들이 묵묵히 운동한 결과다. 애로사항 등을 청취 체육정책에 반영하는 소통의 역할에 충실하겠다. 도청·도교육
--- 문서 2 번 ---
<새해 이렇게 하겠습니다>경제 '저탄소 녹색성장' 도모 전수산 도상공회의소협의회장 강원경제는 경제성장에 필요한 입지여건이나 기반조성이 타 지역보다 열악하고 최근 세계경제 침체의 영향으로 많은 어려움을 겪고 있다. 그러나 최근 수도권과의 교통망이 확충되면서 중앙 및 지방정부의 지역전략산업 육성 등 유리한 발전여건을 갖춰 나가고 있다. 정부의 5+2광역경제권 
--- 문서 3 번 ---
<새해 이렇게 하겠습니다>문화 이대근 강원도문화원연합회장 “지속적 향토사 연구로 우리 역사 되살리겠다” 어김없이 새로운 한 해가 밝았다. 지난해는 많은 시련을 안겨줬다. 선진국의 문턱에서 넘지 못하고 머뭇거리며 지나온 10년 세월이 원망스러운 가운데 이번에는 미국발 경제한파가 발목을 잡고 있다. 우리나라는 국민소득에서 보면 전 세계에서 24번째 국가에 머물
--- 문서 4 번 ---
<새해 이렇게 하겠습니다>속초 고성 양양 ■속초시 환동해 수출입항 메카 거듭 의정 옴부즈맨 제도 활성화 채용생 속초시장은 “올해는 민선4기를 사실상 마무리 짓는 해로 지금까지 성과를 바탕으로 성실한 마무리와 함께 경제

In [18]:
for idx, sent in enumerate(all_sentences):
    print(f"--- 문서 {idx} 번 ---")
    results = [(token, tfidf_matrix[idx, word2id[token]]) for token in sent.split()]
    results.sort(key = lambda element : element[1], reverse=True)
    print(results)
    print("\n")

--- 문서 0 번 ---
[('개성관광', 0.08316005260563081), ('암울', 0.08316005260563081), ('기초자치단체', 0.08316005260563081), ('경협', 0.08316005260563081), ('미증유', 0.08316005260563081), ('약점', 0.08316005260563081), ('청사진', 0.08316005260563081), ('당위', 0.08316005260563081), ('운행', 0.08316005260563081), ('나열', 0.08316005260563081), ('선거', 0.08316005260563081), ('남북한', 0.08316005260563081), ('증오', 0.08316005260563081), ('기억', 0.08316005260563081), ('자질', 0.08316005260563081), ('암투', 0.08316005260563081), ('화두', 0.08316005260563081), ('정치력', 0.08316005260563081), ('열차', 0.08316005260563081), ('단절', 0.08316005260563081), ('소망', 0.08316005260563081), ('정치색', 0.08316005260563081), ('어제', 0.08316005260563081), ('당국', 0.08316005260563081), ('추진력', 0.08316005260563081), ('퇴행', 0.08316005260563081), ('불씨', 0.08316005260563081), ('정과', 0.08316005260563081), ('인맥', 0.08316005260563081), ('유념', 0.08316005260563081), ('부여', 0.08316005260563081), ('건국', 0.08316005260563081), ('기회비용', 0.08316005260563081), ('태양', 0.0831