- kss는 한국어 문장 분리 모듈로, 자세한 내용은 [링크](https://pypi.org/project/kss/)를 참고하세요.

In [1]:
!python --version

Python 3.8.5


In [2]:
import os
import kss
import re

### Read dataset
- Github의 data 디렉토리에서 news_sample.txt 파일을 다운받아서 분석에 사용해주세요.

In [3]:
removal_list =  "‘, ’, ◇, ‘, ”,  ’, ', ·, \“, ·, △, ●,  , ■, (, ), \", >>, `, /, -,∼,=,ㆍ<,>, .,?, !,【,】, …, ◆,%"

def cleansing_special(sentence):
    # 특수문자를 전처리를 하는 함수
    sentence = re.sub("[.,\'\"’‘”“!?]", "", sentence)
    sentence = re.sub("[^가-힣0-9a-zA-Z\\s]", " ", sentence)
    sentence = re.sub("\s+", " ", sentence)
    
    sentence = sentence.translate(str.maketrans(removal_list, ' '*len(removal_list)))
    sentence = sentence.strip()
    
    return sentence

def cleansing_numbers(sentence):
    # 숫자를 전처리(delexicalization) 하는 함수    
    sentence = re.sub('[0-9]+', 'NUM', sentence)
    sentence = re.sub('NUM\s+', "NUM", sentence)
    sentence = re.sub('[NUM]+', "NUM", sentence)
    
    return sentence


In [4]:
from konlpy.tag import Kkma
kkma = Kkma()

In [5]:
# 각자 작업 환경에 맞는 경로를 지정해주세요. Google Colab과 Jupyter환경에서 경로가 다를 수 있습니다.
data_path = '../data/'
all_sentences = []
with open(os.path.join(data_path, 'news_sample.txt'), 'r', encoding='utf-8') as f:
  for idx, line in enumerate(f.readlines()):
    print(f"--- 문서 {idx} 번 ---")
    preprocessed = cleansing_numbers(line)
    preprocessed = cleansing_special(preprocessed)
    # 명사만 추출하기
    preprocessed_news = ' '.join(list(set(kkma.nouns(preprocessed))))
    # # 문장 분리해서 사용하는 방법
    # preprocessed_news = ' '.join(kss.split_sentences(preprocessed))
    print(preprocessed_news)
    all_sentences.append(preprocessed_news)

대회 품성 한시적 행정서비스 김 대담 평창 초월 지방자치 종합 마무리 판단 정당공천제가 지방행정단위 예측 변모 국내후보도시 승인 도 가동 성어 비정상 상대 일자리 차지 무의미하다 알펜 발 현실적 싸움 시대 도민 이 운영 국제적 창출 나 도입 수요자 기본적 관리단위 평소 대응책 여건 포부 단점 불우이웃 한국 미국 박진오 구조 건설 제외 고심 기업체 본격 관치시대 기존 조성 성정 회귀 도지사 움직임 문제 하달 저소득 투입 프로젝트 민 속 선정 행정 전이 평창동 경영가로 세계 증가 과도 급 정부 성과여 일정기간 표현 개월여 얘기 기간 접근 입장 방안 원리 불우 집행 안 최선 정서 기록 지사 기업 유치 국내 고무 말씀 시책 앵글 후보 조정 예산 여개로 유일 사회단체 임의 때문 대기업 예의 대처 여 시작 불합리 도민통합 집무실 특별 극복 단일계층화 동물 성질 김진선 천태만 한국정서 시민 상황 금융 시장논리 일원화 관계 동해 자리 상승 소상공인 공천제가 하계올림픽 비상상황 하다 적인 강원 전 입각 국정시책 천혜 정치 도량 시스템 사실 계획 일정부분 기축 투 국토공간전략 경색 상공인 일정 천시 다양 경합 움 소통 폐지 대립 세계금융위기 동계올림픽 주력
--- 문서 6 번 ---
생활서비스 환경도시 가치 정주기반 의원 자생력 해라 지방 각종 사업 발의 약속 노 전략산업단지 농공 분양 사업현장 의회 향상 건강산업 점검 고장 후반기 발 군민 위축 강화 소득증대 이 기기 내일반산업단지 도시 성한 민선 성에 횡 역점 면역의학연구소 반영 허필홍 규호 화 감시 홍천의 노승철 횡성군수 차원 수렴 본격적 위기 그린 홍천군 공업도시 건설 등에 사회복지 기업체 총력 차질 견제 년 조기착공 횡성군 의료기기 공장 대비 소띠 시티 조성 라 윤세종 구현 실현 기회인 환경시설 말 행복 지역 금융위기 최근 규제완화 눈 윤의장 노군수 지방재정 환경 수도권 프로젝트 연구소 의료 동서 행정 메디슨 생활 단지 역사 모두 정주 가속도 문화 내일 활용 산업화 장기적 전략산업 경쟁력 자연 재래시장 로 장 대 화전 

### Scikit-learn을 사용한 TF-IDF

- 한글자 단어 제외
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
- Useful option: tokenizer, stop_words



In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

In [9]:
print(len(all_sentences))

20


In [10]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(all_sentences)

word2id = defaultdict(lambda : 0)
for idx, feature in enumerate(tfidf_vectorizer.get_feature_names()):
    word2id[feature] = idx

In [19]:
tfidf_vectorizer.vocabulary_

{'평화기반': 3702,
 '가치': 43,
 '열차': 2298,
 '책임행정': 3387,
 '자생력': 2775,
 '정치력': 3020,
 '글로벌': 560,
 '지방': 3226,
 '해다도정': 3846,
 '모색': 1164,
 '논리': 755,
 '단절': 837,
 '육로통행': 2545,
 '한반도': 3810,
 '어제': 2178,
 '걷히기를': 188,
 '이룩': 2621,
 '극대화': 553,
 '사무소': 1593,
 '암투': 2135,
 '시대': 1996,
 '주기': 3106,
 '남북한': 697,
 '라도': 1052,
 '도민': 950,
 '전력': 2895,
 '증오': 3205,
 '한미': 3808,
 '도시': 959,
 '사람': 1587,
 '생산': 1720,
 '원년': 2453,
 '청산': 3433,
 '이것': 2608,
 '구체적': 453,
 '인구': 2663,
 '번지': 1385,
 '성공적': 1796,
 '추진력': 3510,
 '자치': 2797,
 '여건': 2208,
 '절망': 2948,
 '선진국': 1769,
 '외교': 2403,
 '출발': 3523,
 '경제회생': 265,
 '발휘': 1348,
 '한국': 3795,
 '미국': 1244,
 '위기': 2485,
 '취임': 3538,
 '지난해': 3218,
 '오바마': 2369,
 '폐쇄': 3709,
 '휘하': 4078,
 '남북관계': 696,
 '광채': 419,
 '당국': 851,
 '소상히': 1874,
 '암울': 2134,
 '소망': 1863,
 '중단': 3163,
 '처음': 3395,
 '올림픽': 2391,
 '대비': 886,
 '정치적': 3022,
 '갈등': 57,
 '평화': 3701,
 '결정': 211,
 '소상': 1872,
 '관행': 412,
 '과정': 383,
 '적재': 2878,
 '단계': 825,
 '다도': 812,
 '지역': 3251,
 '다짐'

In [20]:
tfidf_matrix.shape

(20, 4087)

In [21]:
with open(os.path.join(data_path, 'news_sample.txt'), 'r', encoding='utf-8') as f:
  for idx, line in enumerate(f.readlines()):
    print(f"--- 문서 {idx} 번 ---")
    print(line[:200])

--- 문서 0 번 ---
새로운 희망 공유하고 새 출발하자 기축년(己丑年) 새해다.새로운 희망을 공유하고 새 출발을 다짐할 때다.짙푸른 동해바다를 뚫고 이글거리는 광채를 뿜으며 힘차게 솟아오르는 태양을 안는다. 어제와 다른 이 아침의 햇살을 받으며 왜 간절한 소망이 없겠는가.지난날의 갈등과 혼란 회한을 뒤로하고 새로 일어서야 한다.올해는 불신과 증오, 암투와 음모, 좌절과 절망 등
--- 문서 1 번 ---
<새해 이렇게 하겠습니다>스포츠 "최일선 현장에서 진솔한 소리 듣겠다" 최동용 도체육회 사무처장 지도자와 선수 등 체육의 최일선 현장에서 진솔한 소리를 더 많이 듣겠다. 강원체육이 지금까지 잘 할 수 있었던 것은 운동장 체육관 등 현장에서 지도자와 선수들이 묵묵히 운동한 결과다. 애로사항 등을 청취 체육정책에 반영하는 소통의 역할에 충실하겠다. 도청·도교육
--- 문서 2 번 ---
<새해 이렇게 하겠습니다>경제 '저탄소 녹색성장' 도모 전수산 도상공회의소협의회장 강원경제는 경제성장에 필요한 입지여건이나 기반조성이 타 지역보다 열악하고 최근 세계경제 침체의 영향으로 많은 어려움을 겪고 있다. 그러나 최근 수도권과의 교통망이 확충되면서 중앙 및 지방정부의 지역전략산업 육성 등 유리한 발전여건을 갖춰 나가고 있다. 정부의 5+2광역경제권 
--- 문서 3 번 ---
<새해 이렇게 하겠습니다>문화 이대근 강원도문화원연합회장 “지속적 향토사 연구로 우리 역사 되살리겠다” 어김없이 새로운 한 해가 밝았다. 지난해는 많은 시련을 안겨줬다. 선진국의 문턱에서 넘지 못하고 머뭇거리며 지나온 10년 세월이 원망스러운 가운데 이번에는 미국발 경제한파가 발목을 잡고 있다. 우리나라는 국민소득에서 보면 전 세계에서 24번째 국가에 머물
--- 문서 4 번 ---
<새해 이렇게 하겠습니다>속초 고성 양양 ■속초시 환동해 수출입항 메카 거듭 의정 옴부즈맨 제도 활성화 채용생 속초시장은 “올해는 민선4기를 사실상 마무리 짓는 해로 지금까지 성과를 바탕으로 성실한 마무리와 함께 경제

In [22]:
for idx, sent in enumerate(all_sentences):
    print(f"--- 문서 {idx} 번 ---")
    results = [(token, tfidf_matrix[idx, word2id[token]]) for token in sent.split()]
    results.sort(key = lambda element : element[1], reverse=True)
    print(results)
    print("\n")

068510545040255), ('소모품', 0.068510545040255), ('채혈', 0.068510545040255), ('특성상', 0.068510545040255), ('내시경', 0.068510545040255), ('일체형', 0.068510545040255), ('복강경개복수술', 0.068510545040255), ('시장규모', 0.068510545040255), ('아쉬움', 0.068510545040255), ('인천', 0.068510545040255), ('하수구', 0.068510545040255), ('외부', 0.068510545040255), ('튜브', 0.068510545040255), ('경향', 0.068510545040255), ('메디텍', 0.068510545040255), ('주고객', 0.068510545040255), ('만이', 0.068510545040255), ('국제금융기구', 0.068510545040255), ('염색제품', 0.068510545040255), ('공장장', 0.068510545040255), ('보성메디텍', 0.068510545040255), ('흡수', 0.068510545040255), ('부황', 0.068510545040255), ('경쟁업체', 0.068510545040255), ('전머리', 0.068510545040255), ('코스측', 0.068510545040255), ('남근', 0.068510545040255), ('호평', 0.068510545040255), ('부황기', 0.068510545040255), ('상하수도', 0.068510545040255), ('과일', 0.068510545040255), ('원대', 0.068510545040255), ('생산본부공장장', 0.068510545040255), ('염색', 0.068510545040255), ('경영혁신', 0.06022181775078775), ('기계', 0.06022181775078