## president-speech
https://github.com/brenden17/president-speech/blob/master/president-speech.ipynb

In [59]:
import os
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [60]:
def get_fullpath(filename):
    return os.path.abspath(os.path.join('./data', filename))

def file2df(filename):
    with open(get_fullpath(filename), 'r', encoding='utf-8') as f:
        rawdata = f.read()
        
    data = rawdata.split('\n')
    countvector = CountVectorizer(min_df=1)
    words = countvector.fit_transform(data).toarray()
    features = np.array(countvector.get_feature_names())
    np.clip(words, 0, 1, out=words)
    dist = np.sum(words, axis=0)
    return pd.DataFrame(list(zip(features, dist)), columns=['term', 'count'])

In [67]:
def compare_all():
    address201302 = file2df('park1_noun.txt')
    address201311 = file2df('park2_noun.txt')
    address201401 = file2df('park3_noun.txt')
    address = pd.merge(address201302, address201311, on='term',
                      how='outer',
                      suffixes=('_201302', '_201311')).fillna(0)
    
    address = pd.merge(address, address201401, on='term',
                     how='outer').fillna(0)
    address.rename(columns={'count':'count_201401'}, inplace=True)
    
    address['total'] = address['count_201302'] + address['count_201311'] + address['count_201401']
    address = address.sort_values([('total')], ascending=True)
    for row in address.itertuples():
        print ("['%s', %d, %d, %d, %d]," % (row[1], row[2], row[3], row[4], row[5]))

In [68]:
compare_all()

['최종', 1, 0, 0, 1],
['관광진흥법', 0, 1, 0, 1],
['관리체계', 0, 1, 0, 1],
['관통', 0, 1, 0, 1],
['광장', 0, 1, 0, 1],
['교과과정', 0, 1, 0, 1],
['교육과정', 0, 1, 0, 1],
['교육훈련', 0, 1, 0, 1],
['국가발전', 0, 1, 0, 1],
['국가정보', 0, 1, 0, 1],
['국민행복', 0, 1, 0, 1],
['국정감사', 0, 1, 0, 1],
['국회의원', 0, 1, 0, 1],
['국회의장', 0, 1, 0, 1],
['궁극', 0, 1, 0, 1],
['관광분야', 0, 1, 0, 1],
['규제완화', 0, 1, 0, 1],
['근절', 0, 1, 0, 1],
['기본법', 0, 1, 0, 1],
['기술력', 0, 1, 0, 1],
['기업집단', 0, 1, 0, 1],
['긴장', 0, 1, 0, 1],
['나오길', 0, 1, 0, 1],
['내부거래', 0, 1, 0, 1],
['농식품', 0, 1, 0, 1],
['누리', 0, 1, 0, 1],
['누수', 0, 1, 0, 1],
['당시', 0, 1, 0, 1],
['대변', 0, 1, 0, 1],
['대선', 0, 1, 0, 1],
['대학육성', 0, 1, 0, 1],
['근로', 0, 1, 0, 1],
['관계개선', 0, 1, 0, 1],
['공직기강', 0, 1, 0, 1],
['공장', 0, 1, 0, 1],
['2500', 0, 1, 0, 1],
['2분기', 0, 1, 0, 1],
['3000', 0, 1, 0, 1],
['40', 0, 1, 0, 1],
['500', 0, 1, 0, 1],
['7분기', 0, 1, 0, 1],
['pop', 0, 1, 0, 1],
['soc', 0, 1, 0, 1],
['srx', 0, 1, 0, 1],
['가능성', 0, 1, 0, 1],
['가장', 0, 1, 0, 1],
['가정폭력', 0, 1, 0, 1],
['감회',

In [73]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn import decomposition
from sklearn.metrics.pairwise import euclidean_distances

def file2list(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        rawdata = f.read()
    return rawdata

def init_data():
    files = ['./data/no1_noun.txt',
                './data/no2_noun.txt',
                './data/no3_noun.txt',
                './data/park1_noun.txt',
                './data/park2_noun.txt',
                './data/park3_noun.txt',
            ]
    return map(file2list, files)

def get_tfidf(data):
    vectorizer = CountVectorizer(max_df=10, min_df=2)
    counts = vectorizer.fit_transform(data)
    #print (counts.shape, counts.toarray())
    return TfidfTransformer().fit_transform(counts)

def decompose_by_nmf(debug=True):
    initdata = init_data()
    
    vectorizer = CountVectorizer(max_df=10, min_df=2)
    counts = vectorizer.fit_transform(initdata)
    tfidf = TfidfTransformer().fit_transform(counts)
    
    nmf = decomposition.NMF(n_components=2).fit(tfidf)
    feature_names = vectorizer.get_feature_names()
    
    if debug:
        for topic_idx, topic in enumerate(nmf.components_):
            print ("Topic #%d:" % topic_idx)
            #print (" ".join([str(i) for i in topic.argsort()[:-100:-1]]))
            print (" ".join([feature_names[i] for i in topic.argsort()[:-100:-1]]))
            
    print (euclidean_distances(nmf.components_, tfidf[0, :]))
    print (euclidean_distances(nmf.components_, tfidf[1, :]))
    print (euclidean_distances(nmf.components_, tfidf[2, :]))
    print (euclidean_distances(nmf.components_, tfidf[3, :]))
    print (euclidean_distances(nmf.components_, tfidf[4, :]))
    print (euclidean_distances(nmf.components_, tfidf[5, :]))

In [74]:
decompose_by_nmf()

Topic #0:
국민 우리 평화 동북아 북한 여러분 한반도 시대 세계 역사 정부 사회 문화 신뢰 경제 여러 민국 대한 협력 정치 대화 오늘 나라 활력 존경 도전 번영 올해 진정 과거 위대 마음 미래 남북관계 남북한 노력 저력 문제 비롯 극복 대통령 지속 국제 국가 최선 감사 원칙 지혜 자랑 타협 행복 적극 사람 지난해 안보 과제 기회 어려움 여정 내수 해결 하나 개혁 건강 발전 시작 용기 희망 실행 혼란 수립 기록 회복 고통 중국 분단 동참 로운 계기 정책 추진 청산 하기 농어민 성찰 지역구 전기 우려 바다 민주주의 정치권 안정 변화 수출 정착 성과 자리 환경 이후
Topic #1:
경제 확대 우리 규제 국민 혁신 정부 투자 참여 창조 강화 추진 지원 국회 세계 fta 노력 시장 법안 한국 사업 수출 일자리 해서 투명 제도 도입 여러 민간 변화 문제 해결 관행 중심 전략 내년 통과 활성화 공공기관 전환 창업 지방 분야 확충 지역 발전 모두 청년 성장 적극 행복 문화 투명성 산업 개혁 경영 극복 생각 속도 국가 아이디어 관련 가계부채 고용 개방 기초 내수 제조업 마련 사회 북핵문제 중요 확신 중소기업 재정 규모 국내 창출 경쟁력 비정상 체제 안정 지속 기업 수준 지금 방향 시스템 구축 주택 국제 대비 사회안전 개선 회의 진행 체결 대기업 획기적
[[ 0.62263364]
 [ 1.14336043]]
[[ 0.9520866 ]
 [ 1.10604137]]
[[ 1.28489403]
 [ 0.70303197]]
[[ 1.33120245]
 [ 0.51738691]]
[[ 1.08647149]
 [ 0.70869367]]
[[ 0.58641129]
 [ 1.15594841]]


In [77]:
from sklearn.cluster import KMeans

def clustering_by_knn(debug=True):
    initdata = init_data()
    
    vectorizer = CountVectorizer(max_df=10, min_df=2)
    counts = vectorizer.fit_transform(initdata)
    tfidf = TfidfTransformer().fit_transform(counts)
    km = KMeans(n_clusters=2, init='random')
    km.fit(tfidf)
    print (km.labels_)

In [78]:
clustering_by_knn()

[0 0 1 1 1 0]
