# Classification of text documents using sparse features

This is an example showing how scikit-learn can be used to classify documents
by topics using a bag-of-words approach. This example uses a scipy.sparse
matrix to store the features and demonstrates various classifiers that can
efficiently handle sparse matrices.


In [1]:
# Author: Peter Prettenhofer <peter.prettenhofer@gmail.com>
#         Olivier Grisel <olivier.grisel@ensta.org>
#         Mathieu Blondel <mathieu@mblondel.org>
#         Lars Buitinck
# License: BSD 3 clause

from __future__ import print_function
import pandas as pd
import logging
import numpy as np
import nltk.stem
from optparse import OptionParser
import sys, copy
from time import time
from random import randint
#import matplotlib.pyplot as plt
from IPython.display import display, HTML
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_rcv1

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_selection import SelectFromModel
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.linear_model import RidgeClassifier
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.svm import SVR
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils.extmath import density
from sklearn import metrics
from sklearn.model_selection import train_test_split

In [2]:
def apk_per_class(clf, actual, predicted, k=5):
    """
    Computes the average precision at k.
    This function computes the average prescision at k between two lists of
    items per each class
    Parameters
    ----------
    actual : list
             A list of elements that are to be predicted (order doesn't matter)
    predicted : multi list
                A list of predicted elements (order does matter)
    k : int, optional
        The maximum number of predicted elements
    Returns
    -------
    score : double
            The average precision at k over the input lists
    """
    class_score = {}
    micro_correct = 0.0
    length = 0
    global ee_correct,ee_tested
    global cumulative_class_score
    ee_correct = 0
    ee_tested = 0
    if len(actual) == len(predicted):		

        for	i in range(len(actual)):
            if actual[i] not in class_score:
                class_score[actual[i]] = [0.0, 0.0] # correct_score, length
            if actual[i] not in cumulative_class_score:
                cumulative_class_score[actual[i]] = [0.0, 0.0] # correct_score, length
                
            well_classified = False
            if(guess[i] is not ""):
                predicted[i][0] = guess[i]    
            for pred in predicted[i]:
                if actual[i] in pred:
                    #if(randint(0, 500) == 50):
                    #	print("act: -" , actual[i], "-pred:", pred,":")
                    class_score[actual[i]][0] += 1.0
                    micro_correct += 1.0
                    well_classified = True
            if(type(actual[i]) is list):
                print("!! actual[",i,"] is ",actual[i])
            if(actual[i] == CODE):
                print(well_classified , "docID:",i,"prediction of ",CODE," was:",predicted[i])
                fail_list_for_code.append(i)
                #print(test_dtm[i].toarray()[0])
                #for j,word_rat in enumerate(test_dtm[i].toarray()[0]):
                #	if(word_rat>0.2):
                #		print(word_rat)
            class_score[actual[i]][1] += 1.0
            length+=1

    avg_acc = 0.0
    
    for cl in class_score.keys():
        avg = class_score[cl][0]/class_score[cl][1]
        if(avg<0.6 and count[cl]-class_score[cl][1] > class_score[cl][1]):
            print("!Low precision :! #Correct:", class_score[cl][0], "#Tested:", class_score[cl][1],"#Train",count[cl]-class_score[cl][1])
            fail_list.append(cl)
        print ("\t", cl, "Acc.:", avg, "Correct:", class_score[cl][0], "Tested:", class_score[cl][1],"#Train",count[cl]-class_score[cl][1])
        if cl[0] =='E':
            ee_correct += class_score[cl][0]
            ee_tested += class_score[cl][1]
        avg_acc +=avg
        cumulative_class_score[cl][0] += class_score[cl][0]
        cumulative_class_score[cl][1] += class_score[cl][1]
        

    print ('Total Test Examples', length, "\nMicro Acc.(item level)", micro_correct/length)
    print('Average of EE',ee_correct/ee_tested) 
    global cumulative_micro_avg
    cumulative_micro_avg += micro_correct/length
    return avg_acc/len(class_score)

###############################################################################
# Benchmark classifiers
def benchmark(clf):
    print('_' * 80)
    print("Training: ")
    print(clf)
    t0 = time()
    clf.fit(X_train, y_train)
    train_time = time() - t0
    print("train time: %0.3fs" % train_time)

    t0 = time()

    # Top 1 
    pred = clf.predict(X_test)    
    probs = clf.predict_proba(X_test)

    for topk in range(5,6):
        best_n_label = transform_label(clf, probs, topk)

        test_time = time() - t0
        print("test time:  %0.3fs" % test_time)

        pred = best_n_label
        print ("Top-", topk)
        print ("Macro Acc.(class level)", apk_per_class(clf, y_test, best_n_label, topk), "\n\n")

In [3]:
def transform_label(clf, prob, topk):
    global target_names

    rst_arr = np.empty( (len(prob), topk), dtype=object) 
    for i in range(len(prob)):
        s_items = np.argsort(prob[i])[-topk:]

        for j in range(len(s_items)):
            rst_arr[i][j] = clf.classes_[s_items[j]]


    return rst_arr
def apk(actual, predicted, k=5):
    """
    Computes the average precision at k.
    This function computes the average prescision at k between two lists of
    items.
    Parameters
    ----------
    actual : list
             A list of elements that are to be predicted (order doesn't matter)
    predicted : multi list
                A list of predicted elements (order does matter)
    k : int, optional
        The maximum number of predicted elements
    Returns
    -------
    score : double
            The average precision at k over the input lists
    """

    score = 0.0
    num_hits = 0.0
    if len(actual) == len(predicted):
        for	i in range(len(actual)):
            for pred in predicted[i]:
                if actual[i] in pred:
                    score += 1

            if not actual:
                return 0.0

    return score / len(actual)

In [4]:

###############################################################################
# Load some categories from the training set
CODE = "LC04"
categories =  [x for x in open('KSCC_sample_data_170206_Codelist.dat','r').read().split('\n') if len(x) > 0]
	
remove = ()

print("Loading NSCC  dataset for categories:")
print(categories if categories else "all")
print("Category size",len(categories))
target_names = categories #data_train.target_names
	
#data_train = open('KSSC_sample_data_170206_Train.dat').readlines()
#data_test = open('KSSC_sample_data_170206_Test.dat').readlines()
data_train = open('rev_utf8_train.dat').readlines()
#all_data = open('rev_reserved_new_data_all.dat').readlines()
all_data = open('kkma_koreanonly_withsentencebreaker_2cols.dat').readlines()
#data_test = open('rev_utf8_test.dat').readlines()
data_test = open("rev_utf8_test.dat").readlines()
ENCODING = 'utf-8'
data_train_data, data_test_data = [], []
y_train, y_test = [], []
all_x = []
count = {}
all_y = []

#read all data    
for i,line in enumerate(all_data):
    items = line.split('\t')
    if len(items) == 2:
        if items[0][0:2] != 'EE':
            continue
        items[1] = items[1].split('%%') #name + ' %% ' + kor_kywd + ' %% ' + goal + ' %% ' + abstract + ' %% ' + efct
        occur_many_times = ""
        occur_many_times += items[1][0]*1 + " "
        occur_many_times += items[1][1]*1 + " "
        items[1] =occur_many_times + ' '.join(items[1][2:])
        all_x.append(items[1].decode(ENCODING, 'ignore'))
        #if(items[0] == CODE):
        #    print(line)
        all_y.append(items[0])
        if not count.has_key(items[0]):
            count[items[0]] = 0
        count[items[0]] += 1
    else:
        print("ERROR in trai n",i,len(items))
"""      
for i,line in enumerate(data_train):
    items = line.split('\t')
    if len(items) == 2:
        data_train_data.append(items[1].decode(ENCODING, 'ignore'))
        y_train.append(items[0])
        if not count.has_key(items[0]):
            count[items[0]] = 0
        count[items[0]] += 1
    else:
        print("ERROR in train",i,len(items))
for i,line in enumerate(data_test):
    items = line.split('\t')
    if len(items) == 2:
        data_test_data.append(items[1].decode(ENCODING, 'ignore'))
        y_test.append(items[0])
        if not count.has_key(items[0]):
            count[items[0]] = 0
        count[items[0]] += 1
    else:
        print("ERROR in test",i,len(items))
"""

5

Loading NSCC  dataset for categories:
['ED10', 'ED11', 'EI02', 'EI03', 'EI06', 'EI07', 'EI05', 'EI08', 'EH06', 'EF99', 'EB01', 'EA09', 'EE11', 'EE10', 'EE13', 'EE12', 'EI99', 'EE14', 'EA04', 'EA05', 'ED07', 'ED06', 'ED05', 'ED04', 'ED03', 'ED01', 'EE99', 'ED08', 'EA02', 'EH10', 'EI11', 'EI12', 'EA14', 'EA11', 'EA10', 'EA13', 'EA07', 'EF05', 'EF06', 'ED99', 'EE08', 'EE09', 'EE06', 'EE07', 'EE04', 'EE05', 'EE02', 'EE03', 'EE01', 'SB99', 'ND07', 'OA04', 'LC06', 'SI04', 'SH07']
Category size 55


5

In [15]:
guess = 80000*[""]
#divides data to train&test with 9:1 ratio
def divide_data(rs):    
    global data_train_data,data_test_data,y_train,y_test,guess
    data_train_data,data_test_data,y_train,y_test = train_test_split(all_x,all_y,random_state =rs, train_size = 0.9)
    print (len(data_train_data), len(data_test_data))
    print('data loaded')
    guess = 80000*[""]
    #data_train_data,data_test_data = data_test_data,data_train_data
    #y_test,y_train=y_train,y_test
    #data_train_data = data_test_data
    #y_train = y_test


In [12]:
# Add Word Embedding (Word Embedding, Topic Embedding, Topic-Event Embedding) Features
vectorizer,X_test,X_train = 0,0,0
def vectorize():
    print("Extracting features from the training data using a sparse vectorizer")
    my_stop_words = [np.unicode(x.strip(), 'utf-8','ignore') for x in open('kor_stop_word.txt', 'r').read().split('\n')]
    global vectorizer,X_test,X_train

    vectorizer = TfidfVectorizer(max_df=0.5,stop_words=my_stop_words,max_features = 100000,
                                 min_df=3,ngram_range=(1,1))
    #vectorizer = StemmedTfidfVectorizer(stop_words=my_stop_words,max_df=0.5,max_features = 50000,min_df=3)    
    X_train = vectorizer.fit_transform(data_train_data)
    print("n_samples: %d, n_features: %d" % X_train.shape)
    print("Extracting features from the test data using the same vectorizer")
    X_test = vectorizer.transform(data_test_data)
    print("n_samples: %d, n_features: %d" % X_test.shape)
    # mapping from integer feature name to original token string

In [13]:
#results = []
# Train SGD model
accumulated_fail_list = {}
TRIAL_SIZE = 3
RANDOM_STATE_START = 5
cumulative_micro_avg = 0
ee_correct = 0
ee_tested = 0
cumulative_class_score = {}
CODE = 'EE14'
for t,trial in enumerate(range(RANDOM_STATE_START,RANDOM_STATE_START + TRIAL_SIZE)):
    print("Trial:",t,"R_s",trial)
    divide_data(trial)
    vectorize()
    feature_names = vectorizer.get_feature_names()
    feature_names = np.asarray(feature_names)
    fail_list = []
    fail_list_for_code = []
    cumulative_class_score = {}
    suggested_n_iter = np.ceil(10**6/len(data_train_data))
    clf = SGDClassifier(loss='log', alpha=.0001, n_iter=50, penalty="l2")
    benchmark(clf)
    for x in fail_list:
        if not accumulated_fail_list.has_key(x):
            accumulated_fail_list[x] = 0
        accumulated_fail_list[x] +=1
    #print(fail_list)
    for x in accumulated_fail_list:
        if accumulated_fail_list[x] == TRIAL_SIZE:
            print(x,accumulated_fail_list[x])
print('Cumulative',cumulative_micro_avg/TRIAL_SIZE)

Trial: 0 R_s 5
8832 982
data loaded
Extracting features from the training data using a sparse vectorizer
n_samples: 8832, n_features: 25473
Extracting features from the test data using the same vectorizer
n_samples: 982, n_features: 25473
________________________________________________________________________________
Training: 
SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='log', n_iter=50, n_jobs=1,
       penalty='l2', power_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False)
train time: 3.668s
test time:  0.016s
Top- 5
True docID: 22 prediction of  EE14  was: ['EE01' 'EE11' 'EE14' 'EE99' 'EE02']
False docID: 33 prediction of  EE14  was: ['EE04' 'EE99' 'EE01' 'EE09' 'EE06']
False docID: 104 prediction of  EE14  was: ['EE02' 'EE08' 'EE10' 'EE09' 'EE03']
False docID: 228 prediction of  EE14  was: ['EE13' 'EE06' 'EE99' 'EE04' 'EE09']
True docID: 

In [38]:
statistics = open('statistics_2ndtest.txt','w')
statistics.write('\t'.join(['CODE','ALL','TRAIN','TEST','CORRECT','correct%'])+'\n')

for x in count:
    a_row = [x,count[x],count[x]-cumulative_class_score[x][1],cumulative_class_score[x][1],cumulative_class_score[x][0],cumulative_class_score[x][0]/cumulative_class_score[x][1]]#code,train,tested,correct
    for i in range(len(a_row)):
        a_row[i] = str(a_row[i])
    statistics.write('\t'.join(a_row)+'\n')
statistics.close()

In [57]:
for x in accumulated_fail_list:
        if accumulated_fail_list[x] >= TRIAL_SIZE -2:
            print(x,accumulated_fail_list[x])

EE14 2


In [58]:
for x in cumulative_class_score:
    if(x[0] == "E"):
        if(cumulative_class_score[x][0]/cumulative_class_score[x][1]<0.7):
            print(x,cumulative_class_score[x],count[x]*TRIAL_SIZE)

EE14 [6.0, 13.0] 387
EE08 [14.0, 23.0] 696


In [1]:
out = file("features.txt","w")

for x in feature_names:
    out.write(x.encode('utf-8','ignore')+"\n")
out.close()

NameError: name 'feature_names' is not defined

In [60]:
#class index of EE02 is 34
#class index of LC06 is 94
#class index of EE99 is 47
#class index of EA10 is 9 
#class index of EF05 is 50 
#
CODE_INDEX = clf.classes_.tolist().index('EE14')
CODE_INDEX

13

In [62]:
#deceiving category? EE02?
#Powerful features of EE02, the biggest category
INDEX_BLACK = clf.classes_.tolist().index('EE02')
black_list = []
print(clf.classes_[INDEX_BLACK])
for i,x in enumerate(vectorizer.get_feature_names()):
    if(3>clf.coef_[INDEX_BLACK][i]>1):
        print(clf.coef_[INDEX_BLACK][i],x)
        black_list.append(x)


EE02
1.14282592455 app
1.35856181444 cloud
1.56298887264 embedded
1.00810311453 image
1.02605625006 multicore
1.08067565512 music
2.3271957126 platform
1.20196970714 rendering
1.0364109946 simulation
1.02092016285 so
2.79176164434 software
2.47863959191 sw
1.32141350468 tech
1.13308878661 tracking
2.06660542952 web
1.33178010219 강화
1.50167551358 개발자
1.05606228776 결제
1.55986971754 고객
1.29020565052 공유
2.09518744953 관리
1.24088950893 관리자
1.17888577906 교사
1.18943007222 구매
1.7415797119 기능
1.10779759143 기록
1.45299159421 내역
1.16071690455 다운로드
1.00101769818 단위
1.07040836642 당사
1.27274768745 데이타
1.59657845701 데이터
1.77572160479 디드
1.14986143742 렌더링
1.23182666525 로그
1.30493359151 마케팅
2.348930167 모바일
1.29357447527 문서
1.32225690476 병렬
1.50676687555 보유
1.01439895341 사이트
1.12402702271 생성
1.13137792521 서버
2.29382990353 소프트
2.32077474088 소프트웨어
2.47716902662 솔루션
1.61772515009 실시간
1.15766332857 실행
1.03876081429 언어
1.97243565374 엔진
1.15787020202 오픈
1.56851799932 온라인
1.18242318161 운영체제
2.16268366543 웨어
1.68

In [64]:
white_list = []
for i,x in enumerate(vectorizer.get_feature_names()):
    if(clf.coef_[CODE_INDEX][i]>1):
        print(clf.coef_[CODE_INDEX][i],x)
        white_list.append(x)
    

1.85820428818 개량
3.44732940234 국방
1.06609625693 모델
1.99463392068 모의
1.22750711579 무선메쉬백
1.16471629469 방해
1.70504379588 분석모델
1.01187581621 비기상
1.67498171545 성능개량
1.11475319915 연합
2.81311470684 전술
1.56024056575 지상
1.0436526559 지휘
1.0029989774 체계
1.40958937748 통신미들웨어
1.16612003247 트레드밀
1.07151674659 특화연구센터
1.39904352593 특화연구실
1.77380032494 합동


In [67]:

print(y_test[fail_list_for_code[0]],data_test_data[fail_list_for_code[0]])
fail_data = []
for x in fail_list_for_code:
    fail_data.append(data_test_data[x])

EE14 tactical data link , n cw 국방 전술 전술통신 통신 기술 연구 전술데이터링크 데이터 링크 데이터링크 합동 완성 차기 차기위성 위성 구축 네트워크 핵심 개발 분야 이론 실무 겸비 전문 인력 양성 인지 기반 주파수 관리 방어 설계 안전 그룹 보안 전송 전투 전투무선망 무선망 효과 효과적인 적인 무선 전송제어 제어 재 재밍 밍 환경 신뢰성 향상 재 재밍 극복 망 생존 유지 체계 그룹간 간 운용 지상 지상망 연동 라 라우팅 우 팅 전략 보장 간 협업 규칙 매칭 시스템 간섭 영향 최소화 그룹협력통신 협력 지원 전술네트워크 자원 자원관리 프로 프로토콜 토 콜 협력기반 확보 스마트 산업 기여도 국방분야 기대 파급 파급효과 전장 전장공간 공간 정보 정보우위 우위 실시간 교전 교전능력 능력 핵심요소 요소 육 해 공군 합동 합동작전 작전 향후 센서 무기 타격 타격체계 적용 군수 군수물자 물자 수출 기여 수 해외 수입 막대 대체 취득 추후 우주 국방시대 시대 요구 기술요소 응용 국가 경쟁력 증대 이바지 가능 차세대 한국군 무기체계 첨단 가속 민간 공공 공공분야 전자 관련 핵심기술 군수산업 부가 부가가치 가치 이동 이동통신 4 5 등 상용 원천 국제 표준화 주도 재난 경보 구조 구조체계 적용가능 상황 상황공유 공유 절약 인명 인명피해 피해 요소기술 항공기 헬리콥터 인공 인공위성 다양 기업 산업화 창출 선진국 의존도 낮춤 경제적 민간분야 기대효과 현재 미군 변경 정도 기술력 사용 원천기술료 기술료 지급 상태 독자적 이용 통해 뿐 국방연구개발비 개발비 절감 부족 국방비 기초 인터넷 인터넷망 구성 중추적 역할 담당 동시 통신기술 국가경쟁력 독자 독자적인 동남아 지역 군 천문학 국가적 예상 기술인 앞 한국 주도적 기술적 성능 문제 해결 전술통신환경 최적 변조 기법 단말 전송성능 전술정보 교환 효율성 신



In [68]:
v = vectorizer.transform(fail_data)
v_array = v.toarray()
important_word = 80000*[0]
buffer = 80000*[0]
for i,doc in enumerate(fail_data):
    print(doc)
    #print(v.toarray()[i])
    #rev_list =  reversed(np.argsort(v.toarray()[i]))
    for j in range(len(v_array[i])):
        if(v_array[i][j]>0.0):
     #       print(index,feature_names[index])
            buffer[j] = 1
        
    for j in range(len(buffer)):
        if buffer[j] > 0:
            important_word[j] += 1
            buffer[j] = 0
            


tactical data link , n cw 국방 전술 전술통신 통신 기술 연구 전술데이터링크 데이터 링크 데이터링크 합동 완성 차기 차기위성 위성 구축 네트워크 핵심 개발 분야 이론 실무 겸비 전문 인력 양성 인지 기반 주파수 관리 방어 설계 안전 그룹 보안 전송 전투 전투무선망 무선망 효과 효과적인 적인 무선 전송제어 제어 재 재밍 밍 환경 신뢰성 향상 재 재밍 극복 망 생존 유지 체계 그룹간 간 운용 지상 지상망 연동 라 라우팅 우 팅 전략 보장 간 협업 규칙 매칭 시스템 간섭 영향 최소화 그룹협력통신 협력 지원 전술네트워크 자원 자원관리 프로 프로토콜 토 콜 협력기반 확보 스마트 산업 기여도 국방분야 기대 파급 파급효과 전장 전장공간 공간 정보 정보우위 우위 실시간 교전 교전능력 능력 핵심요소 요소 육 해 공군 합동 합동작전 작전 향후 센서 무기 타격 타격체계 적용 군수 군수물자 물자 수출 기여 수 해외 수입 막대 대체 취득 추후 우주 국방시대 시대 요구 기술요소 응용 국가 경쟁력 증대 이바지 가능 차세대 한국군 무기체계 첨단 가속 민간 공공 공공분야 전자 관련 핵심기술 군수산업 부가 부가가치 가치 이동 이동통신 4 5 등 상용 원천 국제 표준화 주도 재난 경보 구조 구조체계 적용가능 상황 상황공유 공유 절약 인명 인명피해 피해 요소기술 항공기 헬리콥터 인공 인공위성 다양 기업 산업화 창출 선진국 의존도 낮춤 경제적 민간분야 기대효과 현재 미군 변경 정도 기술력 사용 원천기술료 기술료 지급 상태 독자적 이용 통해 뿐 국방연구개발비 개발비 절감 부족 국방비 기초 인터넷 인터넷망 구성 중추적 역할 담당 동시 통신기술 국가경쟁력 독자 독자적인 동남아 지역 군 천문학 국가적 예상 기술인 앞 한국 주도적 기술적 성능 문제 해결 전술통신환경 최적 변조 기법 단말 전송성능 전술정보 교환 효율성 신

ict , realtime monitoring , convergence , logistics , aviation 한국형 군수 군수무인기 무인기 기반 전술 전술군수 융합

In [69]:
#words that appear frequently in our low-quality code
for i,word_id in enumerate(important_word):
    if word_id > 4:
        print(word_id,feature_names[i])

7 구조
8 구축
5 국방
7 네트워크
6 다양
5 데이터
5 무선
5 보안
6 분야
6 사용
8 설계
7 수행
5 실시간
6 응용
8 이용
8 적용
7 전송
5 제어
6 지원
5 채널
6 처리
7 통신
7 확보
5 환경
5 효율적


In [84]:
#print(v)
prob = clf.predict_proba(v)
print(prob.shape)
Max = 0
for i,x in enumerate(prob[0,:]):
    if(x > 0.0001):
#        print(i,x)
        if(x > Max):
            Max = x
            index = i
    
print("Max",Max,index,vectorizer.get_feature_names()[index])
for word in np.argsort(prob):
    print(word,feature_names[word])

(1L, 140L)
Max 0.673850471003 34 acronym
[ 49 127 101   7  17  74 128 121  83  98 125 124 123 106  57 107  76  96
 109   2  23  69 136  95  20  58 132 139  55 126  84  78  80 137 116  90
 134  75  54  19  52  18   6  25 133  16 117 102 110 103  60  53  15  87
 108 120 122 130  86 114 105  13 135  72 100  14  48  21  61  29 118 138
  59   3  66  85  62  63  73 115  99   0   5  64  81 131  91 129  26  88
  92  93 104  56  82  94  67  97  89  22 119  10  51 111  79  12 112  11
   1   8  70  71  27   4  30  28 113  32  36  68  24  65  50  35  39  77
  40  38  31  43  33   9  46  45  42  37  47  41  44  34] [u'addit' u'alm' u'airbag' u'abort' u'acc' u'aesthet' u'alon' u'aliz' u'ag'
 u'aid' u'alloc' u'allianc' u'allerg' u'ajax' u'administr' u'al' u'affect'
 u'ah' u'alarm' u'abbrevi' u'accord' u'advis' u'ambient' u'agricultur'
 u'access' u'admiss' u'alu' u'ami' u'adm' u'alloy' u'age' u'affin'
 u'africa' u'ambigu' u'ali' u'agnat' u'alzheim' u'af' u'adjust' u'accept'
 u'adher' u'acceler' u'abno

In [54]:

table = pd.DataFrame(test_dtm.toarray())
s = pd.Series([45])
problems = pd.DataFrame()
f_names = pd.Series(vectorizer.get_feature_names())
for i,v in enumerate(s):
    problems = problems.append(table.loc[s[i], table.loc[s[i]]>0],ignore_index = True)
vocab = problems.T
vocab['meaning']= f_names[vocab.index]
fn_list = f_names.tolist()
#vocab['meaning']= vocab['meaning'].apply(lambda x: x.encode(encoding='utf-8',errors="ignore"))
vocab = vocab[vocab[0]>0.1]
#display(vocab)

for i,x in enumerate(vocab['meaning']):
    if x in black_list:
        #print("Black L found",i,x)
        print(x)

for i,x in enumerate(vocab['meaning']):
    if x in white_list:
        print("White L found",i,x)
        

base
model
simulator
test
격자
계산
관계식
국방
국토
도움
반사량
비교
시뮬레이터
재질
판독


In [9]:
english_stemmer = nltk.stem.SnowballStemmer('english')
class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer,self).build_analyzer()
        return lambda doc: (
        english_stemmer.stem(w) for w in analyzer(doc))

In [71]:
table = pd.DataFrame(train_dtm.toarray())
s = pd.Series([59,60,61,62,63,64,65])
problems = pd.DataFrame()
f_names = pd.Series(vectorizer.get_feature_names())
for i in range(6):
    problems = problems.append(table.loc[s[i], table.loc[s[i]]>0],ignore_index = True)
vocab = problems.T
vocab['meaning']= f_names[vocab.index]
fn_list = f_names.tolist()
#vocab['meaning']= vocab['meaning'].apply(lambda x: x.encode('utf-8'))
#vocab