
# Classification of text documents using sparse features

This is an example showing how scikit-learn can be used to classify documents
by topics using a bag-of-words approach. This example uses a scipy.sparse
matrix to store the features and demonstrates various classifiers that can
efficiently handle sparse matrices.

In [10]:
# Author: Peter Prettenhofer <peter.prettenhofer@gmail.com>
#		  Olivier Grisel <olivier.grisel@ensta.org>
#		  Mathieu Blondel <mathieu@mblondel.org>
#		  Lars Buitinck
# License: BSD 3 clause

from __future__ import print_function

import logging
import numpy as np
from optparse import OptionParser
import sys, copy
from time import time
#import matplotlib.pyplot as plt

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_selection import SelectFromModel
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.linear_model import RidgeClassifier
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.svm import SVC

from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils.extmath import density
from sklearn import metrics
from sklearn.model_selection import train_test_split

In [27]:
def transform_label(clf, prob, topk):
	rst_arr = np.empty( (len(prob), topk), dtype=object) 
	for i in range(len(prob)):
		s_items = np.argsort(prob[i])[-topk:]
		
		for j in range(len(s_items)):
			rst_arr[i][j] = clf.classes_[s_items[j]]
			
			
	return rst_arr

def apk_per_class(actual, predicted, k=1):
	"""
	Computes the average precision at k.
	This function computes the average prescision at k between two lists of
	items per each class
	Parameters
	----------
	actual : list
			 A list of elements that are to be predicted (order doesn't matter)
	predicted : multi list
				A list of predicted elements (order does matter)
	k : int, optional
		The maximum number of predicted elements
	Returns
	-------
	score : double
			The average precision at k over the input lists
	"""
	class_score = {}
	micro_correct = 0.0
	length = 0

	if len(actual) == len(predicted):		
			
		for	i in range(len(actual)):
			if actual[i] not in class_score:
				class_score[actual[i]] = [0.0, 0.0] # correct_score, length
			well_classified = False
			for pred in predicted[i]:				
					
				if actual[i] in pred:
					class_score[actual[i]][0] += 1.0
					micro_correct += 1.0
					well_classified = True
			if(type(actual[i]) is list):
				print("!! actual[",i,"] is ",actual[i])
			if(actual[i] == CODE):
				print(well_classified , "docID:",i,"prediction of ",CODE," was:",predicted[i])
				fail_list.append(i)
			class_score[actual[i]][1] += 1.0
			length+=1
				
	avg_acc = 0.0 
	for cl in class_score.keys():
		avg = class_score[cl][0]/class_score[cl][1]
		if(avg<0.5 and count[cl]-class_score[cl][1] > class_score[cl][1]):
			print("!Low precision :! #Correct:", class_score[cl][0], "#Tested:", class_score[cl][1],"#Train",count[cl]-class_score[cl][1])
		print ("\t", cl, "Acc.:", avg, "Correct:", class_score[cl][0], "Tested:", class_score[cl][1],"#Train",count[cl]-class_score[cl][1])
		avg_acc +=avg

	print ('Total Test Examples', length, "\nMicro Acc.(item level)", micro_correct/length)
	return avg_acc/len(class_score)

###############################################################################
# Benchmark classifiers
def benchmark(clf):
	print('_' * 80)
	print("Training: ")
	print(clf)
	t0 = time()
	clf.fit(X_train, y_train)
	train_time = time() - t0
	print("train time: %0.3fs" % train_time)

	t0 = time()
	
	# Top 1 
	pred = clf.predict(X_test)	  
	probs = clf.predict_proba(X_test)
	
	for topk in range(5, 6):
		best_n_label = transform_label(clf, probs, topk)
		
		test_time = time() - t0
		print("test time:  %0.3fs" % test_time)

		pred = best_n_label
		print ("Top-", topk)
		print ("Macro Acc.(class level)", apk_per_class(y_test, best_n_label, topk), "\n\n")


In [28]:

##################################################################
### Define train/test/code list files 
#################################################################
#code_list_fn = "./data/KSSC_sample_data_170206_Codelist.dat"
#train_fn = "./data/KSSC_sample_data_170206_Train.dat"
#test_fn = "./data/KSSC_sample_data_170206_Test.dat"

code_list_fn = "NSCC_sample_data_170309_Codelist.dat"
train_fn = "rev_utf8_train_big.dat"
test_fn = "rev_utf8_test_big.dat"
ENCODING = 'utf-8'

###############################################################################
# Load some categories from the training set
categories =  [x for x in open(code_list_fn,'r').read().split('\n') if len(x) > 0]

print("Loading NSCC	 dataset for categories:")
print(categories if categories else "all")
print(len(categories))

data_train = open(train_fn).readlines()
data_test = open(test_fn).readlines()
#all_data = open('rev_reserved_data_all.dat').readlines()
all_data = open('rev_izip_new_data_all.dat')
data_train_data, data_test_data = [], []
y_train, y_test = [], []
all_x, all_y = [], []
count = {}
for cat in categories:
    count[cat] = 0


for line in all_data:
    items = line.split('\t')
    if len(items) == 2:
        all_x.append(items[1].decode(ENCODING, 'ignore'))
        all_y.append(items[0])
        if not count.has_key(items[0]):
            count[items[0]] = 0
        count[items[0]] += 1
    else:
        print('ERROR IN READING')
"""
for line in data_train:
	items = line.split('\t')
	if len(items) == 2:
		data_train_data.append(items[1].decode(ENCODING, 'ignore'))
		y_train.append(items[0])
        count[items[0]] += 1
for line in data_test:
	items = line.split('\t')
	if len(items) == 2:
		data_test_data.append(items[1].decode(ENCODING, 'ignore'))
		y_test.append(items[0])
        count[items[0]] += 1
"""
data_train_data,data_test_data,y_train,y_test = train_test_split(all_x,all_y,random_state =7, train_size = 0.70)
#trash_a,data_test_data,trash_b,y_test = train_test_split(all_x,all_y,random_state =1, train_size = 0.60)
print (len(data_train_data), len(data_test_data))
print('data loaded')
# order of labels in `target_names` can be different from `categories`
target_names = categories #data_train.target_names
guess = 80000*[""]
#for i,line in enumerate(data_test_data):
#    if(u'개선' in line and u'공정' in line and u'관련' in line and u'국내' in line and u'최적' in line  and u'환경' in line):
#        print("Obvious:",CODE,y_test[i])
#        guess[i] = "EH14"

Loading NSCC	 dataset for categories:
['EA99', 'EI02', 'EI03', 'EI01', 'EI06', 'EI07', 'EI04', 'EI05', 'EG08', 'EI08', 'EI09', 'EG09', 'EA08', 'EA09', 'EA02', 'EA03', 'EA01', 'EA06', 'EA07', 'EA04', 'EA05', 'EC10', 'EE99', 'EB08', 'EF99', 'EI11', 'EI10', 'EI12', 'EA15', 'EA14', 'EA11', 'EA10', 'EA13', 'EB99', 'EA12', 'EE08', 'EE09', 'EE06', 'EE07', 'EE04', 'EE05', 'EE02', 'EE03', 'EE01', 'EB01', 'EB03', 'EB02', 'EB05', 'EB04', 'EB07', 'EB06', 'EE11', 'EE10', 'EE13', 'EE12', 'EI99', 'EE14', 'EC08', 'EC09', 'EC01', 'EC02', 'EC03', 'EC04', 'EC05', 'EC06', 'EC07', 'EF05', 'EF04', 'EF06', 'EF01', 'EF03', 'EF02', 'ED10', 'ED11', 'EG04', 'EG05', 'EG06', 'EG07', 'EG01', 'EG02', 'EG03', 'ED07', 'ED06', 'ED05', 'ED04', 'ED03', 'ED02', 'ED01', 'ED09', 'ED08', 'EH10', 'EH11', 'EH12', 'EH13', 'EH14', 'EH15', 'EG99', 'EC99', 'ED99', 'EC11', 'EH09', 'EH08', 'EH03', 'EH02', 'EH01', 'EH07', 'EH06', 'EH05', 'EH04', 'EH99', 'EG10']
111
29826 12784
data loaded


In [29]:
# Add Word Embedding (Word Embedding, Topic Embedding, Topic-Event Embedding) Features

print("Extracting features from the training data using a sparse vectorizer")
t0 = time()
my_stop_words = [unicode(x.strip(), 'utf-8') for x in open('kor_stop_word.txt','r').read().split('\n')]

#print (my_stop_words)

vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,stop_words=my_stop_words,max_features = 50000,min_df = 3)
X_train = vectorizer.fit_transform(data_train_data)

duration = time() - t0

print("n_samples: %d, n_features: %d" % X_train.shape)
print()

print("Extracting features from the test data using the same vectorizer")
t0 = time()
X_test = vectorizer.transform(data_test_data)
duration = time() - t0
print("n_samples: %d, n_features: %d" % X_test.shape)


Extracting features from the training data using a sparse vectorizer
n_samples: 29826, n_features: 50000

Extracting features from the test data using the same vectorizer
n_samples: 12784, n_features: 50000


In [31]:
feature_names = vectorizer.get_feature_names()
fail_list = []
CODE = "EH15"
feature_names = np.asarray(feature_names)
# Train SGD model
clf = SGDClassifier(loss='modified_huber', alpha=.0001, n_iter=50, penalty='l2')
benchmark(clf)


________________________________________________________________________________
Training: 
SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='modified_huber', n_iter=50, n_jobs=1,
       penalty='l2', power_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False)
train time: 142.577s
test time:  0.988s
Top- 5
False docID: 2026 prediction of  EH15  was: ['EI11' 'EI04' 'EH01' 'EE09' 'EE02']
False docID: 3494 prediction of  EH15  was: ['ED08' 'EA10' 'EA08' 'ED06' 'EA14']
False docID: 3759 prediction of  EH15  was: ['NC10' 'EC03' 'ED10' 'EH07' 'EH09']
False docID: 6006 prediction of  EH15  was: ['EA03' 'ED99' 'EA02' 'EC09' 'EE01']
	 EA99 Acc.: 0.566037735849 Correct: 60.0 Tested: 106.0 #Train 252.0
	 EI02 Acc.: 0.907407407407 Correct: 49.0 Tested: 54.0 #Train 111.0
	 EI03 Acc.: 0.95 Correct: 171.0 Tested: 180.0 #Train 405.0
	 ND08 Acc.: 0.846153846154 Correc

In [32]:
# EH14 is 95
# EH15 is 96
CODE_INDEX = clf.classes_.tolist().index(CODE)
CODE_INDEX

96

In [34]:
white_list = []
for i,x in enumerate(vectorizer.get_feature_names()):
    if(clf.coef_[CODE_INDEX][i]>0.3):
        print(clf.coef_[CODE_INDEX][i],x)
        white_list.append(x)

0.329216838227 mn
0.311856486217 센타
0.30803745042 수공구
0.410693569104 실험실
0.303040829188 안전
0.54930573803 안전관리
0.314817992082 전산시스템
0.343093755172 차년도의
0.327951856906 현장지도점검


In [35]:
out = file("features.txt","w")

for x in feature_names:
    out.write(x.encode('utf-8','ignore')+"\n")

In [35]:
print(y_test[fail_list[0]],data_test_data[fail_list[0]])
fail_data = []
for x in fail_list:
    fail_data.append(data_test_data[x])

EH14 생산 공정 불용 타겟 자원 오염 물질 저감 공정 기술 개발 생산 공정 불용 자원 오염 물질 저감 manufacturing process useless regeneration contaminants reduction 주관 기관 주 한청알에프 생산 공정 불용 타겟 나노급 전구체 원료 확보 이용 나노 분말 자원 오염 물질 저감 공정 개발 재생 원료 투입량 대비 재생량 비율 가공비 절감 기존 활용 타겟 분말 제조 공정 대비 재생 나노 분말 조성비 재생 나노 분말 순도 온실 가스 저감 참여 기관 전자 부품 연구원 전구체 나노 분말 확보 분산 기술 개발 재생 나노 분말 입도 재생 나노 분말 비표 면적 주관 기관 주 한청알에프 생산 공정 불용 타겟 회수 기술 연구 생산 공정 불용 타겟 미세 분쇄 불순물 오염 저감 조건 연구 분체 조성비 분석 유지 분쇄 공정 연구 분체 용매 용해 이온 연구 균일 전구체 원료 오염 물질 투입 저감 공정 연구 분산 기술 적용 환원 조건 전구체 석출 거동 관찰 석출 전구체 열처리 나노 분말 재생 연구 재생 나노 분말 응용 제품 제조 평가 기관 용역 개발 공정 청정 평가 수행 환경 성과 개선 참여 기관 전자 부품 연구원 용해 환원 전구체 분산 석출 연구 분산 적용 용매 분산 용 조합 연구 비율 용해 정도 분산 종류 전구체 석출 거동 연구 분산 농도 전구체 석출 거동 연구 조건 전구체 물성 평가 조건 확립 주관 기관 주 한청알에프 생산 공정 불용 타겟 나노급 전구체 원료 확보 이용 나노 분말 자원 오염 물질 저감 공정 개발 재생 원료 투입량 대비 재생량 비율 가공비 절감 기존 활용 타겟 분말 제조 공정 대비 재생 나노 분말 조성비 재생 나노 분말 순도 온실 가스 저감 참여 기관 전자 부품 연구원 전구체 나노 분말 확보 분산 기술 개발 재생 나노 분말 입도 재생 나노 분말 비표 면적 



In [39]:
v = vectorizer.transform(fail_data)
v_array = v.toarray()
important_word = 80000*[0]
buffer = 80000*[0]
for i,doc in enumerate(fail_data):
    print(doc)
    #print(v.toarray()[i])
    #rev_list =  reversed(np.argsort(v.toarray()[i]))
    for j in range(len(v_array[i])):
        if(v_array[i][j]>0.0):
     #       print(index,feature_names[index])
            buffer[j] = 1
        
    for j in range(len(buffer)):
        if buffer[j] > 0:
            important_word[j] += 1
            buffer[j] = 0
            


생산 공정 불용 타겟 자원 오염 물질 저감 공정 기술 개발 생산 공정 불용 자원 오염 물질 저감 manufacturing process useless regeneration contaminants reduction 주관 기관 주 한청알에프 생산 공정 불용 타겟 나노급 전구체 원료 확보 이용 나노 분말 자원 오염 물질 저감 공정 개발 재생 원료 투입량 대비 재생량 비율 가공비 절감 기존 활용 타겟 분말 제조 공정 대비 재생 나노 분말 조성비 재생 나노 분말 순도 온실 가스 저감 참여 기관 전자 부품 연구원 전구체 나노 분말 확보 분산 기술 개발 재생 나노 분말 입도 재생 나노 분말 비표 면적 주관 기관 주 한청알에프 생산 공정 불용 타겟 회수 기술 연구 생산 공정 불용 타겟 미세 분쇄 불순물 오염 저감 조건 연구 분체 조성비 분석 유지 분쇄 공정 연구 분체 용매 용해 이온 연구 균일 전구체 원료 오염 물질 투입 저감 공정 연구 분산 기술 적용 환원 조건 전구체 석출 거동 관찰 석출 전구체 열처리 나노 분말 재생 연구 재생 나노 분말 응용 제품 제조 평가 기관 용역 개발 공정 청정 평가 수행 환경 성과 개선 참여 기관 전자 부품 연구원 용해 환원 전구체 분산 석출 연구 분산 적용 용매 분산 용 조합 연구 비율 용해 정도 분산 종류 전구체 석출 거동 연구 분산 농도 전구체 석출 거동 연구 조건 전구체 물성 평가 조건 확립 주관 기관 주 한청알에프 생산 공정 불용 타겟 나노급 전구체 원료 확보 이용 나노 분말 자원 오염 물질 저감 공정 개발 재생 원료 투입량 대비 재생량 비율 가공비 절감 기존 활용 타겟 분말 제조 공정 대비 재생 나노 분말 조성비 재생 나노 분말 순도 온실 가스 저감 참여 기관 전자 부품 연구원 전구체 나노 분말 확보 분산 기술 개발 재생 나노 분말 입도 재생 나노 분말 비표 면적 

미생물 오염 방지 제거 나노바이오 촉매 소재 개발 미생물 오염 방지 제거 나노바이오 촉매 소재 효소 코팅 생물 오손 방오 나노 바이오 촉매 페인트 나노바 microbi

녹색 화학 기술 개발 사업 사전 기획 연구 다부처 공동 녹색 화학 사전 기획 유해 화학 물질 대체 물질 개발 joint planning departments green chemical pre - planning toxic chemicals alternative substances development 유해 화학 물질 인체 환경 영향 최소 지속 가능 화학 산업 발전 환경부 산업 부 상호 협력 공동 추진 녹색 화학 사업 사전 기획 다부처 공동 기획 필요 제시 부처 소관 분야 연계 사업 영역 중복 가능 다부처 참여 시너지 창출 가능 검토 공동 기획 필요 내용 제시 사업 범위 목표 설정 국가 주요 정책 부합 부처 소관 분야 고려 사업 범위 사업 목표 설정 사업 목표 사업 기간 사업 유형 제시 환경부 산업 통상 자원부 추진 중점 추진 분야 도출 중점 분야 부처 참여 범위 역할 분담 안 제시 국내 외 주요 현황 분석 사업 파급 효과 제시 제품 제조 과정 사용 유해 화학 물질 대체 녹색 화학 지원 유해 화학 물질 사용 원천 저감 국민 건강 우려 감소 지속 가능 화학 산업 경쟁력 향상 기여 

환경 내수면 양식업 수생 균 곰팡이 살균기 개선 제품 개발 어류 양어 수생 균 미생물 살균 fish fish culture water fungus microorganism sterilization 양어장 미생물 플라즈마 살균기 개발 플라즈마전 극모듈 전극 적층 구조 양식장 사용 용수 이온 농도 현장 전극 갯수 용량 조절 가감 구조 전극 모듈 일반 사용자 교체 구조 적층 전극 가이드 전극 가이드 적층 전극 음전 극부 양전극부 그룹 전극 봉부 조립체인 전극 모듈 사용자 교환 구조 전력 제어회 메인 컨트롤러 회로 메인 컨트롤러 전력 제어 회로 통신 다수 제어 기능 이온 농도 변화 발생 전류 변화 출력 전압 제어 전극 수명 표시 알고리즘 개발 기능 강제 순환 방식 수중 펌프 물 유입 전극 평면 수직 방향 분출 전극 이물질 전극 오염 방지 마이크로버블 살균 성능 향상 강제 순환 구조 디자인 세

환경 친화 난삭재 미세 가공 기술 시스템 개발 난삭재 환경 친화 생산 미세 가공 나노 유체 극미량 절삭유 윤활 전기 수력학 하이브리드 윤활 가공 프로세스 모델 difficult to cut materials environment fr end ly manufacturing micro machining nano fluid minimum quantity lubrication electro hydro dynamic hybrid lubrication machining process modeling and analysis machining process optimization machining process monitoring and diagnosis 연구 목표 연구 최근 자동차 조선 우주 항공 기계 에너지 분야 강도 경량 소재 수요 증대 티타늄 니켈합금 난삭재 환경 친화 미세 가공 기술 시스템 개발 수행 연차 연구 목표 유량 냉각 공기 기반 소형 나노 유체 극미량 절삭유 윤활 전기 수력학 분무 기반 하이브리드 윤활 적용 난삭재 환경 친화 미세 가공 프로세스 개발 실험 검증 이론 전산 해석 기반 난삭재 환경 친화 미세 가공 프로세스 메커니즘 가공력 가공 온도 모델링 특성 분석 최적 가공력 표면조 가공 온도 공구 수명 난삭재 환경 친화 미세 가공 프로세스 실시간 모니터링 상태 진단 시스템 개발 난삭재 환경 친화 미세 가공 윤활 냉각 시스템 개발 난삭재 기계 가공 프로세스 공구 전기 수력학 이온 샷 분무 첨단 윤활 특성 연구 난삭재 환경 친화 미세 가공 윤활 냉각 모듈 설계 제작 맞춤 윤활 냉각 모듈 통합 난삭재 환경 친화 미세 가공 프로세스 기계 시스템 개발 난삭재 환경 친화 미세 가공 프로세스 메커니즘 모델링 특성 분석 최적 난삭재 환경 친화 미세 가공 프로세스 파라미터 분석 난삭재 환경 친화 미세 가공 프로세스 최적 난삭재 환경 친화 미세 가공 프로세스 메커니즘 가공력 가공 온도 모델링 분석 난삭재 환경 친화 미세 가공 프로세스 실시간 모니터링 상태 진단 시스템 개발 

In [42]:
for i,word_id in enumerate(important_word):
    if word_id > 10:
        print(feature_names[i])

개선
공정
관련
국내
기존
물질
제작
최적
특성
환경
