In [89]:
import jieba
import os, sys
import csv
import re
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfVectorizer

In [90]:
def csv_read(fname:str) -> list:
    out = list()
    with open(fname, 'r') as f:
        rd = csv.reader(f)
        for it in rd:
            out += it
    return out

In [91]:
dataset_fnames = ['2012-4.txt', '2014-4.txt', '2015-4.txt', '2015-all.txt', '2016-4.txt', '2016-all.txt']
dataset = []
data_mat = []

In [98]:
# config jieba
jieba.set_dictionary('./files/dict.txt') # 繁體字詞庫
jieba.load_userdict("./files/dict_test.txt") # 自訂字詞庫

keywords = csv_read('keywords.csv')
keywords += ['不實', '並', '有無', '成本', '增加', '利益', 'aio', 'android', '新北市', '自', '子公司', '及', '百分之', '之']
for it in keywords:
    jieba.add_word(it)

Building prefix dict from F:\Dev\AdvDev\week5\files\dict.txt ...
Loading model from cache D:\ANDY\Appdata\Local\Temp\jieba.u28ce8073776cab5eec46b0d55366b7d6.cache
Loading model cost 0.765 seconds.
Prefix dict has been built succesfully.


In [99]:
dataset.clear()
for i in range(len(dataset_fnames)):
    dataset.append('')
    tmp_mat = ''
    with open(dataset_fnames[i], 'r', encoding='utf-8') as f:
        try:
            for line in f:
                tmp_mat += ' '
                tmp_term = line.split(',')
                for j in tmp_term:
                    tmp_mat += ' '.join(jieba.cut(j))
        except Exception as e:
            print(e)
    dataset[i] = tmp_mat

In [100]:
# filter garbage
def clean(context:str) -> str:
    #context = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",context)
    context = re.sub("[【】╮╯▽╰╭★→「」]+","",context)
    context = re.sub("[！，❤。～《》：（）()【】「」？”“；：、]+","",context)
    context = re.sub("\d","",context)
    context = re.sub("[\-_~]","",context)
    print(context)
    return context
for i in range(len(dataset)):
    dataset[i] = clean(dataset[i])

 股票 代碼 :  
 兆利 科技 工業 股份 有限 公司 及 其子 公司 
 合   併   財   務   報   表 
 民國 一 ○ 一年 及 一 ○ ○ 年 十二月 三十一日    內附 會計師 查核 報告  
 公   司   地   址 : 新北市 新莊區 五工五路  號   電   話 :       
    
  
 目   錄 
 項   目   頁   次 
 一  封   面    
 二  目   錄    
 三  聲   明   書    
 四  會計師 查核 報告    
 五  合併 資產 負債表    
 六  合併 損益表    
 七  合併 股東 權益 變動表    
 八  合併 現金 流量 表    
 九  合併 財務 報表 附註 
  一  公司 沿革         二  重要 會計 政策 之 彙總 說明         三  會計 變動 之 理由 及 其 影響       四  重要 會計 科目 之 說明         五  關係人 交易         六  抵 質押 之 資產       七  重大 承諾 事項 及 或 有 事項       八  重大 之 災害 損失       九  重大 之期 後 事項       十  其   他      
  十一  其 他 附註 揭露 事項 
  . 重大 交易 事項 相關 資訊         . 轉投資 事業 相關 資訊         . 大陸 投資 資訊         . 母子 公司 間 業務 關係 及 重要 交易 往來 情形         十二  部門 別 財務 資訊      
    
  
 聲   明   書 
 本 公司 民國 一 ○ 一年度  自民國 一 ○ 一年 一月 一日 至 民國 一 ○ 一年 十二月 三十一日 止    依  關係 企業 合併 營業 報告書 關係 企業 合併 財務 報表 及 關係 報告書 編製 準則  應 納入 編製 關   係 企業 合併 財務 報表 之 公司 與 依 財務 會計 準則 公報 第七號 應 納入 編製 母子 公司 合併 財務 報表   之 公司 均 相同且 關係 企業 合併 財務 報表 所應 揭露 相關 資訊 於 前揭 母子 公司 合併 財務 報表 中   均 已 揭露爰 不再 另行 編製 關

In [101]:
# tfidf
vectorizer = TfidfVectorizer()
data_mat = vectorizer.fit_transform(dataset)

In [102]:
# get result

data_name = vectorizer.get_feature_names()
print(data_mat.shape)
for i in range(data_mat.shape[0]):
    print('------in file [%s]---------'%(dataset_fnames[i]))
    for j in range(data_mat.shape[1]):
        print('%s\t\t%f'%(data_name[j], data_mat[i,j]))
        if j > 10: break
data_mat.toarray()
data_name

(6, 6338)
------in file [2012-4.txt]---------
aio		0.000000
all		0.000000
amd		0.000000
and		0.000000
android		0.000000
ansys		0.000000
app		0.000000
apple		0.000000
apprecication		0.000000
arisen		0.001778
atu		0.000000
au		0.000000
------in file [2014-4.txt]---------
aio		0.006912
all		0.001728
amd		0.000000
and		0.000000
android		0.000000
ansys		0.000000
app		0.000000
apple		0.000000
apprecication		0.000000
arisen		0.000000
atu		0.000000
au		0.000000
------in file [2015-4.txt]---------
aio		0.008407
all		0.002102
amd		0.000000
and		0.000000
android		0.000000
ansys		0.000811
app		0.000000
apple		0.000000
apprecication		0.000000
arisen		0.001401
atu		0.003364
au		0.001121
------in file [2015-all.txt]---------
aio		0.006376
all		0.001594
amd		0.000000
and		0.000718
android		0.000000
ansys		0.000615
app		0.000000
apple		0.000000
apprecication		0.000718
arisen		0.001594
atu		0.002551
au		0.000850
------in file [2016-4.txt]---------
aio		0.009529
all		0.002803
amd		0.000897
and		0.000757


['aio',
 'all',
 'amd',
 'and',
 'android',
 'ansys',
 'app',
 'apple',
 'apprecication',
 'arisen',
 'atu',
 'au',
 'autolock',
 'bcs',
 'between',
 'bit',
 'bk',
 'black',
 'business',
 'ca',
 'cb',
 'cc',
 'ces',
 'cg',
 'chian',
 'choles',
 'chrome',
 'chromebook',
 'co',
 'com',
 'consumer',
 'convertible',
 'core',
 'cpu',
 'cq',
 'curved',
 'ddr',
 'dell',
 'desktop',
 'development',
 'digitimes',
 'displays',
 'dz',
 'dzdz',
 'dzdzdz',
 'dzdzdzdz',
 'eicc',
 'enterpri',
 'enterprise',
 'envy',
 'epon',
 'eps',
 'fax',
 'fc',
 'fg',
 'fhd',
 'fiber',
 'for',
 'force',
 'forward',
 'fttb',
 'ftth',
 'fttx',
 'fuh',
 'fund',
 'galaxy',
 'gb',
 'geforce',
 'gepon畢竟',
 'gpon',
 'graphics',
 'great',
 'gtx',
 'hd',
 'hewlett',
 'hi',
 'hinge',
 'hiqr',
 'holding',
 'holdings',
 'home',
 'hp',
 'hs',
 'hspm',
 'http',
 'huge',
 'hz',
 'iasb',
 'idc',
 'iecq',
 'ifrs',
 'ifrss',
 'ifrs因此',
 'ijij',
 'in',
 'ind',
 'intel',
 'internet',
 'investment',
 'investor',
 'ipad',
 'ips',
 'iso