In [1]:
import os
import jieba
import numpy as np
from collections import Counter
# pip install gensim
from gensim.corpora import Dictionary

paramiko missing, opening SSH/SCP/SFTP paths will be disabled.  `pip install paramiko` to suppress


### 讀入stopwords

In [2]:
stopwords = []
jieba.set_dictionary('./jieba_data/dict.txt.big')
jieba.load_userdict('./jieba_data/userdict.txt')

with open('./jieba_data/stopwords.txt', 'r', encoding='UTF-8') as file:
    for data in file.readlines():
        data = data.strip()
        stopwords.append(data)

Building prefix dict from C:\Users\鄒峻安\Desktop\github project\HW1--data-mining\HW2\jieba_data\dict.txt.big ...
Loading model from cache C:\Users\鄒峻安\AppData\Local\Temp\jieba.uea1b80d53a35cd1eaa4d428049c7a876.cache
Loading model cost 1.284 seconds.
Prefix dict has been built succesfully.


In [3]:
def getTokens(text):
    tokens = []
    if len(text) > 0:
        segments = jieba.cut(text,cut_all=False)
        for t in segments:
            t = t.strip()
            if not t in stopwords:
                tokens.append(t)
    return tokens

In [4]:
def getText(filename):
    with open(filename,'r', encoding='UTF-8') as file:
        lines = file.readlines()
        
    news_title = lines[2]
    news_body = lines[3]
    text = news_title + news_body
    return(text)    

### 取出全部文件(180個)的內容做斷詞

In [5]:
text = ''
dir_path = './ctee_TMC'
for file in os.listdir(dir_path):
    file_path = os.path.join(dir_path,file)
    if os.path.isfile(file_path) and not file.startswith('.'):
        text = text + getText(file_path)

tokens = getTokens(text)

### 共有約2萬個詞

In [6]:
print(len(tokens))

19702


### 共有約5000個不重複詞

In [7]:
counter = Counter(tokens)
print(len(counter))

5162


### 取出詞頻最高前500個詞

In [8]:
top_tokens_tuple = counter.most_common(500)
all_tokens = []
for t in top_tokens_tuple:
    all_tokens.append(t[0])

print(all_tokens)

['|', '台積電', '元', '工商時報', '億元', '台積', '％', '奈米', '營收', '日', '外資', '月', '製程', '今日焦點', '積電', '市場', ',', '晶圓', '台股', '法人', '成長', '去年', '科技', '股價', '代工', '10', '年', '脈動', '股利', '(', ')', '預期', '龍頭', '半導體', '現金', '2330', '約', '點', '買超', '新高', '後', '第一季', '台灣', '-', '高', '中', '市值', '晶片', '蘋果', '台', '影響', '指出', '產業', '達', '技術', '會', '大', '先進', '新台幣', '可望', '客戶', '～', '上漲', '公司', '仍', '每股', '持續', '設計', '營運', '昨', '第四季', '全球', '說', '前', '投資', '獲利', '證券', '產能', '董事長', '都', '手機', '歷史', '預估', '訂單', '指數', '合併', '12', '處理器', '新', '股', '張忠謀', '未來', '大立光', '董事會', '明年', '廠', '減少', '個股', '已', '億美元', '2019年', '展望', '包括', '帶動', '更', '逾', '財經', '2018年', '毛利率', '上', '不', '季', '發展', '美元', '表現', '增加', '聯發科', '全年', '受惠', '需求', '業績', '出貨', '兆元', '2020年', '產品', '下', 'iPhone', '漲幅', '行情', '即時新聞', '事件', '創新', '盤中', '第二季', '人', '5G', '創意', '配發', '營收達', '大陸', '看好', '再', '量產', '震盪', '季減', '稅後', '紀錄', '英特爾', '優於', '占', '11', '企業', '16', '營業', '淨利', '資金', '11月', '去年同期', '運算', '動能', '權值', '評等', '比特', '加上', '發放', '張', '鴻

### 過濾掉沒有在top 500裡的詞

In [9]:
def filterTokens(tokens):
    global all_tokens
    filtered_tokens = []
    for t in tokens:
        if t in all_tokens:
            filtered_tokens.append(t)
    return filtered_tokens

In [10]:
doc_tokens = []
dir_path = './ctee_TMC'
for file in os.listdir(dir_path):
    file_path = os.path.join(dir_path,file)
    if os.path.isfile(file_path) and not file.startswith('.'):
        wanted_tokens = []
        text = getText(file_path)
        tokens = getTokens(text)
        tokens2 = filterTokens(tokens)
        doc_tokens.append(tokens2)

### 稀疏矩陣

In [11]:
sparse_matrix = []

dir_path = './ctee_TMC'
for file in os.listdir(dir_path):
    file_path = os.path.join(dir_path,file)
    if os.path.isfile(file_path) and not file.startswith('.'):
        text = getText(file_path)
        tokens = getTokens(text)
        doc_to_term = []
        for t in all_tokens:
            if t in tokens:
                doc_to_term.append(1)
            else:
                doc_to_term.append(0)
        sparse_matrix.append(doc_to_term)

### 共現矩陣

In [12]:
def co_occurrence_matrix(ls):
    global matrix
    length = len(ls)
    for i in range(length):
        for j in range(length):
            if i != j:
                matrix[[ls[i]], [ls[j]]] += 1

In [13]:
dimension = len(all_tokens)
matrix = np.matrix([[0] * dimension] * dimension)

dt = Dictionary(doc_tokens).token2id
doc_token_ids = [[dt[word] for word in words] for words in doc_tokens]

for ids in doc_token_ids:
    co_occurrence_matrix(ids)

In [14]:
print(dt)

{',': 0, '000': 1, '|': 2, '上': 3, '世代': 4, '今日焦點': 5, '代工': 6, '億元': 7, '先進': 8, '創新': 9, '可望': 10, '台積': 11, '台積電': 12, '奈米': 13, '工商時報': 14, '布局': 15, '技術': 16, '持續': 17, '支援': 18, '產能': 19, '科技': 20, '脈動': 21, '製程': 22, '資金': 23, '電將': 24, '領先': 25, '龍頭': 26, '11月': 27, '個股': 28, '出貨': 29, '創下': 30, '受惠': 31, '合併': 32, '單季': 33, '大廠': 34, '新高': 35, '晶圓': 36, '機會': 37, '歷史': 38, '法人': 39, '營收': 40, '營收達': 41, '產業': 42, '目標': 43, '第四季': 44, '紀錄': 45, '蘋果': 46, '處理器': 47, '達': 48, '量': 49, '順利': 50, '高': 51, '今': 52, '台灣': 53, '張': 54, '張忠謀': 55, '營運': 56, '看': 57, '董事長': 58, '說': 59, '10': 60, '不': 61, '仍': 62, '供應鏈': 63, '億': 64, '公司': 65, '卻': 66, '積電': 67, '員工': 68, '報導': 69, '大陸': 70, '好': 71, '近期': 72, '都': 73, '(': 74, ')': 75, '2330': 76, 'ADR': 77, '元': 78, '前': 79, '台股': 80, '年': 81, '股價': 82, '中': 83, '兌': 84, '匯率': 85, '去年': 86, '大關': 87, '季': 88, '已': 89, '市場': 90, '平均': 91, '影響': 92, '新台幣': 93, '昨': 94, '會': 95, '月': 96, '法': 97, '約': 98, '美元匯率': 99, '表現': 100, '電在': 101

In [15]:
print(matrix)

[[ 314   16  236 ...    0    0    0]
 [  16    4   24 ...    0    0    0]
 [ 236   24 1812 ...   44   32    0]
 ...
 [   0    0   44 ...   62    0    0]
 [   0    0   32 ...    0   56    0]
 [   0    0    0 ...    0    0   72]]
