In [1]:
import sys
sys.path.append('../')

In [2]:
import jieba
import gensim

import matplotlib.pyplot as plt
import numpy as np

from data_loader import load_data
from tqdm import tqdm



In [3]:
def load_stopwords(path_to_file):
    stop_words=set()
    with open(path_to_file,encoding="utf-8") as f:
        content=f.readlines()
    for word in content:
        stop_words.add(word.strip('\n'))
        
    return stop_words

In [4]:
def cut_sentence(sentence):
    """
    分词，去停用词，返回一个列表
    """
    result=[]
    for word in jieba.lcut(sentence):
        if word not in stop_words:
            result.append(word)
            
    return result

In [5]:
def load_word2vec(path_to_file):
    print("加载词向量...")
    return gensim.models.KeyedVectors.load_word2vec_format(path_to_file,binary=False)

In [6]:
def random_vector(seed):
    np.random.seed(seed)
    vec=-1 + 2*np.random.random((300))
    vec=vec.astype('float64')
    
    return vec

In [7]:
def get_vector(word,seed=108):
    try:
        return word2vec[word]
    except:
        return random_vector(seed)

In [8]:
def sentence2vector(word_list):
    result=[]
    for w in word_list:
        result.append(get_vector(w))
        
    return result

In [9]:
def get_label(dataset):
    label=[]
    for d in dataset:
        if(d[1]!=5):
            label.append(d[1])
        else:
            label.append(0)
    label=np.array(label,dtype='uint8')
    
    return label

In [10]:
# 向量化
def vectorize(dataset):
    dataset_new=[]
    for d in tqdm(dataset):
        dataset_new.append(sentence2vector(cut_sentence(d[0])))
        
    return dataset_new

# 截断和补0
padding=np.zeros(300,dtype='float64')

def unify(dataset,max_len):
    for i in tqdm(range(len(dataset))):
        if len(dataset[i])==max_len:
            pass
        elif len(dataset[i])<max_len:
            while(len(dataset[i])!=max_len):
                dataset[i].append(padding)
        else:
            dataset[i]=dataset[i][:max_len]
            
def array2np(dataset):
    for index in tqdm(range(len(dataset))):
        dataset[index]=np.array(dataset[index])

In [92]:
def load_data_mlp():
    train,test=load_data('../../小组作业-语料/')
    train_text=vectorize(train)
    unify(train_text,30)
    train_label=get_label(train)
    
    test_text=vectorize(test)
    unify(test_text,30)
    test_label=get_label(test)
    
    array2np(train_text)
    array2np(test_text)
    
    return (np.array(train_text),train_label),(np.array(test_text),test_label)

In [11]:
stop_words=load_stopwords('../../src/hit_stopwords.txt')
word2vec=load_word2vec('../../../sgns.zhihu.word.bz2')

加载词向量...


In [12]:
train,test=load_data('../../小组作业-语料/')

加载完成，测试集比例0.2
训练集37884条
测试集9472条


In [14]:
for index,_ in tqdm(enumerate(train)):
    train[index][0]=cut_sentence(train[index][0])

0it [00:00, ?it/s]Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\liufeng\AppData\Local\Temp\jieba.cache
Loading model cost 0.591 seconds.
Prefix dict has been built succesfully.
37884it [00:06, 6067.83it/s]


In [16]:
train[:10]

[[['赵薇', '扮相', '真', '好看', '知性', '优雅', '大气'], 5],
 [['不供', '时', '家破人亡'], 3],
 [['奶奶',
   '一起',
   '陈茶',
   '带回家',
   '虎皮',
   '过去',
   '玩',
   '两个',
   '人',
   '坐',
   '一起',
   '看',
   '虎皮',
   '今天上午',
   '才',
   '碟片',
   '店租',
   '新',
   '动漫'],
  3],
 [['姥爷', '认错'], 3],
 [['故事', '平庸', '台词', '很', '有趣'], 5],
 [['影片',
   '镜头',
   '大自然',
   '景色',
   '之美',
   '女主',
   '容颜',
   '之美',
   '展现',
   '淋漓尽致',
   '近乎',
   '默片',
   '方式',
   '演绎',
   '无声',
   '壮丽',
   '同样',
   '表达',
   '影片',
   '最后',
   '核试验',
   '大',
   '爆炸',
   '摧毁',
   '美好',
   '更是',
   '肯定',
   '这种',
   '美的',
   '不可',
   '复制',
   '绝对',
   '俄罗斯',
   '电影',
   '文艺',
   '之后',
   '总是',
   '痛处'],
  5],
 [['不爱笑', '显然', '不', '欢迎'], 3],
 [['去',
   '念',
   '…',
   '…',
   '他往',
   '许其琛',
   '肩膀',
   '上',
   '许其琛',
   '去',
   '去',
   '都',
   '说好',
   '估计',
   '去',
   '北京'],
  3],
 [['沙特',
   '通讯社',
   '报道',
   '当地',
   '时间',
   '3',
   '月',
   '27',
   '日',
   '沙特',
   '皇家',
   '空军',
   '参加',
   'Aces',
   ' ',
   'Meet',
   ' ',
   '2021',

In [24]:
count=0
for t in train:
    if t[1]==2 and count<10:
        count+=1
        print('体育新闻：',t[0])

    if count==10:
        break
        
count=0
for t in train:
    if t[1]==3 and count<10:
        count+=1
        print('晋江小说：',t[0])

    if count==10:
        break

体育新闻： ['谈到', '球队', '失去', '德里克', '怀特', '表示']
体育新闻： ['虎', '扑', '04', '月', '30', '日讯', '\xa0', '今天', '比赛', '中', '火箭', '143', '136', '击败', '雄鹿']
体育新闻： ['官方', '勒布朗', '詹姆斯', '今日', '比赛', '出战', '成疑', '_', '虎', '扑', 'NBA', '新闻']
体育新闻： ['今日', '早上', '10', '00', '猛龙', '客场', '挑战', '爵士']
体育新闻： ['谈到', '安德烈', '德', '拉蒙德', '安东尼', '戴维斯', '詹姆斯', '同场', '打球', '效果', '沃格尔', '说', '三人', '组合', '非常', '感到', '振奋', '很', '好', '回合', '节奏', '时机', '完全', '不', '到位', '互相', '熟悉', '需要', '时间', '一段', '调整期', '失利', '非常', '失望', '三人', '同场', '打球', '效果', '感觉', '很', '振奋']
体育新闻： ['喜欢', '已经', '成为', '样子']
体育新闻： ['卢', '今天', '伦纳德', '少', '7', '分钟', '乔治', '需', '保持', '进攻', '侵略性', '_', '虎', '扑', 'NBA', '新闻']
体育新闻： ['这是', '拉塞尔', '威', '斯布鲁克', '本赛季', '常规赛', '31', '次', '三双']
体育新闻： ['今天', '感觉', '好极了', '身体', '轻快', '很多']
体育新闻： ['今晚', '打得', '很', '紧迫感', '对面', '一支', '出色', '球队']
晋江小说： ['不供', '时', '家破人亡']
晋江小说： ['奶奶', '一起', '陈茶', '带回家', '虎皮', '过去', '玩', '两个', '人', '坐', '一起', '看', '虎皮', '今天上午', '才', '碟片', '店租', '新', '动漫']
晋江小说： ['姥爷', '认错']
晋江小说： ['不爱笑', '