## Fasttext ##
fasttext 是Facebook 开发的用于提取词向量和文本分类的软件包。使用```pip intsall win_fasttext```可以再Win上安装已经编译好的Python包。

In [2]:
import fasttext
import os
import pandas as pd
import tensorflow as tf
from tensorflow import keras

In [3]:
base_dir = '../data/cnews'
train_dir = os.path.join(base_dir, 'cnews.train.txt')
test_dir = os.path.join(base_dir, 'cnews.test.txt')
val_dir = os.path.join(base_dir, 'cnews.val.txt')
vocab_dir = os.path.join(base_dir, 'cnews.vocab.txt')

我们可以使用fasttext.skipgram 和 fasttext.cbow函数来来学习词向量。
其中data.txt是一个包含utf-8编码文本的训练文件。
默认情况下，单词vector将考虑字符n-gram(从3个字符到6个字符)。
在优化结束时，程序将保存两个文件:model.bin和model.vec。
vec是一个文本文件，包含单词vector，每行一个。
bin是一个二进制文件，包含模型的参数、字典和所有超参数。
以后可以使用二进制文件计算字向量或重新启动优化。

In [4]:
import fasttext

# Skipgram model
model = fasttext.skipgram(train_dir, 'model')
print(model.words) # list of words in dictionary

# CBOW model
model = fasttext.cbow(train_dir, 'model')
print(model.words) # list of words in dictionary

{'developed', '部', 'degli', 'home', 'Maria', '出场人物:', 'Film', 'my', 'B', 'less', 'Special', 'Cell', 'Certificate', 'market', 'Creed', '—', '操作系统：Windows', 'Fashion', '本刊记者', 'DVD', 'Private', '唐爱明', 'institution', 'Practical', 'Theft', 'research,', 'E', 'et', '王晓静', 'Columbia', 'DirectX', 'are', 'Health', '(University', 'word', 'right', 'Assassins', 'heart', 'Inc。*', '一键关注新浪游戏播报（微博）：http://weibo.com/gamereport\xa0\xa0', 'Oxette', '1居', '徐效鸿', 'College', 'STARLEAGUE:', '环境工程学系', 'each', 'close', 'week', 'Walliams', 'private', '陈爽', '9.0c', 'Dead', 'VS\xa0', 'IS在镜头中采用了USM（Ultrasonic', '实习记者', 'Society', 'Community', 'des', 'Dress', 'Professional', '康延芳', '【新浪游戏专稿，转载请注明来源】\xa0\xa0\xa0', '#2', '超级大盘股中国建筑获IPO批文', 'Beautiful', '(郑伟柏)', 'Freiberg', 'Hong', '翟敏', '姚晓丹', '8800', 'Wychowania', 'money', 'really', 'C', 'Guide', 'Real', 'Audi', 'known', 'Days', '于祥明', 'Lively(布莱克', '沈梅', '户型', 'B+德维恩-韦德', '最新楼盘户型展示', 'Paris', 'honor', 'about', 'RS', '刘铮', '于萍', '肖莉', 'van', '晏耀斌', 'cannot', 'Agricu

{'developed', '部', 'degli', 'home', 'Maria', '出场人物:', 'Film', 'my', 'B', 'less', 'Special', 'Cell', 'Certificate', 'market', 'Creed', '—', '操作系统：Windows', 'Fashion', '本刊记者', 'DVD', 'Private', '唐爱明', 'institution', 'Practical', 'Theft', 'research,', 'E', 'et', '王晓静', 'Columbia', 'DirectX', 'are', 'Health', '(University', 'word', 'right', 'Assassins', 'heart', 'Inc。*', '一键关注新浪游戏播报（微博）：http://weibo.com/gamereport\xa0\xa0', 'Oxette', '1居', '徐效鸿', 'College', 'STARLEAGUE:', '环境工程学系', 'each', 'close', 'week', 'Walliams', 'private', '陈爽', '9.0c', 'Dead', 'VS\xa0', 'IS在镜头中采用了USM（Ultrasonic', '实习记者', 'Society', 'Community', 'des', 'Dress', 'Professional', '康延芳', '【新浪游戏专稿，转载请注明来源】\xa0\xa0\xa0', '#2', '超级大盘股中国建筑获IPO批文', 'Beautiful', '(郑伟柏)', 'Freiberg', 'Hong', '翟敏', '姚晓丹', '8800', 'Wychowania', 'money', 'really', 'C', 'Guide', 'Real', 'Audi', 'known', 'Days', '于祥明', 'Lively(布莱克', '沈梅', '户型', 'B+德维恩-韦德', '最新楼盘户型展示', 'Paris', 'honor', 'about', 'RS', '刘铮', '于萍', '肖莉', 'van', '晏耀斌', 'cannot', 'Agricu

该模型可用于计算词汇表外单词的单词向量。

In [5]:
print(model['学习']) # get the vector of the word 'king'

[-0.002002523047849536, -0.0014273242559283972, -0.0046239858493208885, -0.0019225551513954997, -0.007008204236626625, -0.0012244656682014465, -0.00361973000690341, -0.002159670926630497, -0.003465501358732581, -0.00503111258149147, -0.0011228061048313975, -0.0021448731422424316, 0.005231955088675022, 0.0006954653072170913, -0.0007082118536345661, 0.003373697167262435, 0.0015348256565630436, -0.003686396172270179, 0.0029954963829368353, 0.00315721589140594, -0.0009810400661081076, 0.0037699907552450895, 0.0037065993528813124, -0.0057470062747597694, -0.0028625684790313244, -0.007073643617331982, -0.003117545507848263, -0.004474065266549587, 0.0016964590176939964, -0.0033859736286103725, 0.004812533967196941, -0.00019462266936898232, 0.0014957208186388016, -0.0031692003831267357, -0.00027316593332216144, -0.0011344285449013114, -0.004662750288844109, 0.0005108349723741412, 1.6824964404804632e-05, 0.0017612231895327568, -0.004962125793099403, -0.0019888856913894415, 0.002233257982879877,

加载预训练的模型

In [6]:
model = fasttext.load_model('model.bin')
print(model.words) # list of words in dictionary
print(model['king']) # get the vector of the word 'king'

{'developed', '部', 'degli', 'home', 'Maria', '出场人物:', 'Film', 'my', 'B', 'less', 'Special', 'Cell', 'Certificate', 'market', 'Creed', '—', '操作系统：Windows', 'Fashion', '本刊记者', 'DVD', 'Private', '唐爱明', 'institution', 'Practical', 'Theft', 'research,', 'E', 'et', '王晓静', 'Columbia', 'DirectX', 'are', 'Health', '(University', 'word', 'right', 'Assassins', 'heart', 'Inc。*', '一键关注新浪游戏播报（微博）：http://weibo.com/gamereport\xa0\xa0', 'Oxette', '1居', '徐效鸿', 'College', 'STARLEAGUE:', '环境工程学系', 'each', 'close', 'week', 'Walliams', 'private', '陈爽', '9.0c', 'Dead', 'VS\xa0', 'IS在镜头中采用了USM（Ultrasonic', '实习记者', 'Society', 'Community', 'des', 'Dress', 'Professional', '康延芳', '【新浪游戏专稿，转载请注明来源】\xa0\xa0\xa0', '#2', '超级大盘股中国建筑获IPO批文', 'Beautiful', '(郑伟柏)', 'Freiberg', 'Hong', '翟敏', '姚晓丹', '8800', 'Wychowania', 'money', 'really', 'C', 'Guide', 'Real', 'Audi', 'known', 'Days', '于祥明', 'Lively(布莱克', '沈梅', '户型', 'B+德维恩-韦德', '最新楼盘户型展示', 'Paris', 'honor', 'about', 'RS', '刘铮', '于萍', '肖莉', 'van', '晏耀斌', 'cannot', 'Agricu

## 文本分类 ##
训练监督文本分类器，并从fastText加载预训练的分类器。

In [7]:
import sys
from collections import Counter

import numpy as np
#import tensorflow.contrib.keras as kr

if sys.version_info[0] > 2:
    is_py3 = True
else:
    reload(sys)
    sys.setdefaultencoding("utf-8")
    is_py3 = False

def native_word(word, encoding='utf-8'):
    """如果在python2下面使用python3训练的模型，可考虑调用此函数转化一下字符编码"""
    if not is_py3:
        return word.encode(encoding)
    else:
        return word


def native_content(content):
    if not is_py3:
        return content.decode('utf-8')
    else:
        return content


def open_file(filename, mode='r'):
    """
    常用文件操作，可在python2和python3间切换.
    mode: 'r' or 'w' for read or write
    """
    if is_py3:
        return open(filename, mode, encoding='utf-8', errors='ignore')
    else:
        return open(filename, mode)


def read_file(filename):
    """读取文件数据"""
    contents, labels = [], []
    with open_file(filename) as f:
        for line in f:
            try:
                label, content = line.strip().split('\t')
                if content:
                    contents.append(list(native_content(content)))
                    labels.append(native_content(label))
            except:
                pass
    return contents, labels


def build_vocab(train_dir, vocab_dir, vocab_size=5000):
    """根据训练集构建词汇表，存储"""
    data_train, _ = read_file(train_dir)

    all_data = []
    for content in data_train:
        all_data.extend(content)

    counter = Counter(all_data)
    count_pairs = counter.most_common(vocab_size - 1)
    words, _ = list(zip(*count_pairs))
    # 添加一个 <PAD> 来将所有文本pad为同一长度
    words = ['<PAD>'] + list(words)
    open_file(vocab_dir, mode='w').write('\n'.join(words) + '\n')


def read_vocab(vocab_dir):
    """读取词汇表"""
    # words = open_file(vocab_dir).read().strip().split('\n')
    with open_file(vocab_dir) as fp:
        # 如果是py2 则每个值都转化为unicode
        words = [native_content(_.strip()) for _ in fp.readlines()]
    word_to_id = dict(zip(words, range(len(words))))
    return words, word_to_id


def read_category():
    """读取分类目录，固定"""
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']

    categories = [native_content(x) for x in categories]

    cat_to_id = dict(zip(categories, range(len(categories))))

    return categories, cat_to_id


def to_words(content, words):
    """将id表示的内容转换为文字"""
    return ''.join(words[x] for x in content)


def process_file(filename, word_to_id, cat_to_id, max_length=600):
    """将文件转换为id表示"""
    contents, labels = read_file(filename)

    data_id, label_id = [], []
    for i in range(len(contents)):
        data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])
        label_id.append(cat_to_id[labels[i]])

    # 使用keras提供的pad_sequences来将文本pad为固定长度
    x_pad = keras.preprocessing.sequence.pad_sequences(data_id, max_length)
    y_pad = keras.utils.to_categorical(label_id, num_classes=len(cat_to_id))  # 将标签转换为one-hot表示

    return x_pad, y_pad


def batch_iter(x, y, batch_size=64):
    """生成批次数据"""
    data_len = len(x)
    num_batch = int((data_len - 1) / batch_size) + 1

    indices = np.random.permutation(np.arange(data_len))
    x_shuffle = x[indices]
    y_shuffle = y[indices]

    for i in range(num_batch):
        start_id = i * batch_size
        end_id = min((i + 1) * batch_size, data_len)
        yield x_shuffle[start_id:end_id], y_shuffle[start_id:end_id]

In [8]:
# 载入训练集与验证集
if not os.path.exists(vocab_dir):  # 如果不存在词汇表，重建
        build_vocab(train_dir, vocab_dir, config.vocab_size)
categories, cat_to_id = read_category()
words, word_to_id = read_vocab(vocab_dir)
x_train, y_train = process_file(train_dir, word_to_id, cat_to_id, 600)
x_val, y_val = process_file(val_dir, word_to_id, cat_to_id, 600)

In [17]:
content, label = read_file(train_dir)


In [20]:
mylabel = ["__label__"+item for item in label]
mycontent = []
for item in content:
    tmp = ""
    for x in item:
        tmp += x
    mycontent.append(tmp)


'__label__体育,马晓旭意外受伤让国奥警惕 无奈大雨格外青睐殷家军记者傅亚雨沈阳报道 来到沈阳，国奥队依然没有摆脱雨水的困扰。7月31日下午6点，国奥队的日常训练再度受到大雨的干扰，无奈之下队员们只慢跑了25分钟就草草收场。31日上午10点，国奥队在奥体中心外场训练的时候，天就是阴沉沉的，气象预报显示当天下午沈阳就有大雨，但幸好队伍上午的训练并没有受到任何干扰。下午6点，当球队抵达训练场时，大雨已经下了几个小时，而且丝毫没有停下来的意思。抱着试一试的态度，球队开始了当天下午的例行训练，25分钟过去了，天气没有任何转好的迹象，为了保护球员们，国奥队决定中止当天的训练，全队立即返回酒店。在雨中训练对足球队来说并不是什么稀罕事，但在奥运会即将开始之前，全队变得“娇贵”了。在沈阳最后一周的训练，国奥队首先要保证现有的球员不再出现意外的伤病情况以免影响正式比赛，因此这一阶段控制训练受伤、控制感冒等疾病的出现被队伍放在了相当重要的位置。而抵达沈阳之后，中后卫冯萧霆就一直没有训练，冯萧霆是7月27日在长春患上了感冒，因此也没有参加29日跟塞尔维亚的热身赛。队伍介绍说，冯萧霆并没有出现发烧症状，但为了安全起见，这两天还是让他静养休息，等感冒彻底好了之后再恢复训练。由于有了冯萧霆这个例子，因此国奥队对雨中训练就显得特别谨慎，主要是担心球员们受凉而引发感冒，造成非战斗减员。而女足队员马晓旭在热身赛中受伤导致无缘奥运的前科，也让在沈阳的国奥队现在格外警惕，“训练中不断嘱咐队员们要注意动作，我们可不能再出这样的事情了。”一位工作人员表示。从长春到沈阳，雨水一路伴随着国奥队，“也邪了，我们走到哪儿雨就下到哪儿，在长春几次训练都被大雨给搅和了，没想到来沈阳又碰到这种事情。”一位国奥球员也对雨水的“青睐”有些不解。'

In [24]:
train_data = []
for (x, y) in zip(mylabel, mycontent):
    train_data.append(x + ','+y)

In [29]:
train_data_txt =pd.DataFrame(train_data)
train_data_txt.to_csv('data.train.txt')

In [30]:
classifier = fasttext.supervised('data.train.txt', 'model', label_prefix='__label__')


In [31]:
val, la= read_file(val_dir)
valcontent = []
for item in valcontent:
    tmp = ""
    for x in item:
        tmp += x
    mycontent.append(tmp)

valcontent = pd.DataFrame(valcontent)
test_txt = valcontent.to_csv('test.txt')

In [32]:
result = classifier.test('test.txt')
print('P@1:', result.precision)
print('R@1:', result.recall)
print('Number of examples:', result.nexamples)

P@1: nan
R@1: nan
Number of examples: 0
