## 1. 数据清洗
数据清洗包括以下几个步骤：
+ 类别标签转换为数值标签
+ 评论文本去掉标点符号、停用词
+ 评论文本分词

In [1]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt

In [2]:
data = pd.read_csv('./data/online_shopping_10_cats.csv')
data.dropna(axis=0, inplace=True)
data.shape

(62773, 3)

In [3]:
import re

def text_clean(line):
    line = str(line)
    if line == '':
        return
    rule = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")
    line = rule.sub('', line)
    return line

def remove_stopwords():
    file = './data/cn_stopwords.txt'
    stopwords = [line.strip() for line in open(file, 'r', encoding='utf-8').readlines()]
    return stopwords

In [4]:
import jieba

stopwords = remove_stopwords()
data['clean_review'] = data['review'].apply(text_clean)
data['cut_review'] = data['clean_review'].apply(lambda line: " ".join([w for w in jieba.cut(line) if w not in stopwords]))

data.sample(10)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\cuda\AppData\Local\Temp\jieba.cache
Loading model cost 0.514 seconds.
Prefix dict has been built successfully.


Unnamed: 0,cat,label,review,clean_review,cut_review
41896,衣服,1,还可以 裤子我穿上大小合适 穿上很舒服 样式不错,还可以裤子我穿上大小合适穿上很舒服样式不错,裤子 穿 大小 合适 穿 舒服 样式 不错
45945,衣服,0,就这衣服卖***你过来 我保证不打死你 一点弹性没有 普通的地摊货 可以说连地摊货都不如 大...,就这衣服卖你过来我保证不打死你一点弹性没有普通的地摊货可以说连地摊货都不如大家别被坑了,衣服 卖 过来 保证 打死 一点 弹性 没有 普通 地摊货 说 地摊货 坑
23132,水果,0,买了两箱，80mm红富士，但箱内苹果一大一小，颜色也不一致有的苹果只有60mm，有的还有烂痕...,买了两箱80mm红富士但箱内苹果一大一小颜色也不一致有的苹果只有60mm有的还有烂痕不满意希...,买 两箱 80mm 红富士 箱内 苹果 一大 一小 颜色 一致 苹果 60mm 烂痕 满意 ...
35580,洗发水,0,用了一段时间，头皮痒，起疮。再也不买了。,用了一段时间头皮痒起疮再也不买了,一段时间 头皮 痒 起疮 再也 不买
56961,酒店,1,"住的是豪华单人房,房间很大,但是空调明显不足,冷死了补充点评 2008年1月25日 ： 还有...",住的是豪华单人房房间很大但是空调明显不足冷死了补充点评2008年1月25日还有房间灯光昏暗,住 豪华 单人房 房间 很大 空调 明显 不足 冷死 补充 点评 2008 年 月 25 日...
30423,洗发水,1,不错 买了很多这个牌子的洗发水 好洗啊不错,不错买了很多这个牌子的洗发水好洗啊不错,不错 买 很多 牌子 洗发水 洗 不错
56388,酒店,1,感觉还可以，价格也不错！在当地也没有认真去看其他酒店，比较也不大。,感觉还可以价格也不错在当地也没有认真去看其他酒店比较也不大,感觉 价格 不错 没有 认真 酒店 比较 不大
28803,洗发水,1,大牌子的产品，用用看看到底怎么样,大牌子的产品用用看看到底怎么样,牌子 产品 看看 到底
56114,酒店,1,房间地理位置不怎么好，比较背，藏起来一样的，后面就是居民楼，没有任何风景。不过房间很新，服务...,房间地理位置不怎么好比较背藏起来一样的后面就是居民楼没有任何风景不过房间很新服务挺好适合长期...,房间 地理位置 不怎么 比较 背藏 起来 后面 居民楼 没有 风景 房间 新 服务 挺 适合...
8044,平板,1,用了几天来评论的，速度不错，屏幕够清晰，华为的值得使用，而且自我感觉比苹果的要好些，比例合适...,用了几天来评论的速度不错屏幕够清晰华为的值得使用而且自我感觉比苹果的要好些比例合适办公阅读P...,几天 评论 速度 不错 屏幕 够 清晰 华为 值得 使用 自我感觉 苹果 好些 比例 合适 ...


In [5]:
cat_id_tuple = data['cat'].factorize()
data['cat_id'] = cat_id_tuple[0]
data.sample(10)

Unnamed: 0,cat,label,review,clean_review,cut_review,cat_id
37453,蒙牛,1,大蒙牛酸酸乳 #还好我们有苏妙玲#,大蒙牛酸酸乳还好我们有苏妙玲,蒙牛 酸酸乳 还好 苏妙玲,6
36965,蒙牛,1,蒙牛高管撤出蒙牛后做的，最近很低调的火了！,蒙牛高管撤出蒙牛后做的最近很低调的火了,蒙牛 高管 撤出 蒙牛 做 最近 低调 火,6
7573,平板,1,宝贝很好，老爸很喜欢，速度快，看视频清晰，玩游戏不卡，手机不热！！真的超级超值！！！,宝贝很好老爸很喜欢速度快看视频清晰玩游戏不卡手机不热真的超级超值,宝贝 老爸 喜欢 速度 快 视频 清晰 玩游戏 不卡 手机 不热 真的 超级 超值,1
24998,水果,0,这次买的苹果又有烂的，真的越来越不给力了,这次买的苹果又有烂的真的越来越不给力了,买 苹果 烂 真的 越来越 不给力,3
12435,平板,0,退，搞笑，你搞笑早上我下单的时候你怎么不说，这单你别买了，买了还要退,退搞笑你搞笑早上我下单的时候你怎么不说这单你别买了买了还要退,退 搞笑 搞笑 早上 下单 不说 这单 买 买 退,1
10893,平板,0,明明买的是全网通，收到的却是移动全网通，找客服，居然推来推去，要么就不理，两者价格可是有差异...,明明买的是全网通收到的却是移动全网通找客服居然推来推去要么就不理两者价格可是有差异的京东欺骗...,明明 买 全 网通 收到 却是 移动 全 网通 找 客服 居然 推来推去 不理 价格 差异 ...,1
7665,平板,1,送货速度快，平板反应快，还带护眼功能,送货速度快平板反应快还带护眼功能,送货 速度 快 平板 反应 快 带 护眼 功能,1
57729,酒店,1,4月30日入住会所房，大概经过多次博螯论坛的磨练，酒店终于达到了超五星的标准。房间硬件没的说...,4月30日入住会所房大概经过多次博螯论坛的磨练酒店终于达到了超五星的标准房间硬件没的说超级大...,月 30 日 入住 会所房 大概 多次 博螯 论坛 磨练 酒店 终于 达到 超 五星 标准 ...,9
57820,酒店,0,其他都不错，就是隔音太差，几乎相当于没间隔。隔壁住的是小情侣，闹腾一晚上，害的我一晚上没睡好,其他都不错就是隔音太差几乎相当于没间隔隔壁住的是小情侣闹腾一晚上害的我一晚上没睡好,不错 隔音 太 差 几乎 相当于 没 间隔 隔壁 住 情侣 闹腾 晚上 害 晚上 没睡,9
33751,洗发水,0,京东自营这款99元的清扬洗发水是假货。经仔细比对后，发现和正规超市的不一样，大家谨慎购买。,京东自营这款99元的清扬洗发水是假货经仔细比对后发现和正规超市的不一样大家谨慎购买,京东 自营 这款 99 元 清扬 洗发水 假货 仔细 发现 正规 超市 谨慎 购买,4


## 2. 数据准备

包括以下几个步骤：
1. 将原始数据集划分为测试集（70%）、验证集（20%）、测试集（10%）
2. 将划分后的数据保存为fasttext模型可读取的.txt格式

In [6]:
from sklearn.model_selection import train_test_split as tts

train_data, test_data = tts(data, test_size=0.1)
train_data, valid_data = tts(train_data, test_size=0.2)
print(train_data.shape)
print(valid_data.shape)
print(test_data.shape)

(45196, 6)
(11299, 6)
(6278, 6)


In [7]:
def text_prepare(path, name, data):
    file = os.path.join(path, name)
    with open(file, 'w', encoding='utf-8') as f:
        for i in range(len(data)):
            cat = '__label__' + str(data.iloc[i]['cat_id']) + ' , '
            review = str(data.iloc[i]['cut_review'])
            # 每写入一行后换行
            f.write(cat+review+'\n')

path = './data'
train_txt = 'train_data.txt'
valid_txt = 'valid_data.txt'
test_txt = 'test_data.txt'
text_prepare(path, train_txt, train_data)
text_prepare(path, valid_txt, valid_data)
text_prepare(path, test_txt, test_data)
print('complete')

complete


## 3. 模型构建

构建模型，对数据集进行训练和验证并记录运行时间

In [8]:
import fasttext.FastText as ft
from time import time

In [9]:
t0 = time()
model = ft.train_supervised('./data/train_data.txt', loss='softmax')
print('Processing time: ', time()-t0)
print(model.test('./data/valid_data.txt'))

Processing time:  0.6083190441131592
(11299, 0.8868926453668466, 0.8868926453668466)


In [10]:
model.save_model('./models/ft_shopping.model')