## 数据分析和预处理

### 1. 读取数据并统计分类数量

In [1]:
import numpy as np
import pandas as pd
from collections import Counter
import jieba

content = pd.read_csv('../data/train.txt', sep='\t', header=None)
content.columns = ['sentence', 'label']
print(content.head(10))
print(len(content))

                    sentence  label
0         中华女子学院：本科层次仅1专业招男生      3
1     两天价网站背后重重迷雾：做个网站究竟要多少钱      4
2  东5环海棠公社230-290平2居准现房98折优惠      1
3  卡佩罗：告诉你德国脚生猛的原因 不希望英德战踢点球      7
4    82岁老太为学生做饭扫地44年获授港大荣誉院士      5
5       记者回访地震中可乐男孩：将受邀赴美国参观      5
6          冯德伦徐若�隔空传情 默认其是女友      9
7     传郭晶晶欲落户香港战伦敦奥运 装修别墅当婚房      1
8           《赤壁OL》攻城战诸侯战硝烟又起      8
9                “手机钱包”亮相科博会      4
180000


In [2]:
count = Counter(content.label.values)
print(count)
print(len(count))

Counter({3: 18000, 4: 18000, 1: 18000, 7: 18000, 5: 18000, 9: 18000, 8: 18000, 2: 18000, 6: 18000, 0: 18000})
10


### 2. 分析样本分布

In [3]:
total = 0
for i, v in count.items():
    # print(i, v)
    total += v
print(total)

for i, v in count.items():
    print(i, v / total * 100, '%')

content['sentence_len'] = content['sentence'].apply(len)
print(content.head(10))

length_mean = np.mean(content['sentence_len'])
length_std = np.std(content['sentence_len'])
print('length_mean = ', length_mean)
print('length_std = ', length_std)

180000
3 10.0 %
4 10.0 %
1 10.0 %
7 10.0 %
5 10.0 %
9 10.0 %
8 10.0 %
2 10.0 %
6 10.0 %
0 10.0 %
                    sentence  label  sentence_len
0         中华女子学院：本科层次仅1专业招男生      3            18
1     两天价网站背后重重迷雾：做个网站究竟要多少钱      4            22
2  东5环海棠公社230-290平2居准现房98折优惠      1            25
3  卡佩罗：告诉你德国脚生猛的原因 不希望英德战踢点球      7            25
4    82岁老太为学生做饭扫地44年获授港大荣誉院士      5            23
5       记者回访地震中可乐男孩：将受邀赴美国参观      5            20
6          冯德伦徐若�隔空传情 默认其是女友      9            17
7     传郭晶晶欲落户香港战伦敦奥运 装修别墅当婚房      1            22
8           《赤壁OL》攻城战诸侯战硝烟又起      8            16
9                “手机钱包”亮相科博会      4            11
length_mean =  19.21257222222222
length_std =  3.8637872533601523


### 3. 分词处理

In [4]:
def cut_sentence(s):
    return list(jieba.cut(s))

# content['words'] = content['sentence'].apply(cut_sentence)
content['words'] = content['sentence'].apply(lambda s: ' '.join(cut_sentence(s)))
content['words'] = content['words'].apply(lambda s: ' '.join(s.split())[:30])
print(content['words'].head())

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.626 seconds.
Prefix dict has been built successfully.


0      中华 女子 学院 ： 本科 层次 仅 1 专业 招 男生
1    两天 价 网站 背后 重重 迷雾 ： 做个 网站 究竟 要 
2    东 5 环 海棠 公社 230 - 290 平 2 居 准现
3    卡佩罗 ： 告诉 你 德国 脚 生猛 的 原因 不 希望 英
4    82 岁 老太 为 学生 做饭 扫地 44 年 获授 港大 
Name: words, dtype: object


In [6]:
content.to_csv('../data/train_new.csv')

### 4.处理验证集和测试集

In [5]:
def data_process(filepath):
    content = pd.read_csv(filepath, sep='\t', header=None)
    content.columns = ['sentence', 'label']
    content['words'] = content['sentence'].apply(lambda s: ' '.join(cut_sentence(s)))
    content['words'] = content['words'].apply(lambda s: ' '.join(s.split())[:30])
    return content

test_data = data_process('../data/test.txt')
print(test_data.head())
val_data = data_process('../data/dev.txt')
print(val_data.head())

                  sentence  label                           words
0   词汇阅读是关键 08年考研暑期英语复习全指南      3  词汇 阅读 是 关键 08 年 考研 暑期 英语 复习 全 
1  中国人民公安大学2012年硕士研究生目录及书目      3  中国 人民 公安大学 2012 年 硕士 研究生 目录 及 
2       日本地震：金吉列关注在日学子系列报道      3      日本 地震 ： 金吉列 关注 在 日 学子 系列报道
3    名师辅导：2012考研英语虚拟语气三种用法      3   名师 辅导 ： 2012 考研 英语 虚拟语气 三种 用法
4        自考经验谈：自考生毕业论文选题技巧      3        自考 经验谈 ： 自 考生 毕业论文 选题 技巧
             sentence  label                      words
0  体验2D巅峰 倚天屠龙记十大创新概览      8   体验 2D 巅峰 倚天 屠龙记 十大 创新 概览
1   60年铁树开花形状似玉米芯(组图)      5  60 年 铁树开花 形状 似 玉米芯 ( 组图 )
2       同步A股首秀：港股缩量回调      2        同步 A股 首秀 ： 港股 缩量 回调
3   中青宝sg现场抓拍 兔子舞热辣表演      8    中青宝 sg 现场 抓拍 兔子 舞 热辣 表演
4            锌价难续去年辉煌      0                锌 价难续 去年 辉煌


In [6]:
test_data.to_csv('../data/test_new.csv')
val_data.to_csv('../data/dev_new.csv')