# 新闻文本分类

- 学习链接：https://github.com/datawhalechina/team-learning-nlp/tree/master/NewsTextClassification
- 比赛链接：[零基础入门NLP - 新闻文本分类 - 天池](https://tianchi.aliyun.com/competition/entrance/531810/introduction)

## Task1

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV&postId=118252

任务一主要是理解赛题和数据，并没实际工作量。

数据下载解压之后，得到三个文件：

```
test_a.csv               211M
test_a_sample_submit.csv 98K
train_set.csv            840M
```

训练集和测试集都对字符进行了匿名处理，所以不用分词这一步。

训练数据有 20w 条，使用 `\t` 分隔，第一列为标签，第二列为文本。标签有 14 类，其对应关系为：

```
科技: 0
股票: 1
体育: 2
娱乐: 3
时政: 4
社会: 5
教育: 6
财经: 7
家居: 8
游戏: 9
房产: 10
时尚: 11
彩票: 12
星座: 13
```

## Task2

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.9.6406111aIKCSLV&postId=118253

任务二需要完成以下作业：

1. 假设字符 3750，字符 900 和字符 648 是句子的标点符号，请分析赛题每篇新闻平均由多少个句子构成？
2. 统计每类新闻中出现次数对多的字符

### 文本长度

In [5]:
import pandas as pd

train_df = pd.read_csv('data/train_set.csv', sep='\t')

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split()))
train_df['text_len'].describe()

count    200000.000000
mean        907.207110
std         996.029036
min           2.000000
25%         374.000000
50%         676.000000
75%        1131.000000
max       57921.000000
Name: text_len, dtype: float64

可以看出，平均每篇新闻有 907 个字符，最短的有 2 个字符，最长的有 57921 个字符。

### 新闻类别分布

统计每类新闻的样本个数。样本分布不平均，最少的只有 908 个，最多的达到了 38918 个。

In [6]:
train_df['label'].value_counts()

0     38918
1     36945
2     31425
3     22133
4     15016
5     12232
6      9985
7      8841
8      7847
9      5878
10     4920
11     3131
12     1821
13      908
Name: label, dtype: int64

### Q1

对于问题一，需要把每篇文章的句子按标点符号切分后再计算句子个数，可直接正则模块切分。

In [8]:
import re

import pandas as pd


train_df['sentences'] = train_df['text'].apply(lambda x: len([s for s in re.split(r'\b(?:3750|900|648)\b', x) if s]))
train_df['sentences'].mean()

78.922815

可以看出，每篇新闻平均有 79 个句子。

### Q2

问题二需要先根据新闻类别分类后再统一数据，这里使用到了 `loc` 对列数据进行筛选。

In [2]:
from collections import Counter

for label in range(14):
    c = Counter()
    df = train_df['text'].loc[train_df['label']==label].apply(lambda x: x.split())
    for news in df:
        c.update(Counter(news))
    print('新闻类别 {} 出现最多的字符为 {}，共出现 {} 次'.format(label, *c.most_common(1)[0]))


新闻类别 0 出现最多的字符为 3750，共出现 1267331 次
新闻类别 1 出现最多的字符为 3750，共出现 1200686 次
新闻类别 2 出现最多的字符为 3750，共出现 1458331 次
新闻类别 3 出现最多的字符为 3750，共出现 774668 次
新闻类别 4 出现最多的字符为 3750，共出现 360839 次
新闻类别 5 出现最多的字符为 3750，共出现 715740 次
新闻类别 6 出现最多的字符为 3750，共出现 469540 次
新闻类别 7 出现最多的字符为 3750，共出现 428638 次
新闻类别 8 出现最多的字符为 3750，共出现 242367 次
新闻类别 9 出现最多的字符为 3750，共出现 178783 次
新闻类别 10 出现最多的字符为 3750，共出现 180259 次
新闻类别 11 出现最多的字符为 3750，共出现 83834 次
新闻类别 12 出现最多的字符为 3750，共出现 87412 次
新闻类别 13 出现最多的字符为 3750，共出现 33796 次
