# Task01 赛题理解

**赛题**：零基础入门NLP之新闻文本分类
<br>
**任务**：对新闻文本进行分类(典型的字符识别问题)

## 1.1 赛题数据

+ 赛题数据为新闻文本, 并按照字符级别进行匿名处理;
<br>
+ 数据分为14个分类类别:
`
{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}
`
<br>
+ 训练集 20w 条样本, 测试集 A 包含 5w 条样本, 测试集 B 包含 5w 条样本；

## 1.2 评测指标

+ 评测指标为```f1_score```的均值, 提交结果与实际测试集类别进行对比, 结果越大越好；
<br>
$$F_1 = 2 * \frac{precision + recall}{precision * recall}$$
<br>
+ 有关```f1_score```的知识点可以参考[相关博客](https://blog.csdn.net/qq_14997473/article/details/82684300);

可以通过sklearn完成```f1_score```计算：

In [1]:
from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')

0.26666666666666666

## 1.3 数据读取

使用```Pandas```库完成数据读取操作, 并对赛题数据进行分析.

In [2]:
import pandas as pd

读取数据

In [3]:
train_set = pd.read_csv('./datasets/train_set.csv', sep='\t')

In [4]:
path = './datasets/test_a.csv'
test_a = pd.read_csv(path, sep='\t')

查看数据

In [5]:
train_set.head()  # 查看前几行(默认5行)

Unnamed: 0,label,text
0,2,2967 6758 339 2021 1854 3731 4109 3792 4149 15...
1,11,4464 486 6352 5619 2465 4802 1452 3137 5778 54...
2,3,7346 4068 5074 3747 5681 6093 1777 2226 7354 6...
3,2,7159 948 4866 2109 5520 2490 211 3956 5520 549...
4,3,3646 3055 3055 2490 4659 6065 3370 5814 2465 5...


In [6]:
print(train_set.shape)  # 数据形状
print(test_a.shape)

(200000, 2)
(50000, 1)


In [7]:
train_set.columns  # 查看列名列表

Index(['label', 'text'], dtype='object')

In [8]:
train_set.index  # 查看索引列

RangeIndex(start=0, stop=200000, step=1)

In [9]:
train_set.dtypes  # 查看每一列数据类型

label     int64
text     object
dtype: object

## 1.4 解题思路

赛题本质是一个文本分类问题, 需要根据每句的字符进行分类. 赛题难点在于所给的数据是匿名化的, 无法使用中文分词等操作. 

**思路 1:** TF-IDF + 机器学习分类器
<br>
+ 直接使用 TF-IDF 提取文本特征, 并使用分类器(SVM、LR、XGBoost 等)进行分类. 

**思路 2：** FastText
<br>
+ FastText是入门款的词向量，利用Facebook提供的FastText工具，快速构建出分类器.

**思路 3：** WordVec + 深度学习分类器
<br>
+ WordVec是进阶款的词向量，并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM.

**思路 4：** Bert词向量
+ Bert是高配款的词向量，具有强大的建模学习能力.