# 数据再清洗

@PM

在完成了demo的跑通后，我们正在寻求提高准确率的方式，但是回顾到数据中发现了大量问题，我们对问题进行了分类整理，并讨论对策。

### Previously：当前数据分析

所有的数据被集中到texts.db文件中，sqlite3数据库保存，本次分析中我们加入测算了文本平均长度：

```Python
import sqlite3
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("SELECT * from {表名}")
length_text = 0
num_row = 0
for row in cursor:
    length_text += len(row[1])
    num_row += 1
print(length_text/num_row)
```

| 表名 | id范围 | 字段名 | 平均内容长度 | 备注 |
| :----: | :----------------: | :----------------: | :----------------: | :--------: |
| classical | (10000002, 10435045) | (id,texts,type,sourceid) | 80.572 | 文言文 |
| journal | (20000001, 20289729) | (id,texts,type,sourceid) | 184.09 | 期刊论文 |
| news | (30000001, 30212493) | (id,texts,type,sourceid) | 493.885 | 新闻 |
| poet | (40000001, 40308879) | (id,texts,type,sourceid) | 64.91 | 唐诗、宋诗 |
| ci | (50000001, 50021050) | (id,texts,type,sourceid) | 93.74 | 词 |

#### 文言文

1. 读取原文件时，按一行一记录的方式读取，清洗掉了空行和过短的行。

2. 每行并不是严格意义上的语篇，基本一条记录不能构成完整语篇，可能需要和上下记录联系，但是每条记录基本是完整的句子。

3. 文本较为混乱，混入了文言注解、诗篇（可能导致与诗词的混淆）。

4. 存在繁体。

5. 存在纯英文。


#### 期刊论文

1. 读取原文件时按行读取，但是这部分文本一行基本上是一段，实际上一个语篇较长。

#### 新闻文本

1. 读取原文件时按行读取，一行基本上是一个语篇。

2. 存在一些爬取失败的提示/页眉页脚单独出现，这种提示是重复出现的，例如：

> * 遵守中华人民共和国有关法律、法规，尊重网上道德，承担一切因您的行为而直接或间接引起的法律责任。Ｈ嗣裢河南频道拥有管理笔名和留言的一切权力。Ｄ在人民网河南频道留言板发表的言论，人民网河南频道有权在网站内转载或引用。Ｈ缒对管理有意见请向留言板管理员或人民网河南频道反映。
>
> * 中国雅虎侠客平台仅提供信息存储空间服务，其内容均由上网用户提供。中国雅虎提示您尊重权利人之权利。根据相关法律规定，部分内容可能应权利人通知未予显示，请点这里查看。

3. 图片标题、表标题等单独出现在一条记录中

> * 图为表演的演员在换衣服。

#### 诗文本

1. 以整理好的json文件读入，一条记录就是一个语篇。

2. 数据源含有报错信息，根据这些信息清洗了一些问题数据，如方块字、内容过短等。

3. 剩余数据中仍然存在一些单句诗，这是因为清洗时对于过滤文本长度没有设定合理的阈值。


#### 词文本

1. 以整理好的json文件读入，一条记录就是一个语篇。

2. 由于数据源不带报错信息，因此对于数据完全没有清洗，存在一些错误。

3. 存在繁体。

4. 存在方块字。

> 使节行秋，算天也、知公风力。 长啸罢、烟云尽卷，□□□□。 重九汉峰黄泛酒，五更泰岳□观日。 问扬公、去後有谁□，□朝集。 大华□，□□□。 今古□，□陈迹。 甚牛山□□，□□□□。 □□□嫌□薄，高怀□□□□□。 □□□、黄鹤□□□，□相识。  >>  词牌介绍

5. 大量的文本尾部有相同的冗余：`  >>  词牌介绍 `

> 帘卷曲栏独倚。 江展暮天无际。 泪眼不曾晴，家在吴头楚尾。 数点雪花乱委。 扑漉沙鸥惊起。 诗句欲成时，没入苍烟丛里。  >>  词牌介绍

6. 存在较短文本。

## 数据清洗过程·Ⅱ

### 1. 删除较短文本

根据之前对各类文本长度的把握为各类文本指定阈值删除不合理的记录，虽然这样有可能会删除掉一些有效文本，但考虑到数据集数据量较大，删除这些文本的影响不大。
```SQL
DELETE FROM classical
WHERE LENGTH(texts) <= 20
```


```SQL
DELETE FROM journal
WHERE LENGTH(texts) <= 24
```

```SQL
DELETE FROM news
WHERE LENGTH(texts) <= 40
```

```SQL
DELETE FROM poet
WHERE LENGTH(texts) <= 21
```

```SQL
DELETE FROM ci
WHERE LENGTH(texts) <= 9
```

In [1]:
import sqlite3
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("DELETE FROM classical WHERE LENGTH(texts) <= 20")
cursor = c.execute("DELETE FROM journal WHERE LENGTH(texts) <= 24")
cursor = c.execute("DELETE FROM news WHERE LENGTH(texts) <= 40")
cursor = c.execute("DELETE FROM poet WHERE LENGTH(texts) <= 21")
cursor = c.execute("DELETE FROM ci WHERE LENGTH(texts) <= 9")
conn.commit()
conn.close()
print("success")

success


### 2. 删除大规模出现异常字符的记录

#### (1) **词**中出现的`>>  词牌介绍`

对策：含有`>>  词牌介绍`的记录替换删除

In [4]:
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("SELECT * FROM ci")
fkz_data = []
for row in cursor:
    if '>>  词牌介绍' in str(row[1]):
        fkz_data.append([row[1].split('>>  词牌介绍')[0],row[0]])
print(len(fkz_data))
print(fkz_data[0])
c.executemany('UPDATE ci SET texts = (?) WHERE id = (?)',fkz_data).rowcount
conn.commit()
conn.close()

13444
['雨恨云愁，江南依旧称佳丽。 水村渔市。 一缕孤烟细。 天际征鸿，遥认行如缀。 平生事。 此时凝睇。 谁会凭阑意。  ', '50000004']


### (2) **词**中出现`□`

对策：含有`□`的记录直接删除。
--850 rows affected

In [13]:
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("SELECT * FROM ci")
fkz_data = []
for row in cursor:
    if '□' in str(row[1]):
        fkz_data.append(row[0])
print(len(fkz_data))
for i in fkz_data:
    c.execute('DELETE FROM ci WHERE id = {} '.format(i))
conn.commit()
conn.close()

0


### (3) **文言文**中出现纯英文、注解

对策:直接删除.

In [31]:
import re

reg = re.compile(r'[A-Za-z]|[(（][0-9]+[)）]|[①②③④⑤⑥⑦⑧⑨⑩]')
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("SELECT * FROM classical")
fkz_data = []
for row in cursor:
    if re.match(reg,row[1]):
        fkz_data.append(row[0])
print(len(fkz_data))
for i in fkz_data:
    # print('DELETE FROM classical WHERE id = {}'.format(i))
    c.execute('DELETE FROM classical WHERE id = {}'.format(i))
conn.commit()
conn.close()

3421


### (4) **新闻**中出现重复的页脚/提示信息

对策:删除

In [41]:
conn = sqlite3.connect("../data/database/texts.db")
c = conn.cursor()
cursor = c.execute("DELETE FROM news where id in (SELECT id from news GROUP BY texts HAVING COUNT(texts) > 1 ) and id not in (SELECT min(id) from news GROUP BY texts HAVING COUNT(texts) > 1 )")
# cursor = c.execute("SELECT texts from news GROUP BY texts HAVING COUNT(texts) > 1 ")
conn.commit()
conn.close()

### (5)繁体

读入时对文本统一简转繁，此处不处理。