# 插入文本（文言文、期刊论文、新闻）到数据库

## 前言

这三类文本文件源比较特殊，每一个文本只提供了一个.txt文件，但是大小非常大：

| 文件名 | 大小 |
| :------: | :------: |
| 期刊论文文本.txt | 140.57 MB |
| 文言文数据.txt | 100.00 MB |
| data.txt | 299.00 MB |

在Windows下使用记事本打开单个这样的文件耗费非常大，因此团队决定将其拆分为多个小文件，以便人工阅读分析归律。

*拆分方法：[spliter.py](./spliter.py)*

拆分后的每个文件都小于3M，行数限制在1800行以内.分别存储在以下目录：

| 目录名 | 文件名格式 | 文件数量 |
| :------: | :------: | :---: |
| ..data/classical/ | c_list_x.txt | 273 |
| ..data/journal/ | j_list_x.txt | 161 |
| ..data/news/ | n_list_x.txt | 119 |

## 文言文数据清洗与插入
总览文言文发现有以下问题
1. 单行过短：

> 　　**○成都王**
>
>　　成都王围京邑，城中鱼肉无出，营巷卖死驴马肉，杂死人肉卖之。　　成都王围京邑，城中无菜，采陈韭芥以为膳菜。
>
>　　**○张方**
>
>　　张方兵入洛，诸官府大劫掠，御宝织成流苏皆分剖为马帴。　　张方围京邑，决千金堰，千沟渠枯涸，井多无泉。
>
>　　**○荀勖**
>
>　　钟律之器，自周之末废，而汉成哀之间，诸儒修而治之。至后汉末，复隳矣。

这一类基本为标题，与分析**语篇文本**关系不密切，经讨论决定使用文本密度算法，对于长度较短的文本采取不插入的措施。

2. 冗余换行符：

切分的过程中发现有的单行基本无内容：

> 采茶。
>
>
>
>　　采茶之候贵及其时。太早则味全迟则神散。以谷雨前五日为上。后五日次之。再五日又次之。芽紫者为上。面皱者次之团叶又次之。光面如筱叶者最下。撤夜无云浥露采者为上。日中采者次之。阴雨中不宜采。产谷中者为上。竹下者次之。烂石中者又次之。黄砂中者又次之。
>
>
>
>　　造茶。
>
>
>
>　　新采拣去。叶及枝梗碎屑。锅广二尺四寸。将一斤半焙之。候锅极热始下急炒火不可缓。待熟方退火彻入筛中轻团那数遍。下锅中渐渐减火焙干为度中有玄微难以言显。火候均停色香全美。玄微未究神味俱疲。
>
>
>
>　　辨茶。
>
>
>
>　　之玅。在乎始造之精藏之得法泡之得宜。优劣定乎始锅。淸浊系乎末火。火香淸锅寒神倦火猛生焦柴疎失翠。久延则过熟早起却还生。熟则犯黄生则着黑。顺那则甘逆那则涩。带白点者无妨。絶焦点者最胜。
>

判断应该是换行符冗余了，检测一遍发现基本上只存在一个换行符，因此用1的策略也能去除。



经检查texts.db文件，文言文记录的编号10000002-10435045

## 期刊论文数据插入

期刊论文大体上问题不大，故采用相同的插入策略

* 以后要处理的问题：

1. 期刊中存在古文

2. 期刊中存在公式



In [3]:
import os
import sqlite3
import time


db_location = r'../data/database/texts.db'
db = sqlite3.connect(db_location)
cur = db.cursor()
print('\r数据库连接成功！',end='')
sql = '''
INSERT INTO journal (texts,type,sourceid)
VALUES (?,'modern',?)
'''

fdir = r'../data/journal/'
for fname in os.listdir(fdir):
    data = []
    with open(fdir+fname,mode='r',encoding='UTF-8') as file:
        for line in file:
            if(len(line) > 10):
                cur.execute(sql,[str(line),fname])
        file.close()
        print('\r插入'+str(fname)+'的数据成功！',end='')
db.commit()
db.close()     
print('\r已全部插入。')

已全部插入。st_99.txt的数据成功！！


经检查texts.db文件，期刊论文记录的编号20000001-20289729

## 新闻文本数据插入

新闻文本大体上问题不大，故采用相同的策略。

* 以后需要处理的问题：

1. 乱码

2. 广告文本、链接标题文本

In [4]:
import os
import sqlite3
import time


db_location = r'../data/database/texts.db'
db = sqlite3.connect(db_location)
cur = db.cursor()
print('\r数据库连接成功！',end='')
sql = '''
INSERT INTO news (texts,type,sourceid)
VALUES (?,'modern',?)
'''

fdir = r'../data/news/'
for fname in os.listdir(fdir):
    data = []
    with open(fdir+fname,mode='r',encoding='UTF-8') as file:
        for line in file:
            if(len(line) > 10):
                cur.execute(sql,[str(line),fname])
        file.close()
        print('\r插入'+str(fname)+'的数据成功！',end='')
db.commit()
db.close()     
print('\r已全部插入。')

已全部插入。st_99.txt的数据成功！！


In [2]:
import os
import sqlite3
import time


db_location = r'../data/database/texts.db'
db = sqlite3.connect(db_location)
cur = db.cursor()
print('\r数据库连接成功！',end='')
sql = '''
INSERT INTO classical (texts,type,sourceid)
VALUES (?,'classical',?)
'''

fdir = r'../data/classical/'
for fname in os.listdir(fdir):
    data = []
    with open(fdir+fname,mode='r',encoding='UTF-8') as file:
        for line in file:
            if(len(line) > 10):
                cur.execute(sql,[str(line),fname])
        file.close()
        print('\r插入'+str(fname)+'的数据成功！',end='')
db.commit()
db.close()     
print('\r已全部插入。')

已全部插入。st_99.txt的数据成功！！


经检查texts.db文件，期刊论文记录的编号30000001-30212493
