# 数据存储

## 1、TXT文件存储

### 1.1 打开方式
|参数|作用|
|--|--|
|r|以只读方式打开文件，文件指针放在文件头，默认模式|
|rb|以二进制只读方式打开一个文件，文件指针在文件头|
|r+|以读写方式打开文件，文件指针在文件头|
|rb+|以二进制读写方式打开一个文件，文件指针在文件头|
|w|以写入方式打开一个文件，如果文件已存在，则覆盖。若文件不存在，则创建|
|wb|以二进制写入方式打开一个文件，如果文件已存在，则覆盖。若文件不存在，则创建|
|w+|以读写方式打开一个文件，如果文件已存在，则覆盖。若文件不存在，则创建|
|wb+|以二进制读写方式打开一个文件，如果文件已存在，则覆盖。若文件不存在，则创建|
|a|以追加方式打开一个文件，如果文件存在，则文件指针在文件尾。如果文件不存在，则创建|
|ab|以二进制追加方式打开一个文件，如果文件存在，则文件指针在文件尾。如果文件不存在，则创建|
|a+|以读写方式打开一个文件，如果文件存在，则文件指针在文件尾。如果文件不存在，则创建|
|ab+|以二进制追加方式打开一个文件，如果文件存在，则文件指针在文件尾。如果文件不存在，则创建|

做个总结，r模式是以只读的方式打开文件，w模式是以写入的方式打开文件，而且是从头覆盖写入，a模式是以追加的方式打开文件，是在文件尾追加。这是最基本的三种模式，再加上b为以二进制的方式对文件进行操作，+是以读写的方式进行操作。

In [1]:
# 爬取知乎发现页面的热门话题
import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
items = doc('.explore-feed.feed-item').items()
for item in items:
    question = item.find('h2').text()
    author = item.find('.author-link-line').text()
    answer = pq(item.find('.content').html()).text()
    with open('explore.txt', 'a', encoding='utf-8') as file:
        file.write('\n'.join([question, author, answer]))
        file.write('\n' + '-' * 50 + '\n')

## 2、JSON文件存储

JSON全称为JavaScript Object Notation，为JavaScript对象标记。

### 2.1 通过字符串读取JSON
使用loads()方法将JSON文本字符串转为JSON对象，通过dumps()方法将JSON对象转为文本字符串。

In [6]:
import json

str = '''
[{
    "name": "Bob",
    "gender": "male",
    "birthday": "1992-10-18"
}, {
    "name": "Selina",
    "gender": "female",
    "birthday": "1995-10-18"
}]
'''
print(type(str))
data = json.loads(str)
print(data)
print(type(data))
# 获取元素
print(data[0].get('name'))
print(data[0]['name'])
print(data[0].get('age'))
print(data[0].get('age', 25))

<class 'str'>
[{'name': 'Bob', 'birthday': '1992-10-18', 'gender': 'male'}, {'name': 'Selina', 'birthday': '1995-10-18', 'gender': 'female'}]
<class 'list'>
Bob
Bob
None
25


首先JSON解析字符串时，JSON中的数据必须都是用双引号，而不是单引号。获取数据属性推荐用get,因为当该属性不存在时，不会报错，而是返回None，同时在get的属性后，再传入一个参数，类似于若查找不到该属性，则返回其作为属性的默认值。

### 2.2 通过json文件读取json

![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/data%E8%BE%93%E5%85%A5.png?raw=true)

In [7]:
# 将上面的字符串存入data.json文件中
with open('data.json', 'r') as file:
    str = file.read()
    data = json.loads(str)
    print(data)

[{'name': 'Bob', 'birthday': '1992-10-18', 'gender': 'male'}, {'name': 'Selina', 'birthday': '1995-10-18', 'gender': 'female'}]


### 2.3 输出json

In [12]:
import json

data = [{
    'name': 'Bob',
    'gender': 'male',
    'birthday': '1992-10-18'
}]
with open('data.json', 'w') as file:
    file.write(json.dumps(data))

# 缩进保存
with open('data_other.json', 'w') as file:
    file.write(json.dumps(data, indent=2))
    
# 数据中含有中文
data =  [{
    'name': '老王',
    'gender': '男',
    'birthday': '1992-10-18'
}]
with open('data_unicode.json', 'w') as file:
    file.write(json.dumps(data, indent=2))
with open('data_chinese.json', 'w') as file:
    file.write(json.dumps(data, indent=2, ensure_ascii=False))

![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/data%E8%BE%93%E5%87%BA.png?raw=true)
我们可以看到在数据输入到json文件后，单引号全部都变成了双引号。
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/%E8%87%AA%E5%8A%A8%E7%BC%A9%E8%BF%9B.png?raw=true)
在使用indent=2后，会使json保存数据时，按缩进的格式保存。
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/Unicode.png?raw=true)
当JSON数据中含有中文，直接保存时，文件中会以unicode编码的方式保存。
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/chinese.png?raw=true)
使用ensure_ascii=False后，文件中才会正确的显示中文。

## 3、CSV文件存储

CSV全称为Comma-Serparated Values，叫做逗号分隔值或字符分隔值，以纯文本形式存储数据。
### 3.1 CSV写入

In [19]:
import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

# 通过设置delimiter，将分隔符改为指定字符
# 通过writerows一次写入多行
with open('data_delimiter.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(['id', 'name', 'age'])
    writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])

# 去除空行
with open('data_newline.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])
    
# 使用字典写入
with open('data_dict.csv', 'w') as csvfile:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})
    writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})
    writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

writerow()方法即可写入一行数据。<br>
用txt文件打开：
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/%E6%96%87%E6%9C%AC%E5%BD%A2%E5%BC%8Fcsv.png?raw=true)
设置delimiter后，将逗号分隔符改为空格:
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/delimiter.png?raw=true)
用excel文件打开data.csv：
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/excel%E6%9C%89%E7%A9%BA%E8%A1%8C.png?raw=true)
但是存在空行，所以应该在open()时添加newline=''，这样就可以在写入文件时，避免空行。
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/excel%E6%97%A0%E7%A9%BA%E8%A1%8C.png?raw=true)
使用字典写入后的文件：
![image](https://github.com/DRNTT/SpiderImage/blob/master/ch5/%E6%96%87%E6%9C%AC%E5%BD%A2%E5%BC%8Fcsv.png?raw=true)

### 3.2 CSV读取

In [21]:
import csv

with open('data_newline.csv', 'r') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

['id', 'name', 'age']
['10001', 'Mike', '20']
['10002', 'Bob', '22']
['10003', 'Jordan', '21']


## 4、MySQL

In [25]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306)
cursor = db.cursor()
cursor.execute('SELECT VERSION()')
data = cursor.fetchone()
print('Database version:', data)
cursor.execute('CREATE DATABASE spiders DEFAULT CHARACTER SET utf8mb4')
db.close()

Database version: ('8.0.13',)


通过connect()方法获取连接对象，需要传入host,即IP,因为是本机，所以使用localhost，user为用户名，password为密码，port为端口，默认为3306。<br>
连接成功后，使用cursor()方法获得MySQL操作游标，利用游标执行SQL语句。<br>
使用execute()方法执行SQL语句，使用fetchone()方法获取第一条数据。

### 4.1 创建表

In [31]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306, db='spiders')
cursor = db.cursor()
# 创建表
sql = 'create table if not exists students (id varchar(255) not null, name varchar(255) not null, age int not null, primary key(id))'
cursor.execute(sql)
db.close()

### 4.2 插入数据

In [42]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306, db='spiders')
cursor = db.cursor()

# 插入数据
id = '201200002'
name = 'Bob'
age = 20
sql = 'insert into students(id, name, age) values(%s, %s, %s)'
try:
    cursor.execute(sql, (id, name, age))
    db.commit()
except:
    db.rollback()

# 使用字典结构，动态插入数据
data = {
    'id': '33',
    'name': 'Bob',
    'age': 20
}
table = 'students'
keys = ','.join(data.keys())
values = ','.join(['%s'] * len(data))
sql = 'insert into {table} ({keys}) values ({values})'.format(table=table, keys=keys, values=values)
try:
    if cursor.execute(sql, tuple(data.values())):
        print('Successful')
        db.commit()
except:
    print('Falied')
    db.rollback()
db.close()

Successful


**对于数据的插入、更新、删除工作都需要记得调用db对象的commit()方法才能生效。** <br>
rollback()执行数据回滚操作。

### 4.3 更新数据

In [39]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306, db='spiders')
cursor = db.cursor()

# 更新数据
sql = 'update students set age = %s where name = %s'
try:
    cursor.execute(sql, (30, 'Bob'))
    db.commit()
except:
    db.rollback()

# 避免添加重复的数据
data = {
    'id': '33',
    'name': 'Bob',
    'age': 21
}
table = 'students'
keys = ','.join(data.keys())
values = ','.join(['%s'] * len(data))

sql = 'insert into {table} ({keys}) values ({values}) on duplicate key update'.format(table=table, keys=keys, values=values)
update = ','.join([" {key} = %s".format(key=key) for key in data])
sql += update
try:
    if cursor.execute(sql, tuple(data.values()) * 2):
        print('Successful')
        db.commit()
except:
    print('Faild')
    db.rollback()
db.close()

Successful


使用**on duplicate key update**的意思是：如果该主键已经存在，则该插入语句会变为更新操作。

### 4.4 删除数据

In [41]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306, db='spiders')
cursor = db.cursor()

table = 'students'
condition = 'age > 20'

sql = 'delete from {table} where {condition}'.format(table=table, condition=condition)
try:
    cursor.execute(sql)
    db.commit()
except:
    db.rollback()
db.close()

### 4.5 查询数据

In [46]:
import pymysql

db = pymysql.connect(host='localhost', user='root', password='password', port=3306, db='spiders')
cursor = db.cursor()

sql = 'select * from students'
try:
    cursor.execute(sql)
    print('Count:', cursor.rowcount)
    first = cursor.fetchone()
    print('first:', first)
    results = cursor.fetchall()
    print('Result:', results)
    print('Result type:', type(results))
    for row in results:
        print(row)
except:
    print('Error')

Count: 2
first: ('201200002', 'Bob', 20)
Result: (('33', 'Bob', 20),)
Result type: <class 'tuple'>
('33', 'Bob', 20)


这里需要注意的是，一共有记录的条数为2，但是fetchall()方法只获取到了一条，是因为获取数据时，内部有一个偏移指针来指向查询结果，在fetchone()后，指针就指向了第二条数据，所以fetchall()只获取到了一条数据，并且返回的数据类型是元组。