# 数据存储相关工具

## 文件存储  


### txt文本存储  
```
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
```
<ul>
<li>file: 必需，文件路径（相对或者绝对路径）。</li>
<li>mode: 可选，文件打开模式</li>
<li>buffering: 设置缓冲</li>
<li>encoding: 一般使用utf8</li>
<li>errors: 报错级别</li>
<li>newline: 区分换行符</li>
<li>closefd: 传入的file参数类型</li>
<li>opener:</li>
</ul>


<table class="reference">
<tbody><tr><th style="width:10%">模式</th><th>描述</th></tr>
<tr><td>t</td><td>文本模式 (默认)。</td></tr>
<tr><td>x</td><td>写模式，新建一个文件，如果该文件已存在则会报错。</td></tr>
<tr><td>b</td><td>二进制模式。</td></tr>
<tr><td>+</td><td>打开一个文件进行更新(可读可写)。</td></tr>
<tr><td>U</td><td>通用换行模式（不推荐）。</td></tr>
<tr><td>r</td><td>以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。</td></tr>
<tr><td>rb</td><td>以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。</td></tr>
<tr><td>r+</td><td>打开一个文件用于读写。文件指针将会放在文件的开头。</td></tr>
<tr><td>rb+</td><td>以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。</td></tr>
<tr><td>w</td><td>打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。</td></tr>
<tr><td>wb</td><td>以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。</td></tr>
<tr><td>w+</td><td>打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。</td></tr> 
<tr><td>wb+</td><td>以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。</td></tr>


<tr><td>a</td><td>打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。</td></tr> 
<tr><td>ab</td><td>以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。</td></tr> 
<tr><td>a+</td><td>打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。</td></tr> 
<tr><td>ab+</td><td>以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。</td></tr>

</tbody></table>



In [11]:
#example 1
import requests 
from  pyquery import PyQuery as pq

proxies = {
    'http':'socks5://127.0.0.1:1080',
    'https':'socks5://127.0.0.1:1080'
}

url  = 'https://www.zhihu.com/explore' 
headers = {
    
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
html = requests.get(url,headers=headers,proxies=proxies).text
doc = pq(html)  

items = doc('.explore-tab .explore-feed ').items()
for item in items:
    #print(item)
    question = item.find('h2').text()
    author = item.find('.author-link').text()
    answer = pq(item.find('.content').html()).text()
    # 参数a表示以追加的形式写入文件
    file = open('zhihu-explore.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write('\n' + '=' * 50 + '\n')
    #关闭文件对象
    file.close()
    
    # 文件读写部分 等价写法 不需要调用closes()
    with open('zhihu-explore.txt','a',encoding='utf-8'):
        file.write('\n'.join([question,author,answer]))
        file.write('\n' + '=' * 50 + '\n')

## json 文件存储  


In [1]:
# example of json 
[
    {
    "name":"Bob",
    "gender":"male",
    "birthday":"1992-10-18"
    },
    {
     "name":"Selina",
    "gender":"female",
    "birthday":"1995-10-18"   
    }
]

[{}]

### 读取json  
> json 库中的loads()将json文本字符串转化为json对象,可以通过dumps()将json 对象转为文本字符串  


In [13]:
# example 
import json 

# 注意 json 中必须用双引号 不然loads解析方法会失败
str='''
[{
    "name":"Bob",
    "gender":"male",
    "birthday":"1992-10-18"
},{
     "name":"Selina",
    "gender":"female",
    "birthday":"1995-10-18"   
}]
'''

print(type(str))
data = json.loads(str)
print(type(data))
print(data)

<class 'str'>
<class 'list'>
[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Selina', 'gender': 'female', 'birthday': '1995-10-18'}]


get() 传入键名,若键值存在返回 ,不存在 返回None ;还可以传入第二个参数为默认值,在键不存在时 生效

In [16]:
# 索引获取json中的信息
# 以下两个方法作用相同
print(data[0]['name'])
print(data[0].get('name'))

print(data[0].get('age'))
print(data[0].get('age',25))

Bob
Bob
None
25


### 文本读取

In [19]:
import json 
 
with open('test.json','r') as file:
    str = file.read()
    data = json.loads(str)
    print(data)

[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Selina', 'gender': 'female', 'birthday': '1995-10-18'}]


### 输出json  
dumps() 将json 对象转化为字符串  
dumps() 第一个参数为json 对象 ,ident参数决定缩进字符个数,默认无缩进

In [28]:
import json 

data = [{
    "name":"Bob",
    "gender":"male",
    "birthday":"1992-10-18"
},{
     "name":"Selina",
    "gender":"female",
    "birthday":"1995-10-18"   
}]

# encoding = 'utf-8' 使中文字符正常显示和写入
with open('test.json','a',encoding='utf-8') as file:
    file.write(json.dumps(data))
    file.write('\n'+'-'*50+'无缩进'+'-'*50)
    file.write(json.dumps(data,indent=2))

##  CSV 文件存储 
> csv 特定字符分隔的纯文本   
writer() 初始化对象传入打开的文件句柄  
调用writerow()传入每行的数据

In [31]:
# example 

import csv 

with open('data.csv','w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id','name','age'])
    writer.writerow(['1001','mike','20'])
    writer.writerow(['1002','bob','22'])
    writer.writerow(['1003','jorden','21'])

### 修改列与列的分隔符 

In [33]:
import csv 

#传入delimiter参数 
with open('data.csv','a') as csvfile:
    # 将分隔符改为空格
    writer = csv.writer(csvfile,delimiter=' ')
    writer.writerow(['id','name','age'])
    writer.writerow(['1001','mike','20'])
    writer.writerow(['1002','bob','22'])
    writer.writerow(['1003','jorden','21'])
    

#### 同时写入多行　
writerows() 传入二维列表

In [37]:
import csv 

#传入delimiter参数 
with open('data.csv','a') as csvfile:
    # 将分隔符改为|
    writer = csv.writer(csvfile,delimiter='|')
    writer.writerow(['id','name','age'])
    writer.writerows([['1001','mike','20'],['1002','bob','22'],['1003','jorden','21']])

    

#### 字典数据写入csv

定义fieldnames 字段名 传入csv,DictWriter初始化  
csv.DictWriter()初始化字典写入对象  
writeheader() 写入头信息  
writerow() 写入相应字典数据 

In [42]:
import csv 

with open('data.csv','a') as csvfile:
    fieldnames = ['id','name','age']
    writer = csv.DictWriter(csvfile,fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'id':'1001','name':'mike','age':'20'})
    writer.writerow({'id':'1002','name':'bob','age':'22'})
    writer.writerow({'id':'1003','name':'jorden','age':'21'})
    


#### csv 文件读取 

In [43]:
import csv 

with open('data.csv','r') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

['id', 'name', 'age']
['1001', 'mike', '20']
['1002', 'bob', '22']
['1003', 'jorden', '21']
['id name age']
['1001 mike 20']
['1002 bob 22']
['1003 jorden 21']
['id name age']
['1001 mike 20']
['1002 bob 22']
['1003 jorden 21']
['id|name|age']
['1001|mike|20']
['1002|bob|22']
['1003|jorden|21']
['id|name|age']
['1001|mike|20']
['1002|bob|22']
['1003|jorden|21']
['id', 'name', 'age']
['1001', 'mike', '20']
['1002', 'bob', '22']
['1003', 'jorden', '21']
['id', 'name', 'age']
['1001', 'mike', '20']
['1002', 'bob', '22']
['1003', 'jorden', '21']
