# 数据加载、存储与文件格式

读取文本文件和其他更高效的磁盘存储格式；加载数据库中的数据；利用Web API操作网络资源

概论：

    读取合储存文本文件csv、excel文件的方法以及常见参数
    JSON数据的读取，简单的Web API

## 6.1 读写文本格式的数据

常用读取方法：

    read_csv()    加载带分隔符（默认为逗号）的文件、URL等数据。
    read_table()    默认分隔符为制表符 ‘\t’
    read_excel()    读取xls和xlsx表格
pandas文档中对方法的参数有详细解释。P172也有常用参数列表。

    hearder=None 或 names=list：列名。可传入一个list
    index_col=col：用DF的某列作为索引（行名）
    skiprows=：需跳过的行数，或相应的行号（使用列表传入）
    nrows=：读取的行数
    na_values=：一组替换NA的值

In [41]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [2]:
path1 = r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\ex1.csv'
path2 = r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\ex2.csv'
path3 = r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\csv_mindex.csv'
path6 = r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\ex6.csv'

In [4]:
df = pd.read_csv(path1) # 读写文件为pandas顶级方法
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


对于没有标题行的csv，可以让pandas为其分配默认的列名，使用参数 header=None。

若[自定义列名]（DF的列），使用参数 names=

若[选择一列作为行名]（DF的索引），使用参数 index_col=


In [5]:
pd.read_csv(path2, header=None) #默认分配0,1,...,n-1为列名

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
#自定义列名
pd.read_csv(path2, names=['a', 'b', 'c', 'd', 'message']) #使用names参数传入一个list作为列名

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
#选择一列作为索引
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv(path2, names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [8]:
#层次化索引，只需传入相应数据结构的列名或列编号
parsed = pd.read_csv(path3, index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


### 6.1.2 逐块读取文本文件/读取部分文件

In [21]:
pd.options.display.max_rows = 10 #设置显示结果为10行，否则默认的显示结果很长。

result = pd.read_csv(path6)
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [10]:
pd.read_csv(path6, nrows=4) #读取前4行。必须传入整数，无法传入列表。

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R


read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象

In [15]:
chunker = pd.read_csv(path6,chunksize=1000) #可以生成一个迭代器，块状操作原文件数据。

### 6.1.3 将数据写出到文本格式

使用to_csv的方法将数据保存。

### 6.1.4 JSON数据

JSON数据的加载使用json.loads()，将JSON格式转换为Python格式。相反地，使用json.dumps()。

In [29]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""
type(obj)# JSON数据举例。其数据类型为字符串

str

In [30]:
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [31]:
type(result)

dict

JSON对象转换为DataFrame最简单方便的方式是：向DataFrame构造器传入一个字典的列表（就是原先的JSON对象），并选取数据字段的子集：

pandas.read_json可以自动将特别格式的JSON数据集转换为Series或DataFrame。将数据从pandas输出到JSON，可以使用to_json方法：

In [33]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


### XML和HTML：Web信息收集

读取Web页面的表格数据。pandas有一个内置的功能，read_html，它可以使用lxml和Beautiful Soup自动将HTML文件中的表格解析为DataFrame对象。
pandas.read_html有一些选项，默认条件下，它会搜索、尝试解析<table>标签内的的表格数据。结果是一个[列表的DataFrame对象](即列表的每一个元素为一个DF)：

In [34]:
tables = pd.read_html('https://www.fdic.gov/bank/individual/failed/banklist.html')

In [35]:
type(tables) # tables为一个列表的DF。tables的每一个元素均为DF对象。

list

In [51]:
len(tables)

1

In [54]:
df = tables[0]
df

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Washington Federal Bank for Savings,Chicago,IL,30570,Royal Savings Bank,"December 15, 2017","February 1, 2019"
1,The Farmers and Merchants State Bank of Argonia,Argonia,KS,17719,Conway Bank,"October 13, 2017","February 21, 2018"
2,Fayette County Bank,Saint Elmo,IL,1802,"United Fidelity Bank, fsb","May 26, 2017","January 29, 2019"
3,"Guaranty Bank, (d/b/a BestBank in Georgia & Mi...",Milwaukee,WI,30003,First-Citizens Bank & Trust Company,"May 5, 2017","March 22, 2018"
4,First NBC Bank,New Orleans,LA,58302,Whitney Bank,"April 28, 2017","January 29, 2019"
...,...,...,...,...,...,...,...
550,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001","August 19, 2014"
551,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001","November 18, 2002"
552,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001","February 18, 2003"
553,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000","March 17, 2005"


In [56]:
df.to_excel(r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\FailedBanks2.xlsx') 

#to_excel 保存为excel文件; to_csv 保存为csv文件。

In [58]:
close_timestamps = pd.to_datetime(df['Closing Date'])
close_timestamps.dt.year.value_counts() #时间序列

#数据分析示例：计算每年倒闭的银行数量

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 16, dtype: int64

## 6.2 读取Microsoft Excel文件

pandas的ExcelFile类或pandas.read_excel函数支持读取存储在Excel 2003（或更高版本）中的表格型数据。这两个工具分别使用扩展包xlrd和openpyxl读取XLS和XLSX文件。

In [62]:
# 把csv文件写入xlsx文件
eg1 = pd.ExcelFile(r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\ex1.xlsx')

#将已有的csv文件（同名称）写为一个xlsx文件。

In [91]:
df = pd.read_excel(eg1, 'Sheet1')
df

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [92]:
df.drop('Unnamed: 0',axis=1,inplace=True)
lst = ['I','am','strong']
df['NewThing']=Series(lst)

如果要将pandas数据写入为Excel格式，必须首先创建一个ExcelWriter，然后使用pandas对象的to_excel方法将数据写入到其中：

In [94]:
writer = pd.ExcelWriter(r'E:\Coding\Python\Python exercises\pydata-book-2nd-edition\examples\eg2.xlsx')
df.to_excel(writer, 'Sheet1')
writer.save()

#这是将DF写入Excel的基本方法，非常重要。三步：（1）使用pd.ExcelWriter 创建writer（2）使用df.to_excel将数据写入writer（3）writer保存.

#也可以直接使用df.to_excel（path）写入excel。

## 6.3 Web APIs交互

通过Python访问这些API的一个简单易用的办法是requests包。

在这里我们使用了一个简单的例子。复杂的例子见高级APIs交互（爬虫）。

在这个例子中要掌握的是：

    (1)request库的get方法。以及get后的response对象可以使用JSON方法返回一个JSON列表（对JSON列表的Python转换）
    (2)根据转换后的对象数据类型，可以灵活处理。

为了搜索最新的30个GitHub上的pandas主题，我们可以发一个HTTP GET请求，使用requests扩展库：

In [97]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues' 
resp = requests.get(url) #request的get方法，返回一个response对象，该对象的json方法会返回一个包含被解析过的JSON字典(dict)。
resp

<Response [200]>

In [99]:
data = resp.json() #将JSON字典转换为Python对象。记得的话，是一个list。这里是列表的字典，即列表的每一个元素为一个dict。
type(data)

list

In [102]:
data[0]['title'] #data[0]表示取list的第一个元素（为一个dict），['title']为取出的dict的键。

'Dtype attributes (eg PeriodDtype.freq) should not be settable'

data中的每个元素都是一个包含所有GitHub主题页数据（不包含评论）的字典。我们可以直接传递数据到DataFrame，并提取感兴趣的字段：

In [107]:
issues = DataFrame(data,columns=['number', 'title',
                                     'labels', 'state'])
issues

#注意这里我们“提取感兴趣的字段”的方法，即创建DF时对列索引直接选取相应的列即可。这是由dict创建DF的性质所得。

Unnamed: 0,number,title,labels,state
0,26096,Dtype attributes (eg PeriodDtype.freq) should ...,"[{'id': 35818298, 'node_id': 'MDU6TGFiZWwzNTgx...",open
1,26095,CLN: Remove accidentally added pycache,"[{'id': 211029535, 'node_id': 'MDU6TGFiZWwyMTE...",open
2,26094,day_of_week,"[{'id': 35818298, 'node_id': 'MDU6TGFiZWwzNTgx...",open
3,26090,Cleanup of GroupBy Code,"[{'id': 211029535, 'node_id': 'MDU6TGFiZWwyMTE...",open
4,26089,Fix Up Typing in GroupBy,"[{'id': 1280988427, 'node_id': 'MDU6TGFiZWwxMj...",open
...,...,...,...,...
25,26060,Update sql.py,"[{'id': 47232590, 'node_id': 'MDU6TGFiZWw0NzIz...",open
26,26058,DOC: test new sphinx 2 release,"[{'id': 48070600, 'node_id': 'MDU6TGFiZWw0ODA3...",open
27,26057,Pandas to_csv not writing correctly to nas but...,"[{'id': 2301354, 'node_id': 'MDU6TGFiZWwyMzAxM...",open
28,26055,BUG: rolling.count with axis=1,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


## 6.4 数据库交互

（待补充）