# 目录

1. 文本格式数据的读写
    1. 分块读入文本文件
    2. 将数据写入文本格式
    3. 使用分隔格式
    4. JSON数据
    5. XML和HTML
2. 二进制格式
    1. 使用HDF5格式
    2. 读取Microsoft Excel文件
    3. 与Web API交互



In [1]:
import pandas as pd
import numpy as np

## 1.文本格式数据的读写

将表格型数据读取为DataFrame对象是pandas的重要特性。

<font color='red'>部分功能函数如下所示：</font>

|函数|描述|
|:---:|:---:|
|read_csv|从文件、URL或文件型对象读取分隔好的数据，逗号是默认分隔符|
|read_table|从文件、URL或文件型对象读取分隔好的数据，制表符（`'\t'`）是默认分隔符|
|read_fwf|从特定宽度格式的文件中读取数据（无分隔符）|
|read_clippboard|read_table的剪贴板版本，在将表格从Web页面上转换成数据时有用|
|read_excel|从Excel的XLS或XLSX文件中读取表格数据|
|read_hdf|读取用pandas存储的HDF5文件|
|read_html|从Html文件中读取所有表格型数据|
|read_json|从JSON字符串中读取数据|
|read_msgpack|读取MessagePack二进制格式的pandas数据|
|read_pickle|读取以Python pickle格式存储的任意对象|
|read_sas|读取存储在SAS系统中定制存储格式的SAS数据集|
|read_sql|将SQL查询的结果（使用SQLAlchemy）读取为pandas的DataFrame|
|read_stata|读取Stata格式的数据集|
|read_feather|读取Feather二进制格式|

<font color='red'>这些函数的可选参数如下所示：</font>

|可选参数|说明|
|:---:|:---:|
|索引|可以将一或多个列作为返回的DataFrame，从文件或用户名处获得列名，或没有列名|
|类型推断和数据转换|包括用户自定义的值转换和自定义的缺失值符号列表|
|日期时间解析|包括组合功能，也包括将分散在多个列上的日期和时间信息组合成结果中的单个列|
|迭代|支持对大型文件的分块迭代|
|未清洗的数据问题|跳过行、页脚、注释以及其他次要数据，比如使用逗号分隔千位的数字|

<font color='red'>表1 read_csv/read_table函数参数</font>

|参数|描述|
|:--:|:--:|
|path|表明文件系统位置的字符串、URl或文件型对象|
|sep或delimiter|用于分隔每行字段的字符序列或正则表达式|
|header|用作列名的行号，默认是0（第一行），如果没有列名的话，应该为None|
|index_col|用作结果中行索引的列号或列名，可以是一个单一的名称/数字，也可以是一个分层索引|
|names|结果的列名列表，和names=None一起用|
|skiprows|从文件开头起，需要跳过的行数或行号列表|
|na_values|需要用NA替换的值序列|
|comment|在行结尾处分隔注释的字符|
|parse_dates|尝试将数据解析为datetime，默认为False。如果为True，将尝试解析所有的列；也可以指定列号或列名列表。如果列表的元素是元组或列表，将会把多个列组合在一起进行解析|
|keep_date_col|如果连接列到解析日期上，保留被连接的列，默认是False|
|converters|包含列名映射到函数的字典（例如{'foo': f}会把函数f应用到'foo'列）|
|dayfirst|解析非明确日期时，按照国际格式处理|
|date_parser|用于解析日期的函数|
|nrows|从文件开头处读入的行数|
|iterator|返回一个TextParser对象，用于零散地读入文件|
|chunksize|用于迭代的块大小|
|skip_footer|忽略文件尾部的行数|
|verbose|打印各种解析器输出的信息，比如位于非数值列的缺失值数量|
|encoding|Unicode文本编码（例如'utf-8'）|
|squeeze|如果解析数据只包含一列，返回一个Series|
|thousands|千位分隔符（例如','或'.'）|

In [2]:
# Unix shell 的cat命令打印文件内容，Windows的是type
!cat examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [3]:
df = pd.read_csv('examples/ex1.csv')
print(df)

pd.read_table('examples/ex1.csv', sep=',')  # 指定分隔符——逗号

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
!cat examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [5]:
pd.read_csv('examples/ex2.csv', header=None)        # pandas自动分配默认列名
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])  # 指定列名

# 将message列成为返回DataFrame的索引，可以指定位置'4'的列为索引，或传递参数给index_col
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('examples/ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [6]:
# 当你想要从多个列中形成一个分层索引，需要传入一个包含列序号或列名的列表
!cat examples/csv_mindex.csv
parsed = pd.read_csv('examples/csv_mindex.csv',
                     index_col=['key1', 'key2'])
print('\n', parsed)


key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16

            value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16


In [7]:
# 一张表的分隔符可以是逗号、空格或其他字符（如换行符、制表符等）
list(open('examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [8]:
# 使用正则表达式'\s+'或手动校准因不同数量的空格造成的不对齐
result = pd.read_table('examples/ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [9]:
!cat examples/ex4.csv

# skiprows接收参数以跳过出现异常的行——第一行、第三行、第四行
skiprows = pd.read_csv('examples/ex4.csv', skiprows=[0, 2, 3])
print('\n', skiprows, '\n')

!cat examples/ex5.csv
# na_values可以传入一个列表或一组字符串处理缺失值
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
# 每列都可指定不同的缺失值标识
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
    a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo 

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### ①分块读入文本文件

In [10]:
pd.options.display.max_rows = 10        # pandas读取数据只显示前十行
print(pd.read_csv('examples/ex6.csv', nrows=5), '\n')   # pandas读取前五行数据

# 对读入文件的截取（只读其中的小片段或小块遍历文件）
chunker = pd.read_csv('examples/ex6.csv', chunksize=100)
print(chunker, '\n')
# 对截取出的文件遍历一遍，并对'key'列聚合获得计数值
tot = pd.Series([], dtype='float64')       # 官方文档提示：对于任何空序列的Series类的dtype将会默认是'float64'或'int64'，需要指定其dtype否则会报警告
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)
print(tot[:10])

        one       two     three      four key
0  0.467976 -0.038649 -0.295344 -1.824726   L
1 -0.358893  1.404453  0.704965 -0.200638   B
2 -0.501840  0.659254 -0.421691 -0.057688   G
3  0.204886  1.074134  1.388361 -0.982404   R
4  0.354628 -0.133116  0.283763 -0.837063   Q 

<pandas.io.parsers.readers.TextFileReader object at 0x7fd064f2bbb0> 

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64


### ②将数据写入文本格式

In [11]:
!cat examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [12]:
import sys

data = pd.read_csv('examples/ex5.csv')
data.to_csv('examples/out.csv')     # DataFrame的to_csv方法将数据导出为逗号分隔的文件
data.to_csv(sys.stdout, sep='|')    # 使用其它分隔符
print('\n')
data.to_csv(sys.stdout, na_rep='NULL')  # 用空字符串的形式表示缺失值
print('\n')
# 不读出列标签，并按顺序读出行标签
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])


|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


a,b,c
1,2,3.0
5,6,
9,10,11.0


In [13]:
dates = pd.date_range('1/1/2000', periods=7)    
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('examples/tseries.csv')   # Series的to_csv方法将数据导出为逗号分隔的文件

!cat examples/tseries.csv

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


### ③使用分隔格式

- 考虑使用read_table从硬盘中读取的数据仍存在一行或多行错误的情况

In [14]:
!cat examples/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [15]:
# 对于任何带有单字符分隔符的文件都可使用内建的csv模块
import csv
# 首先，将任一打开的文件或文件型对象作为参数传入csv.reader()函数
f = open('examples/ex7.csv')
reader = csv.reader(f)

for line in reader:
    print(line)

# 然后，对文件进行处理
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
# 将数据拆分成列名行和数据行
header, values = lines[0], lines[1:]
# 用字典推导式和zip(*values)生成一个包含数据列的字典，字典中行转置成列
data_dict = {h: v for h, v in zip(header, zip(*values))}
print('\n', data_dict)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']

 {'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}


In [16]:
import sys

f = open('examples/ex7.csv')
# csv文件有多种不同风格，如需根据不同的分隔符、字符串引用约定或行终止符定义一种新格式时，可以使用csv.Dialect定义一个简单的子类
class my_dialect(csv.Dialect):      # dialect——方言参数
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

reader = csv.reader(f, dialect=my_dialect)
# 也可以不定义子类，直接将方言参数传入csv.reader的关键字参数
reader = csv.reader(f, delimiter='|')

<font color='red'>CSV方言选项</font>

|参数|描述|
|:---:|:---:|
|delimiter|接收一个用于分割字段的字符作为参数的关键字，默认是`','`|
|lineterminator|行终止符，默认是`'\r\n'`，读取器会忽略行终止符并识别跨平台行终止符|
|quotecher|用在含有特殊字符字段中的引号，默认是` " `|
|quoting|引用惯例。选项包括`csv.QUOTE_ALL`（引用所有字段），`csv.QUOTE_MINMAL`（只使用特殊字符）,`csv.QUOTE_NONNUMERIC`和`csv.QUOTE_NONE`（不引用）|
|skipinitialspace|忽略每个分隔符后的空白，默认为False|
|doublequote|如何处理字段内的引号。如果为True，则是双引号|
|escapechar|当引用设置为`csv.QUOTE_NONE`时用于转义分隔符的字符串，默认是禁用的|

### ④JSON数据

JSON(JavaScript Object Notation，JavaScript 对象表示法)出了空值(NULL)和一些其他的细微差别外（如不允许列表末尾的逗号），基本类型是obj（字典）、数组（列表）、字符串、数字、布尔值和空值。对象中的所有键都必须是字符串

In [17]:
import json

obj = """
{"name": "Larissa",
 "places_lived": ["China", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""
result = json.loads(obj)
# 将Python对象转换回JSON
asjson = json.dumps(result)
print(result, '\n')

siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

{'name': 'Larissa', 'places_lived': ['China', 'Spain', 'Germany'], 'pet': None, 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']}, {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]} 



Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [18]:
!cat examples/example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [19]:
# read_json()默认选项是假设JSON数组中的每个对象是表里的一行
data = pd.read_json('examples/example.json')
print(data.to_json())
print(data.to_json(orient='records'))

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}
[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


### ⑤XML和HTML

Python中有很多可以对HTML和XML(eXtensible Markup Language)格式进行读取、写入的库，例如：[lxml](http://lxml.de)、Beatiful Soup和html5lib

In [20]:
# 安装read_html所使用的附加库——ltml
tables = pd.read_html('examples/fdic_failed_bank_list.html')
print('The len of tables: ', len(tables), '\n')

failures = tables[0]
print(failures.head(), '\n')

# 可以进行的数据处理——计算已倒闭的银行数量
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

The len of tables:  1 

                      Bank Name             City  ST   CERT  \
0                   Allied Bank         Mulberry  AR     91   
1  The Woodbury Banking Company         Woodbury  GA  11297   
2        First CornerStone Bank  King of Prussia  PA  35312   
3            Trust Company Bank          Memphis  TN   9956   
4    North Milwaukee State Bank        Milwaukee  WI  20364   

                 Acquiring Institution        Closing Date       Updated Date  
0                         Today's Bank  September 23, 2016  November 17, 2016  
1                          United Bank     August 19, 2016  November 17, 2016  
2  First-Citizens Bank & Trust Company         May 6, 2016  September 6, 2016  
3           The Bank of Fayette County      April 29, 2016  September 6, 2016  
4  First-Citizens Bank & Trust Company      March 11, 2016      June 16, 2016   



2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 15, dtype: int64

In [21]:
# 使用ltml解析较为简单的XML格式的数据
from lxml import objectify

path = 'datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))        # ltml.objectify()
root = parsed.getroot()         \

# 填充数据值
data = []
# 标签名序列
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']
# root.INDICATOR 返回一个生成器
for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)    # 在标签名序列下对应填充数据值

# 将包含字典的列表转换成DataFrame
perf = pd.DataFrame(data)
perf.head()

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/mta_perf/Performance_MNR.xml'

In [None]:
# 使用ltml解析更复杂的XML格式的元数据
from io import StringIO

tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()

# 可以访问标签或链接文本中的任何字段
print(root, '\n')
root        # 文本中的元素在内存中的位置
root.get('href')    # 文本元素的来源——即链接
root.text

Google 



'Google'

## 2.二进制格式

pickle仅被推荐作为短期的存储格式，问题在于pickle很难确保格式的长期有效性。pandas内建支持其他两个二进制格式：HDF5和MessagePack。

pandas或NumPy其他的存储格式包括：
- [bcolz](http://bcolz.blosc.org/)
- [Feather](http://github.com/wesm/feather)

In [22]:
# 将数据以pickle形式写入硬盘
frame = pd.read_csv('examples/ex1.csv')
print(frame)
frame.to_pickle('examples/frame_pickle') # 或：pd.read_pickle('examples/frame_pickle)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


### ①使用HDF5格式

- HDF5用于存储大量的科学数组数据，支持多种压缩模式的即时压缩，使得重复模式的数据可以更高效地存储。它以C库的形式提供，并且具有许多其他语言接口，包括Java、Julia、MATLAB和Python。I/O密集型困难的数据分析类问题使用HDF5会大大加速其应用

- 如果是在本地处理数据，建议使用 PyTables 和 h5py

In [None]:
# pd.HDFStore类

frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')        # 有个可选的独立参数<tables>，需要conda install，否则会报错
store['obj1'] = frame                   # 或： store.put('obj1', frame, format='table')
store['obj1_col'] = frame['a']
print(store)
# 可以进行字典式索引
print(store['obj1'])
# 显示指定行数范围内的内容：
print('\nstore中第10行至第15行中的内容是：\n', store.select('obj2', where=['index >= 10 and index <= 15']))
store.close()

# HDFStore支持两种存储方式——'fixed'和'table'，后者更慢
frame.to_hdf('mydata.h5', 'obj3', format='table')
# 注意：以下语句不加< mode='r+' > 会报错The file 'mydata.h5' is already opened, but not in read-only mode (as requested).
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'], mode='r+')

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

           a
0   0.312980
1  -1.250238
2  -0.368203
3   0.842525
4   1.282820
..       ...
95 -1.670081
96 -0.363965
97  0.002826
98 -0.105663
99 -0.034230

[100 rows x 1 columns]

store中第10行至第15行中的内容是：
            a
10 -1.811583
11 -1.435816
12  0.842284
13 -0.314272
14 -2.551743
15  1.233065


Unnamed: 0,a
0,0.31298
1,-1.250238
2,-0.368203
3,0.842525
4,1.28282


### ②读取Microsoft Excel文件

pandas支持通过`ExcelFile`类或`pandas.read_excel`函数来读取Excel 2003或更高版本文件中的表格型数据，这些工具内部是使用附加包`xlrd`和`openyxl`来分别读取XLS和XLS文件的

In [None]:
import pandas as pd

xlsx = pd.ExcelFile('examples/ex1.xlsx')
pd.read_excel(xlsx, 'Sheet1')       # 读取为DataFrame的表格型数据

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [None]:
frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1')

# 将pandas数据写入到Excel格式中
writer = pd.ExcelWriter('examples/ex2.xlsx')
frame.to_excel(writer, 'Sheet1')        # 或：frame.to_excel('examples/ex2.xlsx')
writer.save()

frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


### ③与Web API交互

使用[requests包](http://docs.python-requests.orgt)

In [None]:
import requests

# 向网站发送一个HTTP GET请求
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)        
print(resp)

# Response对象的json方法将返回一个包含解析为本地Python对象的JSON的字典
data = resp.json()
print(data[0]['title'])

# data中的每个元素都是一个包含Github问题页面上的所有数据的字典（注释除外）
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues

<Response [200]>
CI: fix cython lint errors


Unnamed: 0,number,title,labels,state
0,54370,CI: fix cython lint errors,"[{'id': 48070600, 'node_id': 'MDU6TGFiZWw0ODA3...",open
1,54369,Added documentation for Named aggregation in g...,[],open
2,54368,TST: Remove tm.rands/rands_array,"[{'id': 127685, 'node_id': 'MDU6TGFiZWwxMjc2OD...",open
3,54367,REF: remove test_accumulate_series_raises,[],open
4,54366,REF: implement BaseOpsUtil._cast_pointwise_result,[],open
...,...,...,...,...
25,54320,DOC[?]: Example for ts regression with overloa...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
26,54315,TST: div/truediv with PyArrow duration types,"[{'id': 49597148, 'node_id': 'MDU6TGFiZWw0OTU5...",open
27,54314,BUG: `pd.MultiIndex` is not able to display an...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
28,54313,API / CoW: Add ChainedAssignmentError for inpl...,"[{'id': 2085877452, 'node_id': 'MDU6TGFiZWwyMD...",open


In [None]:
# 生成一个SQLite数据库
import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')      # 链接生成存储相关数据的文件
con.execute(query)                          # 文件定位，注意：第一次运行生成文件并保存后再运行，会报错该表格型文件已存在
# con.commit()                                # 保存

# 插入数据
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [None]:
!rm mydata.sqlite

In [None]:
# 当从数据库的表中选择数据时，大部分Python的SQL驱动（PyODBC、psycopg2、MySQLdb、psymssql等）返回的是元组的列表
cursor = con.execute('select * from test')
rows = cursor.fetchall()
print(rows)

# 将元组的列表传给DataFrame构造函数
print(cursor.description)
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

[('Atlanta', 'Georgia', 1.25, 6), ('Tallahassee', 'Florida', 2.6, 3), ('Sacramento', 'California', 1.7, 5)]
(('a', None, None, None, None, None, None), ('b', None, None, None, None, None, None), ('c', None, None, None, None, None, None), ('d', None, None, None, None, None, None))


Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [None]:
# SQLAlchemy项目是一个流行的Python SQL工具包，抽象去除了SQL数据库之间的许多常见差异
import sqlalchemy as sqla

db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)