<b>Pandas之数据导入、导出</b>

Pandas封装一些方法，用于将不同格式的列表数据转换为DataFrame。同时也可以将DataFrame存为文件。本文以读取csv文件和excel文件为例来说明下一些常用的方法。

<b>数据导入</b>

<b>1. 读取csv文件</b>

In [1]:
!type data.csv 

hits_referer,频道,关键词代码,关键字,详情页直达链接次数
http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571
http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,-1


In [2]:
import pandas as pd

使用read_csv方法将csv文件读取到DataFrame中。

In [3]:
data = pd.read_csv('data.csv')
data.head()

Unnamed: 0,hits_referer,Ƶ��,�ؼ��ʴ���,�ؼ���,����ҳֱ�����Ӵ���
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,ţ��,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,ơ��,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,�ֻ�,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,�յ�,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,�ʼǱ�,571


发现出现了一些乱码，这是因为Pandas读取data.csv文件时使用的编码和data.csv文件的编码不一致导致的，使用UltraEdit来查看下data.csv的编码，发现是'gbk'，所以这里需要指定读取时的编码为‘gbk’,即encoding=‘gbk’。read_csv方法是read_table的一个扩展方法，sep用来设置文件内容的字段之间的分隔符，默认sep=','，对于有多个空格作为分隔符的，可以用正则表达式将sep设为sep='\s+'。

In [4]:
data = pd.read_csv('data.csv',sep=',',encoding='gbk')
data.head()

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571


可见“read_csv”方法自动地将文件的第一行设为列名，也可以通过指定像“header”、“names”、“index_col”等参数的数值来改变“read_csv”的默认设置。将header设置为None后，Pandas将不会使用文件的第一行作为列名，可以通过names自己指定列名（不指定将会自动使用整数序列）；将header设置为0，names也自己指定后，能够将读取到的数据的列名换为自己定义的列名。

In [5]:
pd.read_csv('data.csv',sep=',',header=None,encoding='gbk').head() # skip_blank_lines

Unnamed: 0,0,1,2,3,4
0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
1,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
2,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
3,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
4,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663


In [6]:
pd.read_csv('data.csv',sep=',',header=None,names=['a','b','c','d'],encoding='gbk').head()#skip_blank_lines

Unnamed: 0,a,b,c,d
hits_referer,频道,关键词代码,关键字,详情页直达链接次数
http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663


In [7]:
pd.read_csv('data.csv',sep=',',header=0,encoding='gbk').head()

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571


层次化索引（hierarchical indexing）：如果根据某两列数据可以作为数据框的唯一索引，我们为了得到更加有价值的索引，就可以对‘频道’和‘关键字’两列进行设定（将两列联合设定为索引列）。

In [8]:
pd.read_csv('data.csv',sep=',',encoding='gbk',index_col=[u'频道',u'关键字',])

Unnamed: 0_level_0,Unnamed: 1_level_0,hits_referer,关键词代码,详情页直达链接次数
频道,关键字,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
home,牛奶,http://search.smzdm.com/?c,%E7%89%9B%E5%A5%B6,772
home,啤酒,http://search.smzdm.com/?c,%E5%95%A4%E9%85%92,712
home,手机,http://search.smzdm.com/?c,%E6%89%8B%E6%9C%BA,684
home,空调,http://search.smzdm.com/?c,%E7%A9%BA%E8%B0%83,663
home,笔记本,http://search.smzdm.com/?c,%E7%AC%94%E8%AE%B0%E6%9C%AC,571
home,显示器,http://search.smzdm.com/?c,%E6%98%BE%E7%A4%BA%E5%99%A8,-1


如果只读取部分数据，可以使用nrows来设定读取的行数。

In [9]:
pd.read_csv('data.csv',encoding='gbk',nrows=2)

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712


如果不想读取某些行的数据，可以使用skiprows来忽略某些行。

In [10]:
pd.read_csv('data.csv',encoding='gbk',skiprows=[1,2]) # 跳过第一行和第二行

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
1,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
2,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571
3,http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,-1


Pandas在读取文件时会自动检测缺失值，检测到后会将缺失值标记为NaN，如果读取大文件，并且知道该文件中没有空值，可以将na_filter设为False，这样读取文件时就不会检测缺失值，可以提高读取大文件时的性能。如果想要将特定的值也当做NaN，可以将该值加入na_values中。例如，“详情页直达链接次数”出现了-1，这不合逻辑，我们可以将-1当做NaN来处理。

In [11]:
pd.read_csv('data.csv',encoding='gbk',na_values=[-1])

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772.0
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712.0
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684.0
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663.0
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571.0
5,http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,


可以使用Pandas的isnull方法来检测DataFrame中的NaN值，可以直接使用DataFrame的isnull方法。与isnull相反的是notnull。

In [12]:
pd.isnull(pd.read_csv('data.csv', encoding='gbk',na_values=[-1]))

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,True


In [125]:
pd.read_csv('data.csv', encoding='gbk',na_values=[-1]).isnull()

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,True


使用Pandas读取大文件，可以将iterator设为true，或者将chunksize设为一个整数，都可以得到一个TextFileReader对象，该对象可以迭代。

<b>2. 读取excel文件</b>

学会了如何读取csv文件后，可以继续学习如何读取excel文件，Pandas封装了read_excel方法用来读取excel文件。其中有一个sheetname参数，默认为0，代表读取sheet1，当然了，也可以将sheetname设为字符串，表示读取sheet的名字。

In [13]:
pd.read_excel('data.xlsx',sheetname=0)

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571
5,http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,-1


In [14]:
pd.read_excel('data.xlsx',sheetname='data')

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571
5,http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,-1


<b>数据导出</b>

Pandas可以将数据导出成很多类型，这儿只介绍几种。

In [16]:
data.to_csv('test.csv',encoding='gbk')

“to_csv”方法将数据框写入一个以逗号作为分隔符的（csv）文件，在众多的参数中，你可以自定义分隔符（通过参数“sep”）、缺失值表示方式（通过“na_rep”参数）、是否写入索引（通过参数“index”）、是否包括表头（通过参数“header”）。

将数据保存到磁盘的一个有效的存储方式是二进制，Pandas利用Python内建的pickle序列化来实现。

In [17]:
data.to_pickle('test_pickle')

“to_pickle”的逆函数是“read_pickle”，也就是将pickle还原为数据框或列表：

In [18]:
pd.read_pickle("test_pickle")

Unnamed: 0,hits_referer,频道,关键词代码,关键字,详情页直达链接次数
0,http://search.smzdm.com/?c,home,%E7%89%9B%E5%A5%B6,牛奶,772
1,http://search.smzdm.com/?c,home,%E5%95%A4%E9%85%92,啤酒,712
2,http://search.smzdm.com/?c,home,%E6%89%8B%E6%9C%BA,手机,684
3,http://search.smzdm.com/?c,home,%E7%A9%BA%E8%B0%83,空调,663
4,http://search.smzdm.com/?c,home,%E7%AC%94%E8%AE%B0%E6%9C%AC,笔记本,571
5,http://search.smzdm.com/?c,home,%E6%98%BE%E7%A4%BA%E5%99%A8,显示器,-1
