## pandas数据读取为DataFrame
将表格型数据读取为DataFrame对象的函数列表：
![title](img/pandas表格读取函数.png)
### read_csv
**参数**  
`encoding`：编码，默认utf-8，excel生成的csv需指定编码为GBK，或使用记事本另存为utf-8编码  
`sep`：指定分隔符，默认为逗号`,` ，支持正则表达式  
`header`：指定表格的某一/多行为列名（使用行号来指定行），指定的行之前的内容丢弃，默认自动推算出列名，若表格没有列名，使用`header=None`自动使用列序号作为列名  
`names`：指定列名，list格式，默认为`None`。list长度小于列数则将最前面的列作为行名，list长度大于列数则将多出的列值全部值为NaN。`header`和`names`只能同时使用一种。  
`skiprows`：跳过指定的行，输入值必须是list格式，内容为需跳过的行号，适用于跳过表格的标题或其他非表格内容  
`index_col`：将指定的列（列名或列索引号）作为行名，此列名不再作为表格的列名，而成为了行索引的name属性；如果希望将多个列做成一个层次化索引，只需传入由列索引号或列名组成的列表即可  
`na_values`：将一个列表或集合的字符串表示为缺失值，使用字典可以将指定列中的值表示为空，但不影响其他列中相同的值

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 感叹号可以调用系统的命令行命令
!type doc\csv-example-from-excel.csv

A,B,C,D,E,备注
1,2,3,4,5,a
6,7,8,9,10,b
11,12,13,14,15,c
16,17,18,19,20,d


In [3]:
# 该csv从excel保存来，编码为GBK，之后的csv文件均使用记事本另存为uft-8编码格式，不再指定编码
pd.read_csv('doc/csv-example-from-excel.csv',encoding='GBK')

Unnamed: 0,A,B,C,D,E,备注
0,1,2,3,4,5,a
1,6,7,8,9,10,b
2,11,12,13,14,15,c
3,16,17,18,19,20,d


In [4]:
pd.read_csv('doc/csv-example.csv',header=2) # header指定某行为列名，该行之前内容丢弃

Unnamed: 0,6,7,8,9,10,b
0,11,12,13,14,15,c
1,16,17,18,19,20,d


In [5]:
# names指定列名
# skiprows跳过指定的行
pd.read_csv('doc/csv-example.csv',names=list('qwerty'),skiprows=[0])

Unnamed: 0,q,w,e,r,t,y
0,1,2,3,4,5,a
1,6,7,8,9,10,b
2,11,12,13,14,15,c
3,16,17,18,19,20,d


In [6]:
# 若names的列表长度小于列数，前面的列则作为行名，而不是再是表格数据
pd.read_csv('doc/csv-example.csv',names=list('qwert'),skiprows=[0])

Unnamed: 0,q,w,e,r,t
1,2,3,4,5,a
6,7,8,9,10,b
11,12,13,14,15,c
16,17,18,19,20,d


In [7]:
# 若names的列表长度大于列数，多出的列内容全部为NaN
pd.read_csv('doc/csv-example.csv',names=list('qwertyui'),skiprows=[0])

Unnamed: 0,q,w,e,r,t,y,u,i
0,1,2,3,4,5,a,,
1,6,7,8,9,10,b,,
2,11,12,13,14,15,c,,
3,16,17,18,19,20,d,,


In [8]:
frame=pd.read_csv('doc/csv-example.csv',index_col='备注') # 指定备注列作为行名
frame

Unnamed: 0_level_0,A,B,C,D,E
备注,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15
d,16,17,18,19,20


In [9]:
frame.columns # 此时列名中已不存在“备注”

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [10]:
frame.index # 行索引的name为“备注”

Index(['a', 'b', 'c', 'd'], dtype='object', name='备注')

In [11]:
# 将多个列做成一个层次化索引
!type doc\csv-mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [12]:
# 将多个列做成一个层次化索引
pd.read_csv('doc\csv-mindex.csv',index_col=['key1', 'key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [13]:
# 使用非逗号分隔的文件，如多个空白分隔
!type doc\csv-space.csv

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  NA -0.032399
ccc -0.264273 -0.386314 NA
ddd -0.871858 -0.348382  1.100491


In [14]:
# 使用正则匹配空格进行分隔，由于列名比数据行的数量少，所以推断第一列应该是DataFrame的索引
pd.read_csv('doc\csv-space.csv', sep='\s+')

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,,-0.032399
ccc,-0.264273,-0.386314,
ddd,-0.871858,-0.348382,1.100491


In [15]:
# 一个有空值的文件
!type doc\csv-nan.csv

A,B,C,D
a,b,c,d
e,f,g,
d,f,a,g


In [16]:
# 将b,e表示为空值，所有列中符合条件的值均受到影响
pd.read_csv('doc\csv-nan.csv',na_values=['b','g'])

Unnamed: 0,A,B,C,D
0,a,,c,d
1,e,f,,
2,d,f,a,


In [17]:
# 将不同的列中指定的值作为空值，而不影响其他列中相同的值，如A列的d为空值，但D列的d不影响
pd.read_csv('doc\csv-nan.csv',na_values={'A':['d'],'C':['c','g']})

Unnamed: 0,A,B,C,D
0,a,b,,d
1,e,f,,
2,,f,a,g


**常用参数列表**
![title](img/read_csv参数.png)

### 逐块读取文本文件
在处理大文件的时候，可以只读取文件的一部分或逐块对文件进行迭代。  
**参数**  
`nrow`：指定读取的行数  
`chunksize`：逐块读取的行数，得到一个`TextParser`迭代器对象，该对象有个`get_chunk`方法可以获取任意行数而不受`chunksize`的限制，迭代器读取到最后，如果继续读取会抛出`StopIteration`异常。

In [18]:
# 先建立一个25行4列的文件，列名为A,B,C,D，值为0~100
data=pd.DataFrame(np.arange(100).reshape(25,4),columns=list('ABCD'))
data.to_csv('doc\csv-100.csv',index=False)

In [19]:
pd.read_csv('doc\csv-100.csv',nrows=5) # 读取前5行

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [20]:
chunker=pd.read_csv('doc\csv-100.csv',chunksize=5) # 逐块读取，每次5行
chunker # 得到一个迭代器

<pandas.io.parsers.TextFileReader at 0x7b893c8>

In [21]:
chunker.get_chunk(7) # 使用get_chunk方法读取，不受chunksize限制

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27


In [22]:
print(next(chunker)) # 迭代器可以使用next()，从之前读取的位置开始

     A   B   C   D
7   28  29  30  31
8   32  33  34  35
9   36  37  38  39
10  40  41  42  43
11  44  45  46  47


In [23]:
# 遍历读取数据，每次读取chunksize行数
for piece in chunker:
    print(piece)

     A   B   C   D
12  48  49  50  51
13  52  53  54  55
14  56  57  58  59
15  60  61  62  63
16  64  65  66  67
     A   B   C   D
17  68  69  70  71
18  72  73  74  75
19  76  77  78  79
20  80  81  82  83
21  84  85  86  87
     A   B   C   D
22  88  89  90  91
23  92  93  94  95
24  96  97  98  99


### 复杂分隔符的CSV文件处理
对于有些非标准分隔的csv文件，可以尝试使用python内置的csv模块来处理  
- 将文件传给csv.reader，同时可以指定分隔符，引用符，行结束符等，对非标准分隔进行解析  
- 对reader进行迭代，每行产生一个元组  
  
![title](img\csv参数.png)

In [24]:
# 以下csv文件，使用冒号分隔，并且每个元素使用“-”作为引用符
!type doc\csv-sep.csv

-A-:-B-:-C-:-D-:-E-:-备注-
-9-:-2-:-3-:-4-:-5-:-a-
-6-:-7-:-8-:-9-:-10-:-b-
-11-:-12-:-13-:-14-:-15-:-c-
-16-:-17-:-18-:-19-:-20-:-d-
-21-:-22-:-23-:-24-:-25-:-e-


In [28]:
import csv
lines=[]
with open('doc\csv-sep.csv') as f:
    for line in csv.reader(f,delimiter=':',quotechar="-",quoting=csv.QUOTE_MINIMAL):
        print(line)
        lines.append(line)

['A', 'B', 'C', 'D', 'E', '备注']
['9', '2', '3', '4', '5', 'a']
['6', '7', '8', '9', '10', 'b']
['11', '12', '13', '14', '15', 'c']
['16', '17', '18', '19', '20', 'd']
['21', '22', '23', '24', '25', 'e']


In [29]:
header, values = lines[0], lines[1:]
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'A': ('9', '6', '11', '16', '21'),
 'B': ('2', '7', '12', '17', '22'),
 'C': ('3', '8', '13', '18', '23'),
 'D': ('4', '9', '14', '19', '24'),
 'E': ('5', '10', '15', '20', '25'),
 '备注': ('a', 'b', 'c', 'd', 'e')}