将表个型数据读取为DataFrame对象是pandas的重要特性。read_csv和read_table是书中使用较多的函数（作者）

### pandas的解析函数
* **read_csv**        从文件、UTL或文件型对象读取**分隔好的数据**，**逗号**是默认分隔符
* **read_table**      从文件、URL或文件型对象读取**分隔好的数据**，制表符**（‘\t’）是默认分隔符  也可以指定分隔符
* read_fwf              从**特定宽度**格式的文件中读取数据**（无分隔符）**
* read_clipboard        read_tables的剪贴板版本，在将表格从Web页面上转成数据时有用
* **read_excel**      从Excel的XLS或XLSX文件中读取表格数据
* read_hdf              读取用pandas存储的HDF5文件
* read_html             从HTML文件中读取所有表格数据
* read_json             从JSON字符串中读取数据
* read_msgpack         读取MessagePack二进制格式的pandas数据
* read_pickle          读取以Python pickle 格式储存的任意对象
* read_sas             读取储存在SAS系统中定制存储格式的SAS数据集
* read_sql             将SQL查询的结果（使用SQLAlchemy）读取为pandas的DataFrame
* read_stata           读取Stata格式的数据集
* read_feather         读取Feather二进制格式

In [34]:
!type example\ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [35]:
import pandas as pd

In [36]:
df = pd.read_csv('example\ex1.csv')  # read_csv 从文件、UTL或文件型对象读取分隔好的数据，逗号是默认分隔符

In [37]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [38]:
df = pd.read_table('example\ex1.csv',sep=',')  # 从文件、URL或文件型对象读取分隔好的数据，制表符**（‘\t’）是默认分隔符

In [39]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [43]:
df = pd.read_csv('example\ex1.csv',header=None)  # 有的表是没有表头的，我们要取消默认的读表头的模式


In [44]:
df

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [49]:
!type example\ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [50]:
pd.read_csv('example\ex2.csv',names=['a','b','c','d','meaasge'])   # 自己指定列名

Unnamed: 0,a,b,c,d,meaasge
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [51]:
pd.read_csv('example\ex2.csv') # 没有指定列名，也没有设置无表头的格式，那么pandas会自动把第一行设置为表头

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [52]:
pd.read_csv('example\ex2.csv',header = None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [56]:
names=['a','b','c','d','message']

In [57]:
pd.read_csv('example\ex2.csv',names=names,index_col = 'message')  # 指定某个位置的列为索引

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [58]:
!type example\ex3.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [60]:
pd.read_csv('example\ex3.csv',index_col=['key1','key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


在某些情况下，一张表的分隔符并不是固定的，使用空白或其他方式来分隔字符。

In [61]:
!type example\ex4.csv

          A     B     C
aaa  -0.22   -1.32323 -0.42332
bbb   0.23    0.92333  1.32323
ccc  -0.2044 -0.23423 -0.21893
ddd  -0.9832 -0.32323  1.32333


In [63]:
list(open('example\ex4.csv'))  # 使用的空表格来分隔字符

['          A     B     C\n',
 'aaa  -0.22   -1.32323 -0.42332\n',
 'bbb   0.23    0.92333  1.32323\n',
 'ccc  -0.2044 -0.23423 -0.21893\n',
 'ddd  -0.9832 -0.32323  1.32333']

有空格区分字符的时候，可能会有空白格长度不一，但是如果观察表后发现，如果数据都是按照空白格分隔，虽然长度不一，但是数据结构确定，那么我们可以使用read_table传入一个正则表达式作为分隔符。

In [65]:
pd.read_table('example\ex4.csv',sep='\s+')  # 正则表达式 \s代表空格符  +：代表前一个字符出现一次或者多次。

Unnamed: 0,A,B,C
aaa,-0.22,-1.32323,-0.42332
bbb,0.23,0.92333,1.32323
ccc,-0.2044,-0.23423,-0.21893
ddd,-0.9832,-0.32323,1.32333


上述输出中，pandas自动把第一行作为表头，这是因为在实际数据中，列名的数量比数据的列数少一个，因此read_table推断第一列应该当做为DataFrame的索引



In [66]:
!type example\ex5.csv  # 异常的文件，有汉字有需要的数据

# 黑，
a,b,c,d,message
# 我也不知道写点啥
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [68]:
pd.read_csv('example\ex5.csv',skiprows=[0,2])  # 通过参数skiprows能跳过不想读取的行

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [71]:
# pd.read_csv('example\ex5.csv')  可以运行一下这个，直接读取文件，不要跳过含有汉字的所在行

参数实在是有点多，想要具体看的，可以看一下在线文档。

## 6.1.1  分块读入文本文件
分块读入文件的意义在于：当处理大型文件或找出正确的参数集来正确处理大文件时，可以需要先读入文件的一个小片段或者按小块遍历文件

In [87]:
pd.options.display.max_rows  # 最初默认的显示行数是60行

10

In [86]:
# !type example\ex6.csv

In [90]:
pd.options.display.max_rows=10

In [93]:
pd.read_csv('example\ex6.csv',sep='\t')

Unnamed: 0,one,two,three,four
0,16,4,14,23
1,-4,2,-7,30
2,-2,5,12,22
3,21,20,10,38
4,35,7,18,-6
...,...,...,...,...
409,-2,35,7,14
410,10,-5,27,6
411,18,39,17,-8
412,-9,19,31,29


通过修改显示设置，我们可以使的文件的显示更加紧凑

如果并不是想全部读取，只是想看一下从文件开头到第几行

In [103]:
pd.read_csv('example\ex61.csv',nrows = 5,sep='\t')

Unnamed: 0,one,two,three,four,key,keys
0,26,35,31,35,B,Q
1,-2,-8,23,-3,C,T
2,-3,6,1,16,D,N
3,18,31,37,24,E,L
4,15,29,30,34,F,C


为了分块读入文件，可以指定chunksize作为每一块的行数

In [129]:
chunker = pd.read_csv('example\ex61.csv',sep='\t',chunksize=1000)
# 关于chunksize的具体用法，没有很理解透彻

In [130]:
chunker

<pandas.io.parsers.TextFileReader at 0x88b82b0>

In [131]:
tot = pd.Series([])

In [132]:
num = 0
for piece in chunker:
    num+=1
    tot = tot.add(piece['key'].value_counts(),fill_value=0)

In [133]:
tot = tot.sort_values(ascending=False)

In [134]:
len(tot)

26

In [135]:
tot[:10]  # 由于是随机生成的数据，比较平均

U    32.0
D    32.0
O    32.0
K    32.0
B    32.0
N    32.0
S    32.0
V    32.0
R    32.0
L    32.0
dtype: float64

### 6.1.2 将数据写入文本格式

In [142]:
data = pd.read_csv('example\ex1.csv')

In [143]:
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [144]:
data.to_csv('example\out.csv')

In [146]:
!type example\out.csv

,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


不仅仅逗号的分隔符，其他的分隔符照样也是没得问题

In [147]:
import sys  # 方便我们在中控台直接打印结果

In [149]:
data.to_csv(sys.stdout,sep='|')  # 当某些数据有空缺值时，我们通过na_rep来对空缺值进行标注

|a|b|c|d|message
0|1|2|3|4|hello
1|5|6|7|8|world
2|9|10|11|12|foo


上面例子中，我们观察到，行列的标签都被写入，这是默认的情况。当然也可以禁用

In [150]:
data.to_csv(sys.stdout,sep='|',index=False,header=False)

1|2|3|4|hello
5|6|7|8|world
9|10|11|12|foo


In [154]:
data.to_csv(sys.stdout,sep='|',index=False,columns=['a','b','c'])

a|b|c
1|2|3
5|6|7
9|10|11


Series的to_csv方法

In [156]:
dates = pd.date_range('1/1/2000',periods=7)

In [157]:
dates

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
               '2000-01-05', '2000-01-06', '2000-01-07'],
              dtype='datetime64[ns]', freq='D')

In [159]:
import numpy as np
ts = pd.Series(np.arange(7),index=dates)

In [162]:
ts

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
Freq: D, dtype: int32

In [167]:
ts.to_csv('tsseries.csv')

In [168]:
!type tsseries.csv

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


## 6.1.3 使用分隔格式
绝大多数的表型数据都可以使用函数pandas.read_table从硬盘中读取

In [169]:
!type example\ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [191]:
import csv
f = open('example\ex7.csv')

In [192]:
reader = csv.reader(f)

In [193]:
reader

<_csv.reader at 0x89e6a08>

In [194]:
for line in reader:  # 文件遍历出来后可看到，自动删除了引号
    print(line)
    print(type(line))

['a', 'b', 'c']
<class 'list'>
['1', '2', '3']
<class 'list'>
['1', '2', '3']
<class 'list'>


In [221]:
with open('example\ex7.csv') as f:
    lines = list(csv.reader(f))

In [222]:
header,values = lines[0],lines[1:]

In [223]:
lines

[['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3']]

In [224]:
header

['a', 'b', 'c']

In [225]:
data_dict = {h: v for h ,v in zip(header,zip(*values))}

In [226]:
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [227]:
zip(*values)

<zip at 0x89ef348>

In [228]:
for i in zip(*values):
    print(i)

('1', '1')
('2', '2')
('3', '3')


In [229]:
for i in zip(values):
    print(i)

(['1', '2', '3'],)
(['1', '2', '3'],)


在上面的代码中，我们使用字典推导式和表达式zip(*values)生成了一个包含数据列的字典。同时我也写出了使用zip(values的结果，对比可以展示为什么需要使用*values)

CSV文件有多种不同风格，如果需要根据不同的分隔符、字符串引用约定或行终止符定义一种新的格式时，我们可以使用csv.Dialect 定义一个简单的子类：

In [256]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = '；'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

In [257]:
f

<_io.TextIOWrapper name='mydata.csv' mode='w' encoding='cp936'>

In [258]:
with open('example\ex7.csv') as f:
    reader = csv.reader(f,dialect = my_dialect)
    for i in reader:
        print(i)

['a,"b","c"']
['1,"2","3"']
['1,"2","3"']


### CSV 方言选项
* delimiter       一个用于分隔字段的字符，默认是","
* lineterminator  行终止符，默认是'\r\n'，读取器会忽略行终止符并识别跨平台行终止符
* quotechar       用在含有特殊字符字段中的引号，默认是'"'
* quoting         引用惯例，默认是csv.QUOTE_MINIMAL(只使用特殊字符，如分隔符)，还有其他，可以参考文档
* skipinitialspace   忽略每个分隔符后的空白，默认是False
* doublequote        如何处理字段内部的引号。如果是True，则是双引号。
* escapechar         当引用设置为csv.QUOTE_NONE时用于转移分隔符的字符串，默认是禁用的。

需要手动写入被分隔的文件时，你可以使用csv.writer。这个函数接收一个已经打开的可写入文件对象以及和csv.reader相同的 CSV方言，格式选项:

In [260]:
with open('mydata.csv','w') as f:
    writer = csv.writer(f,dialect=my_dialect)
    writer.writerow(('one','two','three'))
    writer.writerow(('1','2','3'))
    writer.writerow(('4','5','6'))
    writer.writerow(('7','8','9'))

In [261]:
!type mydata.csv

one；two；three
1；2；3
4；5；6
7；8；9


## 6.1.4
JSON 已经成为Web浏览器和其他应用间通过HTTP请求发送数组的标准格式。它是一种比CSV等表格文本形式更为自由的数据形式。

In [269]:
obj = """
{"name":"Wes",
  "places_lived":["United States","Spain","Germany"],
  "pet":null,
  "siblings":[{"name":"Scott","age":30,"pets":["Zeus","Zuko"]},
              {"name":"Katie","age":38,
               "pets":["Sixes","Stache","Cisco"]}
              ]
}

"""

In [270]:
import json

In [277]:
result = json.loads(obj)  # 将JSON字符串转成python形式。

In [278]:
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [281]:
asjson = json.dumps(result)  # 将python对象转换会JSON

In [282]:
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

可以自行决定如何将JSON对象或对象列表转换为DataFrame或其他数据结构。比较方便的是将字典构成的列表（之前是JSON对象）传入DataFrame构造函数，并选出数据字段的子集

In [284]:
siblings = pd.DataFrame(result['siblings'],columns=['name','age'])

In [285]:
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [289]:
!type example\example.json

[{"a":1,"b":2,"c":3},
 {"a":4,"b":5,"c":6},
  {"a":7,"b":8,"c":9}

]


pandas.read_json 的默认选项是假设JSON数组中的每个对象是表里的一行

In [290]:
data = pd.read_json('example\example.json')

In [291]:
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


如果你需要从pandas中将数据导出为JSON，一种办法是对Series和DataFrame使用to_json方法

In [293]:
print(data.to_json())

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [295]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]
