将表格型数据读取为DataFrame对象是pandas的重要特性

* read_csv: 从文件、URL或文件型对象中读取分隔好的数据，逗号是默认分隔符 —— CSV文件
* read_table: 从文件、URL或文件型对象读取分隔好的数据，制表符是默认分隔符
* read_fwf: 从特定宽度格式的文件中读取数据(无分隔符)
* read_clipboard: read_table的剪切板版本，在表格中从Web页面上转换成数据时有用
* read_excel: 从Excel的XLS或XLSX文件中读取表格数据
* read_hdf: 读取pandas存储的HDF5文件
* read_html: 从HTML中读取所有表格数据
* read_json: 从JSON字符串中读取数据
* read_msgpack: 读取MessagePack二进制格式的pandas数据
* read_pickle: 读取以python pickle 格式存储的任意对象
* read_sas: 读取存储在SAS系统中定制存储格式的SAS数据集
* read_sql: 将SQL查询结果读取为pandas的DataFrame
* read_stata: 读取Stata格式的数据集合
* read_feather: 读取Feather二进制格式

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('../examples/ex1.csv')

read_csv 的可以看成read_table的简化版本，

In [4]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
pd.read_table('../examples/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# !cat ../examples/ex2.csv * cat 是Linux的系统命令
# 
with open('../examples/ex2.csv', 'r', encoding='utf-8') as f:
    content = f.read()


In [12]:
content

'1,2,3,4,hello\n5,6,7,8,world\n9,10,11,12,foo'

In [16]:
pd.read_csv('../examples/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [17]:
pd.read_csv('../examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
names=['a', 'b', 'c', 'd', 'message']

message列返回成为DataFrame的索引， 可以指定位置4的列为索引？

In [19]:
pd.read_csv("../examples/ex2.csv", names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


* header: 设置表头为空， 即数据没有表头
* names 为数据创建表头
* index_col 指定某一列为索引

分层索引？

In [21]:
open("../examples/csv_mindex.csv").read()

'key1,key2,value1,value2\none,a,1,2\none,b,3,4\none,c,5,6\none,d,7,8\ntwo,a,9,10\ntwo,b,11,12\ntwo,c,13,14\ntwo,d,15,16\n'

In [22]:
parsed = pd.read_csv('../examples/csv_mindex.csv', index_col=['key1', 'key2'])

In [23]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16
