# 数据载入、存储及文件格式

## 1、文本格式数据的读写

In [1]:
'''
利用
read_csv    分隔符默认是','      它可以自动推断读取数据的类型
或read_table  分隔符默认是'\t'制表符
来读取数据
'''
import pandas as pd
import numpy as np
data=pd.read_csv('example/ex1.csv') 
print(data)                                            #读取到的数据默认认为第一行是表头行
data1=pd.read_table('example/ex1.csv',sep=',')        #需指定分隔符为','
print(data1)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [32]:
#对于不带表头行的文件
data3=pd.read_csv('example/ex2.csv',header=None)                         #指明没有表头行，默认自动分配表头
print(data3)
data4=pd.read_csv('example/ex2.csv',names=['a','b','c','d','message'])    #也可以自己指定
print(data4)

   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [37]:
#可以使得数据中某一列值成为返回的DataFrame的索引
names=list(data4.columns)
data5=pd.read_csv('example/ex2.csv',names=names)
print(data5)
data6=pd.read_csv('example/ex2.csv',names=names,index_col='message')  #利用index_col参数
print(data6)
data6=pd.read_csv('example/ex2.csv',names=names,index_col=3)          #直接传入列的序号也是可以的
print(data6)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
         a   b   c   d
message               
hello    1   2   3   4
world    5   6   7   8
foo      9  10  11  12
    a   b   c message
d                    
4   1   2   3   hello
8   5   6   7   world
12  9  10  11     foo


In [39]:
#传入多个列名，可以实现分层索引
data1=pd.read_csv('example/ex3.csv',index_col=['key1','key2'])    
print(data1)

           value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16


In [41]:
#当文件中利用不同数量的空格隔开时，可以将分隔符设定为'\s+'
data2=pd.read_csv('example/ex3.txt',sep='\s+')
print(data2)                                              #由于行名的数量比数据列数少一个，所以第一列被推断为索引

            A         B         C
aaa -0.200000 -1.026000 -0.619000
bbb  0.927272  0.302900 -0.032600
ccc -0.264580 -0.386314 -0.217601
ddd -0.871800 -0.348350  1.100049


In [42]:
#skiprows可以用来跳过一些行读取
data3=pd.read_csv('example/ex4.csv',skiprows=[0,2,3])
print(data3)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [46]:
#缺失值处理
data4=pd.read_csv('example/ex5.csv')       #缺失的地方为NA或NULL，或直接为空，则会直接填充'NaN'
print(data4)
data4=pd.read_csv('example/ex5.csv',na_values=['iop',1])     #可以设定标识值，遇到标识值，同样填充'NaN'
print(data4)
sentinels={'message':['foo','NA'],'something':['two']}
data4=pd.read_csv('example/ex5.csv',na_values=sentinels)     #还可以对不同行采取不同的缺失值标识
print(data4)

  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo
  something    a   b     c   d message
0       one  NaN   2   3.0   4     NaN
1       two  5.0   6   NaN   8   world
2     three  9.0  10  11.0  12     foo
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       NaN  5   6   NaN   8   world
2     three  9  10  11.0  12     NaN


In [47]:
'''
read_csv中有非常非常非常多可选的参数，具体看书中P170
'''

'\nread_csv中有非常非常非常多可选的参数，具体看书中P170\n'

### 1.1、分块读入文本文件

In [48]:
pd.options.display.max_rows=10   #设置pandas的显示设置，最大显示行数为10

In [58]:
#当只想读取一个大文件的一小部分行时，可以指明nrows
data1=pd.read_csv('example/ex6.csv')
print(data1)
data1=pd.read_csv('example/ex6.csv',nrows=5)
print(data1)

    a   b   c   d message
0   1   2   3   4   hello
1   5   6   7   8   world
2   9  10  11  12     foo
3  13  14  15  16     uio
4  17  18  19  20     iop
5  21  22  23  24     yui
    a   b   c   d message
0   1   2   3   4   hello
1   5   6   7   8   world
2   9  10  11  12     foo
3  13  14  15  16     uio
4  17  18  19  20     iop


In [67]:
#利用chunksize分块遍历文件
chunker=pd.read_csv('example/ex6.csv',chunksize=2)
chunker

<pandas.io.parsers.readers.TextFileReader at 0x26dcdafc810>

In [72]:
chunker=pd.read_csv('example/ex6.csv',chunksize=2)
tot=pd.Series([])
for pieces in chunker:                                                      #分块计算每块各自'message'不同信息出现的次数，再逐块相加
    tot=tot.add(pieces['message'].value_counts(),fill_value=0)
tot=tot.sort_values(ascending=False)
print(tot)

tot=pd.Series([])
for pieces in chunker:
    tot=tot.add(pieces['message'].value_counts(),fill_value=0)
tot=tot.sort_values(ascending=False)
print(tot)                                                                #chunker只能使用一次，类似生成器

message
foo      1.0
hello    1.0
iop      1.0
uio      1.0
world    1.0
yui      1.0
dtype: object
Series([], dtype: object)


### 1.2、将数据写入文本格式

In [4]:
data=pd.read_csv('example/ex1.csv',na_values='hello')
print(data)

   a   b   c   d message
0  1   2   3   4     NaN
1  5   6   7   8   world
2  9  10  11  12     foo


In [103]:
#利用DataFrame的to_csv方法可以将数据默认导出为以','分隔的文件  
data.to_csv('example/out.csv')          

In [101]:
!type example/ex1.csv              '''jupyter中的文件路径里,/,用来区分路径。但是windows系统的cmd里，用,\,来区分路径'''

命令语法不正确。


In [106]:
!type example\out.csv                     #注意，导出时连索引都导出去了

,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [117]:
data1=pd.read_csv('example/out.csv')
print(data1)
data1=pd.read_csv('example/out.csv',index_col=0)
print(data1)

   Unnamed: 0  a   b   c   d message
0           0  1   2   3   4   hello
1           1  5   6   7   8   world
2           2  9  10  11  12     foo
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [5]:
#可以改变导出时的分隔符
import sys
data.to_csv(sys.stdout,sep='|')               #设置分隔符为'|'。写入到sys.stdout中，即控制台打印的文本

|a|b|c|d|message
0|1|2|3|4|
1|5|6|7|8|world
2|9|10|11|12|foo


In [7]:
#可以改变导出时的缺失值标注
data.to_csv(sys.stdout,na_rep='NULL')        #将缺失值标注为'NULL'

,a,b,c,d,message
0,1,2,3,4,NULL
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
#可以选择不导出索引或者标签
data.to_csv(sys.stdout,index=False,header=False)

1,2,3,4,
5,6,7,8,world
9,10,11,12,foo


In [9]:
#可以仅写入列的子集
data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

a,b,c
1,2,3
5,6,7
9,10,11


In [11]:
#Series也有to_csv方法
dates=pd.date_range('1/1/2000',periods=7)
dates

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
               '2000-01-05', '2000-01-06', '2000-01-07'],
              dtype='datetime64[ns]', freq='D')

In [19]:
ts=pd.Series(np.arange(7),index=dates)
print(ts)
ts.to_csv('example/out2.csv',header=False)

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
Freq: D, dtype: int32


In [20]:
!type example\out2.csv

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


### 1.3、使用分隔格式