# 4.1 读写文件

Python支持许多文件类型，如txt, xlsx, csv, pickle, hdf5。这里介绍xlsx和csv。xlsx是Excel 2007后的标准文件，存放表格式数据，注意一个excel文件里有多个页（Sheet）。而CSV（Comma-Separated Values）本质上是一个文本文件，每行数据由分隔符分成多列，常见分隔符有逗号、空格、制表符（程序里表示为'\t'）。试验发现，csv文件比xlsx文件读写要快，建议保存在csv文件。

【特别注意】csv和xlsx在Excel中打开虽然看着一样，但是里面的文件格式不同。如果你用记事本打开一个csv文件，将发现它是一个文本文件；如果你用记事本打开一个xlsx文件，将看到一堆乱码，显示它采用一种特殊的编码。所以，不能用重命名的办法将两者进行转换。

## 4.1 读CSV文件到DataFrame
由于各个国家和标准化组织对字符（在计算机内部）采用不同的二进制编码，即使是简单的CSV文件也可以采用不同的**字符编码**。如果没有指定正确的编码，将会报错：

In [26]:
import pandas as pd
data = pd.read_csv(r'data/中国石油化工交易衍生指标2011-2019.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

上面的出错信息显示，read_csv默认使用'utf-8'编码，解码出错了（UnicodeDecodeError）！

**查看字符的编码：** Python提供了一个chardet（character detection）库，它可以执行。

In [27]:
import chardet
import pandas as pd

file_path = r"data/中国石油化工交易衍生指标2011-2019.csv"
f = open(file_path,'rb')
data = f.read()
print(chardet.detect(data)) #查看文件编码

{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}


发现它的字符编码（encoding）是UTF-16。于是，设置encoding参数：

In [28]:
data = pd.read_csv(r'data/中国石油化工交易衍生指标2011-2019.csv', encoding='UTF-16')
data.head()

Unnamed: 0,TradingDate	Symbol	PE	PB	PCF	PS
0,2011-11-01\t600028\t8.766751\t1.369445\t75.361...
1,2011-11-02\t600028\t8.877102\t1.386683\t76.310...
2,2011-11-03\t600028\t8.852579\t1.382852\t76.099...
3,2011-11-04\t600028\t9.085542\t1.419243\t78.101...
4,2011-11-07\t600028\t9.110064\t1.423074\t78.312...


发现没有办法正常切分多列，分隔符是制表符（\t）。再改：

In [29]:
data = pd.read_csv(r'data/中国石油化工交易衍生指标2011-2019.csv', encoding='UTF-16', sep='\t')
data.head()

Unnamed: 0,TradingDate,Symbol,PE,PB,PCF,PS
0,2011-11-01,600028,8.766751,1.369445,75.361446,0.324027
1,2011-11-02,600028,8.877102,1.386683,76.310051,0.328106
2,2011-11-03,600028,8.852579,1.382852,76.09925,0.3272
3,2011-11-04,600028,9.085542,1.419243,78.101862,0.33581
4,2011-11-07,600028,9.110064,1.423074,78.312663,0.336717


**

## 4.2 写DataFrame到CSV文件
    使用dataframe对象的to_csv方法，可以指定字符编码。

In [30]:
data.to_csv(r'./utf8编码的.csv', encoding='utf_8_sig')

## 4.3 读写Excel文件；读取一个目录下的多个文件
  相关代码见：Python大作业(11.20交)下的“示例程序”。