# 文本文件读写

本节介绍常用的表格式文本文件（csv）的读取与导出操作。

In [4]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 读取csv文件

数据分析中最常用文本文件格式就是`csv`文件，即逗号分隔值(Comma-Separated Values，CSV)文件。csv 文件是一种简单通用的文件格式，以文本形式存储表格数据，常用于程序之间表格数据的传送。

### `read_csv()`语法

Pandas 中提供`pd.read_csv() ` 函数来读取 csv 文件。尽管 csv 文件简单，但由于现实世界数据的复杂性，`pd.read_csv()` 函数的可选参数已经非常复杂，有几十个之多。有时会感到有些困难，多看看在线文档，通过示例总能找到正确参数。

`pd.read_csv()`使用语法为：
```python
pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
```
主要参数包括：
- `filepath_or_buffer`，文件路径、URL或文件型对象。
- `sep=','`， 指定分隔符，可使用正则表达式。
- `header='infer'`，用作列名的行号，默认是第一行。如果没有列名的话，设为 None。
- `names`，结果的列名列表，与`header=None`配合使用。
- `index_col`，用作行索引的列编号或列名。可以是名称/数字标量，也可以是分层索引。
- `dtype`，指定每列的数据类型。
- `skiprows`，从文件开头起，需要跳过的行数或行号列表。
- `na_values`，需要用 NA 替换的值序列
- `comment=None`，在行结尾处分隔注释的字符
- `parse_dates=False`，尝试将数据解析为日期。默认是`False`。如果为`True`，则尝试解析所有列。可以指定列号或列名列表对指定列进行解析。
- `date_parser`，用于解析日期的函数
- `nrows`，从文件开头处读入的行数
- `skip_footer`，忽略文件尾部的行数。
- `verbose`，打印各种解析器输出的信息，比如位于非数值列中缺失值的数量。
- `encoding`，Unicode文本编码
- `squeeze`，如果解析数据只包含一列，返回一个 `Series` 对象
- `engine`，使用的分析引擎。可选`C`或者`python`。`C`引擎快但`Python`引擎功能更完备。

### 读取文件实例1

通常一个 csv 文件的第一行内容为各列的字段名，后续则是数据行。例如下面创建一个简单示例文件，各列内容为：
- restaurant_name, 饭店位置
- times， 日期
- meals, 用餐标识，早、午、晚餐
- customers，顾客人数
- costs，平均消费
- notes，注

In [17]:
%%writefile demo01.csv
restaurant_name,times,meals,customers,costs,notes
Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx
Xuhui,2018-10-10 20:00:00,dinner,250,35.5,xx
Xuhui,2018-10-10 21:00:00,dinner,150,40.6,xx

Overwriting demo01.csv


传入文件路径，其它使用缺省参数，即可读取该文件：

In [19]:
df = pd.read_csv('demo01.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
restaurant_name    6 non-null object
times              6 non-null object
meals              6 non-null object
customers          6 non-null int64
costs              6 non-null float64
notes              6 non-null object
dtypes: float64(1), int64(1), object(4)
memory usage: 368.0+ bytes


In [20]:
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
2,Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
3,Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx
4,Xuhui,2018-10-10 20:00:00,dinner,250,35.5,xx


有时候，csv 文件第一行没有数据集字段的描述，那么需要，通过使用`names`参数指定，同时配合`header=None`即可：

In [13]:
%%writefile demo02.csv
Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx
Xuhui,2018-10-10 20:00:00,dinner,250,35.5,xx
Xuhui,2018-10-10 21:00:00,dinner,150,40.6,xx

Writing demo02.csv


In [21]:
colnames = ['restaurant_name', 'times', 'meals', 'customers', 'costs', 'notes']
df = pd.read_csv('demo02.csv', header=None, names=colnames)
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
2,Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
3,Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx
4,Xuhui,2018-10-10 20:00:00,dinner,250,35.5,xx


在上面示例中，第2列(times)数据类型为字符串(object)，可以使用`parse_dates`参数进行日期解析：

In [26]:
df = pd.read_csv('demo01.csv', parse_dates=[1])
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
2,Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
3,Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx
4,Xuhui,2018-10-10 20:00:00,dinner,250,35.5,xx


In [27]:
colnames = ['restaurant_name', 'times', 'meals', 'customers', 'costs', 'notes']
df = pd.read_csv('demo02.csv', header=None, names=colnames, parse_dates=['times'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
restaurant_name    6 non-null object
times              6 non-null datetime64[ns]
meals              6 non-null object
customers          6 non-null int64
costs              6 non-null float64
notes              6 non-null object
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 368.0+ bytes


在读取文件时，可以使用如下参数控制读取的数据行：
- `skiprows`：跳过⼀定的⾏数
- `nrows`：仅读取⼀定的⾏数
- `skipfooter`：尾部有固定的⾏数不读取

In [32]:
df = pd.read_csv('demo01.csv', parse_dates=['times'], nrows=2)
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx


In [37]:
# 使用skipfooter时，解析引擎使用python
df = pd.read_csv('demo01.csv', parse_dates=['times'], engine='python', skipfooter=2)
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,Xuhui,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,Xuhui,2018-10-10 07:00:00,breakfast,70,7.6,xx
2,Xuhui,2018-10-10 11:00:00,lunch,100,24.5,xx
3,Xuhui,2018-10-10 12:00:00,lunch,230,23.4,xx


有时候文件中包含中文时会乱码，使用`encoding`并指定正确的编码。

In [40]:
%%writefile demo03.csv
restaurant_name,times,meals,customers,costs,notes
徐汇,2018-10-10 06:00:00,breakfast,60,6.6,xx
徐汇,2018-10-10 07:00:00,breakfast,70,7.6,xx
徐汇,2018-10-10 11:00:00,lunch,100,24.5,xx
徐汇,2018-10-10 12:00:00,lunch,230,23.4,xx
徐汇,2018-10-10 20:00:00,dinner,250,35.5,xx
徐汇,2018-10-10 21:00:00,dinner,150,40.6,xx

Overwriting demo03.csv


In [42]:
# 使用skipfooter时，解析引擎使用python
df = pd.read_csv('demo03.csv', parse_dates=['times'], encoding='utf-8')
df.head()

Unnamed: 0,restaurant_name,times,meals,customers,costs,notes
0,徐汇,2018-10-10 06:00:00,breakfast,60,6.6,xx
1,徐汇,2018-10-10 07:00:00,breakfast,70,7.6,xx
2,徐汇,2018-10-10 11:00:00,lunch,100,24.5,xx
3,徐汇,2018-10-10 12:00:00,lunch,230,23.4,xx
4,徐汇,2018-10-10 20:00:00,dinner,250,35.5,xx


Pandas 在读取文本文件时，会自动解析数据，得到对应的数据类型。可以使用`dtype`参数按照自己意愿进行控制。下面创建一个 csv 文件：

In [65]:
%%writefile demo04.csv
a,b,c,d
1,2,3,4
5,6,7,8
9,10,11,12

Overwriting demo04.csv


缺省读取的话，返回的数据类型都是浮点数(np.float64)。这里传入`dtype=object`，使得数据为字符串类型：

In [66]:
df = pd.read_csv('demo04.csv', dtype=object)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
a    3 non-null object
b    3 non-null object
c    3 non-null object
d    3 non-null object
dtypes: object(4)
memory usage: 176.0+ bytes


In [67]:
df.head()

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


可以传入参数`dtype`一个字典，则分别指定每列的数据类型：

In [68]:
df = pd.read_csv('demo04.csv', engine='python',
                 dtype={'b': object, 'c': np.float64, 'd': 'Int64'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
a    3 non-null int64
b    3 non-null object
c    3 non-null float64
d    3 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 176.0+ bytes


### 读取文件实例2

在泰坦尼克号幸存者预测分析比赛中提供的数据集共有12列，对应的列名以及含义如下：
- `PassengerId`：乘客ID
- `Survived`：是否生存
- `Pclass`：客舱等级
- `Name`：乘客姓名
- `Sex`：性别
- `Age`：年龄
- `SibSp`：在船兄弟姐妹数/配偶数
- `Parch`：在船父母数/子女数
- `Ticket`：船票编号
- `Fare`：船票价格
- `Cabin`：客舱号
- `Embarked`：登船港口

数据集文件是是 csv 文件，下面来读取其中一个文件`train.csv`：

In [8]:
trainfile = os.path.join('..', 'data', 'titanic', 'train.csv')
trainfile

'..\\data\\titanic\\train.csv'

In [43]:
# 使用缺省参数读取
df = pd.read_csv(trainfile)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


`pandas.read_csv()`函数会自动创建一个整数序列的索引：

In [44]:
df.index

RangeIndex(start=0, stop=891, step=1)

有时候会使用其中一列作为索引。例如，这里使用 `index_col`来指定数据集中一列作为索引：

In [46]:
# 指定`PassengerId`为索引
df = pd.read_csv(trainfile, index_col=['PassengerId'])
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
Survived    891 non-null int64
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [47]:
df.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
           dtype='int64', name='PassengerId', length=891)

In [None]:
df.index

## 导出 csv 文件

反过来，使用 `DataFrame` 对象的 `to_csv()` 方法可以把数据存储到指定文件中，其使用语法为：
```python
df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.')
```
主要参数说明如下：
- `path_or_buf`，输出文件路径字符串；
- `sep=','`，数据分隔符，缺省是逗号`,`；
- `na_rep=''`，NA值存储字符, 缺省`''`；
- `float_format`，浮点数格式
- `columns`，指定要存储的列，缺省全部列；
- `header`，指定是否写入行写入列名，缺省是写入；
- `index`，指定是否写入索引，缺省是写入；
- `index_label`，指定行索引名称；
- `mode='w'`，写入方式
- `encoding`，编码格式
- `date_format`，指定日期格式

例如创建一个`DataFrame`对象：

In [74]:
from datetime import datetime
# 时间
times = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), 
         datetime(2018, 10, 10, 8), datetime(2018, 10, 10, 11), 
         datetime(2018, 10, 10, 12), datetime(2018, 10, 10, 13), 
         datetime(2018, 10, 10, 18), datetime(2018, 10, 10, 19), 
         datetime(2018, 10, 10, 20), datetime(2018, 10, 10, 21)]
# 餐时标识，顾客人数、平均消费、总消费
meals = np.array(['B', 'B', 'B', 'L', 'L', 'L', 'D', 'D', 'D', ''])
customers = np.array([60, 70, 65, 100, 230, 150, 100, 300, np.nan, 300])
costs = np.array([6.5, 7, 8, 24, 23, 26, 45, 55.5, 45, np.nan])
total_costs = customers * costs

# 创建Series、DataFrame对象
data = {'meals': meals, 'customers': customers, 'costs': costs, 'total_costs': total_costs}
df = pd.DataFrame(data, index=times)

In [76]:
df.head()

Unnamed: 0,meals,customers,costs,total_costs
2018-10-10 06:00:00,B,60.0,6.5,390.0
2018-10-10 07:00:00,B,70.0,7.0,490.0
2018-10-10 08:00:00,B,65.0,8.0,520.0
2018-10-10 11:00:00,L,100.0,24.0,2400.0
2018-10-10 12:00:00,L,230.0,23.0,5290.0


下面使用`to_csv()`方法，写入到指定 csv 文件:

In [77]:
df.to_csv('out01.csv')

检查结果文件，发现未写入索引名称，使用`index_label`参数来指定：

In [85]:
df.to_csv('out02.csv', index_label='times')

使用参数`columns`来控制输出列：

In [87]:
df.to_csv('out03.csv', index_label='times', columns=['customers', 'costs'])

使用`float_format, header`等参数控制输出结果：

In [88]:
df.to_csv('out04.csv', index_label='times', header=False, float_format='%.2f')

检查输出结果文件，会发现索引列没有了。使用`df.to_csv()`帮助信息，尝试其他参数，了解更多用法。

## 更多文本文件读写

Pandas 还提供其它文本文件读取函数：
- `pd.read_table()`，从文件、URL或文件对象中读取表格分隔符的数据
- `pd.read_fwf()`，从固定宽度格式文件中读取数据
- `pd.read_json()`，从 JSON 字符串中读取数据
- `pd.read_html()`，从 HTML 文件中读取数据

这些函数的语法与`read_csv()`有很多类似，如有需求，多看示例与在线文档即可。