# 读取 CSV 文件
我们现在练习用这个小的学生成绩数据集读取 csv 文件。根据之前的介绍，`read_csv()` 用于将数据从 csv 文件加载到 Pandas 数据框中。只需要指定数据的文件路径。我将 `student_scores.csv` 存储在与这个 Jupyter notebook 相同的目录下，所以只需要提供文件名。

浏览这个 Jupyter notebook 的同时，运行每个框。

In [None]:
import pandas as pd

df = pd.read_csv('student_scores.csv')

`head()` 是一个有用的功能，可以在数据框上调用，用于显示前几行。我们用这个功能看一下数据是什么样的。

In [None]:
df.head()

请记住，CSV 代表逗号分隔值，但这些值实际可用不同的字符、制表符、空格等分隔。例如，如果文件用逗号分隔，仍然可以将 `read_csv()` 与 `sep` 参数一起使用。

In [None]:
df = pd.read_csv('student_scores.csv', sep=':')
df.head()

明显没有成功，因为 CSV 文件是用逗号分隔的。由于没有冒号，没有被分隔的值，所有值都被读取到一个列！

## 标题
`read_csv` 的另一个功能是指定文件的哪一行作为标题，而标题指定了列标签。通常第一行是标题，但有时如果文件顶部有额外的元信息，我们希望指定另一行作为标题。可以这样操作。

In [None]:
df = pd.read_csv('student_scores.csv', header=2)
df.head()

这里使用第 2 行作为标题，上面的所有数据都被删除。默认情况下，`read_csv` 使用 header=0，使用第一行作为列标签。

如果文件中不包括列标签，可以使用 `header=None` 防止数据的第一行被误当做列标签。

In [None]:
df = pd.read_csv('student_scores.csv', header=None)
df.head()

还可以用以下方法自己指定列标签。

In [None]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', names=labels)
df.head()

如果想告诉 pandas，正在替换的数据包含标题行，可以用以下方法指定这一行。

In [None]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', header=0, names=labels)
df.head()

## 索引
除使用默认索引（从 0 递增 1 的整数）之外，还可以将一个或多个列指定为数据框的索引。

In [None]:
df = pd.read_csv('student_scores.csv', index_col='Name')
df.head()

In [None]:
df = pd.read_csv('student_scores.csv', index_col=['Name', 'ID'])
df.head()

这个功能可单独用于进行多种操作，例如解析日期、填充空值、跳行等。可以在  `read_csv()` 后面进行不同步骤，实现这些操作。我们将用其它方法修改数据，你可以在 [这里](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) 查看如何用这个功能进行操作。

## 测试题 #1
使用 `read_csv()` 读入 `cancer_data.csv`，使用适当列作为索引。然后使用数据框上的 `.head()` 查看操作是否正确。

In [None]:
df_cancer =

## 测试题 #2
根据这个 [网站](http://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant) 上的特征描述，用 `read_csv()` 读入包含多个描述性列名称的 `powerplant_data.csv`。然后使用数据框上的 `.head()` 查看操作是否正确。*提示：先调用没有参数的  `read_csv()` ，查看一下数据是什么样。*

In [None]:
df_powerplant =

# 写入 CSV 文件
太棒了！现在我们将含有电厂数据的第二个数据框保存为 csv 文件，供下一段使用。

In [None]:
df_powerplant.to_csv('powerplant_data_edited.csv')

看一下能不能获得我们预期的结果。

In [None]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()

这个 `Unnamed:0` 是什么？`to_csv()` 默认保存索引，除非指定不保存。如需忽略索引，必须提供参数 `index=False`

In [None]:
df_powerplant.to_csv('powerplant_data_edited.csv', index=False)

In [None]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()