read_csv()函数的相关参数：

- index_col，指定要读取csv中的哪一列作为行标签
- header，指定要读取csv中的哪一行作为列标签
- sep，指定分隔符
- names，指定各列名称
- usecols，可以传入“列名称列表”或者“列索引列表”来指定导入对应的列。
- dtype，导入时指定列的类型
- dayfirst

## 使用`index_col`参数确认哪一列作为行标签

先看一下，读取csv_write_ex.csv的效果，打开该csv文件显示如下：

![](./csv_write_ex.png)

当我们直接读取时，看到的结果是这样：

In [2]:
import pandas as pd
import numpy as np

pd.read_csv("csv_write_ex.csv")

Unnamed: 0.1,Unnamed: 0,a,b,c
0,0,61,69,38
1,1,64,2,6
2,2,74,70,81
3,3,43,66,47
4,4,54,86,70


也就是，使用`read_csv()`没用给定任何参数的时候，会自动添加0，1，2...递增的行标签，但实际上原来的行标签已经保存在里面了。我们可以直接使用已有的行标签，因此需要通过`index_col`来指定

In [3]:
pd.read_csv("csv_write_ex.csv", index_col=0)

Unnamed: 0,a,b,c
0,61,69,38
1,64,2,6
2,74,70,81
3,43,66,47
4,54,86,70


## 使用`header`参数确定哪一行作为列标签

直接读取csv时，默认以第一行，即`header = 0`作为标题，如果不需要标题，那么设置`header=None`，此时第一行也会被当做数据。

In [7]:
pd.read_csv("csv_write_ex.csv", index_col=0, header=None)

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,a,b,c
0.0,61,69,38
1.0,64,2,6
2.0,74,70,81
3.0,43,66,47
4.0,54,86,70


## 使用`sep`参数指定分隔符

分隔符：默认以','去分割各个字段，如果原始文件不是以逗号做为分隔符，那么需要另外指定。

```
import pandas as pd
df2 = pd.read_csv("dataset.txt", sep = "|")
```

## 使用`names`指定各列名称

使用`names`参数可以指定各列名称，该参数通常是在原始csv里面并没用header数据，所以需要另外指定的情况：

In [10]:
pd.read_csv("csv_write_ex.csv", index_col=0, names=['A', 'B', 'C'])

Unnamed: 0,A,B,C
,a,b,c
0.0,61,69,38
1.0,64,2,6
2.0,74,70,81
3.0,43,66,47
4.0,54,86,70


## 使用`usecols`来导入特定列

*这里需要特别注意的是不要和index_col混用，如果两者在一起，那么是先用usecols选择好数据，再应用index_col*

In [12]:
pd.read_csv("csv_write_ex.csv", usecols=['a', 'b'])

Unnamed: 0,a,b
0,61,69
1,64,2
2,74,70
3,43,66
4,54,86


In [13]:
pd.read_csv("csv_write_ex.csv", index_col=0, usecols=['a', 'b'])

Unnamed: 0_level_0,b
a,Unnamed: 1_level_1
61,69
64,2
74,70
43,66
54,86


你可以使用lambeda表达式进行反向选取。

```
df = pd.read_csv("f500.csv", usecols = lambda column : column not in
["company" , "rank", "revenues"])
```

## 使用`dtype`参数在导入时指定列的类型

In [15]:
my_df = pd.read_csv("csv_write_ex.csv", index_col=0)
print(my_df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       5 non-null      int64
 1   b       5 non-null      int64
 2   c       5 non-null      int64
dtypes: int64(3)
memory usage: 160.0 bytes
None


以上从csv里面读取的数字默认`int64`类型，可以在读取的时候将其转换为`str`：

In [17]:
my_df = pd.read_csv("csv_write_ex.csv", index_col=0, dtype={"b":"str", "c":"str"})
print(my_df.info())

print(type(my_df.loc[1, "b"]))

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a       5 non-null      int64 
 1   b       5 non-null      object
 2   c       5 non-null      object
dtypes: int64(1), object(2)
memory usage: 160.0+ bytes
None
<class 'str'>


## 使用`dayfirst`


对于列的日期 04/10/2019 统一转换为 2019-10-04，避免混淆04是月份。

```
pd.read_csv('./data/es50.txt', index_col=0, parse_dates=True, sep=';', dayfirst=True)
```