[Pandas](https://pandas.pydata.org/) 是 Python 的一個資料分析函式庫，提供如 [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) 等十分容易操作的資料結構，是近年做數據分析時不可或需的工具之一。

在进行数据科学项目的过程中，经常会使用Pandas进行数据的加载和处理。本文摘录自[資料科學家的 pandas 實戰手冊：掌握 40 個實用數據技巧](https://leemeng.tw/practical-pandas-tutorial-for-aspiring-data-scientists.html)。

在使用Pandas的时候，首先需要导入Pandas类库，这里使用 **import pandas** 语句。

In [4]:
import pandas as pd
pd.__version__

'0.23.4'

## 建立DataFrame

DataFrame是Pandas类库中有使用较多的数据类型，在Pandas中也有很多创建DataFrame的方法。以下是一些较为实用的方法。

### 用Python dict创建DataFrame

使用Python的 **dict** 创建DataFrame相对比较直观一些。基本上**dict**中的每一个键值（key）对应了DataFrame中的每一列特征名称，而值（value）是一个iterable，代表每一个特征的具体数据。

In [6]:
dic = {
    'col 1': [1, 2, 3],
    'col 2': [10.01, 22.02, 33.03],
    'col 3': ['a', 'b', 'c'],
    'col 4': list('POI'),
    'col 5': pd.Series(range(3))
}
df = pd.DataFrame(dic)
df

Unnamed: 0,col 1,col 2,col 3,col 4,col 5
0,1,10.01,a,P,0
1,2,22.02,b,O,1
2,3,33.03,c,I,2


在Python中，pandas的DataFrame对象通常会带有 **df** 的标识，这样也是为了能够让代码的阅读者能够直观清晰地知道具体的数据类型。当时往往在DataFrame中我们需要特征的名称有具体的含义，因此就需要操作DataFrame，对特征名称进行修改等。

In [16]:
rename_dic = {'col 1': 'x', 'col 2': 'y'}
df.rename(rename_dic, axis = 1)

Unnamed: 0,x(new),y(new),col 3,col 4,col 5
0,1,10.01,a,P,0
1,2,22.02,b,O,1
2,3,33.03,c,I,2


上述的修改方式，是直接构建一个待修改名称和修改名称的对应dict，然后使用DataFrame的函数 **rename** 进行名称修改。这里需要注意的是 **axis=1**，在Pandas中，大多数函数默认预处理的都是行（row），使用 **axis=0**表示，当需要处理列（column）的时候，需要使用 **axis=1**。

更换名称也可以使用**df.columns**的方式进行：

In [15]:
df.columns = ['x(new)', 'y(new)'] + list(df.columns[2:])
df

Unnamed: 0,x(new),y(new),col 3,col 4,col 5
0,1,10.01,a,P,0
1,2,22.02,b,O,1
2,3,33.03,c,I,2
