# Python Pandas基础

## Python Numpy lib

Numpy 数组 Arrays

Numpy数组可以进行很多列表不能进行的运算

In [1]:
from numpy import array
a = array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

In [2]:
import numpy as np

b=np.array([5,4,3,2,1])

b

array([5, 4, 3, 2, 1])

In [2]:
a + 2

array([3, 4, 5, 6])

In [3]:
a + a

array([2, 4, 6, 8])

In [4]:
a * a

array([ 1,  4,  9, 16])

In [5]:
a ** a

array([  1,   4,  27, 256], dtype=int32)

In [6]:
a[:2] + a[-2:]

array([4, 6])

In [7]:
a.shape

(4,)

In [8]:
a.shape = 2,2
a

array([[1, 2],
       [3, 4]])

In [39]:
a.ndim

2

# Pandas

##  Pandas一维数据结构：Series

`Series` 是一维带标记的数组结构，可以存储任意类型的数据（整数，浮点数，字符串，`Python` 对象等等）。

作为一维结构，它的索引叫做 `index`，基本调用方法为

    s = pd.Series(data, index=index)
    
其中，`data` 可以是以下结构：

- 字典
- `ndarray`
- 标量，例如 `5`

`index` 是一维坐标轴的索引列表。

如果 `data` 是个 `ndarray`，那么 `index` 的长度必须跟 `data` 一致：

In [4]:
import numpy as np
import pandas as pd

In [5]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

s

a    0.039395
b    1.358265
c   -0.631936
d    0.118403
e   -0.603954
dtype: float64

In [6]:
pd.Series(np.random.randn(5))

0    0.592287
1   -0.324203
2   -0.392452
3    0.099054
4   -0.238215
dtype: float64

#### 向量化操作

简单的向量操作与 `ndarray` 的表现一致：

In [13]:
s + s

a    0.465335
b   -1.036567
c   -1.275411
d   -1.524308
e   -1.196148
dtype: float64

In [14]:
s * 2

a    0.465335
b   -1.036567
c   -1.275411
d   -1.524308
e   -1.196148
dtype: float64

但 `Series` 和 `ndarray` 不同的地方在于，`Series` 的操作默认是使用 `index` 的值进行对齐的，而不是相对位置：

In [16]:
s[1:] + s[:-1]

a         NaN
b   -1.036567
c   -1.275411
d   -1.524308
e         NaN
dtype: float64

对于上面两个不能完全对齐的 `Series`，结果的 `index` 是两者 `index` 的并集，同时不能对齐的部分当作缺失值处理。

### Pandas二维数据结构：DataFrame

`DataFrame` 是 `pandas` 中的二维数据结构，可以看成一个 `Excel` 中的工作表，或者一个 `SQL` 表，或者一个存储 `Series` 对象的字典。

`DataFrame(data, index, columns)` 中的 `data` 可以接受很多数据类型：

- 一个存储一维数组，字典，列表或者 `Series` 的字典
- 2-D 数组
- 结构或者记录数组
- 一个 `Series`
- 另一个 `DataFrame`

`index` 用于指定行的 `label`，`columns` 用于指定列的 `label`，如果参数不传入，那么会按照传入的内容进行设定。

#### 从 Series 字典中构造

In [17]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

如果没有传入 `columns` 的值，那么 `columns` 的值默认为字典 `key`，`index` 默认为所有 `value` 中 `index` 的并集。

In [18]:
df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


如果指定了 `index` 值，`index` 为指定的 `index` 值：

In [19]:
pd.DataFrame(d, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


如果指定了 `columns` 值，会去字典中寻找，找不到的值为 `NaN`：

In [24]:
pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


In [25]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [26]:
df.columns

Index(['one', 'two'], dtype='object')

#### 列操作

`DataFrame` 可以类似于字典一样对列进行操作：

In [27]:
df["one"]

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [28]:
df['three'] = df['one'] * df['two']

df['flag'] = df['one'] > 2

df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,1.0,False
b,2.0,2.0,4.0,False
c,3.0,3.0,9.0,True
d,,4.0,,False


#### 索引和选择

基本操作：

| Operation	| Syntax | Result |
| ---- | ----- | ---- |
| Select column	| df[col] | Series |
| Select row by label | df.loc[label] | Series |
| Select row by integer location | df.iloc[loc] | Series |
| Slice rows | df[5:10]	| DataFrame |
| Select rows by boolean vector	| df[bool_vec] | DataFrame |

# Pandas Details

## 产生Pandas对象

`pandas` 中有三种基本结构：

- `Series`
    - 1D labeled homogeneously-typed array
- `DataFrame`
    - General 2D labeled, size-mutable tabular structure with potentially heterogeneously-typed columns
- `Panel`
    - General 3D labeled, also size-mutable array

In [29]:
%matplotlib inline

import matplotlib.pyplot as plt

### Series

一维 `Series` 可以用一维列表初始化：

默认情况下，`Series` 的下标都是数字（可以使用额外参数指定），类型是统一的。

In [30]:
s = pd.Series([1,3,5,np.nan,6,8])

print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


### DataFrame

`DataFrame` 则是个二维结构，这里首先构造一组时间序列，作为我们第一维的下标：

In [41]:
dates = pd.date_range('20200101', periods=6)

print(dates)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')


然后创建一个 `DataFrame` 结构：

In [42]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

df

Unnamed: 0,A,B,C,D
2020-01-01,0.71675,-0.289619,1.239022,0.450197
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-03,1.29363,0.328164,0.895875,-0.943286
2020-01-04,2.137313,-0.540347,0.698914,1.622408
2020-01-05,1.170859,0.137662,-0.984217,0.701953
2020-01-06,-0.137379,-0.048214,0.731484,0.830699


默认情况下，如果不指定 `index` 参数和 `columns`，那么他们的值将用从 `0` 开始的数字替代。

除了向 `DataFrame` 中传入二维数组，我们也可以使用字典传入数据：

In [44]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20200102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-02,1.0,3,test,foo
1,1.0,2020-01-02,1.0,3,train,foo
2,1.0,2020-01-02,1.0,3,test,foo
3,1.0,2020-01-02,1.0,3,train,foo


字典的每个 `key` 代表一列，其 `value` 可以是各种能够转化为 `Series` 的对象。

与 `Series` 要求所有的类型都一致不同，`DataFrame` 值要求每一列数据的格式相同：

In [45]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## 查看数据

### 头尾数据

`head` 和 `tail` 方法可以分别查看最前面几行和最后面几行的数据（默认为 5）：

In [46]:
df.head()

Unnamed: 0,A,B,C,D
2020-01-01,0.71675,-0.289619,1.239022,0.450197
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-03,1.29363,0.328164,0.895875,-0.943286
2020-01-04,2.137313,-0.540347,0.698914,1.622408
2020-01-05,1.170859,0.137662,-0.984217,0.701953


最后 3 行：

In [47]:
df.tail(3)

Unnamed: 0,A,B,C,D
2020-01-04,2.137313,-0.540347,0.698914,1.622408
2020-01-05,1.170859,0.137662,-0.984217,0.701953
2020-01-06,-0.137379,-0.048214,0.731484,0.830699


### 下标，列标，数据

下标使用 `index` 属性查看：

In [None]:
df.index

列标使用 `columns` 属性查看：

In [None]:
df.columns

数据值使用 `values` 查看：

In [None]:
df.values

### 统计数据

查看简单的统计数据：

In [None]:
df.describe()

### 转置

In [None]:
df.T

## 排序

`sort_index(axis=0, ascending=True)` 方法按照下标大小进行排序，`axis=0` 表示按第 0 维进行排序。

In [48]:
df.sort_index(ascending=False)

Unnamed: 0,A,B,C,D
2020-01-06,-0.137379,-0.048214,0.731484,0.830699
2020-01-05,1.170859,0.137662,-0.984217,0.701953
2020-01-04,2.137313,-0.540347,0.698914,1.622408
2020-01-03,1.29363,0.328164,0.895875,-0.943286
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-01,0.71675,-0.289619,1.239022,0.450197


In [49]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2020-01-01,0.450197,1.239022,-0.289619,0.71675
2020-01-02,-0.058763,-0.664251,-0.86121,0.142085
2020-01-03,-0.943286,0.895875,0.328164,1.29363
2020-01-04,1.622408,0.698914,-0.540347,2.137313
2020-01-05,0.701953,-0.984217,0.137662,1.170859
2020-01-06,0.830699,0.731484,-0.048214,-0.137379


`sort_values(by, axis=0, ascending=True)` 方法按照 `by` 的值的大小进行排序，例如按照 `B` 列的大小：

In [50]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-04,2.137313,-0.540347,0.698914,1.622408
2020-01-01,0.71675,-0.289619,1.239022,0.450197
2020-01-06,-0.137379,-0.048214,0.731484,0.830699
2020-01-05,1.170859,0.137662,-0.984217,0.701953
2020-01-03,1.29363,0.328164,0.895875,-0.943286


## 索引

虽然 `DataFrame` 支持 `Python/Numpy` 的索引语法，但是推荐使用 `.at, .iat, .loc, .iloc 和 .ix` 方法进行索引。

### 读取数据

选择单列数据：

In [51]:
df["A"]

2020-01-01    0.716750
2020-01-02    0.142085
2020-01-03    1.293630
2020-01-04    2.137313
2020-01-05    1.170859
2020-01-06   -0.137379
Freq: D, Name: A, dtype: float64

也可以用 `df.A`：

In [52]:
df.A

2020-01-01    0.716750
2020-01-02    0.142085
2020-01-03    1.293630
2020-01-04    2.137313
2020-01-05    1.170859
2020-01-06   -0.137379
Freq: D, Name: A, dtype: float64

使用切片读取多行：

In [53]:
df[0:3]

Unnamed: 0,A,B,C,D
2020-01-01,0.71675,-0.289619,1.239022,0.450197
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-03,1.29363,0.328164,0.895875,-0.943286


`index` 名字也可以进行切片：

In [55]:
df["20200101":"20200103"]

Unnamed: 0,A,B,C,D
2020-01-01,0.71675,-0.289619,1.239022,0.450197
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763
2020-01-03,1.29363,0.328164,0.895875,-0.943286


### 使用 `label` 索引

`loc` 可以方便的使用 `label` 进行索引：

In [56]:
df.loc[dates[0]]

A    0.716750
B   -0.289619
C    1.239022
D    0.450197
Name: 2020-01-01 00:00:00, dtype: float64

多列数据：

In [57]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2020-01-01,0.71675,-0.289619
2020-01-02,0.142085,-0.86121
2020-01-03,1.29363,0.328164
2020-01-04,2.137313,-0.540347
2020-01-05,1.170859,0.137662
2020-01-06,-0.137379,-0.048214


选择多行多列：

In [58]:
df.loc['20200102':'20200104',['A','B']]

Unnamed: 0,A,B
2020-01-02,0.142085,-0.86121
2020-01-03,1.29363,0.328164
2020-01-04,2.137313,-0.540347


数据降维：

In [59]:
df.loc['20200102',['A','B']]

A    0.142085
B   -0.861210
Name: 2020-01-02 00:00:00, dtype: float64

得到标量值：

In [60]:
df.loc[dates[0],'B']

-0.28961948266670584

不过得到标量值可以用 `at`，速度更快：

In [61]:
%timeit -n100 df.loc[dates[0],'B']
%timeit -n100 df.at[dates[0],'B']

print(df.at[dates[0],'B'])

55.2 µs ± 19.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
The slowest run took 5.53 times longer than the fastest. This could mean that an intermediate result is being cached.
20.3 µs ± 13.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
-0.28961948266670584


### 使用位置索引

`iloc` 使用位置进行索引：

In [None]:
df.iloc[3]

连续切片：

In [None]:
df.iloc[3:5,0:2]

索引不连续的部分：

In [None]:
df.iloc[[1,2,4],[0,2]]

索引整行：

In [None]:
df.iloc[1:3,:]

整列：

In [None]:
df.iloc[:, 1:3]

标量值：

In [None]:
df.iloc[1,1]

当然，使用 `iat` 索引标量值更快：

In [None]:
%timeit -n100 df.iloc[1,1]
%timeit -n100 df.iat[1,1]

df.iat[1,1]

### 布尔型索引

所有 `A` 列大于 0 的行：

In [None]:
df[df.A > 0]

只留下所有大于 0 的数值：

In [None]:
df[df > 0]

使用 `isin` 方法做 `filter` 过滤：

In [None]:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']

df2

In [None]:
df2[df2['E'].isin(['two','four'])]

### 设定数据的值

In [62]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20200102', periods=6))

s1

2020-01-02    1
2020-01-03    2
2020-01-04    3
2020-01-05    4
2020-01-06    5
2020-01-07    6
Freq: D, dtype: int64

像字典一样，直接指定 `F` 列的值为 `s1`，此时以 `df` 已有的 `index` 为标准将二者进行合并，`s1` 中没有的 `index` 项设为 `NaN`，多余的项舍去：

In [63]:
df['F'] = s1

df

Unnamed: 0,A,B,C,D,F
2020-01-01,0.71675,-0.289619,1.239022,0.450197,
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763,1.0
2020-01-03,1.29363,0.328164,0.895875,-0.943286,2.0
2020-01-04,2.137313,-0.540347,0.698914,1.622408,3.0
2020-01-05,1.170859,0.137662,-0.984217,0.701953,4.0
2020-01-06,-0.137379,-0.048214,0.731484,0.830699,5.0


或者使用 `at` 或 `iat` 修改单个值：

In [64]:
df.at[dates[0],'A'] = 0

df

Unnamed: 0,A,B,C,D,F
2020-01-01,0.0,-0.289619,1.239022,0.450197,
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763,1.0
2020-01-03,1.29363,0.328164,0.895875,-0.943286,2.0
2020-01-04,2.137313,-0.540347,0.698914,1.622408,3.0
2020-01-05,1.170859,0.137662,-0.984217,0.701953,4.0
2020-01-06,-0.137379,-0.048214,0.731484,0.830699,5.0


In [65]:
df.iat[0, 1] = 0

df

Unnamed: 0,A,B,C,D,F
2020-01-01,0.0,0.0,1.239022,0.450197,
2020-01-02,0.142085,-0.86121,-0.664251,-0.058763,1.0
2020-01-03,1.29363,0.328164,0.895875,-0.943286,2.0
2020-01-04,2.137313,-0.540347,0.698914,1.622408,3.0
2020-01-05,1.170859,0.137662,-0.984217,0.701953,4.0
2020-01-06,-0.137379,-0.048214,0.731484,0.830699,5.0


设定一整列：

In [66]:
df.loc[:,'D'] = np.array([5] * len(df))

df

Unnamed: 0,A,B,C,D,F
2020-01-01,0.0,0.0,1.239022,5,
2020-01-02,0.142085,-0.86121,-0.664251,5,1.0
2020-01-03,1.29363,0.328164,0.895875,5,2.0
2020-01-04,2.137313,-0.540347,0.698914,5,3.0
2020-01-05,1.170859,0.137662,-0.984217,5,4.0
2020-01-06,-0.137379,-0.048214,0.731484,5,5.0


设定满足条件的数值：

In [67]:
df2 = df.copy()

df2[df2 > 0] = -df2

df2

Unnamed: 0,A,B,C,D,F
2020-01-01,0.0,0.0,-1.239022,-5,
2020-01-02,-0.142085,-0.86121,-0.664251,-5,-1.0
2020-01-03,-1.29363,-0.328164,-0.895875,-5,-2.0
2020-01-04,-2.137313,-0.540347,-0.698914,-5,-3.0
2020-01-05,-1.170859,-0.137662,-0.984217,-5,-4.0
2020-01-06,-0.137379,-0.048214,-0.731484,-5,-5.0


## 缺失数据

In [68]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1

df1

Unnamed: 0,A,B,C,D,F,E
2020-01-01,0.0,0.0,1.239022,5,,1.0
2020-01-02,0.142085,-0.86121,-0.664251,5,1.0,1.0
2020-01-03,1.29363,0.328164,0.895875,5,2.0,
2020-01-04,2.137313,-0.540347,0.698914,5,3.0,


丢弃所有缺失数据的行得到的新数据：

In [None]:
df1.dropna(how='any')

填充缺失数据：

In [None]:
df1.fillna(value=5)

检查缺失数据的位置：

In [None]:
pd.isnull(df1)

## 计算操作

### 统计信息

每一列的均值：

In [None]:
df.mean()

每一行的均值：

In [None]:
df.mean(1)

多个对象之间的操作，如果维度不对，`pandas` 会自动调用 `broadcasting` 机制：

In [None]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)

print(s)

相减 `df - s`：

In [None]:
df.sub(s, axis='index')

### apply 操作

与 `R` 中的 `apply` 操作类似，接收一个函数，默认是对将函数作用到每一列上：

In [None]:
df.apply(np.cumsum)

求每列最大最小值之差：

In [None]:
df.apply(lambda x: x.max() - x.min())

### 直方图

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
print(s)

直方图信息：

In [None]:
print(s.value_counts())

绘制直方图信息：

In [None]:
h = s.hist()

### 字符串方法

当 `Series` 或者 `DataFrame` 的某一列是字符串时，我们可以用 `.str` 对这个字符串数组进行字符串的基本操作： 

In [69]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

print(s.str.lower())

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object


## 合并

### 连接

In [70]:
df = pd.DataFrame(np.random.randn(10, 4))

df

Unnamed: 0,0,1,2,3
0,0.129325,-2.046175,-0.579819,1.578675
1,-2.037449,-0.293487,0.248046,-1.091221
2,0.105545,-2.013192,-0.386244,0.435919
3,0.186661,-0.194807,0.886479,0.446787
4,0.234782,1.397709,0.723476,1.358822
5,-1.640414,-0.39084,-1.110586,-0.685351
6,1.184554,-0.355701,1.046429,0.595474
7,-1.413456,-0.686343,0.404442,1.816472
8,1.097146,0.105253,-1.255673,0.807297
9,-0.093814,-0.607302,-1.279773,0.644455


可以使用 `pd.concat` 函数将多个 `pandas` 对象进行连接：

In [71]:
pieces = [df[:2], df[4:5], df[7:]]

pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,0.129325,-2.046175,-0.579819,1.578675
1,-2.037449,-0.293487,0.248046,-1.091221
4,0.234782,1.397709,0.723476,1.358822
7,-1.413456,-0.686343,0.404442,1.816472
8,1.097146,0.105253,-1.255673,0.807297
9,-0.093814,-0.607302,-1.279773,0.644455


### 数据库中的 Join

`merge` 可以实现数据库中的 `join` 操作：

In [72]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

print(left)
print(right)

key  lval
0  foo     1
1  foo     2
   key  rval
0  foo     4
1  foo     5


In [None]:
pd.merge(left, right, on='key')

### append

向 `DataFrame` 中添加行：

In [None]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

df

将第三行的值添加到最后：

In [None]:
s = df.iloc[3]

df.append(s, ignore_index=True)

### Grouping

In [None]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})

df

按照 `A` 的值进行分类：

In [None]:
df.groupby('A').sum()

按照 `A, B` 的值进行分类：

In [None]:
df.groupby(['A', 'B']).sum()

## 改变形状

### Stack

产生一个多 `index` 的 `DataFrame`：

In [None]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

df

`stack` 方法将 `columns` 变成一个新的 `index` 部分：

In [None]:
df2 = df[:4]

stacked = df2.stack()

stacked

可以使用 `unstack()` 将最后一级 `index` 放回 `column`：

In [None]:
stacked.unstack()

也可以指定其他的级别：

In [None]:
stacked.unstack(1)

## 时间序列

金融分析中常用到时间序列数据：

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)

ts

标准时间表示：

In [None]:
ts_utc = ts.tz_localize('UTC')

ts_utc

改变时区表示：

In [None]:
ts_utc.tz_convert('US/Eastern')

## Categoricals

In [None]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

df

可以将 `grade` 变成类别：

In [None]:
df["grade"] = df["raw_grade"].astype("category")

df["grade"]

将类别的表示转化为有意义的字符：

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

df["grade"]

添加缺失的类别：

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

使用 `grade` 分组：

In [None]:
df.groupby("grade").size()

## 绘图

使用 `ggplot` 风格：

In [7]:
plt.style.use('ggplot')

NameError: name 'plt' is not defined

`Series` 绘图：

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

p = ts.cumsum().plot()

`DataFrame` 按照 `columns` 绘图：

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])

df.cumsum().plot()
p = plt.legend(loc="best")

## Pandas 文件读写

### 操作csv文件

从csv文件中读取：

In [None]:
pd.read_csv('foo.csv').head()

保存写入csv文件：

In [None]:
df.to_csv('foo.csv')

清理生成的临时文件：

In [None]:
import glob
import os

for f in glob.glob("foo*"):
    os.remove(f)

