# 命名

由于不恰当的命名（变量or函数）， 或者不统一的命名风格，导致代码难以理解的情况依然挺多。的确很多时候要找一个合适的命名并不容易，但是这样的努力是值得做的。如果一开始想不出合理的命名，至少代码调通后可以再仔细推敲一下，利用IDE的refactor功能修改命名。

# 请熟悉自己领域的工具

## 利用工具提高效率

尽管偶尔会有bug或者奇怪的设计，也不无法应对大数据；但是如果用python玩数据，那么pandas好无疑问最灵活轻巧的瑞士军刀。熟练掌握可以节省大量开发时间和减少代码的繁琐度。例如对下面的DataFrame按照A, B列分组后对C, D分别求mean, sum, 25% quantile。 利用pandas只需要少量代码。

In [34]:
from pandas import DataFrame, Series

In [35]:
df = DataFrame({'A':[1,1,1,1,2,2,2,2], 'B':[1,2,1,2,1,2,1,2], 'C':[1,2,3,4,5,6,7,8], 'D':[1,2,1,2,1,2,1,2]})

def q25(s):
    return s.quantile(0.25)

df.groupby(['A', 'B'])[['C', 'D']].agg(['mean', sum, q25])

Unnamed: 0_level_0,Unnamed: 1_level_0,C,C,C,D,D,D
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,q25,mean,sum,q25
A,B,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
1,1,2,4,1.5,1,2,1
1,2,3,6,2.5,2,4,2
2,1,6,12,5.5,1,2,1
2,2,7,14,6.5,2,4,2


用for循环自己实现一下，试试看要多写多少代码，耗费多少时间和精力。

## 注意工具的特点

In [36]:
df = DataFrame({'A':[1, 2, 3, 4]}, index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A
a,1
b,2
c,3
d,4


把s添加为新列，命名为B

In [37]:
s = Series([4, 3, 2, 1], index = ['d', 'c', 'b', 'f'])
s

d    4
c    3
b    2
f    1
dtype: int64

In [38]:
df.insert(0, 'B', s)
df

Unnamed: 0,B,A
a,,1
b,2.0,2
c,3.0,3
d,4.0,4


如果不了解pandas自动对齐index的特性，就容易开发出新的bug。类似的例子

In [40]:
df['A'] + s

a    NaN
b    4.0
c    6.0
d    8.0
f    NaN
dtype: float64

熟读自己常用工具的documentation和进行足量的实验练习，是工程师的基本工，请平时注意积累。