In [1]:
import pandas as pd
import numpy as np

In [2]:
# 在NumPy里，可以对数组里的每一个元素进行操作的函数，
# 通用函数 ufunc (universal function)
# 在Pandas里可以直接使用NumPy的 ufunc

## 1. 直接使用NumPy ufunc

In [4]:
ser_obj = pd.Series(np.arange(10) + 10)
print(ser_obj)

df_obj = pd.DataFrame(np.random.randn(3, 4) - 10)
print(df_obj)

0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int32
           0          1          2          3
0 -10.716155 -11.340276  -8.196304  -9.442813
1 -10.781177 -10.671547  -9.753840  -9.602143
2  -8.772428  -9.804794 -10.852700 -10.429130


In [6]:
print(np.sum(ser_obj))
print(np.abs(df_obj))

145
           0          1          2          3
0  10.716155  11.340276   8.196304   9.442813
1  10.781177  10.671547   9.753840   9.602143
2   8.772428   9.804794  10.852700  10.429130


## 2. 通过高阶函数来调用 自定义函数

#### apply  可以将某个函数应用Series的每个元素，或者是 DataFrame的 行或列上

In [21]:
print(ser_obj.apply(lambda x : x + 1))

0    11
1    12
2    13
3    14
4    15
5    16
6    17
7    18
8    19
9    20
dtype: int64


In [24]:
print(df_obj)
print("------" * 5)
func = lambda x : x.max()
# apply方法默认是对每一列进行操作
print(df_obj.apply(func))
print("------" * 5)

# axis 值默认为 0，方向是列； 值为1，方向是行
print(df_obj.apply(func, axis = 1))

           0          1          2          3
0 -10.716155 -11.340276  -8.196304  -9.442813
1 -10.781177 -10.671547  -9.753840  -9.602143
2  -8.772428  -9.804794 -10.852700 -10.429130
------------------------------
0   -8.772428
1   -9.804794
2   -8.196304
3   -9.442813
dtype: float64
------------------------------
0   -8.196304
1   -9.602143
2   -8.772428
dtype: float64


#### applymap() 对DataFrame对象的所有元素操作

In [27]:
func2 = lambda x : x + x
print(df_obj.applymap(func2))

#  applymap() 方法只能用于DataFrame对象，Series对象不适用
#print(ser_obj.applymap(func2))

           0          1          2          3
0 -21.432310 -22.680552 -16.392608 -18.885625
1 -21.562354 -21.343095 -19.507681 -19.204285
2 -17.544855 -19.609589 -21.705399 -20.858260


- DataFrame对象可以用 apply() 和applymap() ,
> apply() 应用于行、列，可以通过axis来指定
> applymap() 应用于 每个元素

- Series对象只能用apply，效果等用于Python的map()
> ser_obj.map(func)
> ser_obj.apply(func)

## 3.排序函数

#### 1. 按索引排序 : sort_index()

In [28]:
# 1. Series 对象
# 创建一个Series对象，索引是随机的5个数字，区间在 0 ~ 20　之间
ser_obj2 = pd.Series(range(10, 15), index = np.random.randint(20, size=5))
print(ser_obj2)

12    10
9     11
10    12
8     13
2     14
dtype: int32


In [31]:
# sort_index() 默认按升序排序   ascending = True
print(ser_obj2.sort_index())
# ascending = False，则使用降序
print(ser_obj2.sort_index(ascending = False))

2     14
8     13
9     11
10    12
12    10
dtype: int32
12    10
10    12
9     11
8     13
2     14
dtype: int32


In [34]:
# 2. DataFrame对象，注意使用 axis参数来指定 排序的轴方向
df_obj2 = pd.DataFrame(np.random.rand(3, 4), 
             index = np.random.randint(20, size= 3), 
             columns = np.random.randint(20, size = 4)
        )
print(df_obj2)

           0         2         8         7
10  0.050950  0.386115  0.757430  0.785921
7   0.188310  0.801549  0.290369  0.012829
6   0.790393  0.847151  0.376773  0.104410


In [41]:
# ascending 可以指定排序方式（升序/降序），axis 可以指定轴方向(行索引/列索引)
print(df_obj2.sort_index(ascending= False, axis = 1))

           8         7         2         0
10  0.757430  0.785921  0.386115  0.050950
7   0.290369  0.012829  0.801549  0.188310
6   0.376773  0.104410  0.847151  0.790393


#### 2. 按值排序 sort_values 

In [45]:
# 1. Series 
ser_obj3 = pd.Series(np.random.randint(10, 20, size=10))
#print(ser_obj3)

# 默认按升序排序
print(ser_obj3.sort_values())
#指定 ascending = False 为降序
print(ser_obj3.sort_values(ascending=False))

4    18
9    17
8    15
2    15
0    15
5    14
3    14
6    12
7    10
1    10
dtype: int32


In [46]:
# 2. DataFrame
print(df_obj2)

           0         2         8         7
10  0.050950  0.386115  0.757430  0.785921
7   0.188310  0.801549  0.290369  0.012829
6   0.790393  0.847151  0.376773  0.104410


In [50]:
#对 DataFrame对象操作时，要指定按哪一个 行/列来排序，
#　如果根据某一个行名／列名来排序时，要保证没有其他相同的行名／列名
# 通过axis 来指定排序的轴方向

# 注意：如果某一行/列的数据进行排序，则其他行列也会响应的改变位置
print(df_obj2.sort_values(by=6, axis = 1))

           7         8         0         2
10  0.785921  0.757430  0.050950  0.386115
7   0.012829  0.290369  0.188310  0.801549
6   0.104410  0.376773  0.790393  0.847151


## 4. 处理缺失数据 NaN

In [54]:
df_obj5 = pd.DataFrame([
    [1, 2., np.nan, np.nan],
    [np.nan, 3, 4, np.nan],
    list(range(4))]
)
print(df_obj5)

     0    1    2    3
0  1.0  2.0  NaN  NaN
1  NaN  3.0  4.0  NaN
2  0.0  1.0  2.0  3.0


In [56]:
#### 1. isnull() 判断NaN值,如果是NaN则为True，否则为False
print(df_obj5.isnull())

       0      1      2      3
0  False  False   True   True
1   True  False  False   True
2  False  False  False  False


In [58]:
#### 2. dropna()   去除包含NaN的行/列，默认是去除行，axis = 1 时，则去除列
print(df_obj5.dropna())
print(df_obj5.dropna(axis=1))

     0    1    2    3
2  0.0  1.0  2.0  3.0
     1
0  2.0
1  3.0
2  1.0


In [61]:
#### 4. fillna()  将NaN值替换为指定的值
print(df_obj5.fillna(0.))

     0    1    2    3
0  1.0  2.0  0.0  0.0
1  0.0  3.0  4.0  0.0
2  0.0  1.0  2.0  3.0
