In [1]:
import pandas as pd
import numpy as np


In [2]:
# 在NumPy里，可以对数组里的每一个元素进行操作的函数，
# 通用函数，ufunc
# 在Pandas里可以直接使用NumPy里的ufunc

## 1.直接使用NumPy ufunc

In [4]:
ser_obj = pd.Series(np.arange(10) + 10)
ser_obj
df_obj = pd.DataFrame(np.random.randn(3,4)-10)
df_obj

Unnamed: 0,0,1,2,3
0,-11.266353,-9.846872,-9.759156,-9.052506
1,-9.867886,-10.462495,-8.218441,-10.489192
2,-8.790447,-10.369617,-9.469437,-10.861096


In [5]:
print(np.sum(ser_obj))
print(np.abs(df_obj))

145
           0          1         2          3
0  11.266353   9.846872  9.759156   9.052506
1   9.867886  10.462495  8.218441  10.489192
2   8.790447  10.369617  9.469437  10.861096


## 2.通过高阶函数来调用 自定义函数

# apply 可以将某个函数应用Series的每个元素，或者是DataFrame的行或者列上

In [6]:
print(ser_obj.apply(lambda x : x + 1))

0    11
1    12
2    13
3    14
4    15
5    16
6    17
7    18
8    19
9    20
dtype: int64


In [9]:
func = lambda x: x+1
# apply 方法默认是对每一列进行操作
print(df_obj.apply(func))
# axis值默为0， 方向是列，值为1 ，方向是行
print(df_obj.apply(func, axis = 1))

           0         1         2         3
0 -10.266353 -8.846872 -8.759156 -8.052506
1  -8.867886 -9.462495 -7.218441 -9.489192
2  -7.790447 -9.369617 -8.469437 -9.861096
           0         1         2         3
0 -10.266353 -8.846872 -8.759156 -8.052506
1  -8.867886 -9.462495 -7.218441 -9.489192
2  -7.790447 -9.369617 -8.469437 -9.861096


##applymap()对DataFrame对象的所有元素的操作


In [10]:
func2 = lambda x : x+x
print(df_obj.applymap(func2))
# applymap()方法只能用于DataFrame对象，Series对象不适合

           0          1          2          3
0 -22.532706 -19.693743 -19.518312 -18.105013
1 -19.735772 -20.924989 -16.436882 -20.978383
2 -17.580893 -20.739234 -18.938874 -21.722192


- DataFrame对象可以用 apply() 和applymap() ,
> apply() 应用于行、列，可以通过axis来指定
> applymap() 应用于 每个元素

- Series对象只能用apply，效果等用于Python的map()
> ser_obj.map(func)
> ser_obj.apply(func)

# 排序函数

#按索引排序：sort_index()

In [12]:
# Series对象
# 创建一个Series对象，索引是随机的5个数字，区间在0~20之间
ser_obj2 = pd.Series(range(10, 15), index = np.random.randint(20, size = 5))
print(ser_obj2)

9     10
10    11
17    12
13    13
15    14
dtype: int32


In [14]:
# sort_index()默认安升序排序， ascending = true
print(ser_obj2.sort_index())
# ascending = False,则是使用降序
print(ser_obj2.sort_index(ascending=False))

9     10
10    11
13    13
15    14
17    12
dtype: int32
17    12
15    14
13    13
10    11
9     10
dtype: int32


In [17]:
# 2.DataFrame对象，注意使用axis参数来指定，排序的轴的方向
df_obj2 = pd.DataFrame(np.random.rand(3, 4), 
             index = np.random.randint(20, size= 3), 
             columns = np.random.randint(20, size = 4)
        )
print(df_obj2)

          19        10        17        11
10  0.982748  0.112598  0.537842  0.071542
6   0.001590  0.645541  0.929157  0.695481
11  0.268769  0.836874  0.261603  0.570639


In [18]:
# asxending 可以指定排序方式（升序、降序）， axis可以指定轴的方向（行索引、列索引）
print(df_obj2.sort_index(ascending=False, axis=1))

          19        17        11        10
10  0.982748  0.537842  0.071542  0.112598
6   0.001590  0.929157  0.695481  0.645541
11  0.268769  0.261603  0.570639  0.836874


## 2.按值排序sort_values

In [22]:
# 1.Series
ser_obj3 = pd.Series(np.random.randint(10, 20, size = 10))
# 默认是按照升序排序
print(ser_obj3.sort_values())
# 指定ascending = False 为降序
print(ser_obj3.sort_values(ascending=False))

2    10
1    11
8    11
3    12
4    16
7    16
5    17
6    17
9    18
0    19
dtype: int32
0    19
9    18
6    17
5    17
7    16
4    16
3    12
8    11
1    11
2    10
dtype: int32


In [23]:
# 对DataFame对象操作时， 要指定按照哪一个 列、行排序
# 如果根据某一个行名、列名来排序时， 要保证没有其他相同的行名、列名
# 通过axis来指定排序的轴的方向
# 注意：如果某一行、列的数据进行排序，则其他行列也会影响改变位置
print(df_obj2.sort_values(by = 6, axis=1))

          19        10        11        17
10  0.982748  0.112598  0.071542  0.537842
6   0.001590  0.645541  0.695481  0.929157
11  0.268769  0.836874  0.570639  0.261603


## 4.处理缺失的数据NaN


In [24]:
df_obj5 = pd.DataFrame([
    [1, 2., np.nan, np.nan],
    [np.nan, 3, 4, np.nan],
    list(range(4))]
)
df_obj5

Unnamed: 0,0,1,2,3
0,1.0,2.0,,
1,,3.0,4.0,
2,0.0,1.0,2.0,3.0


In [25]:
## 1.isnull()判断NaN值，如果是NaN则为True，否则为False
print(df_obj5.isnull())

       0      1      2      3
0  False  False   True   True
1   True  False  False   True
2  False  False  False  False


In [27]:
## 2.dropna() 去除包含NaN的行、列 默认是去除行，axis = 1 时，则去除列
print(df_obj5.dropna())
print(df_obj5.dropna(axis=1))

     0    1    2    3
2  0.0  1.0  2.0  3.0
     1
0  2.0
1  3.0
2  1.0


In [28]:
## 3.fillna()   将NaN值替换为指定的值
print(df_obj5.fillna(0.))

     0    1    2    3
0  1.0  2.0  0.0  0.0
1  0.0  3.0  4.0  0.0
2  0.0  1.0  2.0  3.0
