In [1]:
# 导入包
import numpy as np
import pandas as pd

## 小结
1. apply和applymap
    1. 直接对Pandas对象使用NumPy的函数
    2. apply按行/列执行函数，applymap对所有与元素执行函数
2. 排序
    * 按索引排序 & 按值排序
3. 唯一值和成员属性
    * Series才有唯一值操作，DataFrame只能查确认值是否存在
4. 处理缺失值
    1. 先判断，再处理
    2. 丢弃缺失数据 & 填充值替换

## 一、apply和applymap

### 1.1 直接使用NumPy函数

In [2]:
# 创建DataFrame对象
df = pd.DataFrame(np.random.randn(5, 4))
print(df)

          0         1         2         3
0 -1.082007  0.902550 -0.962268 -0.558446
1  0.641768  0.499698  0.035714  0.841339
2 -0.595542 -0.044457 -2.549478  0.025623
3 -1.185363 -1.405229 -0.076391 -1.262991
4 -1.438575 -0.502771  0.853552 -1.015997


In [5]:
# 使用NumPy函数对DataFrame求绝对值
df = np.abs(df)
print(np.abs(df))

          0         1         2         3
0  1.082007  0.902550  0.962268  0.558446
1  0.641768  0.499698  0.035714  0.841339
2  0.595542  0.044457  2.549478  0.025623
3  1.185363  1.405229  0.076391  1.262991
4  1.438575  0.502771  0.853552  1.015997


### 1.2 apply函数

In [6]:
# 通过apply将函数应用到列或者行，默认按列
df.apply(lambda x: x.max())

0    1.438575
1    1.405229
2    2.549478
3    1.262991
dtype: float64

In [7]:
# 通过apply将函数应用到列或者行，指定按行
df.apply(lambda x: x.max(), axis=1)

0    1.082007
1    0.841339
2    2.549478
3    1.405229
4    1.438575
dtype: float64

### 1.3 applymap函数

In [9]:
# 使用applymap函数对每个元素进行格式设置
print(df.applymap(lambda x: "%.2f" % x))

      0     1     2     3
0  1.08  0.90  0.96  0.56
1  0.64  0.50  0.04  0.84
2  0.60  0.04  2.55  0.03
3  1.19  1.41  0.08  1.26
4  1.44  0.50  0.85  1.02


## 二、排序

### 2.1 按索引排序

#### 2.1.1 Series按索引排序

In [10]:
# 创建Series对象
s1 = pd.Series(np.arange(4), index=["d", "b", "c", "a"])
print(s1)

d    0
b    1
c    2
a    3
dtype: int64


In [11]:
# s1按索引排序，升序
s1.sort_index()

a    3
b    1
c    2
d    0
dtype: int64

In [12]:
# s1按索引排序，降序
s1.sort_index(ascending=False)

d    0
c    2
b    1
a    3
dtype: int64

#### 2.1.2 DataFrame按索引排序

In [32]:
# 创建DataFrame对象
df1 = pd.DataFrame(
    {
        "B": {"b": 3, "d": 7, "c": 9, "a": 0},
        "C": {"b": 1, "d": -1, "c": 4, "a": 8},
        "A": {"b": 0, "d": 6, "c": -3, "a": 2},
    }
)
print(df1)

   B  C  A
b  3  1  0
d  7 -1  6
c  9  4 -3
a  0  8  2


In [33]:
# 按照行排序
print(df1.sort_index())

   B  C  A
a  0  8  2
b  3  1  0
c  9  4 -3
d  7 -1  6


In [34]:
# 按照列排序
print(df1.sort_index(axis=1))

   A  B  C
b  0  3  1
d  6  7 -1
c -3  9  4
a  2  0  8


### 2.2 按值排序

#### 2.2.1 Series按值排序

In [17]:
# 查看s1
print(s1)

d    0
b    1
c    2
a    3
dtype: int64


In [19]:
# s1按值进行排序，降序
print(s1.sort_values(ascending=False))

a    3
c    2
b    1
d    0
dtype: int64


In [20]:
# 改造s1,把a索引的值改成nan
s1["a"] = np.nan
print(s1)

d    0.0
b    1.0
c    2.0
a    NaN
dtype: float64


In [21]:
# s1按值进行排序，降序
print(s1.sort_values(ascending=False))

c    2.0
b    1.0
d    0.0
a    NaN
dtype: float64


In [23]:
# s1按值进行排序，默认升序
print(s1.sort_values())

d    0.0
b    1.0
c    2.0
a    NaN
dtype: float64


#### 2.2.2 DataFrame按值排序

In [35]:
# 查看df1
print(df1)

   B  C  A
b  3  1  0
d  7 -1  6
c  9  4 -3
a  0  8  2


In [25]:
# 运行df1按值排序
df1.sort_values()

TypeError: DataFrame.sort_values() missing 1 required positional argument: 'by'

In [38]:
# 运行df1按值排序，指定按A列的值排序
print(df1.sort_values(by="A"))

   B  C  A
c  9  4 -3
b  3  1  0
a  0  8  2
d  7 -1  6


In [42]:
# 运行df1按值排序，指定按A和C列的值排序
print(df1.sort_values(by=["B", "C"]))

   B  C  A
a  0  8  2
b  3  1  0
d  7 -1  6
c  9  4 -3


In [40]:
# 运行df1按值排序，指定按a行的值排序
print(df1.sort_values(by="a", axis=1))

   B  A  C
b  3  0  1
d  7  6 -1
c  9 -3  4
a  0  2  8


In [43]:
# 运行df1按值排序，指定按a行的值排序
print(df1.sort_values(by=["b", "d"], axis=1))

   A  C  B
b  0  1  3
d  6 -1  7
c -3  4  9
a  2  8  0


## 三、唯一值和成员属性

### 3.1 Series

In [45]:
# 创建Series对象s2
s2 = pd.Series([2, 3, 5, 6, 7, 8, 3, 6])
print(s2)

0    2
1    3
2    5
3    6
4    7
5    8
6    3
7    6
dtype: int64


In [47]:
# 获取s2中的唯一值
s2Unique = s2.unique()
s2Unique

array([2, 3, 5, 6, 7, 8])

In [48]:
# 创建Series对象s2
s2 = pd.Series([2, 3, 5, 6, 7, 8, 3, 6], index=["a", "a", "a", "b", "b", "b", "b", "b"])
print(s2)

a    2
a    3
a    5
b    6
b    7
b    8
b    3
b    6
dtype: int64


In [56]:
# 获取s2中的索引标签唯一值
s2.index.unique()

Index(['a', 'b'], dtype='object')

In [59]:
# 判断s2的标签索引是不是唯一的
s2.index.is_unique

False

In [60]:
# 统计每个值出现的次数
s2.value_counts()

3    2
6    2
2    1
5    1
7    1
8    1
dtype: int64

In [66]:
# 判断某个数值是否有在当前的对象里出现
s2.isin([6])

a    False
a    False
a    False
b     True
b    False
b    False
b    False
b     True
dtype: bool

In [67]:
# 判断某些数值是否有在当前的对象里出现
s2.isin([6, 8])

a    False
a    False
a    False
b     True
b    False
b     True
b    False
b     True
dtype: bool

### 3.2 DataFrame

In [71]:
# 查看df1
print(df1)

   B  C  A
b  3  1  0
d  7 -1  6
c  9  4 -3
a  0  8  2


In [73]:
# 判断某些数值是否有在当前的对象里出现
print(df1.isin([3, 2]))

       B      C      A
b   True  False  False
d  False  False  False
c  False  False  False
a  False  False   True


## 四、处理缺失数据

In [82]:
# 创建有空值的DataFrame
df2 = pd.DataFrame(
    [np.random.randn(3), 
     [1.0, 3.0, np.nan],
     [np.nan, 6.0, np.nan],
     [1.0, 2.0, 3.0]]
)
print(df2)

          0         1         2
0  0.551792  1.292545 -0.944819
1  1.000000  3.000000       NaN
2       NaN  6.000000       NaN
3  1.000000  2.000000  3.000000


### 4.1 判断是否存在缺失值 - isnull

In [84]:
# 用isnull判断df2中是否存在缺失值
print(df2.isnull())

       0      1      2
0  False  False  False
1  False  False   True
2   True  False   True
3  False  False  False


### 4.2 删除缺失数据 - dropna

In [85]:
# 用dropna删除缺失值，默认丢弃行数据
print(df2.dropna())

          0         1         2
0  0.551792  1.292545 -0.944819
3  1.000000  2.000000  3.000000


In [86]:
# 用dropna删除缺失值，指定丢弃列数据
print(df2.dropna(axis=1))

          1
0  1.292545
1  3.000000
2  6.000000
3  2.000000


### 4.3 填充缺失值 - fillna

In [88]:
# 用fillna填充缺失值
print(df2.fillna(-2.))

          0         1         2
0  0.551792  1.292545 -0.944819
1  1.000000  3.000000 -2.000000
2 -2.000000  6.000000 -2.000000
3  1.000000  2.000000  3.000000
