## 8. DataFrame 常用方法

In [1]:
import numpy as np
import pandas as pd

In [20]:
data = {
    "name": ["Alice", "Bob", "Charlie", "David", "Eva","Frank", "Grace", "Hannah", "Ian", "Jack"],
    "age": [25, 30, None, 40, 28, 32, 29, 31, 27, 33],
    "city": ["New York", "Los Angeles", None, "Houston", "Phoenix", "Philadelphia", "San Antonio", "San Diego", "Dallas", "San Jose"],
    "score": [85.5, 90.0, None, 88.0, 92.5, None, 87.5, 91.0, 76.5, 89.5],
    "gender": ["F", "M", "M", "M", "F", "M", "F", "F", "M", "M"]
}
df = pd.DataFrame(data, index=["S001", "S002", "S003", "S004", "S005", "S006", "S007", "S008", "S009", "S010"])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, S001 to S010
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    10 non-null     object 
 1   age     9 non-null      float64
 2   city    9 non-null      object 
 3   score   8 non-null      float64
 4   gender  10 non-null     object 
dtypes: float64(2), object(3)
memory usage: 480.0+ bytes


#### 1. 描述性统计方法

##### 1.1 .count() 方法：计算每一列的非空值数量，注意默认忽略 NaN 值，与 size 属性不同

In [5]:
print("Total number of elements in df:", df.size)
print()
print("Total number of non-null elements in each column:\n",df.count())

Total number of elements in df: 50

Total number of non-null elements in each column:
 name      10
age        9
city       9
score      9
gender    10
dtype: int64


##### 1.2 .sum()/.mean()/.median()/.max()/.min() 数理统计方法：计算每一列的和/均值/中位数/最大值/最小值，默认忽略 NaN 值
注意：对于含有数值类型和非数值类型的 DataFrame，建议使用参数 numeric_only=True 来避免警告信息

In [7]:
df.sum(numeric_only=True) # 计算数值列的和

age      275.0
score    779.0
dtype: float64

In [9]:
df.mean(numeric_only=True)

age      30.555556
score    86.555556
dtype: float64

In [10]:
df.median(numeric_only=True)

age      30.0
score    88.0
dtype: float64

In [11]:
df.max(numeric_only=True)

age      40.0
score    92.5
dtype: float64

In [12]:
df.min(numeric_only=True)

age      25.0
score    76.5
dtype: float64

#### 2. 去重，频次统计方法

##### 2.1 .duplicated() 方法：返回一个布尔 Series，表示每一行是否为重复行

In [13]:
df.duplicated()

S001    False
S002    False
S003    False
S004    False
S005    False
S006    False
S007    False
S008    False
S009    False
S010    False
dtype: bool

##### 2.2 .drop_duplicates() 方法：删除重复行
方法参数：
1. subset：表示用于判断重复的列标签列表，默认使用所有列，如果想要基于部分列进行去重，可以传递该参数，多列组合判重则参数为 list
2. keep: 表示保留哪一个重复行，默认值为 'first'，表示保留第一次出现的重复行；'last' 表示保留最后一次出现的重复行；False 表示删除所有重复行
3. inplace: 是否在原 DataFrame 上进行修改，默认值为 False，表示返回一个新的 DataFrame；如果设置为 True，则在原 DataFrame 上进行修改，没有返回值
4. ignore_index: 是否重置索引，默认值为 False，表示保留原索引；如果设置为 True，则重置索引，生成新的连续索引 0,1,2,3 ...

In [15]:
df.drop_duplicates(
    subset=["name", "score"],
    keep="first",
    inplace=False,
    ignore_index=False
)

Unnamed: 0,name,age,city,score,gender
S001,Alice,25.0,New York,85.5,F
S002,Bob,30.0,Los Angeles,90.0,M
S003,Charlie,,,78.5,M
S004,David,40.0,Houston,88.0,M
S005,Eva,28.0,Phoenix,92.5,F
S006,Frank,32.0,Philadelphia,,M
S007,Grace,29.0,San Antonio,87.5,F
S008,Hannah,31.0,San Diego,91.0,F
S009,Ian,27.0,Dallas,76.5,M
S010,Jack,33.0,San Jose,89.5,M


##### 2.3 .nunique() 方法：计算每一列的唯一值数量，返回值为一个 Series，表示每一列的唯一值数量

In [16]:
df.nunique()

name      10
age        9
city       9
score      9
gender     2
dtype: int64

##### 2.4 .value_counts() 方法：计算某一列中每个唯一值的出现频次，返回值为一个 Series，索引为唯一值，值为对应的频次

In [17]:
df.value_counts()

name    age   city         score  gender
Alice   25.0  New York     85.5   F         1
Bob     30.0  Los Angeles  90.0   M         1
David   40.0  Houston      88.0   M         1
Eva     28.0  Phoenix      92.5   F         1
Grace   29.0  San Antonio  87.5   F         1
Hannah  31.0  San Diego    91.0   F         1
Ian     27.0  Dallas       76.5   M         1
Jack    33.0  San Jose     89.5   M         1
Name: count, dtype: int64

#### 3. 缺失值处理方法

##### 3.1 .isna() 方法：返回一个布尔 DataFrame，表示每个元素是否为缺失值 NaN

In [18]:
df.isna()

Unnamed: 0,name,age,city,score,gender
S001,False,False,False,False,False
S002,False,False,False,False,False
S003,False,True,True,False,False
S004,False,False,False,False,False
S005,False,False,False,False,False
S006,False,False,False,True,False
S007,False,False,False,False,False
S008,False,False,False,False,False
S009,False,False,False,False,False
S010,False,False,False,False,False


##### 3.2 .notna() 方法：返回一个布尔 DataFrame，表示每个元素是否为非缺失值

In [19]:
df.notna()

Unnamed: 0,name,age,city,score,gender
S001,True,True,True,True,True
S002,True,True,True,True,True
S003,True,False,False,True,True
S004,True,True,True,True,True
S005,True,True,True,True,True
S006,True,True,True,False,True
S007,True,True,True,True,True
S008,True,True,True,True,True
S009,True,True,True,True,True
S010,True,True,True,True,True


##### 3.3 .dropna() 方法：删除含有缺失值的行或列
方法参数:
1. axis: 表示删除行还是列，0 或 'index' 表示删除行，1 或 'columns' 表示删除列，默认值为 0
2. how: 表示删除的条件，'any' 表示只要含有缺失值就删除，'all' 表示只有全部为缺失值才删除，默认值为 'any'
3. subset: 表示用于判断缺失值的列标签列表，默认使用所有列，如果只想基于部分列进行缺失值删除，可以传递该参数，多列组合判定则参数为 list
4. inplace: 是否在原 DataFrame 上进行修改，默认值为 False，表示返回一个新的 DataFrame；如果设置为 True，则在原 DataFrame 上进行修改，没有返回值
5. ignore_index: 是否重置索引，默认值为 False，表示保留原索引；如果设置为 True，则重置索引，生成新的连续索引 0,1,2,3 ...

In [22]:
df.dropna(
    axis=0,
    how='all',
    subset=["age", "score"],
    inplace=False,
    ignore_index=False
)

Unnamed: 0,name,age,city,score,gender
S001,Alice,25.0,New York,85.5,F
S002,Bob,30.0,Los Angeles,90.0,M
S004,David,40.0,Houston,88.0,M
S005,Eva,28.0,Phoenix,92.5,F
S006,Frank,32.0,Philadelphia,,M
S007,Grace,29.0,San Antonio,87.5,F
S008,Hannah,31.0,San Diego,91.0,F
S009,Ian,27.0,Dallas,76.5,M
S010,Jack,33.0,San Jose,89.5,M


##### 3.4 .fillnae() 方法：填充缺失值
方法参数:
1. value: 用于填充缺失值的标量值或字典，如果传递字典，则 key 为列标签，value 为对应列的填充值
2. method: 用于填充缺失值的方法，'ffill' 或 'pad' 表示使用前一个非缺失值进行填充，'bfill' 或 'backfill' 表示使用后一个非缺失值进行填充
* 注意：不能同时传递 value 和 method 参数，否则会报错
3. axis: 表示填充的方向，0 或 'index' 表示按行填充，1 或 'columns' 表示按列填充，默认值为 0
4. inplace: 是否在原 DataFrame 上进行修改，默认值为 False，表示返回一个新的 DataFrame；如果设置为 True，则在原 DataFrame 上进行修改，没有返回值

In [23]:
df.fillna(
    {"name": "Unknown", "age": df["age"].mean(),"city": "Unknown", "score": df["score"].mean() },
    inplace=False
)

Unnamed: 0,name,age,city,score,gender
S001,Alice,25.0,New York,85.5,F
S002,Bob,30.0,Los Angeles,90.0,M
S003,Charlie,30.555556,Unknown,87.5625,M
S004,David,40.0,Houston,88.0,M
S005,Eva,28.0,Phoenix,92.5,F
S006,Frank,32.0,Philadelphia,87.5625,M
S007,Grace,29.0,San Antonio,87.5,F
S008,Hannah,31.0,San Diego,91.0,F
S009,Ian,27.0,Dallas,76.5,M
S010,Jack,33.0,San Jose,89.5,M


#### 4. 排序方法

##### 4.1 .sort_values() 方法：根据某一列或多列的值进行排序
方法参数:
1. by: 表示用于排序的列标签或列标签列表，传递单个列标签时为单列排序，传递多个列标签时为多列排序
2. ascending: 表示排序的顺序，True 表示升序，False 表示降序，默认值为 True；如果 by 参数传递多个列标签，则该参数可以传递一个布尔列表，表示每一列的排序顺序
3. inplace: 是否在原 DataFrame 上进行修改，默认值为 False，表示返回一个新的 DataFrame；如果设置为 True，则在原 DataFrame 上进行修改，没有返回值

In [24]:
df.sort_values(
    by=["age", "score"],
    ascending=[True, False],
    inplace=False
)

Unnamed: 0,name,age,city,score,gender
S001,Alice,25.0,New York,85.5,F
S009,Ian,27.0,Dallas,76.5,M
S005,Eva,28.0,Phoenix,92.5,F
S007,Grace,29.0,San Antonio,87.5,F
S002,Bob,30.0,Los Angeles,90.0,M
S008,Hannah,31.0,San Diego,91.0,F
S006,Frank,32.0,Philadelphia,,M
S010,Jack,33.0,San Jose,89.5,M
S004,David,40.0,Houston,88.0,M
S003,Charlie,,,,M


##### 4.2 .sort_index() 方法：根据行索引或列索引进行排序
方法参数:
1. axis: 表示排序的轴，0 或 'index' 表示按行 排序，1 或 'columns' 表示按列排序，默认值为 0
2. ascending: 表示排序的顺序，True 表示升序，False 表示降序，默认值为 True
3. inplace: 是否在原 DataFrame 上进行修改，默认值为 False，表示返回一个新的 DataFrame；如果设置为 True，则在原 DataFrame 上进行修改，没有返回

In [25]:
df.sort_index(
    axis=1,
    ascending=False,
    inplace=False
)

Unnamed: 0,score,name,gender,city,age
S001,85.5,Alice,F,New York,25.0
S002,90.0,Bob,M,Los Angeles,30.0
S003,,Charlie,M,,
S004,88.0,David,M,Houston,40.0
S005,92.5,Eva,F,Phoenix,28.0
S006,,Frank,M,Philadelphia,32.0
S007,87.5,Grace,F,San Antonio,29.0
S008,91.0,Hannah,F,San Diego,31.0
S009,76.5,Ian,M,Dallas,27.0
S010,89.5,Jack,M,San Jose,33.0


#### 5. 应用函数方法, 在内置方法之外，我们还可以使用 apply 方法将自定义函数应用到 DataFrame 的行或列上

#### 6. 其他常用方法

##### 6.1 .copy() 方法：创建 DataFrame 的副本，返回值为一个新的 DataFrame，修改副本不会影响原 DataFrame

##### 6.2 .rename() 方法：重命名行索引或列索引

In [26]:
df.rename(
    columns={"name": "full_name", "score": "exam_score"},
    index={"S001": "Student_1", "S002": "Student_2", "S003": "Student_3", "S004": "Student_4", "S005": "Student_5",
           "S006": "Student_6", "S007": "Student_7", "S008": "Student_8", "S009": "Student_9", "S010": "Student_10"},
    inplace=False
)

Unnamed: 0,full_name,age,city,exam_score,gender
Student_1,Alice,25.0,New York,85.5,F
Student_2,Bob,30.0,Los Angeles,90.0,M
Student_3,Charlie,,,,M
Student_4,David,40.0,Houston,88.0,M
Student_5,Eva,28.0,Phoenix,92.5,F
Student_6,Frank,32.0,Philadelphia,,M
Student_7,Grace,29.0,San Antonio,87.5,F
Student_8,Hannah,31.0,San Diego,91.0,F
Student_9,Ian,27.0,Dallas,76.5,M
Student_10,Jack,33.0,San Jose,89.5,M


##### 6.3 .assign() 方法：添加新列或修改已有列，返回值为一个新的 DataFrame

In [27]:
df.assign(
    mean_age=df["age"].mean(),
    mean_score=df["score"].mean()
)

Unnamed: 0,name,age,city,score,gender,mean_age,mean_score
S001,Alice,25.0,New York,85.5,F,30.555556,87.5625
S002,Bob,30.0,Los Angeles,90.0,M,30.555556,87.5625
S003,Charlie,,,,M,30.555556,87.5625
S004,David,40.0,Houston,88.0,M,30.555556,87.5625
S005,Eva,28.0,Phoenix,92.5,F,30.555556,87.5625
S006,Frank,32.0,Philadelphia,,M,30.555556,87.5625
S007,Grace,29.0,San Antonio,87.5,F,30.555556,87.5625
S008,Hannah,31.0,San Diego,91.0,F,30.555556,87.5625
S009,Ian,27.0,Dallas,76.5,M,30.555556,87.5625
S010,Jack,33.0,San Jose,89.5,M,30.555556,87.5625
