# DataFrame 的数据类型

## 使用 `dtypes` 查看数据类型

`dtypes` 属性返回一个包含 `DataFrame` 中每列数据类型的序列。

In [6]:
import pandas as pd

data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 23, 34, 29],
    'Height(m)': [1.75, 1.68, 1.82, 1.70],
    'IsEmployed': [True, False, True, False]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Height(m),IsEmployed
0,John,28,1.75,True
1,Anna,23,1.68,False
2,Peter,34,1.82,True
3,Linda,29,1.7,False


In [7]:
df.dtypes

Name           object
Age             int64
Height(m)     float64
IsEmployed       bool
dtype: object

## 使用 `astype` 转换数据类型

`astype(dtype)`：转换为指定的 `dtype` 类型。

In [8]:
# 转换数据类型
# 将 'Name' 列转换为 'category' 类型
df['Name'] = df['Name'].astype('category')

# 将 'Age' 列转换为 'float64' 类型
df['Age'] = df['Age'].astype('float64')

# 将 'Height(m)' 列转换为 'int64' 类型
df['Height(m)'] = df['Height(m)'].astype('int64')

# 查看转换后的数据类型
df.dtypes

Unnamed: 0,Name,Age,Height(m),IsEmployed
0,John,28.0,1,True
1,Anna,23.0,1,False
2,Peter,34.0,1,True
3,Linda,29.0,1,False


## 使用select_dtypes根据数据类型筛选数据

select_dtypes()函数用于根据数据类型筛选对应的列数据

**DataFrame.select_dtypes(include, exclude)**：
- **include**：指定要选择的数据类型
- **exclude**：指定要排除的数据类型

In [10]:
import pandas as pd

data = {
    '产品': ['A', 'B', 'C', 'D'],
    '销售额': [100.5, 200.75, 150.3, 250.0],
    '销量': [10, 20, 15, 25],
    '日期': pd.to_datetime(['2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01']),
    '是否有折扣': [True, False, True, False]
}
df = pd.DataFrame(data)
df

Unnamed: 0,产品,销售额,销量,日期,是否有折扣
0,A,100.5,10,2023-01-01,True
1,B,200.75,20,2023-02-01,False
2,C,150.3,15,2023-03-01,True
3,D,250.0,25,2023-04-01,False


In [11]:
df.dtypes

产品               object
销售额             float64
销量                int64
日期       datetime64[ns]
是否有折扣              bool
dtype: object

### 根据数据类型选择列

In [12]:
# 选择所有的数值型列（即 int64 和 float64 类型）
df.select_dtypes(include='number')

Unnamed: 0,销售额,销量
0,100.5,10
1,200.75,20
2,150.3,15
3,250.0,25


### 排除某些类型的列

In [13]:
# 排除日期类型 (datetime) 列
df.select_dtypes(exclude='datetime')

Unnamed: 0,产品,销售额,销量,是否有折扣
0,A,100.5,10,True
1,B,200.75,20,False
2,C,150.3,15,True
3,D,250.0,25,False


# DataFrame 的列名与重命名

## 使用.columns查看列名

In [14]:
df.columns

Index(['产品', '销售额', '销量', '日期', '是否有折扣'], dtype='object')

## 使用 `rename` 方法

- `rename(mapper, axis, inplace)`：
  - `mapper`：一个字典，键是旧的标签名，值是新的标签名。
  - `axis`：指定是行索引（`'index'` 或 `0`）还是列名（`'columns'` 或 `1`）需要重命名。
  - `inplace`：布尔值，决定是否在原地修改 `DataFrame`（`True`）或返回一个新的 `DataFrame`（`False`，默认值）。

In [15]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 23, 34, 29],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


In [16]:
df_renamed = df.rename(columns={'Name': 'Full Name', 'City': 'Hometown'})
df_renamed

Unnamed: 0,Full Name,Age,Hometown
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


## 直接赋值方法`

- 直接将新的列名列表赋值给 `columns` 属性。
- 直接将新的索引列表赋值给 `index` 属性。

In [17]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 23, 34, 29],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


In [19]:
# 直接赋值重命名列
df.columns = ['Full Name New', 'Age', 'Hometown']
df

Unnamed: 0,Full Name New,Age,Hometown
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


In [21]:
# 直接赋值重命名行
df.index = ['idx1','idx2','idx3','idx4']
df

Unnamed: 0,Full Name New,Age,Hometown
idx1,John,28,New York
idx2,Anna,23,Paris
idx3,Peter,34,Berlin
idx4,Linda,29,London


# DataFrame中缺失值处理

## 缺失值

缺失值表示数据中缺少某个值或该值不可用。常见的缺失值有：
- None：表示“无值”或“缺失值”，也即数据中缺少某个值
- NaN（Not a Number）：表示缺失或无效的数据，也即该值不可用

### None

In [22]:
None

### np.nan

In [23]:
import numpy as np
np.nan

nan

## 缺失值判断isna()、notna()

In [25]:
import pandas as pd
data = {'name': ['Alice', 'Bob', None, 'Charlie'],
        'age': [25, None, 35, 40],
        'city': ['New York', 'Los Angeles', np.nan, 'Chicago']}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,,Los Angeles
2,,35.0,
3,Charlie,40.0,Chicago


**isna()**：检查 DataFrame 中是否存在缺失值，返回一个布尔型的 DataFrame，True 表示该位置有缺失值，False 表示没有。

**notna()**：检查 DataFrame 中是否存在缺失值，返回一个布尔型的 DataFrame，True 表示该位置没有缺失值，False 表示有。

In [26]:
df.isna()

Unnamed: 0,name,age,city
0,False,False,False
1,False,True,False
2,True,False,True
3,False,False,False


In [27]:
df.notna()

Unnamed: 0,name,age,city
0,True,True,True
1,True,False,True
2,False,True,False
3,True,True,True


## 缺失值计数

In [28]:
# 按列统计缺失值个数
df.isna().sum()

name    1
age     1
city    1
dtype: int64

In [29]:
# 统计缺失值总个数
df.isna().sum().sum()

3

## 缺失值删除dropna()

**dropna()**
  - axis：0表示删除含有缺失值的行，1表示删除含有缺失值的列
  - thresh=n：仅删除那些非缺失值数量少于 n 的行或列
  - how：
      - how='any'（默认值）：如果某行或某列中 任何 一个值是缺失的，那么就删除该行或列
      - how='all'：只有当某行或某列中的 所有 值都缺失时，才删除该行或列
  - subset=[col1, col2]：只考虑特定列中的缺失值来删除行
  - inplace：True表示在原地删除缺失值
  - ignore_index：True表示删除缺失值后重置索引

In [30]:
import pandas as pd

data = {'name': ['Alice', 'Bob', None, 'Charlie'],
        'age': [25, 12, 35, 40],
        'city': ['New York', None, None, 'Chicago']}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,12,
2,,35,
3,Charlie,40,Chicago


In [34]:
df.notna().sum()

name    3
age     4
city    2
dtype: int64

In [21]:
df.dropna(axis=0)

Unnamed: 0,name,age,city
0,Alice,25,New York
3,Charlie,40,Chicago


In [22]:
df.dropna(axis=1)

Unnamed: 0,age
0,25
1,12
2,35
3,40


In [23]:
df.dropna(thresh=3,axis=1)

Unnamed: 0,name,age
0,Alice,25
1,Bob,12
2,,35
3,Charlie,40


In [24]:
df.dropna(subset='name')

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,12,
3,Charlie,40,Chicago


In [36]:
df.dropna(ignore_index=True)

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Charlie,40,Chicago


# DataFrame中重复值处理

In [37]:
import pandas as pd
# 定义固定数据，包括重复值和 None
data = {
    'name': ['Alice', 'Bob', 'Alice', 'David', 'Eve', 'Frank', None, 'Hank', 'Alice', 'Jack',
             'Alice', None, 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 25, 40, 45, 50, 55, 60, 25, 70,
            None, 30, 35, 40, None],
    'city': ['New York', 'Los Angeles', 'New York', 'Houston', 'Phoenix', 'San Diego', None, 'San Jose',
             'New York', 'Los Angeles', 'Chicago', None, 'Phoenix', 'San Diego', 'Dallas']
}
# 创建 DataFrame
df = pd.DataFrame(data)
# 显示生成的 DataFrame
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
8,Alice,25.0,New York
9,Jack,70.0,Los Angeles


## 重复值计数value_counts()

**value_counts(normalize, sort, ascending, dropna)**：
  - normalize：如果为True则返回频率，如果为False则返回频数
  - sort：如果为True，则按照出现频率排序后返回
  - ascending：如果为True则按照升序返回，如果为False则按照降序返回
  - dropna：如果为True则不纳入NaN值计算，如果为False则纳入NaN计算

In [38]:
df['name'].value_counts()

name
Alice      4
David      2
Eve        2
Bob        1
Frank      1
Hank       1
Jack       1
Charlie    1
Name: count, dtype: int64

In [39]:
df['name'].value_counts(normalize=True)

name
Alice      0.307692
David      0.153846
Eve        0.153846
Bob        0.076923
Frank      0.076923
Hank       0.076923
Jack       0.076923
Charlie    0.076923
Name: proportion, dtype: float64

In [41]:
df['name'].value_counts(sort=True,ascending=False)

name
Alice      4
David      2
Eve        2
Bob        1
Frank      1
Hank       1
Jack       1
Charlie    1
Name: count, dtype: int64

In [45]:
df['name'].value_counts(dropna=False)

name
Alice      4
David      2
Eve        2
None       2
Bob        1
Frank      1
Hank       1
Jack       1
Charlie    1
Name: count, dtype: int64

## 重复值删除drop_duplicates()

**drop_duplicates()**：
  - subset：用于指定用于去重的列子集，默认值为 None
  - keep：指定保留哪一个重复项，默认值为 'first'
      - first：保留首次出现的重复项
      - last：保留最后一次出现的重复项
      - False：删除所有重复项（不保留任何重复项）
  - inplace：是否在原 DataFrame 或 Series 上直接进行排序
      - 如果为 True，修改原数据，返回值为 None
      - 如果为 False（默认），返回副本，原数据不变
  - ignore_index：是否忽略去重后的原始索引并重新编号
      - 如果为 True，新 DataFrame 的索引会重置为从 0 开始的整数索引
      - 如果为 False，保留原索引
  

In [47]:
df.drop_duplicates()

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
9,Jack,70.0,Los Angeles
10,Alice,,Chicago
11,,30.0,


In [48]:
df.drop_duplicates(subset='city')

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
10,Alice,,Chicago
14,Eve,,Dallas


In [51]:
df.drop_duplicates(subset='city', keep=False)

Unnamed: 0,name,age,city
3,David,40.0,Houston
7,Hank,60.0,San Jose
10,Alice,,Chicago
14,Eve,,Dallas


In [52]:
df.drop_duplicates(subset='city', keep=False, ignore_index=True)

Unnamed: 0,name,age,city
0,David,40.0,Houston
1,Hank,60.0,San Jose
2,Alice,,Chicago
3,Eve,,Dallas


In [55]:
df.drop_duplicates(subset='city', keep=False, ignore_index=True, inplace=True)


# DataFrame的排序sort_values()

In [63]:
import pandas as pd
# 定义固定数据，包括重复值和 None
data = {
    'name': ['Alice', 'Bob', 'Alice', 'David', 'Eve', 'Frank', None, 'Hank', 'Alice', 'Jack',
             'Alice', None, 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 25, 40, 45, 50, 55, 60, 25, 70,
            None, 30, 35, 40, None],
    'city': ['New York', 'Los Angeles', 'New York', 'Houston', 'Phoenix', 'San Diego', None, 'San Jose',
             'New York', 'Los Angeles', 'Chicago', None, 'Phoenix', 'San Diego', 'Dallas']
}
# 创建 DataFrame
df = pd.DataFrame(data)
# 显示生成的 DataFrame
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
8,Alice,25.0,New York
9,Jack,70.0,Los Angeles


**sort_values()**：
  - by：指定根据哪一列或哪些列进行排序
      - 如果是字符串，表示单列排序
      - 如果是列表，可以实现多列排序，排序优先级从左到右
  - ascending：指定排序顺序
      - True 表示升序
      - False 表示降序
      - 如果是多列排序，可以传递一个布尔值列表，分别控制每列的排序顺序
  - inplace：是否在原 DataFrame 或 Series 上直接进行排序
      - 如果为 True，排序会修改原数据，返回值为 None
      - 如果为 False（默认），返回排序后的副本，原数据不变
  - ignore_index：是否忽略排序后的原始索引并重新编号
      - 如果为 True，新 DataFrame 的索引会重置为从 0 开始的整数索引
      - 如果为 False，保留原索引
  
    

In [64]:
df.sort_values(by='age')

Unnamed: 0,name,age,city
0,Alice,25.0,New York
2,Alice,25.0,New York
8,Alice,25.0,New York
1,Bob,30.0,Los Angeles
11,,30.0,
12,Charlie,35.0,Phoenix
3,David,40.0,Houston
13,David,40.0,San Diego
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego


In [65]:
df.sort_values(by='age', ascending=False)

Unnamed: 0,name,age,city
9,Jack,70.0,Los Angeles
7,Hank,60.0,San Jose
6,,55.0,
5,Frank,50.0,San Diego
4,Eve,45.0,Phoenix
3,David,40.0,Houston
13,David,40.0,San Diego
12,Charlie,35.0,Phoenix
1,Bob,30.0,Los Angeles
11,,30.0,


In [66]:
df.sort_values(by='age', ascending=False, ignore_index=True)

Unnamed: 0,name,age,city
0,Jack,70.0,Los Angeles
1,Hank,60.0,San Jose
2,,55.0,
3,Frank,50.0,San Diego
4,Eve,45.0,Phoenix
5,David,40.0,Houston
6,David,40.0,San Diego
7,Charlie,35.0,Phoenix
8,Bob,30.0,Los Angeles
9,,30.0,


# DataFrame 的其他属性和方法

In [69]:
import pandas as pd
# 定义固定数据，包括重复值和 None
data = {
    'name': ['Alice', 'Bob', 'Alice', 'David', 'Eve', 'Frank', None, 'Hank', 'Alice', 'Jack',
             'Alice', None, 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 25, 40, 45, 50, 55, 60, 25, 70,
            None, 30, 35, 40, None],
    'city': ['New York', 'Los Angeles', 'New York', 'Houston', 'Phoenix', 'San Diego', None, 'San Jose',
             'New York', 'Los Angeles', 'Chicago', None, 'Phoenix', 'San Diego', 'Dallas']
}
# 创建 DataFrame
df = pd.DataFrame(data)
# 显示生成的 DataFrame
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
8,Alice,25.0,New York
9,Jack,70.0,Los Angeles


## `shape`
返回 DataFrame 的行数和列数。

In [70]:
df.shape

(15, 3)

## `head(n)`
返回 DataFrame 的前 `n` 行，默认为5行。

In [74]:
df.head(3)

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York


## `tail()`
返回 DataFrame 的后 `n` 行，默认为5行。

In [77]:
df.tail(1)

Unnamed: 0,name,age,city
14,Eve,,Dallas


## `info()`
返回 DataFrame 的概要信息，包括行列数和数据类型。

In [78]:
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
8,Alice,25.0,New York
9,Jack,70.0,Los Angeles


In [80]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    13 non-null     object 
 1   age     13 non-null     float64
 2   city    13 non-null     object 
dtypes: float64(1), object(2)
memory usage: 492.0+ bytes


## cumsum

累加求和
- **cumsum(axis)**：
    - axis：指定计算方向
        - axis=0：沿列方向计算（默认）
        - axis=1：沿行方向计算

In [81]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [82]:
# 沿列方向计算
df.cumsum(axis=0)

Unnamed: 0,A,B
0,1,4
1,3,9
2,6,15


In [84]:
# 沿行方向计算
df.cumsum(axis=1)

Unnamed: 0,A,B
0,1,5
1,2,7
2,3,9


## diff

计算差分
**diff(periods=1, axis=0)**：
  - periods：差分周期，默认值为1
  - axis：
      - axis=0：沿行计算，逐行差分（默认）
      - axis=1：沿列计算，逐列差分

In [85]:
import pandas as pd
import numpy as np

np.random.seed(42)  # 设置随机种子，保证结果可重复
data = np.random.randint(10, 100, size=(5, 5))  # 5行，5列的随机整数
columns = ['A', 'B', 'C', 'D', 'E']

df = pd.DataFrame(data, columns=columns)
df


Unnamed: 0,A,B,C,D,E
0,61,24,81,70,30
1,92,96,84,84,97
2,33,12,31,62,11
3,97,39,47,11,73
4,69,30,42,85,67


### 一阶差分

In [86]:
# 沿行计算，逐行差分
df.diff(axis=0)

Unnamed: 0,A,B,C,D,E
0,,,,,
1,31.0,72.0,3.0,14.0,67.0
2,-59.0,-84.0,-53.0,-22.0,-86.0
3,64.0,27.0,16.0,-51.0,62.0
4,-28.0,-9.0,-5.0,74.0,-6.0


In [87]:
# 沿列计算，逐列差分
df.diff(axis=1)

Unnamed: 0,A,B,C,D,E
0,,-37,57,-11,-40
1,,4,-12,0,13
2,,-21,19,31,-51
3,,-58,8,-36,62
4,,-39,12,43,-18


In [90]:
# 指定差分周期
df.diff(periods=2)

Unnamed: 0,A,B,C,D,E
0,,,,,
1,,,,,
2,-28.0,-12.0,-50.0,-8.0,-19.0
3,5.0,-57.0,-37.0,-73.0,-24.0
4,36.0,18.0,11.0,23.0,56.0


### 多阶差分

In [94]:
# 可以通过链式调用实现多阶差分
df.diff().diff()

Unnamed: 0,A,B,C,D,E
0,,,,,
1,,,,,
2,-90.0,-156.0,-56.0,-36.0,-153.0
3,123.0,111.0,69.0,-29.0,148.0
4,-92.0,-36.0,-21.0,125.0,-68.0


## 唯一值处理

### unique

返回数据中所有唯一值

In [95]:
df = pd.DataFrame({
    'A': [1, 2, 2, 3, None],
    'B': [4, 5, 5, None, 6],
    'C': [7, 7, 7, 7, 7]
})
df

Unnamed: 0,A,B,C
0,1.0,4.0,7
1,2.0,5.0,7
2,2.0,5.0,7
3,3.0,,7
4,,6.0,7


In [100]:
df['A'].unique()

array([ 1.,  2.,  3., nan])

### nunique

返回数据中唯一值的个数（即去重后的值的数量）
**nunique(dropna)**：
- dropna：
    - 若为True（默认），则忽略NaN值
    - 若为False，则NaN也会作为一个唯一值被统计

In [99]:
df['A'].nunique()

3

In [101]:
df['A'].nunique(dropna=False)

4

# DataFrame中的数据描述性统计度量

In [102]:
import pandas as pd
# 定义固定数据，包括重复值和 None
data = {
    'name': ['Alice', 'Bob', 'Alice', 'David', 'Eve', 'Frank', None, 'Hank', 'Alice', 'Jack',
             'Alice', None, 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 25, 40, 45, 50, 55, 60, 25, 70,
            None, 30, 35, 40, None],
    'city': ['New York', 'Los Angeles', 'New York', 'Houston', 'Phoenix', 'San Diego', None, 'San Jose',
             'New York', 'Los Angeles', 'Chicago', None, 'Phoenix', 'San Diego', 'Dallas']
}
# 创建 DataFrame
df = pd.DataFrame(data)
# 显示生成的 DataFrame
df

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Alice,25.0,New York
3,David,40.0,Houston
4,Eve,45.0,Phoenix
5,Frank,50.0,San Diego
6,,55.0,
7,Hank,60.0,San Jose
8,Alice,25.0,New York
9,Jack,70.0,Los Angeles


## 求和(sum)

求和是所有数值加起来的数值

In [103]:
df['age'].sum()

530.0

## 平均数(mean)

平均数是所有数值加起来后除以数值的个数。

In [104]:
df['age'].mean()

40.76923076923077

## 中位数(median)

中位数是将数据集从小到大排序后位于中间位置的数值。如果数据集的个数是奇数，中位数就是中间的那个数；如果是偶数，中位数则是中间两个数的平均值。

In [105]:
df['age'].median()

40.0

## 众数(mode)

众数是数据集中出现次数最多的值。如果有多个值出现次数相同且最多，那么这些值都是众数。

In [107]:
df['age'].mode()[0]

25.0

## 最大值(max)

最大值是一组数据中的最大数值

In [108]:
df['age'].max()

70.0

## 最小值(min)

最小值是一组数据中的最小数值

In [109]:
df['age'].min()

25.0

## 标准差(std)

标准差是方差的平方根，用来衡量数据的分散程度，标准差的计算公式为：
$$ \text{标准差} = \sqrt{\text{方差}} = \sqrt{\frac{\sum (x_i - \mu)^2}{N-1}} $$
其中$\mu$表示数据集的平均值，$N$表示数据条数，$x_i$表示第$i$个样本数据。

In [110]:
df['age'].std()

14.555376132514551

## 方差(var)

方差是衡量数据分散程度的统计量，表示每个数据与其平均值（均值）差的平方的平均值。方差越大，数据的波动性越大，反之亦然。方差的计算公式为：
$$\text{方差} = \frac{\sum (x_i - \mu)^2}{N-1}$$
其中$\mu$表示数据集的平均值，$N$表示数据条数，$x_i$表示第$i$个样本数据。

In [111]:
df['age'].var()

211.85897435897428

## 分位数(quantile)

分位数是将数据集分成等份的数值点。常见的分位数有四分位数（25%，50%，75%）和百分位数。

In [117]:
df['age'].quantile([0.25, 0.5, 0.75])

0.25    30.0
0.50    40.0
0.75    50.0
Name: age, dtype: float64

## 偏态系数(skew)

偏态系数（Skewness）是描述数据分布对称性的统计量，偏态系数的计算公式为：
$$\text{偏态系数} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^3}{n \cdot s^3}$$
其中：
- $x_i$是数据集中的第$i$个数据点。
- $\bar{x}$是数据集的平均值。
- $s$是数据集的标准差。
- $n$是数据集中的数据条数。

偏态系数的值可以是正数、负数或零：
- 如果偏态系数为正数，表示数据分布是正偏斜的，即数据的右尾（较大的值）比左尾（较小的值）更长。
- 如果偏态系数为负数，表示数据分布是负偏斜的，即数据的左尾（较小的值）比右尾（较大的值）更长。
- 如果偏态系数为零，表示数据分布是对称的。

In [118]:
df['age'].skew()

0.6827321085628134

## 峰态系数(kurt)

峰态系数是衡量数据分布的尖峭程度的统计量。
峰态系数的计算公式是：
$$\text{峰态系数} = \frac{\sum_{i=1}^{n} (x_i - \mu)^4 / n}{(\sum_{i=1}^{n} (x_i - \mu)^2 / n)^2}$$
其中，$x_i$是数据集中的第$i$个数据点，$\mu$是数据集的平均值，$n$是数据条数。

- 峰态系数为0表示数据分布与正态分布的陡缓程度相同；
- 峰态系数大于0表示数据分布与正态分布相比较为陡峭，称为尖顶峰（leptokurtic）；
- 峰态系数小于0表示数据分布与正态分布相比较为平坦，称为平顶峰（platykurtic）。

In [119]:
df['age'].kurt()

-0.45929809237409236

## 计数(count)

计数返回的是非缺失值的数据条数

In [122]:
df['age'].count()

13

## 描述性统计(describe())

describe() 是 pandas 库中 的一个描述性统计函数。会返回一个包含以下统计指标的 DataFrame：

- **count：** 非空值的数量。
- **mean：** 平均值。
- **std：** 标准差，表示数据的离散程度。
- **min：** 最小值。
- **25%：** 第一四分位数，即所有数据中有25%的数据项小于或等于这个值。
- **50%：** 第二四分位数，即中位数。
- **75%：** 第三四分位数，即所有数据中有75%的数据项小于或等于这个值。
- **max：** 最大值。

In [123]:
df['age'].describe()

count    13.000000
mean     40.769231
std      14.555376
min      25.000000
25%      30.000000
50%      40.000000
75%      50.000000
max      70.000000
Name: age, dtype: float64