### 1. Pandas 数据结构（Series, DataFrame）

Pandas 有两个核心数据结构：

1. `Series`: 一维带标签的数组（类似 NumPy 的一维数组 + 索引）
2. `DataFrame`: 二维表格结构（类似 Excel 表格或 SQL 表）

每个 `DataFrame` 由多列 `Series` 组成，具有行索引和列索引。

常用属性：
- `.shape`：数据维度
- `.columns`：列名
- `.index`：行索引
- `.dtypes`：每列数据类型


In [1]:
import pandas as pd

# 创建 Series（带标签的一维数组）
s = pd.Series([10, 20, 30], index=["a", "b", "c"])
print("Series:\n", s)

# 创建 DataFrame（二维表格）
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "Score": [85, 90, 95]
}
df = pd.DataFrame(data)
print("\nDataFrame:\n", df)

# 查看结构属性
print("\n维度 (shape):", df.shape)
print("列名 (columns):", df.columns)
print("行索引 (index):", df.index)
print("每列数据类型 (dtypes):\n", df.dtypes)


Series:
 a    10
b    20
c    30
dtype: int64

DataFrame:
       Name  Age  Score
0    Alice   25     85
1      Bob   30     90
2  Charlie   35     95

维度 (shape): (3, 3)
列名 (columns): Index(['Name', 'Age', 'Score'], dtype='object')
行索引 (index): RangeIndex(start=0, stop=3, step=1)
每列数据类型 (dtypes):
 Name     object
Age       int64
Score     int64
dtype: object


### 2. 读取和保存数据（CSV, Excel, JSON, SQL）

Pandas 支持从多种格式加载和保存数据：

#### 常用读取函数：
- `pd.read_csv('file.csv')`
- `pd.read_excel('file.xlsx')`
- `pd.read_json('file.json')`
- `pd.read_sql(query, conn)`

#### 常用保存函数：
- `df.to_csv('file.csv', index=False)`
- `df.to_excel('file.xlsx', index=False)`
- `df.to_json('file.json')`
- `df.to_sql('table', conn, if_exists='replace')`

> 注意事项：
- 对于 Excel 操作需安装 `openpyxl`
- 对于 SQL 需配合数据库连接引擎如 `sqlite3`、`SQLAlchemy`


In [2]:
import pandas as pd

# 创建 DataFrame 模拟外部文件
df = pd.DataFrame({
    "Name": ["Alice", "Bob"],
    "Age": [25, 30],
    "City": ["Beijing", "Shanghai"]
})

# 保存为 CSV 文件
df.to_csv("sample.csv", index=False)

# 从 CSV 文件读取（模拟真实读取流程）
df_loaded = pd.read_csv("sample.csv")
print("读取的 DataFrame:\n", df_loaded)


读取的 DataFrame:
     Name  Age      City
0  Alice   25   Beijing
1    Bob   30  Shanghai


### 3. 数据索引与选取（loc, iloc, at, iat）

Pandas 提供了四种方式来选取数据：

| 方法     | 按什么选     | 支持行列 | 支持切片 | 是否更快（适用于单元素） |
|----------|--------------|----------|----------|-------------------------|
| `loc`    | 标签         | ✅        | ✅        | 否                      |
| `iloc`   | 整数位置     | ✅        | ✅        | 否                      |
| `at`     | 标签         | ✅（单元）| ❌        | ✅（更快）              |
| `iat`    | 整数位置     | ✅（单元）| ❌        | ✅（更快）              |

---

#### ✅ `loc`: 使用标签选取

```python
df.loc[行标签, 列标签]
```

#### ✅ `iloc`: 使用整数位置选取
```python
df.iloc[行号, 列号]
```

#### ✅ `at`: 选取单个元素（标签），速度更快
```python
df.at[行标签, 列标签]
```

#### ✅ `iat`: 选取单个元素（位置），速度更快
```python
df.iat[行号, 列号]
```

建议：

常规用 loc 和 iloc

获取单个元素时用 at 或 iat 更快


In [3]:
import pandas as pd

df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "Score": [85, 90, 95]
}, index=["a", "b", "c"])

# loc: 按标签选取
print("loc 单行：\n", df.loc["a"])
print("loc 多列：\n", df.loc["a", ["Name", "Score"]])

# iloc: 按位置选取
print("iloc 第2行第3列：", df.iloc[1, 2])  # Bob 的 Score

# at: 获取单个元素（标签）
print("at 方式：", df.at["b", "Age"])

# iat: 获取单个元素（位置）
print("iat 方式：", df.iat[2, 1])  # Charlie 的 Age


loc 单行：
 Name     Alice
Age         25
Score       85
Name: a, dtype: object
loc 多列：
 Name     Alice
Score       85
Name: a, dtype: object
iloc 第2行第3列： 90
at 方式： 30
iat 方式： 35


### 4. 处理缺失值（isna, dropna, fillna）

在数据分析中，缺失值（NaN, null）是常见问题，Pandas 提供多种函数来处理：

| 函数            | 功能说明                     |
|-----------------|------------------------------|
| `isna()`        | 判断缺失值，返回布尔矩阵     |
| `notna()`       | 判断非缺失值                 |
| `dropna()`      | 删除含缺失值的行或列         |
| `fillna(x)`     | 用指定值填充缺失值           |

---

#### `dropna()` 参数：

- `axis=0`：删除含缺失的行（默认）
- `axis=1`：删除含缺失的列
- `how="any"`（默认）：只要有缺失就删
- `how="all"`：整行/整列都缺失才删

---

#### `fillna()` 常见用法：

- 固定值填充：`fillna(0)`
- 前向填充：`fillna(method="ffill")`
- 后向填充：`fillna(method="bfill")`


In [4]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Name": ["Alice", "Bob", np.nan],
    "Age": [25, np.nan, 35],
    "Score": [85, 90, np.nan]
})

print("原始数据：\n", df)

# 判断缺失值
print("\nisna 判断：\n", df.isna())

# 删除含缺失的行
dropped = df.dropna()
print("\ndropna 后：\n", dropped)

# 用 0 填补所有缺失
filled = df.fillna(0)
print("\nfillna(0) 填补后：\n", filled)

# 前向填充（用前一个值填）
ffill = df.fillna(method="ffill")
print("\n前向填充 ffill：\n", ffill)

# 后向填充（用下一个值填）
bfill = df.fillna(method="bfill")
print("\n后向填充 bfill：\n", bfill)


原始数据：
     Name   Age  Score
0  Alice  25.0   85.0
1    Bob   NaN   90.0
2    NaN  35.0    NaN

isna 判断：
     Name    Age  Score
0  False  False  False
1  False   True  False
2   True  False   True

dropna 后：
     Name   Age  Score
0  Alice  25.0   85.0

fillna(0) 填补后：
     Name   Age  Score
0  Alice  25.0   85.0
1    Bob   0.0   90.0
2      0  35.0    0.0

前向填充 ffill：
     Name   Age  Score
0  Alice  25.0   85.0
1    Bob  25.0   90.0
2    Bob  35.0   90.0

后向填充 bfill：
     Name   Age  Score
0  Alice  25.0   85.0
1    Bob  35.0   90.0
2    NaN  35.0    NaN


  ffill = df.fillna(method="ffill")
  bfill = df.fillna(method="bfill")


### 5. 数据筛选与条件过滤（布尔索引）

Pandas 可以通过布尔条件来选出满足条件的行（类似 SQL 中的 WHERE 子句）：

#### 基本语法：

```python
df[条件表达式]
```

#### 多条件组合（布尔索引）：

在 Pandas 中组合多个条件时，需要使用位运算符（逻辑运算符不能用 `and`, `or`, `not`）：

- ✅ **与**（AND）：`&`  
  语法：`(条件1) & (条件2)`  
  示例：`(df["Age"] > 30) & (df["Score"] > 90)`

- ✅ **或**（OR）：`|`  
  语法：`(条件1) | (条件2)`  
  示例：`(df["Age"] < 25) | (df["Score"] < 80)`

- ✅ **非**（NOT）：`~`  
  语法：`~(条件)`  
  示例：`~df["Name"].isna()`

> 🔒 **注意：每个条件必须加括号，否则会报错！**



In [5]:
import pandas as pd

df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David"],
    "Age": [25, 30, 35, 40],
    "Score": [85, 90, 95, 60]
})

# 单条件筛选：选出年龄大于 30 的人
print("Age > 30:\n", df[df["Age"] > 30])

# 多条件筛选：年龄 > 30 且成绩 > 90
print("\nAge > 30 且 Score > 90:\n", df[(df["Age"] > 30) & (df["Score"] > 90)])

# isin：筛选 Name 在特定列表中的行
print("\nName in ['Alice', 'Charlie']:\n", df[df["Name"].isin(["Alice", "Charlie"])])

# ~ 非操作符：排除缺失值
df.loc[2, "Score"] = None
print("\n非缺失值筛选 Score:\n", df[~df["Score"].isna()])


Age > 30:
       Name  Age  Score
2  Charlie   35     95
3    David   40     60

Age > 30 且 Score > 90:
       Name  Age  Score
2  Charlie   35     95

Name in ['Alice', 'Charlie']:
       Name  Age  Score
0    Alice   25     85
2  Charlie   35     95

非缺失值筛选 Score:
     Name  Age  Score
0  Alice   25   85.0
1    Bob   30   90.0
3  David   40   60.0


### 6. 排序与排名（sort_values, sort_index, rank）

Pandas 提供了对数据进行排序与排名的函数：

---

#### 🔢 `sort_values(by, ascending)`  
根据某列的值进行排序（默认升序）

- `by`：指定排序列名
- `ascending=False`：降序排列

示例：

```python
df.sort_values(by="Score", ascending=False)
```

#### 📑 `sort_index(axis)`
按 **行或列索引** 进行排序：

- `axis=0`（默认）：按**行索引**排序
- `axis=1`：按**列索引**排序（字母顺序）

示例：

```python
df.sort_index()
df.sort_index(axis=1)
```

#### 🥇 `rank(method, ascending)`

对某列进行**排名**（可处理并列情况）：

- `method="average"`（默认）：并列项取平均名次  
  例：两个并列第 2 的项，排名为 2.5
- `method="min"`：并列项取最小名次（竞赛排名常用）  
  例：两个并列第 2 的项，排名都为 2
- `method="first"`：按出现顺序赋予名次  
  例：先出现的排前面

```python
df["Rank"] = df["Score"].rank(ascending=False, method="min")
```
常用于生成“得分排名”、“年龄排名”等新列，结合 sort_values() 使用效果更佳。

In [6]:
import pandas as pd

df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David"],
    "Score": [90, 85, 95, 85],
    "Age": [25, 30, 35, 40]
}, index=["d", "b", "a", "c"])

print("原始数据：\n", df)

# 按 Score 降序排序
sorted_by_score = df.sort_values(by="Score", ascending=False)
print("\n按成绩降序排序：\n", sorted_by_score)

# 按索引排序（行标签）
sorted_by_index = df.sort_index()
print("\n按行索引排序：\n", sorted_by_index)

# 成绩排名，成绩高排前
df["Rank"] = df["Score"].rank(ascending=False, method="min")
print("\n加入排名列（高分排前）:\n", df)


原始数据：
       Name  Score  Age
d    Alice     90   25
b      Bob     85   30
a  Charlie     95   35
c    David     85   40

按成绩降序排序：
       Name  Score  Age
a  Charlie     95   35
d    Alice     90   25
b      Bob     85   30
c    David     85   40

按行索引排序：
       Name  Score  Age
a  Charlie     95   35
b      Bob     85   30
c    David     85   40
d    Alice     90   25

加入排名列（高分排前）:
       Name  Score  Age  Rank
d    Alice     90   25   2.0
b      Bob     85   30   3.0
a  Charlie     95   35   1.0
c    David     85   40   3.0


### 7. 列操作与新增字段（向量运算、assign、apply）

---

#### ✅ 向量运算（推荐）

Pandas 支持对整列进行向量化运算，速度快，语法简单：

```python
df["BMI"] = df["Weight"] / (df["Height"] / 100) ** 2
```

---

#### ✅ assign() 方法：链式添加新列（返回新 DataFrame）

```python
df = df.assign(ScoreRate=df["Score"] / 100)
```

适合与 `.query()`、`.sort_values()` 等链式操作组合使用。

---

#### ✅ apply() 方法：按行或列应用自定义函数

```python
df["Level"] = df["Score"].apply(lambda x: "High" if x > 90 else "Low")
```

- 默认 `axis=0`：按列（对每个“值列”应用函数）
- 若 `axis=1`：按行（对每一行作为整体传入函数）

---

#### ✅ 自定义函数 + apply（更复杂处理）

```python
def tag_level(row):
    if row["Score"] > 90:
        return "A"
    elif row["Score"] > 80:
        return "B"
    else:
        return "C"

df["Grade"] = df.apply(tag_level, axis=1)
```

> 向量运算速度最快；`apply` 灵活性最高，适合复杂规则。


In [7]:
import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie"],
    "Score": [95, 85, 72],
    "Weight": [60, 75, 68],     # kg
    "Height": [160, 180, 170]   # cm
})

# ✅ 向量运算：计算 BMI = 体重 / (身高米)^2
df["BMI"] = df["Weight"] / (df["Height"] / 100) ** 2
print("向量运算添加 BMI 列：\n", df)

# ✅ assign 添加新列（链式写法）
df = df.assign(ScoreRate = df["Score"] / 100)
print("\n使用 assign 添加 ScoreRate 列：\n", df)

# ✅ apply + lambda 创建等级标签
df["Level"] = df["Score"].apply(lambda x: "High" if x >= 90 else "Low")
print("\n使用 apply + lambda 创建 Level 列：\n", df)

# ✅ apply + 自定义函数：根据分数打等级
def tag_level(row):
    if row["Score"] > 90:
        return "A"
    elif row["Score"] > 80:
        return "B"
    else:
        return "C"

df["Grade"] = df.apply(tag_level, axis=1)
print("\n使用 apply + 自定义函数 创建 Grade 列：\n", df)


向量运算添加 BMI 列：
       Name  Score  Weight  Height        BMI
0    Alice     95      60     160  23.437500
1      Bob     85      75     180  23.148148
2  Charlie     72      68     170  23.529412

使用 assign 添加 ScoreRate 列：
       Name  Score  Weight  Height        BMI  ScoreRate
0    Alice     95      60     160  23.437500       0.95
1      Bob     85      75     180  23.148148       0.85
2  Charlie     72      68     170  23.529412       0.72

使用 apply + lambda 创建 Level 列：
       Name  Score  Weight  Height        BMI  ScoreRate Level
0    Alice     95      60     160  23.437500       0.95  High
1      Bob     85      75     180  23.148148       0.85   Low
2  Charlie     72      68     170  23.529412       0.72   Low

使用 apply + 自定义函数 创建 Grade 列：
       Name  Score  Weight  Height        BMI  ScoreRate Level Grade
0    Alice     95      60     160  23.437500       0.95  High     A
1      Bob     85      75     180  23.148148       0.85   Low     B
2  Charlie     72      68     170  23.

### 8. 分组与聚合分析（groupby, agg, pivot_table）

Pandas 提供强大的分组统计功能，可按某列对数据进行归类处理：

---

#### ✅ groupby：按列分组后聚合

```python
df.groupby("列名").函数()
```

示例：

```python
df.groupby("Department")["Salary"].mean()
```

---

#### ✅ agg：一次对多列执行多个统计函数

```python
df.groupby("Department").agg({
    "Salary": "mean",
    "Age": ["max", "min"]
})
```

---

#### ✅ pivot_table：更灵活的透视表（可聚合、透视、分层）

```python
pd.pivot_table(df, index="Department", values="Salary", aggfunc="mean")
```

也支持多重聚合和多个维度：

```python
pd.pivot_table(df, index="Dept", columns="Gender", values="Salary", aggfunc="mean")
```

> `groupby` 更通用，`pivot_table` 更适合二维统计展示


In [8]:
import pandas as pd

# 示例数据：公司员工信息
df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva", "Frank"],
    "Department": ["HR", "Tech", "Tech", "HR", "Tech", "Finance"],
    "Gender": ["F", "M", "M", "M", "F", "M"],
    "Salary": [5000, 8000, 7500, 5200, 8800, 6000],
    "Age": [25, 30, 35, 28, 32, 40]
})

# ✅ groupby：按部门分组，统计平均工资
print("平均工资：\n", df.groupby("Department")["Salary"].mean())

# ✅ groupby + agg：多列多函数聚合
print("\n每个部门的平均工资 & 最大年龄：\n",
      df.groupby("Department").agg({
          "Salary": "mean",
          "Age": ["max", "min"]
      }))

# ✅ pivot_table：部门-性别交叉表，显示平均工资
pivot = pd.pivot_table(df, index="Department", columns="Gender", values="Salary", aggfunc="mean")
print("\n部门-性别 平均工资透视表：\n", pivot)


平均工资：
 Department
Finance    6000.0
HR         5100.0
Tech       8100.0
Name: Salary, dtype: float64

每个部门的平均工资 & 最大年龄：
             Salary Age    
              mean max min
Department                
Finance     6000.0  40  40
HR          5100.0  28  25
Tech        8100.0  35  30

部门-性别 平均工资透视表：
 Gender           F       M
Department                
Finance        NaN  6000.0
HR          5000.0  5200.0
Tech        8800.0  7750.0


### 9. 数据合并与连接（merge, concat, join）

---

#### ✅ merge：根据某列进行横向连接（类似 SQL JOIN）

```python
pd.merge(df1, df2, on="列名", how="inner")
```

- `how` 可选：
  - `"inner"`：只保留两边都匹配的（交集）
  - `"left"`：以左表为主（类似左连接）
  - `"right"`：右表为主
  - `"outer"`：全连接（并集）

---

#### ✅ concat：按行或按列直接拼接（无智能匹配）

```python
pd.concat([df1, df2], axis=0)  # 纵向拼接
pd.concat([df1, df2], axis=1)  # 横向拼接
```

---

#### ✅ join：以 index 为基准进行横向合并（补充列）

```python
df1.join(df2, how="left")
```

> `merge` 最灵活，推荐用于关系型连接；`concat` 最简单；`join` 适合按 index 对齐。


In [9]:
import pandas as pd

# 构造两个表格
df1 = pd.DataFrame({
    "ID": [1, 2, 3],
    "Name": ["Alice", "Bob", "Charlie"]
})

df2 = pd.DataFrame({
    "ID": [2, 3, 4],
    "Score": [85, 90, 95]
})

# ✅ merge：根据 ID 合并（inner）
merged_inner = pd.merge(df1, df2, on="ID", how="inner")
print("inner merge:\n", merged_inner)

# ✅ merge：左连接（left join）
merged_left = pd.merge(df1, df2, on="ID", how="left")
print("\nleft join:\n", merged_left)

# ✅ concat：纵向拼接两个表
df3 = pd.DataFrame({
    "ID": [4, 5],
    "Name": ["David", "Eva"]
})
concat_rows = pd.concat([df1, df3], axis=0)
print("\nconcat 按行拼接:\n", concat_rows)

# ✅ join：按 index 合并
df1_indexed = df1.set_index("ID")
df2_indexed = df2.set_index("ID")
joined = df1_indexed.join(df2_indexed, how="left")
print("\njoin 按 index 左连接:\n", joined)


inner merge:
    ID     Name  Score
0   2      Bob     85
1   3  Charlie     90

left join:
    ID     Name  Score
0   1    Alice    NaN
1   2      Bob   85.0
2   3  Charlie   90.0

concat 按行拼接:
    ID     Name
0   1    Alice
1   2      Bob
2   3  Charlie
0   4    David
1   5      Eva

join 按 index 左连接:
        Name  Score
ID                
1     Alice    NaN
2       Bob   85.0
3   Charlie   90.0


### 10. 时间序列处理（datetime, resample, rolling）

---

#### ✅ datetime 类型转换（to_datetime）

```python
df["Date"] = pd.to_datetime(df["Date"])
```

- 将字符串或对象列转为 Pandas 的 datetime 类型，支持后续时间运算与索引。

---

#### ✅ 设置时间为索引（常用于时间序列分析）

```python
df = df.set_index("Date")
```

---

#### ✅ 重采样（resample）：按时间频率聚合（如按天/周/月统计）

```python
df.resample("D").mean()     # 按日聚合
df.resample("W").sum()      # 按周求和
df.resample("M").max()      # 按月取最大值
```

常用频率：
- `"D"`：天
- `"W"`：周
- `"M"`：月
- `"H"`：小时

---

#### ✅ 滚动窗口计算（rolling）：滑动统计均值、总和等

```python
df["7d_avg"] = df["value"].rolling(window=7).mean()
```

- 用于平滑波动数据，比如滑动平均、滚动最大值等
- `rolling()` 后必须跟 `.mean()`, `.sum()` 等函数才会执行

> `resample()` 是改变时间粒度，`rolling()` 是滑动窗口计算


In [10]:
import pandas as pd
import numpy as np

# 构造时间序列数据：每天销量
date_range = pd.date_range(start="2023-01-01", periods=10, freq="D")
df = pd.DataFrame({
    "Date": date_range,
    "Sales": [10, 15, 13, 20, 23, 18, 30, 28, 25, 22]
})

# ✅ 转换为 datetime 并设置为索引
df["Date"] = pd.to_datetime(df["Date"])
df = df.set_index("Date")

# ✅ 重采样：按每 3 天求平均
resampled = df.resample("3D").mean()
print("每3天平均销量：\n", resampled)

# ✅ 滚动窗口：7 天移动平均
df["7d_avg"] = df["Sales"].rolling(window=7).mean()
print("\n添加 7 天滑动平均列：\n", df)


每3天平均销量：
                 Sales
Date                 
2023-01-01  12.666667
2023-01-04  20.333333
2023-01-07  27.666667
2023-01-10  22.000000

添加 7 天滑动平均列：
             Sales     7d_avg
Date                        
2023-01-01     10        NaN
2023-01-02     15        NaN
2023-01-03     13        NaN
2023-01-04     20        NaN
2023-01-05     23        NaN
2023-01-06     18        NaN
2023-01-07     30  18.428571
2023-01-08     28  21.000000
2023-01-09     25  22.428571
2023-01-10     22  23.714286
