# Pandas DataFrame 条件筛选与索引

本notebook演示了使用条件筛选后DataFrame的索引特性

In [2]:
import pandas as pd
import numpy as np

## 1. 创建示例DataFrame

In [3]:
# 创建一个示例DataFrame
df = pd.DataFrame({
    'A': range(20),
    'B': np.random.choice(['X', 'Y', 'Z'], 20),
    'C': np.random.randint(0, 100, 20)
})

print("原始DataFrame:")
print(df)
print(f"\n原始index: {df.index.tolist()}")

原始DataFrame:
     A  B   C
0    0  Y   4
1    1  Y  53
2    2  X  72
3    3  Y  78
4    4  Z  75
5    5  Y  77
6    6  Y  51
7    7  X  91
8    8  Z  15
9    9  Z  89
10  10  Z   3
11  11  X  31
12  12  Z  31
13  13  Z  40
14  14  Y   4
15  15  Y  43
16  16  Y  25
17  17  X  33
18  18  Z  43
19  19  Y  16

原始index: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


## 2. 使用条件筛选

In [4]:
# 使用==条件筛选
filtered_df = df[df['B'] == 'X']

print("筛选后的DataFrame (B=='X'):")
print(filtered_df)
print(f"\n筛选后的index: {filtered_df.index.tolist()}")
print(f"\n注意: 筛选后的index不是连续的！")

筛选后的DataFrame (B=='X'):
     A  B   C
2    2  X  72
7    7  X  91
11  11  X  31
17  17  X  33

筛选后的index: [2, 7, 11, 17]

注意: 筛选后的index不是连续的！


## 3. 尝试使用简单的切片索引 [0:9]

In [20]:
# 尝试使用[0:9]切片
print("尝试使用 filtered_df[0:9]:")
try:
    result = filtered_df.loc[0:7,:]
    print(result)
    print(f"\n注意: 这里[0:9]是基于原始的index值进行切片，不是位置！")
    print(f"它会返回index在0到8之间的行（如果存在的话）")
except Exception as e:
    print(f"错误: {e}")

尝试使用 filtered_df[0:9]:
   A  B   C
2  2  X  72
7  7  X  91

注意: 这里[0:9]是基于原始的index值进行切片，不是位置！
它会返回index在0到8之间的行（如果存在的话）


## 4. 正确的方法：使用iloc获取前10行

In [6]:
# 使用iloc基于位置索引
print("使用 iloc[0:10] 获取前10行:")
if len(filtered_df) >= 10:
    result_iloc = filtered_df.iloc[0:10]
else:
    result_iloc = filtered_df.iloc[:]
    print(f"注意: 筛选后只有{len(filtered_df)}行，少于10行")

print(result_iloc)

使用 iloc[0:10] 获取前10行:
注意: 筛选后只有4行，少于10行
     A  B   C
2    2  X  72
7    7  X  91
11  11  X  31
17  17  X  33


## 5. 其他获取前N行的方法

In [7]:
# 方法1: 使用head()
print("方法1 - 使用 head(10):")
print(filtered_df.head(10))
print()

方法1 - 使用 head(10):
     A  B   C
2    2  X  72
7    7  X  91
11  11  X  31
17  17  X  33



In [8]:
# 方法2: 重置索引后使用普通切片
print("\n方法2 - 重置索引后使用切片:")
filtered_df_reset = filtered_df.reset_index(drop=True)
print("重置索引后的DataFrame:")
print(filtered_df_reset)
print(f"\n新的index: {filtered_df_reset.index.tolist()}")
print("\n现在可以使用[0:10]切片:")
print(filtered_df_reset[0:10])


方法2 - 重置索引后使用切片:
重置索引后的DataFrame:
    A  B   C
0   2  X  72
1   7  X  91
2  11  X  31
3  17  X  33

新的index: [0, 1, 2, 3]

现在可以使用[0:10]切片:
    A  B   C
0   2  X  72
1   7  X  91
2  11  X  31
3  17  X  33


## 6. 总结对比

In [9]:
# 创建一个更明显的例子
df_example = pd.DataFrame({
    'value': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
}, index=[0, 2, 5, 7, 10, 15, 18, 20, 25, 30])

print("示例DataFrame（注意index不连续）:")
print(df_example)
print()

print("df_example[0:5] 的结果（基于index值）:")
print(df_example[0:5])  # 只会返回index为0和2的行
print()

print("df_example.iloc[0:5] 的结果（基于位置）:")
print(df_example.iloc[0:5])  # 返回前5行

示例DataFrame（注意index不连续）:
    value
0      10
2      20
5      30
7      40
10     50
15     60
18     70
20     80
25     90
30    100

df_example[0:5] 的结果（基于index值）:
    value
0      10
2      20
5      30
7      40
10     50

df_example.iloc[0:5] 的结果（基于位置）:
    value
0      10
2      20
5      30
7      40
10     50


## 重要结论

1. **条件筛选后的index不是连续的** - 它保留了原始DataFrame的index
2. **不能使用简单的[0:9]来获取前10行** - 这会基于index值而不是位置
3. **正确的方法**:
   - 使用 `iloc[0:10]` 基于位置索引
   - 使用 `head(10)` 方法
   - 先 `reset_index(drop=True)` 再使用普通切片