# Pandas iloc 和 loc 完整使用指南

## 核心区别
- **iloc**: 基于整数位置的索引 (integer location)
- **loc**: 基于标签的索引 (label location)

In [1]:
import pandas as pd
import numpy as np

## 1. 创建示例数据

In [2]:
# 创建一个带有自定义索引的DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500],
    'D': ['a', 'b', 'c', 'd', 'e']
}, index=['row1', 'row2', 'row3', 'row4', 'row5'])

print("示例DataFrame:")
print(df)
print(f"\n索引: {df.index.tolist()}")
print(f"列名: {df.columns.tolist()}")

示例DataFrame:
      A   B    C  D
row1  1  10  100  a
row2  2  20  200  b
row3  3  30  300  c
row4  4  40  400  d
row5  5  50  500  e

索引: ['row1', 'row2', 'row3', 'row4', 'row5']
列名: ['A', 'B', 'C', 'D']


In [3]:
display(df)

Unnamed: 0,A,B,C,D
row1,1,10,100,a
row2,2,20,200,b
row3,3,30,300,c
row4,4,40,400,d
row5,5,50,500,e


## 2. iloc - 基于位置的索引

### 2.1 选择单个元素

In [4]:
# 选择第2行第3列的元素（位置从0开始）
print("df.iloc[1, 2]:")
print(df.iloc[1, 2])
print()

# 使用负数索引
print("df.iloc[-1, -1] (最后一行最后一列):")
print(df.iloc[-1, -1])

df.iloc[1, 2]:
200

df.iloc[-1, -1] (最后一行最后一列):
e


### 2.2 选择行

In [5]:
# 选择单行
print("df.iloc[0] (第一行):")
print(df.iloc[0])
print()

# 选择多行（使用列表）
print("df.iloc[[0, 2, 4]] (第1、3、5行):")
print(df.iloc[[0, 2, 4]])
print()

# 使用切片选择行
print("df.iloc[1:4] (第2到第4行，不包含第5行):")
print(df.iloc[1:4])

df.iloc[0] (第一行):
A      1
B     10
C    100
D      a
Name: row1, dtype: object

df.iloc[[0, 2, 4]] (第1、3、5行):
      A   B    C  D
row1  1  10  100  a
row3  3  30  300  c
row5  5  50  500  e

df.iloc[1:4] (第2到第4行，不包含第5行):
      A   B    C  D
row2  2  20  200  b
row3  3  30  300  c
row4  4  40  400  d


### 2.3 选择列

In [6]:
# 选择所有行的特定列
print("df.iloc[:, 1] (第2列):")
print(df.iloc[:, 1])
print()

# 选择多列
print("df.iloc[:, [0, 2]] (第1和第3列):")
print(df.iloc[:, [0, 2]])
print()

# 使用切片选择列
print("df.iloc[:, 1:3] (第2到第3列):")
print(df.iloc[:, 1:3])

df.iloc[:, 1] (第2列):
row1    10
row2    20
row3    30
row4    40
row5    50
Name: B, dtype: int64

df.iloc[:, [0, 2]] (第1和第3列):
      A    C
row1  1  100
row2  2  200
row3  3  300
row4  4  400
row5  5  500

df.iloc[:, 1:3] (第2到第3列):
       B    C
row1  10  100
row2  20  200
row3  30  300
row4  40  400
row5  50  500


### 2.4 选择行和列的组合

In [7]:
# 选择特定的行和列
print("df.iloc[1:3, 0:2] (第2-3行，第1-2列):")
print(df.iloc[1:3, 0:2])
print()

# 使用列表选择不连续的行和列
print("df.iloc[[0, 2, 4], [1, 3]]:")
print(df.iloc[[0, 2, 4], [1, 3]])

df.iloc[1:3, 0:2] (第2-3行，第1-2列):
      A   B
row2  2  20
row3  3  30

df.iloc[[0, 2, 4], [1, 3]]:
       B  D
row1  10  a
row3  30  c
row5  50  e


## 3. loc - 基于标签的索引

### 3.1 选择单个元素

In [8]:
# 使用行标签和列标签
print("df.loc['row2', 'B']:")
print(df.loc['row2', 'B'])
print()

# 注意：loc使用的是实际的标签，不是位置

df.loc['row2', 'B']:
20



### 3.2 选择行

In [9]:
# 选择单行
print("df.loc['row1']:")
print(df.loc['row1'])
print()

# 选择多行
print("df.loc[['row1', 'row3', 'row5']]:")
print(df.loc[['row1', 'row3', 'row5']])
print()

# 使用切片（注意：loc的切片包含结束点）
print("df.loc['row2':'row4'] (包含row4):")
print(df.loc['row2':'row4'])

df.loc['row1']:
A      1
B     10
C    100
D      a
Name: row1, dtype: object

df.loc[['row1', 'row3', 'row5']]:
      A   B    C  D
row1  1  10  100  a
row3  3  30  300  c
row5  5  50  500  e

df.loc['row2':'row4'] (包含row4):
      A   B    C  D
row2  2  20  200  b
row3  3  30  300  c
row4  4  40  400  d


### 3.3 选择列

In [10]:
# 选择所有行的特定列
print("df.loc[:, 'B']:")
print(df.loc[:, 'B'])
print()

# 选择多列
print("df.loc[:, ['A', 'C']]:")
print(df.loc[:, ['A', 'C']])
print()

# 使用切片选择列
print("df.loc[:, 'B':'D'] (从B到D列，包含D):")
print(df.loc[:, 'B':'D'])

df.loc[:, 'B']:
row1    10
row2    20
row3    30
row4    40
row5    50
Name: B, dtype: int64

df.loc[:, ['A', 'C']]:
      A    C
row1  1  100
row2  2  200
row3  3  300
row4  4  400
row5  5  500

df.loc[:, 'B':'D'] (从B到D列，包含D):
       B    C  D
row1  10  100  a
row2  20  200  b
row3  30  300  c
row4  40  400  d
row5  50  500  e


### 3.4 布尔索引

In [11]:
# 使用条件选择行
print("df.loc[df['A'] > 2]:")
print(df.loc[df['A'] > 2])
print()

# 结合条件和列选择
print("df.loc[df['B'] >= 30, ['A', 'D']]:")
print(df.loc[df['B'] >= 30, ['A', 'D']])

df.loc[df['A'] > 2]:
      A   B    C  D
row3  3  30  300  c
row4  4  40  400  d
row5  5  50  500  e

df.loc[df['B'] >= 30, ['A', 'D']]:
      A  D
row3  3  c
row4  4  d
row5  5  e


## 4. iloc vs loc 对比示例

In [12]:
# 创建一个使用整数作为索引的DataFrame
df_int = pd.DataFrame({
    'X': [10, 20, 30, 40, 50],
    'Y': [100, 200, 300, 400, 500]
}, index=[10, 20, 30, 40, 50])

print("整数索引的DataFrame:")
print(df_int)
print()

# iloc使用位置
print("df_int.iloc[0] (第一行):")
print(df_int.iloc[0])
print()

# loc使用标签
print("df_int.loc[10] (索引为10的行):")
print(df_int.loc[10])
print()

# 注意区别！
print("iloc[1] vs loc[20]:")
print(f"iloc[1]: {df_int.iloc[1].tolist()}")
print(f"loc[20]: {df_int.loc[20].tolist()}")

整数索引的DataFrame:
     X    Y
10  10  100
20  20  200
30  30  300
40  40  400
50  50  500

df_int.iloc[0] (第一行):
X     10
Y    100
Name: 10, dtype: int64

df_int.loc[10] (索引为10的行):
X     10
Y    100
Name: 10, dtype: int64

iloc[1] vs loc[20]:
iloc[1]: [20, 200]
loc[20]: [20, 200]


## 5. 设置值

In [13]:
# 创建DataFrame副本用于修改
df_copy = df.copy()

# 使用iloc设置值
df_copy.iloc[0, 0] = 999
print("使用iloc修改后:")
print(df_copy)
print()

# 使用loc设置值
df_copy.loc['row2', 'B'] = 888
print("使用loc修改后:")
print(df_copy)
print()

# 批量设置值
df_copy.loc[df_copy['A'] > 3, 'C'] = 777
print("条件批量修改后:")
print(df_copy)

使用iloc修改后:
        A   B    C  D
row1  999  10  100  a
row2    2  20  200  b
row3    3  30  300  c
row4    4  40  400  d
row5    5  50  500  e

使用loc修改后:
        A    B    C  D
row1  999   10  100  a
row2    2  888  200  b
row3    3   30  300  c
row4    4   40  400  d
row5    5   50  500  e

条件批量修改后:
        A    B    C  D
row1  999   10  777  a
row2    2  888  200  b
row3    3   30  300  c
row4    4   40  777  d
row5    5   50  777  e


## 6. 常见错误和注意事项

In [14]:
# 错误示例1：混淆iloc和loc
try:
    # 尝试在iloc中使用标签
    result = df.iloc['row1']
except Exception as e:
    print(f"错误1: {type(e).__name__}: {e}")
    
try:
    # 尝试在loc中使用超出范围的位置
    result = df.loc[0]  # 如果0不是索引标签
except Exception as e:
    print(f"错误2: {type(e).__name__}: {e}")

错误1: TypeError: Cannot index by location index with a non-integer key
错误2: KeyError: 0


## 7. 实用技巧

In [15]:
# 技巧1：获取DataFrame的一部分
print("获取左上角3x3的子集:")
print(df.iloc[:3, :3])
print()

# 技巧2：随机采样
print("随机选择3行:")
random_indices = np.random.choice(df.index, 3, replace=False)
print(df.loc[random_indices])
print()

# 技巧3：根据条件更新多列
df_temp = df.copy()
df_temp.loc[df_temp['A'] <= 3, ['B', 'C']] = df_temp.loc[df_temp['A'] <= 3, ['B', 'C']] * 2
print("条件更新多列:")
print(df_temp)

获取左上角3x3的子集:
      A   B    C
row1  1  10  100
row2  2  20  200
row3  3  30  300

随机选择3行:
      A   B    C  D
row1  1  10  100  a
row2  2  20  200  b
row3  3  30  300  c

条件更新多列:
      A   B    C  D
row1  1  20  200  a
row2  2  40  400  b
row3  3  60  600  c
row4  4  40  400  d
row5  5  50  500  e


## 总结

### iloc
- 使用整数位置索引
- 切片不包含结束位置
- 适合按位置访问数据
- 语法：`df.iloc[行位置, 列位置]`

### loc
- 使用标签索引
- 切片包含结束位置
- 支持布尔索引
- 语法：`df.loc[行标签, 列标签]`

### 选择建议
- 如果知道标签名称，使用 `loc`
- 如果只知道位置，使用 `iloc`
- 条件筛选时，通常使用 `loc`