In [1]:
import pandas as pd
import numpy as np

# 创建一个更有趣的样本数据
data = {
    'open': [100, 102, 105, 103, 108, 107, 112],
    'high': [103, 106, 106, 107, 110, 109, 115],
    'low': [99, 101, 102, 101, 107, 106, 111],
    'close': [102, 105, 103, 107, 109, 106, 114],
    'volume': [1000, 1800, 1200, 2200, 1600, 900, 2500]
}
# 使用更有意义的日期作为索引
dates = pd.to_datetime(['2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05', '2023-01-06', '2023-01-09', '2023-01-10'])

df = pd.DataFrame(data, index=dates)
df.index.name = 'date'

print("我们的样本K线数据:")
print(df)

我们的样本K线数据:
            open  high  low  close  volume
date                                      
2023-01-02   100   103   99    102    1000
2023-01-03   102   106  101    105    1800
2023-01-04   105   106  102    103    1200
2023-01-05   103   107  101    107    2200
2023-01-06   108   110  107    109    1600
2023-01-09   107   109  106    106     900
2023-01-10   112   115  111    114    2500


1. `.iloc`：**基于整数位置的选择 (Integer-Location Based)**

`.iloc` 完全根据数据所在的“行号”和“列号”（从0开始）来选择，它不关心索引标签或列名是什么。

 * 类比： JavaScript数组的索引 `array[row_index][column_index]`。

In [None]:
# --- .iloc 示例 ---

# 选择第1行数据 (行号为0)
first_row = df.iloc[0]
print("\n--- .iloc 选择第一行 ---\n", first_row)

# 选择最后一行数据
last_row = df.iloc[-1]
print("\n--- .iloc 选择最后一行 ---\n", last_row)

# 选择前3行数据 (不包括行号为3的行)
first_3_rows = df.iloc[0:3]
print("\n--- .iloc 选择前3行 ---\n", first_3_rows)

# 选择第2行、第4列的那个单元格的数据 (收盘价 close)
cell_value = df.iloc[1, 3]  # 第2行(index 1), 第4列(index 3)
print(f"\n--- .iloc 选择 (1,3) 单元格的值 ---\n {cell_value}")

# 选择第1、3、5行，和第1、4列 ('open', 'close') 的数据
subset = df.iloc[[0, 2, 4], [0, 3]]
print("\n--- .iloc 选择特定行列子集 ---\n", subset)


--- .iloc 选择第一行 ---
 open       100
high       103
low         99
close      102
volume    1000
Name: 2023-01-02 00:00:00, dtype: int64

--- .iloc 选择最后一行 ---
 open       112
high       115
low        111
close      114
volume    2500
Name: 2023-01-10 00:00:00, dtype: int64

--- .iloc 选择前3行 ---
             open  high  low  close  volume
date                                      
2023-01-02   100   103   99    102    1000
2023-01-03   102   106  101    105    1800
2023-01-04   105   106  102    103    1200

--- .iloc 选择 (1,3) 单元格的值 ---
 105

--- .iloc 选择特定行列子集 ---
             open  close
date                   
2023-01-02   100    102
2023-01-04   105    103
2023-01-06   108    109


2. `.loc`：**基于标签名称的选择 (Label-Based)**

`.loc` 根据索引的“标签”（我们这里是日期）和列的“名字”（'open', 'close'等）来选择。这是处理时间序列数据时最常用、最强大的方式。

 * 类比： JavaScript对象的键名 `object['key']`。

In [3]:
# --- .loc 示例 ---

# 选择索引标签为 '2023-01-04' 的那一行
jan_4_data = df.loc['2023-01-04']
print("\n--- .loc 选择 '2023-01-04' 的数据 ---\n", jan_4_data)

# 选择一个日期范围的数据 (注意：.loc的切片是包含结束值的)
date_range_data = df.loc['2023-01-05':'2023-01-09']
print("\n--- .loc 选择一个日期范围 ---\n", date_range_data)

# 选择 '2023-01-05' 这一天的 'close' 和 'volume'
close_vol = df.loc['2023-01-05', ['close', 'volume']]
print("\n--- .loc 选择特定日期的特定列 ---\n", close_vol)


--- .loc 选择 '2023-01-04' 的数据 ---
 open       105
high       106
low        102
close      103
volume    1200
Name: 2023-01-04 00:00:00, dtype: int64

--- .loc 选择一个日期范围 ---
             open  high  low  close  volume
date                                      
2023-01-05   103   107  101    107    2200
2023-01-06   108   110  107    109    1600
2023-01-09   107   109  106    106     900

--- .loc 选择特定日期的特定列 ---
 close      107
volume    2200
Name: 2023-01-05 00:00:00, dtype: int64


3. **布尔索引：基于条件的选择 (Condition-Based)**

这是数据分析的精髓所在。我们创建一个布尔类型的“掩码”(mask)，True代表我们想要的行，False代表我们不要的，然后用这个掩码来过滤数据。

 * 类比： JavaScript数组的 .filter() 方法。 data.filter(item => item.volume > 1500)。

In [4]:
# --- 布尔索引示例 ---

# 步骤1: 创建一个条件。这会返回一个布尔值的Series
high_volume_mask = df['volume'] > 1500
print("\n--- 成交量 > 1500 的布尔掩码 ---\n", high_volume_mask)

# 步骤2: 将掩码应用于DataFrame
high_volume_days = df[high_volume_mask]
print("\n--- 所有成交量 > 1500 的日子 ---\n", high_volume_days)

# 你也可以直接把条件写在[]里
green_days = df[df['close'] > df['open']]
print("\n--- 所有上涨的日子 ('绿K') ---\n", green_days)

# 组合多个条件：使用 & (AND) 和 | (OR)
# **非常重要**: 每个条件必须用括号 () 包起来！
high_vol_and_red_days = df[(df['volume'] > 1500) & (df['close'] < df['open'])]
print("\n--- 高成交量并且下跌的日子 ('红K') ---\n", high_vol_and_red_days)


--- 成交量 > 1500 的布尔掩码 ---
 date
2023-01-02    False
2023-01-03     True
2023-01-04    False
2023-01-05     True
2023-01-06     True
2023-01-09    False
2023-01-10     True
Name: volume, dtype: bool

--- 所有成交量 > 1500 的日子 ---
             open  high  low  close  volume
date                                      
2023-01-03   102   106  101    105    1800
2023-01-05   103   107  101    107    2200
2023-01-06   108   110  107    109    1600
2023-01-10   112   115  111    114    2500

--- 所有上涨的日子 ('绿K') ---
             open  high  low  close  volume
date                                      
2023-01-02   100   103   99    102    1000
2023-01-03   102   106  101    105    1800
2023-01-05   103   107  101    107    2200
2023-01-06   108   110  107    109    1600
2023-01-10   112   115  111    114    2500

--- 高成交量并且下跌的日子 ('红K') ---
 Empty DataFrame
Columns: [open, high, low, close, volume]
Index: []


In [23]:
# print(df.iloc[-3])
# print(df.loc["2023-01-06"])
# print(df.loc["2023-01-03":"2023-01-06", ["close", "open"]])

# print(df[((df["low"] - df["open"]) / (df["high"] - df["low"])) < -0.7])

print(df[((df["volume"] / df["volume"].shift(1)) > 1.5) & (df["close"] > df["open"])])

            open  high  low  close  volume
date                                      
2023-01-03   102   106  101    105    1800
2023-01-05   103   107  101    107    2200
2023-01-10   112   115  111    114    2500
