# C语言代码Bug检测演示

本notebook演示如何使用DSPy实现的代码bug检测功能。

## 1. 环境设置

首先，加载DSPy模型配置和bug检测模块。

### 关于模型优化

本系统支持使用DSPy的BootstrapFewShot优化器来提升检测准确性。优化后的模型：
- ✓ 更准确地识别真正的bug
- ✓ 减少假阳性（误报）
- ✓ 特别是对于复杂的安全检查代码（如示例5）

**如何训练优化模型：**

在终端中运行：
```bash
cd python_src
export GOOGLE_API_KEY='your-api-key'
python train_optimizer.py
```

训练完成后，本notebook会自动使用优化模型。

In [1]:
# 导入必要的库
import dspy
import os
from code_bug_detector import CodeBugDetector, BUG_TYPE_MAPPING

In [2]:
# 配置DSPy模型 (与DPSy_tes.ipynb中的配置相同)
lm = dspy.LM(
    model='gemini/gemini-3-flash-preview',
    api_key='AIzaSyCNwoqb59pZ49ef2ZCdmQrHw6nNKKQygdU',
    max_tokens=4000
)

dspy.configure(lm=lm)
print("✓ DSPy模型配置完成")
dspy.configure_cache(
    enable_disk_cache=False,
    enable_memory_cache=False,
)

✓ DSPy模型配置完成


In [None]:
# 创建bug检测器实例
# 如果存在优化模型，将自动加载；否则使用基础模型
import os

# 检查是否存在优化模型（JSON格式更安全）
model_path = '../models/optimized_bug_detector.json'
if os.path.exists(model_path):
    print(f"正在加载优化模型: {model_path}")
    detector = CodeBugDetector(optimized_model_path=model_path)
else:
    print("未找到优化模型，使用基础模型")
    print(f"提示: 运行 'python python_src/train_optimizer.py' 来训练优化模型")
    detector = CodeBugDetector()

print("✓ Bug检测器已初始化")
if detector.is_optimized:
    print("✓ 使用优化模型 (性能更好，假阳性更少)")
else:
    print("⚠ 使用基础模型 (可能存在假阳性)")

## 2. 示例1：内存泄漏检测

In [4]:
code_example_1 = """
void process_data() {
    int* data = (int*)malloc(100 * sizeof(int));
    if (data == NULL) {
        return;
    }
    
    // 处理数据
    for (int i = 0; i < 100; i++) {
        data[i] = i * 2;
    }
    

}
"""

print("检测代码片段 1：")
print(code_example_1)
print("\n开始检测...")

result1 = detector(code_example_1)
print(detector.format_output(result1))



检测代码片段 1：

void process_data() {
    int* data = (int*)malloc(100 * sizeof(int));
    if (data == NULL) {
        return;
    }

    // 处理数据
    for (int i = 0; i < 100; i++) {
        data[i] = i * 2;
    }


}


开始检测...
代码Bug检测结果

✗ 检测到以下bug：

Bug #1:
  位置: 第 13 行
  代码: }
  类型: Memory Error: Uncontrolled Resource Consumption - 资源消耗失控
  说明: 函数在退出前未调用 free(data) 释放由 malloc 分配的内存，导致内存泄漏（Resource Consumption）。



  PydanticSerializationUnexpectedValue(Expected 10 fields but got 7: Expected `Message` - serialized value may not be as expected [field_name='message', input_value=Message(content='[[ ## re...vx3BuzO2Hlx+qh6TI64I']}), input_type=Message])
  PydanticSerializationUnexpectedValue(Expected `StreamingChoices` - serialized value may not be as expected [field_name='choices', input_value=Choices(finish_reason='st...x3BuzO2Hlx+qh6TI64I']})), input_type=Choices])
  return self.__pydantic_serializer__.to_python(


## 3. 示例2：缓冲区溢出

In [5]:
code_example_2 = """
void copy_string(char* input) {
    char buffer[10];
    strcpy(buffer, input);  
    printf("Copied: %s\n", buffer);
}
"""

print("检测代码片段 2：")
print(code_example_2)
print("\n开始检测...")

result2 = detector(code_example_2)
print(detector.format_output(result2))



检测代码片段 2：

void copy_string(char* input) {
    char buffer[10];
    strcpy(buffer, input);  
    printf("Copied: %s
", buffer);
}


开始检测...
代码Bug检测结果

✗ 检测到以下bug：

Bug #1:
  位置: 第 3 行
  代码: strcpy(buffer, input);
  类型: Memory Error: Memory Overflow - 内存溢出
  说明: 使用 strcpy 函数将长度不受控的 input 复制到固定大小（10字节）的 buffer 中，若输入字符串长度超过 buffer 容量，将导致缓冲区溢出（内存溢出）。



  PydanticSerializationUnexpectedValue(Expected 10 fields but got 7: Expected `Message` - serialized value may not be as expected [field_name='message', input_value=Message(content='[[ ## re...Htnbeuhw/C6dVNjH75g9']}), input_type=Message])
  PydanticSerializationUnexpectedValue(Expected `StreamingChoices` - serialized value may not be as expected [field_name='choices', input_value=Choices(finish_reason='st...tnbeuhw/C6dVNjH75g9']})), input_type=Choices])
  return self.__pydantic_serializer__.to_python(


## 4. 示例3：空指针解引用

In [6]:
code_example_3 = """
int get_value(int* ptr) {
    return *ptr;
}

int main() {
    int* p = NULL;
    int value = get_value(p);
    printf("Value: %d\n", value);
    return 0;
}
"""

print("检测代码片段 3：")
print(code_example_3)
print("\n开始检测...")

result3 = detector(code_example_3)
print(detector.format_output(result3))



检测代码片段 3：

int get_value(int* ptr) {
    return *ptr;
}

int main() {
    int* p = NULL;
    int value = get_value(p);
    printf("Value: %d
", value);
    return 0;
}


开始检测...
代码Bug检测结果

✗ 检测到以下bug：

Bug #1:
  位置: 第 2 行
  代码: return *ptr;
  类型: Memory Error: Null Pointer Dereference - 空指针解引用
  说明: 函数 get_value 接收到一个空指针 ptr 并尝试对其进行解引用，这将导致空指针解引用错误。

Bug #2:
  位置: 第 8 行
  代码: int value = get_value(p);
  类型: Logic Organization: Wrong Function Call Sequence - 函数调用顺序错误
  说明: 在 main 函数中将初始化为 NULL 的指针 p 传递给需要有效指针的函数，触发了后续的解引用错误。



  PydanticSerializationUnexpectedValue(Expected 10 fields but got 7: Expected `Message` - serialized value may not be as expected [field_name='message', input_value=Message(content='[[ ## re...urCdiY59p6Wt+jEJ5Bj8']}), input_type=Message])
  PydanticSerializationUnexpectedValue(Expected `StreamingChoices` - serialized value may not be as expected [field_name='choices', input_value=Choices(finish_reason='st...rCdiY59p6Wt+jEJ5Bj8']})), input_type=Choices])
  return self.__pydantic_serializer__.to_python(


## 5. 示例4：数组越界

In [8]:
code_example_4 = """
void fill_array() {
    int arr[10];
    for (int i = 0; i <= 10; i++) {  
        arr[i] = i;
    }
}
"""

print("检测代码片段 4：")
print(code_example_4)
print("\n开始检测...")

result4 = detector(code_example_4)
print(detector.format_output(result4))



检测代码片段 4：

void fill_array() {
    int arr[10];
    for (int i = 0; i <= 10; i++) {  
        arr[i] = i;
    }
}


开始检测...
代码Bug检测结果

✗ 检测到以下bug：

Bug #1:
  位置: 第 3 行
  代码: for (int i = 0; i <= 10; i++) {
  类型: Memory Error: Memory Overflow - 内存溢出
  说明: The loop condition 'i <= 10' allows the index to reach 10, but the array 'arr' only has 10 elements (indices 0-9). This results in a buffer overflow when i is 10.



  PydanticSerializationUnexpectedValue(Expected 10 fields but got 7: Expected `Message` - serialized value may not be as expected [field_name='message', input_value=Message(content='[[ ## re...XAkvaJY2SvDtufl3Z1cN']}), input_type=Message])
  PydanticSerializationUnexpectedValue(Expected `StreamingChoices` - serialized value may not be as expected [field_name='choices', input_value=Choices(finish_reason='st...AkvaJY2SvDtufl3Z1cN']})), input_type=Choices])
  return self.__pydantic_serializer__.to_python(


## 6. 示例5：正确的代码（无bug）

In [9]:
code_example_5 = """
int safe_add(int a, int b, int* result) {
    if (result == NULL) {
        return -1;  // 错误：空指针
    }
    
    // 检查整数溢出
    if (a > 0 && b > INT_MAX - a) {
        return -1;  // 错误：溢出
    }
    if (a < 0 && b < INT_MIN - a) {
        return -1;  // 错误：下溢
    }
    
    *result = a + b;
    return 0;  // 成功
}
"""

print("检测代码片段 5：")
print(code_example_5)
print("\n开始检测...")

result5 = detector(code_example_5)
print(detector.format_output(result5))



检测代码片段 5：

int safe_add(int a, int b, int* result) {
    if (result == NULL) {
        return -1;  // 错误：空指针
    }

    // 检查整数溢出
    if (a > 0 && b > INT_MAX - a) {
        return -1;  // 错误：溢出
    }
    if (a < 0 && b < INT_MIN - a) {
        return -1;  // 错误：下溢
    }

    *result = a + b;
    return 0;  // 成功
}


开始检测...
代码Bug检测结果

✓ 未检测到bug，代码看起来正常。



  PydanticSerializationUnexpectedValue(Expected 10 fields but got 7: Expected `Message` - serialized value may not be as expected [field_name='message', input_value=Message(content='[[ ## re...z1MAkuXXCGggbI9Oa6DI']}), input_type=Message])
  PydanticSerializationUnexpectedValue(Expected `StreamingChoices` - serialized value may not be as expected [field_name='choices', input_value=Choices(finish_reason='st...1MAkuXXCGggbI9Oa6DI']})), input_type=Choices])
  return self.__pydantic_serializer__.to_python(


## 7. 自定义代码检测

你可以在下面的单元格中输入自己的C代码进行检测。

In [10]:
# 在这里输入你要检测的C代码
custom_code = """
// 在这里输入你的C代码
"""

if custom_code.strip() and "在这里输入" not in custom_code:
    print("检测自定义代码：")
    print(custom_code)
    print("\n开始检测...")
    
    custom_result = detector(custom_code)
    print(detector.format_output(custom_result))
else:
    print("请先输入要检测的代码")

请先输入要检测的代码


## 8. 查看支持的Bug类型

查看系统支持的所有bug类型及其描述。

In [None]:
print("支持的Bug类型列表：")
print("=" * 80)
for bug_id, description in BUG_TYPE_MAPPING.items():
    print(f"{bug_id}: {description}")
print("=" * 80)

## 9. 批量检测

如果你有多个代码片段需要检测，可以使用批量检测功能。

In [None]:
# 示例：批量检测多个代码片段
code_samples = [
    code_example_1,
    code_example_2,
    code_example_3,
    code_example_4,
    code_example_5
]

print("开始批量检测...\n")

for i, code in enumerate(code_samples, 1):
    print(f"\n{'='*80}")
    print(f"代码片段 #{i}")
    print(f"{'='*80}")
    
    result = detector(code)
    print(detector.format_output(result))
    
print("\n批量检测完成！")

## 10. 检测结果统计

统计检测到的bug类型分布。

In [None]:
from collections import Counter

def analyze_detection_results(results):
    """
    分析多个检测结果，统计bug类型分布
    """
    bug_types = []
    total_bugs = 0
    
    for result in results:
        if result['has_bug']:
            bugs = result['bug_details'].get('bugs', [])
            for bug in bugs:
                bug_type_id = bug.get('bug_type_id', 'BT020')
                bug_types.append(bug_type_id)
                total_bugs += 1
    
    # 统计每种bug类型的数量
    bug_counter = Counter(bug_types)
    
    print("Bug类型分布统计：")
    print("=" * 80)
    print(f"总计检测到 {total_bugs} 个bug")
    print("\n各类型bug数量：")
    for bug_id, count in bug_counter.most_common():
        print(f"  {bug_id} ({BUG_TYPE_MAPPING.get(bug_id, 'Unknown')}): {count}")
    print("=" * 80)

# 示例使用（取消注释以运行）
results = [result1, result2, result3, result4, result5]
analyze_detection_results(results)