# 10. CODE DEFECTS

1. Types
2. Approaches
3. References

# 1. Types

*Defect, bug, error, flaw, failure, fault, vulnerability, weakness, antipattern, smell...*

Основные ожидания от кода:
- правильно работает, то есть работает так, как задумано: корректно, эффективно, безопасно
- удобно поддерживать: понимать, что происходит; вносить изменения

Нарушение этих ожиданий --- дефекты в коде.
1. Если код работает не так, как было задумано --- ошибка (error).
2. Если код сложно поддерживать --- антипаттерн.

Ошибки бывают разные:
- bug: нарушение функциональности
- vulnerability: нарушение функциональности, которое может привести к проблеме с безопаснотью (намерение злоупотребить ошибкой).

#### Почему обнаружение уязвимостей это важно?

- ПО --- неотъемлимая часть современной жизни
- примерно 2244 кибератаки в день (более чем 800K атак в год, примерно одна атака [каждые 39 секунд](https://svitla.com/blog/cybersecurity-threats)
- уязвимости в ПО --- главная причина распространённости кибератак
- современные инструменты [пропускают](https://doi.org/10.1145/3533767.3534380) от 47\% до 80\% уязвимостей реальных уязвимостей
- кстати, в Контуре работает "Программа поиска уязвимостей": https://kontur.ru/bugbounty

#### CWE vs CWE

- CWE (Common Weakness Enumeration) --- это список типов недостатков (слабостей) программного обеспечения.
> ![](res/10_top_cwe.png)
 
- CVE (Common Vulnerabilities and Exposures database) --- это список известных уязвимостей и дефектов безопасности.

> Например, уязвимость CVE-2021-44228 --- это уязвимость типа Remote Code Execution vulnerability в Apache Log4j,
Подстрока 2021 обозначает год, в котором присвоен идентификатор CVE или в котором уязвимость была опубликована.
Подстрока 44228 является уникальным идентификатором уязвимости в течение года.

# 2. Approaches

## 2.0 Datasets

Требования
1. качественная разметка
2. реалистичность
3. достаточное количество


Публичные датасеты:
1. много разных наборов данных: [SARD 2018](https://samate.nist.gov/SARD/), [Draper](https://arxiv.org/abs/1807.04320), [Devign](https://arxiv.org/abs/1909.03496), [D2A](https://arxiv.org/abs/2102.07995), [ReVeal](https://arxiv.org/abs/2009.07235), [SecurityEval](https://doi.org/10.1145/3549035.3561184), [DiverseVul](https://arxiv.org/abs/2304.00409)
2. разные языки: C++, Java и т.д.
3. синтетические / реальные данные
4. различное качество датасетов

Некоторые наборы данных (особенно синтетические) содержат комментарии или имена переменных, которые явно указывают тип уязвимости.
Модель, обученная на таком наборе данных, на практике будет бесполезна.

![](res/10_cwe457_comment.png)

Качество датасетов:
- 20\%--71\% меток уязвимостей в датасетах с реальными данными является [некорректными](https://arxiv.org/abs/2301.05456)
- 17\%--99\% примеров [дублируются](https://arxiv.org/abs/2301.05456)
- после обучения на таких датасетах в сценариях из реальной жизни качество моделей [падает](https://ieeexplore.ieee.org/abstract/document/9448435) более чем на 50\%

![](res/10_quality.png)

![](res/10_attributes.png)

## 2.1 Encoders

1. Предобученный энкодер
2. Fine-tune на датасет

#### LineVul: локализация на уровне строк кода

В [FuTantithamthavorn2022](https://michaelfu1998-create.github.io/papers/linevul.pdf) авторы выполняют локализацию уязвимостей на уровне строк:

![](res/10_linevul.png)

1. tokens that are most contributed to the predictions are likely to be vulnerable tokens
2. for each subword token in the function, the authors summarize the self-attention scores from each of the 12 Transformer encoder blocks
3. integrate those scores into line scores

## 2.2 LLMs

[Промпты](https://arxiv.org/abs/2308.12697) для детекции уязвимостей с помощью ChatGPT:
- basic prompting\item role-based basic prompt
- reverse-question prompt
- prompting with auxiliary information (Data Flow, API Calls)
- Chain-of-Thought prompting

Basic prompting:
> Is the following program buggy? Please answer Yes or No. [CODE]

Role-based basic prompt:
> I want you to act as a vulnerability detection system. My first request is "Is the following program buggy?" Please answer Yes or No. [CODE]

Reverse-question prompt:
> I want you to act as a vulnerability detection system. My first request is "Is the following program **correct**?" Please answer Yes or No. [CODE]

Prompting with auxiliary information:
> I want you to act as a vulnerability detection system. I will provide you with the original program and the data flow information, and you will act upon them. Is the following program buggy? [CODE]. [Data Flow description].
>
> ![](res/10_aux.png)
>
> Data Flow description: The data value of the variable $v_i$ at the $p_i$-th token comes from/is computed by the variable $v_j$ at the $p_j$-th token.

Chain-of-Thought Prompting:
> 1. Please describe the intent of the given code. [CODE]
> 2. I want you to act as a vulnerability detection system. Is the above program buggy? Please answer Yes or No.

Недостатки:
- много параметров
- многие LLM являются закрытыми

## 2.3 Agents

See: [COLLABORATIVE AGENTS](09_collaborative_agents.ipynb)

#### [CodeAgent: Collaborative Agents for Software Engineering](https://arxiv.org/abs/2402.02172)

- A multi-agent-based system for code review.
- Website: https://code-agent-new.vercel.app/index.html
- Demo: https://code-agent-new.vercel.app/index.html#demo

Tasks:
- Semantic consistency detection between commit and commit message
- Vulnerability analysis
- Format consistency detection
- Code revision

![](res/09_codeagent_pipeline.png)

#### Vulnerabilities

![](res/09_codeagent_vulnerabilities.png)

# 3. References

- https://kontur.ru/bugbounty
- https://svitla.com/blog/cybersecurity-threats
- https://doi.org/10.1145/3533767.3534380
- https://dl.acm.org/doi/10.1145/3549035.3561184
- https://samate.nist.gov/SARD/
- https://ieeexplore.ieee.org/abstract/document/9448435
- https://michaelfu1998-create.github.io/papers/linevul.pdf
- https://arxiv.org/abs/1807.04320
- https://arxiv.org/abs/1909.03496
- https://arxiv.org/abs/2009.07235
- https://arxiv.org/abs/2102.07995
- https://arxiv.org/abs/2301.05456
- https://arxiv.org/abs/2304.00409
- https://arxiv.org/abs/2308.12697
- https://arxiv.org/abs/2402.02172