# Schwachstellenanalyse hinsichtlich bekannter CVE's

## Fragestellung

Treten in dem vorliegendem Git-Projekt mögliche Sicherheitslücken aufgrund von veralteten/fehlerhaften Bibliotheken & Frameworks auf? Wie kritisch werden jene Schwachstellen eingeschätzt?

### Relevanz
* historische Systeme tendieren zu veralteten Versionen von Bibliotheken/Frameworks/Artefakten --> kritisch bzgl. Erhalt von qualitativen Softwareeigenschaften, Schutzzielen der Informationssicherheit (und beispielsweise auch Zertifizierung im Unternehmensumfeld)
* relevant für Kunden/Anwender und Provider/Entwickler zugleich --> Ausnutzung von Schwachstellen um Angriffe wie Sniffer-Angriffe, Denial-of-Service oder auch Buffer-Overflows zu erzeugen
* Konsequenz kann z.B. Datenverluste, unautorisierter Datenzugriff, Vertrauensverlust sein
* regelmäßige Checks und Updates reduzieren Aufwände im Gegenzug zu Updates, welche mehrere Versionen überspringen
* Verkaufsargument in mancher Branche

### mögliche Konsequenzen
Dienstleister:
* weitereführende Analyse und Risikobewertung möglich: Welche Artefakte sind für uns relevant? Welche müssen inwieweit priorisiert werden? Wann kann ein Update eingeplannt werden? Wann ist die letzte Deadline? Welche Handlungsaktionen müssen fehlenden Bugfixes getätigt werden?
* Erstellung einer Aufwandsschätzung bzgl. Entwicklung, Updatemigration, Test, Integration, Auslieferung & möglich Inkludierung in das nächste Release oder Light-Release/Bugfix/Snapshot

Kunden:
* Möglichkeit Druck für Handlungsbedarf beim Dienstleister auszuüben
* Worst-Case: Möglichkeit über Anbieterwechsel nachzudenken

## Datenquelle
* Java-Strukturen eines Git-Projekts, welches aufgrund der Anpassung der POM.xml durch jQAssistant gescannt und in einer Neo4j-Instanz gespeichert wurde
* Daten zu CVE's über Dateiimport und Request an die cveapi (letzteres nur über einen übersichtlichen Datensatz möglich, da die Firewall des API-Servers den Request (zum Schutz vor Denial-of-Service-Attacken) sperrt

### konkrete Quellen
* Projekt: Petclinic --> verwendete Frameworks & zugehörige Versionen
* CVE-Dateiimport: historische CVE's von 2020 als JSON-Datei (Weiterhin auch 2019 und bisherige CVE's von 2021(Stand: 23.08.2021))
* cve-api: Import der 20 aktuellsten CVE's

### mögliche Schwachstellen
* Artefakte/Frameworks ohne Versionsnummer, Versionsnummer mit unbrauchbaren Präfix/Suffix ("Verunreinheiten")
* Artefakte/Frameworks, welche nicht über jQAssistant erfasst werden konnten
* genaues Matching zwischen verwendete Version und schwachstellenrelevante Version


### Infos CVE
CVE = Common Vulnerabilities and Exposures
* Industriestandard zur Benennung öffentlich bekannter Sicherheitslücken
* gewissen Druck auf die Hersteller der betroffenen Produkte aufgrund öffentlicher Schwachstellen
* in großen Teilen ein Community-Projekt --> MITRE Organization als Head of

## Annahmen
* Die relevanten Artefakte konnten von jQAssistant gescannt werden und als Artefakte mit den entsprechenden Labels "name" und "version" gespeichert werden. 
* Relevante Daten wie betroffene Konfigurationen, Versionen und Schweregrad der Schwachstelle können über die JSON-Strukturierung der CVE's abgerufen werden.
* Die Artefakte können mit den Informationen der CVE's abgeglichen werden. 

## Validierung

### Datenaufbereitung
* Tabellenansicht bzgl. aller relevanten (im Projekt möglichen) Schwachstellen
* Graphische Übersicht über betroffene Artefakte und Anzahl der zugehörigen CVE's
* Graphische Übersicht über Impact Score der auftretenden CVE's
* Graphische Übersicht über Exploitability Score der auftretenden CVE's

### Aktionen
* Review bzgl. der auftretenden Schwachstellen und dessen Schweregrade
* Validierung & Evaluierung der Schwachstellen durch Domainexperten
* Planung der nächsten Schritte/Meilensteine durch Projekt

## Implementierung
* Identifikation der relevanten Artefakte über Node Label "Artifact" --> Extraction des Namens & der Version
* weitere mögliche Artefakte können über die Property-Nodes des Nodes der POM.xml mit der Relationship [:HAS_PROPERTY] identifiziert werden --> Extraction von Name & Version auch hier möglich
* Merging beider DataFrames um eine vollständige Liste zu erhalten & ggf. Versionsangabe von störenden Anhängen befreien
* Extraction der CVE's aus der JSON-Datei --> Auflösung von Verschachtelungen und Kürzung der Spaltenanzahl
* Abgleich der identifizierten Artefakte aus dem Projekt mit den betroffenden Konfiguration aus den CVE's
* resultierendes DataFrame kann als Excel gespeichert & für Visualisierungen genutzt werden



In [1]:
#Import of all used libraries
import py2neo
import pandas as pd
import numpy as np

import json
from pandas.io.json import json_normalize
#import openpyxl

import urllib3
from urllib3 import request
import json
import certifi

from IPython.display import display, HTML
import pygal

In [2]:
from IPython.display import display, HTML

base_html = """
<!DOCTYPE html>
<html>
  <head>
  <script type="text/javascript" src="http://kozea.github.com/pygal.js/javascripts/svg.jquery.js"></script>
  <script type="text/javascript" src="https://kozea.github.io/pygal.js/2.0.x/pygal-tooltips.min.js""></script>
  </head>
  <body>
    <figure>
      {rendered_chart}
    </figure>
  </body>
</html>
"""

In [3]:
#Verbindung zu neo4j und Speicherung des Graphen in der Variable 'Graph'

graph = py2neo.Graph('http://neo4j:neo@localhost:7406/db/data')

In [4]:
#Query um alle Artefakte bzgl. Frameworks zu erhalten
#Bereininung von Duplikaten, Testfiles und unnötigen Präfixes 

query = """
MATCH (artifact:Artifact) WHERE NOT artifact.name contains 'petclinic' AND NOT artifact.type = 'test-jar'
WITH DISTINCT artifact 
Return artifact.name as Artefakt, artifact.version as Version
"""
df_usedArtifacts = pd.DataFrame(graph.run(query), columns=['Artefakt', 'Version'])
df_usedArtifacts['Version'] = df_usedArtifacts['Version'].str.replace('[.-]?[a-zA-Z]+[-]?\w+([.-]?\d*)*$','',regex=True)
df_usedArtifacts

Unnamed: 0,Artefakt,Version
0,spring-boot-starter-logging,2.1.0
1,spring-boot-starter,2.1.0
2,javax.annotation-api,1.3.2
3,spring-core,5.1.2
4,snakeyaml,1.23
...,...,...
929,infinispan-protocol-parser-generator-maven-plugin,9.4.0
930,git-commit-id-plugin,2.2.5
931,lifecycle-mapping,1.0.0
932,jacoco-maven-plugin,0.8.2


In [5]:
#Query zu allen Frameworks, die als Property an der pom.xml gespeichert sind
#Joining beider Dataframes, Duplikaterntfernung

query2 = """
Match (p:Pom)-[:HAS_PROPERTY]->(pr:Property) 
Return pr.name as Artefakt, pr.value as Version
"""
df_PomProperties = pd.DataFrame(graph.run(query2), columns=['Artefakt', 'Version'])
df_PomProperties['Artefakt'] = df_PomProperties['Artefakt'].str.replace('.version','',regex=True)

df_usedItems = pd.merge(left=df_usedArtifacts, right=df_PomProperties, how='outer', left_on='Artefakt', right_on='Artefakt')
df_usedItems = df_usedItems.drop_duplicates(subset='Artefakt', keep="first")
df_usedItems = df_usedItems.reset_index()
df_usedItems = df_usedItems.drop(['index'], axis=1)
for i in df_usedItems.index:
    version_y = df_usedItems['Version_y'][i]
    version_x = df_usedItems['Version_x'][i]
    if pd.isnull(version_x) and (version_y is not None):
        df_usedItems.loc[i, 'Version_x'] = version_y

df_usedItems = df_usedItems.drop(['Version_y'], axis=1)
df_usedItems.columns =['Artefakt', 'Version']
df_usedItems

Unnamed: 0,Artefakt,Version
0,spring-boot-starter-logging,2.1.0
1,spring-boot-starter,2.1.0
2,javax.annotation-api,1.3.2
3,spring-core,5.1.2
4,snakeyaml,1.23
...,...,...
981,javax-jaxws,2.3.1
982,prometheus-pushgateway,0.5.0
983,mariadb,2.3.0
984,rxjava2,2.2.3


# Datenimport über Circl-API

In [None]:
http = urllib3.PoolManager(
    cert_reqs="CERT_REQUIRED",
    ca_certs=certifi.where()
)


url ='https://cve.circl.lu/api/cve/CVE-2020-24616'
#url ='https://cve.circl.lu/api/last' #Import der 30 aktuellsten CVE's
r = http.request('GET', url)
r.status

# JSON-Daten werden ausgewertet & in ein Dictionary gespeichert
data = json.loads(r.data.decode('utf-8'))
#data

# Entschachtlung der JSON in ein DataFrame
df_circl = pd.json_normalize(data)
df_circl

In [None]:
#Datenaufbereitung

#Liste mit true & false-Werten entsprechend der ausgewählten Spalten
cList= df_circl.columns.isin(['id', 'summary', 'impact.availability', 'impact.confidentiality', 'impact.integrity'])

#DataFrame mit ausgewählten Zeilen und Spalten
df_circl = df_circl.loc[:,cList]
df_circl.columns =['ID', 'Summary', 'Availability impact', 'Confidentiality impact', 'Integrity impact']

df_vulnerabilities = pd.json_normalize(data, record_path='vulnerable_product', meta=['summary'])
df_vulnerabilities.columns =['Vulnerable product', 'Summary']
df_vulnerabilities = df_vulnerabilities.loc[:,df_vulnerabilities.columns.isin(['Vulnerable product', 'Summary'])]

#Joining der beiden DataFrames
mergedList = pd.merge(left=df_circl, right=df_vulnerabilities, left_on='Summary', right_on='Summary')
mergedList

In [None]:
#Scanning the List for used frameworks and versions
#Loop with result in new Dictionary (because we need Key-Values)

terms = []

for j in df_usedItems.index:
    #print('Check of this Framework:'+ df_usedItems['Framework'][j])
    version = df_usedItems['Version'][j]
    framework = df_usedItems['Artefakt'][j]
    if version is not None:
        term = '(' + framework + '[^a-zA-Z_0-9]+' + version + ')'
        terms.append(term)
    else:
        terms.append('('+framework+')')
terms

mergedList[(mergedList['Vulnerable product'].str.contains('|'.join(terms)))]

# Datenimport über cveapi oder entsprechender json
Beide besitzen eine ähnliche Datenstrukturierung. Der Request über die cveapi erweitert die Strukturierung nur um wenige weitere Key-Value-Paare, weshalb das DataFrame zusätzlicher Anpassung benötigt.

In [6]:
# Laden der statischen CVE-Daten über JSON-Datei
# Download über https://nvd.nist.gov/vuln/data-feeds

api = 'false'

with open('CVE/nvdcve-1.1-2020.json', encoding='utf-8') as staticData:
    jsonData = json.load(staticData)
df_raw = pd.json_normalize(jsonData, record_path =['CVE_Items'])


In [None]:
# Datenimport über cveapi 
# Import aller CVE's wird nicht empfohlen, da dies von der Firewall 
# zur Prävention von Denial-of-service-Attacken verhindert wird

api = 'true'

http = urllib3.PoolManager(
    cert_reqs="CERT_REQUIRED",
    ca_certs=certifi.where()
)

#Request einer spezifischen CVE
#url ='https://services.nvd.nist.gov/rest/json/cves/1.0?CVE-2020-24616'

#Request der 20 aktuellsten CVE
url ='https://services.nvd.nist.gov/rest/json/cves/1.0?startIndex=20' 

#Request der CVE ab einem definierten Startzeitpunkt
#url ='https://services.nvd.nist.gov/rest/json/cves/1.0?modStartDate=2021-01-0101T00:00:00:000 UTC-05:00


r = http.request('GET', url)
r.status

# JSON-Daten werden ausgewertet & in ein Dictionary gespeichert
jsonData = json.loads(r.data.decode('utf-8'))
df_nested_list = pd.json_normalize(jsonData)
df_raw = df_nested_list.loc[:,df_nested_list.columns.isin(['result.CVE_Items'])]
json_struct = json.loads(df_raw.to_json(orient="records")) 
df_raw = pd.json_normalize(json_struct,record_path =['result.CVE_Items'])

In [7]:
#Aufbereitung der Daten zu einer Tabelle mit ID, Beschreibung & Schweregrad der Sicherheitslücke

#DataFrame wird auf 6 Spalten gekürzt & Spalten werden umbenannt (Lesbarkeit)
vulnerableList= df_raw.columns.isin(['cve.CVE_data_meta.ID', 'impact.baseMetricV3.cvssV3.confidentialityImpact', 'impact.baseMetricV3.cvssV3.integrityImpact', 'impact.baseMetricV3.cvssV3.availabilityImpact', 'impact.baseMetricV3.exploitabilityScore', 'impact.baseMetricV3.impactScore'])
df_basic = df_raw.loc[:,vulnerableList]
df_basic.columns =['CVE-ID', 'Confidentially Impact', 'Integrity Impact', 'Availability Impact', 'Exploitability Score', 'Impact Score']


#Neues DF mit den CVE-Beschreibungen, da "cve.description.description_data" ein Dictionary enthält
df_raw2 = df_raw.loc[:,df_raw.columns.isin(['cve.CVE_data_meta.ID', 'cve.description.description_data'])]

#Reload & Manipulation des DataFrames um an die entsprechende Beschreibung zu gelangen
json_struct = json.loads(df_raw2.to_json(orient="records")) 
df_desc = pd.json_normalize(json_struct,record_path =['cve.description.description_data'], meta=['cve.CVE_data_meta.ID'])
df_desc = df_desc.loc[:,df_desc.columns.isin(['value', 'cve.CVE_data_meta.ID'])]
df_desc.columns =['CVE description', 'CVE-ID']

#DF-Join von df_basic & df_desc
basicList = pd.merge(left=df_basic, right=df_desc, left_on='CVE-ID', right_on='CVE-ID')
basicList = basicList[['CVE-ID', 'CVE description', 'Confidentially Impact', 'Integrity Impact', 'Availability Impact', 'Impact Score', 'Exploitability Score']]
basicList

Unnamed: 0,CVE-ID,CVE description,Confidentially Impact,Integrity Impact,Availability Impact,Impact Score,Exploitability Score
0,CVE-2020-0001,In getProcessRecordLocked of ActivityManagerSe...,HIGH,HIGH,HIGH,5.9,1.8
1,CVE-2020-0002,"In ih264d_init_decoder of ih264d_api.c, there ...",HIGH,HIGH,HIGH,5.9,2.8
2,CVE-2020-0003,"In onCreate of InstallStart.java, there is a p...",HIGH,HIGH,HIGH,5.9,0.8
3,CVE-2020-0004,In generateCrop of WallpaperManagerService.jav...,NONE,NONE,HIGH,3.6,1.8
4,CVE-2020-0005,In btm_read_remote_ext_features_complete of bt...,HIGH,HIGH,HIGH,5.9,0.8
...,...,...,...,...,...,...,...
18017,CVE-2020-9994,A path handling issue was addressed with impro...,NONE,HIGH,HIGH,5.2,1.8
18018,CVE-2020-9995,An issue existed in the parsing of URLs. This ...,LOW,LOW,NONE,2.7,2.8
18019,CVE-2020-9996,A use after free issue was addressed with impr...,HIGH,HIGH,HIGH,5.9,1.8
18020,CVE-2020-9997,An information disclosure issue was addressed ...,HIGH,NONE,NONE,3.6,1.8


In [8]:
#Neues DF mit den Konfigurationsbeschreibungen, da "configurations.nodes" ein Dictionary enthält
newList= df_raw.columns.isin(['cve.CVE_data_meta.ID', 'configurations.nodes'])
df_raw3 = df_raw.loc[:,newList]

#Reload & Manipulation des DataFrames um an die entsprechende fehlerhafte Konfiguration zu gelangen
json_struct = json.loads(df_raw3.to_json(orient="records")) 
df_conf = pd.json_normalize(json_struct,record_path =['configurations.nodes'], meta=['cve.CVE_data_meta.ID'])
json_struct = json.loads(df_conf.to_json(orient="records")) 
df_conf2 = pd.json_normalize(json_struct,record_path =['cpe_match'], meta=['operator', 'cve.CVE_data_meta.ID'])

#Kürzung & Umbenennung der Spalten
if api == 'false':
    df_conf2 = df_conf2.loc[:,df_conf2.columns.isin(['vulnerable', 'cpe23Uri', 'versionEndIncluding', 'versionEndExcluding', 'versionStartIncluding', 'versionStartExcluding', 'operator', 'cve.CVE_data_meta.ID'])]
    df_conf2.columns =['Vulnerable for system?', 'cpe23URI', 'Last version (excl)', 'First version (incl)', 'Last version (incl)', 'First version (excl)', 'Connector/Relation', 'CVE-ID']
    df_conf2 = df_conf2[['CVE-ID', 'Vulnerable for system?', 'Connector/Relation', 'cpe23URI','First version (excl)', 'First version (incl)', 'Last version (excl)', 'Last version (incl)']]
elif api == 'true':
    df_conf2 = df_conf2.rename(columns={"cve.CVE_data_meta.ID": "CVE-ID", "vulnerable": "Vulnerable for system", "cpe23Uri": "cpe23URI", "operator": "Connector/Relation"})
    df_conf2 = df_conf2.drop(columns=['cpe_name'])
    

df_conf2

Unnamed: 0,CVE-ID,Vulnerable for system?,Connector/Relation,cpe23URI,First version (excl),First version (incl),Last version (excl),Last version (incl)
0,CVE-2020-0001,True,OR,cpe:2.3:o:google:android:8.0:*:*:*:*:*:*:*,,,,
1,CVE-2020-0001,True,OR,cpe:2.3:o:google:android:8.1:*:*:*:*:*:*:*,,,,
2,CVE-2020-0001,True,OR,cpe:2.3:o:google:android:9.0:*:*:*:*:*:*:*,,,,
3,CVE-2020-0001,True,OR,cpe:2.3:o:google:android:10.0:*:*:*:*:*:*:*,,,,
4,CVE-2020-0002,True,OR,cpe:2.3:o:google:android:8.0:*:*:*:*:*:*:*,,,,
...,...,...,...,...,...,...,...,...
91092,CVE-2020-9999,True,OR,cpe:2.3:o:apple:ipados:*:*:*:*:*:*:*:*,,,14.0,
91093,CVE-2020-9999,True,OR,cpe:2.3:o:apple:iphone_os:*:*:*:*:*:*:*:*,,,14.0,
91094,CVE-2020-9999,True,OR,cpe:2.3:o:apple:mac_os_x:*:*:*:*:*:*:*:*,,,11.0.1,
91095,CVE-2020-9999,True,OR,cpe:2.3:o:apple:tvos:*:*:*:*:*:*:*:*,,,14.0,


In [11]:
#DataFrame bzgl. Konfigurationen mit Schwachstellen mit den verwendeten Artefakten scannen
hilfsliste1 = []
hilfsliste2 = []
df_result = df_conf2[0:0]
df_result.insert(len(df_result.columns), "verwendetes Artefakt", [])
df_result.insert(len(df_result.columns), "verwendete Version", [])

for j in df_usedItems.index:
    version = df_usedItems['Version'][j]
    artefakt = df_usedItems['Artefakt'][j]
    
    df_search = df_conf2.loc[df_conf2['cpe23URI'].str.contains(':'+artefakt + ':', case=False)]
    if df_search is not None:
        lengthDF = df_search.shape[0]
        for i in range(lengthDF):
            hilfsliste1.append(artefakt)
            hilfsliste2.append(version)
        df_search.insert(len(df_search.columns), "verwendetes Artefakt", hilfsliste1)
        df_search.insert(len(df_search.columns), "verwendete Version", hilfsliste2)
        hilfsliste1.clear()
        hilfsliste2.clear()
    df_result = df_result.append(df_search, ignore_index=True)
    
df_result   

Unnamed: 0,CVE-ID,Vulnerable for system?,Connector/Relation,cpe23URI,First version (excl),First version (incl),Last version (excl),Last version (incl),verwendetes Artefakt,verwendete Version
0,CVE-2020-10672,True,OR,cpe:2.3:a:fasterxml:jackson-databind:*:*:*:*:*...,,2.9.0,2.9.10.4,,jackson-databind,2.9.7
1,CVE-2020-10673,True,OR,cpe:2.3:a:fasterxml:jackson-databind:*:*:*:*:*...,,2.6.0,2.6.7.4,,jackson-databind,2.9.7
2,CVE-2020-10673,True,OR,cpe:2.3:a:fasterxml:jackson-databind:*:*:*:*:*...,,2.9.0,2.9.10.4,,jackson-databind,2.9.7
3,CVE-2020-10968,True,OR,cpe:2.3:a:fasterxml:jackson-databind:*:*:*:*:*...,,2.9.0,2.9.10.4,,jackson-databind,2.9.7
4,CVE-2020-10969,True,OR,cpe:2.3:a:fasterxml:jackson-databind:*:*:*:*:*...,,2.7.0,2.7.9.7,,jackson-databind,2.9.7
...,...,...,...,...,...,...,...,...,...,...
774,CVE-2020-7928,True,OR,cpe:2.3:a:mongodb:mongodb:*:*:*:*:*:*:*:*,,4.2.0,4.2.9,,mongodb,3.8.2
775,CVE-2020-7928,True,OR,cpe:2.3:a:mongodb:mongodb:*:*:*:*:*:*:*:*,,4.4.0,4.4.1,,mongodb,3.8.2
776,CVE-2020-7928,True,OR,cpe:2.3:a:mongodb:mongodb:*:*:*:*:*:*:*:*,,4.5.0,4.5.1,,mongodb,3.8.2
777,CVE-2020-7929,True,OR,cpe:2.3:a:mongodb:mongodb:*:*:*:*:*:*:*:*,,3.6.0,3.6.21,,mongodb,3.8.2


### Auflistung der Schwachstellen
Die folgende Tabelle stellt alle möglichen Schwachstellen bzgl. der verwendeten Artefakte in dem gescannten Projekt dar. Es werden neben der CVE-ID & dem Artefakt + Versionsnummer auch eine Beschreibung und die jeweiligen Scores zur Einschätzung der Relevanz und des Schweregrades aufgelistet.
Die Liste wird als Excel abgespeichert.

In [14]:
#Neues DataFrame mit kompakten Daten (ohne Versionenvergleich)
df_compact = df_result[0:0]
df_compact = df_result.drop_duplicates(subset='CVE-ID', keep="first")
df_compact = df_compact.loc[:,df_compact.columns.isin(['CVE-ID', 'verwendetes Artefakt', 'verwendete Version'])]
df_compact = pd.merge(left=basicList, right=df_compact, left_on='CVE-ID', right_on='CVE-ID')
#df_compact.to_excel("result_analysis.xlsx")
df_compact

Unnamed: 0,CVE-ID,CVE description,Confidentially Impact,Integrity Impact,Availability Impact,Impact Score,Exploitability Score,verwendetes Artefakt,verwendete Version
0,CVE-2020-10672,FasterXML jackson-databind 2.x before 2.9.10.4...,HIGH,HIGH,HIGH,5.9,2.8,jackson-databind,2.9.7
1,CVE-2020-10673,FasterXML jackson-databind 2.x before 2.9.10.4...,HIGH,HIGH,HIGH,5.9,2.8,jackson-databind,2.9.7
2,CVE-2020-10683,dom4j before 2.0.3 and 2.1.x before 2.1.3 allo...,HIGH,HIGH,HIGH,5.9,3.9,dom4j,2.1.1
3,CVE-2020-10687,A flaw was discovered in all versions of Under...,LOW,LOW,NONE,2.5,2.2,undertow,2.0.14.Final
4,CVE-2020-10705,A flaw was discovered in Undertow in versions ...,NONE,NONE,HIGH,3.6,3.9,undertow,2.0.14.Final
...,...,...,...,...,...,...,...,...,...
246,CVE-2020-8908,A temp directory creation vulnerability exists...,LOW,NONE,NONE,1.4,1.8,guava,2.6.2
247,CVE-2020-9484,When using Apache Tomcat versions 10.0.0-M1 to...,HIGH,HIGH,HIGH,5.9,1.0,tomcat,9.0.12
248,CVE-2020-9546,FasterXML jackson-databind 2.x before 2.9.10.4...,HIGH,HIGH,HIGH,5.9,3.9,jackson-databind,2.9.7
249,CVE-2020-9547,FasterXML jackson-databind 2.x before 2.9.10.4...,HIGH,HIGH,HIGH,5.9,3.9,jackson-databind,2.9.7


### Visualisierung
Im folgenden Abschnitt wird mithilfe einiger Charts der Zusammenhang zwischen CVE, betroffenes Artefakt, Auftrittshäufigkeit und Schweregrade dargestellt.

In [15]:
df_count = df_compact['verwendetes Artefakt'].value_counts().to_frame()
df_count['Artefakt'] = df_count.index
df_count.columns =['Count CVE', 'Artefakt']
df_count.columns.name = None
df_count = df_count.reset_index()
df_count = df_count.loc[:,df_count.columns.isin(['Count CVE', 'Artefakt'])]
df_count

Unnamed: 0,Count CVE,Artefakt
0,139,mysql
1,34,jackson-databind
2,13,mongodb
3,8,postgresql
4,8,tomcat
5,7,elasticsearch
6,6,undertow
7,5,activemq
8,3,infinispan
9,3,jquery


In [16]:
pie_chart = pygal.Pie()
pie_chart.title = 'Artefakte mit Sicherheitsbedenken'
for i in range(len(df_count)):
    artefakt= df_count['Artefakt'][i]
    anzahl=df_count['Count CVE'][i]
    pie_chart.add(artefakt, anzahl)
display(HTML(base_html.format(rendered_chart=pie_chart.render(is_unicode=True))))

In [17]:
top3 = df_count.head(3)

line_chart = pygal.Bar(show_legend=True, human_readable=True, fill=True, legend_at_bottom=True, print_values=True)

line_chart.title = 'Hohe Risiken bzgl. Top 3 der betroffenen Artefakte'
line_chart.x_labels = ['Confidentially risk', 'Integrity risk', 'Availability risks']

for j in top3.index:
    artefakt = top3['Artefakt'][j]
    df_interimResult = df_compact.loc[df_compact['verwendetes Artefakt'].str.contains(artefakt, case=False)]

    count_ci = len(df_interimResult[df_interimResult['Confidentially Impact'] == 'HIGH'])
    count_ii = len(df_interimResult[df_interimResult['Integrity Impact'] == 'HIGH'])
    count_ai = len(df_interimResult[df_interimResult['Availability Impact'] == 'HIGH'])
    line_chart.add(artefakt, [count_ci, count_ii, count_ai])

    

display(HTML(base_html.format(rendered_chart=line_chart.render(is_unicode=True))))


In [18]:
df_interimResult = df_compact[0:0]
TopRisk = top3['Artefakt'][0]
labels = ['Confidentially Impact', 'Integrity Impact', 'Availability Impact']
chartvalues = []

radar_chart = pygal.Radar()
radar_chart.title = 'Auswirkungen der Sicherheitslücken bei ' + TopRisk
radar_chart.x_labels = labels
radar_chart.y_labels = [
  {'label': 'High', 'value': 3},
  {'label': 'Medium', 'value': 2},
  {'label': 'Low', 'value': 1},
  {'label': 'None', 'value': 0}]

df_interimResult = df_compact.loc[df_compact['verwendetes Artefakt'].str.contains(TopRisk, case=False)]
df_interimResult = df_interimResult.drop_duplicates(subset='CVE-ID', keep="first")

for i in df_interimResult.index:
    cve_id = df_interimResult['CVE-ID'][i]
    c = 0
    for j in labels:
        if df_interimResult[j][i] == 'HIGH':
            df_interimResult[j][i] = 3
        elif df_interimResult[j][i] == 'MEDIUM':
            df_interimResult[j][i] = 2
        elif df_interimResult[j][i] == 'LOW':
            df_interimResult[j][i] = 1
        elif df_interimResult[j][i] == 'NONE':
            df_interimResult[j][i] = 0

    radar_chart.add(cve_id, [df_interimResult['Confidentially Impact'][i], df_interimResult['Integrity Impact'][i], df_interimResult['Integrity Impact'][i]])
    chartvalues.clear()
    

display(HTML(base_html.format(rendered_chart=radar_chart.render(is_unicode=True))))

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [19]:
df_interimResult = df_compact[0:0]
cve_list = []

xy_chart = pygal.XY(stroke=False, x_title='Impact Score', y_title='Exploitability Score')
xy_chart.title = 'Score per CVE (Top3)'


for j in top3.index:
    artefakt = top3['Artefakt'][j]
    df_interimResult = df_compact.loc[df_compact['verwendetes Artefakt'].str.contains(artefakt, case=False)]
    
    for i in df_interimResult.index:
        cve_list.append({'value': (df_interimResult['Impact Score'][i], df_interimResult['Exploitability Score'][i]), 'label': df_interimResult['CVE-ID'][i]})
    
    xy_chart.add(artefakt, cve_list)
 

display(HTML(base_html.format(rendered_chart=xy_chart.render(is_unicode=True))))

In [20]:
df_interimResult = df_compact[0:0]
cveListC = []
cveListH = []
cveListM = []
cveListL = []
cveListN = []


treemap_ImpactS = pygal.Treemap()
treemap_ImpactS.title = 'Impact Score per CVE'

for j in df_count.index:
    artefakt = df_count['Artefakt'][j]
    df_interimResult = df_compact.loc[df_compact['verwendetes Artefakt'].str.contains(artefakt, case=False)]
    
    for i in df_interimResult.index:
        impactScore = df_interimResult['Impact Score'][i]
        if impactScore >= 9:
            cveListC.append({'value': df_interimResult['Impact Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore >= 7 and impactScore < 9:
            cveListH.append({'value': df_interimResult['Impact Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore >= 4 and impactScore < 7:
            cveListM.append({'value': df_interimResult['Impact Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore < 4:
            cveListL.append({'value': df_interimResult['Impact Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore == 0:
            cveListN.append({'value': df_interimResult['Impact Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
    
treemap_ImpactS.add('Critical', cveListC)
treemap_ImpactS.add('High', cveListH)
treemap_ImpactS.add('Medium', cveListM)
treemap_ImpactS.add('Low', cveListL)
treemap_ImpactS.add('None', cveListN)
    
 

display(HTML(base_html.format(rendered_chart=treemap_ImpactS.render(is_unicode=True))))

In [21]:
df_interimResult = df_compact[0:0]
cveListC = []
cveListH = []
cveListM = []
cveListL = []
cveListN = []


treemap_ExploitS = pygal.Treemap()
treemap_ExploitS.title = 'Exploitability Score per CVE'

for j in df_count.index:
    artefakt = df_count['Artefakt'][j]
    df_interimResult = df_compact.loc[df_compact['verwendetes Artefakt'].str.contains(artefakt, case=False)]
    
    for i in df_interimResult.index:
        impactScore = df_interimResult['Exploitability Score'][i]
        if impactScore >= 9:
            cveListC.append({'value': df_interimResult['Exploitability Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore >= 7 and impactScore < 9:
            cveListH.append({'value': df_interimResult['Exploitability Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore >= 4 and impactScore < 7:
            cveListM.append({'value': df_interimResult['Exploitability Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore < 4:
            cveListL.append({'value': df_interimResult['Exploitability Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
        elif impactScore == 0:
            cveListN.append({'value': df_interimResult['Exploitability Score'][i], 'label': (df_interimResult['CVE-ID'][i]+': ' + artefakt)})
    
treemap_ExploitS.add('Critical', cveListC)
treemap_ExploitS.add('High', cveListH)
treemap_ExploitS.add('Medium', cveListM)
treemap_ExploitS.add('Low', cveListL)
treemap_ExploitS.add('None', cveListN)
    
 

display(HTML(base_html.format(rendered_chart=treemap_ExploitS.render(is_unicode=True))))

## Ergebnisse
### Softwareanalyse
* Die häufigsten CVE bzgl. PEtclinic treten aufgrund von der Verwendung von mysql und FasterXML jackson-databind.
* Besonders häufig werden Schwachstellen bzgl. der Verfügbarkeit ausgenutzt.
* Einzeln werden zwar die Schweregrad bzgl. Verfügbarkeit, Integrität und Vertraulichkeit vorwiegend als 'High' eingestuft, allerdings wird dies nur bedingt durch den Impact Score und den Exploitability Score vermittelt. --> Wahrnehmung, dass die Risiken noch nicht kritisch "genug" sind.

### Hindernisse/Verbesserungspotentiale
* Die betroffenen Artefaktversionen werden nicht in zwei Spalten gepflegt. Es wird stattdessen zwischen Startversion inklusive und exklusive und Endversion inklusive und exklusive unterschieden. Dies hat bis dato die weitere Eingrenzung der Liste verhindert, sodass eine manuelle zusätzliche Einkürzung noch notwendig ist.
* Interessant wäre zudem auch eine Relation zwischen betroffene Artefakte, Klassen und Codezeilen. Bei dem Versuch dies über weitere Cypher-Anfragen und DataFrames darzustellen kam es zu keinem zufriedenenstellenden und plausiblen Ergebnis
* Verbesserung der Schnittstelle zur API
* Verbesserung der Regex-Ausdrücke

## Nächste Schritte
* Präsentation der Ergebnisse und Diskussion mit den Domainexperten und dem Projekt (womöglich einem Teil der Stakeholder)
* Sichtung der Ergebnistabelle und weitere Kürzung der CVE-Liste
* Planung & Aufwandsschätzung von möglichen Updates & Bugfixes
* Regelmäßige CVE-Scans planen

## Quellen

- Software Analytics Canvas von Markus Harrer (https://www.feststelltaste.de/software-analytics-canvas/)