# Software-Analyse hinsichtlich eines möglichen CVE-Checks

## Fragestellung

### <center>Was möchte ich über die zu analysierende Software, Prozesse, Verwendung, Organisation etc. wissen?</center>

- **Starte mit einer relevanten Frage!** 
- **Reales Problem?** 
- **Für wen relevant?** 
- **Was ändern die Analyseergebnisse?** 



## Datenquelle

### <center>Welche Daten können womöglich unsere Frage beantworten? Welche Informationen brauchen wir?</center>

- Welche Daten kann ich organisieren?
- Welche Informationen kann ich aus diesen Daten ziehen?
- Welche Daten fehlen möglicherweise?
- Benötige ich zusätzliche Datensammlungen über den Umfang heraus?

**Die Datenwahl von Anfang an ist äußerst wichtig um spätere *falsche* Schlußfolgerungen zu vermeiden! Falls du Daten von einem System extrahieren musst, dann clarify wie die Daten exportiert hast!**

## Annahmen

### <center>Welche Annahmen wollen wir machen um die Antwort auf unsere Frage zu vereinfachen?</center>

Nicht alle Daten aus dem existierenden System sind gute Kandidaten für eine Softwareanalyse. Darüberhinaus können wir nicht annehmen, dass wir Daten habe, die unsere Frage genaustens beantworten kann.

- Welche Approcimationen aufgrund der Daten **können** wir machen?
- Was siehst du in den Daten?
- Dokumentiere deine Simplification bzgl. der Datenpunkte!


## Validierung

### <center>Welche Ergebnisse erwarten wir von der Analyse?</center>
### <center>Wie werden diese Ergebnisse verständlich reviewed und präsentiert?</center>

Der Schlüssel um einen wirklichen Unterschied zu bevor mit Softwareanalyse zu erzielen ist es, die Analyse verständlich und comprehensively für die Leute zu präsentieren, die als Entscheidungsträger fungieren oder Geld dafür ausgeben --> Stakeholder!

- Wie können die Resultate für Stakeholder aufbereitet werden?
- Wenn wir eine Antwort auf unsere zentrale Frage haben --> Wohin wollen wir arbeiten um zu den grundlegenden Problem zu kommen?

## Implementierung

### <center>Wie können wir die Analyse schrittweise verständlich implementieren?</center>

Denk vorher über den Code nach! Was willst du implementieren? Was kannst du vereinfachen? Zu kompliziert und niemand versteht ihn. --> Leute werden an den Resultaten zweifeln.

- Zeichne zuerst mögliche grobe Implementierungsvarianten ab
- Welche Tools willst du verwenden?

Verlier dich nicht im Analysecode!

In [None]:
#Import of all used libraries
import py2neo
import pandas as pd

import json
from pandas.io.json import json_normalize

import urllib3
from urllib3 import request
import json
import certifi

In [None]:
#Connecting to database by saving it into a variable

graph = py2neo.Graph('http://neo4j:neo@localhost:7474/db/data')

In [None]:
#Get all artifacts, clean it from test-files & duplicates
#Clean up the versions of meaningsless parts for analysis

query = """
MATCH (artifact:Artifact) WHERE NOT artifact.name contains 'petclinic' AND NOT artifact.type = 'test-jar'
WITH DISTINCT artifact 
Return artifact.name as Framework, artifact.version as Frameworkversion
"""
df_usedArtifacts = pd.DataFrame(graph.run(query), columns=['Framework', 'Version'])
df_usedArtifacts['Version'] = df_usedArtifacts['Version'].str.replace('[.-]?[a-zA-Z]+[-]?\w+([.-]?\d*)*$','',regex=True)
df_usedArtifacts

# Datenimport über Circl-API

In [None]:
http = urllib3.PoolManager(
    cert_reqs="CERT_REQUIRED",
    ca_certs=certifi.where()
)


url ='https://cve.circl.lu/api/cve/CVE-2020-24616'
#url ='https://cve.circl.lu/api/last' #Import der 30 aktuellsten CVE's
r = http.request('GET', url)
r.status

# JSON-Daten werden ausgewertet & in ein Dictionary gespeichert
data = json.loads(r.data.decode('utf-8'))
#data

# Entschachtlung der JSON in ein DataFrame
df_circl = pd.json_normalize(data)

In [None]:
#Datenaufbereitung

#Liste mit true & false-Werten entsprechend der ausgewählten Spalten
cList= df_circl.columns.isin(['id', 'summary', 'impact.availability', 'impact.confidentiality', 'impact.integrity'])

#DataFrame mit ausgewählten Zeilen und Spalten
df_circl = df_circl.loc[:,cList]


df_vulnerabilities = pd.json_normalize(data, record_path='vulnerable_product', meta=['summary'])
df_vulnerabilities.columns =['vulnerable_product', 'summary']
df_vulnerabilities = df_vulnerabilities.loc[:,df_vulnerabilities.columns.isin(['vulnerable_product', 'summary'])]

#Joining der beiden DataFrames
mergedList = pd.merge(left=df_circl, right=df_vulnerabilities, left_on='summary', right_on='summary')
#mergedList

# Datenimport über cveapi oder entsprechender json
--> gleiche Datenstrukturierung

In [None]:
# Laden der statischen CVE-Daten über JSON-Datei
# Download über https://nvd.nist.gov/vuln/data-feeds

api = 'false'

with open('nvdcve-1.1-2021.json', encoding='utf-8') as staticData:
    jsonData = json.load(staticData)
df_raw = pd.json_normalize(jsonData, record_path =['CVE_Items'])


In [None]:
# Datenimport über cveapi 
# Import aller CVE's wird nicht empfohlen, da dies von der Firewall 
# zur Prävention von Denial-of-service-Attacken verhindert wird

api = 'true'

http = urllib3.PoolManager(
    cert_reqs="CERT_REQUIRED",
    ca_certs=certifi.where()
)


#url ='https://services.nvd.nist.gov/rest/json/cves/1.0?CVE-2020-24616'
url ='https://services.nvd.nist.gov/rest/json/cves/1.0?startIndex=20' #Import der 20 aktuellsten CVE's
#url ='https://services.nvd.nist.gov/rest/json/cves/1.0?modStartDate=2021-01-0101T00:00:00:000 UTC-05:00 #Fetching der CVE's seit 2019
r = http.request('GET', url)
r.status

# JSON-Daten werden ausgewertet & in ein Dictionary gespeichert
jsonData = json.loads(r.data.decode('utf-8'))
df_nested_list = pd.json_normalize(jsonData)
df_raw = df_nested_list.loc[:,df_nested_list.columns.isin(['result.CVE_Items'])]
json_struct = json.loads(df_raw.to_json(orient="records")) 
df_raw = pd.json_normalize(json_struct,record_path =['result.CVE_Items'])

In [None]:
#Aufbereitung der Daten zu einer Tabelle mit ID, Beschreibung & Schweregrad der Sicherheitslücke

#DataFrame wird auf 4 Spalten gekürzt & Spalten werden umbenannt (Lesbarkeit)
vulnerableList= df_raw.columns.isin(['cve.CVE_data_meta.ID', 'impact.baseMetricV3.cvssV3.confidentialityImpact', 'impact.baseMetricV3.cvssV3.integrityImpact', 'impact.baseMetricV3.cvssV3.availabilityImpact'])
df_basic = df_raw.loc[:,vulnerableList]
df_basic.columns =['CVE-ID', 'Confidentially Impact', 'Integrity Impact', 'Availability Impact']


#Neues DF mit den CVE-Beschreibungen, da "cve.description.description_data" ein Dictionary enthält
df_raw2 = df_raw.loc[:,df_raw.columns.isin(['cve.CVE_data_meta.ID', 'cve.description.description_data'])]

#Reload & Manipulation des DataFrames um an die entsprechende Beschreibung zu gelangen
json_struct = json.loads(df_raw2.to_json(orient="records")) 
df_desc = pd.json_normalize(json_struct,record_path =['cve.description.description_data'], meta=['cve.CVE_data_meta.ID'])
df_desc = df_desc.loc[:,df_desc.columns.isin(['value', 'cve.CVE_data_meta.ID'])]
df_desc.columns =['CVE description', 'CVE-ID']

#DF-Join von df_basic & df_desc
basicList = pd.merge(left=df_basic, right=df_desc, left_on='CVE-ID', right_on='CVE-ID')
basicList = basicList[['CVE-ID', 'CVE description', 'Confidentially Impact', 'Integrity Impact', 'Availability Impact']]
basicList

In [None]:
#Neues DF mit den Konfigurationsbeschreibungen, da "configurations.nodes" ein Dictionary enthält
newList= df_raw.columns.isin(['cve.CVE_data_meta.ID', 'configurations.nodes'])
df_raw3 = df_raw.loc[:,newList]

#Reload & Manipulation des DataFrames um an die entsprechende fehlerhafte Konfiguration zu gelangen
json_struct = json.loads(df_raw3.to_json(orient="records")) 
df_conf = pd.json_normalize(json_struct,record_path =['configurations.nodes'], meta=['cve.CVE_data_meta.ID'])
json_struct = json.loads(df_conf.to_json(orient="records")) 
df_conf2 = pd.json_normalize(json_struct,record_path =['cpe_match'], meta=['operator', 'cve.CVE_data_meta.ID'])

#Kürzung & Umbenennung der Spalten
if api == 'false':
    df_conf2 = df_conf2.loc[:,df_conf2.columns.isin(['vulnerable', 'cpe23Uri', 'versionEndIncluding', 'versionEndExcluding', 'versionStartIncluding', 'versionStartExcluding', 'operator', 'cve.CVE_data_meta.ID'])]
    df_conf2.columns =['Vulnerable for system?', 'cpe23URI', 'Last version (incl)', 'Last version (excl)', 'First version (incl)', 'First version (excl)', 'Connector/Relation', 'CVE-ID']
    df_conf2 = df_conf2[['CVE-ID', 'Vulnerable for system?', 'Connector/Relation', 'cpe23URI', 'Last version (incl)', 'Last version (excl)', 'First version (incl)', 'First version (excl)']]
else:
    df_conf2 = df_conf2.loc[:,df_conf2.columns.isin(['vulnerable', 'cpe23Uri', 'versionStartIncluding', 'versionEndExcluding', 'versionEndIncluding', 'operator', 'cve.CVE_data_meta.ID'])]
    df_conf2.columns =['Vulnerable for system?', 'cpe23URI', 'First version (incl)', 'Last version (excl)', 'Last version (incl)', 'Connector/Relation', 'CVE-ID']
    df_conf2 = df_conf2[['CVE-ID', 'Vulnerable for system?', 'Connector/Relation', 'cpe23URI', 'First version (incl)', 'Last version (excl)', 'Last version (incl)']]

df_conf2

## Ergebnisse

### <center>Was sind die hauptsächlichen Insight resultierend der Analyse?</center>

- Liste Key Point aus der Analyse auf!
- Was sind die aktionswürdigen Insights, die du gefunden hast?
- - Selbst wenn es keine gibt --> dokumentiere!
- - Hat die Analyse nicht wie gedacht funktioniert? 
- - Sind deine Ergebnisse nicht gut belegbar, Beweise zu schwach?

Dokumentiere alles, denn Erfahrung ist Erfahrung!

## Nächste Schritte

### <center>Welche Folgeaktionen können wir aus den Ergebnissen ziehen?</center>
### <center>Wer oder was muss als nächstes addressiert werden?</center>

Software-Analyse ist nicht komplett, wenn die nächsten Schritte fehlen, welche die Situation verbessern soll!

- Welche Entscheidungen können die Ergebnisse supporten oder zu einem ad absurdum führen?
- Welche Experimente können anhand der Ergebnisse/Fakten jetzt ausgeführt werden?
- Schreibe eine To-Do-Liste oder Ideen für eine weiterführende Analyse um die bestehenden neuen Insights tiefer zu ergründen!

## Quellen

- Software Analytics Canvas von Markus Harrer (https://www.feststelltaste.de/software-analytics-canvas/)