# Σημειωματάριο δεύτερο: Συνθέτοντας το DataFrame των ευπαθειών

## Από το JSON του NVD Data Feed στο CSV 

Με τον όρο ευπάθεια λογισμικού, **software vulnerability** αναφερόμαστε σε οποιοδήποτε σφάλμα υπάρχει στον σχεδιασμό, την υλοποίηση ή την λειτουργία ενός λογισμικού, το οποίο επιτρέπει εξωτερικούς παράγοντες να παραβιάσουν την πολιτική ασφαλείας του. Ένα μέρος λογισμικού, δεδομένων ή μια ακολουθία εντολών που εκμεταλλεύεται ένα σφάλμα ή μια ευπάθεια για να προκαλέσει απρόβλεπτη ή ακούσια συμπεριφορά σε software, hardware ή firmware καλείται **exploit** (εκμετάλλευση).

Η διαδικασία με την οποία καταγράφονται οι ευπάθειες είναι σε γενικές γραμμές η εξής: όταν κάποιος εντοπίσει μια ευπάθεια λογισμικού, ενημερώνει τον προμηθευτή του λογισμικού και του αφήνει ένα ορισμένο χρονικό διάστημα ώστε εκείνος να το διορθώσει και να δημοσιεύσει μια ενημερωμένη έκδοση του λογισμικού η οποία επιλύει το πρόβλημα. Στην συνέχεια η ευπάθεια κοινοποιείται, ώστε οι χρήστες του λογισμικού να ενημερωθούν και να κάνουν τις απαραίτητες ενέργειες που απαιτούνται για να είναι προστατευμένοι.

Οι προμηθευτές λογισμικού (software vendors), οι προγραμματιστές, οι κάτοχοι λογισμικού και όλα γενικά τα εμπλεκόμενα άτομα και οι φορείς, μπορούν να ενημερώνονται για τις ευπάθειες λογισμικού που εντοπίζονται αλλά και να ενημερώνουν την κοινότητα για τις ευπάθειες που εντοπίζουν, χρησιμοποιώντας την λίστα ευπαθειών **CVE** (Common Vulnerabilities and Exposures). Η λίστα CVE είναι μια λίστα από δημόσια διαθέσιμα ελαττώματα ασφάλειας υπολογιστικών συστημάτων, η οποία επιτηρήται απο τον αμερικανικό οργανισμό διαχείρισης κέντρων έρευνας κι ανάπτυξης **MITRE**.

Το CVE είναι ένα free & opensource πρότυπο που χρησιμοποιείται από το 1999 έτσι ώστε να υπάρχει κοινή αναφορά στις ευπάθειες από την κοινότητα. Κάτι τέτοιο είναι ιδιαίτερα σημαντικό μιας και μέχρι τότε, υπήρχαν διαφορετικές βάσεις δεδομένων που ακολουθούσαν τα δικά τους πρότυπα. Το CVE δεν αποτελεί βάση δεδομένων αλλά μια λίστα με αντιστοιχείες ευπαθειών με τα **CVE IDs** που τους δίνονται. Μια εγγραφή σε αυτή την λίστα, εκτός από το αναγνωριστικό CVE ID περιλαμβάνει μια μικρή περιγραφή της ευπάθειας και τουλάχιστον μια αναφορά (reference).

Η **NVD** (National Vulnerability Database) είναι το αποθετήριο της κυβέρνησης των ΗΠΑ για τα δεδομένα διαχείρισης ευπαθειών. Η βάση δεδομένων που παρέχεται προκύπτει από την λίστα ευπαθειών **CVE** και προσθέτει επιπλέον πληροφορίες για τις ευπάθειες όπως τον βαθμό σημαντικότητας της ευπάθειας που ακολουθεί το πρότυπο βαθμολόγησης **CVSS** και μια λίστα από προϊόντα λιγισμικού που επηεράζονται. 

Σε αυτό το notebook, συλλέγουμε τα δεδομένα των ευπαθειών λογισμικού που καταγράφηκαν το έτος 2021 σε ένα DataFrame. Τα δεδομένα λαμβάνονται από το JSON αρχείο το οποίο προέρχεται από την [πηγή δεδομένων](https://nvd.nist.gov/vuln/data-feeds) της NVD. 

Ο **σκοπός** είναι να έχουμε όλες τις πληροφορίες που χρειαζόμαστε για τις ευπάθειες συγκεντρωμένες, έτσι ώστε να αντιστοιχήσουμε στην συνέχεια τα tweets με τις εγγραφές των ευπαθειών με τον εξής τρόπο: για κάθε ένα από τα tweets να καταγράψουμε σε ποιες ευπάθειες αυτό αναφέρεται έτσι ώστε να αναλύσουμε αργότερα την δημοτικότητα των ευπαθειών λογισμικού στο Twitter.

In [None]:
import json
import pandas as pd
import numpy as np

In [None]:
# Aνοίγουμε το json αρχείο με τα nvd records και διαβάζουμε τα δεδομένα του παιρνώντας τα στην nvd_data όπου
# αποθηκεύεται το dictionary που δημιουργείται από το parse του json file.
with open('Data/NVD/nvdcve for 2021 - downoload at February 2022 01-02-2022.json') as file:
    nvd_data = json.load(file)

Για κάθε ευπάθεια, η NVD παρέχει αρκετές πληροφορίες τις οποίες βλέπουμε στην συνέχεια για την 1η εγγραφή από αυτές που περιέχει το dataset:

In [None]:
# Eμφάνιση του πρώτου nvd record για να δούμε τί δεδομένα έχουμε στη διάθεσή μας για κάθε τέτοια εγγραφή.
# Χρησιμοποιούμε την json.dumps η οποία μετατρέπει ένα αντικείμενο σε json format (serialization) προς εγγραφή σε αρχείο
# για να εμφανίσουμε το record με "όμορφο" τρόπο, δηλαδή με τη στοίχιση και τις εσοχές αντί για απλό string.
print("Το πρώτο nvd record:\n")
print(json.dumps(nvd_data['CVE_Items'][0], indent = 1))

Το πρώτο nvd record:

{
 "cve": {
  "data_type": "CVE",
  "data_format": "MITRE",
  "data_version": "4.0",
  "CVE_data_meta": {
   "ID": "CVE-2021-0001",
   "ASSIGNER": "secure@intel.com"
  },
  "problemtype": {
   "problemtype_data": [
    {
     "description": [
      {
       "lang": "en",
       "value": "CWE-203"
      }
     ]
    }
   ]
  },
  "references": {
   "reference_data": [
    {
     "url": "https://www.intel.com/content/www/us/en/security-center/advisory/intel-sa-00477.html",
     "name": "https://www.intel.com/content/www/us/en/security-center/advisory/intel-sa-00477.html",
     "refsource": "MISC",
     "tags": [
      "Patch",
      "Vendor Advisory"
     ]
    }
   ]
  },
  "description": {
   "description_data": [
    {
     "lang": "en",
     "value": "Observable timing discrepancy in Intel(R) IPP before version 2020 update 1 may allow authorized user to potentially enable information disclosure via local access."
    }
   ]
  }
 },
 "configurations": {
  "CVE_da

In [None]:
# Eμφάνιση του αριθμού των vulnerabilities records που περιέχονται στο json αρχείο μας
print("\nΣυνολικά έχουμε στη διάθεσή μας πληροφορίες για", len(nvd_data['CVE_Items']), "εγγραφές ευπαθειών.") 


Συνολικά έχουμε στη διάθεσή μας πληροφορίες για 17741 εγγραφές ευπαθειών.


Στην συνέχεια, ανακαλύπτουμε τον τρόπο με τον οποίο μπορούμε να εντοπίσουμε τις πληροφορίες αυτές, έτσι ώστε να ξέρουμε πως να διατρέξουμε το JSON αρχείο μας για την συλλογή των δεδομένων.

Η περιγραφή της πρώτης ευπάθειας:

In [None]:
# O τρόπος παρακάτω είναι για να πάρουμε το description ενός vulnerability record
print(nvd_data['CVE_Items'][0]['cve']['description']['description_data'][0]['value'])

Observable timing discrepancy in Intel(R) IPP before version 2020 update 1 may allow authorized user to potentially enable information disclosure via local access.


Η κατηγορία της πρώτης ευπάθειας κατά [Common Weakness Enumeration Specification (CWE)](https://nvd.nist.gov/vuln/categories):

In [None]:
print(nvd_data['CVE_Items'][0]['cve']['problemtype']['problemtype_data'][0]['description'][0]['value'])

CWE-203


Ο αριθμός των references:

In [None]:
# O τρόπος παρακάτω είναι για να πάρουμε τον αριθμό των references ενός vulnerability record
print(len(nvd_data['CVE_Items'][0]['cve']['references']['reference_data']))

1


Οι affeted vendors, όπως λαβαίνονται από το [CPE](https://en.wikipedia.org/wiki/Common_Platform_Enumeration) των προϊόντων που επηρεάζονται από την ευπάθεια:

In [None]:
# Ο τρόπος παρακάτω είναι για να δούμε το κομμάτι <vendor> του CPE για την 1η record. 
# Παρακάτω στο "χτίσιμο" του DataFrame θα δούμε ότι για κάποια records τα cpe εμφανίζονται σε άλλο σημείο του JSON 
# που πρέπει να το βρούμε προσεκτικά για να μην δημιουργηθεί σφάλμα προσπέλασης στο βρόχο.
# Κάτω από το υποαντικείμενο 'configurations' στη λίστα του 'cpe_match' υπάρχουν τα CPE όλων των πακέτων λογισμικού που
# επηρεάζονται από την συγκεκριμένη ευπάθεια. Εδώ προς το παρόν συμβατικά κρατάμε απλώς το vendor του πρώτου CPE
# που συναντάμε υποθέτοντας ότι αφορά τον κύριο κατασκευαστή λογισμικού (vendor) που επηρεάζεται.

print("Ολόκληρο το CPE για το πρώτο record είναι το: ",nvd_data['CVE_Items'][0]['configurations']['nodes'][0]['cpe_match'][0]['cpe23Uri'])
print("\nΈνας από τους vendors που επηρεάζονται από την ευπάθεια ", nvd_data['CVE_Items'][0]['cve']['CVE_data_meta']['ID'],"του πρώτου record είναι ο vendor:",nvd_data['CVE_Items'][0]['configurations']['nodes'][0]['cpe_match'][0]['cpe23Uri'].split(":")[3])

Ολόκληρο το CPE για το πρώτο record είναι το:  cpe:2.3:a:intel:integrated_performance_primitives_cryptography:2019:-:*:*:*:*:*:*

Ένας από τους vendors που επηρεάζονται από την ευπάθεια  CVE-2021-0001 του πρώτου record είναι ο vendor: intel


Ελέγχουμε το ενδεχόμενο να υπάρχει έστω και μια εγγραφή με καμία ή περισσότερες από μια περιγραφές. Θέλουμε να είμαστε σίγουροι πριν από την συλλογή των δεδεομένων.

In [None]:
for v in nvd_data['CVE_Items']:
      
    if len(v['cve']['description']['description_data']) != 1:
        print("Υπάρχει εγγραφή με καθόλου ή περισσότερες του ενός περιγραφές!")
        print(v['cve']['description']['description_data'])
        break   

Αφού δεν εμφανίζεται τίποτα ύστερα από την εκτέλεση του παραπάνω κελιού, σημαίνει ότι κάθε μια από τις εγγραφές των ευπαθειών περιέχει ακριβώς μία περιγραφή, οπότε θα το έχουμε υπόψη μας στη συνέχεια, στην συλλογή των δεδομένων που ακολουθεί.

## Η συλλογή των δεδομένων από το JSON

Αφού είδαμε την μορφή των περιεχομένων του json file μπορούμε στην συνέχεια να κρατήσουμε τις πληροφορίες που
επιθυμούμε από τα δεδομένα για τις ευπάθειες σε μια λίστα η οποία στη συνέχεια θα μετατραπεί σε DataFrame.
Στο παρακάτω κελί συλλέγουμε τις τιμές των εγγραφών για τα χαρακτηριστικά *cve_id, assigner, number_of_references, description, anAffectedVendor, CVSS_baseScore,* και *CVSS_baseSeverity*.

In [None]:
records = []

for v in nvd_data['CVE_Items']:
    
    # Γίνονται έλεγχοι για το εάν υπάρχουν στο record καταχωρημένα ή όχι: η αξιολόγηση σοβαρότητας και CPE ονομασία.
    # Για τα πεδία id, assigner, description και references δεν υπάρχει πρόβλημα καθώς μετά από έλεγχο 
    # στο json βρέθηκε ότι δεν παραλείπονται από καμία εγγραφή του dataset.
    try:
                
        # Εάν η συγκεκριμένη NVD record δεν περιέχει πληροφορίες σχετικά με την αξιολόγηση της σοβαρότητας της
        # ευπάθειας τότε εδώ η αντίστοιχη γραμμή του DataFrame θα έχει missing values. Οι έλεγχοι είναι απαραίτητοι
        # για να μην δημιουργηθεί exception του τύπου 'list index out of range' ή προσπάθειας προσπέλασης ενός key
        # που δεν υπάρχει σε ένα αντικείμενο του dict.
        if (('impact' in v)
            and ('baseMetricV3' in v['impact'])
            and ('cvssV3' in v['impact']['baseMetricV3'])
            and ('baseScore' in v['impact']['baseMetricV3']['cvssV3'])
            and ('baseSeverity' in v['impact']['baseMetricV3']['cvssV3'])):
            
            basescore = v['impact']['baseMetricV3']['cvssV3']['baseScore']
            baseseverity = v['impact']['baseMetricV3']['cvssV3']['baseSeverity'] 
        else:            
            basescore = np.NaN 
            baseseverity = np.NaN    
            
        # Εάν η συγκεκριμένη NVD record δεν περιέχει πληροφορίες σχετικά με τα πακέτα λογισμικού που επηρεάζονται
        # από την ευπάθεια τότε εδώ θα έχει missing values.
        # Εάν υπάρχουν τα affected configurations κρατάμε το όνομα του πρώτου vendor.
        # Εδώ η συνθήκη είναι πολύ πολύπλοκη αλλά οι έλεγχοι που πραγματοποιούνται απαραίτητοι για να μην συμβεί 
        # σφάλμα.
        if (('configurations' in v)
            and ('nodes' in v['configurations'])
            and (len(v['configurations']['nodes'])!=0)
            and ('cpe_match' in v['configurations']['nodes'][0])):
            
            # Όταν ικανοποιείται η παραπάνω συνθήκη σημαίνει ότι υπάρχει CPE. 
            if ((len(v['configurations']['nodes'][0]['cpe_match'])!=0) and ('cpe23Uri' in v['configurations']['nodes'][0]['cpe_match'][0])):
                
                # Εάν υπάρχει μόνο ένα στοιχείο στον πίνακα node τότε σημαίνει ότι θα βρούμε το cpe με τον παρακάτω
                # τρόπο:
                vendor = v['configurations']['nodes'][0]['cpe_match'][0]['cpe23Uri'].split(":")[3]
            else: 
                
                # Εάν υπάρχουν πολλά nodes τότε το cpe θα το βρούμε μέσα στα children:
                vendor = v['configurations']['nodes'][0]['children'][0]['cpe_match'][0]['cpe23Uri'].split(":")[3]
        else:
            
            # Εάν δεν υπάρχει cpe καταχωρούμε NaN.
            vendor = np.NaN 
            
        # Αναθέσεις των υπόλοιπων τιμών σε μεταβλητές
        cve_id = v['cve']['CVE_data_meta']['ID']
        assigner = v['cve']['CVE_data_meta']['ASSIGNER']
        number_of_references = len(v['cve']['references']['reference_data'])
        description = v['cve']['description']['description_data'][0]['value']
        anAffectedVendor = vendor
        CVSS_baseScore = basescore
        CVSS_baseSeverity = baseseverity
        
        #"Γέμισμα" της λίστας.
        records.append([cve_id,
                        assigner,
                        number_of_references,
                        description,
                        anAffectedVendor,
                        CVSS_baseScore,
                        CVSS_baseSeverity])
    
    except Exception as e:
        print("Ένα σφάλμα εμφανίστηκε:")
        print(e)
        break
     

### Συλλέγοντας τις τιμές CWE


Συνεχίζουμε με την συλλογή των τιμών CWE, δηλαδή τις κατηγορίες ευπάθειας. Σημειώνεται ότι ως CWE δεχόμαστε και τις ειδικές τιμές όπως 'NVD-CWE-noinfo' και 'NVD-CWE-Other'. Από την στιγμή που περιέχουν πληροφορία, θα ήταν λάθος να καταχωρίσουμε NaN εκεί, αφού δεν είναι missing values.

Επειδή εδώ η δομή και ο τρόπος εντοπισμού των δεδομένων στην ιεραρχία των αντικειμένων στο JSON παρουσιάζουν μια δυσκολία, η συλλογή γίνεται ξεχωριστά από τα υπόλοιπα χαρακτηριστικά και στη συνέχεια θα ενώσουμε την λίστα των CWEs με τα δεδομένα που συλλέξαμε ήδη.

In [None]:
all_cwes = []
for v in nvd_data['CVE_Items']:
    
    
    if len(v['cve']['problemtype']['problemtype_data']) != 1:
        print("Υπάρχει εγγραφή με καθόλου ή περισσότερα του ενός αντικείμενα στη λίστα problemtype_data!")
        print(v['cve']['problemtype']['problemtype_data'])
        break
    
    # Επειδή το κομμάτι κώδικα του παραπάνω if statement δεν ενεργοποιείται ποτέ, αυτό σημαίνει ότι κάθε μια
    # λίστα problemtype_data έχει μόνο ένα αντικείμενο. Αυτό πρακτικά σημαίνει ότι ακόμα και αν μια εγγραφή δεν
    # περιέχει CWE, θα υπάρχει description που όμως όπως θα δούμε είναι κενό.
    if len(v['cve']['problemtype']['problemtype_data'][0]['description']) == 0:        
        all_cwes.append(np.NaN)
    else:  
        
        # Κάθε ευπάθεια ενδέχεται να ανήκει σε πάνω από μία κατηγορία. Οπότε κρατάμε όλες τις κατηγορίες στη λίστα
        # cwes και θα έχουμε μια λίστα για κάθε ευπάθεια.
        cwes = []
        for cwe in v['cve']['problemtype']['problemtype_data'][0]['description']:               
            cwes.append(cwe['value'])
            
        all_cwes.append(cwes)
        
print(len(all_cwes))

17741


### Από την λίστα στο DataFrame

Έχοντας ολοκληρώσει την συλλογή των CWEs βλέπουμε ότι το έχουμε κάνει για όλες τις εγγραφές μας, οπότε μπορούμε να προχωρήσουμε με τον σχηματισμό του DataFrame. Θα δημιουργήσουμε το DataFrame αρχικά με τα δεδομένα της λίστας records (που περιέχει τα πολλά χαρακτηριστικά) και μετά θα ενώσουμε με αυτό και την στήλη που δημιουργήσαμε με τα CWEs.

In [None]:
# Oι πληροφορίες ανήκουν στα 3 sub-objects του record: cve (οι 4 πρώτες  
# στήλες που δίνουμε στο DataFrame και η CWEs που δημιουργείται με την insert), 
# configurations (η 5η στήλη),και impact (οι 2 τελευταίες στήλες).

vuln = pd.DataFrame(records, columns = ['cve_id',
                                        'assigner',
                                        'number_of_references',
                                        'description',
                                        'anAffectedVendor',
                                        'CVSS_baseScore',
                                        'CVSS_baseSeverity'])

In [None]:
vuln.insert(2, "CWEs", all_cwes, allow_duplicates=True)

In [None]:
vuln

Unnamed: 0,cve_id,assigner,CWEs,number_of_references,description,anAffectedVendor,CVSS_baseScore,CVSS_baseSeverity
0,CVE-2021-0001,secure@intel.com,[CWE-203],1,Observable timing discrepancy in Intel(R) IPP ...,intel,4.7,MEDIUM
1,CVE-2021-0002,secure@intel.com,[CWE-754],5,Improper conditions check in some Intel(R) Eth...,intel,7.1,HIGH
2,CVE-2021-0003,secure@intel.com,[CWE-755],2,Improper conditions check in some Intel(R) Eth...,intel,5.5,MEDIUM
3,CVE-2021-0004,secure@intel.com,[CWE-119],3,Improper buffer restrictions in the firmware o...,intel,4.4,MEDIUM
4,CVE-2021-0005,secure@intel.com,[CWE-755],2,Uncaught exception in firmware for Intel(R) Et...,intel,4.4,MEDIUM
...,...,...,...,...,...,...,...,...
17736,CVE-2021-46665,cve@mitre.org,,1,MariaDB through 10.5.9 allows a sql_parse.cc a...,,,
17737,CVE-2021-46666,cve@mitre.org,,1,MariaDB before 10.6.2 allows an application cr...,,,
17738,CVE-2021-46667,cve@mitre.org,,1,MariaDB before 10.6.5 has a sql_lex.cc integer...,,,
17739,CVE-2021-46668,cve@mitre.org,,1,MariaDB through 10.5.9 allows an application c...,,,


Ελέγχουμε εάν το dataset περιέχει εγγραφές τύπου \*\**REJECT** ή \*\**UNVERIFIABLE** ή \*\**RESERVED** και τις υπόλοιπες ειδικές κατηγορίες εγγραφών που δεν θέλουμε να κρατήσουμε στο dataset. 

In [None]:
print(len(vuln.loc[vuln['description'].str.contains("**REJECT**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**RESERVED**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**UNVERIFIABLE**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**DISPUTED**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**PRERELEASE**", regex=False)]))

0
0
0
0
0


Τέλος, εξετάζουμε τα missing values.
 

In [None]:
print(vuln.isnull().sum())  

cve_id                    0
assigner                  0
CWEs                    553
number_of_references      0
description               0
anAffectedVendor        555
CVSS_baseScore          555
CVSS_baseSeverity       555
dtype: int64


 Τα missing values οφείλονται στο ότι κάποιες εγγραφές της NVD δεν έχουν την αξιολόγηση του βαθμού σοβαρότητας της ευπάθειας ή το CPE στην παρούσα έκδοση του dataset. H NVD  ενημερώνει τα δεδομένα για τις ήδη υπάρχουσες ευπάθειες των περασμένων ετών. Ισχύει επίσης και ότι ο αριθμός των NVD records αυξάνεται ακόμα και αν έχει περάσει καιρός από το έτος αναφοράς CVE.

Το 555 σαν αριθμός των missing values είναι καλό γιατί τόσα είναι τα records τα οποία προστέθηκαν από τον Ιανουάριο του 2022. Το dataset που είχε δημιουργηθεί τότε σε μια παλαιότερη έκδοση του παρόντος notebook είχε λιγότερες εγγραφές και επίσης στις εγγραφές που είχε έλειπαν οι πληροφορίες αξιολόγησης και CPE. Τώρα έχουν προστεθεί. 

Δεν προβληματιζόμαστε με τα missing values αυτά στις τελευταίες εγγραφές μιας και είναι πολύ πιθανό να μην είχε γίνει συζήτηση στο Twitter για αυτές τις ευπάθειες αφού δεν είχαν καταχωρηθεί στην NVD μέχρι την ημερομηνία που κάναμε την λήψη των tweets από το Twitter API.
Ως γνωστόν οι CNAs συνήθως παίρνουν έναν αριθμό από CVE-IDs που τους καταχωρούνται και στην πορεία αρχίζουν και τα
χρησιμοποιούν. Όπως συμβαίνει και με τις IP. Στο JSON dataset που μας δίνει η NIST όμως δεν περιλαμβάνονται
εγγραφές \*\**REJECT** ή \*\**UNVERIFIABLE** ή \*\**RESERVED** κλπ οπότε είμαστε ικανοποιημένοι και μπορούμε να προχωρήσουμε την ανάλυση με αυτές.

Τώρα που έχουμε έτοιμο το dataset με όλα τα NVD records του 2021, το αποθηκεύουμε σε ένα CSV αρχείο για να μπορούμε να το διαβάζουμε εύκολα


In [None]:
vuln.to_csv('Data/NVD/NVD_records_2022_downoload_at_February_2022_01-02-2022.csv', index=False)