# Σημειωματάριο δεύτερο: Συνθέτοντας το DataFrame των ευπαθειών

## Από το JSON του NVD Data Feed στο CSV 

Με τον όρο ευπάθεια λογισμικού, **software vulnerability** αναφερόμαστε σε οποιοδήποτε σφάλμα υπάρχει στον σχεδιασμό, την υλοποίηση ή την λειτουργία ενός λογισμικού, το οποίο επιτρέπει εξωτερικούς παράγοντες να παραβιάσουν την πολιτική ασφαλείας του. Ένα μέρος λογισμικού, δεδομένων ή μια ακολουθία εντολών που εκμεταλλεύεται ένα σφάλμα ή μια ευπάθεια για να προκαλέσει απρόβλεπτη ή ακούσια συμπεριφορά σε software, hardware ή firmware καλείται **exploit** (εκμετάλλευση).

Η διαδικασία με την οποία καταγράφονται οι ευπάθειες είναι σε γενικές γραμμές η εξής: όταν κάποιος εντοπίσει μια ευπάθεια λογισμικού, ενημερώνει τον προμηθευτή του λογισμικού και του αφήνει ένα ορισμένο χρονικό διάστημα ώστε εκείνος να το διορθώσει και να δημοσιεύσει μια ενημερωμένη έκδοση του λογισμικού η οποία επιλύει το πρόβλημα. Στην συνέχεια η ευπάθεια κοινοποιείται, ώστε οι χρήστες του λογισμικού να ενημερωθούν και να κάνουν τις απαραίτητες ενέργειες που απαιτούνται για να είναι προστατευμένοι.

Οι προμηθευτές λογισμικού (software vendors), οι προγραμματιστές, οι κάτοχοι λογισμικού και όλα γενικά τα εμπλεκόμενα άτομα και οι φορείς, μπορούν να ενημερώνονται για τις ευπάθειες λογισμικού που εντοπίζονται αλλά και να ενημερώνουν την κοινότητα για τις ευπάθειες που εντοπίζουν, χρησιμοποιώντας την λίστα ευπαθειών **CVE** (Common Vulnerabilities and Exposures). Η λίστα CVE είναι μια λίστα από δημόσια διαθέσιμα ελαττώματα ασφάλειας υπολογιστικών συστημάτων, η οποία επιτηρήται απο τον αμερικανικό οργανισμό διαχείρισης κέντρων έρευνας κι ανάπτυξης **MITRE**.

Το CVE είναι ένα free & opensource πρότυπο που χρησιμοποιείται από το 1999 έτσι ώστε να υπάρχει κοινή αναφορά στις ευπάθειες από την κοινότητα. Κάτι τέτοιο είναι ιδιαίτερα σημαντικό μιας και μέχρι τότε, υπήρχαν διαφορετικές βάσεις δεδομένων που ακολουθούσαν τα δικά τους πρότυπα. Το CVE δεν αποτελεί βάση δεδομένων αλλά μια λίστα με αντιστοιχείες ευπαθειών με τα **CVE IDs** που τους δίνονται. Μια εγγραφή σε αυτή την λίστα, εκτός από το αναγνωριστικό CVE ID περιλαμβάνει μια μικρή περιγραφή της ευπάθειας και τουλάχιστον μια αναφορά (reference).

Η **NVD** (National Vulnerability Database) είναι το αποθετήριο της κυβέρνησης των ΗΠΑ για τα δεδομένα διαχείρισης ευπαθειών. Η βάση δεδομένων που παρέχεται προκύπτει από την λίστα ευπαθειών **CVE** και προσθέτει επιπλέον πληροφορίες για τις ευπάθειες όπως τον βαθμό σημαντικότητας της ευπάθειας που ακολουθεί το πρότυπο βαθμολόγησης **CVSS** και μια λίστα από προϊόντα λογισμικού που επηρεάζονται. 

Αξίζει να προστεθεί σε αυτό το σημείο ο σύνδεσμος για τον ιστότοπο https://www.cvedetails.com/ όπου μπορούν να βρεθούν γραφήματα και πληροφορίες σχετικά με τις ευπάθειες, τα προϊόντα και τους vendors ανά έτος και για διάφορες κατηγορίες.

Σε αυτό το notebook, συλλέγουμε τα δεδομένα των ευπαθειών λογισμικού που καταγράφηκαν το έτος 2021 σε ένα DataFrame. Τα δεδομένα λαμβάνονται από το JSON αρχείο το οποίο προέρχεται από την [πηγή δεδομένων](https://nvd.nist.gov/vuln/data-feeds) της NVD. 

Ο **σκοπός** είναι να έχουμε όλες τις πληροφορίες που χρειαζόμαστε για τις ευπάθειες συγκεντρωμένες, έτσι ώστε να αντιστοιχήσουμε στην συνέχεια τα tweets με τις εγγραφές των ευπαθειών με τον εξής τρόπο: για κάθε ένα από τα tweets να καταγράψουμε σε ποιες ευπάθειες αυτό αναφέρεται έτσι ώστε να αναλύσουμε αργότερα την δημοτικότητα των ευπαθειών λογισμικού στο Twitter.

In [1]:
import json
import pandas as pd
import numpy as np

In [2]:
# Aνοίγουμε το json αρχείο με τα nvd records και διαβάζουμε τα δεδομένα του παιρνώντας τα στην nvd_data όπου
# αποθηκεύεται το dictionary που δημιουργείται από το parse του json file.
with open('Data/NVD/nvdcve for 2021 - downoload at February 2022 01-02-2022.json') as file:
    nvd_data = json.load(file)

Για κάθε ευπάθεια, η NVD παρέχει αρκετές πληροφορίες τις οποίες βλέπουμε στην συνέχεια για την 1η εγγραφή από αυτές που περιέχει το dataset:

In [3]:
# Eμφάνιση του πρώτου nvd record για να δούμε τί δεδομένα έχουμε στη διάθεσή μας για κάθε τέτοια εγγραφή.
# Χρησιμοποιούμε την json.dumps η οποία μετατρέπει ένα αντικείμενο σε json format (serialization) προς εγγραφή σε αρχείο
# για να εμφανίσουμε το record με "όμορφο" τρόπο, δηλαδή με τη στοίχιση και τις εσοχές αντί για απλό string.
print("Το πρώτο nvd record:\n")
print(json.dumps(nvd_data['CVE_Items'][0], indent = 1))

Το πρώτο nvd record:

{
 "cve": {
  "data_type": "CVE",
  "data_format": "MITRE",
  "data_version": "4.0",
  "CVE_data_meta": {
   "ID": "CVE-2021-0001",
   "ASSIGNER": "secure@intel.com"
  },
  "problemtype": {
   "problemtype_data": [
    {
     "description": [
      {
       "lang": "en",
       "value": "CWE-203"
      }
     ]
    }
   ]
  },
  "references": {
   "reference_data": [
    {
     "url": "https://www.intel.com/content/www/us/en/security-center/advisory/intel-sa-00477.html",
     "name": "https://www.intel.com/content/www/us/en/security-center/advisory/intel-sa-00477.html",
     "refsource": "MISC",
     "tags": [
      "Patch",
      "Vendor Advisory"
     ]
    }
   ]
  },
  "description": {
   "description_data": [
    {
     "lang": "en",
     "value": "Observable timing discrepancy in Intel(R) IPP before version 2020 update 1 may allow authorized user to potentially enable information disclosure via local access."
    }
   ]
  }
 },
 "configurations": {
  "CVE_da

In [4]:
# Eμφάνιση του αριθμού των vulnerabilities records που περιέχονται στο json αρχείο μας
print("\nΣυνολικά έχουμε στη διάθεσή μας πληροφορίες για", len(nvd_data['CVE_Items']), "εγγραφές ευπαθειών.") 


Συνολικά έχουμε στη διάθεσή μας πληροφορίες για 17741 εγγραφές ευπαθειών.


Στην συνέχεια, ανακαλύπτουμε τον τρόπο με τον οποίο μπορούμε να εντοπίσουμε τις πληροφορίες αυτές, έτσι ώστε να ξέρουμε πως να διατρέξουμε το JSON αρχείο μας για την συλλογή των δεδομένων.

Η περιγραφή της πρώτης ευπάθειας:

In [5]:
# O τρόπος παρακάτω είναι για να πάρουμε το description ενός vulnerability record
print(nvd_data['CVE_Items'][0]['cve']['description']['description_data'][0]['value'])

Observable timing discrepancy in Intel(R) IPP before version 2020 update 1 may allow authorized user to potentially enable information disclosure via local access.


Η κατηγορία της πρώτης ευπάθειας κατά [Common Weakness Enumeration Specification (CWE)](https://nvd.nist.gov/vuln/categories):

In [6]:
print(nvd_data['CVE_Items'][0]['cve']['problemtype']['problemtype_data'][0]['description'][0]['value'])

CWE-203


Ο αριθμός των references:

In [7]:
# O τρόπος παρακάτω είναι για να πάρουμε τον αριθμό των references ενός vulnerability record
print(len(nvd_data['CVE_Items'][0]['cve']['references']['reference_data']))

1


Οι affeted vendors, όπως λαβαίνονται από το [CPE](https://en.wikipedia.org/wiki/Common_Platform_Enumeration) των προϊόντων που επηρεάζονται από την ευπάθεια:

In [8]:
# Ο τρόπος παρακάτω είναι για να δούμε το κομμάτι <vendor> του CPE για την 1η record. 
# Κάτω από το υποαντικείμενο 'configurations' στη λίστα του 'cpe_match' υπάρχουν τα CPE όλων των πακέτων λογισμικού που
# επηρεάζονται από την συγκεκριμένη ευπάθεια. Εδώ προς το παρόν εμφανίζουμε απλώς τον vendor του πρώτου CPE
# που συναντάμε υποθέτοντας ότι αφορά τον κύριο κατασκευαστή λογισμικού (vendor) που επηρεάζεται.

print("Ολόκληρο το CPE για το πρώτο record είναι το: ",nvd_data['CVE_Items'][0]['configurations']['nodes'][0]['cpe_match'][0]['cpe23Uri'])
print("\nΈνας από τους vendors που επηρεάζονται από την ευπάθεια ", nvd_data['CVE_Items'][0]['cve']['CVE_data_meta']['ID'],"του πρώτου record είναι ο vendor:",nvd_data['CVE_Items'][0]['configurations']['nodes'][0]['cpe_match'][0]['cpe23Uri'].split(":")[3])

Ολόκληρο το CPE για το πρώτο record είναι το:  cpe:2.3:a:intel:integrated_performance_primitives_cryptography:2019:-:*:*:*:*:*:*

Ένας από τους vendors που επηρεάζονται από την ευπάθεια  CVE-2021-0001 του πρώτου record είναι ο vendor: intel


Ελέγχουμε το ενδεχόμενο να υπάρχει έστω και μια εγγραφή με καμία ή περισσότερες από μια περιγραφές. Θέλουμε να είμαστε σίγουροι πριν από την συλλογή των δεδεομένων.

In [9]:
for v in nvd_data['CVE_Items']:
      
    if len(v['cve']['description']['description_data']) != 1:
        print("Υπάρχει εγγραφή με καθόλου ή περισσότερες του ενός περιγραφές!")
        print(v['cve']['description']['description_data'])
        break   

Αφού δεν εμφανίζεται τίποτα ύστερα από την εκτέλεση του παραπάνω κελιού, σημαίνει ότι κάθε μια από τις εγγραφές των ευπαθειών περιέχει ακριβώς μία περιγραφή, οπότε θα το έχουμε υπόψη μας στη συνέχεια, στην συλλογή των δεδομένων που ακολουθεί.

### Σχετικά με το αντικείμενο Configurations

Στη συνέχεια εξετάζουμε αναλυτικότερα το υπο-αντικείμενο *configurations* όπου καταγράφονται για κάθε εγγραφή τα προϊόντα που είναι τρωτά με την συγκεκριμένη ευπάθεια. Περισσότερες πληροφορίες για αυτό το υπο-αντικείμενο αλλά και για όλα τα υπόλοιπα που υπάρχουν σε κάθε εγγραφή ευπάθειας μπορούν να βρεθούν στην [βοηθητική σελίδα κατανόησης της NVD](https://nvd.nist.gov/vuln/vulnerability-detail-pages). Επειδή είναι ιδιαίτερα σημαντικό να κρατήσουμε τους vendors όλων των προϊόντων, η διαδικασία συλλογής θα γίνει στη συνέχεια ξεχωριστά από τα υπόλοιπα αντικείμενα.

Αρχικά εξετάζουμε τον τρόπο με τον οποίο είναι καταγεγραμμένα τα CPE των τρωτών προϊόντων για να δούμε με ποιον τρόπο να τα προσπελάσουμε στην συνέχεια κατά την συλλογή των δεδομένων που ακολουθεί πιο κάτω.

Αξίζει να αναφερθεί ότι για την διαδικασία αυτή, ήταν ιδιαίτερα βοηθητική η προβολή της δομής του JSON για μερικές εγγραφές ευπαθειών σαν παραδείγματα σε online εργαλείο οπτικοποίησης για JSON, όπως το [Online JSON Viewer](http://jsonviewer.stack.hu/).  

**Πώς είναι οργανωμένες όμως οι πληροφορίες των configurations;**

Κάθε ευπάθεια περιέχει τις σχετικές πληροφορίες σε nodes. Σε κάθε node έχουμε κι ένα configuration τουλάχιστον για να βρούμε τα προϊόντα που θεωρούνται τρωτά. Αυτό μπορεί να είναι είτε ένα προϊόν είτε ένα προϊόν που συνδυάζεται με άλλα. Γιαυτό και έχουμε τους τελεστές AND και OR οι οποίοι μας δείχνουν πότε πρέπει να θεωρηθεί ένα σύστημα ότι κινδυνεύει. Αν είναι AND θα κινδυνεύει όταν υπάρχουν όλα τα προϊόντα που αναφέρονται στο configuration ταυτόχρονα στο ίδιο σύστημα - σαν να λέμε ότι τότε υπάρχει ο κακός συνδυασμός. Αν είναι OR τότε αρκεί ένα να υπάρχει και δεν απαιτείται ο συνδυασμός - οπότε και θα λέγαμε ότι είναι πιο δύσκολα τα πράγματα, και πιο πιθανό να εντοπιστεί κίνδυνος.

Εκτός από την βοηθητική σελίδα κατανόησης που παρέχεται με τον σύνδεσμο που δόθηκε παραπάνω, για να γίνει πιο κατανοητός ο τρόπος με τον οποίο καταγράφονται τα configurations μπορεί ο αναγνώστης να ανατρέξει και στην [βοηθητική σελίδα κατανόησης του τρόπου λειτουργίας του API της NVD](https://nvd.nist.gov/developers/vulnerabilities) εντοπίζοντας τις πληροφορίες που υπάρχουν στο *response body*. Εκεί περιγράφονται οι πληροφορίες που επιστρέφει το API και είναι ίδιες με αυτές που εμείς πήραμε από το JSON. Η ίδια η NVD όμως δηλώνει ότι τα configurations "*was designed primarily to be processed by machines and thus is not easy to digest for human readers*". 

Οπότε για να γίνει ακόμα καλύτερα αντιληπτό, αξίζει να επισκεφτείτε τις πληροφορίες για μια συγκεκριμένη ευπάθεια στην σελίδα της NVD και παράλληλα να έχετε ανοικτή την οπτικοποίηση του JSON της συγκεκριμένης ευπάθειας. Για να κάνετε αυτό, αντιγράψτε το JSON για μια εγγραφή και κάνετε επικόλληση στον Online JSON Viewer . Μπορείτε να πάρετε το JSON οποιασδήποτε ευπάθειας από το output του 3ου κελιού του παρόντος notebook (εκεί εμφανίζουμε το JSON για την 1η εγγραφή αλλά μπορείτε να το αλλάξετε αυτό και να εμφανίσετε όποια εγγραφή θέλετε τροποποιώντας το index της λίστας). Στη συνέχεια βάλτε το CVE ID της συγκεκριμένης ευπάθειας στο τέλος του ακόλουθου συνδέσμου, στη θέση του CVE ID που υπάρχει τώρα: https://nvd.nist.gov/vuln/detail/CVE-2021-44181. Εκεί μπορείτε να βρείτε τα configurations και βλέποντας το JSON της συγκεκριμένης ευπάθειας στον Online Viewer μπορεί να καταλάβετε καλύτερα τον τρόπο με τον οποίο είναι οργανωμένες οι πληροφορίες του υπο-αντικειμένου *configurations*.

Στο επόμενο κελί πειραματιζόμαστε με τα configurations προσπαθώντας να εντοπίσουμε τον τρόπο με τον οποίο καταγράφονται οι σχετικές πληροφορίες, την δομή τους και το επίπεδο εμφώλευσης.

In [10]:
for v in nvd_data['CVE_Items']:  
    
    try:    
        
        # Κάθε αντικείμενο configuration αποτελείται από μια λίστα από nodes όπου έχουμε τα CPE των προϊόντων.
        # Στη συνέχεια προσπελαύνουμε επαναληπτικά κάθε τέτοιο αντικείμενο node.
        for node in v['configurations']['nodes']:
            
            # Κάθε node μπορεί να έχει children ή CPE και σύμφωνα με το Documentation της NVD που βρίσκεται στις 
            # σελίδες που αναφέρονται παραπάνω, δεν υπάρχουν ταυτόχρονα και children και CPEs.
            # To children έχει CPEs αλλά όχι κάθε φορά. Οπότε ο παρακάτω εμφωλευμένος κώδικας είναι για κάθε 
            # ένα node που η λίστα του με όνομα children δεν είναι κενή.
            if len(node['children']) > 0:
                
                # Τώρα διατρέχουμε κάθε ένα αντικείμενο που υπάρχει μέσα στην λίστα children, διατρέχουμε δηλ. τα παιδιά.
                for children in node['children']:
                    
                    # Εδώ εξετάζουμε το εξής ερώτημα: 
                    # μπορεί να υπάρχει κι άλλο children μέσα στην λίστα των children (δηλαδή εγγόνι του node :));
                    if len(children['children']) > 0:                        
                        print(json.dumps(v, indent=1))
                        raise SystemExit("Stop right there!")
            
    except Exception as e:
        print("Ένα σφάλμα εμφανίστηκε:")
        print(e)
        break
     

Επειδή δεν υπάρχει παραπάνω κάποια εμφάνιση, σημαίνει ότι έχουμε εντοπίσει το ανώτερο επίπεδο εμφώλευσης στα children του configuration.

#### Ένα ενδιαφέρον ερώτημα

Στην συνέχεια αναζητούμε την απάντηση στο ερώτημα: *υπάρχει η περίπτωση μια ευπάθεια να επηρεάζει λογισμικό διαφορετικών vendors;* Θα εξετάσουμε το ερώτημα κρατώντας τους vendors για τα προϊόντα που θεωρούνται vulnerable.

In [14]:
i = 0 # Μετρητής των εγγραφών εκείνων στις οποίες παρατηρείτια αυτό το φαινόμενο.

for v in nvd_data['CVE_Items']:  
    
    # Από κάθε ευπάθεια κρατάμε τις διαφορετικές-μοναδικές εμφανίσεις των ονομάτων των vendors.
    vendors = set() 
    try:    
        
        for node in v['configurations']['nodes']:
                
            for children in node['children']:
                
                for children_cpe_match in children['cpe_match']:         

                    if children_cpe_match['vulnerable'] == True:                    
                        vendors.add(children_cpe_match['cpe23Uri'].split(":")[3])
                    
            for node_cpe_match in node['cpe_match']:
                if node_cpe_match['vulnerable'] == True:
                    vendors.add(node_cpe_match['cpe23Uri'].split(":")[3])
                
        if len(vendors)>1:
            i = i + 1
            print("==================================")
            print("Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια: ",v['cve']['CVE_data_meta']['ID'])
            print("Και επηρεάζει τους vendors:", vendors)
            #print(json.dumps(v, indent = 1))
 
    except Exception as e:
        print("Ένα σφάλμα εμφανίστηκε:")
        print(e)
        break

Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-0002
Και επηρεάζει τους vendors: {'intel', 'fedoraproject'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-0086
Και επηρεάζει τους vendors: {'intel', 'fedoraproject'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-0089
Και επηρεάζει τους vendors: {'debian', 'intel', 'fedoraproject'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-0129
Και επηρεάζει τους vendors: {'redhat', 'bluez', 'debian'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-0308
Και επηρεάζει τους vendors: {'debian', 'google'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω α

Και επηρεάζει τους vendors: {'debian', 'saltstack', 'fedoraproject'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-31535
Και επηρεάζει τους vendors: {'fedoraproject', 'x.org'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-31542
Και επηρεάζει τους vendors: {'debian', 'fedoraproject', 'djangoproject'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-31556
Και επηρεάζει τους vendors: {'fedoraproject', 'mediawiki'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι η ευπάθεια:  CVE-2021-3156
Και επηρεάζει τους vendors: {'synology', 'mcafee', 'netapp', 'beyondtrust', 'debian', 'fedoraproject', 'oracle', 'sudo_project'}
Βρέθηκε μια ευπάθεια, η οποία βάζει σε κίνδυνο προϊόντα που ανήκουν  σε πάνω από έναν vendors. Είναι

In [12]:
print("Συνολικά ", i, " ευπάθειες επηρεάζουν παραπάνω από έναν vendors.")

Συνολικά  1477  ευπάθειες επηρεάζουν παραπάνω από έναν vendors.


Βλέπουμε ότι η απάντηση στο παραπάνω ερώτημα είναι *ναι* κι αυτό σημαίνει ότι θα χρειαστούμε και στο στάδιο της συλλογής των δεδομένων μια δομή δεδομένων όπως το set ή list για να αποθηκεύουμε για κάθε ευπάθεια τους επηρεαζόμενους vendors. Μπορούμε να επισκεφτούμε επιλεκτικά τις πληροφορίες για μερικές από αυτές τις ευπάθειες στην NVD για να κατανοήσουμε το γιατί συμβαίνει αυτό τοποθετώντας και πάλι το CVE ID στο τέλος του συνδέσμου: https://nvd.nist.gov/vuln/detail/CVE-2021-21898 Μπορούμε να δούμε για παράδειγμα την σελίδα για την ευπάθεια CVE-2021-21898 η οποία αποτελεί περίπτωση διαφορετικών προϊόντων που παρέχονται από διαφορετικούς παρόχους και όμως παρουσιάζονται ως τρωτά ακόμα και αν δεν είναι εγκατεστημένα ταυτόχρονα. Ένα άλλο παράδειγμα που συναντάμε σε αρκετές διαφορετικές εγγραφές αφορά στο ζεύγος Google - Microsoft και από την εξέταση των πληροφοριών τους στον ιστότοπο της NVD συμπαιρένουμε ότι εμφανίζονται στην περίπτωση του Chrome και edge-chromium.

## Η συλλογή των δεδομένων από το JSON

Αφού είδαμε την μορφή των περιεχομένων του json file μπορούμε στην συνέχεια να κρατήσουμε τις πληροφορίες που
επιθυμούμε από τα δεδομένα για τις ευπάθειες σε μια λίστα η οποία στη συνέχεια θα μετατραπεί σε DataFrame.
Στο παρακάτω κελί συλλέγουμε τις τιμές των εγγραφών για τα χαρακτηριστικά *cve_id, assigner, number_of_references, description, vendor(s)* και τις στήλες για όλα τα πεδία του *cvssV3* (εκτός από τα πεδία *version* και *vectorString* που περιέχουν αντίστοιχα την έκδοση του πρωτοκόλλου CVSS που έχει χρησιμοποιηθεί και όλες τις πληροφορίες που εμείς κρατάμε σε ξεχωριστές στήλες συγκεντρωμένες σε ένα διάνυσμα).

In [15]:
records = []

for v in nvd_data['CVE_Items']:
    
    try:
        
    # Γίνονται έλεγχοι για το εάν υπάρχουν στο record καταχωρημένα ή όχι: η αξιολόγηση σοβαρότητας και CPE ονομασία.
    # Για τα πεδία id, assigner, description και references δεν υπάρχει πρόβλημα καθώς μετά από έλεγχο 
    # στο json βρέθηκε ότι δεν παραλείπονται από καμία εγγραφή του dataset.
            
        vendors = set() # Εδώ θα κρατάμε τα CPE κάθε ευπάθειας.   
                
        # Εάν η συγκεκριμένη NVD record δεν περιέχει πληροφορίες σχετικά με την αξιολόγηση της σοβαρότητας της
        # ευπάθειας τότε εδώ η αντίστοιχη γραμμή του DataFrame θα έχει missing values στις σχετικές στήλες.
        # Ο έλεγχος είναι απαραίτητος για να μην δημιουργηθεί exception του τύπου 'list index out of range' ή
        # προσπάθειας προσπέλασης ενός key που δεν υπάρχει σε ένα αντικείμενο του dict. 
        if 'impact' in v and 'baseMetricV3' in v['impact']:
            
            baseScore = v['impact']['baseMetricV3']['cvssV3']['baseScore']
            baseSeverity = v['impact']['baseMetricV3']['cvssV3']['baseSeverity']
            attackVector = v['impact']['baseMetricV3']['cvssV3']['attackVector']
            attackComplexity = v['impact']['baseMetricV3']['cvssV3']['attackComplexity']
            privilegesRequired = v['impact']['baseMetricV3']['cvssV3']['privilegesRequired']
            userInteraction = v['impact']['baseMetricV3']['cvssV3']['userInteraction']
            scope = v['impact']['baseMetricV3']['cvssV3']['scope']
            confidentialityImpact = v['impact']['baseMetricV3']['cvssV3']['confidentialityImpact']
            integrityImpact = v['impact']['baseMetricV3']['cvssV3']['integrityImpact']
            availabilityImpact = v['impact']['baseMetricV3']['cvssV3']['availabilityImpact']
            exploitabilityScore = v['impact']['baseMetricV3']['exploitabilityScore']
            impactScore = v['impact']['baseMetricV3']['impactScore']
            
        else:            
            baseScore = np.NaN 
            baseSeverity = np.NaN    
            attackVector = np.NaN
            attackComplexity = np.NaN
            privilegesRequired = np.NaN
            userInteraction = np.NaN
            scope = np.NaN
            confidentialityImpact = np.NaN
            integrityImpact = np.NaN
            availabilityImpact = np.NaN
            exploitabilityScore = np.NaN
            impactScore = np.NaN
        
        # Εάν η συγκεκριμένη NVD record δεν περιέχει πληροφορίες σχετικά με τα πακέτα λογισμικού που επηρεάζονται
        # από την ευπάθεια τότε εδώ η αντίστοιχη γραμμή θα έχει missing values.
        # Εάν υπάρχουν τιμές configurations κρατάμε τα ονόματα των vendors  των προϊόντων που θεωρούνται τρωτά.
        # Εδώ η προσπέλαση είναι πολύ πολύπλοκη αλλά οι έλεγχοι που πραγματοποιούνται απαραίτητοι για να μην συμβεί 
        # σφάλμα. 
        if 'configurations' in v:
                        
            # Κάθε αντικείμενο configuration αποτελείται από μια λίστα από nodes όπου έχουμε τα CPE των προϊόντων.
            # Στη συνέχεια προσπελαύνουμε επαναληπτικά κάθε τέτοιο αντικείμενο node και τα εμφωλευμένα σε αυτό children.
            for node in v['configurations']['nodes']:       
                
                for children in node['children']:
                
                    for children_cpe_match in children['cpe_match']:         

                        if children_cpe_match['vulnerable'] == True:                    
                            vendors.add(children_cpe_match['cpe23Uri'].split(":")[3])
                    
                for node_cpe_match in node['cpe_match']:
                    if node_cpe_match['vulnerable'] == True:
                        vendors.add(node_cpe_match['cpe23Uri'].split(":")[3])
            
                        
        # Αναθέσεις των υπόλοιπων τιμών σε μεταβλητές ακολουθώντας την σειρά με την οποία εμφανίζονται στο JSON.
        cve_id = v['cve']['CVE_data_meta']['ID']
        assigner = v['cve']['CVE_data_meta']['ASSIGNER']
        number_of_references = len(v['cve']['references']['reference_data'])
        description = v['cve']['description']['description_data'][0]['value']
        
        # Εάν δεν είναι κενό το set τότε το μετατρέπουμε σε λίστα αφού τώρα δεν υπάρχει περίπτωση να έχουμε
        # διπλότυπα.
        if len(vendors) != 0:
            vendors = list(vendors)
        else:
            vendors = np.NaN
    
        
        CVSS_baseScore = baseScore
        CVSS_baseSeverity = baseSeverity
                
        #"Γέμισμα" της λίστας.
        records.append([cve_id,
                        assigner,
                        number_of_references,
                        description,
                        vendors,
                        attackVector,
                        attackComplexity, 
                        privilegesRequired, 
                        userInteraction, 
                        scope, 
                        confidentialityImpact,
                        integrityImpact, 
                        availabilityImpact,
                        CVSS_baseScore,
                        CVSS_baseSeverity,
                        exploitabilityScore,
                        impactScore])
    except Exception as e:
        print("Ένα σφάλμα εμφανίστηκε:")
        print(e)
        break
    

### Συλλέγοντας τις τιμές CWE

Συνεχίζουμε με την συλλογή των τιμών CWE, δηλαδή τις κατηγορίες ευπάθειας. Σημειώνεται ότι ως CWE δεχόμαστε και τις ειδικές τιμές όπως 'NVD-CWE-noinfo' και 'NVD-CWE-Other'. Από την στιγμή που περιέχουν πληροφορία, θα ήταν λάθος να καταχωρίσουμε NaN εκεί, αφού δεν είναι missing values.

Επειδή εδώ η δομή και ο τρόπος εντοπισμού των δεδομένων στην ιεραρχία των αντικειμένων στο JSON παρουσιάζουν μια δυσκολία, η συλλογή γίνεται ξεχωριστά από τα υπόλοιπα χαρακτηριστικά και στη συνέχεια θα ενώσουμε την λίστα των CWEs με τα δεδομένα που συλλέξαμε ήδη. 

Πριν την συλλογή ελέγχουμε το ενδεχόμενο να υπάρχουν εγγραφές που στη λίστα problem_type να έχουν πάνω από ένα ή κανένα αντικείμενο.

In [16]:
for v in nvd_data['CVE_Items']:
        
    if len(v['cve']['problemtype']['problemtype_data']) != 1:
        print("Υπάρχει εγγραφή με καθόλου ή περισσότερα του ενός αντικείμενα στη λίστα problemtype_data!")
        print(v['cve']['problemtype']['problemtype_data'])
        break 

Επειδή το κομμάτι κώδικα του παραπάνω if statement δεν ενεργοποιείται ποτέ, αυτό σημαίνει ότι κάθε μια λίστα problemtype_data έχει μόνο ένα αντικείμενο. Αυτό πρακτικά σημαίνει ότι ακόμα και αν μια εγγραφή δεν περιέχει CWE, θα υπάρχει description που όμως όπως θα δούμε είναι κενό. Η NVD [δηλώνει](https://nvd.nist.gov/developers/vulnerabilities) "*All CWE assigned to a vulnerability are found in problem_type. In some cases there are more than one CWE*". 

In [17]:
all_cwes = []

for v in nvd_data['CVE_Items']:
    
    #  Αν μια εγγραφή δεν περιέχει CWE, θα υπάρχει description αλλά θα είναι κενό.
    if len(v['cve']['problemtype']['problemtype_data'][0]['description']) == 0:        
        all_cwes.append(np.NaN)
    else:  
        
        # Κάθε ευπάθεια ενδέχεται να ανήκει σε πάνω από μία κατηγορία. Οπότε κρατάμε όλες τις κατηγορίες στη λίστα
        # CWEs και θα έχουμε μια λίστα για κάθε ευπάθεια.
        cwes = []
        for cwe in v['cve']['problemtype']['problemtype_data'][0]['description']:               
            cwes.append(cwe['value'])
            
        all_cwes.append(cwes)

### Από την λίστα στο DataFrame

Έχοντας ολοκληρώσει την συλλογή των CWEs βλέπουμε ότι το έχουμε κάνει για όλες τις εγγραφές μας, οπότε μπορούμε να προχωρήσουμε με τον σχηματισμό του DataFrame. Θα δημιουργήσουμε το DataFrame αρχικά με τα δεδομένα της λίστας records (που περιέχει τα πολλά χαρακτηριστικά) και μετά θα ενώσουμε με αυτό και την στήλη που δημιουργήσαμε με τα CWEs.

In [20]:
# Oι πληροφορίες ανήκουν στα 3 sub-objects του record: cve (οι 4 πρώτες  
# στήλες που δίνουμε στο DataFrame και η CWEs που δημιουργείται με την insert στο επόμενο κελί), 
# configurations (η 5η στήλη με όνομα vendors),και impact (όλες οι υπόλοιπες στήλες).

vuln = pd.DataFrame(records, columns = ['cve_id',
                                        'assigner',
                                        'number_of_references',
                                        'description',
                                        'vendors',
                                        'attackVector',
                                        'attackComplexity', 
                                        'privilegesRequired', 
                                        'userInteraction', 
                                        'scope', 
                                        'confidentialityImpact',
                                        'integrityImpact', 
                                        'availabilityImpact',
                                        'CVSS_baseScore',
                                        'CVSS_baseSeverity',
                                        'exploitabilityScore',
                                        'impactScore'])

In [22]:
vuln.insert(2, "CWEs", all_cwes, allow_duplicates=True)

In [23]:
vuln

Unnamed: 0,cve_id,assigner,CWEs,number_of_references,description,vendors,attackVector,attackComplexity,privilegesRequired,userInteraction,scope,confidentialityImpact,integrityImpact,availabilityImpact,CVSS_baseScore,CVSS_baseSeverity,exploitabilityScore,impactScore
0,CVE-2021-0001,secure@intel.com,[CWE-203],1,Observable timing discrepancy in Intel(R) IPP ...,[intel],LOCAL,HIGH,LOW,NONE,UNCHANGED,HIGH,NONE,NONE,4.7,MEDIUM,1.0,3.6
1,CVE-2021-0002,secure@intel.com,[CWE-754],5,Improper conditions check in some Intel(R) Eth...,"[intel, fedoraproject]",LOCAL,LOW,LOW,NONE,UNCHANGED,HIGH,NONE,HIGH,7.1,HIGH,1.8,5.2
2,CVE-2021-0003,secure@intel.com,[CWE-755],2,Improper conditions check in some Intel(R) Eth...,[intel],LOCAL,LOW,LOW,NONE,UNCHANGED,HIGH,NONE,NONE,5.5,MEDIUM,1.8,3.6
3,CVE-2021-0004,secure@intel.com,[CWE-119],3,Improper buffer restrictions in the firmware o...,[intel],LOCAL,LOW,HIGH,NONE,UNCHANGED,NONE,NONE,HIGH,4.4,MEDIUM,0.8,3.6
4,CVE-2021-0005,secure@intel.com,[CWE-755],2,Uncaught exception in firmware for Intel(R) Et...,[intel],LOCAL,LOW,HIGH,NONE,UNCHANGED,NONE,NONE,HIGH,4.4,MEDIUM,0.8,3.6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17736,CVE-2021-46665,cve@mitre.org,,1,MariaDB through 10.5.9 allows a sql_parse.cc a...,,,,,,,,,,,,,
17737,CVE-2021-46666,cve@mitre.org,,1,MariaDB before 10.6.2 allows an application cr...,,,,,,,,,,,,,
17738,CVE-2021-46667,cve@mitre.org,,1,MariaDB before 10.6.5 has a sql_lex.cc integer...,,,,,,,,,,,,,
17739,CVE-2021-46668,cve@mitre.org,,1,MariaDB through 10.5.9 allows an application c...,,,,,,,,,,,,,


Ελέγχουμε εάν το dataset περιέχει εγγραφές τύπου \*\**REJECT** ή \*\**UNVERIFIABLE** ή \*\**RESERVED** και τις υπόλοιπες ειδικές κατηγορίες εγγραφών που δεν θέλουμε να κρατήσουμε στο dataset. 

In [24]:
print(len(vuln.loc[vuln['description'].str.contains("**REJECT**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**RESERVED**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**UNVERIFIABLE**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**DISPUTED**", regex=False)]))
print(len(vuln.loc[vuln['description'].str.contains("**PRERELEASE**", regex=False)]))

0
0
0
0
0


Τέλος, εξετάζουμε τα missing values.
 

In [25]:
print(vuln.isnull().sum())  

cve_id                     0
assigner                   0
CWEs                     553
number_of_references       0
description                0
vendors                  555
attackVector             555
attackComplexity         555
privilegesRequired       555
userInteraction          555
scope                    555
confidentialityImpact    555
integrityImpact          555
availabilityImpact       555
CVSS_baseScore           555
CVSS_baseSeverity        555
exploitabilityScore      555
impactScore              555
dtype: int64


 Τα missing values οφείλονται στο ότι κάποιες εγγραφές της NVD δεν έχουν την αξιολόγηση του βαθμού σοβαρότητας της ευπάθειας ή το CPE στην παρούσα έκδοση του dataset. H NVD  ενημερώνει τα δεδομένα για τις ήδη υπάρχουσες ευπάθειες των περασμένων ετών. Ισχύει επίσης και ότι ο αριθμός των NVD records αυξάνεται ακόμα και αν έχει περάσει καιρός από το έτος αναφοράς CVE.

Το 555 σαν αριθμός των missing values είναι καλό γιατί τόσα είναι τα records τα οποία προστέθηκαν από τον Ιανουάριο του 2022. Το dataset που είχε δημιουργηθεί τότε σε μια παλαιότερη έκδοση του παρόντος notebook είχε λιγότερες εγγραφές και επίσης στις εγγραφές που είχε έλειπαν οι πληροφορίες αξιολόγησης και CPE. Τώρα έχουν προστεθεί. 

Δεν προβληματιζόμαστε με τα missing values αυτά στις τελευταίες εγγραφές μιας και είναι πολύ πιθανό να μην είχε γίνει συζήτηση στο Twitter για αυτές τις ευπάθειες αφού δεν είχαν καταχωρηθεί στην NVD μέχρι την ημερομηνία που κάναμε την λήψη των tweets από το Twitter API.
Ως γνωστόν οι CNAs συνήθως παίρνουν έναν αριθμό από CVE-IDs που τους καταχωρούνται και στην πορεία αρχίζουν και τα
χρησιμοποιούν. Όπως συμβαίνει και με τις IP. Στο JSON dataset που μας δίνει η NIST όμως δεν περιλαμβάνονται
εγγραφές \*\**REJECT** ή \*\**UNVERIFIABLE** ή \*\**RESERVED** κλπ οπότε είμαστε ικανοποιημένοι και μπορούμε να προχωρήσουμε την ανάλυση με αυτές.

Τώρα που έχουμε έτοιμο το dataset με όλα τα NVD records του 2021, το αποθηκεύουμε σε ένα CSV αρχείο για να μπορούμε να το διαβάζουμε εύκολα


In [None]:
vuln.to_csv('Data/NVD/NVD_records_2022_downoload_at_February_2022_01-02-2022.csv', index=False)