# Exploring VDISC

In [2]:
# Run this cell iff you're in colab and need to setup your environment
!git clone https://github.com/dj311/uob-summer-project.git

# Change working directory to be inside git repo, as if we were in a local jupyter in the project
import os
os.chdir('uob-summer-project')

Cloning into 'uob-summer-project'...
remote: Enumerating objects: 8348, done.[K
remote: Counting objects: 100% (8348/8348), done.[K
remote: Compressing objects: 100% (668/668), done.[K
remote: Total 8348 (delta 7724), reused 8250 (delta 7671), pack-reused 0
Receiving objects: 100% (8348/8348), 3.30 MiB | 4.96 MiB/s, done.
Resolving deltas: 100% (7724/7724), done.
code  data  README.md  requirements.txt


In [1]:
!pip install h5py



In [3]:
# Download the data set if you don't already have it

!wget --output-document=./data/vdisc_train.hdf5 https://osf.io/6fexn/download
!wget --output-document=./data/vdisc_test.hdf5 https://osf.io/f9t6z/download
!wget --output-document=./data/vdisc_validate.hdf5 https://osf.io/43mzd/download

--2019-06-11 08:22:15--  https://osf.io/6fexn/download
Resolving osf.io (osf.io)... 35.190.84.173
Connecting to osf.io (osf.io)|35.190.84.173|:443... connected.
HTTP request sent, awaiting response... 302 FOUND
Location: https://files.osf.io/v1/resources/d45bw/providers/osfstorage/5bf34ee71f01ef00170e4a90?action=download&version=1&direct [following]
--2019-06-11 08:22:16--  https://files.osf.io/v1/resources/d45bw/providers/osfstorage/5bf34ee71f01ef00170e4a90?action=download&version=1&direct
Resolving files.osf.io (files.osf.io)... 35.186.214.196
Connecting to files.osf.io (files.osf.io)|35.186.214.196|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 862111179 (822M) [application/octet-stream]
Saving to: ‘./data/vdisc_train.hdf5’


2019-06-11 08:22:38 (39.9 MB/s) - ‘./data/vdisc_train.hdf5’ saved [862111179/862111179]

--2019-06-11 08:22:39--  https://osf.io/f9t6z/download
Resolving osf.io (osf.io)... 35.190.84.173
Connecting to osf.io (osf.io)|35.190.84.173|:44

In [0]:
import h5py
import pandas as pd

In [0]:
cwes = set(open('data/combined-cwes.txt', 'r').read().strip().split('\n'))

In [0]:
vdisc_train_file = h5py.File('data/vdisc_train.hdf5')
vdisc_test_file = h5py.File('data/vdisc_test.hdf5')
vdisc_validate_file = h5py.File('data/vdisc_validate.hdf5')

In [0]:
def load_vdisc_to_pandas(vdisc_h45py):

    # Manually construct the data frame as a dict with key=<column name> and value=<list of
    # values for that column>.

    length = vdisc_h45py['functionSource'].size

    raw_dataframe = {
        'testcase_ID': ["vdisc_testcase_{}".format(index) for index in range(length)],
        'flaw_loc': [None]*length,
        'filename': [None]*length,
        'code': vdisc_h45py['functionSource'],
        'CWE-119': vdisc_h45py['CWE-119'],
        'CWE-120': vdisc_h45py['CWE-120'],
        'CWE-469': vdisc_h45py['CWE-469'],
        'CWE-476': vdisc_h45py['CWE-476'],
        'CWE-OTHERS': vdisc_h45py['CWE-other'],
    }

    empty_cwes = [
        cwe for cwe in cwes if cwe not in {
            'CWE-119',
            'CWE-120',
            'CWE-469',
            'CWE-476',
            'CWE-OTHERS',
        }
    ]

    for cwe in empty_cwes:
        raw_dataframe[cwe] = [False]*length


    return pd.DataFrame(data=raw_dataframe)

vdisc_train = load_vdisc_to_pandas(vdisc_train_file)
vdisc_test = load_vdisc_to_pandas(vdisc_test_file)
vdisc_validate = load_vdisc_to_pandas(vdisc_validate_file)

In [10]:
vdisc_train

Unnamed: 0,testcase_ID,flaw_loc,filename,code,CWE-119,CWE-120,CWE-469,CWE-476,CWE-OTHERS,CWE-468,CWE-134,CWE-256,CWE-570,CWE-563,CWE-391,CWE-196,CWE-197,CWE-571,CWE-415,CWE-325,CWE-534,CWE-511,CWE-127,CWE-482,CWE-685,CWE-484,CWE-416,CWE-526,CWE-397,CWE-561,CWE-479,CWE-775,CWE-124,CWE-789,CWE-590,CWE-242,CWE-121,CWE-440,CWE-126,CWE-123,...,CWE-284,CWE-562,CWE-273,CWE-605,CWE-135,CWE-369,CWE-401,CWE-665,CWE-367,CWE-690,CWE-667,CWE-758,CWE-588,CWE-036,CWE-319,CWE-500,CWE-015,CWE-761,CWE-190,CWE-773,CWE-832,CWE-023,CWE-404,CWE-615,CWE-188,CWE-090,CWE-398,CWE-272,CWE-762,CWE-195,CWE-427,CWE-481,CWE-535,CWE-467,CWE-835,CWE-506,CWE-785,CWE-259,CWE-253,CWE-620
0,vdisc_testcase_0,,,"clear_area(int startx, int starty, int xsize, ...",False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,vdisc_testcase_1,,,ReconstructDuList(Statement* head)\n{\n Sta...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,vdisc_testcase_2,,,free_speaker(void)\n{\n if(Lengths)\n ...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,vdisc_testcase_3,,,mlx4_register_device(struct mlx4_dev *dev)\n{\...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,vdisc_testcase_4,,,"Parse_Env_Var(void)\n{\n char *p = getenv(""LI...",True,True,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
5,vdisc_testcase_5,,,nilfs_superblock_sb_update_frequency_store(str...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
6,vdisc_testcase_6,,,"r_HP_QP(jxr_image_t image, struct rbitstream*s...",False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
7,vdisc_testcase_7,,,PylonGuardJustDied(Creature* pCreature)\n{\n ...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
8,vdisc_testcase_8,,,"linda_ib_epb_wait ( struct linda *linda,\n\t\t...",False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
9,vdisc_testcase_9,,,"median(const double *src, unsigned int len)\n{...",False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [0]:
# Save this pandas dataframe as a csv for ease next time
vdisc_train.to_csv('data/vdisc_train.csv.gz')
vdisc_test.to_csv('data/vdisc_test.csv.gz')
vdisc_validate.to_csv('data/vdisc_validate.csv.gz')