# NIST2016 Dataset Preprocessing
<font size=3>Generate the coordinates of the bounding box from the Groundtruth mask.<br><br>
    We obtained the NIST dataset by participating in the Media Forensics Challenge 2019. [Link](https://www.nist.gov/itl/iad/mig/media-forensics-challenge-2019-0)<br>Since we signed a agreement, we are unable to provide the NIST 2016 dataset.<br><br>
    In addition, we divide all images into training and test sets according to the ratio of manipulation techniques.<br>
    The number of training and test sets is the same as RGB-N.<br>
    We provide text files for the training and test sets. See Readme.md for more details.<font>

In [9]:
import cv2
import csv
import os
from glob import glob
from sklearn.model_selection import train_test_split

<font size=4， color=#DC143C> We save tampered images and mask in new folders. After the script running, please delete the origenal probe folfer and rename probe_save folder as probe. </font>

In [2]:
nist_path='../dataset/NC2016_test/'
probe_path=nist_path+'probe_save/'  # Tampered images save path, not origenal probe folder
mask_path=nist_path+'mask/'         # Maks save path
if not os.path.exists(probe_path):
  os.makedirs(probe_path)

if not os.path.exists(mask_path):
  os.makedirs(mask_path)

In [3]:
def bounding_box(image,mask,row_data,mani_type):
    box_list=[]
    contours, hierarchy = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
    print("contours number：", len(contours))
    image_copy=image.copy()
    contours = sorted(contours, key=lambda i: len(i),reverse=True)
    
    for i in range(0, len(contours)):
        # We use 175 as a threshold to eliminate noise in the ground truth mask.
        if(len(contours[i]))>175:    
            x, y, w, h = cv2.boundingRect(contours[i])
            x1=x
            y1=y
            x2=x+w
            y2=y+h
            box_list.append(str(x1)+'_'+str(y1)+'_'+ str(x2)+'_'+str(y2)+'_'+mani_type)
    if len(box_list)==0:
        x, y, w, h = cv2.boundingRect(contours[0])
        x1 = x
        y1 = y
        x2 = x + w
        y2 = y + h
        box_list.append(str(x1) + '_' + str(y1) + '_' + str(x2) + '_' + str(y2) + '_' + mani_type)
    return box_list

In [4]:
def load_image(image_path):
    img = cv2.imread(nist_path+image_path)
    return img

In [5]:
if __name__ == '__main__':
    #reference file
    csv_reader = csv.reader(open(nist_path+'reference/manipulation/NC2016-manipulation-ref.csv', encoding='utf-8'))
    for row in csv_reader:
        row_data = row[0].split('|')
        name_str = '_'
        if row_data[0]=='TaskID':
            continue
        if row_data[7]=='N':
            mani_tpye='authentic'
            print('========',mani_tpye,'============')
            continue
        else:
            mask = load_image(row_data[3])
            
            mask = cv2.cvtColor(mask, cv2.COLOR_BGR2GRAY)
            ret, mask = cv2.threshold(mask, 127, 255, cv2.THRESH_BINARY_INV)
            image = load_image(row_data[2])
            if row_data[11]=='Y':
                mani_tpye='removal'
                box_list = bounding_box(image,mask,row_data,mani_tpye)
            elif row_data[12]=='Y':
                mani_tpye='splice'
                box_list = bounding_box(image,mask, row_data,mani_tpye)
            elif row_data[13]=='Y':
                mani_tpye='copyclone'
                box_list = bounding_box(image,mask, row_data,mani_tpye)
            for i in range(0,len(box_list)):
                 name_str=name_str+box_list[i]+'_'

            print(row_data[1])
            cv2.imwrite(probe_path+row_data[1]+name_str.rstrip('_')+ ".png", image)
            cv2.imwrite(mask_path + row_data[1] + name_str.rstrip('_') + ".png", mask)
            print('========',mani_tpye,'============')

print('\n\n=======================Done==============================!')

contours number： 1
NC2016_0128
contours number： 1
NC2016_0130
contours number： 1
NC2016_0222
contours number： 1
NC2016_0278
contours number： 1
NC2016_0342
contours number： 1
NC2016_0459
contours number： 1
NC2016_0484
contours number： 1
NC2016_0674
contours number： 1
NC2016_0830
contours number： 1
NC2016_0859
contours number： 1
NC2016_0994
contours number： 1
NC2016_1165
contours number： 1
NC2016_1217
contours number： 1
NC2016_1264
contours number： 1
NC2016_1289
contours number： 1
NC2016_1396
contours number： 1
NC2016_1515
contours number： 1
NC2016_1520
contours number： 1
NC2016_1545
contours number： 1
NC2016_1571
contours number： 1
NC2016_1572
contours number： 1
NC2016_1720
contours number： 1
NC2016_1764
contours number： 1
NC2016_1868
contours number： 1
NC2016_1890
contours number： 1
NC2016_1937
contours number： 1
NC2016_1967
contours number： 1
NC2016_1986
contours number： 1
NC2016_2051
contours number： 1
NC2016_2090
contours number： 1
NC2016_2126
contours number： 1
NC2016_2144
contours

contours number： 1
NC2016_7539
contours number： 34
NC2016_7587
contours number： 1
NC2016_7752
contours number： 1
NC2016_7781
contours number： 1
NC2016_7921
contours number： 1
NC2016_8058
contours number： 1
NC2016_8517
contours number： 1
NC2016_8606
contours number： 1
NC2016_8682
contours number： 1
NC2016_8814
contours number： 1
NC2016_9014
contours number： 1
NC2016_9055
contours number： 1
NC2016_9073
contours number： 1
NC2016_9108
contours number： 1
NC2016_9112
contours number： 1
NC2016_9176
contours number： 1
NC2016_9317
contours number： 1
NC2016_9453
contours number： 1
NC2016_9462
contours number： 1
NC2016_9513
contours number： 1
NC2016_9541
contours number： 1
NC2016_9629
contours number： 1
NC2016_9647
contours number： 1
NC2016_9725
contours number： 1
NC2016_9857
contours number： 1
NC2016_9984
contours number： 1
NC2016_8714
contours number： 1
NC2016_3092
contours number： 1
NC2016_8738
contours number： 1
NC2016_2649
contours number： 1
NC2016_7956
contours number： 1
NC2016_8796
contour

contours number： 1
NC2016_6005
contours number： 1
NC2016_3851
contours number： 1
NC2016_1893
contours number： 1
NC2016_4211
contours number： 1
NC2016_0394
contours number： 1
NC2016_6889
contours number： 1
NC2016_6910
contours number： 1
NC2016_2040
contours number： 1
NC2016_1946
contours number： 1
NC2016_3475
contours number： 1
NC2016_9759
contours number： 1
NC2016_5929
contours number： 1
NC2016_7691
contours number： 1
NC2016_5512
contours number： 1
NC2016_4049
contours number： 1
NC2016_4993
contours number： 1
NC2016_7737
contours number： 1
NC2016_6450
contours number： 1
NC2016_4432
contours number： 1
NC2016_9789
contours number： 1
NC2016_4544
contours number： 1
NC2016_1755
contours number： 1
NC2016_3675
contours number： 1
NC2016_6238
contours number： 1
NC2016_3476
contours number： 1
NC2016_7344
contours number： 1
NC2016_5809
contours number： 1
NC2016_3953
contours number： 34
NC2016_4053
contours number： 1
NC2016_1718
contours number： 1
NC2016_7865
contours number： 1
NC2016_5881
contour

contours number： 1
NC2016_0351
contours number： 1
NC2016_1213
contours number： 1
NC2016_1944
contours number： 7
NC2016_0016
contours number： 15
NC2016_1255
contours number： 2
NC2016_3119
contours number： 4
NC2016_2785
contours number： 4
NC2016_0906
contours number： 1
NC2016_3911
contours number： 1
NC2016_3692
contours number： 1
NC2016_0569
contours number： 1
NC2016_0571
contours number： 1
NC2016_3397
contours number： 2
NC2016_0800
contours number： 20
NC2016_0048
contours number： 1
NC2016_2754
contours number： 1
NC2016_3067
contours number： 3
NC2016_1728
contours number： 1
NC2016_2300
contours number： 8
NC2016_3004
contours number： 3
NC2016_2835
contours number： 1
NC2016_1532
contours number： 2
NC2016_2441
contours number： 1
NC2016_0313
contours number： 5
NC2016_3204
contours number： 5
NC2016_3595
contours number： 11
NC2016_1379
contours number： 4
NC2016_0596
contours number： 1
NC2016_3906
contours number： 3
NC2016_1543
contours number： 1
NC2016_3725
contours number： 1
NC2016_2858
conto

contours number： 1
NC2016_8618
contours number： 11
NC2016_8371
contours number： 1
NC2016_9962
contours number： 1
NC2016_9415
contours number： 4
NC2016_7890
contours number： 1
NC2016_9573
contours number： 8
NC2016_7025
contours number： 1
NC2016_9272
contours number： 4
NC2016_8265
contours number： 1
NC2016_7580
contours number： 1
NC2016_8236
contours number： 1
NC2016_9235
contours number： 2
NC2016_9191
contours number： 1
NC2016_7953
contours number： 1
NC2016_7834
contours number： 1
NC2016_7354
contours number： 1
NC2016_6969
contours number： 1
NC2016_7048
contours number： 1
NC2016_6733
contours number： 3
NC2016_8148
contours number： 1
NC2016_8411
contours number： 3
NC2016_9038
contours number： 24
NC2016_7882
contours number： 2
NC2016_9347
contours number： 1
NC2016_7420
contours number： 1
NC2016_8051
contours number： 1
NC2016_0211
contours number： 1
NC2016_0280
contours number： 2
NC2016_0289
contours number： 2
NC2016_0293
contours number： 5
NC2016_0343
contours number： 1
NC2016_0444
contou

contours number： 1
NC2016_6347
contours number： 7
NC2016_6412
contours number： 4
NC2016_6438
contours number： 1
NC2016_6495
contours number： 5
NC2016_6572
contours number： 1
NC2016_6634
contours number： 335
NC2016_6651
contours number： 145
NC2016_6757
contours number： 2
NC2016_6802
contours number： 1
NC2016_6806
contours number： 1
NC2016_6817
contours number： 1
NC2016_6890
contours number： 1
NC2016_7065
contours number： 1
NC2016_7126
contours number： 3
NC2016_7146
contours number： 5
NC2016_7151
contours number： 1
NC2016_7152
contours number： 1
NC2016_7298
contours number： 1
NC2016_7312
contours number： 1
NC2016_7338
contours number： 3
NC2016_7390
contours number： 1
NC2016_7429
contours number： 1
NC2016_7489
contours number： 4
NC2016_7534
contours number： 2
NC2016_7564
contours number： 1
NC2016_7572
contours number： 2
NC2016_7654
contours number： 8
NC2016_7666
contours number： 1
NC2016_7747
contours number： 2
NC2016_7894
contours number： 1
NC2016_8065
contours number： 1
NC2016_8091
cont

In [10]:
data_dir = probe_path  # FIXME
ext = 'NC2016*'
cls = ['removal', 'splice', 'copyclone']
filenames = glob(os.path.join(data_dir, ext))
print(len(filenames))
pic_name=[]
mani_type=[]
for file in filenames:
    content = os.path.splitext(os.path.basename(file))[0].split("_")
    if content[-1] in cls:
        pic_name.append(os.path.splitext(os.path.basename(file))[0])
        mani_type .append(content[-1])
    else:
        print(content[-1])
print("len pic_name: %d"%len(pic_name))
print("len mani_type: %d \n"%len(mani_type))
print('=======Split train and test set========')
pic_name_train, pic_name_test, mani_type_train, mani_type_test = train_test_split(pic_name, mani_type, test_size=0.282, random_state=0)


print("train set number: %d"%len(pic_name_train))
print("test set number: %d"%len(pic_name_test))


with open(nist_path+'/NIST_train_new_2.txt', 'w') as f:
    for pic in pic_name_train:
        content = pic.split("_")
        if content[-1] in cls:
            content2 = [str(i) for i in content[2:]]
            content3=' '.join(content2)
            f.write('%s %s\n' % (pic,content3))



with open(nist_path+'/NIST_test_new_2.txt', 'w') as f:
    for pic in pic_name_test:
        content = pic.split("_")
        if content[-1] in cls:
            content2 = [str(i) for i in content[2:]]
            content3=' '.join(content2)
            f.write('%s %s\n' % (pic,content3))
            
print('=============Split over==============')

564
len pic_name: 564
len mani_type: 564 

train set number: 404
test set number: 160
