In this tutorial, we start to learn basic feature extraction with prebuilt model, VGGbe (Oxford Visual Geometry Group) on Flick photo. These dataset can be down load [from](https://illinois.edu/fb/sec/1713398)

In [11]:
from os import listdir
from os import path
from pickle import dump
from keras.layers import Input
from keras.applications.vgg16 import VGG16
from keras.preprocessing.image import load_img,img_to_array
from keras.applications.vgg16 import preprocess_input


In [13]:
def extract_features(directory):
    # load model
    in_layer = Input(shape=(224,224,3))
    model = VGG16(include_top = False, input_tensor=in_layer)
    model.summary()
    # extract feature from each photos
    features = dict()
    for name in listdir(directory):
        # load image from file
        filename = path.join(directory, name)
        image = load_img(filename, target_size=(224,224))
        # convert the image pixels to a numpy array
        image = img_to_array(image)
        # reshape daa for tje model
        image = image.reshape((1,image.shape[0], image.shape[1], image.shape[2]))
        # prepare the image foe the VGG model
        image = preprocess_input(image)
        # get features
        feature = model.predict(image, verbose=0)
        # get image id
        image_id = name.split('.')[0]
        # store feature
        features[image_id] = feature
        print('>%s' % name)
    return features    

In [None]:
# extract feature from all image
directory = '/home/tri/Downloads/Flicker8k_Dataset'
features = extract_features(directory)
print('Extracted Features: %d' % len(features))

# save to file
dump(features, open('features.pkl','wb'))

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_3 (InputLayer)         (None, 224, 224, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0         
__________

>2318502106_33f2e4b4fc.jpg
>3125041578_c1f2d73b6d.jpg
>3019917636_4e0bb0acc4.jpg
>436013859_793d870b6f.jpg
>118309463_a532b75be9.jpg
>2067833088_04e84e5bf2.jpg
>700884207_d3ec546494.jpg
>1115679311_245eff2f4b.jpg
>2480021389_dda9fb2818.jpg
>3329858093_0ec73f2190.jpg
>2587846523_b177c9a3e3.jpg
>3674168459_6245f4f658.jpg
>544301311_5e7d69a517.jpg
>2234702530_a265a4df22.jpg
>448590900_db83c42006.jpg
>2090339522_d30d2436f9.jpg
>2125216241_5b265a2fbc.jpg
>2690538407_7ca157be85.jpg
>930126921_1b94605bdc.jpg
>2445283938_ff477c7952.jpg
>3326376344_3306bf439e.jpg
>2451285022_59255e7fd9.jpg
>3329777647_5e1fd503ac.jpg
>319185571_56162796da.jpg
>2369248869_0266760c4a.jpg
>3266406566_d64e57e65a.jpg
>3544793763_b38546a5e8.jpg
>3153067758_53f003b1df.jpg
>3486154327_8be7c78569.jpg
>2396691909_6b8c2f7c44.jpg
>143688895_e837c3bc76.jpg
>587604325_af5d6df679.jpg
>469617651_278e586e46.jpg
>2233426944_0959835ced.jpg
>2890113532_ab2003d74e.jpg
>3572942419_16ebdc3d46.jpg
>166321294_4a5e68535f.jpg
>3470951932_

>2832076014_ff08c92037.jpg
>3614582606_16bd88dab2.jpg
>3621177753_1718c30ea0.jpg
>2759596272_e0ce0a965a.jpg
>3414734842_beb543f400.jpg
>3692892751_f6574e2700.jpg
>2453891449_fedb277908.jpg
>2344898759_5674382bcd.jpg
>294549892_babb130543.jpg
>3259992722_4c5e895734.jpg
>3289433994_4c67aab384.jpg
>3707738261_777075e885.jpg
>540721368_12ac732c6c.jpg
>2610447973_89227ff978.jpg
>3177799416_5bd0382370.jpg
>3018847610_0bf4d7e43d.jpg
>2090723611_318031cfa5.jpg
>2750867389_4b815f793a.jpg
>167295035_336f5f5f27.jpg
>496129405_b9feeda1ab.jpg
>3041384194_04316bd416.jpg
>3461110860_37ef15af8e.jpg
>478592803_f57cc9c461.jpg
>3501781809_88429e3b83.jpg
>3547600292_6f8aac7f2e.jpg
>3152317129_177b4678b7.jpg
>1794818900_e0ffdd268e.jpg
>299181827_8dc714101b.jpg
>3284460070_6805990149.jpg
>3068945309_ff0973e859.jpg
>3072730593_b7322d2e05.jpg
>2756591658_3ca6db1595.jpg
>233361142_d9d5f0cae9.jpg
>3280644151_3d89cb1e0e.jpg
>1355833561_9c43073eda.jpg
>2341254813_c53a5ef27a.jpg
>3041348852_872c027c16.jpg
>1799188

>3053743109_a2d780c0d2.jpg
>2268601066_b018b124fd.jpg
>3426933951_2302a941d8.jpg
>3177468217_56a9142e46.jpg
>3562050678_4196a7fff3.jpg
>2110898123_07729c1461.jpg
>3568197730_a071d7595b.jpg
>3713324467_104d72f7db.jpg
>2073964624_52da3a0fc4.jpg
>177302997_5b2d770a0a.jpg
>2393410666_b8c20fff61.jpg
>411216802_aead9e67e3.jpg
>90011335_cfdf9674c2.jpg
>1370773415_967b1ffde1.jpg
>3576840040_9356b5b10a.jpg
>3239866450_3f8cfb0c83.jpg
>1994416869_4dd769a806.jpg
>3497224764_6e17544e0d.jpg
>3680031186_c3c6698f9d.jpg
>2500567791_101d5ddee3.jpg
>3439382048_d2e23b2b4c.jpg
>2878272032_fda05ffac7.jpg
>3658427967_6e2e57458d.jpg
>2251447809_2de73afcdf.jpg
>3559429170_3183c404b9.jpg
>3602838407_bf13e49243.jpg
>99171998_7cc800ceef.jpg
>1977827746_4e13d7e19f.jpg
>2265100168_175f8218af.jpg
>781118358_19087c9ec0.jpg
>3660826540_481d25fbb0.jpg
>210126070_0d43b300b9.jpg
>2097420505_439f63c863.jpg
>397725001_e51f7c391c.jpg
>3163563871_cef3cf33ea.jpg
>3431194126_ca78f5fde6.jpg
>3610687607_895fdc94bd.jpg
>353495209

>2970183443_accd597e0a.jpg
>2081141788_38fa84ce3c.jpg
>2307451605_22e9c06530.jpg
>1417031097_ab656bc4bd.jpg
>3482237861_605b4f0fd9.jpg
>2866254827_9a8f592017.jpg
>181415975_2627aa6668.jpg
>2426724282_237bca30b5.jpg
>2527303359_6c3dc3f282.jpg
>2883324329_24361e2d49.jpg
>3205839744_24504ba179.jpg
>3224904543_679fe05c41.jpg
>3335885203_a3fe8e541f.jpg
>2351762979_0941aecced.jpg
>3222702477_34d2d24f1f.jpg
>2632381125_de32bdfdf6.jpg
>3256603992_67312b5a36.jpg
>3535372414_4c51c86fc4.jpg
>2842849030_89548af61c.jpg
>3070130228_67dcfee9ae.jpg
>946051430_8db7e4ce09.jpg
>3121482932_f77ca12c01.jpg
>2823575468_15f6c345fc.jpg
>295433203_8185c13e08.jpg
>2201222219_8d656b0633.jpg
>442220883_ff3d6e507f.jpg
>3628698119_5566769777.jpg
>2271955077_0020b4ee0d.jpg
>1420060118_aed262d606.jpg
>3512791890_eb065b460a.jpg
>2084217208_7bd9bc85e5.jpg
>1428681303_04213524e3.jpg
>2838125339_3dd314e315.jpg
>3620492762_7f6a9b4746.jpg
>1461667284_041c8a2475.jpg
>317109978_cb557802e1.jpg
>3710050559_f6f12760fe.jpg
>28363

>3639704469_fe83e1c9b7.jpg
>544576742_283b65fa0d.jpg
>3050650135_23f9d9d2f8.jpg
>3536561454_e75993d903.jpg
>2990471798_73c50c76fb.jpg
>2947452329_08f2d2a467.jpg
>2087317114_cf06df5aa5.jpg
>237277765_9e6fa5b99a.jpg
>3257107194_f235c8f7ab.jpg
>3552796830_2dd2aa9c2c.jpg
>2344875609_8e172d682b.jpg
>2160266952_a2ab39191b.jpg
>3425685827_03683e8e5a.jpg
>2247889670_413db8094b.jpg
>315125146_d9a8e60061.jpg
>3375070563_3c290a7991.jpg
>2307807200_91fa29cba1.jpg
>3474985112_24ef46e82d.jpg
>1659358133_95cd1027bd.jpg
>3304511635_113beaf458.jpg
>3225058391_a12d38d911.jpg
>3580741947_cc64a83648.jpg
>2258951972_92763fddab.jpg
>428408242_b32faf2240.jpg
>3587781729_bd21ce7b11.jpg
>3262849619_0bc4f88ef9.jpg
>2553550034_5901aa9d6c.jpg
>1463732130_a754441289.jpg
>2813033949_e19fa08805.jpg
>279550225_d64d56158a.jpg
>512550372_438849ce19.jpg
>918886676_3323fb2a01.jpg
>3408130183_f038bdaa4f.jpg
>1332823164_c70a5d930e.jpg
>191003284_1025b0fb7d.jpg
>2127209046_94711c747b.jpg
>615916000_5044047d71.jpg
>206327730

>3500136982_bf7a85531e.jpg
>618771382_459bb492e4.jpg
>3146355833_1b7fc80210.jpg
>3250593457_9049a73b61.jpg
>3628103548_2708abcda2.jpg
>2456615908_59cdac6605.jpg
>3295680663_af21ea648b.jpg
>3434452829_62cee280bc.jpg
>3251646144_d9f4ccca3f.jpg
>492802403_ba5246cfea.jpg
>530888330_a18343e38d.jpg
>3326273086_e09e845185.jpg
>3053916979_848d32261b.jpg
>3110174991_a4b05f8a46.jpg
>1386251841_5f384a0fea.jpg
>332045444_583acaefc3.jpg
>3241726740_6d256d61ec.jpg
>639865690_d66d480879.jpg
>3003691049_f4363c2d5c.jpg
>1056338697_4f7d7ce270.jpg
>1625306051_7099519baa.jpg
>3206058778_7053ee6b52.jpg
>636503038_17ca82b50f.jpg
>541063419_a5f3672d59.jpg
>3122579598_14841c038a.jpg
>1022454428_b6b660a67b.jpg
>485054073_fef8b80b4b.jpg
>3499720588_c32590108e.jpg
>3549583146_3e8bb2f7e9.jpg
>2883950737_3b67d24af4.jpg
>95734038_2ab5783da7.jpg
>2828583747_8cfb7217af.jpg
>488549693_a1f51d8c4a.jpg
>2689491604_d8760f57b4.jpg
>1776981714_5b224d0f7a.jpg
>836828001_af98d16256.jpg
>2326730558_75c20e5033.jpg
>2772084628_c

>3249597269_935e0a375a.jpg
>3050114829_18bc5a6d7c.jpg
>3665996775_6d7d9a46f1.jpg
>3421131122_2e4bde661e.jpg
>384465575_31294122c0.jpg
>1468103286_96a6e07029.jpg
>2426215757_e008a91fcb.jpg
>264928854_d9e61f3a8e.jpg
>2755053974_5cc157512e.jpg
>3030793171_55cd646eed.jpg
>3086507638_d8a2cd0ac3.jpg
>3672944692_8d24a44fc6.jpg
>3139895886_5a6d495b13.jpg
>3453544202_3855ab34b6.jpg
>2986620935_e97763983d.jpg
>3082196097_2d15455b00.jpg
>3136404885_f4d8f1d15a.jpg
>2080033499_6be742f483.jpg
>2259203920_6b93b721ce.jpg
>3632572264_577703b384.jpg
>119534510_d52b3781a3.jpg
>3556792157_d09d42bef7.jpg
>3760400645_3ba51d27f9.jpg
>3582814058_564776f26c.jpg
>3426724811_137855b4f7.jpg
>2522297487_57edf117f7.jpg
>539801139_7258ee437f.jpg
>3610189629_f46de92ab3.jpg
>130211457_be3f6b335d.jpg
>799199774_142b1c3bb2.jpg
>2570365455_41cc9a7d2b.jpg
>2116316160_d5fa7abdc3.jpg
>2402793046_3385554e81.jpg
>3109780402_dbae082dc5.jpg
>3568605391_54ec367d88.jpg
>3532205154_5674b628ea.jpg
>3302804312_0272091cd5.jpg
>362767

>3319338707_892ae2a660.jpg
>3723690961_729dd5d617.jpg
>578274277_652cae32ba.jpg
>3030962048_f71948226c.jpg
>3046916429_8e2570b613.jpg
>2371809188_b805497cba.jpg
>2393196444_8f4f540f5f.jpg
>1580671272_3e99d94305.jpg
>2521878609_146143708e.jpg
>3258397351_1a70f1993d.jpg
>2831672255_d779807c14.jpg
>3645080830_1d9ee2f50a.jpg
>2917843040_7c9caaaa8a.jpg
>446514680_ff5ca15ece.jpg
>662606040_8cc8cd9f1b.jpg
>3179952488_c1c812a03b.jpg
>2603033456_3584d95116.jpg
>3677302645_8cd3fac70d.jpg
>3343106500_27176fc544.jpg
>244368383_e90b6b2f20.jpg
>3640241166_b1ab7a8e7a.jpg
>3254817653_632e840423.jpg
>3341477531_4e37450f35.jpg
>375384566_254c2362d4.jpg
>3417662443_2eaea88977.jpg
>3046259614_614394e024.jpg
>3048597471_5697538daf.jpg
>3215695965_69fbeba3d5.jpg
>2869765795_21a398cb24.jpg
>2528521798_fb689eba8d.jpg
>3415589320_71a5bf64cf.jpg
>3174713468_e22fa7779e.jpg
>2831656774_36982aafdb.jpg
>3178371973_60c6b8f110.jpg
>233242340_09963100a3.jpg
>3671935691_57bdd0e778.jpg
>3038941104_17ee91fc03.jpg
>698107

>758921886_55a351dd67.jpg
>241346105_c1c860db0d.jpg
>3150440350_b0f2a9e774.jpg
>317641829_ab2607a6c0.jpg
>494792770_2c5f767ac0.jpg
>3535056297_e16f014cb7.jpg
>2587696611_db0378710f.jpg
>934375844_dd149fed18.jpg
>3331900249_5872e90b25.jpg
>2370481277_a3085614c9.jpg
>483136916_16976f4902.jpg
>3717845800_ab45e255b8.jpg
>2949014128_0d96196261.jpg
>2363006088_b3e3aa5c0b.jpg
>2526041608_a9775ab8d7.jpg
>3612538549_2828b45867.jpg
>3478591390_b526580644.jpg
>3234401637_84e0d14414.jpg
>3374759363_d6f7a0df41.jpg
>2860372882_e0ef4131d4.jpg
>3373481779_511937e09d.jpg
>3171188674_717eee0183.jpg
>3475092236_cf45d383c7.jpg
>2444134813_20895c640c.jpg
>3415178926_909db9400b.jpg
>1057251835_6ded4ada9c.jpg
>410042380_517ccee020.jpg
>3442138291_3e75f4bdb8.jpg
>3435015880_eda46ff50f.jpg
>3381584882_341ee3092f.jpg
>1478294229_7e1c822fea.jpg
>2073105823_6dacade004.jpg
>2296166785_292a4e9f4c.jpg
>3345025842_bc2082a509.jpg
>311267421_e204e643cf.jpg
>3526805681_38461c0d5d.jpg
>3285180819_a9712fd2bc.jpg
>29877750

>3402638444_dab914a3de.jpg
>2467853482_17009933e8.jpg
>3476709230_6439305bf2.jpg
>3089107423_81a24eaf18.jpg
>2391269207_d1d2615b1d.jpg
>3480052428_c034b98a08.jpg
>1468429623_f001988691.jpg
>1009434119_febe49276a.jpg
>2899089320_3e7f6bbaca.jpg
>3700346840_bb80d622f7.jpg
>2747436384_9470c56cb9.jpg
>3325497914_f9014d615b.jpg
>2928152792_b16c73434a.jpg
>1478268555_7e301fc510.jpg
>3340575518_137ce2695f.jpg
>3174417550_d2e6100278.jpg
>2959581023_54402c8d88.jpg
>2466171114_3fa51415a7.jpg
>2276120079_4f235470bc.jpg
>3005872315_e6771763bd.jpg
>2274602044_b3d55df235.jpg
>3473534758_1ae3847781.jpg
>3595643050_d312e4b652.jpg
>399246804_b4b5dc70e1.jpg
>3219065971_702c4e8c34.jpg
>3446191973_1db572ed8a.jpg
>709373049_15b8b6457a.jpg
>2176147758_9a8deba576.jpg
>2460134050_06de9f5c4a.jpg
>3218861747_5c5c547b66.jpg
>371522748_dc557bcd6c.jpg
>3671950830_b570bac1b9.jpg
>2718024196_3ff660416a.jpg
>1522787272_5a31497ef2.jpg
>2474047296_fd9179d438.jpg
>3640443200_b8066f37f6.jpg
>1470061031_4cb59c12a8.jpg
>270

>543326592_70bd4d8602.jpg
>2102315758_a9148a842f.jpg
>473988700_570422001b.jpg
>2216695423_1362cb25f3.jpg
>535399240_0714a6e950.jpg
>3208553539_2bf6c6d162.jpg
>3259160693_067ec7ebc3.jpg
>1342780478_bacc32344d.jpg
>3046286572_d2050ab0d9.jpg
>3368569524_a9df2fc312.jpg
>2940366012_1ef8ab334e.jpg
>3559374748_f18c7caa55.jpg
>3459570613_3932816d3f.jpg
>2844963839_ff09cdb81f.jpg
>3295452057_0c987f895f.jpg
>3256043809_47258e0b3e.jpg
>3309578722_1765d7d1af.jpg
>3376898612_41c91de476.jpg
>3286222970_1fa445e38f.jpg
>3195701071_81879257f5.jpg
>2991993027_36ac04e9a0.jpg
>3426144752_28d63615ca.jpg
>246094557_e174a5914f.jpg
>3522749949_fb615cee47.jpg
>2214132302_80064fd79d.jpg
>3647826834_dc63e21bd0.jpg
>348380010_33bb0599ef.jpg
>3006093003_c211737232.jpg
>440184957_267f3f3a2b.jpg
>2149982207_5345633bbf.jpg
>2447972568_1e9b287691.jpg
>502671104_b2114246c7.jpg
>2491343114_a3e35a2a3a.jpg
>3443030942_f409586258.jpg
>2449518585_113dc4a8e5.jpg
>3630991662_990f397f7c.jpg
>3175849727_bf30b892cb.jpg
>2693539

>2192411521_9c7e488c5e.jpg
>747921928_48eb02aab2.jpg
>3649382413_58a4b1efe8.jpg
>3291255271_a185eba408.jpg
>3001612175_53567ffb58.jpg
>2079152458_40712c3b40.jpg
>533602654_9edc74385d.jpg
>3255732353_fbc487aefc.jpg
>2862469183_a4334b904a.jpg
>400851260_5911898657.jpg
>2486364531_b482d7f521.jpg
>1523800748_a59e980eee.jpg
>2635908229_b9fc90d3fb.jpg
>3120266797_47e7d91614.jpg
>3726076549_0efb38854b.jpg
>495116214_f1df479fb0.jpg
>2215136723_960edfea49.jpg
>3477977145_4df89d69a1.jpg
>3613005134_bb7f304da1.jpg
>534669139_1a4f8ab9d5.jpg
>1132772170_600610c5df.jpg
>3408274796_0dc62225e9.jpg
>2714699748_c9270dd5aa.jpg
>359082432_c1fd5aa2d6.jpg
>3279988814_d3693dcb6c.jpg
>3323528927_7b21081271.jpg
>2482629385_f370b290d1.jpg
>2706430695_3b5667741c.jpg
>2894217628_f1a4153dca.jpg
>2955985301_e4139bc772.jpg
>523249012_a0a25f487e.jpg
>2195419145_36722e8d54.jpg
>256085101_2c2617c5d0.jpg
>326028454_fb396167e6.jpg
>2540750172_070250ece5.jpg
>2472720629_d9a6736356.jpg
>2676764246_c58205a365.jpg
>230092020

>3613175012_bcd063e7c9.jpg
>3544803461_a418ca611e.jpg
>3320680380_b0d38b3b4a.jpg
>2842609837_b3a0b383f7.jpg
>3333675897_0043f992d3.jpg
>3036641436_d6594fc45f.jpg
>2690702549_cf81da8cf6.jpg
>1015118661_980735411b.jpg
>267836606_bbea2267c8.jpg
>3072782873_3278f3b3a7.jpg
>2563578471_9a4e4c2ecc.jpg
>2826647354_650ff5eb03.jpg
>214543992_ce6c0d9f9b.jpg
>639120223_7db6bdb61f.jpg
>141755292_7a0b3364cf.jpg
>3259883609_6a1b46919e.jpg
>3143980056_7a64a94b58.jpg
>664341930_bd5c8b60ea.jpg
>3106857210_07a92577fc.jpg
>2424976964_98f58a0618.jpg
>3542418447_7c337360d6.jpg
>435827376_4384c3005a.jpg
>3263946591_a1558b77d3.jpg
>2874728371_ccd6db87f3.jpg
>3556571710_19cee6f5bd.jpg
>1802092493_7b44fdb6b9.jpg
>2539933563_17ff0758c7.jpg
>2079110798_ad1370a646.jpg
>2281006675_fde04e93dd.jpg
>2051194177_fbeee211e3.jpg
>781387473_208ba152b3.jpg
>284441196_8ebb216d0d.jpg
>2270483627_16fe41b063.jpg
>2975253472_0f0c2dea70.jpg
>3549464203_8ab9c6160b.jpg
>2337919839_df83827fa0.jpg
>3396043950_12783c5147.jpg
>34972346

In [None]:
# load doc into memory
def load_doc(filename):
    # open file as read only
    file = open(filename,'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text

# extract descriptions for image
def load_descriptions(doc):
    mapping = dict()
    # process lines
    for line in doc.split('\n'):
        # split line by white space
        tokens = line.split()
        if len(line) < 2:
            continue
        # take the first token as the image id, the rest as the description
        image_id = image_id.split('.')[0]
        # convert description tokesn back to string
        image_desc =' '.join(image_desc)
        # store the first description for each image
        if image_id not in mapping:
            mapping[image_id] = image_desc
    return mapping

filename = '/home/tri/Downloads/Flicker8k_text/Flickr8k.token.txt'
doc = load_doc(filename)
descriptions = load_description(doc)
print('Load %d'%len(descriptions))

## Prepared description text   
The descriptions are tokenized s.t each token is comprised of words separated by blank. We may need to remove stop words, punctuation.

In [None]:
# clean description text
def clean_descriptions(descriptions):
    # prepare regex
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    for key, desc in descriptions.item():
        desc = desc.split()
        desc =[word.lower() for word in desc]
        # remove punctuation
        desc = [re_punc.sub('',w) for w in desc]
        # remove 's and a
        desc =[word for word in desc if len(word)>1]
        # strore as string
        descriptions[keys] = ' '.join(desc)
        
# save clean text (description) to file
def save_doc(descriptions, filename):
    lines = list()
    for key , desc in mapping.items():
        lines.append(key+' '+desc)
    data ='\n'.join(lines)
    file = open(filename,'w')
    file = open(filename,'w')
    file.write(data)
    file.close()


In [None]:
filename = '/home/tri/Downloads/Flicker8k_text/Flickr8k.token.txt'
doc = load_doc(filename)
descriptions = load_description(doc)
print('Load %d'%len(descriptions))
# clean description
clean_descriptions(descriptions)

# summarize vocabulary
all_tokens =' '.join(descriptions.values()).split()
vocabulary = set(all_tokens)
print('Vocabulary size %d'% len(vocabulary))

# save description
save_doc(descriptions,'descriptions.txt')

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

# load clean description into memory
def load_clean_descriptions(filename):
    doc = load_doc(filename)
    descriptions = dict()
    for line in doc.split('\n'):
        # split line by white space
        tokens = line.split()
        # split id from description
        image_id, image_desc = tokens[0], tokens[1:]
        
        descriptions[image_id] = ' '.join(image_desc)
    return descriptions

descriptions = load_clean_descriptions('descriptions.txt')
print('Loaded %d '% (len(descriptions)))

# extract all text
desc_text = list(descriptions.values())

tokenizer = Tokenizer()
tokenizer.fit_on_texts(desc_text)
vocab_size = len(tokenizer.word_index)+1
print('Vocabulary size %d'% vocab_size)

sequences = tokenizer.texts_to_sequences(desc_text)

# pad all sequences into fixed length
max_length = max(len(s) for s in sequences)
print('Description length: %d' % max_length)
padded = pad_sequences(sequences, maxlen= max_length, padding='post')

# one hot encode
y= to_categorical(padded, num_classes = vocab_size)
y = y.reshape([len(descriptions),max_length. vocab_size])
print(y.shape)

## Word-by-word model   
A simpler model for generating a caption of photo is to generate one word given both the image and the last word generated. This model presented in **Show and Tell: A neural image caption generator** 2015 paper.

In [None]:
import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

def load_doc(filename):
    file = open(filename,'r')
    text = file.read()
    file.close()
    return text

def load_clean_descriptions(filename):
    doc = load_doc(filename)
    descriptions = dict()
    for line in doc.split('\n'):
        tokens = line.split()
    # split id from description
        image_id, image_desc = tokens[0], tokens[1:]
        descriptions[image_id] = ' '.join(image_desc)
    return descriptions

descriptions = load_clean_descriptions('descriptions.txt')
print('Loaded %d'% (len(descriptions)))

# extract all text
desc_text = list(descriptions.values())
tokenizer = Tokenizer()
tokenizer.fit_on_texts(desc_text)
vocab_size = len(tokenizer.word_index) +1
print('Vocabulary size %d' % vocab_size)

# integer encode descriptions
sequences = tokeinzer.text_to_sequences(desc_text)

# determine the maximum sequence length
max_length = max(len(s) for s in sequences)
print('Description length %d '% max_length)

X,y = list(), list()
for img_no, seq in enumerate(sequences):
    # split one sequence into multiple Z,y pairs
    for i in range(1, len(seq)):
        # spllit into input and output pair
        in_seq , out_seq = seq[:i],seq[i]
        # padding
        in_seq = pad_sequences([in_seq], maxlen= max_length)[0]
        # encode output
        out_seq = to_categorical([out_seq], num_classes= vocab_size)[0]
        # store
        X.append(in_seq)
        y.append(out_seq)
X,y = np.array(X), np.array(y)
print(X.shape)
print(y.shape)

        
        
        
        
                   
