# VGG提取图片特征

In [31]:
from os import listdir
from pickle import dump
from keras.applications.vgg16 import VGG16
from keras.preprocessing.image import load_img
from keras.preprocessing.image import img_to_array
from keras.applications.vgg16 import preprocess_input
from keras.models import Model

def extract_features(directory):
    # 去除最后一层，因为目的不是分类，而是特征抽取
    in_layer = Input(shape=(224, 224, 3))
    model = VGG16(include_top=False, input_tensor=in_layer)
    print(model.summary())
    
    # 每张图片抽取特征
    features = dict()
    for name in listdir(directory):
        filename = directory + '/' + name
        image = load_img(filename, target_size=(224, 224))
        # 将像素转存为数组形式
        image = img_to_array(image)
        image = image.reshape((1, image.shape[0], image.shape[1], image.shape[2]))
        # VGG的函数，预处理并预测
        image = preprocess_input(image)
        feature = model.predict(image, verbose=0)
        #存储图片特征
        image_id = name.split('.')[0]
        features[image_id] = feature
        print('>%s' % name)
    return features

directory = 'Flickr8k_Dataset'
features = extract_features(directory)
print('Extracted Features: %d' % len(features))
dump(features, open('features.pkl', 'wb'))

Model: "vgg16"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_46 (InputLayer)        [(None, 224, 224, 3)]     0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0     

>1244140539_da4804d828.jpg
>1244306891_8e78ae1620.jpg
>1244485675_822e6efe60.jpg
>1245022983_fb329886dd.jpg
>1247181182_35cabd76f3.jpg
>1248357227_2b4175fc39.jpg
>1248734482_3038218f3b.jpg
>124881487_36e668145d.jpg
>1248940539_46d33ed487.jpg
>1248953128_24c9f8d924.jpg
>124972799_de706b6d0b.jpg
>1251558317_4ef844b775.jpg
>1252396628_eb81d3905b.jpg
>1252787177_4b08625897.jpg
>125319704_49ead3463c.jpg
>1253264731_e7c689eca5.jpg
>1253275679_e955fb7304.jpg
>1255504166_f2437febcb.jpg
>1258913059_07c613f7ff.jpg
>1259936608_e3f0064f23.jpg
>1260816604_570fc35836.jpg
>1262077938_8b9516c273.jpg
>1262454669_f1caafec2d.jpg
>1262583859_653f1469a9.jpg
>1263126002_881ebd7ac9.jpg
>1263801010_5c74bf1715.jpg
>1267711451_e2a754b4f8.jpg
>1269470943_ba7fc49b4d.jpg
>1271210445_7f7ecf3791.jpg
>1271960365_e54033f883.jpg
>1273001772_1585562051.jpg
>127450902_533ceeddfc.jpg
>127488876_f2d2a89588.jpg
>127490019_7c5c08cb11.jpg
>1277185009_06478dd457.jpg
>1277743944_f4e8c78403.jpg
>1280147517_98767ca3b3.jpg
>128032

>1468389504_c724bdcad0.jpg
>1468429623_f001988691.jpg
>1468962616_5803b4397f.jpg
>1469000260_5d473c8283.jpg
>1469358746_2a879abaf3.jpg
>1470061031_4cb59c12a8.jpg
>1470132731_fa416b7504.jpg
>1470536919_1f3fd6c65a.jpg
>1472053993_bed67a3ba7.jpg
>1472230829_803818a383.jpg
>1472249944_d887c3aeda.jpg
>1472653060_7427d2865a.jpg
>1472882567_33dc14c8b6.jpg
>1473080948_bae2925dc8.jpg
>1473250020_dc829a090f.jpg
>1473618073_7db56a5237.jpg
>1474474514_b3eb492722.jpg
>1475046848_831245fc64.jpg
>1476002408_4256b7b2fa.jpg
>1476241331_2f43b67aed.jpg
>1478268555_7e301fc510.jpg
>1478294229_7e1c822fea.jpg
>1478606153_a7163bf899.jpg
>1479028910_3dab3448c8.jpg
>1479124077_17dcc0d5d7.jpg
>1479513774_70c94cf9d3.jpg
>1479679558_d0a01bc62b.jpg
>1479857177_9d4a6f38fd.jpg
>1480712062_32a61ad4b7.jpg
>1481062342_d9e34366c4.jpg
>1482960952_95f2d419cb.jpg
>148512773_bae6901fd6.jpg
>1488937076_5baa73fc2a.jpg
>1489286545_8df476fa26.jpg
>1490213660_9ea45550cf.jpg
>1490670858_e122df2560.jpg
>1491192153_7c395991e5.jpg
>1

>1977827746_4e13d7e19f.jpg
>197924859_f6e39a7dfa.jpg
>1980315248_82dbc34676.jpg
>1980882959_9a161f3469.jpg
>1982852140_56425fa7a2.jpg
>1984936420_3f3102132b.jpg
>1989145280_3b54452188.jpg
>1991806812_065f747689.jpg
>1994416869_4dd769a806.jpg
>199463720_329a802206.jpg
>199809190_e3f6bbe2bc.jpg
>1998255400_0cd086908f.jpg
>1998457059_c9ac9a1e1a.jpg
>1999444757_1b92efb590.jpg
>2000459828_3c9e109106.jpg
>2003663004_5b70920a98.jpg
>2004674713_2883e63c67.jpg
>200771289_31902164a7.jpg
>2009636597_e3f4fe19fb.jpg
>201682811_105241dee3.jpg
>2017276266_566656c59d.jpg
>2021602343_03023e1fd1.jpg
>2021613437_d99731f986.jpg
>2021671653_567395c7cf.jpg
>2029280005_a19609c81a.jpg
>2030781555_b7ff7be28f.jpg
>203114209_e4cd71a6b7.jpg
>2034553054_b00c166895.jpg
>2036407732_d5a0389bba.jpg
>2038662925_f4fa8c2534.jpg
>2039457436_fc30f5e1ce.jpg
>2040941056_7f5fd50794.jpg
>2041867793_552819a40b.jpg
>2042009399_afad34e7c1.jpg
>2043427251_83b746da8e.jpg
>2043520315_4a2c782c90.jpg
>2044063458_fcc76a7636.jpg
>204502

>2169951750_495820a215.jpg
>2170187328_65c2f11891.jpg
>2170222061_e8bce4a32d.jpg
>2171154778_8189169336.jpg
>2171576939_d1e72daab2.jpg
>2171891283_dedd9cf416.jpg
>2172493537_128bc8b187.jpg
>2172526745_649f420569.jpg
>2173061319_1f267765dc.jpg
>2173312932_269f9786fc.jpg
>2173677067_9d0732bcc2.jpg
>2174206711_11cb712a8d.jpg
>217583047_5e93e1e119.jpg
>2176147758_9a8deba576.jpg
>2176364472_31fcd37531.jpg
>2176874361_2b4149010b.jpg
>2176980976_7054c99621.jpg
>2178064851_bb39652d28.jpg
>2178095150_436b035741.jpg
>2178306830_6af49375b4.jpg
>217838128_1f0a84ddc1.jpg
>2180356743_b3a3c9a7f6.jpg
>2180480870_dcaf5ac0df.jpg
>2180886307_5156460b2c.jpg
>2181117039_c4eea8036e.jpg
>2181724497_dbb7fcb0a9.jpg
>2181846120_3744ca3942.jpg
>2182050469_1edac0bc60.jpg
>2182488373_df73c7cc09.jpg
>2183227136_8bb657846b.jpg
>218342358_1755a9cce1.jpg
>2183967273_d182e18cf6.jpg
>2185793891_5a5e903ca6.jpg
>2186087673_c7a73da7ce.jpg
>2186139563_e60c1d4b8b.jpg
>2186367337_0ce9ce2104.jpg
>2187222896_c206d63396.jpg
>218

>2282522980_45cfa8e0cf.jpg
>2282600972_c22d1e03c7.jpg
>2282895743_f803f1cf01.jpg
>2283966256_70317e1759.jpg
>2284239186_c827f4defa.jpg
>2284894733_b710b9b106.jpg
>2285152690_3fb93f65f1.jpg
>2285570521_05015cbf4b.jpg
>2285741931_07159a21f2.jpg
>2286032269_8ba929709c.jpg
>2286235203_af3cd8f243.jpg
>2286236765_2a63eeb550.jpg
>2286239223_d84ffc4e4a.jpg
>2286270205_16038dec5a.jpg
>2286823363_7d554ea740.jpg
>2287023569_fd7a9c60b8.jpg
>2287887341_663bfa15af.jpg
>2288099178_41091aa00c.jpg
>2288315705_5f4c37d932.jpg
>2288530008_4ebcee2174.jpg
>2289068031_fe26990183.jpg
>2289096282_4ef120f189.jpg
>2289212650_69de7a20b2.jpg
>228949397_9e63bfa775.jpg
>2290330500_e7bdaa58e1.jpg
>2290589734_b588471345.jpg
>2291485126_b8d41a63f4.jpg
>2291511815_ac083fddbd.jpg
>2292406847_f366350600.jpg
>2293149170_38fb2257ea.jpg
>2293424366_7b5fcd2398.jpg
>2294516804_11e255807a.jpg
>2294598473_40637b5c04.jpg
>2294688426_96c8614f1d.jpg
>2295216243_0712928988.jpg
>2295447147_458cfea65a.jpg
>2295750198_6d152d7ceb.jpg
>2

>2403544744_cba152f5c1.jpg
>2404488732_ca1bbdacc2.jpg
>2404520067_87798dbaee.jpg
>2404692474_37da774368.jpg
>2405599120_ec5f32af6f.jpg
>240583223_e26e17ee96.jpg
>2405978603_6221b0c2e7.jpg
>2406591500_403f145905.jpg
>240696675_7d05193aa0.jpg
>2407091303_931c918490.jpg
>2407470303_6fd5e3600d.jpg
>2409312675_7755a7b816.jpg
>2409597310_958f5d8aff.jpg
>2410040397_1a161a1146.jpg
>2410153942_ba4a136358.jpg
>241031254_0c6f30e3d1.jpg
>241031670_e60f59b8e4.jpg
>2410320522_d967f0b75c.jpg
>2410399168_1462c422d4.jpg
>241046599_28b0ca7b9f.jpg
>2410562803_56ec09f41c.jpg
>2410618963_fb78307d18.jpg
>241109594_3cb90fe2a3.jpg
>2411824767_4eb1fae823.jpg
>2412390588_a89cab30f4.jpg
>241345323_f53eb5eec4.jpg
>241345427_ece0d186c2.jpg
>241345446_2e47ae8ddc.jpg
>241345522_c3c266a02a.jpg
>241345533_99c731403a.jpg
>241345596_91e0e2daf5.jpg
>241345639_1556a883b1.jpg
>241345656_861aacefde.jpg
>241345721_3f3724a7fc.jpg
>241345770_9f8aa6723c.jpg
>241345811_46b5f157d4.jpg
>241345844_69e1c22464.jpg
>241345864_138471c9

>2480327661_fb69829f57.jpg
>2480664591_e6d22ed61c.jpg
>2480668859_6f9b46be6a.jpg
>2480820830_bdec1f5b76.jpg
>2480832276_fa55480ecb.jpg
>2480850054_de3433b54a.jpg
>2481003841_06086eafc2.jpg
>2481367956_8577d2fa98.jpg
>2481490320_7978c76271.jpg
>2481598514_05a65d1f72.jpg
>248174959_2522871152.jpg
>2482629385_f370b290d1.jpg
>2483792149_a9b4ffecec.jpg
>2483993772_f64e9e4724.jpg
>2483993827_243894a4f9.jpg
>2484190118_e89363c465.jpg
>2485467050_1d5e2696d4.jpg
>2486364531_b482d7f521.jpg
>248646530_03c6284759.jpg
>248858242_1c33c54ada.jpg
>2488795251_c108c77b13.jpg
>2489602993_896c1ea40a.jpg
>248994078_a9257f448b.jpg
>2490179961_e842fda5eb.jpg
>2490365757_b869282cb3.jpg
>2490687446_9d46fdf5a9.jpg
>2490768374_45d94fc658.jpg
>2490863987_715383944a.jpg
>2491343114_a3e35a2a3a.jpg
>2492258999_5764124bba.jpg
>2493469969_11b6190615.jpg
>249394748_2e4acfbbb5.jpg
>2493974889_50ae29f1e1.jpg
>2495394666_2ef6c37519.jpg
>2495931537_9b8d4474b6.jpg
>2496236371_61dec88113.jpg
>2496370758_a3fbc49837.jpg
>24963

>2588625139_fdf6610218.jpg
>2588927489_f4da2f11ec.jpg
>2589156742_c46bc82137.jpg
>2589241160_3832440850.jpg
>2589308405_e208b5e745.jpg
>2590207488_ddd89037ba.jpg
>2591110592_ef5f54f91c.jpg
>2591455200_2319651f2f.jpg
>2591486448_48d5438343.jpg
>2591603141_33d6397e0a.jpg
>2592019072_a6c0090da4.jpg
>2592711202_55f8c64495.jpg
>259314892_a42b8af664.jpg
>2593406865_ab98490c1f.jpg
>2593695271_4d9cc9bd6f.jpg
>2594042571_2e4666507e.jpg
>2594336381_a93772823b.jpg
>2594459477_8ca0121a9a.jpg
>2594902417_f65d8866a8.jpg
>2595102568_347f6d4b07.jpg
>2595186208_9b16fa0ee3.jpg
>2595713720_30534e8de2.jpg
>2596100297_372bd0f739.jpg
>2596474836_79468f23a0.jpg
>2596475173_58f11fc583.jpg
>2596514158_c516e57974.jpg
>2596619849_7b635dd310.jpg
>2596876977_b61ee7ee78.jpg
>2597308074_acacc12e1b.jpg
>2597737483_6518a230e4.jpg
>2597873827_a5cb3e57ba.jpg
>2597958208_e03aa149c9.jpg
>2598012140_832863fcb9.jpg
>2598979962_c01811cfca.jpg
>2599131872_65789d86d5.jpg
>2599444370_9e40103027.jpg
>2599903773_0f724d8f63.jpg
>2

>2689163361_4939875be5.jpg
>2689358407_9932f1b20c.jpg
>2689491604_d8760f57b4.jpg
>2690538407_7ca157be85.jpg
>2690702549_cf81da8cf6.jpg
>2691966747_cfa154982b.jpg
>2692635048_16c279ff9e.jpg
>2693425189_47740c22ed.jpg
>2693539377_5442430f81.jpg
>269361490_a22ae818bf.jpg
>2694178830_116be6a6a9.jpg
>2694426634_118566f7ab.jpg
>2694890967_7c7a89de16.jpg
>2695001634_127fe2f0d7.jpg
>2695085448_a11833df95.jpg
>2695085632_10c4e6ea78.jpg
>2695085862_2ed62df354.jpg
>2695093520_5cfeb0729d.jpg
>2695961935_a2a6338f26.jpg
>2695962887_a1647c567b.jpg
>2696060728_3043cfc38c.jpg
>269630255_c3ec75c792.jpg
>2696394827_7342ced36f.jpg
>269650644_059a84ece5.jpg
>2696636252_91ef1491ea.jpg
>2696866120_254a0345bc.jpg
>2696951725_e0ae54f6da.jpg
>2697909987_128f11d1b7.jpg
>2698119128_62b4741043.jpg
>2698197294_ccd9327ef6.jpg
>2698487246_e827404cac.jpg
>2698614194_b4e6e11dff.jpg
>2698666984_13e17236ae.jpg
>269898095_d00ac7d7a4.jpg
>2699125097_c6801d80ed.jpg
>2699342860_5288e203ea.jpg
>2699426519_228719b1db.jpg
>2699

>2797185895_4d9e1e9508.jpg
>2797188545_aeb26c54c0.jpg
>279728508_6bd7281f3c.jpg
>2797438951_88a3ed7541.jpg
>2797511323_bf20acab45.jpg
>2798651021_2566f2a47e.jpg
>2798880731_4f51634374.jpg
>279901198_e7a88c855a.jpg
>2799871904_3b3125518a.jpg
>2800004913_c8394ba332.jpg
>2800758232_d7fa598065.jpg
>2800934095_b84a5009dd.jpg
>2800990525_a1f8427272.jpg
>2801146217_03a0b59ccb.jpg
>2801851082_8c3c480c0f.jpg
>2802337003_56e555cd30.jpg
>2804374083_311f98f5f2.jpg
>2804851816_9aae9071ca.jpg
>2805101709_1c8916f63a.jpg
>2805822564_6dee48e506.jpg
>2805873509_4f68afc4b4.jpg
>2806632713_edd6f6c893.jpg
>2806710650_e201acd913.jpg
>280706862_14c30d734a.jpg
>2807177340_bc85291df5.jpg
>2807209904_389d81f33a.jpg
>2808098783_c56b44befa.jpg
>2808870080_4ea4f3327e.jpg
>280932151_ae14a67be5.jpg
>2809793070_1a3387cd6e.jpg
>2810333931_47fd8dd340.jpg
>2810412010_f8b3bc1207.jpg
>2812125355_5e11a76533.jpg
>2812590023_50182bc417.jpg
>2813033949_e19fa08805.jpg
>2813588204_69fe7deb14.jpg
>2813784259_d201044d71.jpg
>2813

>2887744223_029f2fd5fe.jpg
>2887750774_920eb171aa.jpg
>2887798667_ce761d45e8.jpg
>2888386138_578d21033a.jpg
>2888408966_376c195b3f.jpg
>2888658480_e922a3dec2.jpg
>2888702775_0939a6680e.jpg
>2888732432_7e907a3df1.jpg
>288880576_818b6ecfef.jpg
>2890057168_c712f932e0.jpg
>2890075175_4bd32b201a.jpg
>2890113532_ab2003d74e.jpg
>2890731828_8a7032503a.jpg
>2891162278_fbf96be4f4.jpg
>2891185857_54942809cf.jpg
>2891240104_6755281868.jpg
>2891617125_f939f604c7.jpg
>2891924845_92f69b0f18.jpg
>2891961886_b7a2f0b0fd.jpg
>2892395757_0a1b0eedd2.jpg
>2892413015_5ecd9d972a.jpg
>2892467862_52a3c67418.jpg
>2892989340_bb7e0e5548.jpg
>2892992529_f3335d0a71.jpg
>2892995070_39f3c9a56e.jpg
>2893238950_8a027be110.jpg
>2893374123_087f98d58a.jpg
>2893476169_f38dd32051.jpg
>2893515010_4a3d9dcc67.jpg
>2894008505_a445ccaaff.jpg
>2894217628_f1a4153dca.jpg
>2894229082_ddc395f138.jpg
>2894576909_99c85fd7a7.jpg
>2894850774_2d530040a1.jpg
>2895403073_906768cafa.jpg
>2895700779_fac1d9d278.jpg
>2895966469_53e0b29295.jpg
>2

>2977246776_b14be8290d.jpg
>2977379863_2e8d7a104e.jpg
>2978024878_a45b282bf4.jpg
>2978236380_fb24c43f1e.jpg
>2978271431_f6a7f19825.jpg
>2978394277_4572967b97.jpg
>2978409165_acc4f29a40.jpg
>2978735290_7464b12270.jpg
>2978810122_183e60ff2d.jpg
>2979914158_5906470b8f.jpg
>2980118787_2099de53ec.jpg
>2980348138_91cc6f6d0f.jpg
>2980445969_a86f4e6a0e.jpg
>2981372647_2061278c60.jpg
>2981702521_2459f2c1c4.jpg
>2982881046_45765ced2c.jpg
>2982928615_06db40f4cd.jpg
>2983555530_a89f1f5ed7.jpg
>2984174290_a915748d77.jpg
>2984704498_29b53df5df.jpg
>2985439112_8a3b77d5c9.jpg
>2985679744_75a7102aab.jpg
>2986280913_13fb2d472e.jpg
>2986620935_e97763983d.jpg
>2986671935_0c60bbb3fa.jpg
>2986716822_e220754d32.jpg
>2987096101_a41896187a.jpg
>2987121689_f9de6c479b.jpg
>2987195421_e830c59fb6.jpg
>2987328689_96a2d814f1.jpg
>2987576188_f82304f394.jpg
>2987775031_3f9ac69319.jpg
>2988244398_5da7012fce.jpg
>2988439935_7cea05bc48.jpg
>298920219_9a3f80acc5.jpg
>2990471798_73c50c76fb.jpg
>2990563425_2f7246f458.jpg
>2

>306318683_5f1f875191.jpg
>3063544435_10516c6937.jpg
>3064097919_e536ab9693.jpg
>3064383768_f6838f57da.jpg
>3064716525_b8418d4946.jpg
>3065468339_4955e90fd3.jpg
>3065560742_f6e266ccd9.jpg
>3066338314_2c3fb731d1.jpg
>3066429707_842e50b8f7.jpg
>3066491113_86569e15be.jpg
>3067500667_0fce8f28d4.jpg
>3067885047_f69d90c35b.jpg
>3067971348_69af5bb309.jpg
>3068407619_5207b26986.jpg
>3068735836_872fba3068.jpg
>3068945309_ff0973e859.jpg
>3068994801_b2bc079e67.jpg
>3069037969_bb7319e0dc.jpg
>3069216757_c419b3898e.jpg
>3069282021_e05e1829f3.jpg
>3069786374_804e1123ac.jpg
>3069937639_364fc11e99.jpg
>3070011270_390e597783.jpg
>3070031806_3d587c2a66.jpg
>3070130228_67dcfee9ae.jpg
>3070274658_fc39fd4f84.jpg
>3070485870_eab1a75c6f.jpg
>3070713991_8696796937.jpg
>3071676551_a65741e372.jpg
>3072114570_e1c0127529.jpg
>3072172967_630e9c69d0.jpg
>3072611047_109bf8b7c3.jpg
>3072730593_b7322d2e05.jpg
>3072782873_3278f3b3a7.jpg
>307301755_48919ef1b2.jpg
>307321761_606fc91673.jpg
>307327914_f98f576adb.jpg
>3073

>3138399980_d6ab8b2272.jpg
>3138433655_ea1d59e5b7.jpg
>3138504165_c7ae396294.jpg
>3138562460_44227a35cf.jpg
>3138746531_f6b816c126.jpg
>3139118874_599b30b116.jpg
>3139160252_75109e9e05.jpg
>3139238055_2817a0c7d8.jpg
>3139389284_f01bd4c236.jpg
>3139393607_f0a54ca46d.jpg
>3139837262_fe5ee7ccd9.jpg
>3139876823_859c7d7c23.jpg
>3139895886_5a6d495b13.jpg
>3141293960_74459f0a24.jpg
>3141440149_00becbbb93.jpg
>3141613533_595723208d.jpg
>3142055158_01b9e4caa4.jpg
>3143155555_32b6d24f34.jpg
>3143159297_6f2f663ea6.jpg
>3143574389_8a4048fbe2.jpg
>3143765063_a7761b16d3.jpg
>3143953179_1c08c023a5.jpg
>3143978284_ac086be9a3.jpg
>3143980056_7a64a94b58.jpg
>3143982558_9e2d44c155.jpg
>3143991972_7193381aeb.jpg
>3144705706_391d7b77c7.jpg
>3145869775_85dfae43bd.jpg
>3145967019_1a83ebf712.jpg
>3145967309_b33abe4d84.jpg
>314603661_51e05e0e24.jpg
>3146232740_df3da0163b.jpg
>3146355833_1b7fc80210.jpg
>3146630574_05d9ebbed1.jpg
>314685044_da4390728e.jpg
>3146937399_8c046b7b1a.jpg
>3147217787_ed21cd4990.jpg
>31

>3207343907_995f7ac1d2.jpg
>3207358897_bfa61fa3c6.jpg
>3207654194_43d6bebd68.jpg
>3207676216_48478bce97.jpg
>3207775692_bb897d9afd.jpg
>3208032657_27b9d6c4f3.jpg
>3208074567_ac44aeb3f3.jpg
>3208188198_2b271d2a2e.jpg
>3208553539_2bf6c6d162.jpg
>3208571574_6dc1a461c5.jpg
>3208987435_780ae35ef0.jpg
>3208999896_dab42dc40b.jpg
>3209350613_eb86579ee8.jpg
>3209523192_05a4cef844.jpg
>3209564153_077ed4d246.jpg
>3209620285_edfc479392.jpg
>3209966887_5b744bd050.jpg
>3210359094_ee51285301.jpg
>3210419174_d083a16f77.jpg
>3210457502_c6030ce567.jpg
>3210705660_2b14b7fb36.jpg
>3211029717_2affe6bbd5.jpg
>3211199368_ca78387f72.jpg
>3211210739_3dea005fde.jpg
>3211289105_e0360a9c7f.jpg
>3211316116_a2462e327d.jpg
>3211437611_bd4af3730b.jpg
>3211453055_05cbfe37cd.jpg
>3211556865_d1d9becf69.jpg
>3211577298_14296db6fd.jpg
>3211581957_df2f7e2236.jpg
>3212085754_35fdc9ccaa.jpg
>321229104_3cbaf0f51c.jpg
>3212456649_40a3052682.jpg
>3212465975_b657f40eed.jpg
>3212625256_685bc4de99.jpg
>3213395965_2a823c6865.jpg
>3

>3263395801_5e4cee2b9e.jpg
>3263497678_8bb688ca01.jpg
>3263741906_6e4508d1c8.jpg
>3263946591_a1558b77d3.jpg
>3264337159_e1680a35ba.jpg
>3264350290_f50494e835.jpg
>3264397357_72f084cac1.jpg
>3264464625_c711cc40c6.jpg
>326456451_effadbbe49.jpg
>3264650118_be7df266e7.jpg
>3264678536_46601d25f0.jpg
>3264937930_9623496b64.jpg
>3265162450_5b4e3c5f1b.jpg
>3265209567_b3b9c8e0fe.jpg
>3265527323_6431f00692.jpg
>3265578645_4044a7049a.jpg
>326585030_e1dcca2562.jpg
>3265864834_e0229020dd.jpg
>3265964840_5374ed9c53.jpg
>3266261886_36e1323d2f.jpg
>3266306177_7994dc2865.jpg
>3266399073_40820596d5.jpg
>3266406566_d64e57e65a.jpg
>3267644370_f2728d6c7a.jpg
>3268175963_113d90d178.jpg
>3268191118_ba25fabab6.jpg
>3268407162_6274e0f74f.jpg
>3268443910_b36dbc1e5c.jpg
>3268908792_c24529fe88.jpg
>3269087421_1d489abeae.jpg
>3269380710_9161b0bd00.jpg
>3269661567_faf190885a.jpg
>3269895626_7b253c82ed.jpg
>3270047169_2ed289a9af.jpg
>3270083123_fcc1208053.jpg
>3270273940_61ef506f05.jpg
>3270691950_88583c3524.jpg
>32

>3331525712_af1dcc47f2.jpg
>3331797838_b3e33dbe17.jpg
>3331900249_5872e90b25.jpg
>3332136681_9aecf101fd.jpg
>3332202255_a30c522664.jpg
>3332248667_617606714b.jpg
>3332467180_d72f9b067d.jpg
>3333017828_b930b9d41b.jpg
>3333039854_461329aac2.jpg
>3333675897_0043f992d3.jpg
>3333826465_9c84c1b3c6.jpg
>3333921867_6cc7d7c73d.jpg
>3334057289_68ece38a85.jpg
>3334300164_e75e0479ae.jpg
>3334537556_a2cf4e9b9a.jpg
>3334866049_f5933344aa.jpg
>3334953664_a669038795.jpg
>3335097235_538f4777c3.jpg
>3335370208_460fc19bfa.jpg
>3335375223_b4da8df523.jpg
>3335501468_628655d608.jpg
>3335547029_74d620fa6c.jpg
>3335692531_dd4a995f91.jpg
>3335773346_ac0d97efeb.jpg
>3335885203_a3fe8e541f.jpg
>3335997221_254366c400.jpg
>3336065481_2c21e622c8.jpg
>3336211088_4c294a870b.jpg
>3336361161_c06cdd160e.jpg
>3336374196_f6eaca542f.jpg
>3336682980_1082a66878.jpg
>3336759846_5220e27deb.jpg
>3336808362_c17837afd8.jpg
>3336831820_5c5df4b033.jpg
>3337046794_296bd2c7e0.jpg
>3337332770_5eda5cceb7.jpg
>3337461409_e4e317853d.jpg
>

>3394070357_cb2a3243fc.jpg
>3394586927_eae7732b64.jpg
>3394654132_9a8659605c.jpg
>3394750987_a32ecc477e.jpg
>3395173129_f0ac0a1ed4.jpg
>3396036947_0af6c3aab7.jpg
>3396043950_12783c5147.jpg
>3396153660_f729d9f9b9.jpg
>3396157719_6807d52a81.jpg
>3396251819_1efa69310f.jpg
>3396275223_ee080df8b5.jpg
>339658315_fbb178c252.jpg
>3396817186_b299ee0531.jpg
>3397220683_4aca010f86.jpg
>3397228832_8ce5b1c26f.jpg
>3397259310_1ed1a346b5.jpg
>3397310901_cbef5c06ef.jpg
>3397633339_d1ae6d9a0e.jpg
>3397803103_8a46d716f4.jpg
>339822505_be3ccbb71f.jpg
>3398276602_c7d106c34f.jpg
>3398745929_8cd3bbb8a8.jpg
>3398746625_5199beea71.jpg
>3398788809_25c71ba018.jpg
>3399028417_50a621274c.jpg
>3399284917_721aefe2a7.jpg
>3399312265_9c74378692.jpg
>3399616238_77acf4ee12.jpg
>3399618896_9ef60cd32c.jpg
>3399798295_a452963365.jpg
>3399843227_3b9d2a8dbf.jpg
>3399906919_bc8562b257.jpg
>3399944164_ec24123945.jpg
>3400041870_4e7732b40f.jpg
>3400082864_9c737c1450.jpg
>3400135828_0ac128b6eb.jpg
>3400186336_37043a2f5b.jpg
>34

>3452341579_0147d2199b.jpg
>3452411712_5b42d2a1b5.jpg
>345284642_77dded0907.jpg
>3452982513_36f2bc81fa.jpg
>3453019315_cfd5c10dae.jpg
>3453259666_9ecaa8bb4b.jpg
>3453284877_8866189055.jpg
>3453313865_1ebff5393c.jpg
>3453544202_3855ab34b6.jpg
>3454149297_01454a2554.jpg
>3454199170_ae26917dcd.jpg
>3454315016_f1e30d4676.jpg
>3454355269_6185e29f95.jpg
>3454621502_73af6742fb.jpg
>3454754632_977c1523be.jpg
>3454988449_1de1ef4f20.jpg
>3455405300_aa3069ecaa.jpg
>3455419642_894d03f153.jpg
>3455757720_7aeba57056.jpg
>3455898176_f0e003ce58.jpg
>3455920874_6fbec43194.jpg
>3456251289_c4ae31d817.jpg
>3456362961_d8f7e347a8.jpg
>3456579559_b5c8927938.jpg
>345684566_235e8dfcc1.jpg
>3456862740_7550bcddc2.jpg
>3457045393_2bbbb4e941.jpg
>3457210101_3533edebc8.jpg
>3457315666_b943111dec.jpg
>3457364788_3514a52091.jpg
>3457455611_94ee93929f.jpg
>3457460673_800d7f7dd9.jpg
>3457572788_e1fe4f6480.jpg
>3457604528_302396c08c.jpg
>3457784061_8f77f43a9c.jpg
>3457856049_2de173e818.jpg
>345785626_9fa59f38ce.jpg
>345

>3514278386_de2343577e.jpg
>3514297698_0512623955.jpg
>3515358125_9e1d796244.jpg
>3515451715_ac5ac04efa.jpg
>3515665835_22e6fb1193.jpg
>3515904775_f8acc5909e.jpg
>3516267455_ca17cc1323.jpg
>3516285214_59823b341e.jpg
>3516299821_8f0375d221.jpg
>3516312179_f520469038.jpg
>3516521516_9950340b96.jpg
>3516653997_98ec551a67.jpg
>3516825206_5750824874.jpg
>3516935867_78cf63c69c.jpg
>3516960094_87fb4889de.jpg
>3517023411_a8fbd15230.jpg
>3517040752_debec03376.jpg
>3517056462_483ee5a914.jpg
>3517124784_4b4eb62a7a.jpg
>3517127930_5dbddb45f6.jpg
>3517362674_0f5296de19.jpg
>3517466790_17c7753a1a.jpg
>3518118675_5053b3f738.jpg
>3518126579_e70e0cbb2b.jpg
>3518334317_bc40bae18d.jpg
>3518443604_6da641f07d.jpg
>3518608016_46453d8b18.jpg
>3518675890_2f65e23ff9.jpg
>3518687038_964c523958.jpg
>3518755601_cebf11e515.jpg
>351876121_c7c0221928.jpg
>3519155763_045a6a55e2.jpg
>3519815055_304dc8e8d6.jpg
>3519942322_b37d088aae.jpg
>3520079657_b828d96d50.jpg
>3520199925_ca18d0f41e.jpg
>3520321387_710ab74cda.jpg
>3

>356929855_6bbf33d933.jpg
>3569329986_1f468729b2.jpg
>3569406219_f37ebf7b92.jpg
>3569420080_72fbe84751.jpg
>3569667295_6e51db08ef.jpg
>3569755200_cef7ee2233.jpg
>3569979711_6507841268.jpg
>3570800810_978c993133.jpg
>3571039224_b34fa2f94c.jpg
>3571147934_d1c8af1d6e.jpg
>3571193625_835da90c5e.jpg
>3571675421_7e07ac07c5.jpg
>357191373_a1cb5696e8.jpg
>3572144280_ea42bbd927.jpg
>3572267708_9d8a81d4a4.jpg
>3572346664_e1e6c77f11.jpg
>3572942419_16ebdc3d46.jpg
>3573202338_f43dd22d28.jpg
>3573436368_78f0ccdf01.jpg
>3574244361_715ac347cd.jpg
>3574627719_790325430e.jpg
>3574930742_9081bd2426.jpg
>3576060775_d9121519cc.jpg
>3576250302_14779632bd.jpg
>3576259024_9c05b163aa.jpg
>3576312396_799c873f3e.jpg
>3576536763_3c8c4f232e.jpg
>3576741633_671340544c.jpg
>3576840040_9356b5b10a.jpg
>3577235421_69e4efb8d1.jpg
>357725852_6f55cb9abc.jpg
>3577309234_c952c2af86.jpg
>3578068665_87bdacef6a.jpg
>3578372039_57473f473c.jpg
>3578477508_b7d839da16.jpg
>3578841731_f775cab089.jpg
>3578914491_36019ba703.jpg
>357

>3635177305_bfbe1fc348.jpg
>3635194562_4c1dfa120a.jpg
>3635577874_48ebaac734.jpg
>3635911776_dbc2763f2c.jpg
>3635991166_f95304af0a.jpg
>3636055584_65a60426f8.jpg
>3636126441_5617c89aaa.jpg
>363617160_6cb0c723be.jpg
>3636247381_65ccf8f106.jpg
>3636418958_f038130bb2.jpg
>3636491114_ab34dac833.jpg
>3636543173_15f56515e5.jpg
>3636632926_09f39f2629.jpg
>3636796219_9916c0465a.jpg
>3637013_c675de7705.jpg
>3637966641_1b108a35ba.jpg
>3638178504_be1ff246bd.jpg
>3638318149_b60450bfbe.jpg
>3638374272_444f5e0457.jpg
>3638440337_6d5c19a8f0.jpg
>3638459638_ec74e3ff89.jpg
>3638577494_fe55f7b4cb.jpg
>3638631362_af29bbff01.jpg
>3638688673_176f99d7fd.jpg
>3638783120_f600ceb19d.jpg
>3638783842_af08dbb518.jpg
>3638908276_b1751d30ff.jpg
>3638992163_a085cc0c24.jpg
>3639105305_bd9cb2d1db.jpg
>3639363462_bcdb21de29.jpg
>3639428663_dae5e8146e.jpg
>3639547922_0b00fed5cd.jpg
>3639617775_149001232a.jpg
>3639684919_cb6fbf5638.jpg
>3639704469_fe83e1c9b7.jpg
>3639845565_be547c38ba.jpg
>3639967449_137f48b43d.jpg
>3640

>3700554247_9824ae6f3a.jpg
>3701226275_952547ba0f.jpg
>3701249979_8bc757e171.jpg
>3701291852_373ea46bb6.jpg
>3701509233_a2275a4e57.jpg
>3701544312_b2e4e9813d.jpg
>3701878677_8f2c26227b.jpg
>3702038926_966fdaa311.jpg
>3702436188_2c26192fd0.jpg
>3702607829_2b8b3e65ab.jpg
>3703035378_c6034cac51.jpg
>3703107969_175da4b276.jpg
>3703413486_3c682732a0.jpg
>3703960010_1e4c922a25.jpg
>370442541_60d93ecd13.jpg
>3704431444_f337ec2b90.jpg
>3704698586_a42c25d0c1.jpg
>3704995657_e2e114083d.jpg
>3705430840_e108de78bf.jpg
>3705688385_47651205d3.jpg
>3705976184_53ae07e898.jpg
>370614351_98b8a166b9.jpg
>3706356018_28f62290e8.jpg
>3706653103_e777a825e4.jpg
>3707077198_efd6aa808d.jpg
>370713359_7560808550.jpg
>3707283973_5cdaa39340.jpg
>3707738261_777075e885.jpg
>3707990914_843e8f15f1.jpg
>3708172446_4034ddc5f6.jpg
>3708177171_529bb4ff1d.jpg
>3708244207_0d3a2b2f92.jpg
>3708266246_97a033fcc7.jpg
>3708743823_3e3e0554d1.jpg
>3708748633_e7e3cf4e84.jpg
>3708839890_ed448012cf.jpg
>3709030554_02301229ea.jpg
>371

>42637986_135a9786a6.jpg
>42637987_866635edf6.jpg
>426805536_d1d5e68c17.jpg
>426920445_d07d1fd0f7.jpg
>427082246_5bf1c3676f.jpg
>427167162_2c99779444.jpg
>427557693_1108566fd2.jpg
>427683329_95d510a087.jpg
>427936315_0b8f7b8d23.jpg
>428408242_b32faf2240.jpg
>428483413_b9370baf72.jpg
>428485639_a82635d6ee.jpg
>428796930_476a3d6395.jpg
>429174232_ddd4ff5e0b.jpg
>429205889_ff5a006311.jpg
>429270993_294ba8e64c.jpg
>429283612_37f6e7fb7f.jpg
>429851331_b248ca01cd.jpg
>430173345_86388d8822.jpg
>430803349_a66c91f64e.jpg
>430964917_022995afb6.jpg
>431018958_84b2beebff.jpg
>431282339_0aa60dd78e.jpg
>431410325_f4916b5460.jpg
>432167214_c17fcc1a2d.jpg
>432248727_e7b623adbf.jpg
>432490118_54a9c0e500.jpg
>432496659_f01464d9fb.jpg
>433810429_a4da0eac50.jpg
>433855742_c2a6fda763.jpg
>434433505_966e50e17d.jpg
>434792818_56375e203f.jpg
>434938585_fbf913dfb4.jpg
>435054077_3506dbfcf4.jpg
>435739506_2daf7f4887.jpg
>435827376_4384c3005a.jpg
>436009777_440c7679a1.jpg
>436013859_793d870b6f.jpg
>436015762_8d0

>509123893_07b8ea82a9.jpg
>509200598_171a1ab6c8.jpg
>509241560_00e5b20562.jpg
>509778093_21236bb64d.jpg
>510197538_0a11b94460.jpg
>510510783_b2cf5d57bb.jpg
>510531976_90bbee22a2.jpg
>510791586_3913ade6a7.jpg
>511282305_dbab4bf4be.jpg
>511749704_3037806cb1.jpg
>511844627_0ec78e01e9.jpg
>512026551_ba63ddbd31.jpg
>512031915_0dd03dcdf9.jpg
>512045825_1be2083922.jpg
>512101751_05a6d93e19.jpg
>512163695_51a108761d.jpg
>512306469_1392697d32.jpg
>512550372_438849ce19.jpg
>512634877_d7ad8c8329.jpg
>512991147_dc48e6839c.jpg
>513116697_ad0f4dc800.jpg
>513269597_c38308feaf.jpg
>514036362_5f2b9b7314.jpg
>514073775_56796be990.jpg
>514222285_aa0c8d05b7.jpg
>514222303_cb98584536.jpg
>514431934_9cf78f05a9.jpg
>514905846_b54d13946a.jpg
>514990193_2d2422af2c.jpg
>515335111_c4afd5b903.jpg
>515702827_be3c6ce857.jpg
>515755283_8f890b3207.jpg
>515797344_4ae75cb9b1.jpg
>516214924_c2a4364cb3.jpg
>516394876_8b9b8021bc.jpg
>516648762_0cff84ea97.jpg
>516725192_c9cdd63878.jpg
>516761840_842dabc908.jpg
>516998046_1

>745880539_cd3f948837.jpg
>745966757_6d16dfad8f.jpg
>746787916_ceb103069f.jpg
>747242766_afdc9cb2ba.jpg
>747921928_48eb02aab2.jpg
>749840385_e004bf3b7c.jpg
>750196276_c3258c6f1b.jpg
>751074141_feafc7b16c.jpg
>751109943_2a7f8e117f.jpg
>751737218_b89839a311.jpg
>752052256_243d111bf0.jpg
>753285176_f21a2b984d.jpg
>753578547_912d2b4048.jpg
>754852108_72f80d421f.jpg
>755326139_ee344ece7b.jpg
>756004341_1a816df714.jpg
>756521713_5d3da56a54.jpg
>756909515_a416161656.jpg
>757046028_ff5999f91b.jpg
>757133580_ba974ef649.jpg
>757332692_6866ae545c.jpg
>758921886_55a351dd67.jpg
>759015118_4bd3617e60.jpg
>760138567_762d9022d4.jpg
>760180310_3c6bd4fd1f.jpg
>762947607_2001ee4c72.jpg
>763577068_4b96ed768b.jpg
>765091078_a8a11c6f9e.jpg
>765298136_7805fbb079.jpg
>765929807_de381cc764.jpg
>766061382_6c7ff514c4.jpg
>766099402_cdda6964f0.jpg
>766346887_a9a9d0637a.jpg
>769260947_02bc973d76.jpg
>771048251_602e5e8f45.jpg
>771366843_a66304161b.jpg
>772212710_f5fc22ed35.jpg
>772403830_08b72c7da9.jpg
>774009278_8

# 提取文本信息

In [1]:
import string

def load_doc(filename):
    file = open(filename, 'r')
    text = file.read()
    file.close()
    return text

# 用字典存储标题-语句信息
def load_descriptions(doc):
    mapping = dict()
    for line in doc.split('\n'):
        # 以空格分隔
        tokens = line.split()
        if len(line) < 2:
            continue
        # 第一个是图片标题，后面的是描述语句
        image_id, image_desc = tokens[0], tokens[1:]
        # 去除.jpg的后缀
        image_id = image_id.split('.')[0]
        image_desc = ' '.join(image_desc)
        #以字典形式存储
        if image_id not in mapping:
            mapping[image_id] = list()
        mapping[image_id].append(image_desc)
    return mapping

#对描述语句进行预处理
def clean_descriptions(descriptions):
    # 逗号用空替换
    table = str.maketrans('', '', string.punctuation)
    for key, desc_list in descriptions.items():
        for i in range(len(desc_list)):
            desc = desc_list[i]
            desc = desc.split()
            # 大写转为小写
            desc = [word.lower() for word in desc]
            # 去除逗号
            desc = [w.translate(table) for w in desc]
            # 去除单个字母
            desc = [word for word in desc if len(word)>1]
            # 去除数字
            desc = [word for word in desc if word.isalpha()]

            desc_list[i] =  ' '.join(desc)

# 建立字典/词汇表
def to_vocabulary(descriptions):
    all_desc = set()
    for key in descriptions.keys():
        [all_desc.update(d.split()) for d in descriptions[key]]
    return all_desc

#保存文件
def save_descriptions(descriptions, filename):
    lines = list()
    for key, desc_list in descriptions.items():
        for desc in desc_list:
            lines.append(key + ' ' + desc)
    data = '\n'.join(lines)
    file = open(filename, 'w')
    file.write(data)
    file.close()

filename = 'Flickr8k_text/Flickr8k.token.txt'
doc = load_doc(filename)
# 加载描述语句
descriptions = load_descriptions(doc)
print('Loaded: %d ' % len(descriptions))
# 处理描述语句
clean_descriptions(descriptions)
# 统计单词个数
vocabulary = to_vocabulary(descriptions)
print('Vocabulary Size: %d' % len(vocabulary))
# 保存文件
save_descriptions(descriptions, 'descriptions.txt')

Loaded: 8092 
Vocabulary Size: 8763


# 加载训练集和测试集

In [2]:
from pickle import load

# 获取训练集的图片名称
def load_set(filename):
    doc = load_doc(filename)
    dataset = list()
    for line in doc.split('\n'):
        # 可能有空行
        if len(line) < 1:
            continue
        # 得到名称（.jpg之前的）
        identifier = line.split('.')[0]
        dataset.append(identifier)
    return set(dataset)

# 根据图片名称加载描述语句
def load_clean_descriptions(filename, dataset):
    doc = load_doc(filename)
    descriptions = dict()
    for line in doc.split('\n'):
        tokens = line.split()
        image_id, image_desc = tokens[0], tokens[1:]
        # 跳过不在训练集中的图片
        if image_id in dataset:
            if image_id not in descriptions:
                descriptions[image_id] = list()
            # 描述语句首尾加开始/终止词，用于序列输入
            desc = 'startseq ' + ' '.join(image_desc) + ' endseq'
            descriptions[image_id].append(desc)
    return descriptions

# 根据图片名称加载图片的特征向量
def load_photo_features(filename, dataset):
    all_features = load(open(filename, 'rb'))
    features = {k: all_features[k].reshape(1,49,512) for k in dataset}
    return features

#加载训练集的图片名称
filename = 'Flickr8k_text/Flickr_8k.trainImages.txt'
train = load_set(filename)
print('Dataset: %d' % len(train))
#通过图片名称得到图片的描述语句
train_descriptions = load_clean_descriptions('descriptions.txt', train)
print('Descriptions: train=%d' % len(train_descriptions))
#通过图片名称得到图片的特征向量
train_features = load_photo_features('features.pkl', train)
print('Photos: train=%d' % len(train_features))


#加载测试集的图片名称
filename = 'Flickr8k_text/Flickr_8k.devImages.txt'
test = load_set(filename)
print('Dataset: %d' % len(test))
#通过图片名称得到图片的描述语句
test_descriptions = load_clean_descriptions('descriptions.txt', test)
print('Descriptions: test=%d' % len(test_descriptions))
#通过图片名称得到图片的特征向量
test_features = load_photo_features('features.pkl', test)
print('Photos: test=%d' % len(test_features))

Dataset: 6000
Descriptions: train=6000
Photos: train=6000
Dataset: 1000
Descriptions: test=1000
Photos: test=1000


In [28]:
keys=test_features.keys()
vals=test_features.values()
L=[val for key,val in zip(keys,vals)]
L

[array([[[ 0.       ,  0.       ,  0.       , ...,  0.       ,
          19.219254 ,  0.       ],
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         [12.494615 ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         ...,
         [ 0.       ,  0.       ,  8.291057 , ...,  0.       ,
          26.973104 ,  0.       ],
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.8726615]]], dtype=float32),
 array([[[ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
           0.       ,  0.       ],
         ...,
         [ 0.       ,  0.       ,  0.       , ...,  0.       ,
         

# 创建单词映射与序列

In [37]:
from numpy import array
import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical


# 把描述语句存成一个列表
def to_lines(descriptions):
    all_desc = list()
    for key in descriptions.keys():
        [all_desc.append(d) for d in descriptions[key]]
    return all_desc

# 建立分词器tokenizer
def create_tokenizer(descriptions):
    lines = to_lines(descriptions)
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(lines)
    return tokenizer

# 计算最大的描述语句长度
def max_length(descriptions):
    lines = to_lines(descriptions)
    return max(len(d.split()) for d in lines)


def one_hot_encode(data, MAXIMUM_CAPTION_LENGTH, n_classes):
    result = np.zeros((len(data), MAXIMUM_CAPTION_LENGTH, n_classes))
    for i, item in enumerate(data):
        for j, word in enumerate(item):
            result[i, j, word] = 1.0
        for k in range(j+1, MAXIMUM_CAPTION_LENGTH):
            result[i, k, 0] = 1.0
    return result

def data_generator(batch_size, captions, get_image, tokenizer, max_length, vocab_size):
    while True:
        batch_indices = np.random.randint(0, len(captions), size=batch_size, dtype=np.int)

        keys=captions.keys()
        vals=captions.values()
        L=[key for key,val in zip(keys,vals)]

        batch_image_features = np.empty((len(batch_indices), 7*7, 512))
        for i, j in enumerate(batch_indices):
            batch_image_features[i] = get_image[L[j]].reshape((7*7, 512))

        batch_captions = [captions[L[item]] for item in batch_indices]
        batch_captions = [x[np.random.randint(0, len(x))][:max_length-1] for x in batch_captions]

        input_captions = [tokenizer.texts_to_sequences([x])[0] for x in batch_captions]
        output_captions = [tokenizer.texts_to_sequences([x])[0] for x in batch_captions]

        input_captions = np.array([x+[0]*(max_length-len(x)) for x in input_captions]).astype(np.float32)
        output_captions = one_hot_encode(output_captions, max_length,vocab_size)
       
        batch_image_features = np.array(batch_image_features, dtype=np.float32)

        x_data = [input_captions,batch_image_features]
        y_data = [output_captions]

        yield (x_data, y_data)


#输出所有语句不同的单词总数
tokenizer = create_tokenizer(train_descriptions)
vocab_size = len(tokenizer.word_index) + 1
print('Vocabulary Size: %d' % vocab_size)

#输出单个语句最大长度
max_length = max_length(train_descriptions)
print('Description Length: %d' % max_length)

Vocabulary Size: 7579
Description Length: 34


# 模型定义与训练

In [40]:
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers import LSTM
from keras.layers import Embedding
from keras.layers import Dropout
from keras.layers import TimeDistributed
from keras.layers import Lambda
import keras.backend as K
from keras.callbacks import ModelCheckpoint
from kulc.attention import ExternalAttentionRNNWrapper

def define_model(vocab_size, max_length):
    
    # 以下是图片特征提取层
    inputs1 = Input(shape=(49,512))
    image_features = TimeDistributed(Dense(512, activation="relu"))(inputs1)
    
    # 以下是文本特征提取层
    inputs2 = Input(shape=(max_length,))
    se1 = Embedding(vocab_size, 256, input_length=max_length)(inputs2)
    
    #以下是attention层
    averaged_image_features = Lambda(lambda x: K.mean(x, axis=1))
    averaged_image_features = averaged_image_features(inputs1)
    initial_state_h = Dense(256)(averaged_image_features)
    initial_state_c = Dense(256)(averaged_image_features)
    
    encoder = LSTM(256, return_sequences=True, return_state=True, recurrent_dropout=0.1)
    attented_encoder = ExternalAttentionRNNWrapper(encoder, return_attention=True)
    output = TimeDistributed(Dense(vocab_size, activation="softmax"), name="output")
    attented_encoder_training_data, _, _ , _= attented_encoder([se1,image_features], initial_state=[initial_state_h, initial_state_c])
    training_output_data = output(attented_encoder_training_data)
    
    model = Model(inputs=[inputs2, inputs1], outputs=training_output_data)
    model.compile(loss='categorical_crossentropy', optimizer='adam')
    
    # 模型描述与绘制
    print(model.summary())
    plot_model(model, to_file='model.png', show_shapes=True)
    return model

model = define_model(vocab_size, max_length)

# 保存模型
filepath = 'model-ep{epoch:03d}-loss{loss:.3f}.h5'
checkpoint = ModelCheckpoint(filepath, verbose=1, mode='min')

steps = len(train_descriptions)
batch_size = 64

# create the data generator
generator = data_generator(batch_size,train_descriptions, train_features, tokenizer, max_length, vocab_size)
# fit for one epoch
model.fit_generator(generator, epochs=20, steps_per_epoch=steps//batch_size, verbose=1,callbacks=[checkpoint])

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_27 (InputLayer)           (None, 49, 512)      0                                            
__________________________________________________________________________________________________
input_28 (InputLayer)           (None, 34)           0                                            
__________________________________________________________________________________________________
lambda_19 (Lambda)              (None, 512)          0           input_27[0][0]                   
__________________________________________________________________________________________________
embedding_19 (Embedding)        (None, 34, 256)      1940224     input_28[0][0]                   
__________________________________________________________________________________________________
time_distr



Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


  str(node.arguments) + '. They will not be included '


# 模型评价

In [56]:
from numpy import argmax
from pickle import load
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import load_model
from nltk.translate.bleu_score import corpus_bleu
from kulc.attention import ExternalAttentionRNNWrapper

# 数字映射到单词
def word_for_id(integer, tokenizer):
    for word, index in tokenizer.word_index.items():
        if index == integer:
            return word
    return None

# 把模型预测转换成语句
def generate_desc(model, tokenizer, photo, max_length):
    in_text = 'startseq'
    # 模型每次生成一个单词，直到endseq停止
    for i in range(max_length):
        # 把上一个循环为止生成的所有单词构成序列
        sequence = tokenizer.texts_to_sequences([in_text])[0]
        # 填充剩余部分，让序列长度为maxlength
        sequence = pad_sequences([sequence], maxlen=max_length)
        # 输入模型，预测下一个单词
        yhat = model.predict([sequence,photo], verbose=0)
        # 选择概率最高的为下一个单词
        yhat = argmax(yhat)
        word = word_for_id(yhat, tokenizer)
        # 无法预测，停止
        if word is None:
            break
        # 逐步添加单词
        in_text += ' ' + word
        # 遇到结尾词，停止
        if word == 'endseq':
            break
    return in_text

def inference(image_features, plot_attention):
    image_features = np.array([image_features])
    state_h, state_c = initial_state_inference_model.predict(image_features)

    caption = [le.transform_word("<START>")]
    attentions = []

    current_word = None
    for t in range(MAXIMUM_CAPTION_LENGTH):
        caption_array = np.array(caption).reshape(1, -1)
        output, state_h, state_c, attention = inference_model.predict([image_features, caption_array, state_h, state_c])
        attentions.append(attention[0, -1].reshape((14, 14)))

        current_word = np.argmax(output[0, -1])
        caption.append(current_word)

        if current_word == le.transform_word("<STOP>"):
            break
    sentence = [le._index_word_map[i] for i in caption[1:]]

    if plot_attention:
        print(len(attentions))
        x = int(np.sqrt(len(attentions)))
        y = int(np.ceil(len(attentions) / x))
        _, axes = plt.subplots(y, x, sharex="col", sharey="row")
        axes = axes.flatten()
        for i in range(len(attentions)):
            atn = skimage.transform.pyramid_expand(attentions[i], upscale=16, sigma=20)
            axes[i].set_title(sentence[i])
            axes[i].imshow(atn, cmap="gray")

        plt.show()

    return " ".join(sentence) + " ({0})".format(len(caption)-1)



#模型BLEU分数计算
def evaluate_model(model, descriptions, photos, tokenizer, max_length):
    actual, predicted = list(), list()
    cout=0
    for key, desc_list in descriptions.items():
        # yhat为模型的输出语句
        yhat = generate_desc(model, tokenizer, photos[key], max_length)
        # references使实际的描述语句
        references = [d.split() for d in desc_list]
        
        actual.append(references)
        predicted.append(yhat.split())
        
    # 计算BLEU分数
    print('BLEU-1: %f' % corpus_bleu(actual, predicted, weights=(1.0, 0, 0, 0)))
    print('BLEU-2: %f' % corpus_bleu(actual, predicted, weights=(0.5, 0.5, 0, 0)))
    print('BLEU-3: %f' % corpus_bleu(actual, predicted, weights=(0.3, 0.3, 0.3, 0)))
    print('BLEU-4: %f' % corpus_bleu(actual, predicted, weights=(0.25, 0.25, 0.25, 0.25)))

evaluate_model(model, test_descriptions, test_features, tokenizer, max_length)

[[[1.5433806e-02 9.4814676e-01 1.3953310e-07 ... 2.3570462e-07
   5.8371461e-07 2.7503680e-07]
  [9.9288601e-01 2.9191613e-04 3.4585406e-07 ... 3.2841360e-08
   8.7248345e-08 4.0390479e-08]
  [9.9881566e-01 4.2071697e-05 1.4944024e-07 ... 5.6933152e-09
   1.6912114e-08 7.9533837e-09]
  ...
  [9.9993062e-01 2.3304553e-06 7.1763289e-08 ... 5.2212884e-10
   1.8091960e-09 8.5635288e-10]
  [9.9993062e-01 2.3304531e-06 7.1763289e-08 ... 5.2212884e-10
   1.8091960e-09 8.5635288e-10]
  [7.8443718e-01 1.2423107e-05 1.8009983e-04 ... 1.3424001e-07
   1.8034732e-06 2.6693911e-07]]]
[[[9.22335312e-04 9.96569753e-01 8.34060554e-09 ... 1.38782594e-08
   3.08135881e-08 1.46318824e-08]
  [9.41498101e-01 2.39787134e-03 1.93265214e-06 ... 1.06136014e-07
   2.32608556e-07 1.35874885e-07]
  [9.97899771e-01 7.65348959e-05 2.66938855e-07 ... 8.36856007e-09
   2.07175610e-08 1.43521675e-08]
  ...
  [9.99929428e-01 2.51811184e-06 6.31036343e-08 ... 4.88664775e-10
   1.80933191e-09 8.36881564e-10]
  [9.9992942

[[[1.8056848e-03 9.9518317e-01 2.6852009e-08 ... 2.5450333e-08
   5.9012621e-08 3.0499358e-08]
  [9.8954040e-01 6.5126276e-04 5.2132822e-07 ... 3.6547039e-08
   9.5814123e-08 5.5253526e-08]
  [9.9891186e-01 7.1090952e-05 1.4935588e-07 ... 5.6570153e-09
   1.6192672e-08 1.0104667e-08]
  ...
  [9.9992764e-01 2.4700341e-06 6.7559853e-08 ... 5.6124200e-10
   1.9602091e-09 9.1555652e-10]
  [9.9992931e-01 2.3737095e-06 7.0398805e-08 ... 5.3702393e-10
   1.8601517e-09 8.8474605e-10]
  [7.7732718e-01 1.3007510e-05 1.6720676e-04 ... 1.4515479e-07
   1.8151558e-06 2.9147401e-07]]]
[[[2.0984793e-02 8.9756072e-01 2.1201315e-07 ... 2.4715254e-07
   6.9193595e-07 2.7473880e-07]
  [9.9499547e-01 3.2729257e-04 2.6482684e-07 ... 2.4985185e-08
   7.1614110e-08 3.8053194e-08]
  [9.9926060e-01 4.5586767e-05 1.0033785e-07 ... 4.3768589e-09
   1.3840793e-08 7.3881794e-09]
  ...
  [9.9993670e-01 1.9619638e-06 6.8458618e-08 ... 4.6405915e-10
   1.5679408e-09 7.4952616e-10]
  [9.9993670e-01 1.9619638e-06 6.845

[[[1.5914984e-02 9.2559189e-01 2.7723007e-07 ... 2.7599839e-07
   8.9115974e-07 3.3275700e-07]
  [9.9340582e-01 4.2328774e-04 2.4074467e-07 ... 3.9371947e-08
   1.2540212e-07 6.5878531e-08]
  [9.9922812e-01 4.1298426e-05 9.8428103e-08 ... 4.7264685e-09
   1.8137147e-08 9.4511750e-09]
  ...
  [9.9993455e-01 2.0463017e-06 6.8915433e-08 ... 4.7956950e-10
   1.6766131e-09 8.1093954e-10]
  [9.9993455e-01 2.0462958e-06 6.8915305e-08 ... 4.7956855e-10
   1.6766066e-09 8.1093804e-10]
  [7.7700561e-01 1.2154434e-05 1.7153786e-04 ... 1.4435123e-07
   1.8585503e-06 2.9421653e-07]]]
[[[4.5788395e-03 9.7491032e-01 1.5709811e-07 ... 1.0295851e-07
   2.6332830e-07 1.2128632e-07]
  [9.7565234e-01 9.0482936e-04 1.0428888e-06 ... 8.3975067e-08
   1.6920420e-07 1.2305325e-07]
  [9.9653971e-01 1.3201148e-04 3.1494832e-07 ... 1.2964741e-08
   3.3094821e-08 1.9969002e-08]
  ...
  [9.9992883e-01 2.1574167e-06 7.1306090e-08 ... 5.3135063e-10
   1.8088960e-09 8.9583235e-10]
  [9.9992883e-01 2.1502460e-06 7.135

[[[1.90759765e-03 9.96278822e-01 2.29336337e-08 ... 1.04263425e-08
   3.64593902e-08 1.38139775e-08]
  [9.94939089e-01 4.42577322e-04 3.20305332e-07 ... 2.67270952e-08
   8.32681977e-08 3.69972177e-08]
  [9.98923600e-01 8.26204778e-05 1.47123984e-07 ... 5.88614935e-09
   1.91719298e-08 9.32301969e-09]
  ...
  [9.99917388e-01 2.79337200e-06 6.31583887e-08 ... 6.85313029e-10
   2.37901920e-09 1.09400389e-09]
  [9.99917388e-01 2.79336405e-06 6.31581543e-08 ... 6.85310420e-10
   2.37901920e-09 1.09400389e-09]
  [7.48901665e-01 1.40367301e-05 1.51733955e-04 ... 1.73693678e-07
   2.26793372e-06 3.36286547e-07]]]
[[[6.6106659e-03 9.6831280e-01 2.3051483e-07 ... 9.9457687e-08
   2.4797350e-07 1.2141962e-07]
  [9.7501367e-01 8.8160142e-04 7.9050392e-07 ... 6.4809228e-08
   1.4478634e-07 9.6343044e-08]
  [9.9721575e-01 9.1093963e-05 3.0683273e-07 ... 9.7249622e-09
   2.2350982e-08 1.7433710e-08]
  ...
  [9.9992824e-01 2.3340863e-06 6.9536632e-08 ... 5.5931881e-10
   1.8805908e-09 9.3076113e-10]


[[[1.05668735e-02 9.39911246e-01 3.26939784e-07 ... 1.79014151e-07
   3.21796477e-07 1.95659311e-07]
  [9.86948609e-01 7.68075755e-04 7.55397195e-07 ... 4.95760055e-08
   1.01958399e-07 7.32506962e-08]
  [9.98036444e-01 1.24589744e-04 3.74801147e-07 ... 9.54078150e-09
   2.21141221e-08 1.55815023e-08]
  ...
  [9.99926925e-01 2.25155668e-06 7.90295687e-08 ... 5.40963163e-10
   1.87138904e-09 8.95009178e-10]
  [9.99927044e-01 2.24289647e-06 7.90834136e-08 ... 5.40081702e-10
   1.86822580e-09 8.93948082e-10]
  [7.79276609e-01 1.19236356e-05 1.89207232e-04 ... 1.35232867e-07
   1.84702492e-06 2.65918175e-07]]]
[[[1.14912232e-02 9.57398415e-01 1.75469623e-07 ... 1.70584613e-07
   4.66728153e-07 1.91888205e-07]
  [9.89607632e-01 6.03465887e-04 4.24656662e-07 ... 4.59748044e-08
   1.08761817e-07 6.86926285e-08]
  [9.98256743e-01 1.15673414e-04 2.48474549e-07 ... 9.06637343e-09
   2.49316123e-08 1.50906700e-08]
  ...
  [9.99927282e-01 2.27978035e-06 7.67862289e-08 ... 5.48669554e-10
   1.89504

[[[5.0884478e-02 7.9066217e-01 7.0181034e-07 ... 5.0672730e-07
   1.1052647e-06 4.7409893e-07]
  [9.9229902e-01 2.6111052e-04 6.0456625e-07 ... 3.1112080e-08
   7.6257145e-08 4.2432564e-08]
  [9.9780017e-01 6.4657441e-05 3.9256420e-07 ... 8.7399616e-09
   2.2332665e-08 1.3859105e-08]
  ...
  [9.9993265e-01 2.0491862e-06 7.4141504e-08 ... 5.0919785e-10
   1.7033147e-09 8.1739182e-10]
  [9.9993265e-01 2.0491880e-06 7.4141646e-08 ... 5.0919979e-10
   1.7033179e-09 8.1739493e-10]
  [7.9879469e-01 1.1767712e-05 1.7308778e-04 ... 1.3032465e-07
   1.7365076e-06 2.4858252e-07]]]
[[[2.4900155e-02 9.2961717e-01 4.1320683e-07 ... 2.0435509e-07
   5.0376616e-07 2.2870103e-07]
  [9.9009669e-01 3.4765768e-04 1.0088496e-06 ... 3.3861312e-08
   7.6465433e-08 4.8096528e-08]
  [9.9830073e-01 5.2903986e-05 4.2209595e-07 ... 6.6892967e-09
   1.5956173e-08 1.0398915e-08]
  ...
  [9.9993539e-01 2.0286004e-06 6.9339649e-08 ... 4.8253990e-10
   1.6205640e-09 7.7447498e-10]
  [9.9993539e-01 2.0261216e-06 6.935

[[[4.61168261e-03 9.78984535e-01 1.57992829e-07 ... 4.58060079e-08
   1.45407185e-07 5.54186137e-08]
  [9.85586405e-01 1.22142769e-03 5.80973165e-07 ... 4.93409118e-08
   1.37669730e-07 7.22813880e-08]
  [9.98162925e-01 1.42377714e-04 2.04720934e-07 ... 8.30190316e-09
   2.29061179e-08 1.32403155e-08]
  ...
  [9.99917030e-01 2.76538344e-06 6.31761949e-08 ... 6.87745749e-10
   2.38247866e-09 1.10091958e-09]
  [9.99917030e-01 2.76397805e-06 6.32075370e-08 ... 6.87339241e-10
   2.38082953e-09 1.10042420e-09]
  [7.55454481e-01 1.34244665e-05 1.54183697e-04 ... 1.73763112e-07
   2.29854845e-06 3.33820424e-07]]]
[[[1.8341667e-03 9.9604970e-01 2.8724562e-08 ... 1.2850978e-08
   3.7747860e-08 1.6463256e-08]
  [8.6814427e-01 9.1489824e-03 3.1206832e-06 ... 2.0754999e-07
   4.7662922e-07 2.2955052e-07]
  [9.9494439e-01 3.3427891e-04 5.3967733e-07 ... 2.0567747e-08
   4.7989570e-08 3.0793565e-08]
  ...
  [9.9992979e-01 2.5144795e-06 5.8890251e-08 ... 5.6253679e-10
   1.9742579e-09 9.0705887e-10]


[[[7.6948036e-03 9.5967901e-01 1.1293042e-07 ... 1.4705606e-07
   4.0832273e-07 1.6178666e-07]
  [9.8623419e-01 8.3392212e-04 5.5539078e-07 ... 6.1302366e-08
   1.5916736e-07 9.1595318e-08]
  [9.9875879e-01 6.8702233e-05 1.2207865e-07 ... 8.6085565e-09
   2.3515648e-08 1.4726555e-08]
  ...
  [9.9992645e-01 2.1487015e-06 7.7079640e-08 ... 5.5523935e-10
   1.8496105e-09 9.2855190e-10]
  [9.9992645e-01 2.1486912e-06 7.7079640e-08 ... 5.5523935e-10
   1.8496105e-09 9.2855190e-10]
  [7.5818831e-01 1.1575944e-05 1.8520998e-04 ... 1.6674001e-07
   2.0206187e-06 3.2065122e-07]]]
[[[1.08511215e-02 9.59301054e-01 2.56496719e-07 ... 1.78479127e-07
   2.88528923e-07 1.80604331e-07]
  [9.64515567e-01 1.47391530e-03 1.28292197e-06 ... 8.97040664e-08
   1.57119203e-07 1.16886639e-07]
  [9.93599176e-01 2.23089955e-04 6.19148750e-07 ... 1.77161947e-08
   3.81752372e-08 2.87808053e-08]
  ...
  [9.99929786e-01 2.33854394e-06 7.30769543e-08 ... 5.29044419e-10
   1.84959192e-09 8.75603812e-10]
  [9.9992978

[[[1.10898362e-02 9.57113504e-01 2.64052176e-07 ... 1.54085654e-07
   4.41288762e-07 1.88406943e-07]
  [9.92271543e-01 5.90406416e-04 3.66351372e-07 ... 4.07879703e-08
   1.12661525e-07 6.12553492e-08]
  [9.98393834e-01 1.17623036e-04 2.17752600e-07 ... 9.02117936e-09
   2.66478093e-08 1.44745167e-08]
  ...
  [9.99927402e-01 2.43620275e-06 7.43400648e-08 ... 5.49218282e-10
   1.89716909e-09 8.95164942e-10]
  [9.99927402e-01 2.43620048e-06 7.43400648e-08 ... 5.49218282e-10
   1.89716554e-09 8.95164942e-10]
  [7.81803012e-01 1.24354810e-05 1.81023992e-04 ... 1.42226369e-07
   1.87408341e-06 2.79274474e-07]]]
[[[1.21957054e-02 9.18992937e-01 2.38744519e-07 ... 1.83989542e-07
   4.27873346e-07 1.56887566e-07]
  [9.90009487e-01 3.29725968e-04 6.00067438e-07 ... 3.84040000e-08
   9.28031056e-08 4.96728809e-08]
  [9.98527408e-01 4.42531309e-05 2.88759480e-07 ... 7.02669523e-09
   1.80460891e-08 9.91692417e-09]
  ...
  [9.99933362e-01 2.04128219e-06 7.23623472e-08 ... 4.96388597e-10
   1.66961

[[[2.0168405e-02 9.5147997e-01 2.7438048e-07 ... 1.3865994e-07
   4.4409242e-07 1.3166652e-07]
  [9.8903859e-01 6.7114166e-04 3.8439310e-07 ... 4.0020890e-08
   1.0988581e-07 5.8263822e-08]
  [9.9901676e-01 5.3772772e-05 1.3453325e-07 ... 5.4378710e-09
   1.5167746e-08 8.7938687e-09]
  ...
  [9.9991965e-01 2.8116140e-06 5.4856759e-08 ... 5.7285304e-10
   1.7453253e-09 9.3477204e-10]
  [9.9992037e-01 2.7803414e-06 5.5170222e-08 ... 5.6906801e-10
   1.7410541e-09 9.3024444e-10]
  [7.5570905e-01 1.5172813e-05 1.4759407e-04 ... 1.5506161e-07
   1.8659222e-06 3.1397568e-07]]]
[[[5.1532276e-03 9.6576190e-01 1.8047561e-07 ... 1.2781646e-07
   3.6588949e-07 1.6274164e-07]
  [9.8526055e-01 5.5875420e-04 9.1211240e-07 ... 5.4942717e-08
   1.1963843e-07 8.0046611e-08]
  [9.9643552e-01 1.1999789e-04 4.4049165e-07 ... 1.2035546e-08
   2.9806902e-08 1.9248821e-08]
  ...
  [9.9992907e-01 2.1564256e-06 7.5440340e-08 ... 5.1939947e-10
   1.7897840e-09 8.6780877e-10]
  [9.9992907e-01 2.1564194e-06 7.544

[[[1.4945834e-03 9.9648076e-01 2.3338114e-08 ... 1.0225035e-08
   3.4260310e-08 1.3398527e-08]
  [9.9437416e-01 4.0364277e-04 2.5250344e-07 ... 2.6851067e-08
   8.4320668e-08 4.0781810e-08]
  [9.9908948e-01 6.2293817e-05 1.2148854e-07 ... 4.9195070e-09
   1.5806389e-08 8.3679170e-09]
  ...
  [9.9992406e-01 2.5131085e-06 7.5090831e-08 ... 5.9116845e-10
   2.0173441e-09 9.7546438e-10]
  [9.9992418e-01 2.5015261e-06 7.5116048e-08 ... 5.8959770e-10
   2.0112203e-09 9.7315256e-10]
  [7.6309723e-01 1.2403446e-05 1.7583610e-04 ... 1.5342466e-07
   1.9880310e-06 3.0840116e-07]]]
[[[5.83291939e-03 9.62856412e-01 9.16922573e-08 ... 7.98431117e-08
   2.39627241e-07 8.16738890e-08]
  [9.92805660e-01 5.17913897e-04 2.57829782e-07 ... 3.42684672e-08
   9.02805581e-08 5.03139148e-08]
  [9.98923361e-01 7.26929647e-05 1.11993053e-07 ... 6.07298256e-09
   1.94590619e-08 9.60444257e-09]
  ...
  [9.99926329e-01 2.13862654e-06 7.61656409e-08 ... 5.64695679e-10
   1.88528837e-09 9.49107903e-10]
  [9.9992632

[[[1.1367864e-03 9.9659985e-01 1.8521034e-08 ... 1.2961098e-08
   4.0141444e-08 1.6436417e-08]
  [9.3013668e-01 4.1294247e-03 1.4589390e-06 ... 1.4436431e-07
   4.2607826e-07 2.0424653e-07]
  [9.9739009e-01 1.4140717e-04 2.7398889e-07 ... 1.2743484e-08
   3.6572533e-08 2.4870802e-08]
  ...
  [9.9993038e-01 2.1298324e-06 6.9383624e-08 ... 5.2757348e-10
   1.7687695e-09 8.9173552e-10]
  [9.9993038e-01 2.1194237e-06 6.9444667e-08 ... 5.2648585e-10
   1.7650421e-09 8.9042174e-10]
  [7.7264667e-01 1.2288198e-05 1.7076581e-04 ... 1.4433279e-07
   1.8234928e-06 2.9120369e-07]]]
[[[1.06526411e-03 9.96666253e-01 2.65427538e-08 ... 1.25175985e-08
   3.14108313e-08 1.65542708e-08]
  [9.62866426e-01 1.29953120e-03 1.68408940e-06 ... 1.03179019e-07
   2.09728171e-07 1.42644609e-07]
  [9.95771468e-01 1.49277694e-04 5.83424708e-07 ... 1.53280819e-08
   3.39988624e-08 2.26168257e-08]
  ...
  [9.99925494e-01 2.33692867e-06 7.39527053e-08 ... 5.81951931e-10
   1.93349536e-09 9.68404468e-10]
  [9.9992549

KeyboardInterrupt: 

In [50]:
from keras.preprocessing.text import Tokenizer
from pickle import dump

# save the tokenizer
dump(tokenizer, open('tokenizer.pkl', 'wb'))

In [53]:
from keras.applications.vgg16 import VGG16
from keras.preprocessing.image import load_img
from keras.preprocessing.image import img_to_array
from keras.applications.vgg16 import preprocess_input
from keras.models import Model

# load the tokenizer
tokenizer = load(open('tokenizer.pkl', 'rb'))
# pre-define the max sequence length (from training)
max_length = 34

# extract features from each photo in the directory
def extract_features(filename):
    
    in_layer = Input(shape=(224, 224, 3))
    cnn_model = VGG16(include_top=False, input_tensor=in_layer)
    image = load_img(filename, target_size=(224, 224))
    image = img_to_array(image)
    image = image.reshape((1, image.shape[0], image.shape[1], image.shape[2]))
    image = preprocess_input(image)
    feature = cnn_model.predict(image, verbose=0)
    feature=feature.reshape(1,49,512)
    return feature

# load and prepare the photograph
photo = extract_features('example.jpg')
description = generate_desc(model, tokenizer, photo, max_length)
description

'startseq'