epoch15_lossseries_sum_sample_mean_lr5E-05-5E-05_schedulerlinspace_round3E-01_dynamic-1_clipconcat_class_weight0E+00_class_prob2E-01_train-embedFalse_samplesize100_x_0_predictTrue_X_INTERVAL100_use_x_tTrue_use_x_1True_use_probTrue.txt

best model when lr is constant 5e-5, using avg of x_t and x_0, no guidance, trained on 30+8k

epoch 0 average x_t_loss, x_1_loss, prob_loss, val losses: 4.760366439819336, 5.538571357727051, 22.250011444091797, 4.648683547973633, 4.99056339263916, 20.487321853637695
epoch 1 average x_t_loss, x_1_loss, prob_loss, val losses: 4.771383285522461, 4.501983642578125, 17.53981590270996, 4.74599027633667, 4.339223384857178, 16.815109252929688
epoch 2 average x_t_loss, x_1_loss, prob_loss, val losses: 4.714776992797852, 4.198112964630127, 15.981021881103516, 4.690890312194824, 3.9908640384674072, 15.414501190185547
epoch 3 average x_t_loss, x_1_loss, prob_loss, val losses: 4.687582492828369, 4.046043872833252, 15.233999252319336, 4.710803985595703, 3.9263405799865723, 14.778751373291016
epoch 4 average x_t_loss, x_1_loss, prob_loss, val losses: 4.690551280975342, 3.9773240089416504, 14.769462585449219, 4.677330017089844, 3.863203763961792, 14.408576965332031
epoch 5 average x_t_loss, x_1_loss, prob_loss, val losses: 4.679758548736572, 3.917768955230713, 14.460407257080078, 4.624508857727051, 3.78118634223938, 14.137744903564453
epoch 6 average x_t_loss, x_1_loss, prob_loss, val losses: 4.673751354217529, 3.871413230895996, 14.171026229858398, 4.650933265686035, 3.7780325412750244, 13.856172561645508
epoch 7 average x_t_loss, x_1_loss, prob_loss, val losses: 4.660712242126465, 3.8219242095947266, 13.895819664001465, 4.614273548126221, 3.720791816711426, 13.65826416015625
epoch 8 average x_t_loss, x_1_loss, prob_loss, val losses: 4.6283769607543945, 3.767979621887207, 13.734674453735352, 4.624690532684326, 3.6978001594543457, 13.463700294494629
epoch 9 average x_t_loss, x_1_loss, prob_loss, val losses: 4.637063503265381, 3.7602767944335938, 13.469715118408203, 4.57266902923584, 3.65954327583313, 13.333047866821289
epoch 10 average x_t_loss, x_1_loss, prob_loss, val losses: 4.619685649871826, 3.7308452129364014, 13.298314094543457, 4.508774280548096, 3.63462233543396, 13.280752182006836
epoch 11 average x_t_loss, x_1_loss, prob_loss, val losses: 4.622343063354492, 3.7235779762268066, 13.054203987121582, 4.619907379150391, 3.626584053039551, 13.059881210327148
epoch 0 average x_t_loss, x_1_loss, prob_loss, val losses: 4.593387126922607, 3.692213535308838, 12.976869583129883, 4.562822341918945, 3.618943214416504, 12.559850692749023
epoch 1 average x_t_loss, x_1_loss, prob_loss, val losses: 4.587543487548828, 3.682677984237671, 12.748769760131836, 4.557422637939453, 3.6022281646728516, 12.51688289642334
epoch 2 average x_t_loss, x_1_loss, prob_loss, val losses: 4.580275058746338, 3.67746639251709, 12.60557746887207, 4.513148307800293, 3.5931224822998047, 12.550543785095215
// epoch 3 average x_t_loss, x_1_loss, prob_loss, val losses: 4.58021879196167, 3.6613054275512695, 12.384650230407715, 4.550140857696533, 3.5884032249450684, 12.523184776306152
// epoch 4 average x_t_loss, x_1_loss, prob_loss, val losses: 4.5770263671875, 3.6538846492767334, 12.188928604125977, 4.542819499969482, 3.5876615047454834, 12.493508338928223
// epoch 5 average x_t_loss, x_1_loss, prob_loss, val losses: 4.580571174621582, 3.6547560691833496, 11.977155685424805, 4.539098262786865, 3.5609405040740967, 12.558560371398926
// epoch 6 average x_t_loss, x_1_loss, prob_loss, val losses: 4.58645486831665, 3.6541593074798584, 11.766030311584473, 4.526004314422607, 3.5762197971343994, 12.539999961853027
// epoch 7 average x_t_loss, x_1_loss, prob_loss, val losses: 4.580963134765625, 3.6384265422821045, 11.616029739379883, 4.5705037117004395, 3.5732293128967285, 12.591575622558594
// epoch 8 average x_t_loss, x_1_loss, prob_loss, val losses: 4.582395076751709, 3.6331987380981445, 11.445436477661133, 4.608516216278076, 3.5560760498046875, 12.633406639099121
// epoch 9 average x_t_loss, x_1_loss, prob_loss, val losses: 4.576237678527832, 3.61923885345459, 11.238066673278809, 4.567669868469238, 3.557185649871826, 12.66101360321045

BLEU-4 score: 0.2337152510881424