<a href="https://colab.research.google.com/github/nntadotzip/vi-augmentation/blob/main/BertPairClassification_SynonymReplacementMethod_5703sem0of1to1999and5000to7162__8627sem1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Import and Install

**Models**

In [1]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [2]:
!pip install datasets==1.0.1
!pip install transformers==3.1.0



In [3]:
import torch
import torch.nn as nn
import os
import matplotlib.pyplot as plt
import copy
import torch.optim as optim
import random
import numpy as np
import pandas as pd
from torch.utils.data import DataLoader, Dataset
from torch.cuda.amp import autocast, GradScaler
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModel, AdamW, get_linear_schedule_with_warmup
from datasets import load_dataset, load_metric

os.environ["TOKENIZERS_PARALLELISM"] = "false"

PyTorch version 1.10.0+cu111 available.
TensorFlow version 2.8.0 available.


In [4]:
# Check that we are using 100% of GPU memory footprint support libraries/code
# from https://github.com/patrickvonplaten/notebooks/blob/master/PyTorch_Reformer.ipynb
!ln -sf /opt/bin/nvidia-smi /usr/bin/nvidia-smi
!pip -q install gputil
!pip -q install psutil
!pip -q install humanize
import psutil
import humanize
import os
import GPUtil as GPU
GPUs = GPU.getGPUs()
# XXX: only one GPU on Colab and isn’t guaranteed
gpu = GPUs[0]
def printm():
 process = psutil.Process(os.getpid())
 print("Gen RAM Free: " + humanize.naturalsize( psutil.virtual_memory().available ), " | Proc size: " + humanize.naturalsize( process.memory_info().rss))
 print("GPU RAM Free: {0:.0f}MB | Used: {1:.0f}MB | Util {2:3.0f}% | Total {3:.0f}MB".format(gpu.memoryFree, gpu.memoryUsed, gpu.memoryUtil*100, gpu.memoryTotal))
printm()

Gen RAM Free: 12.0 GB  | Proc size: 1.6 GB
GPU RAM Free: 15109MB | Used: 0MB | Util   0% | Total 15109MB


**Cosine Similarity**

In [5]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

In [6]:
import string
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

# Load the Dataset

In [7]:
augmented_sem0_1to1999_1 = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/backtranslation_results/backtrans_1to1999_sem0.csv', encoding='utf8')
augmented_sem0_1to1999_2 = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/backtranslation_results/backtrans_1to1999_sem0_SWAPPED.csv', encoding='utf8')
augmented_sem0_5000to7162_1 = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/backtranslation_results/backtrans_5000to7162_sem0.csv', encoding='utf8')
augmented_sem0_5000to7162_2 = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/backtranslation_results/backtrans_5000to7162_sem0_SWAPPED.csv', encoding='utf8')

In [8]:
augmented_sem0_1to1999_1 = augmented_sem0_1to1999_1[['q1_en_to_vi', 'q2_fr_to_vi']]
augmented_sem0_1to1999_1['ans_question_1'] = ''
augmented_sem0_1to1999_1['ans_question_2'] = ''
augmented_sem0_1to1999_1['cosine_similarity'] = ''
augmented_sem0_1to1999_1['manual_label'] = 0
augmented_sem0_1to1999_1 = augmented_sem0_1to1999_1[['q1_en_to_vi', 'q2_fr_to_vi', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label']]
augmented_sem0_1to1999_1 = augmented_sem0_1to1999_1.set_axis(['question_1', 'question_2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label'], axis=1, inplace=False)

augmented_sem0_1to1999_2 = augmented_sem0_1to1999_2[['q1_en_to_vi', 'q2_fr_to_vi']]
augmented_sem0_1to1999_2['ans_question_1'] = ''
augmented_sem0_1to1999_2['ans_question_2'] = ''
augmented_sem0_1to1999_2['cosine_similarity'] = ''
augmented_sem0_1to1999_2['manual_label'] = 0
augmented_sem0_1to1999_2 = augmented_sem0_1to1999_2[['q1_en_to_vi', 'q2_fr_to_vi', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label']]
augmented_sem0_1to1999_2 = augmented_sem0_1to1999_2.set_axis(['question_1', 'question_2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label'], axis=1, inplace=False)

augmented_sem0_5000to7162_1 = augmented_sem0_5000to7162_1[['q1_en_to_vi', 'q2_fr_to_vi']]
augmented_sem0_5000to7162_1['ans_question_1'] = ''
augmented_sem0_5000to7162_1['ans_question_2'] = ''
augmented_sem0_5000to7162_1['cosine_similarity'] = ''
augmented_sem0_5000to7162_1['manual_label'] = 0
augmented_sem0_5000to7162_1 = augmented_sem0_5000to7162_1[['q1_en_to_vi', 'q2_fr_to_vi', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label']]
augmented_sem0_5000to7162_1 = augmented_sem0_5000to7162_1.set_axis(['question_1', 'question_2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label'], axis=1, inplace=False)

augmented_sem0_5000to7162_2 = augmented_sem0_5000to7162_2[['q1_en_to_vi', 'q2_fr_to_vi']]
augmented_sem0_5000to7162_2['ans_question_1'] = ''
augmented_sem0_5000to7162_2['ans_question_2'] = ''
augmented_sem0_5000to7162_2['cosine_similarity'] = ''
augmented_sem0_5000to7162_2['manual_label'] = 0
augmented_sem0_5000to7162_2 = augmented_sem0_5000to7162_2[['q1_en_to_vi', 'q2_fr_to_vi', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label']]
augmented_sem0_5000to7162_2 = augmented_sem0_5000to7162_2.set_axis(['question_1', 'question_2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label'], axis=1, inplace=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_

In [9]:
augmented_sem0 = augmented_sem0_1to1999_1.append(augmented_sem0_1to1999_2, sort=False, ignore_index=True)
augmented_sem0 = augmented_sem0.append(augmented_sem0_5000to7162_1, sort=False, ignore_index=True)
augmented_sem0 = augmented_sem0.append(augmented_sem0_5000to7162_2, sort=False, ignore_index=True)
augmented_sem0

Unnamed: 0,question_1,question_2,ans_question_1,ans_question_2,cosine_similarity,manual_label
0,"Dân số và lao động |Dân số Đông, nguồn lao động dồi dào và có trình độ.|.Lực lượng lao động lớn nhất trong cả nước.|.Công nhân có trình độ cao nhất trên toàn quốc.|.Lao động tập trung chủ yếu các thành phố.","Các biện pháp cơ bản để mang lại đồng bằng sông Hồng sẽ sớm trở thành khu vực sản xuất thực phẩm, bất động sản là: chú ý đến các sản phẩm và thị trường.|.Thay đổi cấu trúc của cây trồng và cấu trúc theo mùa.|.Hãy chú ý đến môi trường và bảo vệ tài nguyên đất.|.Mạnh mẽ phát triển văn hóa trồng trọt.",,,,0
1,"Dân số và lao động |Dân số Đông, nguồn lao động dồi dào và có trình độ.|.Lực lượng lao động lớn nhất trong cả nước.|.Công nhân có trình độ cao nhất trên toàn quốc.|.Lao động tập trung chủ yếu các thành phố.","Hướng về định hướng tái cấu trúc trong lĩnh vực kinh tế nội bộ ở Delta Red River là: |Phát triển và hiện đại hóa nông nghiệp, gắn phát triển với ngành công nghiệp chế biến.|.Phát triển và kịp thời của các nhà khai thác công nghiệp chuyển đổi, trong khi các ngành công nghiệp và dịch vụ khác có liên quan đến điều kiện nông nghiệp của hàng hóa.|.Phát triển và hiện đại hóa khai thác công nghiệp, gắn nó với các sản phẩm nông nghiệp.|.Phát triển và hiện đại hóa ngành chế biến và khai thác.",,,,0
2,"Dân số và lao động |Dân số Đông, nguồn lao động dồi dào và có trình độ.|.Lực lượng lao động lớn nhất trong cả nước.|.Công nhân có trình độ cao nhất trên toàn quốc.|.Lao động tập trung chủ yếu các thành phố.","Câu hỏi kinh tế xã hội là mối quan tâm lớn ở đồng bằng sông Hồng trong giai đoạn hiện tại: |Các lĩnh vực chính của sản xuất thực phẩm và sản xuất thực phẩm.|.Dân số Đông, diện tích đất canh tác hạn chế.|.Trình độ chuyên môn với cường độ cao.|.Nơi tập trung vào nhiều trung tâm kinh tế, văn hóa và chính trị lớn trên toàn quốc.",,,,0
3,"Dân số và lao động |Dân số Đông, nguồn lao động dồi dào và có trình độ.|.Lực lượng lao động lớn nhất trong cả nước.|.Công nhân có trình độ cao nhất trên toàn quốc.|.Lao động tập trung chủ yếu các thành phố.","Dựa trên Địa lý Atlat Việt Nam, vui lòng cho biết các tỉnh nào sau đây của đồng bằng sông Hồng không liền kề với biển?|.Hưng Yên, Hải Phòng.|.Hà Nam, Bắc Ninh.|.Hà Nam, Ninh Bình.|.Đinh Man, Bắc Ninh.",,,,0
4,"Dân số và lao động |Dân số Đông, nguồn lao động dồi dào và có trình độ.|.Lực lượng lao động lớn nhất trong cả nước.|.Công nhân có trình độ cao nhất trên toàn quốc.|.Lao động tập trung chủ yếu các thành phố.","Dựa trên Atlat địa lý của Việt Nam, vui lòng cho biết trung tâm công nghiệp nào trong đồng bằng sông Hồng có giá trị sản xuất công nghiệp từ 40 đến 120 nghìn tỷ đồng không?|.Hà Nội.|.Hải Phòng.|.Phúc Yên.|.Ninh Bac.|.Ninh Bac.|.",,,,0
...,...,...,...,...,...,...
5701,"Kim ngạch xuất nhập khẩu của đất nước chúng tôi liên tục tăng chủ yếu do thị trường thế giới ngày càng mở rộng.|.Đa dạng hóa các đối tượng tham gia vào các hoạt động xuất nhập khẩu.|.Tăng cường nhập khẩu các dòng máy móc, toàn bộ thiết bị và hàng tiêu dùng.|.Sự phát triển của nền kinh tế trong nước và đổi mới trong các cơ chế quản lý.",Các yếu tố khí hậu cũng ảnh hưởng đến các tổ chức lãnh thổ công nghiệp vì |Chi tiêu lựa chọn kỹ thuật và công nghệ.|.Ảnh hưởng đến nguyên liệu thô.|.Thảm họa thường gây thiệt hại cho sản xuất công nghiệp.|.Thống trị quy mô và cơ cấu của các doanh nghiệp công nghiệp.,,,,0
5702,Các trung tâm công nghiệp ở vùng trung du phía bắc và miền núi phía bắc được phát triển chủ yếu trên cơ sở công nhân có kinh nghiệm trong sản xuất.|.Vị trí chiến lược liền kề miền Nam Trung Quốc |Giàu tài nguyên và địa điểm địa lý thuận lợi của Khoáng sản.|.Cơ sở hạ tầng tương đối hoàn thành.,Yếu tố quan trọng nhất dẫn đến sự khác biệt về phân phối trà và cao su ở nước ta: |thời tiết.|.Đất.|.Trái đất.|.Nước uống.|.,,,,0
5703,"Kim ngạch xuất nhập khẩu của đất nước chúng tôi liên tục tăng chủ yếu do thị trường thế giới ngày càng mở rộng.|.Đa dạng hóa các đối tượng tham gia vào các hoạt động xuất nhập khẩu.|.Tăng cường nhập khẩu các dòng máy móc, toàn bộ thiết bị và hàng tiêu dùng.|.Sự phát triển của nền kinh tế trong nước và đổi mới trong các cơ chế quản lý.",Yếu tố quan trọng nhất dẫn đến sự khác biệt về phân phối trà và cao su ở nước ta: |thời tiết.|.Đất.|.Trái đất.|.Nước uống.|.,,,,0
5704,Đối với bảng dữ liệu: |Giá trị xuất khẩu của nước ta tăng nhanh.|.Giá trị xuất khẩu của cả khu vực có vốn đầu tư trong và ngoài nước tăng lên.|.Giá trị xuất khẩu hàng hóa khu vực trong nước tăng nhanh so với khu vực có vốn đầu tư nước ngoài.|.Giá trị xuất khẩu của các khu vực có vốn đầu tư nước ngoài có xu hướng ngày càng trở nên chiếm ưu thế hơn so với khu vực kinh tế trong nước.,Yếu tố quan trọng nhất dẫn đến sự khác biệt về phân phối trà và cao su ở nước ta: |thời tiết.|.Đất.|.Trái đất.|.Nước uống.|.,,,,0


In [10]:
original_df = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/prep/vietjackGeo/labeled_1to1999/labeled_1to2000_csvformat.csv', encoding='utf8')
original_df.head(2)

Unnamed: 0,question_1,question_2,ans_question_1,ans_question_2,cosine_similarity,manual_label
0,"“dân cư và lao động”|dân số đông, nguồn lao động dồi dào và có trình độ.|nguồn lao động lớn nhất cả nước.|lao động có trình độ cao nhất cả nước.|lao động tập trung chủ yếu ở các thành phố lớn.","Biện pháp cơ bản để đưa đồng bằng sông Hồng sớm trở thành vùng sản xuất lương thực, thực phầm hàng hóa là:|quan tâm đến chất lương sản phẩm và thị trường.|thay đổi cơ cấu cây cây trồng và cơ cấu mùa vụ.|chú ý đến môi trường và bảo vệ tài nguyên đất.|phát triển mạnh cây vụ đông.","dân số đông, nguồn lao động dồi dào và có trình độ.",thay đổi cơ cấu cây cây trồng và cơ cấu mùa vụ.,71565396,0.0
1,"“dân cư và lao động”|dân số đông, nguồn lao động dồi dào và có trình độ.|nguồn lao động lớn nhất cả nước.|lao động có trình độ cao nhất cả nước.|lao động tập trung chủ yếu ở các thành phố lớn.","Tại sao việc làm là một trong những vấn đề nan giải ở Đồng bằng sông Hồng nhất là ở khu vực thành thị?|Do dân nhập cư đông.|Do dân số đông, kết cấu dân số trẻ.|Do nền kinh tế còn chậm phát triển.|Do dân số đông, kết cấu dân số trẻ trong điều kiện kinh tế chậm","dân số đông, nguồn lao động dồi dào và có trình độ.","Do dân số đông, kết cấu dân số trẻ trong điều kiện kinh tế chậm",8153097,1.0


In [11]:
augmented_df = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Research/Augmentation/prep/vietjackGeo/final_augment/syn_augmented_1to1999.csv', encoding='utf8')
augmented_df

Unnamed: 0,sentence1,sentence2,ans_question_1,ans_question_2,manual_label,augmented1,augmented2
0,"“dân cư và lao động”|dân số đông, nguồn lao động dồi dào và có trình độ.|nguồn lao động lớn nhất cả nước.|lao động có trình độ cao nhất cả nước.|lao động tập trung chủ yếu ở các thành phố lớn.","Tại sao việc làm là một trong những vấn đề nan giải ở Đồng bằng sông Hồng nhất là ở khu vực thành thị?|Do dân nhập cư đông.|Do dân số đông, kết cấu dân số trẻ.|Do nền kinh tế còn chậm phát triển.|Do dân số đông, kết cấu dân số trẻ trong điều kiện kinh tế chậm","dân số đông, nguồn lao động dồi dào và có trình độ.","Do dân số đông, kết cấu dân số trẻ trong điều kiện kinh tế chậm",1.0,"“ dân cư và lao động ” | dân cư đông , nguồn lao động dồi dào và có trình độ .| nguồn lao động lớn nhất cả nước .| lao động có trình độ cao nhất cả nước .| lao động tập trung chủ yếu ở các thành phố lớn .","tại sao việc làm là một trong những vấn đề nan giải ở đồng bằng sông hồng nhất là ở khu vực thành thị ?| do dân nhập cư đông .| do dân cư đông , kết cấu dân cư trẻ .| do nền kinh tế còn chậm phát triển .| do dân cư đông , kết cấu dân cư trẻ trong điều kiện kinh tế chậm"
1,"Bão, lũ lụt, hạn hán, gió tây khô nóng là thiên tai xảy ra chủ yếu ở vùng|Đồng bằng sông Hồng.|Tây Bắc.|Duyên hải miền Trung.|Tây Nguyên",Vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió Tây khô nóng?|Bắc Trung Bộ.|Đông Bắc.|Đông Nam Bộ.|Tây Nguyên.,Duyên hải miền Trung.,Bắc Trung Bộ.,1.0,"bão , lũ lụt , hạn hán , gió mạnh tây khô nóng là thiên tai xảy ra chủ yếu ở vùng | đồng bằng sông hồng .| tây bắc .| duyên hải miền trung .| tây nguyên",vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió mạnh tây khô nóng ?| bắc trung bộ .| đông bắc .| đông nam bộ .| tây nguyên .
2,"Bão, lũ lụt, hạn hán, gió tây khô nóng là thiên tai xảy ra chủ yếu ở vùng|Đồng bằng sông Hồng.|Tây Bắc.|Duyên hải miền Trung.|Tây Nguyên",Vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió Tây khô nóng?|Bắc Trung Bộ.|Đông Bắc.|Đông Nam Bộ.|Tây Nguyên.,Duyên hải miền Trung.,Bắc Trung Bộ.,1.0,"bão , lũ lụt , hạn hán , gió mạnh tây khô nóng là thiên tai xảy ra chủ yếu ở vùng | đồng bằng sông hồng .| tây bắc .| duyên hải miền trung .| tây nguyên",vùng ngoại ô nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió tây khô nóng ?| bắc trung bộ .| đông bắc .| đông nam bộ .| tây nguyên .
3,"Bão, lũ lụt, hạn hán, gió tây khô nóng là thiên tai xảy ra chủ yếu ở vùng|Đồng bằng sông Hồng.|Tây Bắc.|Duyên hải miền Trung.|Tây Nguyên",Vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió Tây khô nóng?|Bắc Trung Bộ.|Đông Bắc.|Đông Nam Bộ.|Tây Nguyên.,Duyên hải miền Trung.,Bắc Trung Bộ.,1.0,"bão , lũ lụt , hạn hán , gió mạnh tây khô nóng là thiên tai xảy ra chủ yếu ở vùng | đồng bằng sông hồng .| tây bắc .| duyên hải miền trung .| tây nguyên",vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió tây khô nóng ?| bắc trung bộ .| đông bắc .| đông nam bộ .| cao nguyên .
4,"Bão, lũ lụt, hạn hán, gió tây khô nóng là thiên tai xảy ra chủ yếu ở vùng|Đồng bằng sông Hồng.|Tây Bắc.|Duyên hải miền Trung.|Tây Nguyên",Vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió Tây khô nóng?|Bắc Trung Bộ.|Đông Bắc.|Đông Nam Bộ.|Tây Nguyên.,Duyên hải miền Trung.,Bắc Trung Bộ.,1.0,"bão , lũ lụt , hạn hán , gió tây khô nóng là thiên tai xảy ra chủ yếu ở vùng ngoại ô | đồng bằng sông hồng .| tây bắc .| duyên hải miền trung .| tây nguyên",vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió mạnh tây khô nóng ?| bắc trung bộ .| đông bắc .| đông nam bộ .| tây nguyên .
...,...,...,...,...,...,...,...
8622,"Việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do|các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng.|một số dân tộc ít người có những kinh nghiệm sản xuất quí báu.|sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.|trước đây chúng ta chưa chú trọng vấn đề này.","Đặc điểm nào không đúng với dân cư, dân tộc ở nước ta?|Các dân tộc luôn phát huy truyền thống sản xuất.|Các dân tộc luôn đoàn kết bên nhau.|Chất lượng đời sống của các dân tộc ít người đã ở mức cao.|Sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch.","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,1.0,"việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch ."
8623,"Việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do|các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng.|một số dân tộc ít người có những kinh nghiệm sản xuất quí báu.|sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.|trước đây chúng ta chưa chú trọng vấn đề này.","Đặc điểm nào không đúng với dân cư, dân tộc ở nước ta?|Các dân tộc luôn phát huy truyền thống sản xuất.|Các dân tộc luôn đoàn kết bên nhau.|Chất lượng đời sống của các dân tộc ít người đã ở mức cao.|Sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch.","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,1.0,"việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát ra kinh tế - xã hội giữa các vùng còn chênh lệch ."
8624,"Việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do|các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng.|một số dân tộc ít người có những kinh nghiệm sản xuất quí báu.|sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.|trước đây chúng ta chưa chú trọng vấn đề này.","Đặc điểm nào không đúng với dân cư, dân tộc ở nước ta?|Các dân tộc luôn phát huy truyền thống sản xuất.|Các dân tộc luôn đoàn kết bên nhau.|Chất lượng đời sống của các dân tộc ít người đã ở mức cao.|Sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch.","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,1.0,"việc phát ra kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát ra kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát triển kinh tế - xã hội giữa các vùng ngoại ô còn chênh lệch ."
8625,"Việc phát triển kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do|các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng.|một số dân tộc ít người có những kinh nghiệm sản xuất quí báu.|sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.|trước đây chúng ta chưa chú trọng vấn đề này.","Đặc điểm nào không đúng với dân cư, dân tộc ở nước ta?|Các dân tộc luôn phát huy truyền thống sản xuất.|Các dân tộc luôn đoàn kết bên nhau.|Chất lượng đời sống của các dân tộc ít người đã ở mức cao.|Sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch.","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,1.0,"việc phát ra kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát ra kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch ."


In [12]:
augmented_df =  augmented_df[['augmented1', 'augmented2', 'ans_question_1', 'ans_question_2', 'manual_label']]
augmented_df['cosine_similarity'] = ''
augmented_df  = augmented_df[['augmented1', 'augmented2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label']]
augmented_df = augmented_df.set_axis(['question_1', 'question_2', 'ans_question_1', 'ans_question_2', 'cosine_similarity','manual_label'], axis=1, inplace=False)
augmented_df.head(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,question_1,question_2,ans_question_1,ans_question_2,cosine_similarity,manual_label
0,"“ dân cư và lao động ” | dân cư đông , nguồn lao động dồi dào và có trình độ .| nguồn lao động lớn nhất cả nước .| lao động có trình độ cao nhất cả nước .| lao động tập trung chủ yếu ở các thành phố lớn .","tại sao việc làm là một trong những vấn đề nan giải ở đồng bằng sông hồng nhất là ở khu vực thành thị ?| do dân nhập cư đông .| do dân cư đông , kết cấu dân cư trẻ .| do nền kinh tế còn chậm phát triển .| do dân cư đông , kết cấu dân cư trẻ trong điều kiện kinh tế chậm","dân số đông, nguồn lao động dồi dào và có trình độ.","Do dân số đông, kết cấu dân số trẻ trong điều kiện kinh tế chậm",,1.0
1,"bão , lũ lụt , hạn hán , gió mạnh tây khô nóng là thiên tai xảy ra chủ yếu ở vùng | đồng bằng sông hồng .| tây bắc .| duyên hải miền trung .| tây nguyên",vùng nào ở nước ta chịu ảnh hưởng mạnh mẽ nhất của gió mạnh tây khô nóng ?| bắc trung bộ .| đông bắc .| đông nam bộ .| tây nguyên .,Duyên hải miền Trung.,Bắc Trung Bộ.,,1.0


In [13]:
merged_df = original_df
merged_df = merged_df.append(augmented_sem0, sort=False, ignore_index=True)
merged_df = merged_df.append(augmented_df, sort=False, ignore_index=True)

In [14]:
merged_df.tail(2)

Unnamed: 0,question_1,question_2,ans_question_1,ans_question_2,cosine_similarity,manual_label
16330,"việc phát ra kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát ra kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát triển kinh tế - xã hội giữa các vùng còn chênh lệch .","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,,1.0
16331,"việc phát ra kinh tế - xã hội vùng dân tộc ít người ở nước ta cần được chú trọng hơn nữa do | các dân tộc ít người đóng vai trò rất quan trọng trong việc đảm bảo an ninh quốc phòng .| một số dân tộc ít người có những kinh nghiệm sản xuất quí báu .| sự phát ra kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể , mức sống của bộ phận dân tộc ít người thấp .| trước đây chúng ta chưa chú trọng vấn đề này .","đặc điểm nào không đúng với dân cư , dân tộc ở nước ta ?| các dân tộc luôn phát huy truyền thống sản xuất .| các dân tộc luôn đoàn kết bên nhau .| chất lượng đời sống của các dân tộc ít người đã ở mức cao .| sự phát ra kinh tế - xã hội giữa các vùng còn chênh lệch .","sự phát triển kinh tế - xã hội giữa các dân tộc hiện có sự chênh lệch đáng kể, mức sống của bộ phận dân tộc ít người thấp.",Chất lượng đời sống của các dân tộc ít người đã ở mức cao.,,1.0


In [15]:
merged_df = merged_df.sample(frac = 1)
merged_df = merged_df.reset_index(drop=True)
merged_df

Unnamed: 0,question_1,question_2,ans_question_1,ans_question_2,cosine_similarity,manual_label
0,"Đâu là đặc điểm thực sự của các hoạt động bão tại Việt Nam?|.Mùa bão bắt đầu từ tháng 1 và kết thúc vào tháng 11.|.Mùa bão chậm chậm từ phía nam đến phía bắc .70% những cơn bão trong mùa được tập trung vào những tháng VIII, IX, X. |Trung bình, 10 đến 12 cơn bão đáp xuống vùng biển của chúng ta.","Lũ lụt ở đồng bằng sông Cửu Long đến chủ yếu từ: |Mưa mạnh, thủy triều pho mát |Mưa tập trung vào một mùa giải |Đồng bằng cô gái thấp |Không có đê lũ lụt",,,,0.0
1,"Biểu hiện nào sau đây không đúng với khí hậu của Đồng bằng sông Cửu Long|Thiên tai bão, lũ quét, sạt lở đất diễn ra thường xuyên.|Lượng mưa lớn tập trung vào các tháng mùa mưa: tháng V – XI.|Chế độ nhiệt cao, ổn định quanh nắm.|Khí hậu cân xích đạo.","So với Đồng bằng sông Hồng, thiên nhiên Đồng bằng sông Cửu Long|được khai thác sớm hơn.|ít thay đổi hơn.|có một số vùng vẫn chưa bị tác động nhiều.|bị suy thoái nghiêm trọng.","Thiên tai bão, lũ quét, sạt lở đất diễn ra thường xuyên.",có một số vùng vẫn chưa bị tác động nhiều.,08024098,0.0
2,"Cơ sở Địa lý Atlas Trang 9, cho biết tần suất của các hoạt động bão nhất vào khu vực?|.Delta sông Hồng.|.Trung tâm phía bắc.|.Hải Nam Trung Đông.|.Đồng bằng sông Cửu Long.","Dựa trên địa lý của Việt Nam Atlat, vui lòng cho biết khu vực có lượng mưa trung bình hàng năm ở nước ta?|.Ninh Thuận.|.Lai Châu.|.TP.Tp.ho Chi Minh.|.Nghệ An.",,,,0.0
3,"những biểu hiện của dân số nước ta đang ngày càng già đi : | nhóm tuổi 0 -14 và 15 – 59 giảm giá nhanh , trên 60 tuổi tăng khá nhanh .| nhóm tuổi 0 – 14 và 15 – 59 tăng nhanh , trên 60 tuổi tăng chậm .| nhóm tuổi 0 – 14 giảm giá , nhóm tuổi 15 – 59 và trên 60 tuổi tăng .| nhóm tuổi 0 -14 và trên 60 tăng lên , nhóm tuổi 15 – 59 giảm giá .",dựa vào bảng số liệu dưới đây : | dân cư nước ta ngày càng giảm .| dân cư nước ta tăng nhanh nhưng còn nhiều biến động | thời kì 1956 - 1960 có tỉ lệ tăng dân cư hằng năm cao nhất .| thời kì 1960 - 1985 có dân cư tăng trung bình hằng năm cao nhất .,"Nhóm tuổi 0 – 14 giảm, nhóm tuổi 15 – 59 và trên 60 tuổi tăng.",Thời kì 1960 - 1985 có dân số tăng trung bình hằng năm cao nhất.,,1.0
4,"Đất ở đồng bằng ven biển miền trung có đặc điểm kém, nhiều cát, ít phù sa hơn do: |Khi hình thành đồng bằng, biển đóng vai trò chính |Xói mòn, rửa trôi mạnh trong điều kiện mưa lớn | bởi những ngọn núi nằm dưới chân núi, nhận rất nhiều sỏi, cát nổi.|.Các dòng sông trung tâm ngắn, hẹp và rất nghèo.","Ở đồng bằng sông Cửu Long của mùa khô, nước thủy triều lấn chiếm gần hai phần ba diện tích độ mặn bị ô nhiễm, chủ yếu là do: |Có một mạng lưới kênh đào.|.Đất thấp, không có phong bì đê.|.Có nhiều khu vực rộng lớn của vùng thấp.|.Máy khắc serid 3 đồng bằng.",,,,0.0
...,...,...,...,...,...,...
16327,"đâu là đặc điểm đúng với hoạt động của bạo lực ở việt nam ?| mùa bạo lực bắt đầu từ tháng iv và kết thúc vào tháng xi .| mùa bạo lực chậm dần từ nam ra bắc .| 70% số cơn bạo lực trong mùa tập trung vào các tháng viii , ix , x .| trung bình mỗi năm có 10 đến 12 cơn bạo lực đổ bộ vào vùng biển nước ta .",nguyên nhân chủ yếu làm cho mùa bão nước ta chậm dần từ bắc vào nam là | hình dạng lãnh thổ hẹp ngang và kéo dài theo chiều bắc - nam .| gió mùa đông bắc suy dần khi di chuyển xuống phía nam .| dải hội tụ nhiệt đới lùi dần từ bắc vào nam và đạt được của bão .| nước ta tiếp giáp với biển đông rộng lớn .,"70% số cơn bão trong mùa tập trung vào các tháng VIII, IX, X.",dải hội tụ nhiệt đới lùi dần từ bắc vào nam và hoạt động của bão.,,1.0
16328,"Dựa trên Atlas địa lý Việt Nam, vui lòng cho biết gió mùa đông nào thổi vào nước ta theo hướng?|.Tây Bắc.|.Đông Bắc |.Tây nam.|.Đông Nam.",Các đặc điểm khí hậu của bờ biển phía Nam Trung Bộ khác so với khu vực phía Nam là loại khí hậu khẩn cấp.|.Mùa đông bị ảnh hưởng mạnh mẽ bởi gió thương mại.|.Khí hậu chia thành hai mùa: mùa mưa và mùa khô.|.Mưa lớn trên bộ sưu tập - là.,,,,0.0
16329,"Theo nguồn gốc của sự hình thành, địa hình ở khu vực đồng bằng của nước ta bao gồm các loại: |Đồng bằng dọc theo biển và đồng bằng.|.Tam giác Châu và đồng bằng ven biển.|.Delta Delta và bán hòa bình.| Đồng bằng ven biển và tam giác Châu.","Tại sao đồng bằng ven biển trung tâm hẹp và ít thụ tinh?|.Các vật liệu rõ ràng trong cửa sông ít cửa dưới., Phù sa nhỏ.|.Mọi người làm cho đê từ đồng bằng khác nhau đào sông.",,,,0.0
16330,"nguyên nhân chính làm cho đồng bằng sông hồng bị ngập úng nghiêm trọng nhất ở nước ta là : | có mật độ dân số cao nhất nước ta .| có địa hình thấp nhất so với các đồng bằng .| có lượng mưa lớn nhất nước .| có hệ thống đê sông , đê biển bao bọc .",nguyên nhân gây ngập úng trên diện rộng ở đồng bằng sông cửu long : | bề mặt địa hình thấp và mực thuỷ triều cao .| chưa xây dựng công trình ngăn mặn chống ngập úng .| lượng mưa tập trung cường độ lớn kết hợp với triều cường .| xung quanh không có đê bao bọc nên ngập úng mạnh .,"Có hệ thống đê sông, đê biển bao bọc.",Mưa tập trung cường độ lớn kết hợp với triều cường.,,1.0


In [16]:
dataset = merged_df.set_axis(['sentence1', 'sentence2', 'ans_sentence1', 'ans_sentence2', 'similarity', 'label'], axis=1, inplace=False)

In [17]:
dataset

Unnamed: 0,sentence1,sentence2,ans_sentence1,ans_sentence2,similarity,label
0,"Đâu là đặc điểm thực sự của các hoạt động bão tại Việt Nam?|.Mùa bão bắt đầu từ tháng 1 và kết thúc vào tháng 11.|.Mùa bão chậm chậm từ phía nam đến phía bắc .70% những cơn bão trong mùa được tập trung vào những tháng VIII, IX, X. |Trung bình, 10 đến 12 cơn bão đáp xuống vùng biển của chúng ta.","Lũ lụt ở đồng bằng sông Cửu Long đến chủ yếu từ: |Mưa mạnh, thủy triều pho mát |Mưa tập trung vào một mùa giải |Đồng bằng cô gái thấp |Không có đê lũ lụt",,,,0.0
1,"Biểu hiện nào sau đây không đúng với khí hậu của Đồng bằng sông Cửu Long|Thiên tai bão, lũ quét, sạt lở đất diễn ra thường xuyên.|Lượng mưa lớn tập trung vào các tháng mùa mưa: tháng V – XI.|Chế độ nhiệt cao, ổn định quanh nắm.|Khí hậu cân xích đạo.","So với Đồng bằng sông Hồng, thiên nhiên Đồng bằng sông Cửu Long|được khai thác sớm hơn.|ít thay đổi hơn.|có một số vùng vẫn chưa bị tác động nhiều.|bị suy thoái nghiêm trọng.","Thiên tai bão, lũ quét, sạt lở đất diễn ra thường xuyên.",có một số vùng vẫn chưa bị tác động nhiều.,08024098,0.0
2,"Cơ sở Địa lý Atlas Trang 9, cho biết tần suất của các hoạt động bão nhất vào khu vực?|.Delta sông Hồng.|.Trung tâm phía bắc.|.Hải Nam Trung Đông.|.Đồng bằng sông Cửu Long.","Dựa trên địa lý của Việt Nam Atlat, vui lòng cho biết khu vực có lượng mưa trung bình hàng năm ở nước ta?|.Ninh Thuận.|.Lai Châu.|.TP.Tp.ho Chi Minh.|.Nghệ An.",,,,0.0
3,"những biểu hiện của dân số nước ta đang ngày càng già đi : | nhóm tuổi 0 -14 và 15 – 59 giảm giá nhanh , trên 60 tuổi tăng khá nhanh .| nhóm tuổi 0 – 14 và 15 – 59 tăng nhanh , trên 60 tuổi tăng chậm .| nhóm tuổi 0 – 14 giảm giá , nhóm tuổi 15 – 59 và trên 60 tuổi tăng .| nhóm tuổi 0 -14 và trên 60 tăng lên , nhóm tuổi 15 – 59 giảm giá .",dựa vào bảng số liệu dưới đây : | dân cư nước ta ngày càng giảm .| dân cư nước ta tăng nhanh nhưng còn nhiều biến động | thời kì 1956 - 1960 có tỉ lệ tăng dân cư hằng năm cao nhất .| thời kì 1960 - 1985 có dân cư tăng trung bình hằng năm cao nhất .,"Nhóm tuổi 0 – 14 giảm, nhóm tuổi 15 – 59 và trên 60 tuổi tăng.",Thời kì 1960 - 1985 có dân số tăng trung bình hằng năm cao nhất.,,1.0
4,"Đất ở đồng bằng ven biển miền trung có đặc điểm kém, nhiều cát, ít phù sa hơn do: |Khi hình thành đồng bằng, biển đóng vai trò chính |Xói mòn, rửa trôi mạnh trong điều kiện mưa lớn | bởi những ngọn núi nằm dưới chân núi, nhận rất nhiều sỏi, cát nổi.|.Các dòng sông trung tâm ngắn, hẹp và rất nghèo.","Ở đồng bằng sông Cửu Long của mùa khô, nước thủy triều lấn chiếm gần hai phần ba diện tích độ mặn bị ô nhiễm, chủ yếu là do: |Có một mạng lưới kênh đào.|.Đất thấp, không có phong bì đê.|.Có nhiều khu vực rộng lớn của vùng thấp.|.Máy khắc serid 3 đồng bằng.",,,,0.0
...,...,...,...,...,...,...
16327,"đâu là đặc điểm đúng với hoạt động của bạo lực ở việt nam ?| mùa bạo lực bắt đầu từ tháng iv và kết thúc vào tháng xi .| mùa bạo lực chậm dần từ nam ra bắc .| 70% số cơn bạo lực trong mùa tập trung vào các tháng viii , ix , x .| trung bình mỗi năm có 10 đến 12 cơn bạo lực đổ bộ vào vùng biển nước ta .",nguyên nhân chủ yếu làm cho mùa bão nước ta chậm dần từ bắc vào nam là | hình dạng lãnh thổ hẹp ngang và kéo dài theo chiều bắc - nam .| gió mùa đông bắc suy dần khi di chuyển xuống phía nam .| dải hội tụ nhiệt đới lùi dần từ bắc vào nam và đạt được của bão .| nước ta tiếp giáp với biển đông rộng lớn .,"70% số cơn bão trong mùa tập trung vào các tháng VIII, IX, X.",dải hội tụ nhiệt đới lùi dần từ bắc vào nam và hoạt động của bão.,,1.0
16328,"Dựa trên Atlas địa lý Việt Nam, vui lòng cho biết gió mùa đông nào thổi vào nước ta theo hướng?|.Tây Bắc.|.Đông Bắc |.Tây nam.|.Đông Nam.",Các đặc điểm khí hậu của bờ biển phía Nam Trung Bộ khác so với khu vực phía Nam là loại khí hậu khẩn cấp.|.Mùa đông bị ảnh hưởng mạnh mẽ bởi gió thương mại.|.Khí hậu chia thành hai mùa: mùa mưa và mùa khô.|.Mưa lớn trên bộ sưu tập - là.,,,,0.0
16329,"Theo nguồn gốc của sự hình thành, địa hình ở khu vực đồng bằng của nước ta bao gồm các loại: |Đồng bằng dọc theo biển và đồng bằng.|.Tam giác Châu và đồng bằng ven biển.|.Delta Delta và bán hòa bình.| Đồng bằng ven biển và tam giác Châu.","Tại sao đồng bằng ven biển trung tâm hẹp và ít thụ tinh?|.Các vật liệu rõ ràng trong cửa sông ít cửa dưới., Phù sa nhỏ.|.Mọi người làm cho đê từ đồng bằng khác nhau đào sông.",,,,0.0
16330,"nguyên nhân chính làm cho đồng bằng sông hồng bị ngập úng nghiêm trọng nhất ở nước ta là : | có mật độ dân số cao nhất nước ta .| có địa hình thấp nhất so với các đồng bằng .| có lượng mưa lớn nhất nước .| có hệ thống đê sông , đê biển bao bọc .",nguyên nhân gây ngập úng trên diện rộng ở đồng bằng sông cửu long : | bề mặt địa hình thấp và mực thuỷ triều cao .| chưa xây dựng công trình ngăn mặn chống ngập úng .| lượng mưa tập trung cường độ lớn kết hợp với triều cường .| xung quanh không có đê bao bọc nên ngập úng mạnh .,"Có hệ thống đê sông, đê biển bao bọc.",Mưa tập trung cường độ lớn kết hợp với triều cường.,,1.0


**Train Test Split**

In [18]:
!pip install sklearn
from sklearn.model_selection import train_test_split



In [19]:
df_train, df_test = train_test_split(dataset, test_size=0.2, random_state = 8, shuffle=True)
df_train, df_val = train_test_split(dataset, test_size=0.25, random_state = 8)

In [20]:
print(df_train.shape)
print(df_val.shape)
print(df_test.shape)

(12249, 6)
(4083, 6)
(3267, 6)


In [21]:
df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)
df_val = df_val.reset_index(drop=True)

In [22]:
df_train

Unnamed: 0,sentence1,sentence2,ans_sentence1,ans_sentence2,similarity,label
0,"ở miền bắc , đường kẻ nhiệt đới gió mùa có độ cao trung bình dưới ( m ) : | 400 – 500 .| 500 – 600 .| 600 – 700 .| 700 – 800 .","ở miền nam nước ta , đai nhiệt đới gió lên đến độ cao ?| 600-700 m .| 700-800 m .| 800-900 m .| 900-1000 m .",600 – 700.,900-1000m.,,1.0
1,Những lĩnh vực nào sau đây nuôi dưỡng hầu hết nước ta?|.Trung tâm phía bắc.|.Midlands và núi phía Bắc.|.Bờ biển Nam Trung Bộ.|.Đồng bằng sông Cửu Long.,Đối với bảng dữ liệu: |Giá trị xuất khẩu của nước ta đang tăng nhanh.|.Giá trị xuất khẩu của các khu vực để đầu tư nội bộ và nước ngoài tăng.|.Giá trị xuất khẩu hàng hóa Vùng quốc gia đang gia tăng nhanh chóng rằng ngành đã đầu tư ra nước ngoài.|.Giá trị xuất khẩu của khu vực đầu tư ở nước ngoài có xu hướng ngày càng chiếm ưu thế hơn so với khu vực kinh tế quốc gia.,,,,0.0
2,"chất lượng nguồn lực lượng lao động nước ta ngày càng được nâng cao là nhờ | số lượng lực lượng lao động làm việc trong các công ti liên doanh tăng lên .| những thành tựu trong phát triển văn hoá , giáo dục , y tế .| mở thêm nhiều trung tâm đào tạo , hướng nghiệp .| phát triển công nghiệp , dịch vụ ở nông thôn .","hướng giải quyết việc làm nào dưới đây chủ yếu tập trung vào vấn đề con người ?| tăng cường xuất khẩu các mặt hàng nông sản .| nâng cao chất lượng đội ngũ người lao động .| đa dạng hoá các hoạt động sản xuất công - nông .| hợp tác với các nước phát ra , thu hút vốn đầu tư .","những thành tựu trong phát triển văn hóa, giáo dục, y tế.",Nâng cao chất lượng đội ngũ người lao động.,,1.0
3,"ở miền bắc , đai nhiệt đới gió có độ cao trung bình dưới ( m ) : | 400 – 500 .| 500 – 600 .| 600 – 700 .| 700 – 800 .","ở miền nam nước ta , đai nhiệt đới gió mùa lên đến mức độ cao ?| 600-700 m .| 700-800 m .| 800-900 m .| 900-1000 m .",600 – 700.,900-1000m.,,1.0
4,"Những khó khăn chính làm tăng chi phí xây dựng và bảo trì mạng lưới giao thông ở nước ta: |Khí hậu nhiệt đới giữ ẩm cho gió mùa, mưa lớn tập trung theo mùa.|.Nhiều địa hình với những ngọn đồi và thảm họa không thường xuyên, mưa lớn tập trung vào mùa.|.Thiếu vốn đầu tư, nền tảng kỹ thuật của ngành vẫn còn yếu.|.Đội ngũ kỹ sư và công nhân kỹ thuật của ngành đã không gặp các yêu cầu phát triển của ngành.",Đường sắt dài nhất ở nước ta là: |Hà Nội - Hải Phòng.|.Hà Nội - Lào Cai.|.Hà Nội - Tp.ho Chi Minh.|.Hà Nội - Thái Nguyên.,,,,0.0
...,...,...,...,...,...,...
12244,"lao động nước ta chủ yếu tập trung ở các ngành nông – lâm – thuỷ sản là do | các ngành này có cơ cấu đa dạng , trình độ sản xuất cao .| thực hiện đa dạng hoá các hoạt động sản xuất ở nông thôn .| sử dụng nhiều máy móc trong sản xuất .| tỉ lệ lao động thủ công còn cao , sử dụng công cụ thô sơ vẫn còn phổ biến .","căn cứ vào atlat địa lí việt nam trang 15 , hãy cho biết từ năm 1995 đến năm 2007 , sự chuyển dịch cơ cấu lao động đang làm việc theo khu vực kinh tế nào sau đây không đúng ?| tỉ trọng lao động nông , lâm , thuỷ sản giảm .| tỉ trọng lao động công nghiệp và xây dựng tăng .| tỉ trọng lao động dịch vụ tăng .| tỉ trọng lao động dịch vụ luôn nhỏ nhất .","tỉ lệ lao động thủ công còn cao, sử dụng công cụ thô sơ vẫn còn phổ biến.",Tỉ trọng lao động dịch vụ luôn nhỏ nhất.,,1.0
12245,"Tây Nguyên không phải là một khu vực: |Có cao nguyên Badan lớn, ở độ cao khác nhau.|.Nhiều vùng đất đỏ đá vôi đỏ và đất xám bạc trên Silt cổ.|.Khí hậu chia hai mùa mưa - khô rõ ràng.|.Thiếu nước cho mùa khô.",Đào tạo các khu vực chuyên ngành đã cho thấy: |Sự phân bố của cây trồng phù hợp hơn cho các khu vực sinh thái nông nghiệp.|.Sự phát triển của cấu trúc cây trồng phù hợp cho điều kiện sinh thái nông nghiệp.|.Các thác cáo có hiệu quả hơn nông nghiệp nhiệt đới của đất nước chúng ta.|.Cấu trúc của các nền văn hóa được đa dạng theo nhu cầu của thị trường.,,,,0.0
12246,"Khí hậu của đất nước chúng ta có một đặc tính khí hậu của Hải Dương, điều hòa không nhiều hơn: |Nằm gần xích đạo, mưa lớn.|.Địa hình 85% là những ngọn đồi núi thấp.|.Về tác động thường xuyên của gió mùa.| Với Biển Đông.","Sự phát triển kinh tế của biển chung ở nước ta là: |Hoạt động hiệu quả của nền kinh tế và bảo vệ môi trường |Khẳng định chủ quyền của chúng ta từ nước ta trên biển - Đảo biển. |Khai thác tài nguyên thiên nhiên tối đa trên biển. |Mang các nguồn xuất khẩu, thu thập nhiều xuất khẩu tiền tệ.",,,,0.0
12247,"trọng tâm của định hướng chuyển dịch cơ cấu trong nội bộ từng ngành kinh tế ở đồng bằng sông hồng là : | phát triển và hiện đại hoá nông nghiệp , gắn sự phát triển của nó với công nghiệp chế biến .| phát triển và hiện đại hoá công nghiệp chế biến , còn các ngành khác và dịch vụ gắn với yêu cầu phát triển nông nghiệp hàng hoá .| phát triển và hiện đại hoá công nghiệp khai thác , gắn nó với nền nông nghiệp hàng hoá .| phát triển và hiện đại hoá công nghiệp chế biến và khai thác .",sự chuyển dịch cơ cấu kinh tế ở đồng bằng sông hồng theo hướng công nghiệp hoá là xu hướng có ý nghĩa quan trọng nhằm | đáp ứng nhu cầu cho tiêu dùng và xuất khẩu .| giải quyết những hạn chế và phát huy những thế mạnh của vùng về tài nguyên .| đẩy mạnh tăng trưởng và phát ra công nghiệp | góp phần đẩy mạnh chuyển dịch cơ cấu kinh tế .,"phát triển và hiện đại hóa công nghiệp chế biến, còn các ngành khác và dịch vụ gắn với yêu cầu phát triển nông nghiệp hàng hóa.",giải quyết những hạn chế và phát huy những thế mạnh của vùng về tài nguyên.,,1.0


# Load Bert Model

In [23]:
from transformers import BertTokenizer, BertModel

In [24]:
class CustomDataset(Dataset):

    def __init__(self, data, maxlen, with_labels=True, bert_model='bert-base-cased'):

        self.data = data  # pandas dataframe
        #Initialize the tokenizer
        self.tokenizer = BertTokenizer.from_pretrained(bert_model)  

        self.maxlen = maxlen
        self.with_labels = with_labels 

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):

        # Selecting sentence1 and sentence2 at the specified index in the data frame
        sent1 = str(self.data.loc[index, 'sentence1'])
        sent2 = str(self.data.loc[index, 'sentence2'])

        # Tokenize the pair of sentences to get token ids, attention masks and token type ids
        encoded_pair = self.tokenizer(sent1, sent2, 
                                      padding='max_length',  # Pad to max_length
                                      truncation=True,  # Truncate to max_length
                                      max_length=self.maxlen,  
                                      return_tensors='pt')  # Return torch.Tensor objects
        
        token_ids = encoded_pair['input_ids'].squeeze(0)  # tensor of token ids
        attn_masks = encoded_pair['attention_mask'].squeeze(0)  # binary tensor with "0" for padded values and "1" for the other values
        token_type_ids = encoded_pair['token_type_ids'].squeeze(0)  # binary tensor with "0" for the 1st sentence tokens & "1" for the 2nd sentence tokens

        if self.with_labels:  # True if the dataset has labels
            label = self.data.loc[index, 'label']
            return token_ids, attn_masks, token_type_ids, label  
        else:
            return token_ids, attn_masks, token_type_ids

In [25]:
class SentencePairClassifier(nn.Module):

    def __init__(self, bert_model="bert-base-cased", freeze_bert=False):
        super(SentencePairClassifier, self).__init__()
        #  Instantiating BERT-based model object
        self.bert_layer = BertModel.from_pretrained(bert_model, return_dict=False)
        hidden_size = 768

        # Freeze bert layers and only train the classification layer weights
        if freeze_bert:
            for p in self.bert_layer.parameters():
                p.requires_grad = False

        # Classification layer
        self.cls_layer = nn.Linear(hidden_size, 1)

        self.dropout = nn.Dropout(p=0.1)

    @autocast()  # run in mixed precision
    def forward(self, input_ids, attn_masks, token_type_ids):
        '''
        Inputs:
            -input_ids : Tensor  containing token ids
            -attn_masks : Tensor containing attention masks to be used to focus on non-padded values
            -token_type_ids : Tensor containing token type ids to be used to identify sentence1 and sentence2
        '''

        # Feeding the inputs to the BERT-based model to obtain contextualized representations
        # cont_reps, pooler_output = self.bert_layer(input_ids, attn_masks, token_type_ids)
        cont_reps, pooler_output = self.bert_layer(input_ids, attn_masks, token_type_ids)

        # Feeding to the classifier layer the last layer hidden-state of the [CLS] token further processed by a
        # Linear Layer and a Tanh activation. The Linear layer weights were trained from the sentence order prediction (ALBERT) or next sentence prediction (BERT)
        # objective during pre-training.
        logits = self.cls_layer(self.dropout(pooler_output))
        
        return logits

In [26]:
def set_seed(seed):
    """ Set all seeds to make results reproducible """
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(seed)
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    

def evaluate_loss(net, device, criterion, dataloader):
    net.eval()

    mean_loss = 0
    count = 0

    with torch.no_grad():
        for it, (seq, attn_masks, token_type_ids, labels) in enumerate(tqdm(dataloader)):
            seq, attn_masks, token_type_ids, labels = \
                seq.to(device), attn_masks.to(device), token_type_ids.to(device), labels.to(device)
            logits = net(seq, attn_masks, token_type_ids)
            print(f'logits = {logits}')
            mean_loss += criterion(logits.squeeze(-1), labels.float()).item()
            print(f'mean_loss = {mean_loss}')
            count += 1
            print(f'count = {count}')

    return (mean_loss/count)

In [27]:
print("Creation of the models' folder...")
!mkdir models

Creation of the models' folder...
mkdir: cannot create directory ‘models’: File exists


In [28]:
bert_model = "bert-base-cased"
freeze_bert = False  # if True, freeze the encoder weights and only update the classification layer weights
maxlen = 256
bs = 8
iters_to_accumulate = 2  # the gradient accumulation adds gradients over an effective batch of size : bs * iters_to_accumulate. If set to "1", you get the usual batch size
lr = 2e-5
epochs = 4

In [29]:
def train_bert(net, criterion, opti, lr, lr_scheduler, train_loader, val_loader, epochs, iters_to_accumulate):

    best_loss = np.Inf
    best_ep = 1
    nb_iterations = len(train_loader)
    print_every = nb_iterations // 5  # print the training loss 5 times per epoch
    iters = []
    train_losses = []
    val_losses = []

    scaler = GradScaler()

    for ep in range(epochs):

        net.train()
        running_loss = 0.0
        for it, (seq, attn_masks, token_type_ids, labels) in enumerate(tqdm(train_loader)):

            # Converting to cuda tensors
            seq, attn_masks, token_type_ids, labels = \
                seq.to(device), attn_masks.to(device), token_type_ids.to(device), labels.to(device)
    
            # Enables autocasting for the forward pass (model + loss)
            with autocast():
                # Obtaining the logits from the model
                logits = net(seq, attn_masks, token_type_ids)

                # Computing loss
                loss = criterion(logits.squeeze(-1), labels.float())
                loss = loss / iters_to_accumulate  # Normalize the loss because it is averaged

            # Backpropagating the gradients
            # Scales loss.  Calls backward() on scaled loss to create scaled gradients.
            scaler.scale(loss).backward()

            if (it + 1) % iters_to_accumulate == 0:
                # Optimization step
                # scaler.step() first unscales the gradients of the optimizer's assigned params.
                # If these gradients do not contain infs or NaNs, opti.step() is then called,
                # otherwise, opti.step() is skipped.
                scaler.step(opti)
                # Updates the scale for next iteration.
                scaler.update()
                # Adjust the learning rate based on the number of iterations.
                lr_scheduler.step()
                # Clear gradients
                opti.zero_grad()


            running_loss += loss.item()

            if (it + 1) % print_every == 0:  # Print training loss information
                print()
                print("Iteration {}/{} of epoch {} complete. Loss : {} "
                      .format(it+1, nb_iterations, ep+1, running_loss / print_every))

                running_loss = 0.0


        val_loss = evaluate_loss(net, device, criterion, val_loader)  # Compute validation loss
        print()
        print("Epoch {} complete! Validation Loss : {}".format(ep+1, val_loss))

        if (val_loss < best_loss):
            print("Best validation loss improved from {} to {}".format(best_loss, val_loss))
            print()
            net_copy = copy.deepcopy(net)  # save a copy of the model
            best_loss = val_loss
            best_ep = ep + 1

    # Saving the model
    path_to_model='models/{}_lr_{}_val_loss_{}_ep_{}.pt'.format(bert_model, lr, round(best_loss, 5), best_ep)
    torch.save(net_copy.state_dict(), path_to_model)
    print("The model has been saved in {}".format(path_to_model))

    del loss
    torch.cuda.empty_cache()

# Train and Evaluation

In [30]:
#  Set all seeds to make reproducible results
set_seed(1)

# Creating instances of training and validation set
print("Reading training data...")
train_set = CustomDataset(df_train, maxlen, bert_model)
print("Reading validation data...")
val_set = CustomDataset(df_val, maxlen, bert_model)
# Creating instances of training and validation dataloaders
train_loader = DataLoader(train_set, batch_size=bs, num_workers=5,shuffle=True)
val_loader = DataLoader(val_set, batch_size=bs, num_workers=5,shuffle=True)


device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
net = SentencePairClassifier(bert_model, freeze_bert=freeze_bert)

if torch.cuda.device_count() > 1:  # if multiple GPUs
    print("Let's use", torch.cuda.device_count(), "GPUs!")
    net = nn.DataParallel(net)

net.to(device)

criterion = nn.BCEWithLogitsLoss()
opti = AdamW(net.parameters(), lr=lr, weight_decay=1e-2)
num_warmup_steps = 0 # The number of steps for the warmup phase.
num_training_steps = epochs * len(train_loader)  # The total number of training steps
t_total = (len(train_loader) // iters_to_accumulate) * epochs  # Necessary to take into account Gradient accumulation
lr_scheduler = get_linear_schedule_with_warmup(optimizer=opti, num_warmup_steps=num_warmup_steps, num_training_steps=t_total)

train_bert(net, criterion, opti, lr, lr_scheduler, train_loader, val_loader, epochs, iters_to_accumulate)

Reading training data...
Reading validation data...


  cpuset_checked))
 20%|██        | 307/1532 [00:52<02:55,  6.99it/s]


Iteration 306/1532 of epoch 1 complete. Loss : 0.11651216416917985 


 40%|████      | 613/1532 [01:37<02:14,  6.85it/s]


Iteration 612/1532 of epoch 1 complete. Loss : 0.053145972238602485 


 60%|█████▉    | 919/1532 [02:24<01:29,  6.85it/s]


Iteration 918/1532 of epoch 1 complete. Loss : 0.04240159238005754 


 80%|███████▉  | 1225/1532 [03:10<00:45,  6.79it/s]


Iteration 1224/1532 of epoch 1 complete. Loss : nan 


100%|█████████▉| 1531/1532 [03:56<00:00,  6.81it/s]


Iteration 1530/1532 of epoch 1 complete. Loss : 0.03960247660214401 


100%|██████████| 1532/1532 [03:56<00:00,  6.48it/s]
  1%|          | 3/511 [00:00<01:23,  6.12it/s]

logits = tensor([[ 7.8555],
        [-0.8311],
        [ 8.1797],
        [-8.0391],
        [ 8.1719],
        [-8.0547],
        [ 7.7812],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.045196533203125
count = 1
logits = tensor([[-7.8555],
        [ 8.1016],
        [ 8.1250],
        [ 8.1797],
        [ 8.1641],
        [-7.9180],
        [ 8.1875],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.045196533203125
count = 2
logits = tensor([[-0.8838],
        [-8.1719],
        [-8.0469],
        [-7.9922],
        [ 7.9961],
        [-8.0391],
        [ 8.1641],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.088409423828125
count = 3
logits = tensor([[ 8.1953],
        [-8.0703],
        [-8.0625],
        [-0.5459],
        [-8.0156],
        [-0.9497],
        [-1.0225],
        [-8.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.292999267578125
count = 4


  2%|▏         | 8/511 [00:00<00:38, 13.05it/s]

logits = tensor([[-0.6338],
        [ 8.0703],
        [-8.0391],
        [-7.9570],
        [-8.1875],
        [ 8.1875],
        [ 8.1172],
        [-8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.34625244140625
count = 5
logits = tensor([[-7.9258],
        [-8.0469],
        [ 8.1641],
        [-8.1484],
        [-8.0078],
        [-8.1406],
        [-1.0410],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.38409423828125
count = 6
logits = tensor([[ 8.2031],
        [-0.8677],
        [ 8.1094],
        [ 8.2031],
        [-8.0469],
        [ 8.1953],
        [-8.1797],
        [-8.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.42791748046875
count = 7
logits = tensor([[-0.3567],
        [-0.4839],
        [ 8.1797],
        [-0.4409],
        [-1.1357],
        [-0.5957],
        [ 8.1641],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.835601806640625
count = 8


  2%|▏         | 12/511 [00:01<00:31, 15.99it/s]

logits = tensor([[-8.1250],
        [-8.0469],
        [-0.5190],
        [-8.0625],
        [ 8.1406],
        [ 8.1484],
        [-8.1172],
        [-7.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.958892822265625
count = 9
logits = tensor([[ 8.1328],
        [-0.4153],
        [-8.1328],
        [ 8.1875],
        [ 8.1719],
        [-7.9609],
        [-7.8672],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.022247314453125
count = 10
logits = tensor([[-8.0234],
        [ 8.1562],
        [ 7.7305],
        [ 8.1797],
        [-0.4575],
        [ 8.1562],
        [-8.1016],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.083526611328125
count = 11
logits = tensor([[ 8.2344],
        [ 8.1484],
        [ 8.2188],
        [ 8.2266],
        [-8.0703],
        [-7.9961],
        [ 8.2188],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.083526611328125
count = 12
logits = tensor([[-7.9180],
        [

  3%|▎         | 16/511 [00:01<00:28, 17.58it/s]

mean_loss = 1.083526611328125
count = 13
logits = tensor([[ 8.1875],
        [ 8.1484],
        [ 8.2188],
        [-8.1016],
        [-0.8184],
        [ 8.1953],
        [-8.1250],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.129241943359375
count = 14
logits = tensor([[-8.0156],
        [ 8.1484],
        [ 8.2109],
        [ 8.2266],
        [-8.0625],
        [ 8.1328],
        [ 8.0938],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.129241943359375
count = 15
logits = tensor([[ 8.1953],
        [ 8.1641],
        [ 8.1094],
        [ 8.2188],
        [ 8.1797],
        [-8.0625],
        [ 8.1953],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.129241943359375
count = 16


  4%|▍         | 20/511 [00:01<00:27, 18.11it/s]

logits = tensor([[-0.6138],
        [-0.6128],
        [ 8.2109],
        [ 8.1094],
        [-8.2422],
        [ 8.2031],
        [ 8.2109],
        [-0.4573]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.2987060546875
count = 17
logits = tensor([[ 8.2031],
        [ 8.1719],
        [-1.0254],
        [ 8.1797],
        [ 8.1719],
        [ 8.1953],
        [-0.7866],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.383880615234375
count = 18
logits = tensor([[-1.1094],
        [ 8.1484],
        [-8.0625],
        [-8.1562],
        [ 8.1641],
        [-8.0156],
        [ 8.1641],
        [-7.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.419525146484375
count = 19
logits = tensor([[-8.1250],
        [ 8.1250],
        [-0.9468],
        [-8.0859],
        [ 8.1875],
        [ 8.1875],
        [ 8.2109],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.460479736328125
count = 20


  5%|▍         | 24/511 [00:01<00:25, 18.84it/s]

logits = tensor([[-7.8125],
        [-0.7207],
        [-7.8789],
        [ 8.1094],
        [-8.1641],
        [-0.8135],
        [-8.0156],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.555877685546875
count = 21
logits = tensor([[-8.0547],
        [-0.7310],
        [-8.0625],
        [-8.0938],
        [-8.0312],
        [ 8.2109],
        [-8.0703],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.605010986328125
count = 22
logits = tensor([[ 8.1719],
        [-8.1250],
        [-8.1797],
        [-8.0625],
        [ 8.1875],
        [ 8.1250],
        [ 8.1641],
        [-0.7764]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.652313232421875
count = 23
logits = tensor([[-8.0234],
        [ 8.2109],
        [-7.9766],
        [ 8.2109],
        [-8.1406],
        [-8.1250],
        [-0.9263],
        [-0.7666]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.741790771484375
count = 24


  5%|▌         | 28/511 [00:01<00:25, 19.19it/s]

logits = tensor([[ 8.0703],
        [ 8.1250],
        [-8.0703],
        [ 8.1016],
        [ 8.2031],
        [ 8.1016],
        [ 8.1562],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.741790771484375
count = 25
logits = tensor([[-8.0234],
        [ 8.1719],
        [ 8.0938],
        [-0.5620],
        [ 8.0938],
        [ 8.1641],
        [ 8.1797],
        [-0.9756]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.030364990234375
count = 26
logits = tensor([[-1.0537],
        [ 8.0703],
        [ 8.1094],
        [ 8.0859],
        [-8.1172],
        [-8.1953],
        [-8.0703],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.199462890625
count = 27
logits = tensor([[ 8.1016],
        [-1.0703],
        [ 8.2188],
        [-0.7139],
        [ 7.6914],
        [ 8.1641],
        [-8.1094],
        [-8.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.509185791015625
count = 28


  6%|▋         | 32/511 [00:02<00:24, 19.29it/s]

logits = tensor([[-8.0078],
        [ 8.1250],
        [ 8.0859],
        [-8.0469],
        [-8.0391],
        [-7.9219],
        [ 8.1719],
        [-0.7163]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.55889892578125
count = 29
logits = tensor([[ 8.0938],
        [ 8.1250],
        [-1.1377],
        [ 8.1328],
        [-0.8735],
        [-8.0234],
        [-8.0391],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.63726806640625
count = 30
logits = tensor([[ 8.1094],
        [ 8.2109],
        [-8.0781],
        [ 8.0547],
        [ 8.1641],
        [ 8.1562],
        [-7.9922],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.63726806640625
count = 31
logits = tensor([[ 8.2031],
        [ 8.1719],
        [-8.0000],
        [-8.1250],
        [-7.9453],
        [ 8.1719],
        [ 8.0781],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.63726806640625
count = 32


  7%|▋         | 36/511 [00:02<00:24, 19.41it/s]

logits = tensor([[ 8.1953],
        [-0.8545],
        [-8.1719],
        [-0.9546],
        [ 8.0859],
        [ 8.1484],
        [-0.9785],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.881500244140625
count = 33
logits = tensor([[-8.0078],
        [-0.7104],
        [-0.9185],
        [-0.8354],
        [ 8.1875],
        [-7.9648],
        [ 8.0859],
        [-0.5444]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.232513427734375
count = 34
logits = tensor([[-0.7686],
        [-0.8521],
        [-8.0469],
        [-7.8516],
        [ 8.1016],
        [-8.0703],
        [-8.1406],
        [ 8.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.420654296875
count = 35
logits = tensor([[ 8.1797],
        [ 8.1016],
        [-0.9204],
        [-0.8169],
        [ 7.7656],
        [ 8.1328],
        [ 8.1719],
        [-0.7212]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.647979736328125
count = 36


  8%|▊         | 40/511 [00:02<00:24, 19.40it/s]

logits = tensor([[ 8.2422],
        [-8.1484],
        [ 8.1172],
        [ 8.2031],
        [ 8.0859],
        [ 7.6914],
        [ 8.1719],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.647979736328125
count = 37
logits = tensor([[ 8.0625],
        [ 8.2031],
        [ 8.1094],
        [ 8.1562],
        [-8.1172],
        [-0.7290],
        [ 8.1641],
        [-8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.69720458984375
count = 38
logits = tensor([[-8.1172],
        [-0.7974],
        [-8.0781],
        [ 8.2031],
        [-1.0088],
        [-1.0547],
        [ 8.1797],
        [ 7.6367]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.8199462890625
count = 39
logits = tensor([[ 8.1406],
        [ 8.1641],
        [ 8.1641],
        [-8.0156],
        [-8.0312],
        [-0.4331],
        [-8.0312],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.936553955078125
count = 40


  9%|▊         | 44/511 [00:02<00:24, 19.39it/s]

logits = tensor([[-7.9492],
        [-8.0625],
        [ 8.1562],
        [-8.0391],
        [ 8.1328],
        [ 8.0938],
        [ 8.1172],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.936553955078125
count = 41
logits = tensor([[-8.0312],
        [-8.0312],
        [ 8.2266],
        [ 8.1953],
        [ 8.1875],
        [-0.8696],
        [-1.0781],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.016845703125
count = 42
logits = tensor([[ 8.1719],
        [ 8.1953],
        [-8.0625],
        [-8.1719],
        [-8.1094],
        [ 8.2031],
        [ 8.2109],
        [-8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.016845703125
count = 43
logits = tensor([[ 8.1328],
        [-8.0078],
        [ 8.1875],
        [-7.9297],
        [-8.0625],
        [ 8.1797],
        [ 8.1016],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.016845703125
count = 44


  9%|▉         | 48/511 [00:02<00:23, 19.45it/s]

logits = tensor([[-0.8623],
        [ 8.1016],
        [-8.2344],
        [ 8.2344],
        [-0.8970],
        [ 8.1484],
        [ 8.1641],
        [-8.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.21142578125
count = 45
logits = tensor([[ 8.1953],
        [-7.9219],
        [ 8.1875],
        [-8.1172],
        [-0.4570],
        [-8.1406],
        [ 8.1953],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.272705078125
count = 46
logits = tensor([[ 8.2031],
        [-8.0859],
        [-8.0156],
        [ 8.1094],
        [-8.0156],
        [ 8.1719],
        [ 8.1875],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.272705078125
count = 47
logits = tensor([[ 8.2031],
        [ 8.1484],
        [ 8.1562],
        [ 8.1641],
        [-0.7324],
        [ 8.1562],
        [ 8.1797],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.321746826171875
count = 48


 10%|█         | 52/511 [00:03<00:23, 19.17it/s]

logits = tensor([[-8.0938],
        [ 8.1719],
        [ 8.2109],
        [ 8.1953],
        [ 8.1406],
        [ 8.1797],
        [ 8.0781],
        [-7.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.321746826171875
count = 49
logits = tensor([[ 8.1875],
        [-0.9927],
        [-7.9258],
        [-0.8286],
        [ 8.2109],
        [ 8.1562],
        [ 8.1406],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.51007080078125
count = 50
logits = tensor([[-0.3101],
        [ 8.2188],
        [-8.1641],
        [ 8.2344],
        [ 8.1094],
        [ 8.1875],
        [ 8.1641],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.61761474609375
count = 51
logits = tensor([[-0.4231],
        [ 8.0625],
        [-1.0537],
        [ 8.1641],
        [-8.1328],
        [-8.0938],
        [-8.1484],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.717926025390625
count = 52


 11%|█         | 56/511 [00:03<00:23, 19.38it/s]

logits = tensor([[-8.0859],
        [ 8.1562],
        [ 7.8711],
        [ 8.1875],
        [ 8.1719],
        [ 8.1562],
        [-8.1953],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.717926025390625
count = 53
logits = tensor([[-0.9307],
        [ 8.1719],
        [ 8.1797],
        [-8.0625],
        [-8.1484],
        [-8.0781],
        [-8.1562],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.759490966796875
count = 54
logits = tensor([[-1.0244],
        [-7.5430],
        [ 8.1875],
        [ 8.2109],
        [ 8.1797],
        [ 8.1719],
        [ 8.1719],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.79800409078598
count = 55
logits = tensor([[-7.9141],
        [ 8.0781],
        [-8.1484],
        [ 8.1562],
        [ 8.1719],
        [ 8.1953],
        [-8.0859],
        [-8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.79800409078598
count = 56


 12%|█▏        | 60/511 [00:03<00:23, 19.44it/s]

logits = tensor([[-8.1172],
        [-8.1250],
        [ 8.1719],
        [ 8.1875],
        [ 8.1641],
        [-0.8892],
        [ 8.1719],
        [-0.9985]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.005065858364105
count = 57
logits = tensor([[ 7.6367],
        [-8.1172],
        [-8.2656],
        [ 8.2109],
        [-8.0859],
        [ 8.1797],
        [-8.0703],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.005065858364105
count = 58
logits = tensor([[ 8.1719],
        [ 8.1875],
        [-7.9727],
        [-7.9492],
        [-8.0859],
        [ 7.8320],
        [ 8.2188],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.005065858364105
count = 59
logits = tensor([[-7.9648],
        [ 8.1406],
        [-1.0166],
        [ 8.2188],
        [-7.9961],
        [ 8.2109],
        [-0.6484],
        [-8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.22329705953598
count = 60


 13%|█▎        | 64/511 [00:03<00:22, 19.45it/s]

logits = tensor([[ 8.1797],
        [ 8.1641],
        [ 8.2031],
        [ 8.2188],
        [ 8.2109],
        [-8.2031],
        [ 8.2266],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.22329705953598
count = 61
logits = tensor([[ 8.1719],
        [ 8.2109],
        [ 8.2109],
        [ 8.1797],
        [ 8.2188],
        [ 8.1484],
        [-8.1328],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.22329705953598
count = 62
logits = tensor([[ 8.2109],
        [ 8.1094],
        [-0.7324],
        [-0.9619],
        [-7.9961],
        [ 8.2109],
        [ 8.0547],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.31277459859848
count = 63
logits = tensor([[ 8.1797],
        [-8.0312],
        [ 8.1562],
        [-8.0703],
        [-0.9097],
        [ 8.2344],
        [-8.0547],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.468749940395355
count = 64


 13%|█▎        | 68/511 [00:03<00:22, 19.41it/s]

logits = tensor([[-8.0078],
        [-8.1406],
        [ 8.1484],
        [-0.7500],
        [-8.0312],
        [-0.3899],
        [-8.1016],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.58181756734848
count = 65
logits = tensor([[-8.1172],
        [ 8.1172],
        [ 8.2344],
        [ 8.2109],
        [ 8.2031],
        [-8.1250],
        [ 8.1875],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.58181756734848
count = 66
logits = tensor([[-8.0547],
        [-0.4380],
        [-7.9531],
        [ 8.0938],
        [ 8.1797],
        [ 8.1719],
        [ 8.1797],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.64407342672348
count = 67
logits = tensor([[-0.7422],
        [-8.1797],
        [-8.1172],
        [ 8.1953],
        [ 8.1250],
        [-8.1016],
        [ 8.1875],
        [ 8.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.69277948141098
count = 68


 14%|█▍        | 72/511 [00:04<00:22, 19.47it/s]

logits = tensor([[-8.2266],
        [-8.1797],
        [ 8.1875],
        [ 8.2188],
        [ 8.1797],
        [ 8.1641],
        [-8.0938],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.69277948141098
count = 69
logits = tensor([[-8.1562],
        [-8.0703],
        [-8.1484],
        [ 8.1719],
        [-8.1250],
        [-8.0391],
        [-0.7563],
        [-8.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.740905702114105
count = 70
logits = tensor([[-0.5122],
        [-8.1250],
        [ 8.1484],
        [-7.9688],
        [ 8.1719],
        [ 8.1641],
        [-8.0000],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.799621522426605
count = 71
logits = tensor([[ 8.1953],
        [ 8.0781],
        [-0.8999],
        [ 8.1797],
        [ 8.2188],
        [ 8.1875],
        [-8.1250],
        [ 7.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.842224061489105
count = 72


 15%|█▍        | 76/511 [00:04<00:22, 19.46it/s]

logits = tensor([[-8.2109],
        [-8.0156],
        [-7.9219],
        [ 8.0938],
        [ 8.1719],
        [-0.5884],
        [-7.9297],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.97091668844223
count = 73
logits = tensor([[ 8.1953],
        [-8.0469],
        [ 8.1875],
        [ 8.1406],
        [ 8.1406],
        [-8.1328],
        [-8.0703],
        [-8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.97091668844223
count = 74
logits = tensor([[ 8.2109],
        [ 8.2109],
        [-8.1328],
        [-8.1953],
        [-8.1562],
        [ 8.1484],
        [-8.0156],
        [ 8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.97091668844223
count = 75
logits = tensor([[-8.1406],
        [ 8.1484],
        [ 8.2031],
        [-8.0312],
        [-0.4043],
        [ 8.2188],
        [-8.1016],
        [ 8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.03488153219223
count = 76


 16%|█▌        | 80/511 [00:04<00:22, 19.10it/s]

logits = tensor([[ 8.2266],
        [-8.0469],
        [ 8.1641],
        [ 8.1875],
        [-8.0625],
        [ 8.1797],
        [-0.9951],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.074157655239105
count = 77
logits = tensor([[ 8.1016],
        [ 8.1953],
        [ 8.2031],
        [ 8.1641],
        [-1.1260],
        [-8.0234],
        [ 8.1641],
        [ 8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.109252870082855
count = 78
logits = tensor([[ 8.2188],
        [-8.1953],
        [ 8.1641],
        [ 8.1562],
        [-8.1484],
        [-8.0547],
        [ 8.1719],
        [-8.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.109252870082855
count = 79
logits = tensor([[ 8.1250],
        [-8.0312],
        [-8.0703],
        [-8.1797],
        [ 7.6836],
        [ 8.1875],
        [-7.9844],
        [ 0.0887]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.190490663051605
count = 80


 16%|█▋        | 84/511 [00:04<00:22, 19.36it/s]

logits = tensor([[-8.0703],
        [-7.9570],
        [ 8.1562],
        [ 8.1719],
        [-8.1172],
        [ 8.0781],
        [ 8.1719],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.190490663051605
count = 81
logits = tensor([[ 8.2188],
        [-8.2344],
        [ 8.2031],
        [-0.9287],
        [ 8.0938],
        [-7.8789],
        [-8.0938],
        [-0.4734]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.46786493062973
count = 82
logits = tensor([[-8.1016],
        [-8.1406],
        [ 8.0625],
        [ 8.0703],
        [-8.1250],
        [-8.1016],
        [-0.6523],
        [-7.8242]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.520324647426605
count = 83
logits = tensor([[ 8.1953],
        [-8.1719],
        [ 8.1562],
        [-8.0156],
        [ 8.1875],
        [ 8.2109],
        [ 8.1875],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.520324647426605
count = 84


 17%|█▋        | 88/511 [00:04<00:21, 19.30it/s]

logits = tensor([[-8.1719],
        [-8.1172],
        [ 8.0391],
        [ 8.1328],
        [-8.0938],
        [ 8.1250],
        [-7.9727],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.520324647426605
count = 85
logits = tensor([[-0.9771],
        [-8.1953],
        [-8.1328],
        [ 8.2109],
        [ 8.1484],
        [ 8.1719],
        [-8.0469],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.682434022426605
count = 86
logits = tensor([[-8.1797],
        [ 8.0938],
        [-8.0234],
        [ 8.1562],
        [-8.1562],
        [-8.0859],
        [ 8.1562],
        [-7.8086]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.682434022426605
count = 87
logits = tensor([[-0.5312],
        [ 8.1953],
        [-8.0547],
        [ 8.0000],
        [ 8.1484],
        [-8.1328],
        [ 8.1641],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.740234315395355
count = 88


 18%|█▊        | 92/511 [00:05<00:21, 19.13it/s]

logits = tensor([[ 8.0625],
        [ 8.1094],
        [-8.0547],
        [-8.1250],
        [ 8.1875],
        [-0.8008],
        [ 8.2344],
        [-0.9146]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.04312127828598
count = 89
logits = tensor([[ 8.1953],
        [-8.0703],
        [-8.0000],
        [ 8.0938],
        [-7.9688],
        [-8.1094],
        [-8.0156],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.04312127828598
count = 90
logits = tensor([[-8.0938],
        [ 8.1953],
        [-8.1250],
        [-8.1875],
        [ 8.1562],
        [-7.9688],
        [-0.6079],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.09750360250473
count = 91
logits = tensor([[-1.0029],
        [-8.1328],
        [-8.1719],
        [ 8.1719],
        [-8.0469],
        [-8.1719],
        [ 8.1641],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.136596620082855
count = 92


 19%|█▉        | 96/511 [00:05<00:21, 19.33it/s]

logits = tensor([[-0.8564],
        [-8.0781],
        [-8.1562],
        [-8.0234],
        [ 8.2109],
        [ 8.2266],
        [ 8.1172],
        [-8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.287902772426605
count = 93
logits = tensor([[-0.2086],
        [-8.0078],
        [-8.0312],
        [ 8.2344],
        [-8.1562],
        [ 8.1562],
        [-0.6865],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.525070130825043
count = 94
logits = tensor([[-1.1104],
        [ 8.1641],
        [-0.4028],
        [-8.1797],
        [ 8.1641],
        [ 7.7969],
        [ 8.1719],
        [-7.9414]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.624587953090668
count = 95
logits = tensor([[ 8.1562],
        [-8.1172],
        [-8.0391],
        [-8.1016],
        [-8.0859],
        [ 8.1875],
        [-8.2188],
        [ 7.6758]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.624587953090668
count = 96


 20%|█▉        | 100/511 [00:05<00:21, 19.15it/s]

logits = tensor([[ 8.1562],
        [-8.0703],
        [ 8.1797],
        [ 8.1641],
        [ 8.1719],
        [-8.1797],
        [ 8.0938],
        [-7.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.624587953090668
count = 97
logits = tensor([[ 8.1406],
        [ 8.1719],
        [-8.1953],
        [ 8.2109],
        [-8.0547],
        [ 8.0859],
        [-8.1484],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.624587953090668
count = 98
logits = tensor([[ 8.1328],
        [ 7.7305],
        [-8.1328],
        [-0.9580],
        [ 8.2109],
        [-7.7695],
        [-8.0469],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.784927308559418
count = 99
logits = tensor([[ 8.1094],
        [-8.0469],
        [-8.1016],
        [ 8.0625],
        [ 8.0391],
        [-8.1094],
        [ 8.1328],
        [-0.9785]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.947128236293793
count = 100


 20%|██        | 104/511 [00:05<00:21, 19.22it/s]

logits = tensor([[-8.0156],
        [-8.0547],
        [-7.9766],
        [-8.1328],
        [-1.1016],
        [ 8.1719],
        [ 8.1562],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.982955873012543
count = 101
logits = tensor([[-8.0703],
        [-8.1484],
        [ 8.1875],
        [ 8.1328],
        [-8.0234],
        [ 8.1016],
        [ 8.1797],
        [-1.0723]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.019699037075043
count = 102
logits = tensor([[ 8.2344],
        [-8.1562],
        [ 8.1484],
        [-1.0811],
        [-8.1953],
        [ 8.1797],
        [-8.0234],
        [-0.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.095718324184418
count = 103
logits = tensor([[ 8.1953],
        [-8.1406],
        [ 8.1016],
        [-8.0625],
        [ 8.1719],
        [-8.0234],
        [-0.5771],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.151412904262543
count = 104


 21%|██        | 108/511 [00:06<00:21, 19.17it/s]

logits = tensor([[ 8.2109],
        [-8.1328],
        [-0.9937],
        [ 8.1953],
        [ 8.1641],
        [ 8.1016],
        [ 8.1953],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.314987123012543
count = 105
logits = tensor([[ 8.1719],
        [-8.2344],
        [ 8.2031],
        [ 8.1797],
        [-8.2500],
        [-0.6602],
        [ 8.1484],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.367050111293793
count = 106
logits = tensor([[-8.1250],
        [ 8.1719],
        [-0.9482],
        [-1.0801],
        [-8.2188],
        [-8.0938],
        [-0.9385],
        [-8.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.485794007778168
count = 107
logits = tensor([[-8.0625],
        [ 8.0938],
        [-8.1094],
        [-8.1484],
        [-0.7349],
        [ 8.1250],
        [-7.8320],
        [-8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.534744203090668
count = 108


 22%|██▏       | 112/511 [00:06<00:20, 19.02it/s]

logits = tensor([[-8.0938],
        [ 8.1250],
        [ 8.1250],
        [ 8.1641],
        [-0.8335],
        [ 8.1641],
        [-8.0234],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.579849183559418
count = 109
logits = tensor([[-7.9805],
        [ 8.1562],
        [ 8.0391],
        [-8.1484],
        [-8.1094],
        [ 8.1953],
        [-8.0703],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.579849183559418
count = 110
logits = tensor([[ 8.2188],
        [ 8.1875],
        [ 8.2031],
        [ 8.1875],
        [-8.3125],
        [-0.4949],
        [ 8.1797],
        [ 8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.701187074184418
count = 111
logits = tensor([[ 8.1094],
        [-8.0781],
        [ 8.1875],
        [-8.2969],
        [ 8.1641],
        [-8.1328],
        [-8.0859],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.701187074184418
count = 112


 23%|██▎       | 116/511 [00:06<00:20, 19.05it/s]

logits = tensor([[ 8.2266],
        [ 8.1797],
        [ 8.1562],
        [ 7.8164],
        [-1.1582],
        [ 8.1875],
        [ 8.1641],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.735366761684418
count = 113
logits = tensor([[-0.6602],
        [-7.9727],
        [ 8.2188],
        [-0.9312],
        [ 8.1562],
        [ 8.1328],
        [-0.9272],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.870651185512543
count = 114
logits = tensor([[ 8.2188],
        [ 8.1953],
        [-8.1094],
        [-8.1484],
        [-0.4031],
        [-0.7910],
        [ 7.7188],
        [-7.9023]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.080215394496918
count = 115
logits = tensor([[-0.3887],
        [ 8.1641],
        [-8.0625],
        [-8.0312],
        [ 8.1953],
        [ 8.2031],
        [-0.4075],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.259628236293793
count = 116


 23%|██▎       | 120/511 [00:06<00:20, 18.75it/s]

logits = tensor([[ 8.1562],
        [ 8.2109],
        [ 8.1484],
        [-0.8418],
        [-8.1172],
        [-8.0391],
        [ 8.2109],
        [-8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.409622132778168
count = 117
logits = tensor([[ 8.1797],
        [-8.1484],
        [ 8.1875],
        [-8.0078],
        [ 8.0938],
        [-0.0254],
        [ 8.2031],
        [ 7.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.494644105434418
count = 118
logits = tensor([[ 8.1641],
        [ 8.2031],
        [-0.7212],
        [-8.0781],
        [-8.0938],
        [ 8.2031],
        [ 8.1797],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.544174134731293
count = 119
logits = tensor([[ 8.0938],
        [ 8.1953],
        [-7.8086],
        [ 8.1484],
        [-0.7417],
        [-8.0469],
        [ 8.1875],
        [-1.0059]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.631790101528168
count = 120


 24%|██▍       | 124/511 [00:06<00:20, 18.98it/s]

logits = tensor([[-7.9414],
        [-8.0156],
        [-0.6880],
        [ 8.1797],
        [ 8.1250],
        [-8.2031],
        [ 8.1016],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.682632386684418
count = 121
logits = tensor([[-0.9355],
        [-8.2891],
        [ 8.0938],
        [-7.9922],
        [ 8.1250],
        [ 7.7539],
        [ 8.1797],
        [-8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.840957581996918
count = 122
logits = tensor([[ 8.1328],
        [-8.0625],
        [-8.0469],
        [ 8.1797],
        [-8.1797],
        [-7.8984],
        [ 8.1875],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.840957581996918
count = 123
logits = tensor([[-0.9004],
        [ 8.2109],
        [ 8.1484],
        [-0.4111],
        [-8.0781],
        [ 8.1719],
        [ 8.1641],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.059707581996918
count = 124


 25%|██▌       | 128/511 [00:07<00:20, 19.02it/s]

logits = tensor([[-8.1719],
        [-8.0781],
        [-7.9180],
        [-0.6699],
        [-8.1250],
        [-8.0000],
        [ 8.0938],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.111373841762543
count = 125
logits = tensor([[ 8.2031],
        [-8.1719],
        [-8.0312],
        [-0.6665],
        [-0.2947],
        [ 8.1953],
        [-8.0234],
        [-0.8384]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.502609193325043
count = 126
logits = tensor([[-7.9336],
        [ 8.2109],
        [-0.6562],
        [ 8.1875],
        [-8.0156],
        [ 8.1328],
        [-0.8516],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.681289613246918
count = 127
logits = tensor([[ 8.2109],
        [-8.2500],
        [-0.4026],
        [ 8.1094],
        [ 8.1953],
        [-8.0625],
        [ 8.1875],
        [-8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.795577943325043
count = 128


 26%|██▌       | 132/511 [00:07<00:19, 19.19it/s]

logits = tensor([[-0.7808],
        [-8.1719],
        [-8.1797],
        [ 8.2031],
        [ 8.1641],
        [ 8.1641],
        [ 8.1953],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.940292298793793
count = 129
logits = tensor([[ 8.1719],
        [ 8.1719],
        [ 8.0547],
        [-1.1328],
        [-7.9570],
        [-8.1875],
        [-8.1250],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.975204408168793
count = 130
logits = tensor([[-8.2031],
        [-1.0371],
        [-8.1562],
        [ 8.1953],
        [-8.1797],
        [-8.0781],
        [-8.1328],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.013137757778168
count = 131
logits = tensor([[ 8.1797],
        [-0.9702],
        [ 8.1719],
        [ 8.2031],
        [-8.1250],
        [-8.1094],
        [-8.1406],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.053298890590668
count = 132


 27%|██▋       | 136/511 [00:07<00:19, 19.29it/s]

logits = tensor([[ 8.1484],
        [ 8.1406],
        [-0.9595],
        [ 8.1641],
        [-0.4946],
        [-0.7656],
        [ 8.2109],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.416671693325043
count = 133
logits = tensor([[ 8.2344],
        [-8.1719],
        [-0.4856],
        [-8.1562],
        [ 8.2031],
        [-7.9648],
        [ 8.0000],
        [-8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.537307679653168
count = 134
logits = tensor([[-0.7310],
        [-8.1641],
        [-7.9961],
        [-0.5938],
        [ 8.1328],
        [ 8.2031],
        [-0.4363],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.869338929653168
count = 135
logits = tensor([[-8.0156],
        [ 8.1094],
        [ 8.1094],
        [-8.0781],
        [ 8.1797],
        [ 8.1016],
        [ 8.1094],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.869338929653168
count = 136


 27%|██▋       | 140/511 [00:07<00:19, 19.11it/s]

logits = tensor([[ 8.0859],
        [-8.1641],
        [-7.9180],
        [ 8.1641],
        [-0.5640],
        [ 8.0859],
        [ 8.1953],
        [-8.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.925582826137543
count = 137
logits = tensor([[ 8.1484],
        [ 8.1719],
        [ 8.1797],
        [ 8.1797],
        [ 8.1719],
        [-0.8711],
        [-8.0234],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.078109681606293
count = 138
logits = tensor([[ 8.1719],
        [-7.8945],
        [ 8.1562],
        [ 8.1797],
        [-0.8994],
        [ 8.1562],
        [-8.2188],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.120712220668793
count = 139
logits = tensor([[-8.0938],
        [ 8.2031],
        [-7.9531],
        [-0.6011],
        [-0.4871],
        [-8.0156],
        [ 8.1250],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.296127259731293
count = 140


 28%|██▊       | 144/511 [00:07<00:18, 19.32it/s]

logits = tensor([[ 8.1328],
        [-7.8633],
        [-8.1406],
        [ 8.1641],
        [ 8.1719],
        [-8.1328],
        [ 8.1797],
        [ 8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.296127259731293
count = 141
logits = tensor([[-8.1641],
        [-8.1562],
        [ 8.2266],
        [ 8.0938],
        [-8.0703],
        [-8.0781],
        [-8.0078],
        [ 8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.296127259731293
count = 142
logits = tensor([[-8.1016],
        [-0.7798],
        [ 8.0625],
        [ 8.1719],
        [ 8.1094],
        [-8.0312],
        [ 8.1797],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.440811097621918
count = 143
logits = tensor([[ 8.1875],
        [-8.1875],
        [ 8.1719],
        [ 8.1875],
        [ 8.2188],
        [ 8.1016],
        [ 8.1875],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.440811097621918
count = 144


 29%|██▉       | 148/511 [00:08<00:19, 19.09it/s]

logits = tensor([[ 8.1875],
        [-0.5503],
        [ 8.1719],
        [-8.2812],
        [ 8.1797],
        [ 8.0625],
        [-0.8496],
        [-7.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.542221009731293
count = 145
logits = tensor([[ 8.0703],
        [-8.1016],
        [ 8.1094],
        [-0.7515],
        [-8.1172],
        [ 8.1172],
        [-8.0859],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.590530335903168
count = 146
logits = tensor([[ 8.2109],
        [ 8.1484],
        [-8.1953],
        [-8.0859],
        [-7.9102],
        [ 8.1953],
        [-0.5947],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.645461976528168
count = 147
logits = tensor([[ 8.2109],
        [-0.9644],
        [-8.1016],
        [-8.1172],
        [ 8.1875],
        [-7.9648],
        [ 8.2188],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.685806214809418
count = 148


 30%|██▉       | 152/511 [00:08<00:18, 19.18it/s]

logits = tensor([[ 8.1172],
        [ 8.1094],
        [-7.9961],
        [-0.8711],
        [-0.8262],
        [-8.0859],
        [-7.9922],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.883682191371918
count = 149
logits = tensor([[-8.0781],
        [ 8.1719],
        [ 8.2109],
        [ 8.1953],
        [ 8.1562],
        [ 8.2031],
        [-8.1484],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.883682191371918
count = 150
logits = tensor([[-8.1250],
        [-8.1250],
        [-0.8398],
        [ 8.1797],
        [ 8.0938],
        [ 8.1562],
        [ 8.1953],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.033523499965668
count = 151
logits = tensor([[ 8.1875],
        [ 8.1953],
        [-8.1094],
        [ 8.1562],
        [ 8.1875],
        [-0.1667],
        [-8.1875],
        [ 8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.130966126918793
count = 152


 31%|███       | 156/511 [00:08<00:18, 19.34it/s]

logits = tensor([[ 8.0938],
        [ 8.1641],
        [ 8.2109],
        [ 8.1328],
        [-8.1328],
        [ 8.2109],
        [ 8.2031],
        [-7.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.130966126918793
count = 153
logits = tensor([[ 8.2344],
        [ 8.1172],
        [ 8.1719],
        [-1.1162],
        [ 8.1719],
        [ 8.1875],
        [ 8.1641],
        [-8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.305953919887543
count = 154
logits = tensor([[-8.1172],
        [ 8.2109],
        [ 8.1953],
        [-8.0469],
        [-0.3601],
        [-0.6890],
        [ 8.0625],
        [-8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.554031312465668
count = 155
logits = tensor([[ 8.1719],
        [-1.0459],
        [-7.9219],
        [-8.0391],
        [ 8.1719],
        [-0.7114],
        [-7.7227],
        [-7.9648]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.641647279262543
count = 156


 31%|███▏      | 160/511 [00:08<00:18, 19.26it/s]

logits = tensor([[-8.1953],
        [-7.9648],
        [ 8.0938],
        [ 8.1562],
        [-8.0703],
        [ 8.1953],
        [ 8.2344],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.641647279262543
count = 157
logits = tensor([[-0.7446],
        [-8.1641],
        [ 8.2109],
        [ 8.1797],
        [-7.9219],
        [-8.2344],
        [ 8.1875],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.690200746059418
count = 158
logits = tensor([[ 8.0938],
        [-0.5059],
        [ 8.1719],
        [-8.0078],
        [ 8.1719],
        [-8.0859],
        [ 8.1328],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.812454164028168
count = 159
logits = tensor([[-8.1172],
        [-8.1562],
        [ 8.1250],
        [ 8.1328],
        [ 8.2031],
        [ 8.1797],
        [ 8.1797],
        [-0.7490]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.860824525356293
count = 160


 32%|███▏      | 164/511 [00:08<00:17, 19.40it/s]

logits = tensor([[ 8.2266],
        [ 8.1484],
        [-1.0127],
        [ 8.2109],
        [ 8.2266],
        [ 8.1875],
        [ 8.2031],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.899551331996918
count = 161
logits = tensor([[-8.0625],
        [-0.5732],
        [-8.2109],
        [-8.1016],
        [ 8.1719],
        [ 8.0938],
        [-8.0625],
        [-8.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.955429017543793
count = 162
logits = tensor([[-0.2620],
        [ 8.2109],
        [ 8.1875],
        [-0.5464],
        [ 8.1641],
        [ 8.0859],
        [-0.8623],
        [-7.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.228927552700043
count = 163
logits = tensor([[-7.7578],
        [ 8.0938],
        [ 8.2031],
        [-8.1328],
        [-0.2883],
        [-7.9688],
        [ 8.1484],
        [-0.2236]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.372360169887543
count = 164


 33%|███▎      | 168/511 [00:09<00:17, 19.35it/s]

logits = tensor([[ 8.1328],
        [ 8.2266],
        [ 8.1641],
        [ 8.2109],
        [-0.5381],
        [-8.0312],
        [ 8.1250],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.497116029262543
count = 165
logits = tensor([[ 8.1328],
        [ 8.0625],
        [-7.9609],
        [-0.0518],
        [ 8.0703],
        [ 8.1719],
        [-8.0703],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.580551087856293
count = 166
logits = tensor([[ 8.0938],
        [-0.8130],
        [ 8.1797],
        [ 8.1797],
        [-8.2266],
        [-1.0859],
        [ 8.0938],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.662795960903168
count = 167
logits = tensor([[-0.9902],
        [ 8.1094],
        [ 8.1875],
        [-0.6572],
        [ 7.7812],
        [-0.9165],
        [ 8.2266],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.878646790981293
count = 168


 34%|███▎      | 172/511 [00:09<00:17, 19.14it/s]

logits = tensor([[-8.0703],
        [ 8.1328],
        [-8.0156],
        [ 8.1094],
        [-1.1113],
        [-8.0625],
        [ 7.7734],
        [-1.0947]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.950302064418793
count = 169
logits = tensor([[ 8.2031],
        [-8.1094],
        [-0.9136],
        [-1.1094],
        [ 8.1719],
        [ 8.1016],
        [-8.0703],
        [-8.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.142318665981293
count = 170
logits = tensor([[-7.8945],
        [-0.9800],
        [ 8.1016],
        [ 8.1719],
        [ 8.2266],
        [ 8.1953],
        [ 8.1016],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.182113587856293
count = 171
logits = tensor([[-8.1250],
        [-0.3896],
        [ 8.1328],
        [-8.1953],
        [ 8.0938],
        [ 8.1875],
        [-8.1094],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.246810853481293
count = 172


 34%|███▍      | 176/511 [00:09<00:17, 19.16it/s]

logits = tensor([[ 7.6875],
        [ 8.1016],
        [-0.7769],
        [-0.9707],
        [ 8.1484],
        [ 8.2188],
        [ 8.1328],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.552719056606293
count = 173
logits = tensor([[-0.5278],
        [-8.0469],
        [-8.0312],
        [-8.0469],
        [-1.0498],
        [ 8.2031],
        [ 8.1641],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.714126527309418
count = 174
logits = tensor([[ 8.2422],
        [ 8.2031],
        [-8.2656],
        [-0.7134],
        [ 8.2188],
        [-8.1172],
        [-8.1719],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.853164613246918
count = 175
logits = tensor([[-8.0078],
        [ 7.7891],
        [-8.1016],
        [ 8.0625],
        [ 8.2188],
        [ 8.1953],
        [ 8.1719],
        [ 8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.853164613246918
count = 176


 35%|███▌      | 180/511 [00:09<00:17, 19.09it/s]

logits = tensor([[-8.0859],
        [-7.8906],
        [-1.0635],
        [ 8.1094],
        [ 8.1797],
        [-7.9727],
        [ 8.1328],
        [-8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.890273988246918
count = 177
logits = tensor([[-7.9844],
        [-0.4822],
        [ 8.1953],
        [-0.8193],
        [-7.9961],
        [-8.1406],
        [ 8.1719],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.995986878871918
count = 178
logits = tensor([[ 8.1875],
        [-0.5000],
        [ 8.1719],
        [-8.0156],
        [ 8.1641],
        [ 8.1484],
        [-0.8413],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.267776429653168
count = 179
logits = tensor([[ 8.1562],
        [-8.1641],
        [ 8.2031],
        [-0.7056],
        [-8.1172],
        [-8.2500],
        [ 8.1719],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.406173646450043
count = 180
logits = tensor([[ 8.1875],


 36%|███▌      | 184/511 [00:09<00:17, 18.96it/s]

logits = tensor([[ 8.1797],
        [-8.1641],
        [ 8.1719],
        [-0.7026],
        [ 8.1953],
        [-7.9219],
        [-7.9844],
        [ 8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.582900941371918
count = 182
logits = tensor([[-7.9922],
        [ 8.2266],
        [ 8.1562],
        [-8.1719],
        [ 8.1016],
        [ 8.1484],
        [-8.1875],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.582900941371918
count = 183
logits = tensor([[ 8.1875],
        [-7.9922],
        [-8.1406],
        [ 8.1328],
        [-8.2188],
        [ 8.2344],
        [-0.7529],
        [-8.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.725234925746918
count = 184
logits = tensor([[ 8.1797],
        [-8.1797],
        [ 8.2031],
        [ 8.2031],
        [-0.8872],
        [-8.0781],
        [ 8.0859],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.768356263637543
count = 185


 37%|███▋      | 188/511 [00:10<00:16, 19.12it/s]

logits = tensor([[ 8.1641],
        [-7.9297],
        [ 8.1094],
        [-8.0781],
        [-8.1406],
        [-1.0234],
        [ 8.1484],
        [-8.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.806747376918793
count = 186
logits = tensor([[ 8.1562],
        [-0.7744],
        [-8.1641],
        [ 8.1875],
        [-7.9453],
        [ 8.1641],
        [-8.1094],
        [-8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.854141175746918
count = 187
logits = tensor([[ 8.1250],
        [ 8.1719],
        [-0.5317],
        [-0.5454],
        [-8.0000],
        [-8.1016],
        [-8.1172],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.037307679653168
count = 188
logits = tensor([[ 8.1641],
        [-0.7764],
        [ 8.1953],
        [ 8.1953],
        [ 8.1250],
        [-8.1484],
        [-0.8384],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.129562318325043
count = 189


 38%|███▊      | 192/511 [00:10<00:16, 19.15it/s]

logits = tensor([[-7.9336],
        [-0.6763],
        [-8.1328],
        [-8.1172],
        [ 8.1719],
        [-7.9180],
        [-8.0469],
        [-1.0732]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.217636048793793
count = 190
logits = tensor([[-8.1562],
        [-8.0781],
        [ 8.1797],
        [ 8.1562],
        [ 8.1875],
        [-8.2031],
        [-8.1016],
        [-0.6636]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.269607484340668
count = 191
logits = tensor([[ 8.1562],
        [ 8.2344],
        [-8.0312],
        [-7.5469],
        [ 8.1328],
        [-8.1719],
        [-8.1094],
        [-0.6162]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.323715090751648
count = 192
logits = tensor([[-0.8926],
        [-7.9141],
        [ 8.1562],
        [ 8.1797],
        [-8.0391],
        [-0.5005],
        [ 8.2188],
        [ 8.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.425948977470398
count = 193


 38%|███▊      | 196/511 [00:10<00:16, 19.04it/s]

logits = tensor([[ 8.2188],
        [-0.4512],
        [ 8.1094],
        [-0.6147],
        [ 8.2109],
        [ 8.0938],
        [ 8.1406],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.674819827079773
count = 194
logits = tensor([[-8.0703],
        [ 8.1875],
        [ 8.1719],
        [-8.2422],
        [-8.0391],
        [-8.1250],
        [ 8.1797],
        [-8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.674819827079773
count = 195
logits = tensor([[ 8.0859],
        [ 7.7031],
        [ 8.1953],
        [-8.1797],
        [-0.7441],
        [ 8.2031],
        [ 8.2188],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.723373293876648
count = 196
logits = tensor([[-0.7246],
        [-8.0469],
        [-8.1484],
        [-0.9058],
        [ 8.1875],
        [ 8.0078],
        [-7.9922],
        [-7.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.905776858329773
count = 197


 39%|███▉      | 200/511 [00:10<00:16, 19.25it/s]

logits = tensor([[-7.9570],
        [-8.1094],
        [ 8.1406],
        [ 8.2109],
        [ 8.2031],
        [ 8.1953],
        [-8.1719],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.905776858329773
count = 198
logits = tensor([[ 8.1641],
        [ 8.1484],
        [ 8.1406],
        [-7.8320],
        [ 8.1797],
        [-0.9268],
        [ 8.2188],
        [-8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.063278079032898
count = 199
logits = tensor([[ 8.1953],
        [-0.8730],
        [ 8.1953],
        [ 8.1562],
        [ 8.1875],
        [-1.0322],
        [-7.8320],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.254165530204773
count = 200
logits = tensor([[ 8.2266],
        [ 8.2031],
        [-0.8037],
        [ 8.2109],
        [ 8.1953],
        [-8.1094],
        [ 8.1719],
        [-8.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.300369143486023
count = 201


 40%|███▉      | 204/511 [00:11<00:15, 19.39it/s]

logits = tensor([[ 8.1562],
        [ 8.1406],
        [-0.9155],
        [ 8.1641],
        [ 8.1875],
        [-1.1289],
        [ 7.6875],
        [ 8.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.491897463798523
count = 202
logits = tensor([[ 8.1016],
        [ 8.1953],
        [-1.0332],
        [ 8.1797],
        [ 8.1641],
        [ 8.2188],
        [ 8.1641],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.529922366142273
count = 203
logits = tensor([[-8.2266],
        [-7.9688],
        [ 8.1875],
        [ 8.1875],
        [-8.1953],
        [ 8.1016],
        [-0.7646],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.673293948173523
count = 204
logits = tensor([[-7.9258],
        [-0.9414],
        [ 7.6758],
        [-0.7524],
        [ 8.1328],
        [-8.0703],
        [-7.8789],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.856796145439148
count = 205


 41%|████      | 208/511 [00:11<00:15, 19.40it/s]

logits = tensor([[-8.0234],
        [-7.4961],
        [ 8.1875],
        [-8.0781],
        [ 8.1641],
        [ 8.1641],
        [ 8.1172],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.856918156147003
count = 206
logits = tensor([[ 8.1797],
        [ 8.1328],
        [-0.8730],
        [ 8.1172],
        [ 8.0391],
        [-7.9531],
        [ 8.1953],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.900558292865753
count = 207
logits = tensor([[ 8.1406],
        [-0.4302],
        [ 7.7695],
        [ 8.1719],
        [-7.9727],
        [ 8.2109],
        [-0.3394],
        [-7.8867]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.084213078022003
count = 208
logits = tensor([[ 8.1953],
        [ 8.1406],
        [-8.1641],
        [ 8.1797],
        [ 8.2031],
        [ 8.0703],
        [ 8.1641],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.084213078022003
count = 209


 41%|████▏     | 212/511 [00:11<00:15, 19.06it/s]

logits = tensor([[-0.9077],
        [ 8.0859],
        [ 8.1875],
        [ 8.1953],
        [ 8.1641],
        [ 8.0391],
        [-0.4954],
        [-8.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.186050236225128
count = 210
logits = tensor([[-8.0000],
        [ 8.1641],
        [-8.0781],
        [-8.1719],
        [ 8.2188],
        [ 8.1875],
        [-8.1641],
        [ 7.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.186050236225128
count = 211
logits = tensor([[ 8.1719],
        [-0.5176],
        [-8.1406],
        [ 8.0938],
        [-8.1172],
        [-8.0703],
        [ 8.2188],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.244460880756378
count = 212
logits = tensor([[ 8.1016],
        [-1.0098],
        [ 8.1484],
        [-8.1016],
        [-8.1172],
        [-8.1250],
        [-0.2734],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.388198673725128
count = 213


 42%|████▏     | 216/511 [00:11<00:15, 19.34it/s]

logits = tensor([[ 8.1797],
        [ 8.1719],
        [ 8.1719],
        [-0.7026],
        [ 8.1719],
        [ 8.2344],
        [ 8.1719],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.526290714740753
count = 214
logits = tensor([[ 8.2109],
        [-8.2266],
        [ 8.1562],
        [ 8.2422],
        [ 8.1562],
        [-0.6943],
        [-8.1719],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.576980412006378
count = 215
logits = tensor([[ 8.1484],
        [ 8.1328],
        [ 8.2109],
        [ 8.1172],
        [ 8.2422],
        [-8.1094],
        [ 8.1797],
        [-0.5972]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.631820499897003
count = 216
logits = tensor([[-0.5254],
        [ 8.1406],
        [ 8.1562],
        [ 8.2188],
        [-8.1250],
        [ 8.1562],
        [ 8.1484],
        [-8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.755599796772003
count = 217


 43%|████▎     | 220/511 [00:11<00:15, 19.20it/s]

logits = tensor([[ 8.1562],
        [-0.5664],
        [ 8.1641],
        [-8.1484],
        [ 8.1641],
        [ 8.1719],
        [ 8.2109],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.811782658100128
count = 218
logits = tensor([[-0.9507],
        [ 8.1797],
        [ 8.1953],
        [-7.6680],
        [-0.7988],
        [-7.8906],
        [ 8.2109],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.998946964740753
count = 219
logits = tensor([[-8.0312],
        [ 8.2188],
        [ 8.1328],
        [-7.9805],
        [-8.1328],
        [ 8.2188],
        [-1.0215],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.037429630756378
count = 220
logits = tensor([[-0.9141],
        [-8.1250],
        [ 8.2188],
        [ 7.7227],
        [ 8.1641],
        [-8.1719],
        [ 8.1953],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.079513370990753
count = 221


 44%|████▍     | 224/511 [00:12<00:14, 19.33it/s]

logits = tensor([[ 8.1953],
        [-8.0234],
        [-8.0859],
        [ 8.1641],
        [ 8.1797],
        [-8.1328],
        [ 8.1016],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.079513370990753
count = 222
logits = tensor([[-7.7070],
        [ 8.2109],
        [-0.6260],
        [-8.1328],
        [ 8.1328],
        [ 8.1172],
        [ 7.6719],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.133102238178253
count = 223
logits = tensor([[-0.3782],
        [-8.1641],
        [-8.1172],
        [ 8.1797],
        [ 8.1562],
        [-8.1016],
        [ 8.2031],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.198348820209503
count = 224
logits = tensor([[ 8.2109],
        [ 8.0703],
        [ 8.1953],
        [ 8.1953],
        [-8.1250],
        [-8.1562],
        [-8.0391],
        [-8.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.198348820209503
count = 225


 45%|████▍     | 228/511 [00:12<00:14, 19.28it/s]

logits = tensor([[ 8.2188],
        [ 8.2109],
        [-8.0938],
        [-8.0078],
        [-8.0156],
        [ 8.1719],
        [ 8.2266],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.198348820209503
count = 226
logits = tensor([[-8.0469],
        [ 8.1641],
        [ 7.6562],
        [-8.0234],
        [-0.7119],
        [ 8.0859],
        [-7.9766],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.337203800678253
count = 227
logits = tensor([[-8.1094],
        [ 8.2109],
        [ 8.0859],
        [-7.9883],
        [-8.0234],
        [ 8.1562],
        [-0.8418],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.487197697162628
count = 228
logits = tensor([[ 8.2031],
        [ 8.1406],
        [-8.0469],
        [ 8.1250],
        [-7.8398],
        [ 8.2266],
        [ 8.1797],
        [-0.5210]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.545455753803253
count = 229


 45%|████▌     | 232/511 [00:12<00:14, 19.01it/s]

logits = tensor([[-8.1094],
        [-8.0312],
        [ 8.1797],
        [-8.1172],
        [-8.1250],
        [ 8.1719],
        [-8.0312],
        [-7.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.545455753803253
count = 230
logits = tensor([[-8.0391],
        [ 8.1875],
        [ 8.2188],
        [ 8.1719],
        [-8.0781],
        [ 8.0859],
        [-7.8242],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.545455753803253
count = 231
logits = tensor([[ 8.1406],
        [ 8.1797],
        [-8.1406],
        [ 8.1719],
        [-0.8691],
        [-8.0859],
        [ 8.1719],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.589278995990753
count = 232
logits = tensor([[-8.1172],
        [ 8.0625],
        [-0.6440],
        [ 8.1172],
        [-0.4719],
        [ 8.0859],
        [ 8.0859],
        [ 8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.761672794818878
count = 233


 46%|████▌     | 236/511 [00:12<00:14, 19.06it/s]

logits = tensor([[-8.0625],
        [-8.1094],
        [ 8.1094],
        [-1.0469],
        [ 8.1641],
        [-7.8945],
        [-8.0469],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.930190861225128
count = 234
logits = tensor([[-8.1484],
        [-8.1016],
        [-0.4233],
        [-0.8682],
        [-8.0625],
        [ 8.0859],
        [ 8.1719],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.089858829975128
count = 235
logits = tensor([[ 8.1797],
        [ 8.0703],
        [-0.3479],
        [ 8.1484],
        [ 8.2109],
        [ 8.1797],
        [ 8.1797],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.200118839740753
count = 236
logits = tensor([[-1.1045],
        [-8.1328],
        [-8.0391],
        [-1.0820],
        [-8.1328],
        [-8.0625],
        [ 8.1406],
        [-0.7305]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.548019230365753
count = 237


 47%|████▋     | 240/511 [00:12<00:14, 19.20it/s]

logits = tensor([[ 8.1797],
        [-8.1328],
        [-8.0469],
        [-8.1562],
        [-7.9844],
        [-8.2500],
        [-8.0156],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.548019230365753
count = 238
logits = tensor([[ 8.1875],
        [ 8.1875],
        [ 8.1953],
        [-0.5972],
        [-0.6929],
        [-8.0391],
        [-8.0781],
        [ 7.6758]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.653549015522003
count = 239
logits = tensor([[ 8.1719],
        [-0.9600],
        [-8.1484],
        [-0.8267],
        [-8.0859],
        [ 8.1719],
        [ 8.1562],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.739425480365753
count = 240
logits = tensor([[-8.1875],
        [-8.0234],
        [ 8.1719],
        [-8.2812],
        [-8.0391],
        [-1.0322],
        [ 8.1016],
        [-8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.777541935443878
count = 241


 48%|████▊     | 244/511 [00:13<00:14, 18.81it/s]

logits = tensor([[ 8.1172],
        [-1.1309],
        [ 8.2031],
        [-0.7432],
        [-0.8853],
        [-0.8164],
        [-8.1172],
        [-8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.949996769428253
count = 242
logits = tensor([[-1.0605],
        [ 8.2031],
        [ 8.2031],
        [ 8.0703],
        [-7.8359],
        [-8.1406],
        [-8.1953],
        [ 8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.987106144428253
count = 243
logits = tensor([[-0.6968],
        [ 8.1797],
        [-8.0781],
        [-8.1562],
        [ 8.2031],
        [-8.0703],
        [ 8.2109],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.124709904193878
count = 244
logits = tensor([[ 8.1641],
        [ 8.1484],
        [ 8.1641],
        [ 8.0938],
        [ 8.2031],
        [-8.0547],
        [-8.1250],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.124709904193878
count = 245


 49%|████▊     | 248/511 [00:13<00:13, 18.99it/s]

logits = tensor([[ 8.1641],
        [-7.8516],
        [ 8.2031],
        [ 8.1719],
        [ 8.1562],
        [ 8.1953],
        [-8.1406],
        [-0.8042]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.271438419818878
count = 246
logits = tensor([[-8.0078],
        [ 8.1484],
        [-8.0156],
        [ 8.2031],
        [ 8.2109],
        [-8.0859],
        [-8.1016],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.271438419818878
count = 247
logits = tensor([[ 8.2188],
        [ 8.2266],
        [ 8.0938],
        [ 8.0859],
        [ 8.1875],
        [ 8.2344],
        [ 8.2031],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.271438419818878
count = 248
logits = tensor([[ 8.1562],
        [-8.0391],
        [-8.1406],
        [-8.1172],
        [ 8.1875],
        [-8.0078],
        [ 8.1875],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.271438419818878
count = 249


 49%|████▉     | 252/511 [00:13<00:13, 18.94it/s]

logits = tensor([[-0.4272],
        [-1.0566],
        [-8.0000],
        [ 8.2031],
        [ 7.7070],
        [ 8.0703],
        [-8.1250],
        [-8.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.424880802631378
count = 250
logits = tensor([[-8.1484],
        [-7.9180],
        [-8.0703],
        [ 8.2109],
        [ 8.1484],
        [-8.2578],
        [ 8.1797],
        [-7.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.424880802631378
count = 251
logits = tensor([[-8.1328],
        [-7.9922],
        [-8.2266],
        [-7.7266],
        [ 8.1016],
        [ 8.2031],
        [ 8.0625],
        [-0.7129]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.563857853412628
count = 252
logits = tensor([[-8.0234],
        [-0.8843],
        [ 8.2109],
        [-1.1104],
        [ 8.1797],
        [-0.8555],
        [ 8.1562],
        [-8.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.686874210834503
count = 253


 50%|█████     | 256/511 [00:13<00:13, 19.02it/s]

logits = tensor([[ 8.1016],
        [-8.0547],
        [-8.1953],
        [-8.0547],
        [-8.0312],
        [-8.1328],
        [-0.3279],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.754745304584503
count = 254
logits = tensor([[-8.1250],
        [ 8.1641],
        [ 8.1641],
        [-8.0078],
        [-8.1328],
        [-8.0000],
        [-7.8438],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.754745304584503
count = 255
logits = tensor([[-8.2266],
        [ 8.1641],
        [-8.0625],
        [ 8.1641],
        [ 8.1328],
        [-8.1953],
        [-8.0312],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.754745304584503
count = 256
logits = tensor([[-0.9380],
        [ 8.1875],
        [ 8.0859],
        [-8.0781],
        [-8.2344],
        [-7.9492],
        [ 8.1797],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.913314640522003
count = 257


 51%|█████     | 260/511 [00:13<00:13, 19.13it/s]

logits = tensor([[ 8.1797],
        [-7.9844],
        [-8.0000],
        [ 8.1797],
        [ 8.1875],
        [-7.9297],
        [ 8.1328],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.913314640522003
count = 258
logits = tensor([[ 8.2266],
        [-8.0859],
        [-8.0312],
        [ 8.1641],
        [-0.7959],
        [-7.9609],
        [-7.9688],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.959853947162628
count = 259
logits = tensor([[ 8.1641],
        [ 8.1797],
        [-8.0156],
        [-1.1172],
        [ 8.0938],
        [-8.1328],
        [-8.2031],
        [-0.8779]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.288101017475128
count = 260
logits = tensor([[ 8.1875],
        [ 8.1797],
        [ 8.1172],
        [-8.1797],
        [ 8.1875],
        [ 8.2188],
        [-8.1094],
        [-0.9761]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.328079044818878
count = 261


 52%|█████▏    | 264/511 [00:14<00:12, 19.17it/s]

logits = tensor([[-7.8984],
        [ 8.1875],
        [ 8.1719],
        [ 8.1641],
        [ 8.1719],
        [ 8.1562],
        [-8.0781],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.328079044818878
count = 262
logits = tensor([[-8.1250],
        [-1.0898],
        [-0.9175],
        [-8.0391],
        [ 8.2031],
        [-7.9961],
        [ 8.1719],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.406265079975128
count = 263
logits = tensor([[-8.0703],
        [ 8.1953],
        [-8.1094],
        [-8.1328],
        [-0.8916],
        [ 8.1016],
        [-0.9937],
        [-8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.612808048725128
count = 264
logits = tensor([[-7.8906],
        [ 8.1562],
        [-8.1094],
        [ 8.0859],
        [ 8.2109],
        [ 8.0391],
        [-8.1172],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.612808048725128
count = 265


 52%|█████▏    | 268/511 [00:14<00:12, 19.17it/s]

logits = tensor([[ 8.0938],
        [-8.0625],
        [-8.0469],
        [-0.7632],
        [ 8.1719],
        [-8.0859],
        [ 8.1094],
        [-7.7500]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.660598576068878
count = 266
logits = tensor([[-0.4126],
        [-8.1406],
        [-0.8228],
        [ 8.1719],
        [ 8.1484],
        [-8.1094],
        [-0.9399],
        [ 8.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.031234562397003
count = 267
logits = tensor([[-8.1797],
        [ 8.2109],
        [ 8.2031],
        [-8.1641],
        [ 8.1719],
        [-0.3823],
        [ 8.2109],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.143966495990753
count = 268
logits = tensor([[ 8.1641],
        [ 8.1953],
        [-8.0469],
        [-8.1172],
        [-0.3879],
        [ 8.1953],
        [ 8.1328],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.208663761615753
count = 269


 53%|█████▎    | 272/511 [00:14<00:12, 19.28it/s]

logits = tensor([[-1.0869],
        [ 8.0781],
        [-8.1094],
        [ 8.1797],
        [ 8.1719],
        [ 8.1484],
        [-8.2031],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.244949162006378
count = 270
logits = tensor([[-1.0420],
        [ 8.1641],
        [-0.9976],
        [ 8.1641],
        [-8.1719],
        [ 8.1641],
        [-7.9961],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.321975529193878
count = 271
logits = tensor([[-8.1016],
        [-8.1016],
        [-0.7866],
        [ 8.1797],
        [ 8.0859],
        [ 8.2031],
        [ 8.1484],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.467178165912628
count = 272
logits = tensor([[ 8.1641],
        [-8.0000],
        [ 8.1875],
        [ 8.1016],
        [ 8.2109],
        [ 8.1406],
        [-8.1797],
        [-7.7930]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.467178165912628
count = 273


 54%|█████▍    | 276/511 [00:14<00:12, 18.71it/s]

logits = tensor([[-8.0469],
        [ 8.1953],
        [ 8.1953],
        [ 8.1094],
        [ 8.1406],
        [-8.1406],
        [-8.0703],
        [-0.7378]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.516067326068878
count = 274
logits = tensor([[-8.0000],
        [ 8.1953],
        [-8.2266],
        [ 8.1797],
        [-0.4761],
        [ 8.1641],
        [-8.0938],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.576461613178253
count = 275
logits = tensor([[ 8.0938],
        [ 8.1562],
        [ 8.1172],
        [ 8.0625],
        [-8.2969],
        [-8.0234],
        [-8.0234],
        [-0.6553]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.710677921772003
count = 276
logits = tensor([[ 8.1562],
        [ 8.1953],
        [ 8.1797],
        [-0.5356],
        [-0.8486],
        [-0.9131],
        [ 8.1641],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.855026066303253
count = 277


 55%|█████▍    | 280/511 [00:15<00:12, 19.13it/s]

logits = tensor([[-8.0234],
        [-8.0703],
        [-8.1016],
        [-7.9492],
        [ 8.1953],
        [-8.0156],
        [ 8.1016],
        [-8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.855026066303253
count = 278
logits = tensor([[ 8.1875],
        [ 8.1797],
        [-8.0625],
        [-8.1406],
        [-0.3542],
        [ 8.1250],
        [-8.1406],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.921432316303253
count = 279
logits = tensor([[-8.0312],
        [-7.9609],
        [-1.0508],
        [ 8.2031],
        [-8.1406],
        [-7.9961],
        [ 8.2266],
        [ 8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.958907902240753
count = 280
logits = tensor([[ 8.1562],
        [ 8.1250],
        [-8.2656],
        [ 8.1875],
        [ 8.2109],
        [ 8.1797],
        [ 8.1016],
        [-8.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.958907902240753
count = 281


 56%|█████▌    | 284/511 [00:15<00:11, 19.07it/s]

logits = tensor([[ 8.1641],
        [ 8.1875],
        [ 8.1562],
        [-8.1875],
        [-0.5181],
        [ 8.2031],
        [-0.9004],
        [-0.9937]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.099288761615753
count = 282
logits = tensor([[ 8.1641],
        [ 8.1094],
        [ 8.2109],
        [ 8.0625],
        [ 8.1797],
        [-0.8389],
        [-8.0469],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.249007999897003
count = 283
logits = tensor([[ 8.1484],
        [-7.9414],
        [-8.0078],
        [-8.0156],
        [-8.1406],
        [ 8.1797],
        [ 8.1016],
        [-0.2095]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.349410831928253
count = 284
logits = tensor([[-8.1719],
        [-7.9531],
        [ 8.2188],
        [-8.0859],
        [ 8.1953],
        [-8.1797],
        [ 8.1641],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.349410831928253
count = 285


 56%|█████▋    | 288/511 [00:15<00:11, 19.10it/s]

logits = tensor([[ 8.1328],
        [-1.1533],
        [-8.0859],
        [ 8.1719],
        [-0.5996],
        [-8.0156],
        [ 8.1953],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.438369572162628
count = 286
logits = tensor([[ 8.1719],
        [ 8.2031],
        [-8.1719],
        [-8.0312],
        [-8.1016],
        [-8.0391],
        [-8.1094],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.438369572162628
count = 287
logits = tensor([[-8.1094],
        [ 8.2266],
        [ 8.2031],
        [ 8.2109],
        [-8.1719],
        [ 8.1719],
        [ 8.1406],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.438369572162628
count = 288
logits = tensor([[ 8.1719],
        [ 8.1641],
        [ 8.1016],
        [ 8.1719],
        [ 8.1797],
        [-8.1406],
        [ 8.1562],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.438369572162628
count = 289


 57%|█████▋    | 292/511 [00:15<00:11, 19.18it/s]

logits = tensor([[ 8.2031],
        [ 8.2109],
        [ 8.1484],
        [-8.1250],
        [-8.0703],
        [-8.1250],
        [ 8.1484],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.438369572162628
count = 290
logits = tensor([[ 8.2266],
        [ 8.0000],
        [-8.1094],
        [ 8.1562],
        [ 8.0938],
        [ 8.0859],
        [ 8.1875],
        [-0.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.555312931537628
count = 291
logits = tensor([[-8.1172],
        [ 8.1875],
        [-0.3367],
        [ 8.1406],
        [ 8.1406],
        [ 8.2109],
        [-7.8750],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.664840519428253
count = 292
logits = tensor([[-8.1172],
        [-0.8169],
        [-8.0312],
        [ 0.0482],
        [ 8.1484],
        [-8.1406],
        [-8.2109],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.896346867084503
count = 293


 58%|█████▊    | 296/511 [00:15<00:11, 19.17it/s]

logits = tensor([[-8.0312],
        [ 8.1328],
        [-0.8516],
        [ 8.2109],
        [ 8.2031],
        [-8.2344],
        [ 8.2109],
        [-0.6060]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.995162785053253
count = 294
logits = tensor([[-8.0859],
        [ 8.1562],
        [ 8.2109],
        [-7.9688],
        [ 0.0300],
        [ 8.1562],
        [ 8.1406],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.08369618654251
count = 295
logits = tensor([[-8.2344],
        [-8.0078],
        [ 8.2109],
        [-7.8945],
        [ 8.1641],
        [ 8.1328],
        [ 8.1875],
        [ 8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.08369618654251
count = 296
logits = tensor([[ 8.1484],
        [ 8.1719],
        [ 8.1250],
        [-8.1719],
        [ 8.1562],
        [-8.1641],
        [ 8.1953],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.08369618654251
count = 297


 59%|█████▊    | 300/511 [00:16<00:11, 18.89it/s]

logits = tensor([[ 8.0859],
        [ 8.2031],
        [ 8.1875],
        [-7.8945],
        [ 8.1406],
        [ 8.1953],
        [ 8.1172],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.08369618654251
count = 298
logits = tensor([[-8.0625],
        [ 8.1094],
        [ 8.2188],
        [-7.8398],
        [ 8.1953],
        [-8.0859],
        [-8.0859],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.08369618654251
count = 299
logits = tensor([[ 8.1641],
        [-8.0703],
        [-0.4500],
        [-0.9800],
        [ 8.2109],
        [-7.8359],
        [ 8.0156],
        [-8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.24141103029251
count = 300
logits = tensor([[-8.0469],
        [-8.0547],
        [ 8.1875],
        [ 8.1953],
        [-8.1797],
        [ 8.1797],
        [ 8.1875],
        [ 8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.24141103029251
count = 301


 59%|█████▉    | 304/511 [00:16<00:10, 19.01it/s]

logits = tensor([[-1.1260],
        [ 8.1719],
        [ 8.1641],
        [-7.9492],
        [ 8.2188],
        [ 8.1953],
        [ 8.1562],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.27650624513626
count = 302
logits = tensor([[ 8.2188],
        [-8.2500],
        [-8.0391],
        [ 8.1797],
        [-8.0391],
        [-8.0547],
        [ 8.2188],
        [-0.5898]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.331651508808136
count = 303
logits = tensor([[-8.1562],
        [-0.9229],
        [ 8.1719],
        [ 8.1016],
        [ 8.0781],
        [ 8.2031],
        [ 8.2422],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.37349110841751
count = 304
logits = tensor([[-8.1641],
        [ 8.2031],
        [-0.7285],
        [ 8.1797],
        [-8.1953],
        [ 8.1953],
        [-8.1016],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.422715961933136
count = 305


 60%|██████    | 308/511 [00:16<00:10, 19.09it/s]

logits = tensor([[ 8.2188],
        [-0.7925],
        [-8.1562],
        [ 8.1484],
        [-8.0234],
        [-8.0781],
        [-8.0547],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.46943837404251
count = 306
logits = tensor([[ 8.1719],
        [-8.0391],
        [-8.0625],
        [ 8.1328],
        [ 8.1641],
        [-8.0469],
        [ 8.1797],
        [-0.9199]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.51136952638626
count = 307
logits = tensor([[-8.0156],
        [-8.0156],
        [-8.0703],
        [ 8.1641],
        [-0.5693],
        [ 8.2578],
        [ 8.1328],
        [-0.6611]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.702073872089386
count = 308
logits = tensor([[ 8.1719],
        [ 8.1406],
        [ 8.1094],
        [-8.1172],
        [-8.1016],
        [ 8.1797],
        [-8.1406],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.702073872089386
count = 309


 61%|██████    | 312/511 [00:16<00:10, 18.95it/s]

logits = tensor([[ 8.0938],
        [ 8.1953],
        [-7.6953],
        [ 8.1641],
        [-8.1172],
        [ 8.2188],
        [ 8.1953],
        [-7.9727]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.702073872089386
count = 310
logits = tensor([[ 8.1719],
        [ 8.1562],
        [ 8.1016],
        [ 8.1875],
        [ 7.7930],
        [-8.1094],
        [-7.9453],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.702073872089386
count = 311
logits = tensor([[-8.0625],
        [-0.5498],
        [ 8.2109],
        [-8.0234],
        [ 8.1562],
        [ 8.2266],
        [ 8.1250],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.827745258808136
count = 312
logits = tensor([[ 7.9883],
        [ 8.0859],
        [ 8.1719],
        [-7.8789],
        [-8.1016],
        [-8.0391],
        [-0.8892],
        [-7.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.87080556154251
count = 313


 62%|██████▏   | 316/511 [00:16<00:10, 18.71it/s]

logits = tensor([[ 8.1328],
        [-8.0234],
        [-8.1172],
        [-8.0391],
        [-8.2344],
        [ 8.1797],
        [ 8.1562],
        [-0.8687]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.91462880373001
count = 314
logits = tensor([[ 8.1953],
        [ 8.2031],
        [-8.0781],
        [ 8.1562],
        [-0.5054],
        [-8.1719],
        [-8.0703],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.97364979982376
count = 315
logits = tensor([[-8.2266],
        [ 8.1953],
        [ 8.1953],
        [ 8.1797],
        [-8.1094],
        [-8.0078],
        [ 8.1719],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.97364979982376
count = 316
logits = tensor([[-1.0898],
        [-0.7451],
        [ 8.2109],
        [-7.9570],
        [ 8.0938],
        [-7.8789],
        [ 8.1797],
        [-0.2937]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.25795155763626
count = 317


 63%|██████▎   | 320/511 [00:17<00:10, 18.79it/s]

logits = tensor([[ 8.1797],
        [-0.8711],
        [ 8.1953],
        [-8.0156],
        [ 8.1797],
        [ 8.2656],
        [-0.6348],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.354783833026886
count = 318
logits = tensor([[ 8.1562],
        [-8.1094],
        [-8.0469],
        [ 8.1875],
        [ 8.1953],
        [-0.8672],
        [-0.3020],
        [ 8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.61390858888626
count = 319
logits = tensor([[-8.1250],
        [ 8.1094],
        [-7.9414],
        [ 8.2109],
        [ 8.2109],
        [ 8.1797],
        [ 8.1953],
        [-0.4741]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.67445546388626
count = 320
logits = tensor([[ 8.1094],
        [-0.8052],
        [ 8.1719],
        [-8.1406],
        [ 8.1562],
        [ 8.1328],
        [ 8.1562],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.72065907716751
count = 321


 63%|██████▎   | 324/511 [00:17<00:09, 18.96it/s]

logits = tensor([[-0.5864],
        [ 8.0938],
        [-8.1172],
        [-8.1953],
        [ 8.1953],
        [-0.8623],
        [-8.1250],
        [ 8.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.819993793964386
count = 322
logits = tensor([[ 8.1016],
        [ 8.0625],
        [-8.1016],
        [-7.9922],
        [ 8.1406],
        [ 8.2031],
        [ 8.2266],
        [-8.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.819993793964386
count = 323
logits = tensor([[-8.1406],
        [-0.8916],
        [-0.5376],
        [-8.1016],
        [-7.9102],
        [ 8.0781],
        [ 8.1641],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.920457661151886
count = 324
logits = tensor([[-0.8208],
        [-7.9219],
        [-8.1094],
        [-7.9922],
        [ 8.1953],
        [ 8.1094],
        [-8.1562],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.96608144044876
count = 325


 64%|██████▍   | 328/511 [00:17<00:09, 19.09it/s]

logits = tensor([[ 8.2188],
        [ 8.1641],
        [-8.0859],
        [-7.6562],
        [ 7.9961],
        [-8.1641],
        [-8.1406],
        [-8.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.96608144044876
count = 326
logits = tensor([[ 8.2344],
        [ 8.1953],
        [-7.9648],
        [ 8.2109],
        [-8.1250],
        [ 8.1797],
        [-1.0264],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.004381000995636
count = 327
logits = tensor([[ 8.1797],
        [ 8.1875],
        [-7.9297],
        [ 8.1562],
        [ 0.0186],
        [ 8.1562],
        [ 8.1953],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.089830219745636
count = 328
logits = tensor([[ 8.1562],
        [ 8.1953],
        [-8.1875],
        [ 8.2188],
        [-8.1562],
        [ 7.6797],
        [ 8.1484],
        [ 8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.089830219745636
count = 329


 65%|██████▍   | 332/511 [00:17<00:09, 19.08it/s]

logits = tensor([[ 8.1719],
        [ 8.1797],
        [-0.9102],
        [-8.1172],
        [-8.1328],
        [ 8.1953],
        [ 8.1562],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.13209706544876
count = 330
logits = tensor([[ 8.1797],
        [-8.0703],
        [-8.1172],
        [-1.0557],
        [-8.1172],
        [ 8.2188],
        [ 8.2031],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.16938954591751
count = 331
logits = tensor([[-8.1250],
        [ 8.1719],
        [ 8.0781],
        [-7.9844],
        [-8.1797],
        [ 8.2188],
        [-8.1484],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.16938954591751
count = 332
logits = tensor([[ 8.1953],
        [-0.8677],
        [-0.7656],
        [ 8.1719],
        [ 8.1406],
        [ 8.1953],
        [-8.1250],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.26094228029251
count = 333


 66%|██████▌   | 336/511 [00:17<00:09, 19.05it/s]

logits = tensor([[ 8.1797],
        [ 8.1875],
        [-8.0625],
        [ 8.2109],
        [ 8.1484],
        [ 8.1797],
        [-8.0234],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.26094228029251
count = 334
logits = tensor([[ 8.1484],
        [-8.1094],
        [ 8.1953],
        [ 8.1562],
        [ 8.0625],
        [ 8.1641],
        [-0.9043],
        [-0.8774]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.45655995607376
count = 335
logits = tensor([[-8.1094],
        [ 8.0547],
        [-8.1641],
        [ 8.2109],
        [-0.7866],
        [ 8.1797],
        [ 8.1641],
        [-0.8936]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.644639790058136
count = 336
logits = tensor([[ 8.1328],
        [-8.1094],
        [ 8.0703],
        [-7.9688],
        [-8.0469],
        [ 8.2109],
        [ 8.1641],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.644639790058136
count = 337


 67%|██████▋   | 340/511 [00:18<00:08, 19.02it/s]

logits = tensor([[ 8.1016],
        [-7.9570],
        [ 8.1094],
        [ 8.1016],
        [-8.0859],
        [ 8.2109],
        [ 8.0547],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.644639790058136
count = 338
logits = tensor([[-0.8105],
        [-8.0156],
        [-0.7119],
        [-0.7925],
        [ 7.9961],
        [-7.6914],
        [ 8.0938],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.97523671388626
count = 339
logits = tensor([[-7.9961],
        [ 8.2109],
        [-0.9473],
        [-8.1641],
        [ 8.2031],
        [ 8.1641],
        [-8.0000],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.01619130373001
count = 340
logits = tensor([[ 8.1797],
        [ 8.2109],
        [-8.2031],
        [ 8.1875],
        [-0.4080],
        [-8.0312],
        [-8.1094],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.07991200685501
count = 341


 67%|██████▋   | 344/511 [00:18<00:08, 18.82it/s]

logits = tensor([[ 8.2266],
        [-8.0938],
        [-0.8208],
        [-8.0781],
        [-8.2031],
        [ 8.1797],
        [-7.9844],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.125535786151886
count = 342
logits = tensor([[ 8.1719],
        [-8.2031],
        [ 8.2031],
        [-8.1484],
        [ 8.1406],
        [-8.1094],
        [-1.1201],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.160814106464386
count = 343
logits = tensor([[ 7.9844],
        [-0.7358],
        [-7.9336],
        [ 8.2188],
        [ 8.1797],
        [ 8.1484],
        [ 7.8477],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.209703266620636
count = 344
logits = tensor([[-8.1094],
        [ 8.2031],
        [-7.9414],
        [ 8.1562],
        [-8.0938],
        [ 8.1797],
        [ 8.1797],
        [-0.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.359849750995636
count = 345


 68%|██████▊   | 348/511 [00:18<00:08, 19.12it/s]

logits = tensor([[-0.7266],
        [-8.1328],
        [ 8.1875],
        [ 7.7695],
        [ 8.1641],
        [-0.1501],
        [-0.5479],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.634568989276886
count = 346
logits = tensor([[-8.1250],
        [-0.6196],
        [ 8.2109],
        [ 8.1719],
        [-7.9922],
        [-8.0000],
        [ 8.2031],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.76582509279251
count = 347
logits = tensor([[-8.0703],
        [-8.0000],
        [ 8.1094],
        [ 8.1875],
        [ 8.1719],
        [ 8.2109],
        [-0.9004],
        [-8.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.80842763185501
count = 348
logits = tensor([[ 8.1797],
        [ 8.0547],
        [-0.9990],
        [ 8.2109],
        [-7.9766],
        [ 8.1406],
        [-0.4258],
        [ 7.9805]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.96370106935501
count = 349


 69%|██████▉   | 352/511 [00:18<00:08, 19.18it/s]

logits = tensor([[ 8.1953],
        [ 8.1875],
        [-8.0703],
        [-0.7686],
        [ 8.1328],
        [ 8.2031],
        [-0.8267],
        [-8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.160020649433136
count = 350
logits = tensor([[ 8.1641],
        [ 8.1797],
        [-7.8906],
        [-8.1484],
        [ 8.1797],
        [-7.7383],
        [ 8.1875],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.160020649433136
count = 351
logits = tensor([[-0.6982],
        [ 8.1641],
        [-8.2344],
        [-7.9688],
        [-8.0781],
        [ 8.2031],
        [ 8.1484],
        [-8.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.29780751466751
count = 352
logits = tensor([[ 8.1719],
        [ 8.1562],
        [ 8.1797],
        [ 8.2031],
        [ 8.1797],
        [-8.0000],
        [-8.0312],
        [-1.0195]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.336351215839386
count = 353


 70%|██████▉   | 356/511 [00:19<00:08, 19.21it/s]

logits = tensor([[ 8.1641],
        [ 7.6836],
        [ 8.1719],
        [-0.5405],
        [-8.1875],
        [-8.1016],
        [-0.8994],
        [-7.8477]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.43629628419876
count = 354
logits = tensor([[ 8.0469],
        [ 8.1250],
        [-8.0703],
        [ 8.1875],
        [-8.0859],
        [ 8.1953],
        [ 8.1641],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.43629628419876
count = 355
logits = tensor([[-8.1641],
        [-8.1094],
        [ 8.1719],
        [ 8.1641],
        [ 8.0859],
        [ 8.1016],
        [-0.8022],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.482591450214386
count = 356
logits = tensor([[ 8.1953],
        [ 8.1719],
        [-8.0234],
        [-8.0859],
        [-1.1064],
        [-8.1562],
        [ 8.1562],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.65663319826126
count = 357


 70%|███████   | 360/511 [00:19<00:07, 18.98it/s]

logits = tensor([[ 8.1250],
        [-8.0234],
        [-8.0469],
        [-8.1016],
        [-7.9922],
        [ 8.1953],
        [ 8.1484],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.65663319826126
count = 358
logits = tensor([[-8.0625],
        [ 8.2109],
        [ 8.1484],
        [ 7.6719],
        [ 8.0781],
        [ 8.1250],
        [-7.9570],
        [-0.4365]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.71895009279251
count = 359
logits = tensor([[-8.1406],
        [ 8.1797],
        [ 8.1797],
        [ 8.1484],
        [-0.8008],
        [-8.0938],
        [-0.8213],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.01362782716751
count = 360
logits = tensor([[-8.0234],
        [-8.1172],
        [-8.1094],
        [-8.1172],
        [-0.5562],
        [-8.0938],
        [-8.2266],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.07026845216751
count = 361


 71%|███████   | 364/511 [00:19<00:07, 19.21it/s]

logits = tensor([[ 8.1562],
        [-8.0234],
        [ 8.1797],
        [ 8.0938],
        [-8.0703],
        [ 8.1250],
        [-8.1875],
        [-0.8818]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.223802387714386
count = 362
logits = tensor([[-8.1328],
        [-7.8516],
        [ 8.1250],
        [-7.9805],
        [-7.9727],
        [ 8.1875],
        [ 8.1484],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.223802387714386
count = 363
logits = tensor([[-8.1172],
        [-8.2266],
        [ 8.0781],
        [ 8.1094],
        [ 8.1875],
        [-8.1484],
        [ 8.1094],
        [ 8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.223802387714386
count = 364
logits = tensor([[-8.1953],
        [ 8.0703],
        [ 8.1641],
        [ 8.2188],
        [ 8.1484],
        [ 8.1953],
        [-0.6577],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.35817128419876
count = 365


 72%|███████▏  | 368/511 [00:19<00:07, 18.91it/s]

logits = tensor([[ 8.2031],
        [-7.9258],
        [ 8.1953],
        [-8.1172],
        [ 8.1250],
        [ 8.2266],
        [-0.4146],
        [-8.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.42152577638626
count = 366
logits = tensor([[ 8.1484],
        [ 8.1797],
        [-8.1172],
        [-8.1094],
        [-8.0312],
        [ 8.1953],
        [ 8.1797],
        [ 8.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.42152577638626
count = 367
logits = tensor([[-0.9976],
        [-7.9570],
        [ 8.1562],
        [ 8.1562],
        [ 8.1797],
        [ 8.0938],
        [ 8.0859],
        [-8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.460801899433136
count = 368
logits = tensor([[ 8.2188],
        [-8.2344],
        [ 8.1797],
        [ 8.1797],
        [-8.0156],
        [ 8.1484],
        [ 8.2031],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.460801899433136
count = 369


 73%|███████▎  | 372/511 [00:19<00:07, 19.06it/s]

logits = tensor([[ 8.1406],
        [ 8.0859],
        [ 8.0703],
        [-8.0469],
        [ 8.1484],
        [ 8.1719],
        [-8.1484],
        [-0.2427]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.533250629901886
count = 370
logits = tensor([[-8.1641],
        [-0.7832],
        [-7.9492],
        [-7.9219],
        [-8.0234],
        [-8.0859],
        [-8.1875],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.580308735370636
count = 371
logits = tensor([[-7.8750],
        [-8.0312],
        [ 8.1953],
        [ 8.1094],
        [ 8.1875],
        [ 8.1562],
        [-8.1016],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.580308735370636
count = 372
logits = tensor([[-8.1406],
        [ 8.1562],
        [-8.1641],
        [ 8.1797],
        [-8.0547],
        [ 8.1797],
        [-7.8867],
        [-7.9219]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.580308735370636
count = 373


 74%|███████▎  | 376/511 [00:20<00:07, 18.93it/s]

logits = tensor([[ 8.2109],
        [ 8.1641],
        [-8.0000],
        [ 8.1172],
        [ 7.8047],
        [-0.5303],
        [ 8.1328],
        [-7.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.638109028339386
count = 374
logits = tensor([[-8.1719],
        [ 8.1719],
        [-8.0000],
        [-8.2031],
        [ 8.1172],
        [-0.4856],
        [-1.0957],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.871019184589386
count = 375
logits = tensor([[ 8.1797],
        [ 7.6953],
        [ 8.1562],
        [ 8.1719],
        [ 8.0781],
        [ 8.1719],
        [-0.7744],
        [-0.7388]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.059556782245636
count = 376
logits = tensor([[ 0.1470],
        [-8.0938],
        [ 8.2109],
        [-8.1641],
        [ 8.1797],
        [ 8.2109],
        [ 8.1484],
        [-8.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.137376606464386
count = 377


 74%|███████▍  | 380/511 [00:20<00:06, 18.91it/s]

logits = tensor([[ 8.1094],
        [-8.0859],
        [-0.8096],
        [ 8.1641],
        [-8.1016],
        [-8.0625],
        [-8.0547],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.28462392091751
count = 378
logits = tensor([[ 8.1953],
        [ 8.2188],
        [-8.0312],
        [ 8.1797],
        [-8.2031],
        [ 8.1562],
        [ 8.1641],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.28462392091751
count = 379
logits = tensor([[-7.8906],
        [-8.1875],
        [ 8.1875],
        [ 8.1641],
        [ 8.2188],
        [-8.2969],
        [ 8.1641],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.28462392091751
count = 380
logits = tensor([[-7.8750],
        [-8.1250],
        [-8.1406],
        [-8.0469],
        [-8.0625],
        [-8.1094],
        [ 8.1484],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.28462392091751
count = 381


 75%|███████▌  | 384/511 [00:20<00:06, 19.14it/s]

logits = tensor([[-8.1562],
        [-8.1250],
        [ 8.0469],
        [ 8.1875],
        [-8.1641],
        [ 8.1250],
        [ 8.1797],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.28462392091751
count = 382
logits = tensor([[-8.1328],
        [-8.1016],
        [-8.2109],
        [-0.8433],
        [-8.1094],
        [ 8.1328],
        [ 8.1328],
        [-7.9570]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.434800922870636
count = 383
logits = tensor([[-8.1172],
        [-8.0625],
        [ 8.1875],
        [ 8.2422],
        [-7.9336],
        [-0.5195],
        [-8.2188],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.493150532245636
count = 384
logits = tensor([[ 8.2109],
        [-7.9766],
        [ 7.7852],
        [-8.0156],
        [-8.1172],
        [ 8.1562],
        [ 8.1875],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.493150532245636
count = 385


 76%|███████▌  | 388/511 [00:20<00:06, 19.34it/s]

logits = tensor([[-7.7070],
        [-1.0684],
        [-8.1484],
        [-8.0469],
        [-8.1328],
        [-8.0078],
        [ 8.1719],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.530076801776886
count = 386
logits = tensor([[ 8.1328],
        [ 8.1719],
        [-8.2656],
        [ 8.1797],
        [-8.0469],
        [ 8.1797],
        [-0.9307],
        [-8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.571641743183136
count = 387
logits = tensor([[-8.1328],
        [-8.1406],
        [ 8.1797],
        [-8.0938],
        [ 8.1719],
        [ 8.1797],
        [-7.9414],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.571641743183136
count = 388
logits = tensor([[ 8.1797],
        [ 8.1328],
        [ 8.1875],
        [-8.0938],
        [ 8.1719],
        [-8.0703],
        [ 8.2188],
        [-8.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.571641743183136
count = 389


 77%|███████▋  | 392/511 [00:20<00:06, 19.13it/s]

logits = tensor([[ 8.2344],
        [-8.1094],
        [-8.0547],
        [ 8.2109],
        [ 8.1875],
        [ 8.2031],
        [ 8.2031],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.571641743183136
count = 390
logits = tensor([[ 8.2031],
        [ 8.1562],
        [ 8.1641],
        [-8.1875],
        [ 8.1172],
        [ 8.1953],
        [-1.0918],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.744310200214386
count = 391
logits = tensor([[-8.0781],
        [ 8.1406],
        [-8.1562],
        [-7.9531],
        [ 8.1797],
        [-8.0938],
        [ 8.2422],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.744310200214386
count = 392
logits = tensor([[ 8.1719],
        [ 8.1016],
        [-8.1172],
        [-8.0938],
        [ 8.1406],
        [ 8.1953],
        [ 8.1719],
        [-1.0215]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.78279286623001
count = 393


 77%|███████▋  | 396/511 [00:21<00:05, 19.21it/s]

logits = tensor([[-8.2188],
        [-0.9863],
        [-1.1338],
        [-0.8408],
        [ 8.1641],
        [ 8.1562],
        [ 8.1797],
        [-8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.902208149433136
count = 394
logits = tensor([[ 8.1953],
        [ 8.1250],
        [-8.1250],
        [ 8.2031],
        [ 8.1016],
        [ 8.1797],
        [ 8.0703],
        [-7.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.902208149433136
count = 395
logits = tensor([[ 8.1797],
        [-7.9883],
        [-8.1562],
        [ 8.2109],
        [-8.1172],
        [-8.0703],
        [-8.2109],
        [ 8.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.902208149433136
count = 396
logits = tensor([[ 8.1797],
        [ 8.1328],
        [ 8.1172],
        [ 8.0938],
        [-8.1328],
        [ 8.1641],
        [-0.4438],
        [-8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.964158833026886
count = 397


 78%|███████▊  | 400/511 [00:21<00:05, 19.33it/s]

logits = tensor([[ 8.1484],
        [ 8.1875],
        [-0.8335],
        [-0.8638],
        [ 8.1641],
        [ 8.2031],
        [ 8.1562],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.157457172870636
count = 398
logits = tensor([[ 8.1641],
        [ 8.1797],
        [-8.1172],
        [-8.2031],
        [-8.1250],
        [ 8.2109],
        [-8.1172],
        [-7.9883]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.157457172870636
count = 399
logits = tensor([[ 7.7539],
        [-8.1094],
        [ 8.1953],
        [ 8.1250],
        [ 8.1641],
        [-0.8506],
        [-8.0312],
        [ 8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.20198231935501
count = 400
logits = tensor([[-7.8359],
        [ 8.0938],
        [ 8.1797],
        [ 8.1641],
        [ 8.1719],
        [ 8.2344],
        [-0.7666],
        [-8.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.24971181154251
count = 401


 79%|███████▉  | 404/511 [00:21<00:05, 19.23it/s]

logits = tensor([[-7.8242],
        [ 8.1484],
        [ 8.2109],
        [-0.8696],
        [-7.9648],
        [ 8.1641],
        [-0.7622],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.43660145998001
count = 402
logits = tensor([[ 8.2188],
        [ 8.0938],
        [-1.1338],
        [ 8.1719],
        [ 8.1719],
        [-8.1562],
        [ 8.2266],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.47151356935501
count = 403
logits = tensor([[ 8.1953],
        [ 8.1875],
        [ 8.1641],
        [ 8.0703],
        [ 8.2031],
        [-7.9023],
        [-8.1641],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.47151356935501
count = 404
logits = tensor([[ 8.2031],
        [-0.8022],
        [ 8.2031],
        [-0.6353],
        [-7.8672],
        [ 8.1953],
        [-8.0469],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.570909321308136
count = 405


 80%|███████▉  | 408/511 [00:21<00:05, 19.22it/s]

logits = tensor([[ 8.1094],
        [ 8.1094],
        [-8.0078],
        [ 8.0781],
        [ 7.7695],
        [ 8.1406],
        [ 8.1328],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.570909321308136
count = 406
logits = tensor([[-8.0312],
        [-1.1270],
        [ 8.1719],
        [ 8.1094],
        [ 8.1641],
        [ 8.1094],
        [ 7.7969],
        [ 8.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.606004536151886
count = 407
logits = tensor([[-8.0000],
        [ 8.1328],
        [ 8.1719],
        [-8.0703],
        [-8.1406],
        [ 8.2266],
        [-8.1328],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.606004536151886
count = 408
logits = tensor([[-7.8203],
        [-8.0234],
        [-8.1172],
        [ 8.1484],
        [ 8.1094],
        [-8.0625],
        [ 7.7734],
        [-0.7505]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.74818593263626
count = 409


 81%|████████  | 412/511 [00:21<00:05, 18.91it/s]

logits = tensor([[-8.0547],
        [ 8.2422],
        [ 8.1484],
        [ 8.0625],
        [ 8.1797],
        [ 8.1562],
        [ 8.1953],
        [-7.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.74818593263626
count = 410
logits = tensor([[ 8.2031],
        [-8.1172],
        [-8.1250],
        [ 8.1875],
        [ 8.1641],
        [ 8.1016],
        [-8.0391],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.74818593263626
count = 411
logits = tensor([[ 8.1953],
        [ 8.2031],
        [ 7.7656],
        [ 8.1484],
        [-8.0938],
        [-8.0781],
        [-8.1641],
        [-8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.74818593263626
count = 412
logits = tensor([[ 8.1875],
        [ 8.1875],
        [ 8.1953],
        [ 8.2031],
        [ 8.1719],
        [-7.9141],
        [ 8.1641],
        [-8.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.74818593263626
count = 413


 81%|████████▏ | 416/511 [00:22<00:04, 19.03it/s]

logits = tensor([[-8.1094],
        [-8.1562],
        [ 8.1797],
        [-8.1719],
        [ 8.2031],
        [-8.0391],
        [ 8.1562],
        [-0.6997]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.886094868183136
count = 414
logits = tensor([[ 8.1250],
        [-8.0156],
        [-8.1406],
        [ 8.1953],
        [ 8.1875],
        [ 8.2188],
        [-8.1719],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.886094868183136
count = 415
logits = tensor([[ 8.0703],
        [-8.0391],
        [ 8.1094],
        [ 8.1875],
        [ 8.1328],
        [ 8.2266],
        [ 8.1953],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.886094868183136
count = 416
logits = tensor([[ 4.8242],
        [ 8.1094],
        [ 8.0781],
        [ 8.2188],
        [ 8.1797],
        [ 8.1641],
        [-8.1250],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.49009495973587
count = 417


 82%|████████▏ | 420/511 [00:22<00:04, 18.87it/s]

logits = tensor([[-8.0234],
        [-0.5425],
        [-0.4746],
        [-0.8887],
        [ 8.1953],
        [-0.9932],
        [ 8.1719],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.869214832782745
count = 418
logits = tensor([[ 8.1562],
        [-8.1641],
        [ 8.1797],
        [ 8.1016],
        [-8.0234],
        [ 8.1797],
        [-8.0781],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.869214832782745
count = 419
logits = tensor([[ 8.1719],
        [-8.2031],
        [ 8.2266],
        [-7.9922],
        [-8.0938],
        [ 8.1797],
        [-0.8359],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.01872044801712
count = 420
logits = tensor([[ 8.2109],
        [ 8.1328],
        [ 8.1875],
        [ 8.1641],
        [-8.1250],
        [ 8.1875],
        [-0.7285],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.159009754657745
count = 421


 83%|████████▎ | 424/511 [00:22<00:04, 19.04it/s]

logits = tensor([[ 8.2031],
        [ 8.1562],
        [ 8.1641],
        [-7.9492],
        [-8.0781],
        [-8.1719],
        [ 8.1328],
        [-8.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.159009754657745
count = 422
logits = tensor([[ 8.2031],
        [-0.5552],
        [ 8.1484],
        [-8.1250],
        [-0.5337],
        [-8.0938],
        [ 8.1328],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.409498035907745
count = 423
logits = tensor([[-8.2500],
        [ 8.2188],
        [ 8.1016],
        [ 8.1875],
        [ 8.1641],
        [ 8.1875],
        [-8.0469],
        [-8.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.409498035907745
count = 424
logits = tensor([[ 8.1484],
        [ 8.1406],
        [ 8.1719],
        [ 8.2344],
        [-8.1094],
        [-8.1094],
        [-7.9883],
        [-8.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.409498035907745
count = 425


 84%|████████▍ | 428/511 [00:22<00:04, 19.22it/s]

logits = tensor([[ 8.1875],
        [-8.0938],
        [-0.4961],
        [ 8.0781],
        [-8.1250],
        [-0.8687],
        [-8.0781],
        [ 8.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.51280003786087
count = 426
logits = tensor([[ 8.0703],
        [-8.2031],
        [ 8.0938],
        [-8.0938],
        [ 8.1953],
        [-0.9956],
        [-8.2734],
        [ 8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.552076160907745
count = 427
logits = tensor([[ 8.2031],
        [ 8.1641],
        [-7.9102],
        [-8.1484],
        [ 8.1641],
        [ 8.1797],
        [-0.5347],
        [-0.7666]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.75327855348587
count = 428
logits = tensor([[-8.0391],
        [ 8.2188],
        [ 8.1641],
        [ 8.1875],
        [ 8.2188],
        [-8.1016],
        [-7.9727],
        [-8.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.75327855348587
count = 429


 85%|████████▍ | 432/511 [00:22<00:04, 18.98it/s]

logits = tensor([[8.1953],
        [8.1719],
        [8.2031],
        [8.2188],
        [8.1562],
        [8.1719],
        [8.1719],
        [8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.75327855348587
count = 430
logits = tensor([[ 8.1719],
        [ 8.0547],
        [-8.1953],
        [-8.0703],
        [ 8.2031],
        [ 8.2109],
        [-8.2266],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.75327855348587
count = 431
logits = tensor([[ 8.1719],
        [-8.1250],
        [-8.2656],
        [ 7.8008],
        [-8.0703],
        [-0.8931],
        [-8.0234],
        [-8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.796155750751495
count = 432
logits = tensor([[ 8.1641],
        [-8.0469],
        [-0.9678],
        [-8.1484],
        [ 8.1328],
        [-7.9297],
        [ 8.1562],
        [-7.9414]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.83640843629837
count = 433


 85%|████████▌ | 436/511 [00:23<00:03, 19.17it/s]

logits = tensor([[ 8.1406],
        [-8.1250],
        [ 8.1250],
        [-8.1172],
        [ 8.1172],
        [-8.1406],
        [ 8.1641],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.83640843629837
count = 434
logits = tensor([[ 8.1797],
        [-8.1250],
        [-8.0547],
        [-8.0938],
        [ 8.2031],
        [-7.8555],
        [ 8.1953],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.83640843629837
count = 435
logits = tensor([[ 8.1562],
        [-8.0312],
        [-8.0234],
        [-7.8477],
        [-7.7812],
        [ 8.1094],
        [ 8.0859],
        [-0.8877]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.990491688251495
count = 436
logits = tensor([[ 8.1094],
        [-8.1094],
        [ 8.1953],
        [-0.9365],
        [ 8.1719],
        [ 8.1406],
        [ 8.1250],
        [-7.8711]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.148938953876495
count = 437


 86%|████████▌ | 440/511 [00:23<00:03, 19.13it/s]

logits = tensor([[ 8.1094],
        [ 8.0938],
        [ 8.1797],
        [-0.5444],
        [-1.0068],
        [ 8.1797],
        [-0.9023],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.40037328004837
count = 438
logits = tensor([[ 8.0938],
        [-8.1094],
        [ 8.1641],
        [-8.1328],
        [-0.8228],
        [ 8.1875],
        [ 8.0938],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.44590550661087
count = 439
logits = tensor([[-8.1328],
        [-8.0078],
        [-0.9438],
        [-8.0234],
        [-1.0127],
        [ 8.2031],
        [ 8.1953],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.65226536989212
count = 440
logits = tensor([[ 8.1797],
        [-0.5938],
        [-8.0781],
        [ 8.1875],
        [ 7.7383],
        [ 8.1797],
        [ 8.1875],
        [-8.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.70725804567337
count = 441


 87%|████████▋ | 444/511 [00:23<00:03, 19.08it/s]

logits = tensor([[-8.0000],
        [-8.0234],
        [-8.1016],
        [-8.1328],
        [-8.1719],
        [-7.7266],
        [ 8.2266],
        [-8.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.70725804567337
count = 442
logits = tensor([[ 8.1094],
        [-8.0625],
        [-8.0547],
        [ 8.2031],
        [-8.1406],
        [-0.4277],
        [-8.1172],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.82346898317337
count = 443
logits = tensor([[ 8.1797],
        [ 8.1172],
        [ 8.1953],
        [ 8.1797],
        [-8.0000],
        [ 8.1797],
        [-7.9102],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.82346898317337
count = 444
logits = tensor([[ 8.1719],
        [ 8.1875],
        [-0.4065],
        [ 8.1797],
        [-8.1562],
        [ 8.1641],
        [-1.0068],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.97697240114212
count = 445


 88%|████████▊ | 448/511 [00:23<00:03, 18.90it/s]

logits = tensor([[ 8.2031],
        [ 8.1562],
        [ 8.2344],
        [ 8.2031],
        [-7.9844],
        [-0.6636],
        [-8.1719],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.028943836688995
count = 446
logits = tensor([[-8.2109],
        [ 8.1953],
        [-8.1094],
        [-7.9922],
        [-8.1484],
        [-7.9141],
        [ 8.1641],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.028943836688995
count = 447
logits = tensor([[ 8.1719],
        [-8.1016],
        [ 8.1016],
        [ 8.1875],
        [ 8.1641],
        [ 8.1875],
        [ 8.0391],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.028943836688995
count = 448
logits = tensor([[-8.1562],
        [-7.9688],
        [-7.9453],
        [ 8.1250],
        [-0.7656],
        [-0.7686],
        [ 8.1953],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.22001439332962
count = 449


 88%|████████▊ | 452/511 [00:24<00:03, 18.65it/s]

logits = tensor([[-8.0469],
        [-7.8906],
        [-0.8442],
        [-0.9312],
        [-8.0234],
        [ 8.0625],
        [ 7.6680],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.30625706911087
count = 450
logits = tensor([[ 8.1172],
        [-8.2266],
        [-0.6733],
        [-8.0938],
        [ 8.1484],
        [ 8.1719],
        [-0.5586],
        [-0.6255]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.467908680438995
count = 451
logits = tensor([[ 8.1641],
        [-8.0859],
        [ 8.1562],
        [-8.1250],
        [-7.8164],
        [-1.0225],
        [ 8.1719],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.506299793720245
count = 452
logits = tensor([[ 8.2188],
        [-0.4858],
        [-8.1875],
        [-0.9175],
        [-0.5928],
        [ 8.2031],
        [-7.9922],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.798047840595245
count = 453


 89%|████████▉ | 456/511 [00:24<00:02, 18.46it/s]

logits = tensor([[ 8.1641],
        [ 8.1641],
        [-1.0029],
        [ 8.2109],
        [ 8.1719],
        [ 8.2109],
        [ 8.1797],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.83714085817337
count = 454
logits = tensor([[ 8.2266],
        [-8.0312],
        [ 8.2109],
        [ 8.1953],
        [ 8.0625],
        [-8.0078],
        [-0.5098],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.895948231220245
count = 455
logits = tensor([[ 8.0938],
        [-8.0312],
        [ 8.1797],
        [ 8.2031],
        [-8.2266],
        [ 8.1875],
        [ 8.2031],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.895948231220245
count = 456
logits = tensor([[-7.9570],
        [ 8.0859],
        [ 8.1641],
        [-0.4924],
        [ 8.1641],
        [ 8.1484],
        [-8.1250],
        [-8.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.955579578876495
count = 457


 90%|█████████ | 460/511 [00:24<00:02, 18.86it/s]

logits = tensor([[ 8.1719],
        [-8.1797],
        [ 8.2031],
        [-7.9609],
        [-8.1484],
        [-8.1719],
        [ 8.1094],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.955579578876495
count = 458
logits = tensor([[ 8.1094],
        [ 8.1641],
        [ 8.1875],
        [ 8.1797],
        [-8.0234],
        [-8.1562],
        [ 8.1719],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.955579578876495
count = 459
logits = tensor([[ 8.1953],
        [ 8.1875],
        [-0.8301],
        [ 8.0781],
        [-7.9062],
        [ 8.0859],
        [-8.0859],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.10453587770462
count = 460
logits = tensor([[ 8.1562],
        [ 8.0859],
        [-0.7842],
        [-8.1094],
        [-8.1953],
        [ 8.1875],
        [-8.1562],
        [-0.7910]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.198316395282745
count = 461


 91%|█████████ | 464/511 [00:24<00:02, 19.00it/s]

logits = tensor([[ 8.1562],
        [ 8.2344],
        [ 8.2031],
        [ 8.1875],
        [ 8.1562],
        [ 8.2109],
        [ 8.0312],
        [-1.1289]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.23332005739212
count = 462
logits = tensor([[-7.7188],
        [ 8.1641],
        [-0.6323],
        [ 8.1250],
        [-8.1250],
        [ 8.0859],
        [-8.0547],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.286573231220245
count = 463
logits = tensor([[-8.1875],
        [ 8.2109],
        [-8.1406],
        [-0.7524],
        [ 8.0078],
        [ 8.1953],
        [-7.9766],
        [-7.9336]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.428846180438995
count = 464
logits = tensor([[ 8.1016],
        [ 8.1953],
        [ 8.2031],
        [ 8.1562],
        [ 8.1719],
        [-7.9609],
        [-8.1250],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.428846180438995
count = 465


 92%|█████████▏| 468/511 [00:24<00:02, 19.12it/s]

logits = tensor([[ 8.1719],
        [ 8.1797],
        [ 8.2031],
        [ 8.1484],
        [-8.0156],
        [-8.0156],
        [-8.1406],
        [-8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.428846180438995
count = 466
logits = tensor([[ 8.2266],
        [ 8.1641],
        [ 8.1953],
        [ 8.2031],
        [-1.0352],
        [ 8.2266],
        [-7.9961],
        [-7.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.466871082782745
count = 467
logits = tensor([[ 8.0859],
        [-8.0703],
        [ 8.1172],
        [-8.1250],
        [ 8.1641],
        [ 8.2109],
        [ 8.2109],
        [-8.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.466871082782745
count = 468
logits = tensor([[ 8.1719],
        [-8.0469],
        [-8.0156],
        [-8.2500],
        [-7.9766],
        [-8.1328],
        [-8.1641],
        [-8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.466871082782745
count = 469


 92%|█████████▏| 472/511 [00:25<00:02, 18.88it/s]

logits = tensor([[ 8.1953],
        [ 8.0859],
        [ 8.0703],
        [-8.1797],
        [-8.0547],
        [-8.0547],
        [ 7.5742],
        [-7.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.4669930934906
count = 470
logits = tensor([[-8.3750],
        [ 8.1406],
        [ 8.1719],
        [-0.4883],
        [-0.5190],
        [-8.1016],
        [ 8.0859],
        [-8.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.585187673568726
count = 471
logits = tensor([[-8.2031],
        [ 8.1016],
        [-0.7236],
        [ 8.2266],
        [ 8.1719],
        [-7.9883],
        [ 8.0938],
        [ 8.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.72511076927185
count = 472
logits = tensor([[ 8.1094],
        [-0.6050],
        [ 8.1406],
        [-0.3286],
        [ 8.1484],
        [ 8.1641],
        [ 8.1875],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.8883798122406
count = 473


 93%|█████████▎| 476/511 [00:25<00:01, 18.66it/s]

logits = tensor([[-8.1719],
        [ 8.2188],
        [ 8.1797],
        [ 8.1562],
        [-7.9219],
        [-7.9492],
        [-8.0312],
        [-0.5581]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.0147225856781
count = 474
logits = tensor([[-0.8066],
        [-0.8984],
        [ 8.0703],
        [ 8.1797],
        [ 8.2031],
        [-8.1875],
        [ 8.1875],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.21583342552185
count = 475
logits = tensor([[-8.0938],
        [-8.1328],
        [-7.9531],
        [ 8.1797],
        [ 8.1562],
        [-8.0156],
        [-8.1719],
        [-0.4424]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.277875661849976
count = 476
logits = tensor([[ 8.1719],
        [ 8.1719],
        [-8.0781],
        [ 8.1719],
        [ 8.1641],
        [-7.6836],
        [ 8.0781],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.277875661849976
count = 477


 94%|█████████▍| 480/511 [00:25<00:01, 18.79it/s]

logits = tensor([[-8.0234],
        [-8.1094],
        [-7.9297],
        [ 8.1562],
        [ 8.1094],
        [ 8.1719],
        [-8.0312],
        [ 8.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.277875661849976
count = 478
logits = tensor([[ 8.1562],
        [-0.5610],
        [-0.5679],
        [-8.0469],
        [ 8.2109],
        [-8.1328],
        [ 8.2266],
        [-8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.390363454818726
count = 479
logits = tensor([[ 8.1719],
        [-8.1328],
        [-8.1953],
        [-8.1406],
        [-8.1328],
        [ 8.2188],
        [-8.1094],
        [-0.9028]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.545758962631226
count = 480
logits = tensor([[ 8.1641],
        [-0.4319],
        [-8.1562],
        [-8.0781],
        [ 8.1641],
        [ 8.2031],
        [ 8.1484],
        [ 8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.608319997787476
count = 481


 95%|█████████▍| 484/511 [00:25<00:01, 18.81it/s]

logits = tensor([[-0.8618],
        [ 8.1250],
        [-8.1562],
        [-8.0703],
        [-7.9375],
        [ 8.1875],
        [ 8.1484],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.652326345443726
count = 482
logits = tensor([[-8.1641],
        [-0.6880],
        [ 8.1641],
        [ 8.0859],
        [ 8.1719],
        [-8.0547],
        [-7.9023],
        [-0.8892]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.8573739528656
count = 483
logits = tensor([[ 8.1875],
        [ 7.8555],
        [ 8.2188],
        [-7.9258],
        [-7.9180],
        [-8.1562],
        [ 8.0938],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.8573739528656
count = 484
logits = tensor([[ 7.6406],
        [-8.1719],
        [ 8.1562],
        [-8.1328],
        [-8.0938],
        [-7.9219],
        [-8.1562],
        [ 7.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.8573739528656
count = 485


 95%|█████████▌| 488/511 [00:25<00:01, 18.82it/s]

logits = tensor([[-8.1094],
        [ 8.2109],
        [-8.1562],
        [-8.1406],
        [ 8.1641],
        [ 8.1328],
        [-8.1875],
        [-8.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.8573739528656
count = 486
logits = tensor([[-0.7988],
        [ 8.0781],
        [-8.1016],
        [ 8.2188],
        [ 8.0938],
        [-0.5264],
        [ 8.2109],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.0276620388031
count = 487
logits = tensor([[ 8.1562],
        [ 8.2031],
        [-0.5278],
        [-0.7993],
        [ 8.1172],
        [-8.1328],
        [ 8.1562],
        [-0.5479]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.32349944114685
count = 488
logits = tensor([[ 8.1250],
        [ 8.2109],
        [ 8.1719],
        [ 8.0625],
        [ 8.1641],
        [ 8.1094],
        [-8.2734],
        [-0.7979]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.3699471950531
count = 489


 96%|█████████▋| 492/511 [00:26<00:01, 18.77it/s]

logits = tensor([[-0.6870],
        [-0.5312],
        [-8.0859],
        [ 8.1484],
        [ 8.1797],
        [-8.0703],
        [ 8.1484],
        [ 8.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.478681325912476
count = 490
logits = tensor([[ 8.2031],
        [ 8.1719],
        [ 8.1250],
        [-1.0869],
        [-8.0703],
        [-8.0938],
        [ 8.1172],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.5149667263031
count = 491
logits = tensor([[-7.9453],
        [-8.1172],
        [ 8.1250],
        [-7.6641],
        [ 8.2266],
        [ 8.0625],
        [ 8.0625],
        [ 8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.5149667263031
count = 492
logits = tensor([[-1.0469],
        [ 8.1719],
        [ 8.2109],
        [-8.0781],
        [ 8.1484],
        [ 8.1484],
        [-8.2109],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.55262541770935
count = 493


 97%|█████████▋| 496/511 [00:26<00:00, 18.96it/s]

logits = tensor([[ 8.1953],
        [ 8.1797],
        [-0.7954],
        [-1.0771],
        [ 8.1406],
        [-0.8823],
        [ 8.1484],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.888837575912476
count = 494
logits = tensor([[ 8.1953],
        [-7.9805],
        [ 8.2031],
        [ 8.2188],
        [-7.7344],
        [-8.1094],
        [-0.9399],
        [-8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.93006682395935
count = 495
logits = tensor([[ 8.2344],
        [ 8.1641],
        [-1.0195],
        [ 8.2188],
        [-0.8252],
        [-7.9922],
        [-8.1328],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.01405119895935
count = 496
logits = tensor([[-0.8892],
        [ 8.1562],
        [-8.2578],
        [-8.1250],
        [ 8.1797],
        [ 8.2031],
        [-7.9219],
        [-8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.057111501693726
count = 497


 98%|█████████▊| 500/511 [00:26<00:00, 19.16it/s]

logits = tensor([[ 8.1797],
        [-0.5996],
        [ 8.2031],
        [-7.9297],
        [ 8.1641],
        [-0.7715],
        [ 8.1562],
        [-8.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.234296560287476
count = 498
logits = tensor([[ 8.1875],
        [ 8.1328],
        [ 8.1875],
        [-8.0391],
        [ 8.1875],
        [-8.0781],
        [-8.0938],
        [-8.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.234296560287476
count = 499
logits = tensor([[ 8.1484],
        [ 8.1562],
        [-0.4885],
        [ 8.1406],
        [ 8.1562],
        [-7.7266],
        [-1.0576],
        [-8.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.3313729763031
count = 500
logits = tensor([[ 8.1797],
        [ 8.2266],
        [ 8.1797],
        [ 8.1875],
        [-0.9614],
        [-8.1250],
        [-0.7246],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.42127776145935
count = 501


 99%|█████████▊| 504/511 [00:26<00:00, 19.25it/s]

logits = tensor([[-0.9937],
        [ 8.2266],
        [-8.0625],
        [ 8.1797],
        [-8.1484],
        [ 8.1172],
        [ 8.1406],
        [-7.8555]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.4606454372406
count = 502
logits = tensor([[ 8.1484],
        [-0.2864],
        [ 8.1719],
        [ 8.1953],
        [-0.4514],
        [-8.1719],
        [ 8.1875],
        [-8.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.648664236068726
count = 503
logits = tensor([[ 8.1562],
        [ 8.1562],
        [-8.1562],
        [ 8.2109],
        [-7.9492],
        [ 8.0859],
        [ 8.0781],
        [ 8.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.648664236068726
count = 504
logits = tensor([[ 8.2109],
        [-8.1797],
        [ 8.1719],
        [ 7.6875],
        [-8.1562],
        [-7.9102],
        [ 8.1875],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.648664236068726
count = 505


 99%|█████████▉| 508/511 [00:27<00:00, 19.23it/s]

logits = tensor([[ 8.2109],
        [-8.0859],
        [ 8.1875],
        [-8.0312],
        [ 8.0703],
        [-0.8408],
        [ 8.2266],
        [-8.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.693525075912476
count = 506
logits = tensor([[ 8.2109],
        [ 8.2031],
        [-8.1797],
        [-1.1387],
        [ 8.1797],
        [ 7.6133],
        [-8.1953],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.72837609052658
count = 507
logits = tensor([[-0.5293],
        [-8.1484],
        [ 8.1953],
        [-7.9883],
        [ 8.2266],
        [-0.7690],
        [-8.0312],
        [ 7.6758]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.996106803417206
count = 508
logits = tensor([[-0.8027],
        [-8.0938],
        [ 8.1641],
        [ 8.1875],
        [ 8.1719],
        [-8.1250],
        [ 8.1562],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.04240196943283
count = 509


100%|█████████▉| 510/511 [00:27<00:00, 19.11it/s]

logits = tensor([[ 8.1641],
        [ 8.1875],
        [ 8.2188],
        [ 8.1562],
        [ 8.1250],
        [ 8.1953],
        [-1.1152],
        [-8.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.21726769208908
count = 510
logits = tensor([[ 8.2344],
        [-8.0625],
        [ 8.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.21726769208908
count = 511


100%|██████████| 511/511 [00:27<00:00, 18.67it/s]



Epoch 1 complete! Validation Loss : 0.08261696221543852
Best validation loss improved from inf to 0.08261696221543852



 20%|██        | 307/1532 [00:47<03:03,  6.68it/s]


Iteration 306/1532 of epoch 2 complete. Loss : 0.03791710464324721 


 40%|████      | 613/1532 [01:34<02:17,  6.68it/s]


Iteration 612/1532 of epoch 2 complete. Loss : nan 


 60%|█████▉    | 919/1532 [02:20<01:31,  6.68it/s]


Iteration 918/1532 of epoch 2 complete. Loss : 0.03750768712321064 


 80%|███████▉  | 1225/1532 [03:07<00:45,  6.72it/s]


Iteration 1224/1532 of epoch 2 complete. Loss : 0.04366414037931047 


100%|█████████▉| 1531/1532 [03:54<00:00,  6.80it/s]


Iteration 1530/1532 of epoch 2 complete. Loss : 0.03622563083394008 


100%|██████████| 1532/1532 [03:54<00:00,  6.53it/s]
  1%|          | 3/511 [00:00<01:18,  6.50it/s]

logits = tensor([[ 8.5859],
        [-8.7656],
        [ 8.5781],
        [ 8.6016],
        [ 8.5781],
        [-1.1064],
        [-8.7344],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.035736083984375
count = 1
logits = tensor([[-8.7422],
        [ 8.6250],
        [ 8.6094],
        [-8.8984],
        [-8.6875],
        [ 8.5703],
        [ 8.6094],
        [-1.1943]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.06878662109375
count = 2
logits = tensor([[ 8.5547],
        [ 8.6094],
        [-0.7314],
        [-1.1289],
        [-1.0195],
        [ 8.5625],
        [ 8.5391],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.19146728515625
count = 3


  1%|▏         | 7/511 [00:00<00:41, 12.12it/s]

logits = tensor([[-8.8750],
        [ 8.5703],
        [-8.7891],
        [-1.1611],
        [ 8.5938],
        [-1.4121],
        [ 8.5391],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.39801025390625
count = 4
logits = tensor([[-8.6875],
        [-0.8247],
        [ 8.5469],
        [-8.6641],
        [ 8.5391],
        [ 8.5781],
        [ 8.5938],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.443450927734375
count = 5
logits = tensor([[-8.8438],
        [ 8.5859],
        [-1.3398],
        [ 8.6172],
        [-8.6562],
        [-8.7422],
        [-8.7266],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.472503662109375
count = 6
logits = tensor([[ 8.6094],
        [ 8.6094],
        [-1.1855],
        [ 8.5859],
        [ 8.5938],
        [-8.7422],
        [-8.7422],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.505828857421875
count = 7


  2%|▏         | 9/511 [00:00<00:35, 14.17it/s]

logits = tensor([[-8.8359],
        [-8.7969],
        [-8.8438],
        [-8.6875],
        [-8.7422],
        [-1.0088],
        [-8.7969],
        [-8.7188]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.67083740234375
count = 8
logits = tensor([[-8.7500],
        [ 8.5625],
        [ 8.6016],
        [-1.4209],
        [ 8.5234],
        [-1.2070],
        [ 8.5547],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.73052978515625
count = 9
logits = tensor([[ 8.1406],
        [ 8.6172],
        [ 8.5234],
        [-8.8203],
        [ 8.2812],
        [ 8.6250],
        [-1.0625],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.96588134765625
count = 10
logits = tensor([[-0.2854],
        [ 8.6172],
        [-8.6719],
        [ 8.6172],
        [ 8.6250],
        [ 8.6016],
        [-1.1035],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.107452392578125
count = 11


  3%|▎         | 14/511 [00:01<00:29, 17.01it/s]

logits = tensor([[-8.8516],
        [-8.4766],
        [ 8.5312],
        [-8.7188],
        [ 8.5859],
        [ 8.6016],
        [-8.6406],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.107452392578125
count = 12
logits = tensor([[-8.7734],
        [ 8.5938],
        [-8.8125],
        [-1.1768],
        [ 8.5781],
        [ 8.5625],
        [ 8.6250],
        [-8.8047]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.141082763671875
count = 13
logits = tensor([[-1.2275],
        [ 8.5859],
        [-1.1211],
        [ 8.5625],
        [ 8.5938],
        [-1.3809],
        [ 8.3672],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.3899993896484375
count = 14
logits = tensor([[ 8.5469],
        [-1.2207],
        [ 8.5938],
        [ 8.3125],
        [ 8.6172],
        [-8.6172],
        [-8.7344],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.4223175048828125
count = 15


  4%|▎         | 18/511 [00:01<00:27, 18.01it/s]

logits = tensor([[-0.7832],
        [ 8.5547],
        [-8.3906],
        [ 8.6172],
        [-8.7812],
        [-8.7891],
        [ 8.5469],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.4693756103515625
count = 16
logits = tensor([[ 8.5781],
        [ 8.5156],
        [-1.1270],
        [-0.6538],
        [-8.6328],
        [-8.8438],
        [-1.1348],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8151702880859375
count = 17
logits = tensor([[-8.6797],
        [ 8.3594],
        [-8.8125],
        [-8.7500],
        [ 8.5547],
        [ 8.5781],
        [ 8.6016],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8151702880859375
count = 18
logits = tensor([[-8.7734],
        [ 8.5781],
        [ 8.5938],
        [ 8.5859],
        [ 8.6016],
        [-8.8672],
        [ 8.5469],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8151702880859375
count = 19


  4%|▍         | 22/511 [00:01<00:26, 18.54it/s]

logits = tensor([[ 8.5547],
        [ 8.6094],
        [-0.9917],
        [ 8.6094],
        [ 8.5859],
        [ 8.5312],
        [-1.2559],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.0429840087890625
count = 20
logits = tensor([[-1.0869],
        [-8.6953],
        [ 8.5547],
        [ 8.5781],
        [ 8.5859],
        [ 8.6016],
        [-8.8672],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.2151336669921875
count = 21
logits = tensor([[-8.8594],
        [ 8.5391],
        [-8.7812],
        [-8.7734],
        [-0.9907],
        [-8.6484],
        [ 8.5938],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.2545928955078125
count = 22
logits = tensor([[-1.0166],
        [ 8.6172],
        [-8.7344],
        [ 8.6250],
        [-8.8047],
        [-8.7969],
        [ 8.6172],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.4202117919921875
count = 23


  5%|▌         | 26/511 [00:01<00:25, 18.91it/s]

logits = tensor([[-8.8594],
        [-8.9375],
        [ 8.6250],
        [-0.9302],
        [ 8.6172],
        [-1.2129],
        [-8.8125],
        [-0.8667]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.7627105712890625
count = 24
logits = tensor([[ 8.5469],
        [ 8.5938],
        [-1.4131],
        [ 8.5312],
        [-8.6719],
        [ 8.5625],
        [ 8.5938],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.7899169921875
count = 25
logits = tensor([[-8.7969],
        [ 8.5938],
        [ 8.5859],
        [-8.5703],
        [ 8.6094],
        [ 8.5703],
        [ 8.6250],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.7899169921875
count = 26
logits = tensor([[-1.0566],
        [-8.4219],
        [ 8.6250],
        [ 8.6094],
        [-8.1484],
        [-8.8906],
        [-1.1914],
        [-8.7500]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.992431640625
count = 27


  6%|▌         | 30/511 [00:01<00:25, 18.58it/s]

logits = tensor([[-8.6797],
        [ 8.6016],
        [-8.8203],
        [-8.7969],
        [ 8.5781],
        [-0.9985],
        [ 8.5156],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.0316162109375
count = 28
logits = tensor([[-1.1416],
        [-8.8125],
        [ 8.6172],
        [ 8.6172],
        [-8.8359],
        [ 8.5078],
        [ 8.5547],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.066253662109375
count = 29
logits = tensor([[-8.6797],
        [-8.8750],
        [ 8.5859],
        [-8.1172],
        [ 8.6328],
        [ 8.6172],
        [-8.8125],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.066253662109375
count = 30
logits = tensor([[-8.7969],
        [-8.7578],
        [-1.2021],
        [-8.5469],
        [ 8.6094],
        [-8.7812],
        [-8.6484],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.2493896484375
count = 31


  7%|▋         | 34/511 [00:02<00:25, 18.89it/s]

logits = tensor([[ 8.5469],
        [-8.6797],
        [-1.0312],
        [ 8.6328],
        [ 8.6172],
        [ 8.6250],
        [-1.2119],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.320098876953125
count = 32
logits = tensor([[-0.9282],
        [ 8.5781],
        [-8.8281],
        [-8.6484],
        [-8.8750],
        [ 8.6484],
        [-8.7109],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.477783203125
count = 33
logits = tensor([[ 8.5703],
        [ 8.6328],
        [-8.7031],
        [-8.6641],
        [-8.7891],
        [ 8.6484],
        [-8.8281],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.477783203125
count = 34
logits = tensor([[-8.8281],
        [ 8.5469],
        [ 8.6250],
        [ 8.6250],
        [ 8.5469],
        [-8.7500],
        [ 8.5234],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.477783203125
count = 35


  7%|▋         | 38/511 [00:02<00:25, 18.84it/s]

logits = tensor([[-8.7109],
        [ 8.6016],
        [-8.7422],
        [ 8.5781],
        [-8.8594],
        [-8.8203],
        [-8.7500],
        [-1.0820]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.514251708984375
count = 36
logits = tensor([[-8.7500],
        [ 8.5781],
        [ 8.6016],
        [-1.3301],
        [-8.7969],
        [-8.8594],
        [ 8.6094],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.5435943603515625
count = 37
logits = tensor([[ 8.6562],
        [ 8.6094],
        [ 8.6016],
        [ 8.2500],
        [ 8.5469],
        [-8.6797],
        [-8.7656],
        [-1.0947]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.5796966552734375
count = 38
logits = tensor([[-8.7812],
        [ 8.5781],
        [ 8.6016],
        [ 8.4688],
        [-8.7188],
        [ 8.5703],
        [-1.2041],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.6124725341796875
count = 39


  8%|▊         | 42/511 [00:02<00:24, 18.92it/s]

logits = tensor([[-8.6562],
        [-1.2197],
        [ 8.5703],
        [-1.1846],
        [ 8.5625],
        [ 8.5859],
        [-8.7891],
        [-0.9775]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.0185394287109375
count = 40
logits = tensor([[-0.9834],
        [ 8.5859],
        [ 8.6016],
        [ 8.5781],
        [ 8.1562],
        [ 8.6172],
        [ 8.5703],
        [-8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.1811676025390625
count = 41
logits = tensor([[-8.6172],
        [-8.7812],
        [-8.4062],
        [-1.2012],
        [-0.8726],
        [-8.8047],
        [ 8.2031],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.2576751708984375
count = 42
logits = tensor([[-8.5469],
        [ 8.6016],
        [ 8.5312],
        [-1.1973],
        [ 8.5781],
        [ 8.6016],
        [ 8.6094],
        [-1.2217]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.6253204345703125
count = 43


  9%|▉         | 46/511 [00:02<00:24, 18.94it/s]

logits = tensor([[-8.8281],
        [ 8.4922],
        [-1.1846],
        [ 8.6094],
        [ 8.5781],
        [ 8.5938],
        [ 8.5391],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.6586456298828125
count = 44
logits = tensor([[8.5938],
        [8.5391],
        [8.6016],
        [8.6328],
        [8.6094],
        [8.6016],
        [8.5547],
        [8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.6586456298828125
count = 45
logits = tensor([[-8.8203],
        [ 8.5625],
        [-8.8672],
        [ 8.5781],
        [-8.7266],
        [ 8.6094],
        [ 8.5859],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.6586456298828125
count = 46
logits = tensor([[ 8.5938],
        [-8.8672],
        [-8.8125],
        [ 8.5625],
        [ 8.5859],
        [-1.1934],
        [ 8.6172],
        [-8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.6916961669921875
count = 47


 10%|▉         | 50/511 [00:03<00:24, 18.58it/s]

logits = tensor([[-1.1943],
        [ 8.5938],
        [-8.8984],
        [-8.8047],
        [-8.8516],
        [-1.1836],
        [-1.2080],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.2391204833984375
count = 48
logits = tensor([[ 8.5859],
        [ 8.5703],
        [-1.1416],
        [ 8.5938],
        [ 8.6016],
        [-1.2695],
        [ 8.6172],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.3047332763671875
count = 49
logits = tensor([[-8.7578],
        [ 8.5938],
        [ 8.5312],
        [ 8.3359],
        [ 8.5547],
        [-8.7656],
        [ 8.6016],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.3047332763671875
count = 50
logits = tensor([[-1.1660],
        [-8.7109],
        [-8.7969],
        [-8.6641],
        [-8.9219],
        [ 8.6172],
        [ 8.6172],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.3386383056640625
count = 51


 11%|█         | 54/511 [00:03<00:24, 18.51it/s]

logits = tensor([[-8.7656],
        [ 8.5781],
        [-8.8828],
        [ 8.5859],
        [-8.8281],
        [-8.7734],
        [ 8.5859],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.3386383056640625
count = 52
logits = tensor([[ 8.5938],
        [-8.6094],
        [ 8.5078],
        [-1.0283],
        [-8.7578],
        [-8.8125],
        [ 8.5703],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5053863525390625
count = 53
logits = tensor([[ 8.6172],
        [ 8.5938],
        [ 8.6094],
        [ 8.6016],
        [-8.6250],
        [-8.6875],
        [-8.5156],
        [ 8.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5053863525390625
count = 54
logits = tensor([[ 8.6094],
        [ 8.5938],
        [ 8.6172],
        [-8.7578],
        [-8.6406],
        [-8.6641],
        [ 8.5547],
        [-8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5053863525390625
count = 55


 11%|█▏        | 58/511 [00:03<00:24, 18.74it/s]

logits = tensor([[-8.7266],
        [ 8.5938],
        [ 8.5938],
        [ 8.5938],
        [ 8.6094],
        [ 8.5391],
        [-8.7578],
        [-8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5053863525390625
count = 56
logits = tensor([[-8.0000],
        [-1.2764],
        [-8.8438],
        [ 8.5469],
        [-8.6406],
        [ 8.5469],
        [-8.7109],
        [ 8.5156]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5361785888671875
count = 57
logits = tensor([[ 8.5781],
        [ 8.5859],
        [ 8.6172],
        [-8.8203],
        [-8.8672],
        [ 8.5547],
        [ 8.5781],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.5361785888671875
count = 58
logits = tensor([[-8.7969],
        [-0.7681],
        [ 8.5781],
        [ 8.6172],
        [ 8.6172],
        [ 8.5312],
        [-0.9766],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.6237945556640625
count = 59


 12%|█▏        | 62/511 [00:03<00:23, 18.76it/s]

logits = tensor([[ 8.5703],
        [-1.2070],
        [-8.5391],
        [ 8.5469],
        [ 8.5938],
        [-8.6797],
        [-8.7969],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.6564788818359375
count = 60
logits = tensor([[-8.7891],
        [-0.9102],
        [ 8.6328],
        [-1.1123],
        [-8.6406],
        [-8.7109],
        [-8.7656],
        [-8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.7342987060546875
count = 61
logits = tensor([[-1.1963],
        [-8.6016],
        [ 8.5625],
        [ 8.5938],
        [-8.8516],
        [ 8.5547],
        [-1.4199],
        [-8.8516]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.794464111328125
count = 62
logits = tensor([[-8.7266],
        [-8.6875],
        [ 8.5547],
        [-8.8438],
        [-8.8516],
        [ 8.5000],
        [-1.2080],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.8271484375
count = 63


 13%|█▎        | 66/511 [00:03<00:23, 18.79it/s]

logits = tensor([[-8.8047],
        [ 8.5781],
        [ 8.6016],
        [ 8.5781],
        [ 8.5938],
        [-8.8359],
        [ 8.6172],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.8271484375
count = 64
logits = tensor([[ 8.6016],
        [ 8.5156],
        [-8.5938],
        [ 8.5859],
        [ 8.6094],
        [-8.7656],
        [ 8.5938],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.8271484375
count = 65
logits = tensor([[ 8.5469],
        [ 8.6094],
        [-8.7969],
        [-1.1611],
        [-8.7734],
        [-8.5391],
        [-8.8203],
        [-8.7031]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.861236572265625
count = 66
logits = tensor([[ 8.5469],
        [ 8.6172],
        [-8.8750],
        [-8.6016],
        [ 8.5859],
        [ 8.6172],
        [ 8.5625],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.861236572265625
count = 67


 14%|█▎        | 70/511 [00:04<00:23, 18.58it/s]

logits = tensor([[-1.1865],
        [ 8.5781],
        [-1.0537],
        [ 8.5781],
        [-1.2227],
        [ 8.6016],
        [ 8.5703],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.09588623046875
count = 68
logits = tensor([[-8.8984],
        [-8.7812],
        [-8.8672],
        [-1.0518],
        [ 8.5938],
        [ 8.5781],
        [-8.7266],
        [-8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.13336181640625
count = 69
logits = tensor([[-8.7812],
        [-8.7656],
        [-8.8516],
        [ 8.4688],
        [ 8.6172],
        [-8.7422],
        [ 8.6094],
        [-8.8047]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.13336181640625
count = 70
logits = tensor([[-8.7656],
        [-8.8203],
        [-8.9062],
        [ 8.5625],
        [ 8.5547],
        [ 8.5703],
        [-8.7891],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.13336181640625
count = 71


 14%|█▍        | 74/511 [00:04<00:23, 18.77it/s]

logits = tensor([[ 8.6172],
        [-8.7109],
        [ 8.5703],
        [-8.7109],
        [-8.7344],
        [ 8.5547],
        [ 8.5781],
        [-8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.13336181640625
count = 72
logits = tensor([[-1.1523],
        [-8.6406],
        [-8.8906],
        [ 8.4922],
        [ 8.5703],
        [ 8.5781],
        [-8.7422],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.167724609375
count = 73
logits = tensor([[-1.4004],
        [-8.8359],
        [-8.6641],
        [-8.6719],
        [-8.6641],
        [-8.6797],
        [-8.8750],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.195220947265625
count = 74
logits = tensor([[-8.6953],
        [-8.8125],
        [ 8.6094],
        [ 8.5703],
        [ 8.5625],
        [ 8.5781],
        [ 8.6562],
        [-8.7109]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.195220947265625
count = 75


 15%|█▌        | 78/511 [00:04<00:23, 18.63it/s]

logits = tensor([[-8.8906],
        [-8.6875],
        [-8.8984],
        [ 8.5859],
        [ 8.5938],
        [ 8.5859],
        [-8.7656],
        [-8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.195220947265625
count = 76
logits = tensor([[-8.8594],
        [-8.7891],
        [ 8.5156],
        [ 8.5859],
        [ 8.5781],
        [-8.8125],
        [-8.2891],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.195220947265625
count = 77
logits = tensor([[-0.9878],
        [-8.8516],
        [ 8.5781],
        [-8.6719],
        [-8.7266],
        [ 8.5859],
        [-0.8979],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.40093994140625
count = 78
logits = tensor([[ 8.5938],
        [ 8.5547],
        [ 8.6094],
        [ 8.5547],
        [ 8.5781],
        [-8.6719],
        [-1.4707],
        [-1.2207]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.459075927734375
count = 79


 16%|█▌        | 82/511 [00:04<00:22, 18.95it/s]

logits = tensor([[ 8.5781],
        [ 8.6406],
        [ 8.5391],
        [-8.3672],
        [ 8.5547],
        [ 8.5625],
        [ 8.6250],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.459075927734375
count = 80
logits = tensor([[ 8.5469],
        [-8.7734],
        [ 8.5938],
        [ 8.5781],
        [ 8.5156],
        [-8.8281],
        [-8.8438],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.459075927734375
count = 81
logits = tensor([[ 8.5000],
        [ 8.5547],
        [-8.8906],
        [ 8.6172],
        [-1.2197],
        [-8.8594],
        [-8.8906],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.49139404296875
count = 82
logits = tensor([[-8.5625],
        [ 8.6094],
        [-1.4053],
        [-8.7891],
        [-8.6094],
        [ 8.5781],
        [-8.7344],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.518798828125
count = 83


 17%|█▋        | 86/511 [00:04<00:22, 18.98it/s]

logits = tensor([[-8.8984],
        [-8.7031],
        [ 8.6172],
        [ 8.5312],
        [-8.8594],
        [ 8.6406],
        [-0.3074],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.626129150390625
count = 84
logits = tensor([[-8.6719],
        [-8.7500],
        [ 8.6406],
        [-8.8438],
        [-8.8516],
        [ 8.5938],
        [-8.6484],
        [-1.1982]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.659088134765625
count = 85
logits = tensor([[-8.7656],
        [-8.8984],
        [ 8.5625],
        [-8.8203],
        [-8.8438],
        [-8.8438],
        [ 8.6094],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.659088134765625
count = 86
logits = tensor([[ 8.6016],
        [ 8.5781],
        [ 8.5547],
        [ 8.5859],
        [ 8.6250],
        [-1.1992],
        [ 8.6094],
        [-0.4263]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.808074951171875
count = 87


 18%|█▊        | 90/511 [00:05<00:22, 18.71it/s]

logits = tensor([[-8.6797],
        [ 8.5938],
        [ 8.5234],
        [-1.1846],
        [ 8.5703],
        [-8.6797],
        [-8.8359],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.841400146484375
count = 88
logits = tensor([[ 8.6094],
        [ 8.6016],
        [ 8.5781],
        [ 8.5859],
        [-8.8906],
        [ 8.3281],
        [ 8.5938],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.841400146484375
count = 89
logits = tensor([[-8.6797],
        [-8.8125],
        [-1.1729],
        [ 8.5859],
        [-1.1123],
        [ 8.5859],
        [ 8.5938],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.910675048828125
count = 90
logits = tensor([[-8.7500],
        [-8.8438],
        [-8.7734],
        [-1.0693],
        [ 8.6328],
        [-8.7891],
        [ 8.5938],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.947601318359375
count = 91


 18%|█▊        | 94/511 [00:05<00:22, 18.80it/s]

logits = tensor([[ 8.6172],
        [-8.7969],
        [-8.6562],
        [-8.7266],
        [ 8.5547],
        [-8.8672],
        [-8.7266],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.947601318359375
count = 92
logits = tensor([[ 8.5547],
        [-8.8125],
        [ 8.5781],
        [-8.6875],
        [-1.1025],
        [-8.8203],
        [ 8.5859],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.121246337890625
count = 93
logits = tensor([[ 8.6094],
        [-8.6719],
        [-1.2061],
        [ 7.9961],
        [-8.8125],
        [-0.9517],
        [-8.7812],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.31365966796875
count = 94
logits = tensor([[ 8.5703],
        [-8.9219],
        [ 8.5703],
        [-8.6562],
        [-1.0059],
        [-8.9062],
        [ 8.6094],
        [-1.3838]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.67926025390625
count = 95


 19%|█▉        | 98/511 [00:05<00:21, 18.80it/s]

logits = tensor([[ 8.6016],
        [-1.1504],
        [ 8.5469],
        [-8.8047],
        [ 8.5391],
        [ 8.5703],
        [ 8.6328],
        [-1.2061]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.890106201171875
count = 96
logits = tensor([[-8.8203],
        [ 8.6016],
        [-8.9219],
        [ 8.6094],
        [-8.6562],
        [ 8.6016],
        [-0.8657],
        [-1.0488]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.210906982421875
count = 97
logits = tensor([[-8.8359],
        [-1.2051],
        [-8.8359],
        [ 8.6172],
        [-1.1719],
        [ 8.5547],
        [-8.8125],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.42388916015625
count = 98
logits = tensor([[-8.7031],
        [ 8.6094],
        [-8.7734],
        [-8.8516],
        [-8.7734],
        [ 8.6016],
        [-8.6641],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.42388916015625
count = 99


 20%|█▉        | 102/511 [00:05<00:21, 18.78it/s]

logits = tensor([[ 8.5859],
        [-8.7812],
        [-8.7734],
        [ 8.5938],
        [ 8.5625],
        [ 8.5312],
        [ 8.5859],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.42388916015625
count = 100
logits = tensor([[-8.7656],
        [-8.8125],
        [ 8.5859],
        [ 8.6250],
        [-8.7188],
        [ 8.6172],
        [ 8.5625],
        [-8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.42388916015625
count = 101
logits = tensor([[ 8.6250],
        [ 8.5938],
        [-8.8516],
        [-8.9062],
        [-8.7969],
        [ 8.5859],
        [-8.7656],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.42388916015625
count = 102
logits = tensor([[-1.4834],
        [ 8.5234],
        [ 8.5625],
        [ 8.5781],
        [-1.0498],
        [ 8.6172],
        [ 8.5859],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.486892700195312
count = 103


 21%|██        | 106/511 [00:06<00:21, 18.83it/s]

logits = tensor([[-8.8281],
        [ 8.6094],
        [ 8.5469],
        [ 8.5469],
        [ 8.6094],
        [ 8.6094],
        [-1.2139],
        [-8.6875]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.519393920898438
count = 104
logits = tensor([[ 8.5156],
        [-8.7734],
        [ 8.6484],
        [-8.7266],
        [ 8.6016],
        [ 8.5547],
        [ 8.6172],
        [-1.0684]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.689865112304688
count = 105
logits = tensor([[-8.5469],
        [-8.9062],
        [-8.6797],
        [-8.8672],
        [ 8.5859],
        [ 8.5156],
        [-8.7109],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.689865112304688
count = 106
logits = tensor([[ 8.5938],
        [ 8.5547],
        [-8.7344],
        [ 8.5156],
        [-8.6953],
        [-8.8828],
        [ 8.5391],
        [-0.9258]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.731613159179688
count = 107


 22%|██▏       | 110/511 [00:06<00:21, 18.82it/s]

logits = tensor([[ 8.5703],
        [ 8.6172],
        [-8.6953],
        [ 8.6016],
        [ 8.5938],
        [ 8.6094],
        [ 8.5469],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.731613159179688
count = 108
logits = tensor([[-8.7578],
        [ 8.6094],
        [ 8.5469],
        [-8.8516],
        [ 8.5703],
        [-8.5859],
        [ 8.6016],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.731613159179688
count = 109
logits = tensor([[ 8.5078],
        [-8.6641],
        [-1.0195],
        [-8.7812],
        [ 8.4531],
        [ 8.5859],
        [-8.8438],
        [-1.2168]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.802566528320312
count = 110
logits = tensor([[-8.6875],
        [ 8.5859],
        [-1.0010],
        [ 8.6172],
        [-1.2373],
        [ 8.5859],
        [ 8.5312],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.873489379882812
count = 111


 22%|██▏       | 114/511 [00:06<00:20, 19.04it/s]

logits = tensor([[ 8.5938],
        [ 8.3516],
        [ 8.5703],
        [-1.1455],
        [ 8.5703],
        [-8.7656],
        [ 8.5781],
        [-8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.908035278320312
count = 112
logits = tensor([[-8.7734],
        [-1.1025],
        [ 8.6172],
        [-8.7109],
        [ 8.5781],
        [ 8.6172],
        [ 8.6250],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.081680297851562
count = 113
logits = tensor([[-8.7734],
        [ 8.5391],
        [ 8.5703],
        [ 8.6094],
        [-8.7969],
        [-8.7500],
        [ 8.5469],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.081680297851562
count = 114
logits = tensor([[-8.7188],
        [ 8.6016],
        [ 8.5547],
        [ 8.6328],
        [ 8.6406],
        [-8.9062],
        [ 8.5938],
        [-1.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.113418579101562
count = 115


 23%|██▎       | 118/511 [00:06<00:20, 18.72it/s]

logits = tensor([[ 8.6172],
        [ 8.5781],
        [ 8.6016],
        [ 8.6094],
        [ 8.5625],
        [-8.8672],
        [-8.3438],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.113418579101562
count = 116
logits = tensor([[ 8.6016],
        [ 8.6250],
        [-8.9141],
        [-8.6953],
        [ 8.5859],
        [-1.0088],
        [ 8.6328],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.152328491210938
count = 117
logits = tensor([[-8.6797],
        [-8.8828],
        [-8.6172],
        [-1.0459],
        [-8.7031],
        [-1.0693],
        [ 8.5703],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.226913452148438
count = 118
logits = tensor([[ 8.6641],
        [-1.1973],
        [ 8.5938],
        [-1.0469],
        [ 8.5547],
        [ 8.6328],
        [ 8.5703],
        [-8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.297531127929688
count = 119


 24%|██▍       | 122/511 [00:06<00:20, 18.78it/s]

logits = tensor([[-8.7500],
        [ 8.5859],
        [-8.6797],
        [ 8.5781],
        [ 8.5391],
        [-8.8672],
        [ 8.6094],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.297531127929688
count = 120
logits = tensor([[ 8.6016],
        [ 8.5938],
        [ 8.6016],
        [ 8.5391],
        [-8.8750],
        [-1.1592],
        [-8.5547],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.331619262695312
count = 121
logits = tensor([[ 8.5625],
        [ 8.5234],
        [-8.6719],
        [ 8.5781],
        [ 8.6094],
        [-8.6953],
        [ 8.5781],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.331619262695312
count = 122
logits = tensor([[-8.6875],
        [-8.6016],
        [ 8.4844],
        [ 8.5703],
        [-1.2041],
        [ 8.6172],
        [ 8.6328],
        [-1.0146]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.680374145507812
count = 123


 25%|██▍       | 126/511 [00:07<00:20, 18.98it/s]

logits = tensor([[-1.1416],
        [-8.5469],
        [ 8.5703],
        [ 8.6250],
        [ 8.6094],
        [ 8.6016],
        [ 8.5703],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.857711791992188
count = 124
logits = tensor([[ 8.5859],
        [-8.8750],
        [-1.1758],
        [-8.8438],
        [ 8.6016],
        [-8.8203],
        [-1.2393],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.923080444335938
count = 125
logits = tensor([[ 8.5156],
        [ 8.5938],
        [-8.8359],
        [-8.8594],
        [-8.9062],
        [ 8.5859],
        [-8.6250],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.923080444335938
count = 126
logits = tensor([[ 8.5156],
        [ 8.5547],
        [ 8.5391],
        [ 8.5781],
        [ 8.5547],
        [-1.2148],
        [ 8.5469],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.955581665039062
count = 127


 25%|██▌       | 130/511 [00:07<00:20, 18.89it/s]

logits = tensor([[-8.7578],
        [ 8.6094],
        [ 8.6094],
        [ 8.6250],
        [-8.8047],
        [ 8.6172],
        [-1.1445],
        [-1.1455]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.167861938476562
count = 128
logits = tensor([[ 8.6016],
        [-1.2051],
        [-8.8281],
        [-8.7969],
        [-1.0947],
        [-8.7578],
        [ 8.4766],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.373580932617188
count = 129
logits = tensor([[-8.7891],
        [ 8.5859],
        [ 8.5938],
        [-8.7266],
        [-8.8516],
        [ 8.5859],
        [ 8.6016],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.373580932617188
count = 130
logits = tensor([[-8.8984],
        [-1.4229],
        [ 8.5703],
        [ 8.6172],
        [-0.2302],
        [ 8.1875],
        [-8.7109],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.502487182617188
count = 131


 26%|██▌       | 134/511 [00:07<00:19, 18.95it/s]

logits = tensor([[ 8.6016],
        [-8.8750],
        [-8.8281],
        [ 8.5547],
        [-1.0645],
        [-8.7656],
        [ 8.6016],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.539505004882812
count = 132
logits = tensor([[ 8.5000],
        [ 8.6016],
        [-1.0312],
        [-1.4316],
        [-8.6406],
        [ 8.6016],
        [ 8.6328],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.60443115234375
count = 133
logits = tensor([[ 8.5703],
        [ 8.5938],
        [ 8.5938],
        [ 8.1797],
        [-8.8125],
        [-8.6797],
        [-8.8516],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.60443115234375
count = 134
logits = tensor([[ 8.6172],
        [-8.6719],
        [ 8.6016],
        [-8.6172],
        [-1.2139],
        [-1.1621],
        [ 8.6016],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.816192626953125
count = 135


 27%|██▋       | 138/511 [00:07<00:19, 18.68it/s]

logits = tensor([[-8.7500],
        [-8.7578],
        [ 8.6016],
        [ 8.6328],
        [ 8.6172],
        [ 8.5547],
        [-8.6641],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.816192626953125
count = 136
logits = tensor([[-1.3467],
        [-8.8125],
        [ 8.6797],
        [ 8.6094],
        [ 8.5391],
        [ 8.5547],
        [ 8.5781],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.845062255859375
count = 137
logits = tensor([[-8.7500],
        [-8.6484],
        [ 8.6328],
        [-8.6797],
        [-8.9297],
        [-1.1270],
        [-1.2070],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.912841796875
count = 138
logits = tensor([[-8.8672],
        [-8.7188],
        [ 8.5938],
        [ 8.6328],
        [-8.7969],
        [-8.5312],
        [-1.1602],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.946929931640625
count = 139


 28%|██▊       | 142/511 [00:07<00:19, 18.86it/s]

logits = tensor([[-8.8828],
        [-1.0771],
        [ 8.6094],
        [-8.7812],
        [ 8.6094],
        [-8.8594],
        [-8.8984],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.98358154296875
count = 140
logits = tensor([[ 8.5625],
        [ 8.5781],
        [-8.8516],
        [-1.1865],
        [-8.7812],
        [ 8.5703],
        [ 8.5859],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.165130615234375
count = 141
logits = tensor([[ 8.6016],
        [-8.7734],
        [ 8.6250],
        [-8.9141],
        [ 8.5781],
        [ 8.6016],
        [-0.8623],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.316925048828125
count = 142
logits = tensor([[ 8.5859],
        [ 8.6172],
        [-8.8438],
        [ 8.5547],
        [ 8.6094],
        [ 8.6094],
        [ 8.5547],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.316925048828125
count = 143


 29%|██▊       | 146/511 [00:08<00:19, 18.53it/s]

logits = tensor([[-8.7656],
        [ 8.5781],
        [-8.6797],
        [-8.7344],
        [-1.1807],
        [ 8.6172],
        [-8.7266],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.350372314453125
count = 144
logits = tensor([[-8.8906],
        [ 8.5859],
        [ 8.5781],
        [-1.2158],
        [ 8.5391],
        [-8.6641],
        [ 8.6172],
        [-1.0283]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.42108154296875
count = 145
logits = tensor([[-1.2158],
        [ 8.6250],
        [ 8.5547],
        [ 8.6172],
        [ 8.5469],
        [ 8.6016],
        [ 8.5859],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.605560302734375
count = 146
logits = tensor([[-8.4375],
        [-8.7500],
        [-8.9062],
        [ 8.5859],
        [-8.5703],
        [ 8.5469],
        [ 8.6016],
        [-7.9336]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.605560302734375
count = 147


 29%|██▉       | 150/511 [00:08<00:19, 18.59it/s]

logits = tensor([[-8.7422],
        [ 8.5938],
        [ 8.5547],
        [-8.8594],
        [ 8.5859],
        [ 8.6094],
        [-1.1240],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.6407470703125
count = 148
logits = tensor([[ 8.6094],
        [-8.8203],
        [ 8.5938],
        [ 8.6016],
        [-8.7344],
        [-8.7891],
        [-8.7578],
        [-8.8516]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.6407470703125
count = 149
logits = tensor([[ 8.5469],
        [ 8.5938],
        [ 8.6094],
        [ 8.6016],
        [-8.7500],
        [ 8.6016],
        [-8.3359],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.6407470703125
count = 150
logits = tensor([[ 8.5391],
        [ 8.5938],
        [ 8.5781],
        [ 8.5391],
        [-8.7344],
        [-8.6719],
        [-1.1953],
        [-8.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.673797607421875
count = 151


 30%|███       | 154/511 [00:08<00:19, 18.66it/s]

logits = tensor([[ 8.5625],
        [ 8.6172],
        [-8.8516],
        [ 8.5781],
        [ 8.6172],
        [ 8.5703],
        [ 8.6094],
        [-8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.673797607421875
count = 152
logits = tensor([[-8.7812],
        [-8.6641],
        [ 8.5547],
        [-8.8906],
        [ 8.5391],
        [ 8.6016],
        [ 8.6172],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.673797607421875
count = 153
logits = tensor([[8.5781],
        [8.5859],
        [8.5781],
        [8.5703],
        [8.5938],
        [8.5469],
        [8.6250],
        [8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.673797607421875
count = 154
logits = tensor([[-8.8125],
        [ 8.5547],
        [ 8.6094],
        [ 8.6562],
        [ 8.6016],
        [-1.2275],
        [ 8.6094],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.705902099609375
count = 155


 31%|███       | 158/511 [00:08<00:18, 18.85it/s]

logits = tensor([[ 8.1172],
        [ 8.5469],
        [-1.0264],
        [-8.5938],
        [-1.2383],
        [ 8.5625],
        [ 8.5078],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.059112548828125
count = 156
logits = tensor([[-8.5938],
        [-8.8125],
        [-0.9619],
        [-8.7891],
        [-8.7344],
        [ 8.6094],
        [-1.0537],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.268646240234375
count = 157
logits = tensor([[ 8.5469],
        [-1.1035],
        [ 8.5938],
        [ 8.6094],
        [ 8.5703],
        [ 8.6172],
        [-8.7812],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.442413330078125
count = 158
logits = tensor([[-8.8125],
        [-8.7188],
        [ 8.5859],
        [-8.8750],
        [ 8.5703],
        [-1.2129],
        [ 8.6172],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.47491455078125
count = 159


 32%|███▏      | 162/511 [00:08<00:18, 19.00it/s]

logits = tensor([[ 8.6016],
        [ 8.6094],
        [-8.8438],
        [-8.7656],
        [ 8.5781],
        [-1.2441],
        [ 8.6094],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.506561279296875
count = 160
logits = tensor([[-8.7734],
        [ 8.6094],
        [ 8.5625],
        [ 8.5781],
        [ 8.6094],
        [ 8.5391],
        [ 8.5938],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.506561279296875
count = 161
logits = tensor([[ 8.5781],
        [-8.8281],
        [ 8.5469],
        [-1.1201],
        [ 8.5859],
        [ 8.5547],
        [ 8.5625],
        [-8.3984]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.681854248046875
count = 162
logits = tensor([[ 8.5625],
        [-8.8047],
        [ 8.5781],
        [-8.8359],
        [-1.3965],
        [ 8.5547],
        [ 8.5625],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.709457397460938
count = 163


 32%|███▏      | 166/511 [00:09<00:18, 18.93it/s]

logits = tensor([[-8.7578],
        [ 8.5625],
        [ 8.6016],
        [-8.7500],
        [ 8.6250],
        [ 8.6172],
        [-8.7734],
        [-1.1904]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.742691040039062
count = 164
logits = tensor([[ 8.6094],
        [-0.8638],
        [ 8.6562],
        [ 8.6328],
        [ 8.5234],
        [ 8.6250],
        [ 8.5234],
        [-8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.786697387695312
count = 165
logits = tensor([[ 8.2109],
        [-8.7500],
        [ 8.6172],
        [ 8.6016],
        [-8.8906],
        [-1.1748],
        [-1.2119],
        [-1.4004]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.027267456054688
count = 166
logits = tensor([[ 8.5703],
        [-8.6094],
        [-8.7109],
        [-1.1621],
        [ 8.5781],
        [-8.7109],
        [ 8.5469],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.061264038085938
count = 167


 33%|███▎      | 170/511 [00:09<00:17, 19.14it/s]

logits = tensor([[ 8.6016],
        [ 8.5078],
        [-8.6094],
        [ 8.5625],
        [ 8.6172],
        [ 8.5859],
        [-8.7188],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.061264038085938
count = 168
logits = tensor([[-1.2236],
        [ 8.5938],
        [ 8.6016],
        [ 8.6016],
        [-8.6484],
        [ 8.5781],
        [-1.1035],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.129318237304688
count = 169
logits = tensor([[ 8.5625],
        [ 8.5547],
        [ 8.6172],
        [ 8.6484],
        [-0.9116],
        [-8.7734],
        [ 8.5938],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.171585083007812
count = 170
logits = tensor([[-8.8047],
        [-8.8203],
        [ 8.6094],
        [ 8.6016],
        [ 8.5859],
        [ 8.6016],
        [ 8.5625],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.171585083007812
count = 171


 34%|███▍      | 174/511 [00:09<00:17, 18.83it/s]

logits = tensor([[-8.7344],
        [-8.6875],
        [-8.8516],
        [ 8.5469],
        [ 8.5781],
        [ 8.5469],
        [ 8.1328],
        [-1.3672]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.370864868164062
count = 172
logits = tensor([[ 8.5312],
        [-8.7656],
        [-8.7031],
        [ 8.6094],
        [ 8.5938],
        [ 8.6016],
        [ 8.4297],
        [ 8.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.370864868164062
count = 173
logits = tensor([[-1.2197],
        [-8.8594],
        [-8.8516],
        [ 8.5469],
        [-8.7422],
        [ 8.3438],
        [-0.9692],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.443344116210938
count = 174
logits = tensor([[-1.1650],
        [ 8.5703],
        [-8.7812],
        [ 8.5859],
        [-8.7422],
        [-8.8750],
        [-8.7969],
        [-1.0020]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.787307739257812
count = 175


 35%|███▍      | 178/511 [00:09<00:17, 18.62it/s]

logits = tensor([[-8.8047],
        [-8.6172],
        [ 8.6016],
        [ 8.6094],
        [-8.7188],
        [-8.7422],
        [-8.8438],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.787307739257812
count = 176
logits = tensor([[-8.8438],
        [ 8.5781],
        [-8.8359],
        [ 8.6250],
        [ 8.6016],
        [-8.8672],
        [-8.9219],
        [-8.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.787307739257812
count = 177
logits = tensor([[ 8.5625],
        [-1.1455],
        [-8.7734],
        [ 8.5938],
        [-8.8828],
        [-8.5391],
        [-8.5469],
        [-8.8672]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.821853637695312
count = 178
logits = tensor([[-0.8730],
        [ 8.5625],
        [-8.8203],
        [-8.7422],
        [ 8.5781],
        [-1.1641],
        [ 8.5703],
        [-1.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.041671752929688
count = 179


 36%|███▌      | 182/511 [00:10<00:17, 18.75it/s]

logits = tensor([[ 8.5469],
        [-8.8672],
        [ 8.6250],
        [-8.7656],
        [ 8.5859],
        [-8.7109],
        [ 8.5703],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.041671752929688
count = 180
logits = tensor([[-8.7969],
        [ 8.5938],
        [ 8.5547],
        [ 8.6406],
        [ 8.5469],
        [ 8.6328],
        [ 8.6016],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.041671752929688
count = 181
logits = tensor([[-0.6719],
        [ 8.5547],
        [-8.8672],
        [ 8.5938],
        [ 8.6172],
        [ 8.5859],
        [-8.6953],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.093246459960938
count = 182
logits = tensor([[-1.1475],
        [ 8.6172],
        [-8.8594],
        [ 8.6016],
        [ 8.6172],
        [ 0.0447],
        [ 8.5781],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.354995727539062
count = 183


 36%|███▋      | 186/511 [00:10<00:17, 18.80it/s]

logits = tensor([[-8.8359],
        [ 8.5234],
        [-8.8594],
        [-1.0498],
        [-8.7578],
        [-8.6250],
        [-8.6094],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.392471313476562
count = 184
logits = tensor([[-8.4453],
        [ 8.5781],
        [-8.7188],
        [ 8.6094],
        [ 8.5391],
        [ 8.5547],
        [ 8.6094],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.392471313476562
count = 185
logits = tensor([[ 8.5938],
        [ 8.5625],
        [-1.4404],
        [ 8.5938],
        [-0.9575],
        [ 8.6250],
        [ 8.6172],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.579269409179688
count = 186
logits = tensor([[-8.7969],
        [-8.8203],
        [ 8.5859],
        [-1.2031],
        [ 8.5547],
        [ 8.6172],
        [-8.7891],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.612136840820312
count = 187


 37%|███▋      | 190/511 [00:10<00:16, 18.93it/s]

logits = tensor([[-8.6953],
        [-8.7969],
        [-8.7891],
        [ 8.6406],
        [-8.8516],
        [-8.7422],
        [-8.7969],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.612136840820312
count = 188
logits = tensor([[-8.6719],
        [-1.0391],
        [ 8.5938],
        [-8.7812],
        [-8.6953],
        [ 8.6172],
        [-1.1709],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.683792114257812
count = 189
logits = tensor([[ 8.5547],
        [ 8.6016],
        [-8.8438],
        [-1.0820],
        [-0.9912],
        [-8.7344],
        [ 8.6094],
        [ 8.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.894973754882812
count = 190
logits = tensor([[ 8.6016],
        [ 8.5859],
        [ 8.5234],
        [ 8.5156],
        [-8.6875],
        [ 8.5312],
        [-8.8594],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.894973754882812
count = 191


 38%|███▊      | 194/511 [00:10<00:17, 18.62it/s]

logits = tensor([[-8.8906],
        [-8.8594],
        [ 8.6641],
        [ 8.6172],
        [-8.9219],
        [-1.1914],
        [ 8.6172],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.928115844726562
count = 192
logits = tensor([[ 8.5938],
        [ 8.5781],
        [ 8.6094],
        [ 8.6016],
        [-1.2246],
        [ 8.6016],
        [-8.7188],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.960342407226562
count = 193
logits = tensor([[ 8.5234],
        [-8.4219],
        [ 8.5859],
        [ 8.5781],
        [ 8.6172],
        [-8.8594],
        [ 8.5625],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.960342407226562
count = 194
logits = tensor([[ 8.5703],
        [-1.4707],
        [ 8.5625],
        [ 8.5547],
        [ 8.5469],
        [-8.9297],
        [ 8.5938],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.986160278320312
count = 195


 39%|███▊      | 198/511 [00:10<00:16, 18.60it/s]

logits = tensor([[ 8.5391],
        [-1.1299],
        [-8.8516],
        [-8.8594],
        [ 8.5703],
        [ 8.5859],
        [ 8.5703],
        [-0.7808]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.209518432617188
count = 196
logits = tensor([[-8.7656],
        [-8.8906],
        [-7.8945],
        [-8.8672],
        [ 8.5781],
        [ 8.5703],
        [ 8.6172],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.209518432617188
count = 197
logits = tensor([[ 8.5547],
        [-1.1113],
        [-1.1553],
        [-8.7188],
        [-8.7344],
        [ 8.5859],
        [ 8.4688],
        [-8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.418167114257812
count = 198
logits = tensor([[ 8.5312],
        [-8.7734],
        [-8.7969],
        [-8.8359],
        [-8.8750],
        [-8.7109],
        [-8.9062],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.418167114257812
count = 199


 40%|███▉      | 202/511 [00:11<00:16, 18.53it/s]

logits = tensor([[ 8.6094],
        [ 8.6094],
        [ 8.5469],
        [-8.8828],
        [-8.7344],
        [-8.7812],
        [ 8.5938],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.418167114257812
count = 200
logits = tensor([[ 8.5312],
        [-1.2217],
        [-8.8516],
        [ 8.5547],
        [-1.1729],
        [ 8.5781],
        [-8.7109],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.630813598632812
count = 201
logits = tensor([[-8.7109],
        [ 8.5391],
        [-8.8594],
        [-8.4531],
        [-8.7188],
        [ 8.6328],
        [ 8.5469],
        [-8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.630813598632812
count = 202
logits = tensor([[-8.6797],
        [-8.4062],
        [-8.2578],
        [-8.5469],
        [ 8.6172],
        [-0.9248],
        [ 8.6328],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.867263793945312
count = 203


 40%|████      | 206/511 [00:11<00:16, 18.54it/s]

logits = tensor([[ 8.5938],
        [ 8.6172],
        [-8.9141],
        [ 8.5859],
        [ 8.5859],
        [-8.7578],
        [-8.5469],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.867263793945312
count = 204
logits = tensor([[-1.1963],
        [-8.7266],
        [-8.8750],
        [-8.8984],
        [-8.8203],
        [ 8.5625],
        [ 8.5312],
        [-8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.049850463867188
count = 205
logits = tensor([[ 8.6328],
        [ 8.6094],
        [ 8.5859],
        [ 8.6094],
        [-8.8516],
        [ 8.5938],
        [-7.9375],
        [-8.7188]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.049850463867188
count = 206
logits = tensor([[ 8.6406],
        [-1.0645],
        [-0.8848],
        [ 8.6094],
        [-8.8359],
        [ 8.5781],
        [-8.9062],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.130081176757812
count = 207


 41%|████      | 210/511 [00:11<00:16, 18.57it/s]

logits = tensor([[-1.1064],
        [-8.7969],
        [-1.2100],
        [-1.1504],
        [-8.7266],
        [ 8.6172],
        [-8.8359],
        [-8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.384017944335938
count = 208
logits = tensor([[-0.9580],
        [-8.7891],
        [ 8.6094],
        [-8.7344],
        [-1.2031],
        [-1.1650],
        [ 8.5156],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.641860961914062
count = 209
logits = tensor([[-8.6562],
        [-8.7812],
        [-8.5547],
        [ 8.6172],
        [ 8.5938],
        [-8.8125],
        [-1.0967],
        [ 8.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.677871704101562
count = 210
logits = tensor([[ 8.5078],
        [ 8.5859],
        [-8.7891],
        [ 8.6172],
        [ 8.5859],
        [-8.7500],
        [-1.0342],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.715896606445312
count = 211


 42%|████▏     | 214/511 [00:11<00:16, 18.53it/s]

logits = tensor([[ 8.5703],
        [ 8.5859],
        [ 8.5469],
        [ 8.4922],
        [ 8.5859],
        [ 8.5703],
        [ 8.6094],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.715896606445312
count = 212
logits = tensor([[ 8.5547],
        [-8.7891],
        [ 8.5391],
        [-8.5938],
        [-8.8828],
        [-8.8125],
        [ 8.5859],
        [-8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.715896606445312
count = 213
logits = tensor([[8.6562],
        [8.5938],
        [8.6094],
        [8.6094],
        [8.6016],
        [8.5469],
        [8.5938],
        [8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.715896606445312
count = 214
logits = tensor([[-1.1885],
        [ 8.6172],
        [-8.8906],
        [-8.6953],
        [ 8.6094],
        [-1.1094],
        [-8.8281],
        [-1.1895]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.966567993164062
count = 215


 43%|████▎     | 218/511 [00:11<00:15, 18.57it/s]

logits = tensor([[ 8.6094],
        [ 8.5859],
        [ 8.6328],
        [-8.8594],
        [ 8.6016],
        [-8.6797],
        [-8.6719],
        [-8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.966567993164062
count = 216
logits = tensor([[ 8.5938],
        [-1.2109],
        [ 8.5469],
        [-8.7734],
        [-8.6484],
        [-8.2734],
        [ 8.5781],
        [-8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.150527954101562
count = 217
logits = tensor([[ 8.6562],
        [ 8.5938],
        [-8.7656],
        [ 8.6328],
        [-8.6875],
        [-8.6719],
        [-8.7422],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.150527954101562
count = 218
logits = tensor([[ 8.2500],
        [-1.0557],
        [-8.6172],
        [-8.9297],
        [ 8.6562],
        [-8.8672],
        [ 8.5469],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.319778442382812
count = 219


 43%|████▎     | 222/511 [00:12<00:15, 18.82it/s]

logits = tensor([[ 8.5469],
        [-8.7578],
        [-8.2969],
        [ 8.6094],
        [ 8.6172],
        [-8.7656],
        [-1.2041],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.352554321289062
count = 220
logits = tensor([[ 8.5781],
        [ 8.6250],
        [-8.9062],
        [-8.8281],
        [ 8.4844],
        [-1.0400],
        [-8.6406],
        [-8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.520401000976562
count = 221
logits = tensor([[ 8.6094],
        [ 8.6094],
        [-8.7344],
        [ 8.5938],
        [-0.9673],
        [-8.8359],
        [-1.0039],
        [-1.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.762985229492188
count = 222
logits = tensor([[ 8.5938],
        [-8.8047],
        [-8.8594],
        [ 8.5547],
        [ 8.6172],
        [ 8.5391],
        [ 8.5781],
        [-8.7109]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.762985229492188
count = 223


 44%|████▍     | 226/511 [00:12<00:15, 18.78it/s]

logits = tensor([[ 8.6172],
        [ 8.6094],
        [ 8.5859],
        [ 8.6172],
        [ 8.6016],
        [ 8.4219],
        [-1.2031],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.795852661132812
count = 224
logits = tensor([[ 8.5625],
        [ 8.5859],
        [ 8.5938],
        [ 8.5234],
        [ 8.5938],
        [ 8.5156],
        [ 8.5469],
        [-8.8516]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.795852661132812
count = 225
logits = tensor([[ 8.5859],
        [ 8.5938],
        [-0.1335],
        [ 8.5781],
        [-8.7969],
        [ 8.5859],
        [ 8.5703],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.891098022460938
count = 226
logits = tensor([[-1.3418],
        [-8.5234],
        [ 8.5078],
        [-8.8203],
        [ 8.6094],
        [-8.8203],
        [ 8.6016],
        [-8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.920150756835938
count = 227


 45%|████▌     | 230/511 [00:12<00:14, 18.88it/s]

logits = tensor([[ 8.6250],
        [-1.1357],
        [ 8.5312],
        [-1.0547],
        [ 8.6250],
        [-8.8828],
        [-1.0996],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.028274536132812
count = 228
logits = tensor([[-8.7969],
        [ 8.5391],
        [ 8.5938],
        [ 8.6016],
        [-8.6328],
        [-8.7109],
        [ 8.6172],
        [-1.1455]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.062820434570312
count = 229
logits = tensor([[ 8.5703],
        [-8.6016],
        [-8.8438],
        [-8.8906],
        [ 8.6172],
        [ 8.5391],
        [ 8.4297],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.062820434570312
count = 230
logits = tensor([[ 8.5547],
        [ 8.5625],
        [ 8.5938],
        [ 8.5781],
        [-8.8047],
        [ 8.6094],
        [-8.8047],
        [-8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.062820434570312
count = 231


 46%|████▌     | 234/511 [00:12<00:14, 18.86it/s]

logits = tensor([[-8.8125],
        [-8.6719],
        [ 8.5625],
        [ 8.6328],
        [ 8.6172],
        [-8.4531],
        [ 8.5781],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.062820434570312
count = 232
logits = tensor([[ 8.5469],
        [-8.7891],
        [-8.7734],
        [ 8.5391],
        [-1.1689],
        [-8.8906],
        [ 8.5234],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.096633911132812
count = 233
logits = tensor([[ 8.5859],
        [ 8.5859],
        [ 8.5938],
        [ 8.5859],
        [-1.1396],
        [ 8.5859],
        [ 8.5625],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.273818969726562
count = 234
logits = tensor([[-8.7188],
        [-8.8906],
        [ 8.6250],
        [ 8.5469],
        [ 8.6094],
        [ 8.6094],
        [ 8.5781],
        [-8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.273818969726562
count = 235


 47%|████▋     | 238/511 [00:13<00:14, 19.11it/s]

logits = tensor([[ 8.6016],
        [ 8.5547],
        [-8.6406],
        [-8.6797],
        [-8.8047],
        [ 8.5234],
        [-8.6719],
        [-8.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.273818969726562
count = 236
logits = tensor([[-8.7656],
        [-8.6172],
        [-8.8828],
        [ 8.5859],
        [-0.8965],
        [ 8.5938],
        [ 8.5781],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.316604614257812
count = 237
logits = tensor([[ 8.5938],
        [ 8.6016],
        [ 8.5469],
        [ 8.5625],
        [-8.7812],
        [-8.5078],
        [ 8.5625],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.316604614257812
count = 238
logits = tensor([[ 8.5938],
        [ 8.6094],
        [-1.1445],
        [ 8.6328],
        [ 8.5703],
        [-8.7734],
        [-1.1846],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.384475708007812
count = 239


 47%|████▋     | 242/511 [00:13<00:14, 18.85it/s]

logits = tensor([[-8.6484],
        [-1.2090],
        [-8.7422],
        [-8.8281],
        [ 8.6172],
        [-8.7188],
        [-8.9141],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.568283081054688
count = 240
logits = tensor([[-8.7734],
        [ 8.5938],
        [-8.7109],
        [ 8.6172],
        [-8.7891],
        [ 8.6250],
        [ 8.5938],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.568283081054688
count = 241
logits = tensor([[ 8.6250],
        [ 8.6250],
        [-8.7188],
        [ 8.5703],
        [-8.7656],
        [ 8.5859],
        [ 8.5938],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.568283081054688
count = 242
logits = tensor([[-8.7578],
        [-8.8203],
        [-8.6484],
        [-8.4922],
        [-8.8125],
        [-8.6250],
        [ 8.6094],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.568283081054688
count = 243


 48%|████▊     | 246/511 [00:13<00:14, 18.64it/s]

logits = tensor([[-8.8984],
        [ 8.5859],
        [ 8.5781],
        [-8.6016],
        [-8.7656],
        [-8.8203],
        [-8.7109],
        [-8.8906]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.568283081054688
count = 244
logits = tensor([[-8.8203],
        [ 8.6172],
        [-8.7656],
        [-1.0107],
        [ 8.6172],
        [ 8.6094],
        [-1.0195],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.771987915039062
count = 245
logits = tensor([[ 8.6172],
        [-8.8438],
        [ 8.6250],
        [ 8.6094],
        [-8.0312],
        [ 8.6172],
        [ 8.5625],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.771987915039062
count = 246
logits = tensor([[-8.8516],
        [ 8.5859],
        [-8.8359],
        [ 8.5625],
        [-8.7031],
        [ 8.5469],
        [-8.7656],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.771987915039062
count = 247


 49%|████▉     | 250/511 [00:13<00:13, 18.68it/s]

logits = tensor([[-1.0479],
        [ 8.6172],
        [-1.2266],
        [ 8.6172],
        [-8.3516],
        [ 8.5859],
        [-1.1777],
        [-1.1992]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.908157348632812
count = 248
logits = tensor([[-8.7500],
        [ 8.5781],
        [ 8.5547],
        [-8.9141],
        [ 8.6016],
        [-8.7734],
        [ 8.6094],
        [-1.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.941024780273438
count = 249
logits = tensor([[-8.9219],
        [-8.6797],
        [ 8.6250],
        [ 8.5547],
        [ 8.5469],
        [-8.6797],
        [ 8.5312],
        [-1.0254]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.107498168945312
count = 250
logits = tensor([[-1.2715],
        [ 8.5547],
        [ 8.5391],
        [-8.7188],
        [ 8.6562],
        [ 8.5938],
        [ 8.5547],
        [-1.2070]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.171066284179688
count = 251


 50%|████▉     | 254/511 [00:13<00:13, 18.60it/s]

logits = tensor([[-1.2129],
        [-1.1572],
        [ 8.5391],
        [ 8.1406],
        [-8.6875],
        [ 8.6016],
        [ 8.5781],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.382400512695312
count = 252
logits = tensor([[ 8.5781],
        [ 8.5625],
        [-8.4297],
        [ 8.5938],
        [ 8.6250],
        [-1.1836],
        [ 8.5625],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.415847778320312
count = 253
logits = tensor([[-8.7812],
        [-8.7734],
        [ 8.5781],
        [-8.8281],
        [ 8.5469],
        [ 8.5312],
        [ 8.6484],
        [-1.2168]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.448257446289062
count = 254
logits = tensor([[ 8.6562],
        [-1.1162],
        [ 8.5391],
        [-8.7031],
        [ 8.5625],
        [ 8.5625],
        [-8.9297],
        [-8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.483718872070312
count = 255


 50%|█████     | 258/511 [00:14<00:13, 18.77it/s]

logits = tensor([[ 8.5234],
        [-1.0518],
        [-8.7734],
        [ 8.4766],
        [-8.8359],
        [-8.7500],
        [ 8.6016],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.521194458007812
count = 256
logits = tensor([[-8.7500],
        [-8.8438],
        [ 8.5391],
        [-8.8359],
        [-8.6641],
        [-1.0732],
        [ 8.5547],
        [-8.8672]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.692092895507812
count = 257
logits = tensor([[-8.7500],
        [-0.9629],
        [-8.8281],
        [-8.6953],
        [ 8.5625],
        [ 8.6016],
        [ 8.6016],
        [ 8.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.852890014648438
count = 258
logits = tensor([[-8.7734],
        [-1.1855],
        [-1.2109],
        [ 8.6250],
        [ 8.5703],
        [-8.7031],
        [-1.2695],
        [-1.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.983505249023438
count = 259


 51%|█████▏    | 262/511 [00:14<00:13, 18.56it/s]

logits = tensor([[-8.7500e+00],
        [ 8.6484e+00],
        [ 8.5703e+00],
        [-1.0834e-03],
        [ 8.6172e+00],
        [-1.2373e+00],
        [-8.6328e+00],
        [ 8.5781e+00]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.102079391479492
count = 260
logits = tensor([[ 8.6016],
        [-8.5781],
        [-8.7344],
        [ 8.5547],
        [ 8.6250],
        [-8.7969],
        [-8.5312],
        [-8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.102079391479492
count = 261
logits = tensor([[ 8.5703],
        [ 8.6172],
        [-8.8828],
        [ 8.6094],
        [-1.0215],
        [-8.8828],
        [-8.7969],
        [-8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.268247604370117
count = 262
logits = tensor([[ 8.3203],
        [ 8.6172],
        [-8.7344],
        [ 8.5625],
        [ 8.5312],
        [-8.7812],
        [-0.6553],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.320554733276367
count = 

 52%|█████▏    | 266/511 [00:14<00:12, 18.89it/s]

logits = tensor([[-8.8438],
        [-8.8438],
        [-0.3523],
        [ 8.6094],
        [ 8.6094],
        [ 8.6016],
        [-1.1836],
        [-8.3359]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.464567184448242
count = 264
logits = tensor([[-1.1494],
        [ 8.6094],
        [ 8.5547],
        [ 8.5391],
        [ 8.5625],
        [ 8.5469],
        [-8.4297],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.498929977416992
count = 265
logits = tensor([[-8.8125],
        [-8.8125],
        [-1.2285],
        [-8.8516],
        [ 8.5469],
        [ 8.6172],
        [-8.7578],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.684598922729492
count = 266
logits = tensor([[-1.1504],
        [ 8.5547],
        [ 8.3281],
        [-8.8281],
        [-8.7344],
        [ 8.5781],
        [ 8.6172],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.862760543823242
count = 267


 53%|█████▎    | 270/511 [00:14<00:12, 18.95it/s]

logits = tensor([[ 8.6250],
        [ 8.5625],
        [-0.9795],
        [-1.0898],
        [ 8.3594],
        [-8.7656],
        [ 8.5781],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.197416305541992
count = 268
logits = tensor([[ 8.6250],
        [ 8.5469],
        [ 8.6172],
        [ 8.5938],
        [-1.0625],
        [-1.1924],
        [ 8.6016],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.267667770385742
count = 269
logits = tensor([[-1.1699],
        [-8.6250],
        [-8.8516],
        [-8.8281],
        [-8.8984],
        [ 8.5703],
        [-8.6250],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.447721481323242
count = 270
logits = tensor([[ 8.6562],
        [ 8.6250],
        [ 8.5547],
        [-1.0391],
        [ 8.5938],
        [ 8.6172],
        [-8.5781],
        [-8.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.485563278198242
count = 271


 54%|█████▎    | 274/511 [00:14<00:12, 19.01it/s]

logits = tensor([[-1.1885],
        [ 8.5938],
        [-1.0010],
        [ 8.4531],
        [-8.8047],
        [-8.7422],
        [ 8.5781],
        [-1.1631]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.717008590698242
count = 272
logits = tensor([[ 8.5781],
        [ 8.5938],
        [-8.8516],
        [ 8.6328],
        [ 8.6094],
        [-8.7344],
        [ 8.5938],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.717008590698242
count = 273
logits = tensor([[-8.8984],
        [ 8.6406],
        [-8.7500],
        [-8.7344],
        [-8.6406],
        [-8.7188],
        [-1.3984],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.744611740112305
count = 274
logits = tensor([[ 8.6094],
        [ 8.5781],
        [ 8.5938],
        [ 8.5938],
        [ 8.6484],
        [ 8.4531],
        [-1.2148],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.77711296081543
count = 275


 54%|█████▍    | 278/511 [00:15<00:12, 19.08it/s]

logits = tensor([[-8.7734],
        [ 8.5547],
        [ 8.5938],
        [-8.8281],
        [-8.8359],
        [ 8.6172],
        [ 8.6172],
        [-8.8047]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.77711296081543
count = 276
logits = tensor([[ 8.6172],
        [ 8.5938],
        [ 8.6406],
        [-8.8281],
        [ 8.5625],
        [ 8.5859],
        [ 8.5781],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.77711296081543
count = 277
logits = tensor([[ 8.5312],
        [ 8.5625],
        [-8.7266],
        [-8.6953],
        [-8.8047],
        [-8.7812],
        [ 8.5703],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.77711296081543
count = 278
logits = tensor([[-8.7266],
        [ 8.6328],
        [ 8.6094],
        [ 8.5391],
        [-1.0254],
        [-1.1914],
        [-8.6875],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.848554611206055
count = 279


 55%|█████▌    | 282/511 [00:15<00:12, 18.92it/s]

logits = tensor([[ 8.6250],
        [-1.3174],
        [-8.7188],
        [-8.7188],
        [ 8.5938],
        [ 8.5156],
        [ 8.6016],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.87818717956543
count = 280
logits = tensor([[-8.6562],
        [-8.8906],
        [ 8.6094],
        [ 8.6172],
        [-1.2236],
        [-8.7188],
        [ 8.6094],
        [-8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.91041374206543
count = 281
logits = tensor([[ 8.6016],
        [ 8.5859],
        [ 8.4922],
        [-8.9219],
        [-8.7812],
        [-1.3662],
        [ 8.6172],
        [-1.1104]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.974348068237305
count = 282
logits = tensor([[ 8.5938],
        [ 8.6172],
        [-8.8203],
        [-8.7891],
        [ 8.5859],
        [ 8.5312],
        [-8.8906],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.974348068237305
count = 283


 56%|█████▌    | 286/511 [00:15<00:11, 19.08it/s]

logits = tensor([[ 8.6250],
        [ 8.5703],
        [-8.6797],
        [ 8.4453],
        [ 8.6094],
        [ 8.5938],
        [-0.8442],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.019025802612305
count = 284
logits = tensor([[ 8.5625],
        [ 8.5625],
        [ 8.5547],
        [-8.8672],
        [-8.7969],
        [-1.1426],
        [-8.8906],
        [-8.8672]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.19648551940918
count = 285
logits = tensor([[ 8.5234],
        [-1.3350],
        [-8.8984],
        [-8.8516],
        [ 8.6250],
        [-8.8750],
        [ 8.6016],
        [-1.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.425474166870117
count = 286
logits = tensor([[ 8.5781],
        [ 8.6562],
        [-8.8281],
        [ 8.5938],
        [-1.2383],
        [ 8.5859],
        [ 8.5938],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.457304000854492
count = 287


 57%|█████▋    | 290/511 [00:15<00:11, 19.16it/s]

logits = tensor([[-8.3359],
        [ 8.6016],
        [-8.6094],
        [ 8.3828],
        [-1.3301],
        [ 8.5547],
        [ 8.6094],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.48664665222168
count = 288
logits = tensor([[ 8.5781],
        [-1.1934],
        [-8.8125],
        [ 8.5469],
        [ 8.5938],
        [-1.1230],
        [-1.2100],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.88789176940918
count = 289
logits = tensor([[ 8.6172],
        [-8.4844],
        [ 8.5781],
        [ 8.2578],
        [-8.7109],
        [ 8.3359],
        [ 8.6484],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.88789176940918
count = 290
logits = tensor([[ 8.5938],
        [ 8.5859],
        [ 8.5469],
        [-8.7500],
        [ 8.6172],
        [ 8.5859],
        [-8.8125],
        [-1.2168]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.92030143737793
count = 291


 58%|█████▊    | 294/511 [00:16<00:11, 18.66it/s]

logits = tensor([[-1.2139],
        [-8.7734],
        [-1.2588],
        [ 8.5938],
        [ 8.6016],
        [ 8.5625],
        [ 8.6094],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.984052658081055
count = 292
logits = tensor([[-1.1865],
        [-8.6406],
        [ 8.5859],
        [-8.8359],
        [ 8.4609],
        [-8.8047],
        [ 8.6094],
        [-8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.01728630065918
count = 293
logits = tensor([[ 8.5859],
        [-8.8594],
        [-8.7109],
        [-8.7031],
        [ 8.5781],
        [ 8.5234],
        [ 8.6172],
        [-8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.01728630065918
count = 294
logits = tensor([[ 8.5156],
        [-8.8438],
        [ 8.6328],
        [ 8.5781],
        [-8.7578],
        [ 8.5781],
        [ 8.6172],
        [-1.1348]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.193952560424805
count = 295


 58%|█████▊    | 298/511 [00:16<00:11, 19.09it/s]

logits = tensor([[-8.6016],
        [-8.9062],
        [-8.8828],
        [ 8.5312],
        [-0.8652],
        [ 8.5156],
        [ 8.5859],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.23786735534668
count = 296
logits = tensor([[ 8.5703],
        [-0.9473],
        [ 8.5391],
        [ 8.5156],
        [-8.7500],
        [ 8.6016],
        [ 8.6016],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.39723014831543
count = 297
logits = tensor([[-8.5234],
        [ 8.5156],
        [ 8.5938],
        [-8.7891],
        [-0.0729],
        [-8.4688],
        [ 8.6172],
        [-8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.488492965698242
count = 298
logits = tensor([[-8.6328],
        [ 8.5859],
        [ 8.5469],
        [-8.8125],
        [-1.1807],
        [ 8.6094],
        [ 8.5234],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.521940231323242
count = 299


 59%|█████▉    | 302/511 [00:16<00:11, 18.89it/s]

logits = tensor([[ 8.6016],
        [-1.1895],
        [ 8.5938],
        [-8.7500],
        [ 8.5938],
        [ 8.6094],
        [-8.8594],
        [-8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.703855514526367
count = 300
logits = tensor([[-1.2119],
        [ 8.5469],
        [-8.8750],
        [ 8.5938],
        [ 8.6250],
        [ 8.5703],
        [ 8.4922],
        [-8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.736448287963867
count = 301
logits = tensor([[-8.8047],
        [ 8.6016],
        [ 8.5703],
        [-1.0879],
        [-8.7109],
        [-8.7500],
        [ 8.5859],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.772733688354492
count = 302
logits = tensor([[ 8.5859],
        [ 8.5781],
        [-8.5625],
        [-8.8281],
        [-8.7109],
        [-1.2188],
        [ 8.6016],
        [-0.0107]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.892476081848145
count = 303


 60%|█████▉    | 306/511 [00:16<00:10, 18.92it/s]

logits = tensor([[-1.1748],
        [ 8.5547],
        [-8.7578],
        [ 8.5781],
        [-8.7656],
        [-8.7578],
        [ 8.5781],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.926106452941895
count = 304
logits = tensor([[ 8.6094],
        [ 8.6328],
        [ 8.6094],
        [ 8.5625],
        [-8.7500],
        [ 8.6094],
        [ 8.6250],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.926106452941895
count = 305
logits = tensor([[ 8.5938],
        [-8.7500],
        [ 8.5938],
        [ 8.5625],
        [ 8.5938],
        [ 8.5625],
        [-8.6875],
        [ 8.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.926106452941895
count = 306
logits = tensor([[ 8.2188],
        [-8.8672],
        [ 8.6016],
        [-8.6797],
        [ 8.6172],
        [-8.0547],
        [ 8.5078],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.926106452941895
count = 307


 61%|██████    | 310/511 [00:16<00:10, 18.66it/s]

logits = tensor([[-8.8750],
        [ 8.6094],
        [ 8.5703],
        [ 8.6016],
        [-1.0273],
        [-8.6250],
        [ 8.6328],
        [-8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.964314460754395
count = 308
logits = tensor([[-0.8979],
        [-8.6797],
        [ 8.5859],
        [-8.8438],
        [ 8.6016],
        [-8.8047],
        [ 8.5469],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.00700855255127
count = 309
logits = tensor([[-8.7812],
        [-8.8828],
        [ 8.6172],
        [-8.6250],
        [ 8.5938],
        [ 8.6328],
        [-8.6484],
        [-8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.00700855255127
count = 310
logits = tensor([[ 8.5781],
        [ 8.5938],
        [ 8.5469],
        [-8.8359],
        [-8.7734],
        [ 8.3281],
        [-8.7969],
        [-1.1865]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.040242195129395
count = 311


 61%|██████▏   | 314/511 [00:17<00:10, 18.55it/s]

logits = tensor([[-8.8672],
        [-1.1201],
        [ 8.5859],
        [-8.7188],
        [-8.8750],
        [-8.8594],
        [-8.8047],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.075520515441895
count = 312
logits = tensor([[ 8.5859],
        [-0.8232],
        [ 8.5938],
        [-8.8516],
        [ 8.6094],
        [ 8.6016],
        [ 8.5781],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.223958015441895
count = 313
logits = tensor([[-8.6641],
        [ 8.6094],
        [ 8.5938],
        [-1.1992],
        [-8.7031],
        [-1.2119],
        [-8.8828],
        [-8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.440999031066895
count = 314
logits = tensor([[-1.1377],
        [-8.5781],
        [-1.2197],
        [-0.9897],
        [-8.6562],
        [ 8.5625],
        [-8.8672],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.842183113098145
count = 315


 62%|██████▏   | 318/511 [00:17<00:10, 18.65it/s]

logits = tensor([[ 8.6016],
        [ 8.5938],
        [-8.8125],
        [ 8.5938],
        [-8.7578],
        [ 8.5781],
        [ 8.6250],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.842183113098145
count = 316
logits = tensor([[-1.0596],
        [-8.8750],
        [-1.1289],
        [ 8.6328],
        [ 8.5703],
        [-8.6250],
        [-8.8281],
        [-8.8516]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.055500984191895
count = 317
logits = tensor([[ 8.5234],
        [-8.8125],
        [ 8.5938],
        [ 8.5703],
        [ 8.5859],
        [ 8.6016],
        [-1.2168],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.087910652160645
count = 318
logits = tensor([[ 8.5781],
        [ 8.6172],
        [-8.7578],
        [-1.2441],
        [ 8.5938],
        [-8.8984],
        [-8.8906],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.11955738067627
count = 319


 63%|██████▎   | 322/511 [00:17<00:10, 18.26it/s]

logits = tensor([[ 8.5469],
        [-0.9873],
        [-0.5679],
        [-8.7578],
        [ 8.6094],
        [ 8.6094],
        [-8.8750],
        [-1.0293]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.324482917785645
count = 320
logits = tensor([[-8.7422],
        [ 8.5781],
        [-8.2812],
        [-8.8672],
        [ 8.6094],
        [ 8.5781],
        [ 8.5781],
        [ 8.5156]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.324482917785645
count = 321
logits = tensor([[ 8.5469],
        [ 8.6406],
        [ 8.5469],
        [ 8.6328],
        [ 8.6172],
        [-8.8047],
        [ 8.5547],
        [-8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.324482917785645
count = 322
logits = tensor([[-8.6797],
        [-8.6875],
        [-8.7109],
        [ 8.6016],
        [-8.9141],
        [-8.7109],
        [ 8.6562],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.324482917785645
count = 323


 64%|██████▍   | 326/511 [00:17<00:09, 18.59it/s]

logits = tensor([[ 8.6328],
        [-1.2119],
        [-1.1113],
        [ 8.6094],
        [ 8.6172],
        [-8.8359],
        [ 8.6016],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.54411792755127
count = 324
logits = tensor([[-8.7656],
        [-1.0752],
        [ 8.5938],
        [-1.2148],
        [-8.6016],
        [ 8.5703],
        [ 8.5625],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.747761726379395
count = 325
logits = tensor([[ 8.6016],
        [ 8.5859],
        [-8.8828],
        [ 8.6016],
        [-8.5234],
        [-8.8750],
        [-0.9458],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.78880786895752
count = 326
logits = tensor([[ 8.6328],
        [ 8.5547],
        [-1.1973],
        [ 8.5938],
        [ 8.6172],
        [-0.9028],
        [-1.2295],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.00926685333252
count = 327


 65%|██████▍   | 330/511 [00:17<00:09, 18.45it/s]

logits = tensor([[-8.6172],
        [ 8.5547],
        [ 8.5859],
        [-8.9141],
        [-8.7578],
        [ 8.3672],
        [ 8.6328],
        [ 8.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.00926685333252
count = 328
logits = tensor([[8.6094],
        [8.5703],
        [8.5781],
        [8.6016],
        [8.4922],
        [8.5938],
        [8.5859],
        [8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.00926685333252
count = 329
logits = tensor([[ 8.6328],
        [ 8.6328],
        [-8.3984],
        [-1.1318],
        [-8.8984],
        [-8.5312],
        [ 8.5703],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.04417896270752
count = 330
logits = tensor([[-1.1865],
        [-8.8516],
        [-8.7734],
        [ 8.5859],
        [-8.7656],
        [ 8.5938],
        [ 8.5781],
        [-1.1084]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.113057136535645
count = 331


 65%|██████▌   | 334/511 [00:18<00:09, 18.34it/s]

logits = tensor([[-8.8906],
        [ 8.6016],
        [ 8.5938],
        [ 8.6016],
        [-1.3936],
        [ 8.6094],
        [ 8.5312],
        [ 8.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.314946174621582
count = 332
logits = tensor([[-8.8672],
        [-1.2129],
        [-8.7891],
        [-8.8594],
        [ 8.6250],
        [ 8.5625],
        [-0.9541],
        [-1.0137]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.672825813293457
count = 333
logits = tensor([[-1.1426],
        [ 8.5625],
        [-7.9414],
        [ 8.5938],
        [ 8.5859],
        [ 8.5547],
        [ 8.5859],
        [-1.2100]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.740056037902832
count = 334
logits = tensor([[-8.7500],
        [ 8.5547],
        [ 8.5078],
        [ 8.6016],
        [ 8.6172],
        [ 8.5391],
        [ 8.5703],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.740056037902832
count = 335


 66%|██████▌   | 338/511 [00:18<00:09, 18.55it/s]

logits = tensor([[ 8.5781],
        [-8.8125],
        [ 8.3359],
        [ 8.5547],
        [-1.0312],
        [-1.1016],
        [-0.9326],
        [-8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.855473518371582
count = 336
logits = tensor([[-1.1660],
        [-1.1523],
        [ 8.5938],
        [ 8.5078],
        [ 8.5469],
        [-8.7109],
        [-1.1904],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.105778694152832
count = 337
logits = tensor([[-8.5781],
        [-8.7578],
        [-8.7188],
        [ 8.5938],
        [ 8.6016],
        [-1.1738],
        [-8.7500],
        [-1.2119]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.323491096496582
count = 338
logits = tensor([[-8.8125],
        [-8.8516],
        [-1.1436],
        [-8.8672],
        [-8.8516],
        [-8.5078],
        [ 8.5234],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.358036994934082
count = 339


 67%|██████▋   | 342/511 [00:18<00:09, 18.54it/s]

logits = tensor([[ 7.0117],
        [ 8.6094],
        [-8.7109],
        [ 8.6094],
        [-8.8438],
        [ 8.5938],
        [ 8.5703],
        [-0.3975]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.348576486110687
count = 340
logits = tensor([[ 8.5312],
        [-8.8438],
        [-8.7891],
        [-8.8750],
        [-1.1445],
        [-8.8359],
        [ 8.6016],
        [-8.7188]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.383122384548187
count = 341
logits = tensor([[ 8.6094],
        [ 8.6328],
        [-8.8750],
        [ 8.5547],
        [ 8.5078],
        [ 8.5625],
        [-8.7500],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.383122384548187
count = 342
logits = tensor([[ 8.6094],
        [-1.2285],
        [-1.2168],
        [-8.6562],
        [ 8.5547],
        [ 8.5859],
        [-0.3181],
        [-7.7539]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.555760324001312
count = 343


 68%|██████▊   | 346/511 [00:18<00:08, 18.59it/s]

logits = tensor([[ 8.6172],
        [ 8.6172],
        [-1.1426],
        [-8.6562],
        [-8.8516],
        [ 8.5000],
        [-1.1875],
        [-1.1201]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.807347238063812
count = 344
logits = tensor([[ 8.5312],
        [-8.7891],
        [-1.0771],
        [-8.8516],
        [ 8.6172],
        [-1.3779],
        [-8.7500],
        [ 8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.0443314909935
count = 345
logits = tensor([[ 8.6328],
        [-1.0195],
        [-8.8594],
        [-1.2109],
        [ 8.6094],
        [-8.6953],
        [ 8.6328],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.115467965602875
count = 346
logits = tensor([[ 8.5859],
        [ 8.6172],
        [-1.0195],
        [-8.6797],
        [ 8.6094],
        [-8.7500],
        [-8.7344],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.28145307302475
count = 347


 68%|██████▊   | 350/511 [00:19<00:08, 18.70it/s]

logits = tensor([[ 8.5703],
        [ 8.6172],
        [-8.4062],
        [-8.6328],
        [ 8.5938],
        [ 8.5234],
        [-8.7578],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.28145307302475
count = 348
logits = tensor([[-8.4766],
        [-8.7109],
        [-8.8359],
        [-8.6641],
        [-8.7656],
        [-8.6797],
        [-8.8516],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.28145307302475
count = 349
logits = tensor([[-8.5391],
        [-8.6641],
        [-8.7031],
        [ 8.5703],
        [-0.8774],
        [-8.8672],
        [-1.0967],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.470631539821625
count = 350
logits = tensor([[-1.1094],
        [-8.4297],
        [ 8.5625],
        [-8.7812],
        [-8.3906],
        [-8.8984],
        [ 8.6016],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.644947946071625
count = 351


 69%|██████▉   | 354/511 [00:19<00:08, 18.79it/s]

logits = tensor([[ 8.5859],
        [-8.8125],
        [-8.8281],
        [-8.6875],
        [-8.6797],
        [ 8.5625],
        [-8.7578],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.644947946071625
count = 352
logits = tensor([[ 8.5391],
        [-8.8125],
        [ 8.6172],
        [ 8.1016],
        [ 8.5781],
        [-8.6953],
        [ 8.5625],
        [ 8.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.644947946071625
count = 353
logits = tensor([[ 8.5625],
        [ 8.5938],
        [ 8.5625],
        [-8.5156],
        [-8.7812],
        [ 8.5078],
        [ 8.6094],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.644947946071625
count = 354
logits = tensor([[ 8.5859],
        [-0.2507],
        [-8.8828],
        [ 8.5703],
        [ 8.5859],
        [-8.7969],
        [ 8.5547],
        [-0.7764]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.7955521941185
count = 355


 70%|███████   | 358/511 [00:19<00:08, 18.56it/s]

logits = tensor([[-1.1533],
        [ 8.5859],
        [ 8.6250],
        [ 8.5547],
        [-8.8828],
        [-8.7891],
        [ 8.6250],
        [-8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.829823434352875
count = 356
logits = tensor([[ 8.5391],
        [ 8.6172],
        [ 8.5391],
        [-8.8203],
        [-8.7578],
        [-8.7109],
        [-8.7500],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.829823434352875
count = 357
logits = tensor([[-8.6562],
        [ 8.5703],
        [-1.1143],
        [-1.2031],
        [ 8.5859],
        [ 8.6016],
        [-1.0879],
        [-8.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.073719918727875
count = 358
logits = tensor([[ 8.6328],
        [ 8.6484],
        [-8.9141],
        [-7.9727],
        [ 8.5547],
        [-8.6875],
        [ 8.6250],
        [-8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.073719918727875
count = 359


 71%|███████   | 362/511 [00:19<00:08, 18.46it/s]

logits = tensor([[-8.5859],
        [ 8.5859],
        [ 8.6172],
        [ 8.6016],
        [-8.9141],
        [-8.9062],
        [ 8.5703],
        [-8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.073719918727875
count = 360
logits = tensor([[-8.6953],
        [ 8.5859],
        [-8.6172],
        [-8.7344],
        [-8.6953],
        [-1.1006],
        [-8.8672],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.109639108181
count = 361
logits = tensor([[ 8.6094],
        [-8.7656],
        [-8.6797],
        [-8.8438],
        [ 8.6328],
        [-8.4062],
        [-8.7422],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.109639108181
count = 362
logits = tensor([[ 8.6094],
        [-1.2051],
        [ 8.5547],
        [-8.5703],
        [ 8.5547],
        [ 8.5156],
        [-8.7656],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.14241498708725
count = 363


 72%|███████▏  | 366/511 [00:19<00:07, 18.37it/s]

logits = tensor([[ 8.6250],
        [ 8.5781],
        [-8.7734],
        [-1.1914],
        [ 8.5938],
        [-8.8672],
        [-8.7656],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.175557076931
count = 364
logits = tensor([[-1.1494],
        [-0.9985],
        [ 8.5625],
        [ 8.5938],
        [ 8.6016],
        [ 8.5703],
        [ 8.5703],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.517598092556
count = 365
logits = tensor([[ 8.5391],
        [ 8.6094],
        [ 8.6172],
        [ 8.5391],
        [-8.8438],
        [ 8.6016],
        [ 8.6328],
        [ 8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.517598092556
count = 366
logits = tensor([[-8.6953],
        [-8.8438],
        [ 8.5625],
        [ 8.6172],
        [ 8.6094],
        [-8.7578],
        [ 8.5469],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.517598092556
count = 367


 72%|███████▏  | 370/511 [00:20<00:07, 18.71it/s]

logits = tensor([[ 8.6016],
        [-8.7734],
        [ 8.6172],
        [ 8.6094],
        [-8.8281],
        [-8.7031],
        [-8.7734],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.517598092556
count = 368
logits = tensor([[ 8.6094],
        [-8.6094],
        [ 8.6094],
        [ 8.5391],
        [ 8.6172],
        [-8.8047],
        [-8.7188],
        [-8.7031]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.517598092556
count = 369
logits = tensor([[ 8.5938],
        [ 8.5547],
        [ 8.5625],
        [ 8.5859],
        [-8.8594],
        [ 8.5234],
        [-0.9722],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.679188668727875
count = 370
logits = tensor([[-8.7188],
        [ 8.5469],
        [-8.6172],
        [ 8.5547],
        [ 8.5781],
        [ 8.6562],
        [ 8.5625],
        [ 8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.679188668727875
count = 371


 73%|███████▎  | 374/511 [00:20<00:07, 18.70it/s]

logits = tensor([[-8.8281],
        [ 8.6484],
        [-1.2168],
        [-1.0576],
        [ 8.5938],
        [ 8.6016],
        [-1.1670],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.08076947927475
count = 372
logits = tensor([[ 8.5312],
        [-1.3828],
        [-1.1738],
        [-0.8633],
        [-8.7656],
        [ 8.5703],
        [-1.2246],
        [ 8.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.473256051540375
count = 373
logits = tensor([[ 8.5859],
        [ 8.6094],
        [-8.1094],
        [ 8.5781],
        [ 8.5547],
        [-8.7188],
        [ 8.5703],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.473256051540375
count = 374
logits = tensor([[-8.7656],
        [-8.8281],
        [-7.8594],
        [-8.8594],
        [ 8.5781],
        [-8.7578],
        [-8.5469],
        [-8.7109]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.473256051540375
count = 375


 74%|███████▍  | 378/511 [00:20<00:07, 18.73it/s]

logits = tensor([[-1.0947],
        [ 8.5781],
        [ 8.6172],
        [-8.6641],
        [-8.0625],
        [ 8.6094],
        [-8.8984],
        [ 8.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.50935834646225
count = 376
logits = tensor([[-8.8516],
        [ 8.6094],
        [ 8.5469],
        [-1.1572],
        [ 8.5234],
        [-1.2471],
        [-1.0176],
        [-1.0439]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.778492867946625
count = 377
logits = tensor([[ 8.6094],
        [-8.7500],
        [-1.1406],
        [ 8.6094],
        [ 8.6172],
        [ 8.5938],
        [-0.9946],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.85249799489975
count = 378
logits = tensor([[ 8.6016],
        [ 8.6094],
        [ 8.6094],
        [-8.7344],
        [-0.9277],
        [ 8.5469],
        [ 8.5234],
        [-8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.894154489040375
count = 379


 75%|███████▍  | 382/511 [00:20<00:06, 18.71it/s]

logits = tensor([[-8.6641],
        [-1.4658],
        [ 8.6484],
        [-8.7656],
        [ 8.6172],
        [-8.8047],
        [-8.7422],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.92007917165756
count = 380
logits = tensor([[ 8.6250],
        [ 8.6094],
        [ 8.6094],
        [-1.0850],
        [ 8.5781],
        [ 8.6562],
        [ 8.5781],
        [-1.0967]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.12955182790756
count = 381
logits = tensor([[-0.9170],
        [-8.7188],
        [ 8.5859],
        [ 8.6016],
        [-8.8047],
        [ 8.5469],
        [-8.7500],
        [-8.7500]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.28616803884506
count = 382
logits = tensor([[-8.7422],
        [ 8.5938],
        [ 8.5938],
        [ 8.6250],
        [-8.8594],
        [-8.7031],
        [-1.0410],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.45413678884506
count = 383


 76%|███████▌  | 386/511 [00:20<00:06, 18.57it/s]

logits = tensor([[ 8.6328],
        [-8.8672],
        [-8.8125],
        [-8.7578],
        [ 8.4531],
        [ 8.6094],
        [ 8.6016],
        [ 8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.45413678884506
count = 384
logits = tensor([[ 8.6328],
        [ 8.5859],
        [-8.7422],
        [ 8.5625],
        [ 8.5781],
        [ 8.6016],
        [ 8.6172],
        [-8.6719]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.45413678884506
count = 385
logits = tensor([[-8.8750],
        [ 8.5859],
        [-8.9297],
        [ 8.6172],
        [-8.8672],
        [ 8.6406],
        [ 8.6094],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.45413678884506
count = 386
logits = tensor([[-1.1553],
        [-8.6172],
        [ 8.6094],
        [ 8.5781],
        [-8.4609],
        [-8.7891],
        [-8.7812],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.63272565603256
count = 387


 76%|███████▋  | 390/511 [00:21<00:06, 19.04it/s]

logits = tensor([[ 8.5859],
        [-8.7891],
        [ 8.6172],
        [-8.4453],
        [-8.7188],
        [ 8.5703],
        [-8.5859],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.63272565603256
count = 388
logits = tensor([[-8.6875],
        [-8.9297],
        [ 8.5781],
        [ 8.6016],
        [-1.4219],
        [ 8.6016],
        [ 8.5469],
        [-1.1729]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.69345563650131
count = 389
logits = tensor([[-8.7188],
        [-0.5981],
        [-1.0195],
        [ 8.6172],
        [ 8.5703],
        [-0.9956],
        [-8.7500],
        [ 8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.02527326345444
count = 390
logits = tensor([[-8.7969],
        [ 8.6094],
        [-8.7891],
        [ 8.5859],
        [-8.8438],
        [ 8.5859],
        [-1.1055],
        [ 8.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.06100934743881
count = 391


 77%|███████▋  | 394/511 [00:21<00:06, 18.65it/s]

logits = tensor([[ 8.5938],
        [ 8.5938],
        [-8.8203],
        [-8.8203],
        [ 8.6016],
        [ 8.5781],
        [ 8.5781],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.06100934743881
count = 392
logits = tensor([[ 8.6250],
        [-1.1211],
        [ 8.6016],
        [-8.8203],
        [-8.6641],
        [-0.0297],
        [-8.7031],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.184777200222015
count = 393
logits = tensor([[ 8.5938],
        [-8.7188],
        [ 8.6562],
        [-8.8281],
        [-0.9917],
        [-8.5703],
        [ 8.3906],
        [-1.1992]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.25719541311264
count = 394
logits = tensor([[ 8.6016],
        [-0.9883],
        [-8.7266],
        [-8.7500],
        [-1.1357],
        [-1.1191],
        [ 8.5547],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.508812844753265
count = 395


 78%|███████▊  | 398/511 [00:21<00:06, 18.79it/s]

logits = tensor([[ 8.6172],
        [ 8.4219],
        [-8.6328],
        [ 8.5234],
        [ 8.5547],
        [ 8.6016],
        [ 8.5703],
        [ 8.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.508812844753265
count = 396
logits = tensor([[-8.5938],
        [-8.8438],
        [-8.6328],
        [-8.7031],
        [ 8.4922],
        [-8.9297],
        [-1.2451],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.54045957326889
count = 397
logits = tensor([[ 8.6250],
        [ 8.5703],
        [-1.0938],
        [-1.0459],
        [-8.8672],
        [ 8.5703],
        [-8.7891],
        [-8.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.750939309597015
count = 398
logits = tensor([[-8.7266],
        [ 8.6172],
        [ 8.6094],
        [ 8.5859],
        [ 8.5781],
        [ 8.6016],
        [ 8.5859],
        [-8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.750939309597015
count = 399


 79%|███████▊  | 402/511 [00:21<00:05, 18.87it/s]

logits = tensor([[-0.9785],
        [ 8.6094],
        [-8.6797],
        [ 8.5781],
        [-1.1113],
        [ 8.5703],
        [-8.8281],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.948693215847015
count = 400
logits = tensor([[ 8.5781],
        [ 8.6172],
        [-8.7969],
        [ 8.6094],
        [-8.8672],
        [ 8.5859],
        [-8.7344],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.948693215847015
count = 401
logits = tensor([[-8.8359],
        [-1.2314],
        [ 8.6250],
        [-1.1475],
        [-8.7031],
        [ 8.6016],
        [-8.8516],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.169091165065765
count = 402
logits = tensor([[ 8.6641],
        [ 8.6094],
        [-1.0566],
        [ 8.6250],
        [-8.8281],
        [-8.8281],
        [-8.9297],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.206383645534515
count = 403


 79%|███████▉  | 406/511 [00:22<00:05, 18.61it/s]

logits = tensor([[ 8.6328],
        [-8.6953],
        [ 8.5703],
        [ 8.6328],
        [ 8.6016],
        [ 8.5859],
        [-8.6641],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.206383645534515
count = 404
logits = tensor([[ 8.5938],
        [ 8.5703],
        [ 8.6016],
        [-0.9810],
        [-8.9297],
        [ 8.6016],
        [ 8.5547],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.246178567409515
count = 405
logits = tensor([[-1.0527],
        [-8.8203],
        [-1.1982],
        [-1.1562],
        [-8.7500],
        [ 8.6016],
        [-8.6797],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48229306936264
count = 406
logits = tensor([[-8.7734],
        [ 8.6094],
        [ 8.6094],
        [-8.8359],
        [ 8.6094],
        [-8.7812],
        [ 8.5234],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48229306936264
count = 407


 80%|████████  | 410/511 [00:22<00:05, 18.73it/s]

logits = tensor([[ 8.5391],
        [ 8.6250],
        [-1.1631],
        [ 8.5234],
        [-8.7188],
        [ 8.5547],
        [-8.8047],
        [-8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.66167539358139
count = 408
logits = tensor([[-8.7969],
        [-8.7422],
        [ 8.6094],
        [ 8.5547],
        [-8.7578],
        [-8.6328],
        [-1.1006],
        [-1.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.73064512014389
count = 409
logits = tensor([[ 8.5859],
        [-1.2256],
        [-8.7344],
        [ 8.5938],
        [ 8.6172],
        [-1.0000],
        [-1.0508],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.83953183889389
count = 410
logits = tensor([[ 8.5234],
        [-8.7578],
        [ 8.6016],
        [ 8.5703],
        [-8.8984],
        [ 8.5391],
        [-8.8281],
        [-1.2910]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.86994260549545
count = 411


 81%|████████  | 414/511 [00:22<00:05, 18.48it/s]

logits = tensor([[ 8.5547],
        [ 8.4766],
        [-8.7734],
        [ 8.6172],
        [-8.8516],
        [ 8.5938],
        [ 8.5859],
        [-8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.86994260549545
count = 412
logits = tensor([[-8.7891],
        [ 8.5938],
        [ 8.6172],
        [ 8.6406],
        [-1.0078],
        [ 8.5625],
        [ 8.5938],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.90885251760483
count = 413
logits = tensor([[ 8.5938],
        [ 8.5469],
        [ 8.6484],
        [ 8.5938],
        [ 8.6016],
        [-1.2383],
        [ 8.5938],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.0954675078392
count = 414
logits = tensor([[ 8.6172],
        [-8.8047],
        [ 8.5781],
        [ 8.6094],
        [ 8.3516],
        [-8.6719],
        [ 8.6562],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.0954675078392
count = 415


 82%|████████▏ | 418/511 [00:22<00:05, 18.41it/s]

logits = tensor([[ 8.1484],
        [ 8.5625],
        [ 8.5469],
        [-8.7969],
        [ 8.5312],
        [-0.9561],
        [-8.8281],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.13614743947983
count = 416
logits = tensor([[-8.8438],
        [ 8.6016],
        [-8.5859],
        [ 8.3750],
        [ 8.5938],
        [-8.6094],
        [-8.6875],
        [-1.2256]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.16837400197983
count = 417
logits = tensor([[ 8.5859],
        [ 8.5859],
        [-8.8906],
        [ 8.4922],
        [ 8.5938],
        [-0.9814],
        [ 8.5859],
        [-8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.20816892385483
count = 418
logits = tensor([[ 8.6172],
        [ 8.6016],
        [ 8.6094],
        [ 8.5625],
        [ 8.5547],
        [-8.6016],
        [-1.0596],
        [-0.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.39695066213608
count = 419


 83%|████████▎ | 422/511 [00:22<00:04, 18.49it/s]

logits = tensor([[ 8.5703],
        [ 8.6484],
        [ 8.5547],
        [ 8.5000],
        [ 8.5703],
        [ 8.6094],
        [ 8.6016],
        [-1.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.4314050078392
count = 420
logits = tensor([[-8.7891],
        [-8.5859],
        [ 8.6016],
        [-8.8125],
        [-8.7500],
        [ 8.6094],
        [-8.8047],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.4314050078392
count = 421
logits = tensor([[ 8.5703],
        [ 8.6016],
        [-8.7422],
        [ 8.1797],
        [-8.7266],
        [-8.7109],
        [ 8.6172],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.4314050078392
count = 422
logits = tensor([[ 8.5000],
        [-8.8984],
        [-8.8516],
        [ 8.5938],
        [ 8.5469],
        [-1.2051],
        [ 8.5391],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.46418088674545
count = 423


 83%|████████▎ | 426/511 [00:23<00:04, 18.60it/s]

logits = tensor([[ 8.6484],
        [-8.7031],
        [ 8.6016],
        [-8.6797],
        [-8.7188],
        [ 8.6016],
        [-0.9448],
        [-8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.50522702932358
count = 424
logits = tensor([[-1.2080],
        [ 8.6094],
        [-1.1357],
        [ 8.6094],
        [-8.6797],
        [-8.7266],
        [-1.3506],
        [-8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.89446347951889
count = 425
logits = tensor([[ 8.5625],
        [-8.8672],
        [ 8.5391],
        [-8.7344],
        [ 8.4297],
        [ 8.6172],
        [ 8.6016],
        [-8.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.89446347951889
count = 426
logits = tensor([[ 8.5938],
        [-1.0029],
        [ 8.5547],
        [-8.7812],
        [ 8.6250],
        [-8.7109],
        [ 8.5938],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.933556497097015
count = 427


 84%|████████▍ | 430/511 [00:23<00:04, 18.79it/s]

logits = tensor([[ 8.5625],
        [-8.6094],
        [-8.8672],
        [-8.7734],
        [ 8.1094],
        [ 8.6172],
        [ 8.3750],
        [ 8.5156]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.933556497097015
count = 428
logits = tensor([[ 8.5859],
        [ 8.6172],
        [-8.2891],
        [ 8.6016],
        [-8.6172],
        [-8.8359],
        [ 8.6250],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.933556497097015
count = 429
logits = tensor([[ 8.6172],
        [ 8.6406],
        [-8.7344],
        [-8.8281],
        [ 8.5781],
        [-1.4326],
        [ 8.5938],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.96027463674545
count = 430
logits = tensor([[-0.9927],
        [ 8.5312],
        [ 8.5859],
        [-8.7188],
        [-0.9238],
        [ 8.5078],
        [ 8.6016],
        [-8.7109]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.15696042776108
count = 431


 85%|████████▍ | 434/511 [00:23<00:04, 18.92it/s]

logits = tensor([[ 8.5703],
        [ 8.5078],
        [-8.7734],
        [ 8.5938],
        [-1.1582],
        [-8.8594],
        [-8.8047],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.19114011526108
count = 432
logits = tensor([[ 8.5156],
        [ 8.5625],
        [ 8.6172],
        [-1.2314],
        [ 8.5156],
        [-8.7500],
        [-8.7578],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.2231530547142
count = 433
logits = tensor([[ 8.6172],
        [ 8.4766],
        [-8.5859],
        [-8.8125],
        [-8.7344],
        [ 8.5469],
        [-0.6304],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.2764977812767
count = 434
logits = tensor([[ 8.5391],
        [-1.1943],
        [ 8.5859],
        [ 8.5938],
        [ 8.6094],
        [-8.6562],
        [-8.8203],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.30954831838608
count = 435


 86%|████████▌ | 438/511 [00:23<00:03, 18.88it/s]

logits = tensor([[-8.6641],
        [-1.2148],
        [-8.7500],
        [ 8.5547],
        [ 8.6016],
        [-8.7734],
        [ 8.5156],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.3420495390892
count = 436
logits = tensor([[-8.8672],
        [ 8.6172],
        [ 8.6172],
        [-8.7812],
        [ 8.5938],
        [-1.1455],
        [-8.8672],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.5197839140892
count = 437
logits = tensor([[ 8.6016],
        [ 8.5625],
        [ 8.6250],
        [ 8.5859],
        [-8.8906],
        [ 8.6250],
        [ 8.6016],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.5197839140892
count = 438
logits = tensor([[-8.8281],
        [ 8.6094],
        [-8.8750],
        [ 8.5781],
        [ 8.6094],
        [ 8.5703],
        [-8.6875],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.5197839140892
count = 439


 86%|████████▋ | 442/511 [00:23<00:03, 18.54it/s]

logits = tensor([[-8.9297],
        [ 8.6094],
        [-8.7812],
        [ 8.6094],
        [-8.6797],
        [-8.8203],
        [-1.1631],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.69916623830795
count = 440
logits = tensor([[-8.8281],
        [-8.7422],
        [-8.8125],
        [ 8.6094],
        [-8.6328],
        [ 8.5469],
        [ 8.5469],
        [ 8.5547]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.69916623830795
count = 441
logits = tensor([[-8.6641],
        [-8.7891],
        [ 8.6094],
        [ 8.5469],
        [ 8.5547],
        [ 8.6406],
        [-8.8594],
        [-8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.69916623830795
count = 442
logits = tensor([[-8.8125],
        [ 8.5938],
        [ 8.5703],
        [-8.8984],
        [ 8.5938],
        [ 8.4609],
        [ 8.6016],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.69916623830795
count = 443


 87%|████████▋ | 446/511 [00:24<00:03, 18.35it/s]

logits = tensor([[ 8.6016],
        [-8.8047],
        [-8.8750],
        [-8.8438],
        [ 8.5703],
        [ 8.5703],
        [-1.0947],
        [-8.7031]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.87210935354233
count = 444
logits = tensor([[-1.0537],
        [ 8.5625],
        [-8.3750],
        [-1.4121],
        [-8.7500],
        [ 8.6172],
        [ 8.5391],
        [-1.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.96967405080795
count = 445
logits = tensor([[-8.6875],
        [ 8.5703],
        [-8.8359],
        [-8.7734],
        [-8.7031],
        [-8.7188],
        [ 8.5938],
        [-1.1885]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.00290769338608
count = 446
logits = tensor([[-8.7109],
        [-8.8359],
        [ 8.6250],
        [ 8.5781],
        [-8.6719],
        [ 8.5625],
        [-1.1611],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.1821374297142
count = 447


 88%|████████▊ | 450/511 [00:24<00:03, 18.54it/s]

logits = tensor([[ 8.5469],
        [-1.0215],
        [ 8.6172],
        [-8.6953],
        [-8.7188],
        [ 8.5781],
        [-0.7559],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.26874631643295
count = 448
logits = tensor([[-1.0576],
        [ 8.6172],
        [ 8.5703],
        [ 8.5547],
        [-8.8203],
        [ 8.5234],
        [ 8.5625],
        [ 8.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.3060387969017
count = 449
logits = tensor([[-8.6641],
        [-8.8828],
        [ 8.6094],
        [ 8.5703],
        [ 8.5781],
        [ 8.5781],
        [-8.6875],
        [ 8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.3060387969017
count = 450
logits = tensor([[-8.7266],
        [ 8.6094],
        [ 8.6406],
        [ 8.5234],
        [ 8.6094],
        [-8.8281],
        [ 8.5625],
        [ 8.3203]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.3060387969017
count = 451


 89%|████████▉ | 454/511 [00:24<00:03, 18.47it/s]

logits = tensor([[ 8.5938],
        [-0.9717],
        [ 8.6250],
        [-8.7500],
        [-8.8594],
        [-8.8672],
        [ 8.5859],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.4676598906517
count = 452
logits = tensor([[ 8.5703],
        [ 8.6250],
        [-1.0576],
        [ 8.5859],
        [ 8.5859],
        [-8.7891],
        [ 8.5703],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.63715451955795
count = 453
logits = tensor([[ 8.5547],
        [-1.2197],
        [ 8.5703],
        [ 8.6250],
        [ 8.6016],
        [ 8.6172],
        [-8.8125],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.66947263479233
count = 454
logits = tensor([[ 8.0703],
        [-8.8281],
        [ 8.5859],
        [-8.7344],
        [ 8.6094],
        [-8.8359],
        [ 8.6406],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.66947263479233
count = 455


 90%|████████▉ | 458/511 [00:24<00:02, 18.43it/s]

logits = tensor([[-8.8906],
        [ 8.5625],
        [ 8.5703],
        [ 8.6172],
        [ 8.6094],
        [ 8.5547],
        [-1.1826],
        [ 8.5156]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.70291990041733
count = 456
logits = tensor([[-1.2129],
        [ 8.5156],
        [-8.6875],
        [ 8.5938],
        [-8.9062],
        [-8.7969],
        [ 8.5938],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.73542112112045
count = 457
logits = tensor([[ 8.6562],
        [-1.1045],
        [-7.6094],
        [-8.8906],
        [-8.7109],
        [ 8.6016],
        [ 8.5391],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.77127921581268
count = 458
logits = tensor([[-1.0957],
        [-8.5781],
        [ 8.6172],
        [-8.7266],
        [-1.2490],
        [ 8.6172],
        [ 8.6172],
        [-8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.97580802440643
count = 459


 90%|█████████ | 462/511 [00:25<00:02, 18.57it/s]

logits = tensor([[-8.7969],
        [ 8.6094],
        [-0.9805],
        [ 8.5469],
        [ 8.6172],
        [-8.8984],
        [ 8.5781],
        [ 8.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.01560294628143
count = 460
logits = tensor([[-8.9141],
        [ 8.5625],
        [-8.6953],
        [-1.1309],
        [-8.7188],
        [-8.8203],
        [ 8.5859],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.19187247753143
count = 461
logits = tensor([[-8.6016],
        [-8.7578],
        [-1.1416],
        [-8.5781],
        [-1.2158],
        [ 8.5703],
        [ 8.5859],
        [-8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.25901114940643
count = 462
logits = tensor([[ 8.1953],
        [ 8.5938],
        [ 8.5703],
        [-8.7734],
        [-8.8672],
        [ 8.1719],
        [ 8.6016],
        [-1.0332]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.29703605175018
count = 463


 91%|█████████ | 466/511 [00:25<00:02, 18.32it/s]

logits = tensor([[ 8.5938],
        [ 8.5859],
        [ 8.5625],
        [-0.9409],
        [ 8.6172],
        [-8.7812],
        [-8.6719],
        [-8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.33826529979706
count = 464
logits = tensor([[-8.6641],
        [ 8.5625],
        [-8.3594],
        [ 8.6016],
        [ 8.6406],
        [ 8.5781],
        [ 8.5000],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.33826529979706
count = 465
logits = tensor([[-8.7109],
        [ 8.6172],
        [ 8.5859],
        [ 8.5938],
        [ 8.6016],
        [-8.6016],
        [ 8.6250],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.33826529979706
count = 466
logits = tensor([[ 8.5859],
        [ 8.6094],
        [ 8.5781],
        [-8.7109],
        [-8.7344],
        [-8.8516],
        [-8.7578],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.33826529979706
count = 467


 92%|█████████▏| 470/511 [00:25<00:02, 18.46it/s]

logits = tensor([[ 8.5859],
        [-8.7500],
        [-8.7031],
        [ 8.6562],
        [ 8.6172],
        [ 8.6797],
        [-1.1455],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.45777213573456
count = 468
logits = tensor([[ 8.6406],
        [-8.7969],
        [ 8.6016],
        [-1.2148],
        [ 8.5312],
        [ 8.5938],
        [ 8.6250],
        [-8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.64212882518768
count = 469
logits = tensor([[-8.8438],
        [-8.6484],
        [-8.5625],
        [-8.8594],
        [ 8.6172],
        [-8.7188],
        [-8.7266],
        [-0.8818]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.79566276073456
count = 470
logits = tensor([[-8.7578],
        [ 8.6094],
        [-8.7109],
        [ 8.5859],
        [-1.3633],
        [-8.8828],
        [ 8.6406],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.82413566112518
count = 471


 93%|█████████▎| 474/511 [00:25<00:02, 18.48it/s]

logits = tensor([[ 8.5312],
        [-8.8125],
        [-1.2129],
        [-8.8125],
        [-8.8125],
        [ 8.6094],
        [ 8.5703],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.85663688182831
count = 472
logits = tensor([[ 8.5703],
        [ 8.5781],
        [ 8.5625],
        [ 8.6016],
        [ 8.6328],
        [ 8.6094],
        [-8.6953],
        [-8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.85663688182831
count = 473
logits = tensor([[ 8.6016],
        [-8.7812],
        [-8.6250],
        [ 8.4766],
        [-8.8359],
        [-0.2404],
        [-8.7188],
        [ 8.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.95919120311737
count = 474
logits = tensor([[-1.1455],
        [-1.1943],
        [-1.0020],
        [ 8.6016],
        [-8.7500],
        [-8.8047],
        [-1.2422],
        [ 8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.37813651561737
count = 475


 94%|█████████▎| 478/511 [00:25<00:01, 18.51it/s]

logits = tensor([[ 8.5234],
        [-8.9297],
        [ 8.5859],
        [-8.8906],
        [-8.7031],
        [ 8.5781],
        [-8.7031],
        [-8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.37813651561737
count = 476
logits = tensor([[ 8.6094],
        [ 8.5703],
        [-8.8281],
        [-1.1660],
        [ 8.5078],
        [ 8.5781],
        [ 8.6250],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.412041544914246
count = 477
logits = tensor([[-0.7847],
        [ 8.5391],
        [-8.7969],
        [-1.1885],
        [ 8.5625],
        [ 8.6016],
        [ 8.5859],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.590325236320496
count = 478
logits = tensor([[ 8.5938],
        [ 8.6172],
        [ 8.6094],
        [-8.5781],
        [-8.7734],
        [ 8.5703],
        [-1.0332],
        [-8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 42.757500529289246
count = 479


 94%|█████████▍| 482/511 [00:26<00:01, 18.53it/s]

logits = tensor([[-8.8438],
        [ 8.5938],
        [-0.9824],
        [-8.8672],
        [ 8.5703],
        [-8.9062],
        [-8.6641],
        [-0.8896]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.07436454296112
count = 480
logits = tensor([[ 8.6094],
        [ 8.6094],
        [ 8.5391],
        [ 8.6094],
        [-8.8750],
        [-8.7344],
        [-8.6484],
        [ 8.6250]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.07436454296112
count = 481
logits = tensor([[-8.8438],
        [-8.7344],
        [ 8.5781],
        [-8.8516],
        [-8.6641],
        [-8.6953],
        [ 8.6172],
        [ 8.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.07436454296112
count = 482
logits = tensor([[-1.2754],
        [ 8.6016],
        [ 8.5781],
        [ 8.6094],
        [ 8.5781],
        [ 8.6172],
        [-8.7188],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.105156779289246
count = 483


 95%|█████████▌| 486/511 [00:26<00:01, 18.44it/s]

logits = tensor([[ 8.5703],
        [-8.8672],
        [ 8.5859],
        [-8.7031],
        [-1.3809],
        [-8.9062],
        [-8.8906],
        [-8.7734]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.30585563182831
count = 484
logits = tensor([[ 8.6484],
        [-8.7969],
        [-8.6328],
        [ 8.6016],
        [-8.7578],
        [-8.8594],
        [-8.8359],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.30585563182831
count = 485
logits = tensor([[ 8.6016],
        [ 8.5781],
        [ 8.5781],
        [ 8.3438],
        [-8.8516],
        [-8.8359],
        [-8.8125],
        [-8.7344]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.30585563182831
count = 486
logits = tensor([[-1.1895],
        [ 8.6016],
        [-8.8047],
        [ 8.6094],
        [ 8.5781],
        [-8.7812],
        [ 8.5625],
        [-8.8047]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.33908927440643
count = 487


 96%|█████████▌| 490/511 [00:26<00:01, 18.50it/s]

logits = tensor([[ 8.6016],
        [-1.1338],
        [-8.5625],
        [-8.8672],
        [-8.8203],
        [ 8.6562],
        [-8.6953],
        [-8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.37400138378143
count = 488
logits = tensor([[ 8.5625],
        [ 8.6172],
        [-8.8047],
        [-8.7344],
        [ 8.5703],
        [ 8.5703],
        [ 8.6016],
        [-8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.37400138378143
count = 489
logits = tensor([[ 8.5547],
        [-8.7500],
        [ 8.5781],
        [-8.5312],
        [-0.9336],
        [ 8.5625],
        [-8.7344],
        [-8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.41538321971893
count = 490
logits = tensor([[-0.9077],
        [ 8.6016],
        [-8.5781],
        [-1.1309],
        [-8.6016],
        [-8.8203],
        [-1.1289],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 43.92359244823456
count = 491


 97%|█████████▋| 494/511 [00:26<00:00, 18.66it/s]

logits = tensor([[ 8.6328],
        [ 8.5547],
        [ 8.6094],
        [-1.1953],
        [-1.0244],
        [ 8.5781],
        [ 8.0781],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.27249991893768
count = 492
logits = tensor([[ 8.6016],
        [ 8.6172],
        [-8.6172],
        [ 8.6172],
        [-8.6250],
        [-1.1133],
        [ 8.6172],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.44712150096893
count = 493
logits = tensor([[-8.7891],
        [-8.7969],
        [-0.9404],
        [ 8.5859],
        [ 8.6094],
        [ 8.6250],
        [ 8.5938],
        [ 8.6562]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.60590445995331
count = 494
logits = tensor([[ 8.5938],
        [ 8.5547],
        [ 8.3125],
        [-8.6641],
        [ 8.5547],
        [-8.8594],
        [-8.7734],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.60590445995331
count = 495


 97%|█████████▋| 498/511 [00:26<00:00, 18.49it/s]

logits = tensor([[ 8.5625],
        [-8.6250],
        [-8.7500],
        [-1.1455],
        [ 8.5938],
        [-8.8281],
        [-8.5156],
        [ 8.5703]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.64045035839081
count = 496
logits = tensor([[ 8.5781],
        [-8.7188],
        [-8.2500],
        [ 8.5938],
        [ 8.5859],
        [ 8.5156],
        [ 8.5859],
        [-8.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.64045035839081
count = 497
logits = tensor([[ 8.5938],
        [-8.8672],
        [ 8.6094],
        [ 8.5625],
        [ 8.5469],
        [-8.7812],
        [ 8.5625],
        [ 8.6094]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.64045035839081
count = 498
logits = tensor([[-8.9141],
        [ 8.6016],
        [-8.7344],
        [-8.7656],
        [-8.8125],
        [ 8.5859],
        [-1.1357],
        [-1.1338]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.85215079784393
count = 499


 98%|█████████▊| 502/511 [00:27<00:00, 18.68it/s]

logits = tensor([[-1.1914],
        [ 8.6094],
        [ 8.6016],
        [ 8.5469],
        [ 8.6016],
        [ 8.5781],
        [ 8.6016],
        [-8.6797]], device='cuda:0', dtype=torch.float16)
mean_loss = 44.88529288768768
count = 500
logits = tensor([[-1.1670],
        [-8.8750],
        [ 8.5938],
        [-8.7422],
        [ 8.5312],
        [-8.8359],
        [ 8.5703],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.06507194042206
count = 501
logits = tensor([[ 8.6172],
        [-1.1582],
        [-1.1797],
        [ 8.6094],
        [ 8.6172],
        [ 8.5391],
        [ 8.6172],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.27756583690643
count = 502
logits = tensor([[ 8.6172],
        [-8.7812],
        [ 8.5859],
        [ 8.6016],
        [-8.7109],
        [ 8.6328],
        [ 8.5938],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.27756583690643
count = 503


 99%|█████████▉| 506/511 [00:27<00:00, 18.99it/s]

logits = tensor([[ 8.5938],
        [-8.8438],
        [ 8.6094],
        [-1.0566],
        [ 8.6094],
        [-0.8760],
        [ 8.6172],
        [ 8.5938]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.59992301464081
count = 504
logits = tensor([[ 8.5391],
        [ 8.6016],
        [-8.6406],
        [-1.2012],
        [ 8.5938],
        [ 8.6094],
        [ 8.5547],
        [ 8.5625]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.63279044628143
count = 505
logits = tensor([[ 8.6250],
        [-0.7993],
        [ 8.6094],
        [-8.6953],
        [-8.6797],
        [-8.7812],
        [ 8.6016],
        [ 8.6484]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.77909171581268
count = 506
logits = tensor([[ 8.2656],
        [ 8.6328],
        [-8.7500],
        [ 8.5859],
        [-1.1387],
        [ 8.6016],
        [-8.7734],
        [ 8.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 45.95615470409393
count = 507


100%|█████████▉| 510/511 [00:27<00:00, 19.07it/s]

logits = tensor([[-1.1289],
        [-8.7812],
        [ 8.5547],
        [ 8.6094],
        [-8.8203],
        [ 8.6172],
        [ 8.5938],
        [-1.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 46.03006827831268
count = 508
logits = tensor([[ 8.5469],
        [ 8.6172],
        [ 8.6016],
        [ 8.6172],
        [-8.7422],
        [ 8.6016],
        [ 8.6094],
        [-1.0576]], device='cuda:0', dtype=torch.float16)
mean_loss = 46.19956290721893
count = 509
logits = tensor([[ 8.4531],
        [-1.0947],
        [-8.7891],
        [-1.0488],
        [-8.8125],
        [-8.7969],
        [ 8.5312],
        [ 8.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 46.41007316112518
count = 510
logits = tensor([[ 8.6016],
        [-8.7734],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 46.41007316112518
count = 511


100%|██████████| 511/511 [00:27<00:00, 18.35it/s]



Epoch 2 complete! Validation Loss : 0.09082206098067551


 20%|██        | 307/1532 [00:47<03:07,  6.52it/s]


Iteration 306/1532 of epoch 3 complete. Loss : 0.04211420292365064 


 40%|████      | 613/1532 [01:34<02:16,  6.71it/s]


Iteration 612/1532 of epoch 3 complete. Loss : nan 


 60%|█████▉    | 919/1532 [02:21<01:31,  6.72it/s]


Iteration 918/1532 of epoch 3 complete. Loss : 0.03809342758471924 


 80%|███████▉  | 1225/1532 [03:09<00:46,  6.63it/s]


Iteration 1224/1532 of epoch 3 complete. Loss : 0.04007933213416121 


100%|█████████▉| 1531/1532 [03:56<00:00,  6.76it/s]


Iteration 1530/1532 of epoch 3 complete. Loss : 0.03387505192307906 


100%|██████████| 1532/1532 [03:56<00:00,  6.48it/s]
  1%|          | 3/511 [00:00<01:22,  6.19it/s]

logits = tensor([[ 9.0391],
        [ 8.9688],
        [-0.8564],
        [ 9.0703],
        [ 8.9922],
        [-9.1250],
        [ 8.9688],
        [ 8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.04425048828125
count = 1
logits = tensor([[-1.8408],
        [ 8.9375],
        [-8.9062],
        [-0.3564],
        [ 9.0234],
        [ 9.0234],
        [ 8.8906],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.1289520263671875
count = 2
logits = tensor([[ 9.0391],
        [ 8.9297],
        [-9.1406],
        [ 9.0156],
        [-8.9297],
        [-9.1719],
        [-0.6445],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.1817474365234375
count = 3
logits = tensor([[ 9.0469],
        [-9.1016],
        [-9.1484],
        [-9.0703],
        [ 8.9453],
        [-9.0859],
        [-9.1016],
        [-0.8403]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.2266082763671875
count = 4


  1%|▏         | 7/511 [00:00<00:43, 11.71it/s]

logits = tensor([[ 9.0391],
        [-9.0156],
        [ 8.8750],
        [ 9.0547],
        [ 9.0078],
        [-9.1172],
        [-9.0234],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.2266082763671875
count = 5
logits = tensor([[-9.1016],
        [-0.9609],
        [-0.9785],
        [ 9.0000],
        [ 9.0234],
        [ 8.9453],
        [-2.1094],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.32131195068359375
count = 6
logits = tensor([[ 9.0781],
        [ 9.0000],
        [ 8.2578],
        [-9.1250],
        [ 9.0469],
        [ 9.0938],
        [ 8.9688],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.32131195068359375
count = 7
logits = tensor([[ 8.9297],
        [-9.0000],
        [ 8.9922],
        [-9.1641],
        [ 8.9375],
        [-9.1641],
        [-9.0234],
        [-1.2100]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.35390472412109375
count = 8


  2%|▏         | 11/511 [00:01<00:33, 15.12it/s]

logits = tensor([[-9.1484],
        [ 8.9141],
        [ 8.9844],
        [ 8.6953],
        [ 9.0625],
        [ 8.9297],
        [ 9.0781],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.35390472412109375
count = 9
logits = tensor([[ 8.9219],
        [ 8.9219],
        [ 8.8125],
        [-9.1406],
        [ 8.8672],
        [ 9.0156],
        [-8.7266],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.35390472412109375
count = 10
logits = tensor([[ 8.9766],
        [-9.1328],
        [ 9.0312],
        [ 8.6875],
        [ 8.9922],
        [-1.3252],
        [-8.6562],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.38335418701171875
count = 11
logits = tensor([[-9.0781],
        [-8.4375],
        [-9.1484],
        [ 8.9453],
        [ 8.7422],
        [ 8.9375],
        [-9.1406],
        [ 8.8906]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.38335418701171875
count = 12


  3%|▎         | 15/511 [00:01<00:29, 17.03it/s]

logits = tensor([[-9.0859],
        [ 1.9307],
        [ 8.9375],
        [ 9.0625],
        [ 8.9922],
        [ 9.0547],
        [ 9.0391],
        [-9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.40023040771484375
count = 13
logits = tensor([[-0.5068],
        [ 9.0234],
        [ 8.9766],
        [ 8.8906],
        [ 0.0491],
        [-9.0938],
        [-9.0625],
        [-9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.5428085327148438
count = 14
logits = tensor([[-9.1719],
        [ 9.0234],
        [ 9.0078],
        [ 9.0312],
        [ 8.9609],
        [-1.8936],
        [-8.9531],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.5603256225585938
count = 15
logits = tensor([[ 8.9922],
        [-8.5469],
        [ 8.9688],
        [-1.3652],
        [ 8.9375],
        [-9.0156],
        [-9.0938],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.5887985229492188
count = 16


  4%|▎         | 19/511 [00:01<00:27, 17.85it/s]

logits = tensor([[ 8.9453],
        [-2.2773],
        [-9.1875],
        [ 8.9609],
        [ 8.8906],
        [-8.6797],
        [-9.0469],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.6009979248046875
count = 17
logits = tensor([[ 9.0469],
        [ 9.0156],
        [-9.1016],
        [ 8.9453],
        [ 9.0625],
        [ 0.0837],
        [ 9.0391],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.6825408935546875
count = 18
logits = tensor([[ 8.9844],
        [ 8.9219],
        [ 8.9531],
        [-9.1406],
        [ 9.0703],
        [ 9.0156],
        [ 8.9609],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.6825408935546875
count = 19
logits = tensor([[ 8.9141],
        [ 9.0547],
        [-9.1484],
        [ 8.9531],
        [ 8.9219],
        [ 4.4492],
        [ 8.9453],
        [-0.7646]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.7317876815795898
count = 20


  5%|▍         | 23/511 [00:01<00:26, 18.19it/s]

logits = tensor([[-9.1172],
        [ 8.9688],
        [ 9.0078],
        [ 8.9375],
        [-9.2188],
        [-0.5029],
        [ 8.8438],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.8538274765014648
count = 21
logits = tensor([[ 8.9844],
        [-9.1016],
        [ 9.0312],
        [-9.0156],
        [-9.0781],
        [-1.4912],
        [-0.0867],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.1577520370483398
count = 22
logits = tensor([[-9.1484],
        [ 9.0234],
        [-0.2751],
        [-0.7881],
        [-8.9375],
        [-9.0312],
        [ 9.0000],
        [-8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.2752447128295898
count = 23
logits = tensor([[ 8.9453],
        [-9.0312],
        [-9.1250],
        [-8.8359],
        [-9.1094],
        [ 9.0000],
        [-9.1406],
        [ 8.8672]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.2752447128295898
count = 24


  5%|▌         | 27/511 [00:01<00:26, 18.58it/s]

logits = tensor([[-0.8193],
        [-9.2109],
        [-9.0234],
        [ 8.9688],
        [-0.8110],
        [-9.1016],
        [ 8.9141],
        [-0.7939]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.5127019882202148
count = 25
logits = tensor([[-9.2109],
        [ 0.2252],
        [-9.0781],
        [ 8.8672],
        [ 8.9531],
        [ 8.6797],
        [ 8.9844],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.6142187118530273
count = 26
logits = tensor([[-9.1250],
        [ 9.0312],
        [ 8.9453],
        [-8.9531],
        [ 1.0869],
        [ 8.9609],
        [ 9.0312],
        [-9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.6505041122436523
count = 27
logits = tensor([[ 9.0312],
        [-9.0078],
        [ 8.9531],
        [-9.1328],
        [-9.1250],
        [ 9.0391],
        [-8.7031],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.6505041122436523
count = 28


  6%|▌         | 31/511 [00:02<00:25, 18.64it/s]

logits = tensor([[-8.9297],
        [ 9.0469],
        [-9.1094],
        [-9.0391],
        [-0.0183],
        [ 8.7734],
        [ 8.7031],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.7383012771606445
count = 29
logits = tensor([[ 8.5391],
        [-1.7461],
        [ 8.9062],
        [-9.2266],
        [ 9.0391],
        [-0.8306],
        [-1.2324],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.1576433181762695
count = 30
logits = tensor([[ 8.5859],
        [-0.6357],
        [-9.1797],
        [-9.0781],
        [ 8.9453],
        [ 8.8359],
        [ 9.0078],
        [-9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.2107439041137695
count = 31
logits = tensor([[-0.8579],
        [ 8.9375],
        [ 9.0156],
        [ 0.0224],
        [-9.1641],
        [ 8.9844],
        [-9.0469],
        [ 8.9219]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.342963218688965
count = 32


  7%|▋         | 35/511 [00:02<00:25, 18.67it/s]

logits = tensor([[-3.5020],
        [ 9.0312],
        [-9.1172],
        [-9.0469],
        [ 8.9531],
        [-1.1904],
        [ 8.8672],
        [ 8.7578]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8176698684692383
count = 33
logits = tensor([[-9.2031e+00],
        [-1.4873e+00],
        [-1.7204e-03],
        [-9.1484e+00],
        [ 9.0234e+00],
        [-9.1484e+00],
        [-2.9746e+00],
        [ 9.0312e+00]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.1217432022094727
count = 34
logits = tensor([[-9.1406],
        [-8.8047],
        [-9.2109],
        [-9.2109],
        [-9.0703],
        [ 8.9375],
        [-9.0781],
        [-1.3125]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.15157413482666
count = 35
logits = tensor([[ 8.8203],
        [-9.2188],
        [-9.0781],
        [ 3.4707],
        [ 8.9375],
        [-0.7837],
        [ 8.9531],
        [-9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.202479362487793
count = 36


  8%|▊         | 39/511 [00:02<00:25, 18.67it/s]

logits = tensor([[-9.1641],
        [ 9.0234],
        [ 0.3584],
        [-0.3528],
        [ 8.6172],
        [-0.4529],
        [ 9.0547],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.440913200378418
count = 37
logits = tensor([[-0.2128],
        [ 8.9609],
        [ 8.7031],
        [-9.1406],
        [ 8.9531],
        [-9.1719],
        [ 8.8906],
        [-9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.515009880065918
count = 38
logits = tensor([[ 8.9375],
        [ 8.9531],
        [ 8.2188],
        [ 8.9844],
        [-9.1641],
        [ 8.8984],
        [-8.9375],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.515009880065918
count = 39
logits = tensor([[ 9.0000],
        [ 8.9375],
        [ 8.8516],
        [-2.0215],
        [ 8.1172],
        [ 9.0312],
        [-8.6562],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.5305967330932617
count = 40


  8%|▊         | 43/511 [00:02<00:25, 18.62it/s]

logits = tensor([[ 9.0078],
        [-9.0781],
        [-9.0312],
        [-9.1484],
        [ 8.9922],
        [-9.1484],
        [-2.3457],
        [-1.5430]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.566248893737793
count = 41
logits = tensor([[-9.0938],
        [ 8.9609],
        [ 8.8672],
        [ 8.9375],
        [ 9.0078],
        [ 8.9766],
        [-9.1797],
        [-3.7227]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.5692644119262695
count = 42
logits = tensor([[ 8.9453],
        [-9.1406],
        [ 8.7578],
        [ 9.0312],
        [ 9.0312],
        [ 8.9531],
        [ 9.0234],
        [-8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.5692644119262695
count = 43
logits = tensor([[ 9.0078],
        [ 8.9609],
        [ 9.1016],
        [-1.2021],
        [ 8.7031],
        [-9.1016],
        [-9.1172],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.6021318435668945
count = 44


  9%|▉         | 47/511 [00:02<00:25, 18.11it/s]

logits = tensor([[-8.6641],
        [-9.0391],
        [ 8.9922],
        [ 8.7812],
        [ 9.0312],
        [ 9.0625],
        [-8.6406],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.6021318435668945
count = 45
logits = tensor([[ 9.0156],
        [ 8.9453],
        [ 8.9844],
        [-9.0703],
        [ 8.8906],
        [ 8.8125],
        [ 9.0078],
        [ 8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.6021318435668945
count = 46
logits = tensor([[-9.1875],
        [ 8.9375],
        [ 9.0000],
        [ 8.9922],
        [-9.1484],
        [-8.8750],
        [-8.9922],
        [ 8.9219]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.6021318435668945
count = 47
logits = tensor([[ 8.8984],
        [ 8.8281],
        [-0.5283],
        [-0.0135],
        [-9.1719],
        [ 9.0391],
        [ 8.9375],
        [-0.0624]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.830415725708008
count = 48


 10%|▉         | 51/511 [00:03<00:25, 18.32it/s]

logits = tensor([[ 9.0156],
        [-9.1562],
        [-9.1172],
        [-9.0234],
        [-9.0859],
        [ 1.4658],
        [ 9.0312],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.039567947387695
count = 49
logits = tensor([[ 9.0156],
        [-0.5195],
        [ 8.8672],
        [-9.1484],
        [-8.9766],
        [ 8.9766],
        [-9.0703],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.097917556762695
count = 50
logits = tensor([[ 8.6641],
        [ 9.0469],
        [-1.9941],
        [ 8.9062],
        [ 2.9160],
        [ 8.7656],
        [ 8.8984],
        [ 8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.484872817993164
count = 51
logits = tensor([[-9.1641],
        [ 8.9375],
        [ 8.5938],
        [ 8.9531],
        [ 8.8984],
        [-9.1562],
        [-9.0625],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.484872817993164
count = 52


 11%|█         | 55/511 [00:03<00:24, 18.35it/s]

logits = tensor([[ 9.0312],
        [-9.2031],
        [ 4.2812],
        [ 8.9766],
        [ 9.0312],
        [ 8.8828],
        [ 8.9062],
        [ 8.9219]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.486570358276367
count = 53
logits = tensor([[ 9.0000],
        [-9.1094],
        [ 8.5469],
        [-0.6758],
        [ 8.9609],
        [-9.0156],
        [-9.0078],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.537992477416992
count = 54
logits = tensor([[-8.8359],
        [-9.0156],
        [ 8.8828],
        [ 9.0156],
        [ 8.8984],
        [-9.0234],
        [ 8.9375],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.537992477416992
count = 55
logits = tensor([[ 9.0078],
        [ 9.0156],
        [-9.1484],
        [-0.9556],
        [ 9.0391],
        [-9.1250],
        [ 9.0000],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.578672409057617
count = 56


 12%|█▏        | 59/511 [00:03<00:24, 18.46it/s]

logits = tensor([[ 8.6172],
        [-9.0469],
        [ 9.0391],
        [ 9.0625],
        [-9.1719],
        [-9.1328],
        [ 8.9531],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.578672409057617
count = 57
logits = tensor([[ 8.9453],
        [-0.5776],
        [-9.1797],
        [ 8.9297],
        [-3.5703],
        [ 9.1016],
        [ 9.0234],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.637796401977539
count = 58
logits = tensor([[-9.1875],
        [-9.2031],
        [ 8.9766],
        [ 8.9609],
        [-0.0387],
        [-9.1172],
        [ 8.9453],
        [-8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.726865768432617
count = 59
logits = tensor([[-0.3198],
        [ 8.8984],
        [-8.9766],
        [ 8.2266],
        [-0.0830],
        [-9.1016],
        [ 9.0156],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.876646041870117
count = 60


 12%|█▏        | 63/511 [00:03<00:24, 18.36it/s]

logits = tensor([[ 8.9453],
        [ 0.0496],
        [ 8.8125],
        [-0.8569],
        [ 8.8828],
        [-9.1875],
        [ 9.0156],
        [ 8.5859]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.117765426635742
count = 61
logits = tensor([[-9.1328],
        [ 9.0547],
        [ 8.9922],
        [-9.1172],
        [-8.8125],
        [-0.3521],
        [-8.5000],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.228300094604492
count = 62
logits = tensor([[-8.5469],
        [-8.9844],
        [-0.9858],
        [-9.0234],
        [-9.1641],
        [-0.8994],
        [-1.5645],
        [-9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.334272384643555
count = 63
logits = tensor([[-9.0859],
        [ 9.0625],
        [-9.0938],
        [ 8.7656],
        [ 8.9453],
        [-9.0625],
        [ 9.0156],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.334272384643555
count = 64


 13%|█▎        | 67/511 [00:04<00:24, 18.47it/s]

logits = tensor([[ 8.9844],
        [-9.1328],
        [ 0.0500],
        [-0.5210],
        [ 8.9922],
        [ 9.0000],
        [-9.1953],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.47608757019043
count = 65
logits = tensor([[-9.1484],
        [-9.1875],
        [-9.0859],
        [-9.1797],
        [ 9.0703],
        [-2.3633],
        [-8.9141],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.487287521362305
count = 66
logits = tensor([[ 8.9766],
        [ 8.9922],
        [ 8.8672],
        [ 9.0078],
        [ 9.0312],
        [-1.6084],
        [ 8.8906],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.510099411010742
count = 67
logits = tensor([[ 9.0000],
        [-9.1172],
        [ 9.0234],
        [ 0.3921],
        [ 8.9453],
        [ 9.0625],
        [-2.3145],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.924688339233398
count = 68


 14%|█▍        | 71/511 [00:04<00:23, 18.56it/s]

logits = tensor([[-9.2031],
        [ 9.1016],
        [ 8.9453],
        [ 9.0391],
        [ 9.0078],
        [-9.0938],
        [-9.0469],
        [-0.4382]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.986883163452148
count = 69
logits = tensor([[ 9.0391],
        [-8.5547],
        [ 9.0156],
        [-2.4004],
        [-8.5781],
        [-9.1641],
        [-9.2344],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.997747421264648
count = 70
logits = tensor([[ 8.9766],
        [-0.4973],
        [-9.1641],
        [-9.1797],
        [-1.2969],
        [ 9.0234],
        [-0.7046],
        [-8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.387762069702148
count = 71
logits = tensor([[-9.1484],
        [-9.0781],
        [ 8.9844],
        [ 8.9453],
        [-9.0391],
        [-1.9395],
        [-9.1016],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.646963119506836
count = 72


 15%|█▍        | 75/511 [00:04<00:23, 18.93it/s]

logits = tensor([[ 8.9531],
        [-9.2266],
        [-0.9941],
        [ 8.9922],
        [ 8.9844],
        [ 8.5234],
        [ 8.9297],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.686330795288086
count = 73
logits = tensor([[ 9.0078],
        [-9.1016],
        [ 9.0234],
        [-9.0938],
        [ 9.0547],
        [ 8.9609],
        [-9.0469],
        [-8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.686330795288086
count = 74
logits = tensor([[ 9.0234],
        [ 9.0234],
        [-9.0156],
        [-9.0781],
        [ 9.0469],
        [ 9.0547],
        [-0.2145],
        [-8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.760244369506836
count = 75
logits = tensor([[ 9.0234],
        [ 8.9766],
        [ 9.0000],
        [-0.9526],
        [-2.0469],
        [ 9.0000],
        [-8.8906],
        [-0.6138]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.870222091674805
count = 76


 15%|█▌        | 79/511 [00:04<00:23, 18.64it/s]

logits = tensor([[ 8.8906],
        [ 9.0000],
        [-0.6665],
        [ 9.0078],
        [ 8.9453],
        [ 8.9297],
        [-9.2031],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.922040939331055
count = 77
logits = tensor([[-9.0000],
        [-9.1797],
        [ 8.9219],
        [ 9.0234],
        [ 9.0078],
        [-0.9888],
        [ 8.9141],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.961591720581055
count = 78
logits = tensor([[ 9.0000],
        [-1.1445],
        [-8.8984],
        [ 9.0000],
        [-0.6016],
        [-9.1328],
        [ 9.0234],
        [-0.8843]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.23701286315918
count = 79
logits = tensor([[ 9.0625],
        [-1.1641],
        [-9.1328],
        [-9.1172],
        [-9.1016],
        [-0.8013],
        [ 9.0391],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.41755485534668
count = 80


 16%|█▌        | 83/511 [00:04<00:23, 18.09it/s]

logits = tensor([[-9.0625],
        [-8.8672],
        [ 8.9609],
        [-0.0846],
        [ 9.0156],
        [ 9.0547],
        [ 8.9766],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.49903678894043
count = 81
logits = tensor([[ 8.8906],
        [ 9.0547],
        [ 9.0000],
        [-9.0391],
        [-9.0625],
        [-0.6538],
        [ 8.9609],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.55134391784668
count = 82
logits = tensor([[ 9.0078],
        [ 8.9609],
        [ 9.0312],
        [ 9.0156],
        [-0.5752],
        [ 9.0391],
        [-9.0781],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.60713005065918
count = 83
logits = tensor([[ 9.0078],
        [-9.1328],
        [ 9.0469],
        [-1.0225],
        [ 8.9297],
        [-0.8320],
        [ 8.9844],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.794721603393555
count = 84


 17%|█▋        | 87/511 [00:05<00:23, 18.20it/s]

logits = tensor([[ 9.0156],
        [ 9.0312],
        [-9.1641],
        [-9.0391],
        [-9.1875],
        [-9.1328],
        [-9.1406],
        [-9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.794721603393555
count = 85
logits = tensor([[-1.7773],
        [ 8.9375],
        [ 8.7109],
        [ 8.9609],
        [ 8.9688],
        [-9.1562],
        [ 9.0312],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.814237594604492
count = 86
logits = tensor([[ 9.0391],
        [-9.1016],
        [-8.6719],
        [-9.1172],
        [-9.1953],
        [-0.3601],
        [ 9.0000],
        [-9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.880338668823242
count = 87
logits = tensor([[ 9.0312],
        [ 9.0312],
        [-9.0859],
        [-2.5508],
        [-9.1250],
        [-9.0938],
        [ 8.9609],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.208585739135742
count = 88


 18%|█▊        | 91/511 [00:05<00:22, 18.49it/s]

logits = tensor([[ 9.0547],
        [-9.2031],
        [ 9.0781],
        [ 8.8672],
        [-2.1289],
        [-9.1406],
        [ 9.0391],
        [ 8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.488767623901367
count = 89
logits = tensor([[-9.1094],
        [-8.6875],
        [ 1.7314],
        [-9.0781],
        [ 8.7656],
        [-8.8828],
        [-9.1328],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.50910758972168
count = 90
logits = tensor([[-9.1016],
        [ 8.8438],
        [ 8.9922],
        [ 8.8203],
        [ 8.9766],
        [ 8.5391],
        [ 9.0234],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.50910758972168
count = 91
logits = tensor([[-9.1250],
        [ 8.5312],
        [-9.1562],
        [ 9.0156],
        [ 9.0703],
        [ 8.9531],
        [ 8.9766],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.50910758972168
count = 92


 19%|█▊        | 95/511 [00:05<00:22, 18.70it/s]

logits = tensor([[-0.3711],
        [-8.6875],
        [ 8.9297],
        [-9.1562],
        [-2.1543],
        [ 8.8906],
        [ 9.0469],
        [-0.4873]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.755544662475586
count = 93
logits = tensor([[ 8.9922],
        [ 8.8516],
        [-9.0859],
        [-3.3281],
        [-9.0703],
        [ 9.0156],
        [ 8.9531],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.759981155395508
count = 94
logits = tensor([[ 8.9766],
        [-9.1172],
        [-9.1953],
        [ 9.0000],
        [ 8.7812],
        [ 8.9844],
        [ 9.0000],
        [ 8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.759981155395508
count = 95
logits = tensor([[ 9.0000],
        [ 8.9453],
        [-9.1406],
        [-9.1016],
        [ 8.9062],
        [-9.1172],
        [ 8.9609],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.759981155395508
count = 96


 19%|█▉        | 99/511 [00:05<00:22, 18.63it/s]

logits = tensor([[ 8.8594],
        [-0.5645],
        [ 9.0625],
        [-1.2119],
        [ 8.9766],
        [ 9.0312],
        [ 8.2500],
        [-9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.070863723754883
count = 97
logits = tensor([[-9.1641],
        [ 8.9453],
        [ 8.9219],
        [ 9.0469],
        [-9.1641],
        [-0.5747],
        [-9.0781],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.126649856567383
count = 98
logits = tensor([[ 9.0000],
        [-9.1094],
        [-9.1641],
        [-9.1328],
        [ 9.0234],
        [-9.0547],
        [ 8.8984],
        [-0.8301]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.171846389770508
count = 99
logits = tensor([[-9.0703],
        [ 9.0391],
        [ 8.9297],
        [ 9.0156],
        [ 8.9609],
        [-9.1953],
        [-8.6172],
        [ 8.7656]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.171846389770508
count = 100


 20%|██        | 103/511 [00:05<00:22, 18.11it/s]

logits = tensor([[-8.7109],
        [ 9.0234],
        [ 8.9453],
        [-1.1260],
        [ 9.0312],
        [ 8.9453],
        [-9.1875],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.206941604614258
count = 101
logits = tensor([[-8.5625],
        [-9.2109],
        [-9.0781],
        [-9.2109],
        [-9.2422],
        [-9.1172],
        [ 8.9141],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.206941604614258
count = 102
logits = tensor([[ 8.9297],
        [ 8.8984],
        [ 8.2812],
        [-9.0391],
        [ 1.8271],
        [-9.0703],
        [-9.1406],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.225618362426758
count = 103
logits = tensor([[-9.1250],
        [-9.0547],
        [-8.8672],
        [-9.1016],
        [ 9.0156],
        [-9.0938],
        [-9.2422],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.225618362426758
count = 104


 21%|██        | 107/511 [00:06<00:21, 18.60it/s]

logits = tensor([[ 9.0000],
        [-9.1172],
        [-8.9141],
        [ 8.9766],
        [ 8.9297],
        [ 8.9062],
        [ 9.0391],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.225618362426758
count = 105
logits = tensor([[-0.6279],
        [-9.2266],
        [ 8.9453],
        [-2.0625],
        [-8.9922],
        [ 9.0391],
        [ 9.0078],
        [-1.0762]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.72294807434082
count = 106
logits = tensor([[-9.1797],
        [ 8.9844],
        [ 8.9453],
        [-9.1406],
        [ 9.0156],
        [ 8.8125],
        [ 9.0312],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.72294807434082
count = 107
logits = tensor([[-8.3281],
        [-9.0234],
        [ 8.7031],
        [ 9.0156],
        [ 9.0625],
        [ 8.9844],
        [-9.0859],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.72294807434082
count = 108


 22%|██▏       | 111/511 [00:06<00:21, 18.54it/s]

logits = tensor([[-1.0703],
        [ 9.0156],
        [ 9.0781],
        [ 8.9766],
        [-9.2344],
        [-9.1250],
        [-9.1562],
        [-8.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.759782791137695
count = 109
logits = tensor([[ 1.9951],
        [-9.0781],
        [-9.1016],
        [-1.9580],
        [ 9.0547],
        [-8.8984],
        [ 9.0703],
        [-8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.041536331176758
count = 110
logits = tensor([[ 9.0312],
        [-0.7559],
        [-1.8828],
        [-9.1562],
        [ 8.9844],
        [ 8.9219],
        [ 9.0312],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.201875686645508
count = 111
logits = tensor([[-9.1484],
        [ 8.9609],
        [-9.0625],
        [-9.0781],
        [-9.0312],
        [-9.1172],
        [-9.1797],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.201875686645508
count = 112


 23%|██▎       | 115/511 [00:06<00:21, 18.44it/s]

logits = tensor([[ 8.9609],
        [-9.1172],
        [-9.1562],
        [-9.0234],
        [-9.1953],
        [ 9.0000],
        [ 8.9922],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.201875686645508
count = 113
logits = tensor([[ 9.0000],
        [-9.2344],
        [-1.9268],
        [ 8.9609],
        [-8.9375],
        [ 9.0312],
        [-9.2812],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.21885871887207
count = 114
logits = tensor([[-9.1953],
        [ 8.8281],
        [ 9.0391],
        [ 9.0312],
        [-9.1484],
        [-9.1484],
        [-9.1797],
        [-0.0115]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.306236267089844
count = 115
logits = tensor([[ 9.0547],
        [-9.1016],
        [-9.0703],
        [-9.0938],
        [-9.0234],
        [-9.0547],
        [-0.8267],
        [ 8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.454917907714844
count = 116


 23%|██▎       | 119/511 [00:06<00:21, 18.62it/s]

logits = tensor([[ 8.9922],
        [-9.1641],
        [-1.3398],
        [-8.9062],
        [ 8.9922],
        [ 9.0625],
        [ 8.9375],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.651451110839844
count = 117
logits = tensor([[ 0.8286],
        [-9.1172],
        [ 9.0078],
        [ 8.9219],
        [ 8.9766],
        [ 9.0078],
        [-9.2188],
        [-0.4336]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.813407897949219
count = 118
logits = tensor([[ 9.0312],
        [ 9.0000],
        [-0.8550],
        [ 9.0078],
        [-9.0781],
        [ 8.2344],
        [ 8.7266],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.857749938964844
count = 119
logits = tensor([[ 9.0391],
        [ 8.9219],
        [ 8.2812],
        [-9.1797],
        [ 9.0000],
        [-9.1094],
        [ 9.0391],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.857749938964844
count = 120


 24%|██▍       | 123/511 [00:07<00:20, 18.58it/s]

logits = tensor([[-9.2578],
        [-9.0469],
        [ 8.8516],
        [ 9.0000],
        [-0.3945],
        [ 8.9297],
        [ 9.0547],
        [-8.5391]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.922142028808594
count = 121
logits = tensor([[ 8.9844],
        [-9.0234],
        [-9.1641],
        [ 8.9922],
        [ 8.9844],
        [-9.0391],
        [ 9.0234],
        [-0.5649]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.978385925292969
count = 122
logits = tensor([[-0.2394],
        [ 8.9453],
        [ 9.0000],
        [-3.1719],
        [-9.0547],
        [-9.0547],
        [ 9.0703],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.086021423339844
count = 123
logits = tensor([[-8.8125],
        [-9.0703],
        [ 8.9609],
        [ 8.1875],
        [ 0.1509],
        [-9.1797],
        [ 8.9844],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.182395935058594
count = 124


 25%|██▍       | 127/511 [00:07<00:20, 18.54it/s]

logits = tensor([[ 8.8594],
        [ 8.9062],
        [-9.2188],
        [ 9.0078],
        [ 8.9453],
        [ 9.0078],
        [-0.8931],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.225273132324219
count = 125
logits = tensor([[-8.9766],
        [ 9.0156],
        [ 8.9062],
        [ 9.0234],
        [ 8.9844],
        [-9.0781],
        [ 9.0625],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.225273132324219
count = 126
logits = tensor([[ 8.8438],
        [ 9.0234],
        [-1.3418],
        [ 9.0156],
        [ 8.9609],
        [ 8.9766],
        [ 8.9609],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.254325866699219
count = 127
logits = tensor([[ 8.9766],
        [-0.2544],
        [-8.4219],
        [ 9.0234],
        [ 9.0312],
        [-9.1719],
        [-9.0312],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.357902526855469
count = 128


 26%|██▌       | 131/511 [00:07<00:20, 18.72it/s]

logits = tensor([[-9.1719],
        [-9.0469],
        [ 8.6172],
        [-9.2188],
        [-8.8203],
        [ 8.9609],
        [-9.0234],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.357902526855469
count = 129
logits = tensor([[ 9.0547],
        [ 8.6094],
        [ 9.0312],
        [ 9.0000],
        [-9.1719],
        [-8.5078],
        [ 8.9297],
        [-8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.357902526855469
count = 130
logits = tensor([[-9.1484],
        [ 8.2188],
        [-0.0984],
        [-0.2952],
        [ 8.8438],
        [-9.1875],
        [-0.6670],
        [ 8.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.596763610839844
count = 131
logits = tensor([[ 9.0312],
        [ 8.9922],
        [-9.0391],
        [ 8.9297],
        [ 8.9062],
        [ 8.9766],
        [-9.1484],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.596763610839844
count = 132


 26%|██▋       | 135/511 [00:07<00:20, 18.43it/s]

logits = tensor([[-8.8203],
        [ 8.9922],
        [-9.1484],
        [-8.9766],
        [-9.1562],
        [-2.0977],
        [-9.1250],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.61126708984375
count = 133
logits = tensor([[ 9.0000],
        [ 8.8281],
        [-9.2031],
        [ 8.9453],
        [-0.9165],
        [-0.7910],
        [-9.1641],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.7989501953125
count = 134
logits = tensor([[ 9.0234],
        [-9.2031],
        [-9.0312],
        [ 8.8359],
        [ 8.9375],
        [-9.0469],
        [-9.1250],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.7989501953125
count = 135
logits = tensor([[ 8.9531],
        [-0.6802],
        [ 9.0625],
        [ 8.9688],
        [ 9.0547],
        [ 8.9297],
        [-9.0391],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.850128173828125
count = 136


 27%|██▋       | 139/511 [00:07<00:20, 18.44it/s]

logits = tensor([[-0.7578],
        [ 9.0078],
        [ 9.0469],
        [-9.2266],
        [-9.1016],
        [-9.0469],
        [ 8.9766],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.898193359375
count = 137
logits = tensor([[-9.0625],
        [-9.1328],
        [ 8.8984],
        [-9.2188],
        [-9.0312],
        [ 9.0312],
        [ 8.9844],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.898193359375
count = 138
logits = tensor([[ 9.0156],
        [-3.0781],
        [ 9.0234],
        [ 8.9766],
        [-9.0938],
        [-9.2266],
        [-9.0000],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.903804779052734
count = 139
logits = tensor([[-9.0234],
        [-9.1484],
        [-9.1406],
        [ 8.8906],
        [ 8.8594],
        [ 8.6172],
        [ 8.9609],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.903804779052734
count = 140


 28%|██▊       | 143/511 [00:08<00:19, 18.62it/s]

logits = tensor([[ 9.0312],
        [-9.1641],
        [-8.1250],
        [-9.1562],
        [ 9.0156],
        [ 8.7812],
        [ 8.9531],
        [ 4.3242]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.905502319335938
count = 141
logits = tensor([[ 8.9297],
        [-9.1797],
        [-0.6699],
        [ 9.0234],
        [ 8.9844],
        [ 8.8750],
        [ 9.0625],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.957168579101562
count = 142
logits = tensor([[-9.0781],
        [-9.0000],
        [ 9.0391],
        [-9.0781],
        [ 9.0000],
        [ 9.0000],
        [ 8.9609],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.957168579101562
count = 143
logits = tensor([[ 8.7969],
        [ 8.7812],
        [ 8.8359],
        [ 8.9766],
        [ 8.9609],
        [-9.1250],
        [-9.1328],
        [-8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.957168579101562
count = 144


 29%|██▉       | 147/511 [00:08<00:19, 18.58it/s]

logits = tensor([[ 9.0312],
        [-9.0938],
        [ 9.0000],
        [ 8.9219],
        [ 8.7422],
        [ 9.0781],
        [-9.1953],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.957168579101562
count = 145
logits = tensor([[ 8.9375],
        [-3.6094],
        [ 9.0234],
        [-1.8096],
        [ 8.9453],
        [ 9.0312],
        [ 8.6719],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.979522705078125
count = 146
logits = tensor([[-9.1250],
        [ 0.4915],
        [-9.0469],
        [-0.2286],
        [ 8.9453],
        [-9.0859],
        [ 8.9766],
        [ 8.8359]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.112274169921875
count = 147
logits = tensor([[ 8.9453],
        [-0.4443],
        [ 8.8203],
        [ 9.0156],
        [ 8.9375],
        [-9.1172],
        [ 8.3047],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.174163818359375
count = 148


 30%|██▉       | 151/511 [00:08<00:19, 18.74it/s]

logits = tensor([[ 9.0078],
        [ 9.0312],
        [ 8.9375],
        [ 8.9453],
        [ 8.9688],
        [-9.1484],
        [ 8.5781],
        [-2.2988]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.186141967773438
count = 149
logits = tensor([[ 0.1317],
        [ 0.0864],
        [ 9.0078],
        [-9.0547],
        [-9.0938],
        [-9.0859],
        [ 8.9766],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.362762451171875
count = 150
logits = tensor([[-9.0547],
        [-9.1562],
        [-0.2209],
        [-9.0859],
        [ 9.0547],
        [-9.1016],
        [ 8.8125],
        [ 8.5781]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.4639892578125
count = 151
logits = tensor([[ 9.0312],
        [ 9.0312],
        [ 9.0078],
        [-9.1562],
        [ 8.8438],
        [ 9.0469],
        [ 9.0391],
        [ 8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.4639892578125
count = 152


 30%|███       | 155/511 [00:08<00:19, 18.62it/s]

logits = tensor([[-1.2383],
        [-8.8203],
        [ 8.8203],
        [ 9.0547],
        [-9.0469],
        [ 8.9141],
        [ 9.0078],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.495819091796875
count = 153
logits = tensor([[ 9.0156],
        [ 9.0391],
        [ 8.9609],
        [ 9.0078],
        [ 8.8281],
        [-8.8984],
        [ 8.9844],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.495819091796875
count = 154
logits = tensor([[ 9.0938],
        [-0.8589],
        [-9.1953],
        [ 8.9453],
        [-9.0781],
        [ 9.0625],
        [-9.1094],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.6473388671875
count = 155
logits = tensor([[ 8.9922],
        [ 8.9375],
        [ 9.0312],
        [-8.5469],
        [ 8.9141],
        [-9.0859],
        [ 8.9844],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.6473388671875
count = 156


 31%|███       | 159/511 [00:09<00:18, 18.55it/s]

logits = tensor([[ 8.9375],
        [-9.2031],
        [-3.0273],
        [ 9.0547],
        [ 9.0078],
        [ 8.9375],
        [-9.1016],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.031715393066406
count = 157
logits = tensor([[ 9.0078],
        [-9.1250],
        [ 9.0234],
        [ 8.9609],
        [ 8.9531],
        [ 8.8828],
        [-8.6797],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.031715393066406
count = 158
logits = tensor([[-9.0000],
        [-9.1094],
        [ 9.0391],
        [-8.9297],
        [-9.0000],
        [ 8.9844],
        [ 9.0312],
        [ 8.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.031715393066406
count = 159
logits = tensor([[ 8.8438],
        [ 9.0234],
        [ 9.0469],
        [-9.0078],
        [-9.2031],
        [-8.7188],
        [-9.1562],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.031715393066406
count = 160


 32%|███▏      | 163/511 [00:09<00:19, 18.17it/s]

logits = tensor([[-9.1250],
        [-8.8047],
        [ 8.9766],
        [-8.8984],
        [-9.1562],
        [ 8.7812],
        [-8.9453],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.031715393066406
count = 161
logits = tensor([[ 0.7080],
        [ 8.8750],
        [-9.0469],
        [-9.1797],
        [-0.6709],
        [-9.2031],
        [ 9.0391],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.133399963378906
count = 162
logits = tensor([[ 8.8438],
        [ 8.9375],
        [-8.9375],
        [ 8.9609],
        [-8.9531],
        [ 9.0469],
        [-9.2422],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.133399963378906
count = 163
logits = tensor([[-8.9531],
        [-9.1328],
        [ 8.5469],
        [ 8.9688],
        [ 8.9375],
        [ 8.9844],
        [-8.3359],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.133399963378906
count = 164


 33%|███▎      | 167/511 [00:09<00:19, 18.01it/s]

logits = tensor([[-9.0547],
        [ 0.0488],
        [ 8.9922],
        [-8.8984],
        [ 9.0156],
        [ 9.0156],
        [ 8.9453],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.22311782836914
count = 165
logits = tensor([[ 8.9688],
        [ 8.9609],
        [ 9.0469],
        [-9.0000],
        [-9.1484],
        [-9.1953],
        [-9.1953],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.22311782836914
count = 166
logits = tensor([[ 8.9766],
        [ 8.8828],
        [ 8.4844],
        [ 8.9531],
        [ 8.7344],
        [ 8.9297],
        [-0.1450],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.31918716430664
count = 167
logits = tensor([[ 8.9531],
        [ 9.0000],
        [-9.0938],
        [-8.9844],
        [ 8.9375],
        [-0.6855],
        [-0.0654],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.452823638916016
count = 168


 33%|███▎      | 171/511 [00:09<00:18, 18.55it/s]

logits = tensor([[ 1.9600],
        [-9.0859],
        [-9.1172],
        [-9.0781],
        [ 9.0469],
        [-9.1719],
        [ 8.9688],
        [-9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.46927261352539
count = 169
logits = tensor([[ 8.9141],
        [-0.2942],
        [-9.1953],
        [ 9.0234],
        [ 9.0547],
        [-9.0000],
        [ 8.8047],
        [ 8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.575626373291016
count = 170
logits = tensor([[-9.1094],
        [-9.1484],
        [ 9.0078],
        [-9.2109],
        [ 9.0625],
        [ 9.0312],
        [-8.9453],
        [-9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.575626373291016
count = 171
logits = tensor([[ 8.9141],
        [-9.0781],
        [ 8.9766],
        [ 9.0625],
        [-9.0312],
        [ 8.9766],
        [ 8.8984],
        [-8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.575626373291016
count = 172


 34%|███▍      | 175/511 [00:09<00:18, 18.49it/s]

logits = tensor([[ 8.9922],
        [-9.1953],
        [ 9.0000],
        [-3.6602],
        [ 8.8359],
        [-9.0312],
        [-8.6094],
        [-1.5596]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.602579116821289
count = 173
logits = tensor([[ 8.9922],
        [ 8.9453],
        [ 8.9141],
        [ 8.9688],
        [-9.0781],
        [ 8.9844],
        [-9.0391],
        [-9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.602579116821289
count = 174
logits = tensor([[ 8.9297],
        [ 8.7734],
        [ 9.0000],
        [ 8.4766],
        [-9.1250],
        [-9.1797],
        [-8.8516],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.602579116821289
count = 175
logits = tensor([[ 8.5703],
        [ 8.9531],
        [ 8.9453],
        [-9.2344],
        [-9.1484],
        [-1.0430],
        [-2.4141],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.781457901000977
count = 176


 35%|███▌      | 179/511 [00:10<00:17, 18.83it/s]

logits = tensor([[ 8.8594],
        [-9.1172],
        [ 9.0078],
        [ 9.0078],
        [-3.8516],
        [-1.1426],
        [-9.1797],
        [ 8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.96157455444336
count = 177
logits = tensor([[ 8.8672],
        [ 8.9062],
        [ 9.0000],
        [-9.1797],
        [ 9.0078],
        [ 8.8516],
        [-9.2031],
        [-1.1992]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.99453353881836
count = 178
logits = tensor([[ 8.9219],
        [-9.0469],
        [ 8.9297],
        [ 9.0000],
        [-8.8906],
        [ 0.1909],
        [-9.1250],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.06978988647461
count = 179
logits = tensor([[ 9.0781],
        [-9.1094],
        [ 8.9609],
        [-9.1094],
        [ 8.9609],
        [ 8.9297],
        [-9.0547],
        [ 8.7812]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.06978988647461
count = 180


 36%|███▌      | 183/511 [00:10<00:17, 18.62it/s]

logits = tensor([[ 9.0000],
        [-9.1562],
        [ 8.9531],
        [-0.6221],
        [ 9.0391],
        [-9.1641],
        [ 8.9453],
        [-9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.201290130615234
count = 181
logits = tensor([[-9.1094],
        [-3.3750],
        [ 9.0469],
        [-8.9531],
        [-8.9844],
        [ 8.9219],
        [-9.0312],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.205490112304688
count = 182
logits = tensor([[-9.0938],
        [-0.6904],
        [-9.1406],
        [-9.0938],
        [ 8.2109],
        [ 8.7812],
        [-9.3047],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.256332397460938
count = 183
logits = tensor([[ 8.9609],
        [-9.1797],
        [-8.9453],
        [ 9.0156],
        [ 9.0234],
        [-9.1641],
        [ 9.0156],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.256332397460938
count = 184


 37%|███▋      | 187/511 [00:10<00:17, 18.84it/s]

logits = tensor([[-2.1602],
        [-9.0625],
        [ 8.9375],
        [-9.1094],
        [-9.0781],
        [ 9.0078],
        [-9.1484],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.269966125488281
count = 185
logits = tensor([[-9.2344],
        [ 8.9766],
        [ 8.9922],
        [-0.5532],
        [ 9.0312],
        [ 8.9531],
        [-9.1875],
        [-9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.395912170410156
count = 186
logits = tensor([[-1.6055],
        [ 8.9922],
        [ 8.9922],
        [ 8.9609],
        [-0.5664],
        [ 9.0078],
        [-9.1719],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.475013732910156
count = 187
logits = tensor([[ 9.0312],
        [-9.2188],
        [ 9.0078],
        [ 9.0625],
        [ 8.4922],
        [ 9.0156],
        [-0.7109],
        [ 8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.524971008300781
count = 188


 37%|███▋      | 191/511 [00:10<00:17, 18.60it/s]

logits = tensor([[ 9.0312],
        [-9.0625],
        [-0.3279],
        [-9.1953],
        [-0.4197],
        [-8.4141],
        [-1.1934],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.689064025878906
count = 189
logits = tensor([[ 9.0000],
        [ 8.9844],
        [-9.0078],
        [ 9.0078],
        [ 9.0625],
        [ 9.0391],
        [ 9.0000],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.689064025878906
count = 190
logits = tensor([[ 8.9297],
        [-9.2344],
        [ 8.9531],
        [-9.2578],
        [ 8.8672],
        [-8.8047],
        [-9.2031],
        [-9.1250]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.689064025878906
count = 191
logits = tensor([[-0.0627],
        [ 9.0312],
        [-8.8516],
        [ 8.9141],
        [-8.8359],
        [ 8.9531],
        [-9.1328],
        [-8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.771888732910156
count = 192


 38%|███▊      | 195/511 [00:10<00:17, 18.16it/s]

logits = tensor([[ 8.8750],
        [ 8.7266],
        [-9.1484],
        [-9.2109],
        [ 8.7969],
        [-3.4395],
        [-3.2793],
        [ 8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.210456848144531
count = 193
logits = tensor([[ 9.0078],
        [ 8.9453],
        [-9.0469],
        [ 8.8516],
        [ 8.9453],
        [-9.3594],
        [ 4.3398],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.212034225463867
count = 194
logits = tensor([[ 9.0547],
        [ 8.9375],
        [-9.0547],
        [ 9.0391],
        [ 8.9141],
        [ 8.9609],
        [-9.1094],
        [-9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.212034225463867
count = 195
logits = tensor([[-9.1484],
        [ 8.6953],
        [-9.1172],
        [-0.7993],
        [-8.9297],
        [-9.1250],
        [ 9.0391],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.258420944213867
count = 196


 39%|███▉      | 199/511 [00:11<00:17, 18.19it/s]

logits = tensor([[-8.6719],
        [-9.1328],
        [-9.0938],
        [ 8.7656],
        [-9.1172],
        [ 8.9531],
        [-0.7549],
        [-9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.306547164916992
count = 197
logits = tensor([[-9.1562],
        [-8.9766],
        [-9.2266],
        [ 8.6094],
        [-8.3047],
        [-0.6807],
        [-9.1250],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.442808151245117
count = 198
logits = tensor([[ 8.7734],
        [ 8.1094],
        [-9.1719],
        [ 8.9922],
        [ 9.1016],
        [-8.7734],
        [-1.1514],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.477170944213867
count = 199
logits = tensor([[ 8.9531],
        [ 8.8984],
        [-2.5410],
        [ 9.0625],
        [-8.9922],
        [-9.0781],
        [ 8.7969],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.486684799194336
count = 200


 40%|███▉      | 203/511 [00:11<00:16, 18.38it/s]

logits = tensor([[-9.0469],
        [ 9.0469],
        [-8.4297],
        [-9.1562],
        [-9.0703],
        [ 8.9219],
        [ 8.9375],
        [-0.1876]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.585638046264648
count = 201
logits = tensor([[ 9.0859],
        [-9.1016],
        [ 8.9375],
        [ 8.9453],
        [ 9.0469],
        [-8.4219],
        [-9.0938],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.585638046264648
count = 202
logits = tensor([[-9.1094],
        [-9.1562],
        [ 9.0156],
        [-3.6855],
        [-0.6514],
        [ 8.8047],
        [-9.1875],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.641231536865234
count = 203
logits = tensor([[-9.1094],
        [-9.0938],
        [ 9.0156],
        [ 9.0312],
        [-9.1953],
        [ 8.8359],
        [-0.1821],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.739803314208984
count = 204


 41%|████      | 207/511 [00:11<00:16, 18.32it/s]

logits = tensor([[-0.7793],
        [ 9.0234],
        [ 8.9766],
        [-0.5200],
        [ 8.9609],
        [-9.1094],
        [-9.0781],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.00777816772461
count = 205
logits = tensor([[ 9.0000],
        [ 9.0234],
        [ 8.8359],
        [ 9.0234],
        [-8.7031],
        [-2.0996],
        [ 8.7969],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.022174835205078
count = 206
logits = tensor([[-9.1172],
        [ 8.9922],
        [-9.1641],
        [ 9.0391],
        [ 8.9453],
        [-8.9766],
        [-9.0859],
        [ 4.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.023509979248047
count = 207
logits = tensor([[ 9.0312],
        [-9.0000],
        [ 8.9375],
        [ 9.0000],
        [ 8.9141],
        [-9.1953],
        [ 9.0000],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.023509979248047
count = 208


 41%|████▏     | 211/511 [00:11<00:16, 18.65it/s]

logits = tensor([[ 0.0257],
        [-9.1562],
        [ 0.0752],
        [-0.8979],
        [-1.7334],
        [ 8.9375],
        [-8.8125],
        [ 8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.262996673583984
count = 209
logits = tensor([[ 9.0000],
        [-9.1953],
        [ 9.0547],
        [-9.1328],
        [ 9.0391],
        [ 8.8203],
        [-9.0312],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.262996673583984
count = 210
logits = tensor([[ 8.9141],
        [-8.9922],
        [ 8.9688],
        [ 8.9375],
        [ 8.8672],
        [-9.0000],
        [-9.0938],
        [ 9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.262996673583984
count = 211
logits = tensor([[-8.7188],
        [-9.3672],
        [-9.1250],
        [ 8.9062],
        [-9.0469],
        [-9.0312],
        [-1.1289],
        [-9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.29800033569336
count = 212


 42%|████▏     | 215/511 [00:12<00:16, 18.43it/s]

logits = tensor([[ 9.0312],
        [ 8.9453],
        [ 8.5625],
        [-9.1172],
        [-9.1641],
        [-9.1328],
        [-9.0938],
        [-9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.29800033569336
count = 213
logits = tensor([[ 9.0312],
        [ 8.9375],
        [ 8.9609],
        [ 9.0234],
        [-9.1406],
        [-9.0312],
        [ 9.0234],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.29800033569336
count = 214
logits = tensor([[-9.1172],
        [ 9.0469],
        [-9.2031],
        [ 8.8125],
        [-9.0000],
        [ 9.0312],
        [ 9.0078],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.29800033569336
count = 215
logits = tensor([[ 8.9922],
        [-9.1328],
        [-3.5352],
        [ 8.9531],
        [ 8.9766],
        [-9.0938],
        [-9.0156],
        [-8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.30160903930664
count = 216


 43%|████▎     | 219/511 [00:12<00:15, 18.47it/s]

logits = tensor([[ 8.9531],
        [ 9.0156],
        [ 8.8359],
        [-9.1562],
        [-0.7456],
        [ 9.0469],
        [-0.6802],
        [ 8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.48636245727539
count = 217
logits = tensor([[-9.0547],
        [ 8.9766],
        [-0.5703],
        [ 9.0781],
        [-9.0469],
        [-9.0469],
        [-9.0156],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.61368179321289
count = 218
logits = tensor([[-0.6450],
        [-8.8984],
        [-1.5176],
        [ 8.5547],
        [-9.0000],
        [-0.6460],
        [-9.1562],
        [-9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.905109405517578
count = 219
logits = tensor([[-2.0781],
        [ 8.6484],
        [-0.4583],
        [ 0.5146],
        [-8.9453],
        [-9.0234],
        [-1.9492],
        [-9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.120670318603516
count = 220


 44%|████▎     | 223/511 [00:12<00:15, 18.35it/s]

logits = tensor([[-0.6206],
        [-9.1484],
        [-0.7700],
        [ 9.0625],
        [ 8.8125],
        [ 9.0156],
        [ 8.9922],
        [-9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.29953384399414
count = 221
logits = tensor([[-9.1094],
        [-0.9390],
        [-9.0781],
        [-9.0938],
        [ 8.9375],
        [ 9.0312],
        [-9.0547],
        [ 8.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.340763092041016
count = 222
logits = tensor([[-9.0703],
        [ 8.7422],
        [ 8.9766],
        [ 9.0000],
        [-9.1250],
        [ 8.9141],
        [-1.6230],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.363269805908203
count = 223
logits = tensor([[-9.1797],
        [ 8.9531],
        [ 9.0391],
        [-0.5996],
        [ 9.0156],
        [-9.2031],
        [ 8.8828],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.417957305908203
count = 224


 44%|████▍     | 227/511 [00:12<00:15, 18.26it/s]

logits = tensor([[ 4.2070],
        [-9.0547],
        [ 8.9453],
        [-0.5840],
        [-9.0781],
        [-9.0000],
        [ 8.9922],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.47516441345215
count = 225
logits = tensor([[ 8.9531],
        [ 0.1135],
        [-0.6372],
        [-9.1484],
        [-3.0781],
        [ 9.0078],
        [-0.0746],
        [-9.3047]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.709863662719727
count = 226
logits = tensor([[ 8.9844],
        [ 8.9844],
        [-8.3516],
        [ 8.5781],
        [-9.1016],
        [-9.1328],
        [-9.1562],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.709863662719727
count = 227
logits = tensor([[-9.0859],
        [ 8.8047],
        [ 9.0469],
        [ 9.0625],
        [ 9.0234],
        [ 8.9766],
        [ 8.8828],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.709863662719727
count = 228


 45%|████▌     | 231/511 [00:12<00:15, 18.28it/s]

logits = tensor([[-9.1406],
        [ 8.5078],
        [ 2.0977],
        [-9.1562],
        [ 8.9375],
        [-9.0391],
        [-9.1328],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.724367141723633
count = 229
logits = tensor([[-0.6157],
        [-0.1045],
        [-9.1406],
        [ 8.9219],
        [-9.1562],
        [-8.7266],
        [-0.7866],
        [ 8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.918550491333008
count = 230
logits = tensor([[-9.0469],
        [-9.1094],
        [-9.2188],
        [ 8.8516],
        [-9.0391],
        [-2.2773],
        [ 8.9922],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.930749893188477
count = 231
logits = tensor([[ 9.0625],
        [-9.1172],
        [-1.6357],
        [ 8.9844],
        [ 9.0000],
        [-8.7109],
        [ 8.9609],
        [-0.1533]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.04961585998535
count = 232


 46%|████▌     | 235/511 [00:13<00:15, 18.23it/s]

logits = tensor([[-0.3735],
        [-9.1406],
        [ 8.9688],
        [ 9.0156],
        [ 8.9375],
        [ 9.0938],
        [ 1.2686],
        [-0.4871]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.313501358032227
count = 233
logits = tensor([[ 8.8984],
        [ 8.9844],
        [-8.9453],
        [ 9.0156],
        [ 8.9766],
        [-9.0156],
        [ 8.9141],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.313501358032227
count = 234
logits = tensor([[ 9.0156],
        [ 8.9766],
        [ 9.0000],
        [ 8.8203],
        [-9.2109],
        [ 9.0469],
        [-9.1562],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.313501358032227
count = 235
logits = tensor([[ 8.9297],
        [ 8.6875],
        [ 8.8906],
        [ 9.0156],
        [-9.1953],
        [-9.0234],
        [-1.4170],
        [-8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.34061622619629
count = 236


 47%|████▋     | 239/511 [00:13<00:14, 18.54it/s]

logits = tensor([[ 9.0703],
        [ 8.9688],
        [-9.1953],
        [ 8.6016],
        [ 8.9531],
        [ 9.0703],
        [ 8.9531],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.34061622619629
count = 237
logits = tensor([[ 0.0718],
        [ 9.0547],
        [ 8.9453],
        [-0.6909],
        [ 8.9844],
        [-9.1484],
        [-1.0400],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.727792739868164
count = 238
logits = tensor([[ 9.1016],
        [ 8.9922],
        [-2.8340],
        [ 8.1797],
        [ 9.0000],
        [-0.8140],
        [-9.1484],
        [ 8.8906]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.780778884887695
count = 239
logits = tensor([[-9.0625],
        [-0.8306],
        [-9.1250],
        [-8.8047],
        [ 9.0078],
        [ 9.0000],
        [-9.0781],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.92979621887207
count = 240


 48%|████▊     | 243/511 [00:13<00:14, 18.74it/s]

logits = tensor([[ 0.0426],
        [-9.0312],
        [-8.8984],
        [-9.1641],
        [-0.0496],
        [-0.9688],
        [-9.2500],
        [ 8.9219]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.137651443481445
count = 241
logits = tensor([[ 8.9766],
        [ 9.0312],
        [ 8.9844],
        [ 8.9297],
        [-9.0938],
        [ 9.0312],
        [-8.8359],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.137651443481445
count = 242
logits = tensor([[-9.1016],
        [-9.1250],
        [ 8.9922],
        [-9.1094],
        [-9.2422],
        [ 8.9844],
        [ 8.8984],
        [-1.1699]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.317705154418945
count = 243
logits = tensor([[ 0.7798],
        [ 9.0312],
        [-2.2656],
        [ 8.8906],
        [-9.0469],
        [-9.2031],
        [ 8.9219],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.474702835083008
count = 244


 48%|████▊     | 247/511 [00:13<00:14, 18.78it/s]

logits = tensor([[-9.2109],
        [ 8.9453],
        [-9.0703],
        [-9.2266],
        [-9.1562],
        [-8.9453],
        [ 8.9766],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.474702835083008
count = 245
logits = tensor([[ 9.0156],
        [-0.7559],
        [-8.2031],
        [ 9.0000],
        [-9.0469],
        [ 8.8984],
        [ 8.9453],
        [-9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.522829055786133
count = 246
logits = tensor([[ 8.9531],
        [ 9.0469],
        [-9.1328],
        [ 9.1094],
        [ 8.9141],
        [ 8.9688],
        [-8.8594],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.522829055786133
count = 247
logits = tensor([[ 9.0781],
        [ 9.0000],
        [ 8.9766],
        [-9.0625],
        [ 8.9922],
        [-9.2031],
        [-9.1094],
        [-1.3252]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.552278518676758
count = 248


 49%|████▉     | 251/511 [00:13<00:14, 18.57it/s]

logits = tensor([[ 9.0781],
        [ 8.9375],
        [ 8.8281],
        [ 9.0312],
        [-9.1875],
        [ 8.9453],
        [ 9.0391],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.552278518676758
count = 249
logits = tensor([[-9.0859],
        [ 8.9766],
        [ 8.9609],
        [ 9.0469],
        [-9.1016],
        [-9.0703],
        [-8.9766],
        [ 8.8984]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.552278518676758
count = 250
logits = tensor([[ 9.0156],
        [ 9.0000],
        [-9.1250],
        [-1.3516],
        [-9.0469],
        [ 8.9531],
        [-9.1953],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.58104133605957
count = 251
logits = tensor([[ 9.0234],
        [ 8.0234],
        [-1.3242],
        [-9.0312],
        [-8.2109],
        [-9.1562],
        [ 8.8125],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.610490798950195
count = 252


 50%|████▉     | 255/511 [00:14<00:13, 18.68it/s]

logits = tensor([[ 8.9766],
        [-9.2266],
        [-8.8906],
        [-0.7139],
        [ 8.2812],
        [ 9.0156],
        [ 8.8750],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.660356521606445
count = 253
logits = tensor([[ 0.3323],
        [-9.0000],
        [ 9.0391],
        [ 8.9375],
        [-0.6772],
        [-9.0078],
        [-9.0781],
        [-0.4985]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.88011360168457
count = 254
logits = tensor([[-0.1949],
        [ 8.9375],
        [-9.1719],
        [-9.0781],
        [ 8.8750],
        [-9.0625],
        [-9.2344],
        [-0.8281]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.00041389465332
count = 255
logits = tensor([[ 8.9453],
        [-9.0312],
        [-8.7188],
        [-2.0020],
        [-0.5376],
        [ 9.0469],
        [-9.1406],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.07371711730957
count = 256


 51%|█████     | 259/511 [00:14<00:13, 18.84it/s]

logits = tensor([[ 9.0547],
        [ 8.9844],
        [ 8.7812],
        [-2.4004],
        [-9.0469],
        [-9.1875],
        [-8.9297],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.08458137512207
count = 257
logits = tensor([[ 8.6328],
        [ 9.0156],
        [ 9.0078],
        [ 8.8672],
        [ 9.0000],
        [ 9.0078],
        [-0.3403],
        [-9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.15172004699707
count = 258
logits = tensor([[-9.2266],
        [ 9.0000],
        [-9.0859],
        [ 9.0000],
        [-9.0391],
        [ 9.0469],
        [ 8.9141],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.15172004699707
count = 259
logits = tensor([[ 8.5391],
        [-9.1875],
        [ 8.9453],
        [ 8.9844],
        [ 0.1404],
        [ 9.0000],
        [ 8.9375],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.247453689575195
count = 260


 51%|█████▏    | 263/511 [00:14<00:13, 18.89it/s]

logits = tensor([[ 9.0547],
        [ 9.0312],
        [-9.0156],
        [ 8.9766],
        [ 9.0078],
        [ 9.0938],
        [ 8.9766],
        [-0.8799]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.290849685668945
count = 261
logits = tensor([[8.3984],
        [9.0703],
        [9.0156],
        [8.9375],
        [9.0312],
        [9.0000],
        [9.0234],
        [9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.290849685668945
count = 262
logits = tensor([[ 8.9766],
        [ 8.9766],
        [ 8.9688],
        [ 8.8047],
        [ 8.9453],
        [ 9.1016],
        [-9.0859],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.290849685668945
count = 263
logits = tensor([[ 8.8672],
        [ 8.6172],
        [ 8.9062],
        [-8.6328],
        [-9.2188],
        [ 8.7266],
        [-9.2656],
        [-1.5732]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.314363479614258
count = 264


 52%|█████▏    | 267/511 [00:14<00:13, 18.67it/s]

logits = tensor([[-9.1328],
        [ 8.9922],
        [ 0.0686],
        [ 9.0156],
        [-9.1797],
        [-9.0938],
        [ 8.9688],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.396760940551758
count = 265
logits = tensor([[ 8.6328],
        [ 8.9219],
        [ 8.9297],
        [ 8.8203],
        [-2.4980],
        [-1.1172],
        [-9.0859],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.441987991333008
count = 266
logits = tensor([[ 8.9609],
        [-0.9448],
        [-8.4766],
        [ 8.7578],
        [ 8.5938],
        [-9.2109],
        [ 8.8750],
        [-9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.483034133911133
count = 267
logits = tensor([[-0.3455],
        [ 9.0469],
        [ 8.9375],
        [-8.8516],
        [-1.7715],
        [-0.0461],
        [ 9.0078],
        [ 1.0361]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.8697452545166
count = 268


 53%|█████▎    | 271/511 [00:15<00:12, 18.49it/s]

logits = tensor([[ 8.3516],
        [ 8.9844],
        [ 8.9531],
        [ 8.9844],
        [-1.2402],
        [-8.5312],
        [ 8.8750],
        [-9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.0565128326416
count = 269
logits = tensor([[ 8.8984],
        [-9.0859],
        [-9.1328],
        [ 8.9297],
        [ 8.9922],
        [-9.1172],
        [ 9.0078],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.0565128326416
count = 270
logits = tensor([[-8.9688],
        [ 9.0156],
        [ 8.9922],
        [ 8.9766],
        [ 0.8633],
        [-9.1328],
        [-9.1250],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.10051918029785
count = 271
logits = tensor([[-0.5879],
        [-9.0312],
        [ 8.9609],
        [-9.0234],
        [ 8.9766],
        [ 8.9766],
        [ 9.0078],
        [-9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.1557559967041
count = 272


 54%|█████▍    | 275/511 [00:15<00:12, 18.74it/s]

logits = tensor([[ 9.0234],
        [ 8.9297],
        [ 8.9688],
        [-0.6235],
        [ 8.6953],
        [-9.1250],
        [-8.9531],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.20940589904785
count = 273
logits = tensor([[-9.1094],
        [-9.1562],
        [-9.1406],
        [-9.1719],
        [ 8.9531],
        [ 8.9844],
        [ 8.9609],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.20940589904785
count = 274
logits = tensor([[ 8.9688],
        [ 9.0391],
        [-9.1406],
        [-9.2109],
        [ 8.9375],
        [-0.1157],
        [-9.0703],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.28899574279785
count = 275
logits = tensor([[ 9.0078],
        [ 8.9844],
        [ 8.9219],
        [-0.7422],
        [-9.2109],
        [ 9.0156],
        [-9.1641],
        [-9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.33770179748535
count = 276


 55%|█████▍    | 279/511 [00:15<00:12, 18.86it/s]

logits = tensor([[-4.9194e-01],
        [ 8.9844e+00],
        [-9.2344e+00],
        [-9.0000e+00],
        [-9.0703e+00],
        [-9.0703e+00],
        [-9.0625e+00],
        [ 3.5515e-03]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.48420286178589
count = 277
logits = tensor([[ 8.9922],
        [-9.0781],
        [-8.8906],
        [-9.0156],
        [-9.1172],
        [ 9.0547],
        [-0.0215],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.56946897506714
count = 278
logits = tensor([[ 8.9922],
        [-2.9570],
        [ 8.8750],
        [ 9.0625],
        [ 0.7778],
        [ 9.0312],
        [-9.0391],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.622989177703857
count = 279
logits = tensor([[ 8.9453],
        [ 8.5859],
        [-9.0938],
        [ 8.8672],
        [ 9.0156],
        [ 9.0234],
        [ 8.9219],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.622989177703857
count = 28

 55%|█████▌    | 283/511 [00:15<00:12, 18.30it/s]

logits = tensor([[ 9.0391],
        [ 8.8047],
        [ 9.0078],
        [-9.1562],
        [-8.9297],
        [-9.0938],
        [-0.4539],
        [-9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.684421062469482
count = 281
logits = tensor([[ 9.0156],
        [ 8.9688],
        [-9.1484],
        [ 9.0469],
        [ 8.5000],
        [ 8.9922],
        [-9.0625],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.684421062469482
count = 282
logits = tensor([[-9.1797],
        [-9.0938],
        [ 8.5000],
        [ 9.0469],
        [ 9.0547],
        [ 8.9141],
        [ 8.9922],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.684421062469482
count = 283
logits = tensor([[ 8.8984],
        [ 8.8906],
        [-9.2266],
        [-9.2266],
        [ 9.0312],
        [ 8.4375],
        [ 8.9375],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.684421062469482
count = 284


 56%|█████▌    | 287/511 [00:15<00:12, 18.28it/s]

logits = tensor([[-9.1562],
        [-9.1094],
        [-9.0859],
        [-9.0859],
        [ 9.0938],
        [ 9.0625],
        [ 8.8984],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.684421062469482
count = 285
logits = tensor([[ 9.0156],
        [-0.7383],
        [ 8.2734],
        [ 9.0000],
        [-0.9917],
        [ 8.9297],
        [-8.8672],
        [-9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.772769451141357
count = 286
logits = tensor([[ 8.9922],
        [-9.0859],
        [ 9.0234],
        [-9.1797],
        [ 9.0078],
        [-0.8813],
        [ 9.0469],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.926242351531982
count = 287
logits = tensor([[-8.9844],
        [ 8.9688],
        [ 9.0312],
        [-9.0156],
        [ 8.9609],
        [ 8.9609],
        [ 8.6641],
        [-8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.926242351531982
count = 288


 57%|█████▋    | 291/511 [00:16<00:11, 18.44it/s]

logits = tensor([[-0.8135],
        [ 9.0234],
        [-9.1250],
        [-9.0547],
        [-9.2578],
        [ 8.9531],
        [ 8.8750],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.073794841766357
count = 289
logits = tensor([[-9.0625],
        [ 9.0391],
        [-9.1484],
        [ 8.6484],
        [-1.1162],
        [-9.0234],
        [ 8.7891],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.248782634735107
count = 290
logits = tensor([[ 8.9453],
        [-9.1172],
        [ 9.0391],
        [ 8.8906],
        [ 8.9609],
        [-9.0156],
        [-9.0312],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.248782634735107
count = 291
logits = tensor([[-9.1328],
        [-9.1562],
        [ 8.9453],
        [-9.0781],
        [-0.3093],
        [-8.9688],
        [-9.0703],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.317630290985107
count = 292


 58%|█████▊    | 295/511 [00:16<00:11, 18.16it/s]

logits = tensor([[-9.1328e+00],
        [-5.5275e-03],
        [-9.1875e+00],
        [ 9.0391e+00],
        [-9.0859e+00],
        [-9.5850e-01],
        [-8.5840e-01],
        [ 8.9141e+00]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.59667205810547
count = 293
logits = tensor([[ 9.0234],
        [ 8.8750],
        [ 8.9297],
        [-9.1562],
        [-1.0420],
        [-8.1094],
        [-0.0410],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.718528747558594
count = 294
logits = tensor([[ 8.8906],
        [ 9.0391],
        [ 9.0469],
        [ 8.9844],
        [ 0.3354],
        [-9.0938],
        [-9.1641],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.827903747558594
count = 295
logits = tensor([[-9.1562],
        [ 9.0078],
        [ 9.0000],
        [-9.1562],
        [-9.1719],
        [-9.1484],
        [ 9.0625],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.827903747558594
count = 2

 59%|█████▊    | 299/511 [00:16<00:11, 18.79it/s]

logits = tensor([[-9.0859],
        [-9.1562],
        [ 8.7656],
        [-9.1484],
        [ 8.9766],
        [ 9.0234],
        [-9.0000],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.827903747558594
count = 297
logits = tensor([[ 8.9688],
        [ 9.1016],
        [ 2.9902],
        [-0.4807],
        [-9.0859],
        [-9.0234],
        [ 8.9375],
        [ 8.8125]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.26791000366211
count = 298
logits = tensor([[ 9.0547],
        [-8.8750],
        [-9.0781],
        [ 8.9688],
        [ 9.0078],
        [-1.0283],
        [ 8.9688],
        [-1.0322]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.472774505615234
count = 299
logits = tensor([[-9.1094],
        [ 9.0000],
        [ 9.0391],
        [-8.5469],
        [ 8.9453],
        [ 3.5566],
        [ 8.9375],
        [ 8.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.47626495361328
count = 300


 59%|█████▉    | 303/511 [00:16<00:11, 18.48it/s]

logits = tensor([[ 8.2812],
        [ 8.9609],
        [ 8.9297],
        [ 8.9844],
        [ 9.0312],
        [-0.7446],
        [-0.2363],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.690589904785156
count = 301
logits = tensor([[-8.5312],
        [ 9.0234],
        [-9.1641],
        [-0.7334],
        [-9.0078],
        [-9.1562],
        [-9.0391],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.83130645751953
count = 302
logits = tensor([[ 9.0156],
        [-9.0859],
        [-9.1250],
        [ 8.9531],
        [ 9.0625],
        [ 8.9297],
        [-9.0781],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.83130645751953
count = 303
logits = tensor([[-9.1094],
        [-9.1562],
        [-1.7354],
        [ 9.0234],
        [-9.1875],
        [ 8.9531],
        [ 9.0234],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.068565368652344
count = 304


 60%|██████    | 307/511 [00:17<00:11, 18.47it/s]

logits = tensor([[-0.6309],
        [ 9.0000],
        [ 8.2969],
        [ 8.6094],
        [-9.1641],
        [ 8.8750],
        [ 8.8672],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.200767517089844
count = 305
logits = tensor([[-9.0938],
        [ 8.7500],
        [ 8.9922],
        [-9.1328],
        [ 8.8984],
        [-9.1641],
        [-9.0781],
        [-1.9385]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.21753692626953
count = 306
logits = tensor([[ 8.6875],
        [-9.2109],
        [ 8.9688],
        [-8.9375],
        [-2.1211],
        [ 8.9297],
        [ 8.9922],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.496849060058594
count = 307
logits = tensor([[-1.1172],
        [ 8.6016],
        [-9.0625],
        [-9.1562],
        [ 8.9531],
        [-9.0781],
        [ 9.0312],
        [-2.6289]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.540939331054688
count = 308


 61%|██████    | 311/511 [00:17<00:10, 18.36it/s]

logits = tensor([[ 9.0312],
        [ 9.0234],
        [ 8.9531],
        [ 8.9531],
        [ 8.9844],
        [-1.0820],
        [ 8.6953],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.577407836914062
count = 309
logits = tensor([[ 8.8281],
        [-9.0703],
        [-9.1250],
        [ 8.9297],
        [-9.0625],
        [ 9.0078],
        [-0.6074],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.631790161132812
count = 310
logits = tensor([[ 8.9375],
        [-9.1172],
        [ 8.9688],
        [ 8.9531],
        [ 8.9922],
        [-1.0146],
        [-3.4688],
        [-1.7168]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.82176399230957
count = 311
logits = tensor([[-9.0234],
        [ 8.7734],
        [ 8.9766],
        [-9.2188],
        [ 8.9922],
        [ 8.9297],
        [ 9.0391],
        [-9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.82176399230957
count = 312


 62%|██████▏   | 315/511 [00:17<00:10, 18.43it/s]

logits = tensor([[ 8.9453],
        [ 8.9453],
        [-9.0312],
        [ 1.9219],
        [-9.2266],
        [-2.0566],
        [ 4.4844],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.352669715881348
count = 313
logits = tensor([[ 9.0156],
        [-8.9844],
        [ 9.0156],
        [-9.0781],
        [ 9.1016],
        [-9.1875],
        [-8.9688],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.352669715881348
count = 314
logits = tensor([[ 8.8047],
        [ 8.9531],
        [ 8.9375],
        [-0.3337],
        [ 8.9922],
        [ 8.8828],
        [ 9.0391],
        [ 8.2812]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.420235633850098
count = 315
logits = tensor([[ 8.9453],
        [ 8.9609],
        [-9.1016],
        [-9.2266],
        [ 9.0234],
        [ 8.8906],
        [-9.2578],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.420235633850098
count = 316


 62%|██████▏   | 319/511 [00:17<00:10, 18.82it/s]

logits = tensor([[-9.1172],
        [ 8.5000],
        [-8.8438],
        [-9.1016],
        [-9.0312],
        [ 8.9297],
        [ 9.0312],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.420235633850098
count = 317
logits = tensor([[-9.0781],
        [ 8.9688],
        [-9.0938],
        [ 8.9922],
        [-1.8535],
        [ 9.0312],
        [-1.3486],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.63582706451416
count = 318
logits = tensor([[ 9.0312],
        [ 0.1876],
        [ 8.8672],
        [ 9.0000],
        [-8.9219],
        [-8.9141],
        [ 8.9688],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.734780311584473
count = 319
logits = tensor([[ 8.9375],
        [-1.6309],
        [-9.1562],
        [-1.8486],
        [ 4.3867],
        [-9.2188],
        [ 9.0703],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.776915550231934
count = 320


 63%|██████▎   | 323/511 [00:17<00:10, 18.46it/s]

logits = tensor([[-0.4399],
        [-9.0000],
        [ 8.9766],
        [-8.9609],
        [-9.1797],
        [-8.9922],
        [ 8.9766],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.894103050231934
count = 321
logits = tensor([[-1.3379],
        [ 8.7969],
        [ 8.9375],
        [ 9.0078],
        [ 9.0234],
        [-9.1719],
        [ 8.9688],
        [-0.0225]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.17851734161377
count = 322
logits = tensor([[ 9.0000],
        [ 8.6953],
        [ 8.9766],
        [-9.0938],
        [ 9.0469],
        [-9.0859],
        [-9.1250],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.17851734161377
count = 323
logits = tensor([[ 9.0156],
        [ 9.0547],
        [ 9.0078],
        [ 9.0000],
        [ 9.0625],
        [ 8.4688],
        [-9.0859],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.17851734161377
count = 324


 64%|██████▍   | 327/511 [00:18<00:09, 18.73it/s]

logits = tensor([[ 8.9688],
        [ 9.0469],
        [ 9.0547],
        [-8.6641],
        [ 9.0000],
        [ 2.2383],
        [-9.0859],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.19115924835205
count = 325
logits = tensor([[-9.0234],
        [-9.1797],
        [ 8.7734],
        [-1.4219],
        [-9.1719],
        [-2.0039],
        [-9.1016],
        [-0.4863]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.354702949523926
count = 326
logits = tensor([[-8.8672],
        [ 8.9453],
        [ 8.9531],
        [ 8.9375],
        [-9.1328],
        [-8.8594],
        [-9.0234],
        [-8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.354702949523926
count = 327
logits = tensor([[-9.0391],
        [ 8.9375],
        [-9.0938],
        [ 8.8906],
        [ 9.0391],
        [-9.1719],
        [ 9.0312],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.354702949523926
count = 328


 65%|██████▍   | 331/511 [00:18<00:09, 18.61it/s]

logits = tensor([[-2.7109],
        [-9.0000],
        [-9.0703],
        [-9.0781],
        [ 8.9922],
        [ 8.9922],
        [-9.1328],
        [-0.8799]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.744999885559082
count = 329
logits = tensor([[ 9.0078],
        [ 8.9844],
        [ 8.9297],
        [ 8.9375],
        [ 8.6797],
        [ 9.0234],
        [-9.1328],
        [-9.3125]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.744999885559082
count = 330
logits = tensor([[ 8.9609],
        [ 9.0391],
        [-9.0859],
        [-9.1797],
        [ 8.9531],
        [ 2.8203],
        [ 8.9375],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.752232551574707
count = 331
logits = tensor([[ 8.6484],
        [ 8.2578],
        [ 9.0156],
        [ 8.9844],
        [-8.8984],
        [ 8.9375],
        [-9.1641],
        [-9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.752232551574707
count = 332


 66%|██████▌   | 335/511 [00:18<00:09, 18.50it/s]

logits = tensor([[-9.1328],
        [-9.0938],
        [-9.1484],
        [-9.1250],
        [ 8.9297],
        [-9.1172],
        [ 8.8438],
        [-1.2080]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.784916877746582
count = 333
logits = tensor([[ 8.9453],
        [-9.1172],
        [ 8.9609],
        [-9.2734],
        [-9.1562],
        [-9.0938],
        [-9.2188],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.784916877746582
count = 334
logits = tensor([[-0.8076],
        [ 9.0547],
        [ 8.9062],
        [ 8.9922],
        [ 8.9531],
        [-0.8623],
        [-9.1875],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.874974250793457
count = 335
logits = tensor([[-1.8203],
        [ 8.7656],
        [ 9.0000],
        [-9.1797],
        [-9.0547],
        [-9.1172],
        [ 8.8828],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.893757820129395
count = 336


 66%|██████▋   | 339/511 [00:18<00:09, 18.16it/s]

logits = tensor([[-9.0938],
        [-9.2422],
        [-8.5469],
        [-9.1250],
        [-9.2109],
        [-9.0391],
        [ 9.0078],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.893757820129395
count = 337
logits = tensor([[-9.1484],
        [ 9.0234],
        [-9.0391],
        [ 9.0312],
        [-8.9922],
        [-8.0469],
        [-0.2454],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.965962409973145
count = 338
logits = tensor([[ 9.0078],
        [ 2.6445],
        [ 9.0078],
        [ 9.0234],
        [ 9.0312],
        [ 9.0000],
        [-0.6729],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.02605152130127
count = 339
logits = tensor([[-9.1250],
        [ 8.5625],
        [ 8.8359],
        [ 9.0312],
        [ 8.9688],
        [-9.1797],
        [ 9.0234],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.02605152130127
count = 340


 67%|██████▋   | 343/511 [00:18<00:09, 18.15it/s]

logits = tensor([[-9.0000],
        [-9.0469],
        [ 8.7656],
        [-1.0361],
        [-0.4561],
        [-9.1484],
        [-9.0859],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.12535572052002
count = 341
logits = tensor([[ 8.7734],
        [-8.9766],
        [ 9.0312],
        [ 9.0156],
        [ 8.9297],
        [-9.1484],
        [-1.1650],
        [-0.6738]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.210835456848145
count = 342
logits = tensor([[ 9.0000],
        [-9.0469],
        [-8.5078],
        [-8.0234],
        [ 8.9609],
        [ 8.9688],
        [-0.3535],
        [-2.0918]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.2918062210083
count = 343
logits = tensor([[ 8.8594],
        [-0.5757],
        [ 8.5703],
        [ 9.0156],
        [ 9.0312],
        [ 9.1016],
        [-0.8662],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.463467597961426
count = 344


 68%|██████▊   | 347/511 [00:19<00:08, 18.52it/s]

logits = tensor([[ 8.4766],
        [ 8.9531],
        [ 8.9688],
        [-9.1797],
        [-0.1259],
        [ 8.9766],
        [ 9.0625],
        [ 0.0926]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.635136604309082
count = 345
logits = tensor([[ 9.0625],
        [-8.7812],
        [-0.5439],
        [ 9.0000],
        [ 9.0156],
        [ 8.8984],
        [ 8.9766],
        [-8.6016]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.692326545715332
count = 346
logits = tensor([[ 8.9609],
        [ 9.0547],
        [-9.1797],
        [-9.1172],
        [ 9.0547],
        [ 8.8125],
        [-0.6978],
        [-9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.830052375793457
count = 347
logits = tensor([[ 8.9375],
        [ 9.0391],
        [ 9.0078],
        [ 0.0691],
        [-9.1406],
        [ 8.9375],
        [ 8.8828],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.912449836730957
count = 348


 69%|██████▊   | 351/511 [00:19<00:08, 18.37it/s]

logits = tensor([[-9.1250],
        [-9.2109],
        [-8.2578],
        [-0.8511],
        [-9.0391],
        [ 9.0000],
        [ 8.8984],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.956883430480957
count = 349
logits = tensor([[ 8.9453],
        [ 8.9219],
        [ 9.0000],
        [ 8.9766],
        [ 9.0078],
        [ 8.8672],
        [-8.9062],
        [-9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.956883430480957
count = 350
logits = tensor([[-1.4248],
        [-8.2578],
        [-9.1328],
        [-2.4180],
        [ 8.9922],
        [-9.1328],
        [-9.1328],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.9944429397583
count = 351
logits = tensor([[ 9.0312],
        [-9.1406],
        [ 8.9688],
        [ 8.8672],
        [ 9.0781],
        [-9.1328],
        [-9.0781],
        [-0.5435]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.1195650100708
count = 352


 69%|██████▉   | 355/511 [00:19<00:08, 18.26it/s]

logits = tensor([[ 9.0234],
        [ 9.0000],
        [ 8.9766],
        [ 8.6562],
        [-9.1250],
        [ 8.9844],
        [-9.1016],
        [-9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.1195650100708
count = 353
logits = tensor([[ 8.8125],
        [ 8.9375],
        [-2.5977],
        [ 8.7656],
        [ 8.9531],
        [ 9.0547],
        [ 8.9922],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.128514289855957
count = 354
logits = tensor([[ 0.4414],
        [ 8.8359],
        [-8.6562],
        [ 8.9453],
        [ 8.8750],
        [-9.1406],
        [ 8.9688],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.190556526184082
count = 355
logits = tensor([[ 8.9141],
        [ 8.9375],
        [ 9.0469],
        [ 9.0703],
        [-9.0000],
        [-9.1094],
        [-8.9219],
        [ 8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.190556526184082
count = 356


 70%|███████   | 359/511 [00:19<00:08, 18.63it/s]

logits = tensor([[-9.0312],
        [-9.1172],
        [ 9.0391],
        [ 9.0312],
        [ 8.6875],
        [-8.8984],
        [-9.0781],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.190556526184082
count = 357
logits = tensor([[ 8.9609],
        [-9.1484],
        [-8.0547],
        [-9.1328],
        [ 8.9141],
        [-3.3770],
        [ 4.3984],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.19633388519287
count = 358
logits = tensor([[ 8.9844],
        [-9.1797],
        [-9.0938],
        [-9.0625],
        [ 8.9766],
        [ 8.9141],
        [ 9.0000],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.19633388519287
count = 359
logits = tensor([[ 8.8203],
        [-9.1328],
        [ 8.9922],
        [ 8.9531],
        [-9.0625],
        [-0.5513],
        [ 9.1094],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.32212734222412
count = 360


 71%|███████   | 363/511 [00:20<00:07, 18.74it/s]

logits = tensor([[-9.0781],
        [ 9.0391],
        [ 8.9453],
        [-9.2031],
        [ 8.8672],
        [ 8.9922],
        [-9.0391],
        [-9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.32212734222412
count = 361
logits = tensor([[-0.4065],
        [-9.0234],
        [ 8.9922],
        [-2.3887],
        [-9.1484],
        [ 8.9609],
        [-8.8594],
        [-9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.447699546813965
count = 362
logits = tensor([[-8.9688],
        [-2.1133],
        [ 8.9844],
        [-9.1250],
        [ 9.0469],
        [-9.0625],
        [ 8.9531],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.461989402770996
count = 363
logits = tensor([[ 8.9375],
        [-0.6045],
        [ 9.0312],
        [-9.2109],
        [ 8.9609],
        [-9.0312],
        [-9.1562],
        [ 8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.51652431488037
count = 364


 72%|███████▏  | 367/511 [00:20<00:07, 19.07it/s]

logits = tensor([[-9.1094],
        [-9.1797],
        [ 8.9922],
        [ 8.5469],
        [ 8.8906],
        [ 8.9922],
        [ 8.9062],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.51652431488037
count = 365
logits = tensor([[ 2.6074],
        [ 8.8359],
        [-9.0859],
        [-9.0781],
        [-9.0625],
        [-9.1406],
        [ 8.5000],
        [-9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.851401329040527
count = 366
logits = tensor([[-9.1250],
        [-9.0234],
        [ 0.0833],
        [-9.1016],
        [-9.0078],
        [-9.1406],
        [-9.1250],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.932944297790527
count = 367
logits = tensor([[ 8.8516],
        [-3.6777],
        [-9.0156],
        [-0.5459],
        [ 9.0625],
        [ 9.0625],
        [ 8.4922],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.061413764953613
count = 368


 73%|███████▎  | 371/511 [00:20<00:07, 18.51it/s]

logits = tensor([[ 9.0625],
        [ 8.9375],
        [ 8.9297],
        [-9.1562],
        [ 8.8203],
        [ 9.0625],
        [ 8.4766],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.061413764953613
count = 369
logits = tensor([[-9.1875],
        [ 8.9297],
        [-0.4741],
        [ 8.9766],
        [ 8.9375],
        [ 8.8594],
        [ 9.0547],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.121960639953613
count = 370
logits = tensor([[ 8.9922],
        [ 8.8906],
        [-2.6465],
        [-0.1340],
        [ 8.2891],
        [-9.1250],
        [-8.9922],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.209118843078613
count = 371
logits = tensor([[-1.4199],
        [-9.0078],
        [-8.5234],
        [ 8.9766],
        [ 8.9922],
        [ 8.9219],
        [-9.0781],
        [-0.4707]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.4744234085083
count = 372


 73%|███████▎  | 375/511 [00:20<00:07, 18.57it/s]

logits = tensor([[-8.8672],
        [-2.2031],
        [ 8.9922],
        [ 8.6172],
        [ 8.6484],
        [-9.2031],
        [ 8.9219],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.487507820129395
count = 373
logits = tensor([[ 9.0078],
        [-1.1201],
        [ 8.9922],
        [ 9.0156],
        [-9.0859],
        [-9.0781],
        [ 9.0234],
        [-0.2090]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.597065925598145
count = 374
logits = tensor([[-9.1875],
        [-9.1172],
        [ 8.9688],
        [ 9.0312],
        [-8.9844],
        [-9.2188],
        [-1.0273],
        [-9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.635273933410645
count = 375
logits = tensor([[-9.1484],
        [ 9.0234],
        [-2.8535],
        [ 8.9375],
        [ 9.0234],
        [ 9.0391],
        [ 9.0469],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.642277717590332
count = 376


 74%|███████▍  | 379/511 [00:20<00:07, 18.44it/s]

logits = tensor([[-0.7710],
        [ 9.0625],
        [ 9.0312],
        [ 8.5859],
        [-3.4434],
        [ 9.0938],
        [ 8.9375],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.693787574768066
count = 377
logits = tensor([[-8.9922],
        [-2.3281],
        [-9.1797],
        [-9.0078],
        [ 9.0000],
        [ 8.4922],
        [-0.3889],
        [-0.5166]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.82863712310791
count = 378
logits = tensor([[ 9.0156],
        [ 8.9531],
        [-8.7344],
        [ 9.0156],
        [ 9.0000],
        [ 9.0156],
        [ 8.9531],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.82863712310791
count = 379
logits = tensor([[-1.0068],
        [ 8.9688],
        [ 8.9922],
        [ 8.9844],
        [-9.0312],
        [ 9.0312],
        [-9.1328],
        [-3.6836]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.870680809020996
count = 380


 75%|███████▍  | 383/511 [00:21<00:06, 18.40it/s]

logits = tensor([[ 8.8047],
        [-9.1406],
        [-8.6016],
        [-0.7417],
        [-9.1719],
        [-9.2188],
        [ 8.9844],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.012099266052246
count = 381
logits = tensor([[-9.1484],
        [ 8.8906],
        [ 8.9844],
        [ 9.0391],
        [ 9.0859],
        [-0.3989],
        [ 9.0938],
        [ 8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.126112937927246
count = 382
logits = tensor([[ 9.0391],
        [-9.0078],
        [ 8.9375],
        [ 8.9766],
        [ 9.0312],
        [ 9.0312],
        [-0.5151],
        [-9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.18467617034912
count = 383
logits = tensor([[-9.0547],
        [-8.9766],
        [-9.1016],
        [ 8.8281],
        [ 9.0078],
        [ 8.9453],
        [-9.2109],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.18467617034912
count = 384


 76%|███████▌  | 387/511 [00:21<00:06, 18.32it/s]

logits = tensor([[-9.0312],
        [-9.1875],
        [-9.0156],
        [-9.1172],
        [-9.2266],
        [-2.2148],
        [-9.0703],
        [ 0.5342]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.322073936462402
count = 385
logits = tensor([[ 9.0625],
        [-1.3496],
        [ 8.9844],
        [-9.0391],
        [ 8.9766],
        [-9.0859],
        [-1.0215],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.685812950134277
count = 386
logits = tensor([[ 8.9453],
        [ 8.9141],
        [-8.8984],
        [ 8.9688],
        [-0.7441],
        [ 0.9395],
        [-9.1016],
        [-9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.775595664978027
count = 387
logits = tensor([[-1.0430],
        [ 9.0312],
        [-0.5200],
        [-9.1016],
        [ 8.9766],
        [ 8.5938],
        [ 8.9922],
        [-9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.936697959899902
count = 388


 77%|███████▋  | 391/511 [00:21<00:06, 18.62it/s]

logits = tensor([[ 2.6289],
        [ 9.0391],
        [ 8.9375],
        [ 9.0391],
        [ 8.9531],
        [ 9.0000],
        [ 9.0312],
        [-9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.27403163909912
count = 389
logits = tensor([[ 8.9453],
        [-9.0625],
        [ 8.9453],
        [ 9.0625],
        [-9.2031],
        [-1.9434],
        [ 8.9844],
        [ 8.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.29080104827881
count = 390
logits = tensor([[ 8.4375],
        [ 8.9219],
        [ 8.9141],
        [-9.0781],
        [-9.1094],
        [-9.1641],
        [ 8.9453],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.29080104827881
count = 391
logits = tensor([[-9.0938],
        [-9.1250],
        [-9.1094],
        [ 8.8203],
        [-2.4824],
        [ 8.5625],
        [ 8.9219],
        [-8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.61118221282959
count = 392


 77%|███████▋  | 395/511 [00:21<00:06, 18.46it/s]

logits = tensor([[-9.1406],
        [-0.0209],
        [ 8.9844],
        [-9.1094],
        [-9.2109],
        [ 9.0469],
        [ 9.1016],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.699122428894043
count = 393
logits = tensor([[-9.2031],
        [-1.6475],
        [-0.4548],
        [ 8.5391],
        [ 9.0547],
        [-2.2285],
        [ 8.9766],
        [-8.8047]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.00123119354248
count = 394
logits = tensor([[ 8.2891],
        [ 8.6406],
        [ 9.0391],
        [ 8.9688],
        [ 8.8984],
        [ 9.0469],
        [ 8.9531],
        [-9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.00123119354248
count = 395
logits = tensor([[ 9.0078],
        [-3.7051],
        [-1.6309],
        [ 8.9844],
        [-9.1094],
        [ 8.2734],
        [ 8.9766],
        [-0.5786]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.08218860626221
count = 396


 78%|███████▊  | 399/511 [00:21<00:06, 18.30it/s]

logits = tensor([[-9.0625],
        [-9.0547],
        [-2.3945],
        [-9.1406],
        [-9.3203],
        [-9.1016],
        [ 8.9844],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.09305286407471
count = 397
logits = tensor([[ 8.9531],
        [ 8.8828],
        [-9.0547],
        [ 8.9609],
        [ 9.0000],
        [ 8.8359],
        [ 8.9688],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.09305286407471
count = 398
logits = tensor([[-9.1484],
        [-9.1641],
        [ 9.0547],
        [ 9.0234],
        [-9.1797],
        [ 8.9609],
        [-9.0078],
        [-9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.09305286407471
count = 399
logits = tensor([[ 8.9453],
        [-0.8335],
        [ 8.8750],
        [-9.0391],
        [ 8.8828],
        [ 9.0000],
        [-0.5234],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.19626331329346
count = 400


 79%|███████▉  | 403/511 [00:22<00:05, 18.65it/s]

logits = tensor([[ 8.9531],
        [ 9.0625],
        [ 9.0078],
        [-9.0156],
        [-0.8423],
        [ 9.0312],
        [ 9.0547],
        [ 9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.24103260040283
count = 401
logits = tensor([[-9.0938],
        [-9.1016],
        [ 8.9375],
        [-9.1172],
        [-9.1719],
        [-9.1484],
        [ 8.9531],
        [ 8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.24103260040283
count = 402
logits = tensor([[ 8.9375],
        [ 9.0078],
        [-9.0000],
        [-9.1172],
        [-1.4844],
        [-9.0938],
        [ 9.0312],
        [ 8.8984]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.266560554504395
count = 403
logits = tensor([[-9.0703],
        [ 8.8984],
        [ 8.9219],
        [ 8.9609],
        [-9.1328],
        [-9.2031],
        [ 9.0078],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.266560554504395
count = 404


 80%|███████▉  | 407/511 [00:22<00:05, 18.20it/s]

logits = tensor([[ 8.8750],
        [ 8.9141],
        [ 8.9375],
        [-9.0391],
        [-9.1875],
        [ 8.9922],
        [-9.0781],
        [-8.7266]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.266560554504395
count = 405
logits = tensor([[-1.0771],
        [-0.0599],
        [-9.1406],
        [ 8.9453],
        [ 8.9844],
        [ 8.7734],
        [ 9.0156],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.38615894317627
count = 406
logits = tensor([[-9.1094],
        [ 8.8906],
        [ 9.0156],
        [ 9.0156],
        [ 9.0547],
        [ 9.0000],
        [ 8.9062],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.38615894317627
count = 407
logits = tensor([[ 9.0547],
        [-0.5181],
        [ 4.5664],
        [ 8.9844],
        [ 8.6875],
        [ 8.6250],
        [ 0.3279],
        [-9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.57853412628174
count = 408


 80%|████████  | 411/511 [00:22<00:05, 18.70it/s]

logits = tensor([[-9.1406],
        [ 9.0469],
        [-9.0938],
        [-0.7485],
        [ 0.0793],
        [-0.4343],
        [ 8.9688],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.77110004425049
count = 409
logits = tensor([[-9.2109],
        [ 9.0781],
        [ 8.9453],
        [ 9.0156],
        [-0.0613],
        [ 8.7812],
        [-9.1953],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.86164569854736
count = 410
logits = tensor([[-8.4844],
        [-9.1562],
        [ 8.9062],
        [ 8.9766],
        [ 8.7344],
        [-9.0156],
        [-9.1797],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.86164569854736
count = 411
logits = tensor([[ 8.8203],
        [ 9.0469],
        [ 8.3047],
        [ 8.5078],
        [ 8.8984],
        [-0.3684],
        [-9.1406],
        [ 8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.92731952667236
count = 412


 81%|████████  | 415/511 [00:22<00:05, 18.44it/s]

logits = tensor([[ 8.9922],
        [ 9.0234],
        [-9.0938],
        [-9.1250],
        [-9.1328],
        [ 9.0547],
        [ 9.0234],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.92731952667236
count = 413
logits = tensor([[ 8.9375],
        [ 8.9375],
        [ 8.8516],
        [ 9.0781],
        [ 8.9609],
        [ 9.0156],
        [ 8.9219],
        [-0.3181]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.99567890167236
count = 414
logits = tensor([[-9.1562],
        [-8.4922],
        [-0.6743],
        [ 8.8984],
        [ 8.8359],
        [ 8.9375],
        [ 9.0234],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.04716205596924
count = 415
logits = tensor([[-9.0234],
        [-0.7617],
        [ 9.0703],
        [-2.0176],
        [-9.0703],
        [ 8.9688],
        [-0.5635],
        [-1.1445]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.61935901641846
count = 416


 82%|████████▏ | 419/511 [00:23<00:04, 18.63it/s]

logits = tensor([[ 9.0000],
        [ 8.9219],
        [-9.1562],
        [-9.0703],
        [ 8.5625],
        [-1.8623],
        [-9.1484],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.63739490509033
count = 417
logits = tensor([[-9.0156],
        [ 8.9688],
        [-9.1641],
        [ 9.0312],
        [ 8.9531],
        [-9.0781],
        [-9.1172],
        [-9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.63739490509033
count = 418
logits = tensor([[-9.2266],
        [ 8.2188],
        [-9.1484],
        [ 9.0547],
        [ 9.0078],
        [-0.5654],
        [ 8.9609],
        [-0.5400]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.82166004180908
count = 419
logits = tensor([[-0.7612],
        [ 9.0000],
        [-9.1406],
        [ 8.9609],
        [ 2.3418],
        [ 8.8203],
        [-9.1484],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.88096332550049
count = 420


 83%|████████▎ | 423/511 [00:23<00:04, 18.59it/s]

logits = tensor([[ 9.0781],
        [-9.2812],
        [ 8.9531],
        [-1.2988],
        [-9.1250],
        [ 8.6719],
        [ 8.9531],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.07352924346924
count = 421
logits = tensor([[ 9.0312],
        [-9.1172],
        [ 8.9844],
        [ 8.8438],
        [ 8.9297],
        [-0.6919],
        [ 9.0156],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 422
logits = tensor([[ 8.9609],
        [ 8.8984],
        [-9.1719],
        [-9.2188],
        [-9.1406],
        [ 8.9219],
        [-9.1172],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 423
logits = tensor([[ 8.9922],
        [ 8.9688],
        [ 9.0078],
        [ 9.0234],
        [ 9.0859],
        [-9.1484],
        [ 8.9219],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 424


 84%|████████▎ | 427/511 [00:23<00:04, 18.71it/s]

logits = tensor([[ 8.8516],
        [ 8.6484],
        [ 8.9453],
        [-9.1172],
        [-9.1641],
        [-9.1484],
        [-8.5078],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 425
logits = tensor([[ 8.9453],
        [ 8.9844],
        [ 8.9219],
        [-9.0703],
        [ 8.9766],
        [ 9.0156],
        [ 8.9688],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 426
logits = tensor([[ 9.0469],
        [ 9.0078],
        [ 8.6484],
        [-8.7969],
        [-9.1172],
        [ 8.7266],
        [-9.1797],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.21070575714111
count = 427
logits = tensor([[-8.6641],
        [-9.1719],
        [-0.7246],
        [-9.1172],
        [ 8.9922],
        [-9.0312],
        [-8.7891],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.26008319854736
count = 428


 84%|████████▍ | 431/511 [00:23<00:04, 18.17it/s]

logits = tensor([[ 8.9453],
        [-9.1094],
        [-9.0078],
        [ 8.5547],
        [ 8.9766],
        [-9.2422],
        [-8.9141],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.26008319854736
count = 429
logits = tensor([[-0.4944],
        [-0.3989],
        [ 8.9531],
        [ 9.0312],
        [-9.1172],
        [ 8.9844],
        [ 8.8828],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.38370990753174
count = 430
logits = tensor([[ 9.0078],
        [ 1.0195],
        [-9.1172],
        [-8.7812],
        [ 9.0703],
        [ 8.6797],
        [ 8.9922],
        [ 8.8828]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.54969501495361
count = 431
logits = tensor([[-9.1250],
        [ 8.9609],
        [-8.9922],
        [-9.1250],
        [ 8.9453],
        [ 9.0391],
        [-0.3430],
        [ 4.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 432


 85%|████████▌ | 435/511 [00:23<00:04, 18.75it/s]

logits = tensor([[ 9.0625],
        [ 9.0625],
        [ 8.0938],
        [ 9.0156],
        [ 8.9844],
        [ 8.9766],
        [-8.8828],
        [ 8.8984]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 433
logits = tensor([[-9.1719],
        [ 9.0234],
        [-8.7812],
        [ 9.0078],
        [-9.0625],
        [ 8.9844],
        [ 8.9219],
        [ 8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 434
logits = tensor([[ 9.0000],
        [-9.1484],
        [-9.0781],
        [ 8.9688],
        [ 9.0703],
        [ 8.9453],
        [ 9.0078],
        [ 8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 435
logits = tensor([[ 8.9375],
        [-8.4297],
        [-9.1250],
        [ 8.9531],
        [-9.0625],
        [ 8.8438],
        [-9.0078],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 436


 86%|████████▌ | 439/511 [00:24<00:03, 18.50it/s]

logits = tensor([[-8.1562],
        [-9.1875],
        [ 8.9609],
        [ 8.9375],
        [-9.1484],
        [ 8.9922],
        [-8.9453],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 437
logits = tensor([[-9.1406],
        [-8.2969],
        [ 8.9375],
        [ 8.9609],
        [ 8.5000],
        [ 8.6875],
        [-9.1719],
        [-8.9922]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 438
logits = tensor([[ 9.0547],
        [ 8.9922],
        [ 8.9844],
        [ 9.0234],
        [-9.1641],
        [-9.1562],
        [ 9.0391],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66092395782471
count = 439
logits = tensor([[ 8.9922],
        [-8.8359],
        [-2.8281],
        [ 8.9922],
        [-9.0859],
        [-9.0625],
        [-9.0859],
        [ 8.9609]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66815662384033
count = 440


 87%|████████▋ | 443/511 [00:24<00:03, 18.87it/s]

logits = tensor([[-8.5312],
        [ 9.0469],
        [ 8.9375],
        [ 8.8125],
        [-9.2344],
        [ 8.9062],
        [ 8.8281],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66815662384033
count = 441
logits = tensor([[ 9.0312],
        [ 8.9141],
        [-9.0547],
        [ 8.8047],
        [ 8.8125],
        [-9.2188],
        [-9.0547],
        [ 8.5312]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66815662384033
count = 442
logits = tensor([[-9.0234],
        [ 9.0469],
        [-9.1406],
        [ 8.9062],
        [ 8.9922],
        [-9.0938],
        [ 8.8750],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.66815662384033
count = 443
logits = tensor([[-8.9453],
        [-1.7080],
        [ 8.6328],
        [-9.1172],
        [ 8.5547],
        [ 8.7891],
        [ 9.0234],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.68901538848877
count = 444


 87%|████████▋ | 447/511 [00:24<00:03, 18.54it/s]

logits = tensor([[-9.1094],
        [ 8.9766],
        [-8.9141],
        [ 9.0078],
        [ 8.6719],
        [ 9.0000],
        [-9.1250],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.68901538848877
count = 445
logits = tensor([[ 9.0312],
        [-9.1328],
        [ 0.1575],
        [ 9.0078],
        [ 9.0000],
        [-9.1484],
        [ 8.5625],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.76622486114502
count = 446
logits = tensor([[ 8.9375],
        [ 8.9844],
        [-9.2266],
        [ 8.4766],
        [ 8.9766],
        [ 8.9141],
        [ 8.9766],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.76622486114502
count = 447
logits = tensor([[ 8.8359],
        [ 8.9844],
        [ 8.9766],
        [-9.0859],
        [-0.1411],
        [-9.1797],
        [ 9.0703],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.86198902130127
count = 448


 88%|████████▊ | 451/511 [00:24<00:03, 18.44it/s]

logits = tensor([[-8.5078],
        [ 8.9531],
        [-9.2500],
        [ 8.9844],
        [ 9.0000],
        [-9.1719],
        [ 9.0078],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.86198902130127
count = 449
logits = tensor([[ 9.0078],
        [-9.1406],
        [ 0.8130],
        [-2.2617],
        [-9.0859],
        [ 9.0391],
        [ 9.0000],
        [-9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.02190113067627
count = 450
logits = tensor([[ 8.9453],
        [ 9.0469],
        [ 8.8984],
        [-9.1172],
        [-9.0781],
        [ 8.9219],
        [-9.0859],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.02190113067627
count = 451
logits = tensor([[-9.0547],
        [ 9.0547],
        [-9.1250],
        [-0.4136],
        [ 8.9531],
        [ 9.0078],
        [-9.1406],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.08531665802002
count = 452


 89%|████████▉ | 455/511 [00:24<00:02, 18.69it/s]

logits = tensor([[ 8.8984],
        [ 8.9844],
        [ 8.9453],
        [-9.0078],
        [-9.0703],
        [-1.5186],
        [ 8.9375],
        [-9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.11005115509033
count = 453
logits = tensor([[ 8.8203],
        [-9.1875],
        [ 8.7500],
        [ 8.9766],
        [ 8.9375],
        [ 8.2891],
        [ 8.9453],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.11005115509033
count = 454
logits = tensor([[ 9.0078],
        [ 9.0234],
        [-9.1719],
        [ 9.0156],
        [ 8.9766],
        [ 9.0312],
        [ 9.0312],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.11005115509033
count = 455
logits = tensor([[ 8.9453],
        [-9.1328],
        [-8.8516],
        [-9.1094],
        [ 8.9766],
        [ 8.9766],
        [-8.9766],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.11005115509033
count = 456


 90%|████████▉ | 459/511 [00:25<00:02, 18.83it/s]

logits = tensor([[ 8.9844],
        [-9.1406],
        [ 9.0469],
        [ 9.0234],
        [ 9.0625],
        [-9.1719],
        [ 9.0156],
        [-9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.11005115509033
count = 457
logits = tensor([[ 8.9453],
        [ 8.9844],
        [-0.6221],
        [ 8.9375],
        [ 0.2112],
        [-9.0938],
        [ 8.9844],
        [ 9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.26434803009033
count = 458
logits = tensor([[-9.1328],
        [ 9.0156],
        [ 8.9609],
        [ 8.8906],
        [ 9.0000],
        [-9.0938],
        [ 0.5312],
        [ 9.0078]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.38855457305908
count = 459
logits = tensor([[ 9.0078],
        [ 8.8906],
        [ 9.0156],
        [ 9.0234],
        [-2.2324],
        [ 9.0078],
        [ 8.9141],
        [ 8.8672]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.68036365509033
count = 460


 91%|█████████ | 463/511 [00:25<00:02, 18.56it/s]

logits = tensor([[ 9.0312],
        [-2.3828],
        [ 9.0312],
        [ 8.9766],
        [ 9.0391],
        [ 8.8984],
        [-9.0312],
        [-0.4580]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.7526216506958
count = 461
logits = tensor([[ 9.0156],
        [ 9.0312],
        [ 8.8125],
        [ 9.0234],
        [ 8.9922],
        [ 8.9219],
        [-9.1406],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.7526216506958
count = 462
logits = tensor([[ 8.9609],
        [-9.1016],
        [ 9.0781],
        [ 8.9688],
        [ 8.9688],
        [ 8.5547],
        [-9.1250],
        [-9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.7526216506958
count = 463
logits = tensor([[ 8.9531],
        [-3.3281],
        [-9.0938],
        [ 8.5547],
        [-9.1719],
        [ 8.8672],
        [ 0.6069],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.88730716705322
count = 464


 91%|█████████▏| 467/511 [00:25<00:02, 18.51it/s]

logits = tensor([[ 9.0625],
        [ 9.0312],
        [ 9.0078],
        [-0.0180],
        [-9.1641],
        [ 8.7188],
        [-0.5361],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.03262424468994
count = 465
logits = tensor([[-0.3582],
        [-9.1875],
        [-0.8906],
        [ 8.8438],
        [ 9.0078],
        [-9.1328],
        [-9.0234],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.186646461486816
count = 466
logits = tensor([[ 9.0078],
        [ 8.9531],
        [-0.5874],
        [-0.4546],
        [-9.1719],
        [ 8.8672],
        [-1.2480],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.54769992828369
count = 467
logits = tensor([[-9.1406],
        [ 8.4141],
        [ 9.0000],
        [ 0.2280],
        [ 8.9219],
        [ 8.5703],
        [ 8.9766],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.64938449859619
count = 468


 92%|█████████▏| 471/511 [00:25<00:02, 18.41it/s]

logits = tensor([[ 8.9453],
        [ 9.0156],
        [ 8.9453],
        [ 9.0000],
        [-2.3672],
        [-9.0859],
        [-8.9297],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.660584449768066
count = 469
logits = tensor([[-9.1016],
        [-1.0352],
        [-9.1406],
        [ 8.9297],
        [ 9.0469],
        [ 9.0547],
        [ 8.9453],
        [ 8.9531]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.698609352111816
count = 470
logits = tensor([[ 8.9453],
        [-9.0625],
        [-9.0469],
        [-0.7720],
        [ 9.0234],
        [-0.6382],
        [ 8.9609],
        [ 9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.878846168518066
count = 471
logits = tensor([[-0.8633],
        [ 8.9766],
        [-9.0547],
        [ 1.8916],
        [-8.9219],
        [ 8.5859],
        [ 8.9766],
        [-8.6953]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.284729957580566
count = 472


 93%|█████████▎| 475/511 [00:26<00:01, 18.38it/s]

logits = tensor([[ 8.9922],
        [-9.0469],
        [-9.1406],
        [ 8.9375],
        [ 8.9375],
        [ 8.9453],
        [ 9.0234],
        [-9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.284729957580566
count = 473
logits = tensor([[ 9.0938],
        [ 9.0312],
        [ 8.8906],
        [ 9.0000],
        [-9.1172],
        [-1.3057],
        [-9.1719],
        [-0.3486]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.544678688049316
count = 474
logits = tensor([[ 9.0391],
        [-9.1328],
        [-9.0703],
        [-1.7031],
        [-0.6616],
        [ 8.9453],
        [ 8.9453],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.61750888824463
count = 475
logits = tensor([[ 9.0547],
        [ 9.0156],
        [ 8.9609],
        [ 9.0156],
        [ 9.0000],
        [-9.0469],
        [-1.3779],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.64560031890869
count = 476


 94%|█████████▎| 479/511 [00:26<00:01, 18.62it/s]

logits = tensor([[-1.8135],
        [-9.1484],
        [ 8.9531],
        [ 8.8359],
        [ 9.0781],
        [-8.7578],
        [ 8.8984],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.664490699768066
count = 477
logits = tensor([[ 9.0078],
        [ 9.0391],
        [ 8.9453],
        [ 4.4844],
        [-1.0381],
        [-9.1953],
        [ 8.9375],
        [-9.0391]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.833641052246094
count = 478
logits = tensor([[ 8.9766],
        [ 8.9297],
        [ 8.9766],
        [ 8.9609],
        [ 9.0156],
        [-9.0078],
        [-9.1406],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.833641052246094
count = 479
logits = tensor([[ 8.9531],
        [-9.0859],
        [-0.6294],
        [ 4.6211],
        [-8.5312],
        [ 9.0000],
        [ 8.8047],
        [ 8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.888261795043945
count = 480


 95%|█████████▍| 483/511 [00:26<00:01, 18.79it/s]

logits = tensor([[-9.1953],
        [-9.0000],
        [ 8.9688],
        [ 8.9219],
        [-9.1562],
        [-9.0859],
        [-8.7734],
        [ 8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.888261795043945
count = 481
logits = tensor([[ 9.0078],
        [ 9.0391],
        [ 8.9453],
        [-0.6919],
        [-9.0781],
        [ 8.9531],
        [-9.1406],
        [ 8.9453]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.02543830871582
count = 482
logits = tensor([[ 8.9609e+00],
        [-9.0781e+00],
        [-9.1406e+00],
        [-9.1484e+00],
        [-9.1250e+00],
        [-7.4005e-03],
        [ 9.0312e+00],
        [ 8.9844e+00]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.11161994934082
count = 483
logits = tensor([[ 8.9922],
        [-8.9922],
        [ 9.0234],
        [-9.1406],
        [-9.1875],
        [ 9.0156],
        [-9.0156],
        [-9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.11161994934082
count = 484

 95%|█████████▌| 487/511 [00:26<00:01, 18.18it/s]

logits = tensor([[ 8.8828],
        [ 9.0234],
        [ 8.7500],
        [ 8.9922],
        [ 8.9141],
        [ 8.9297],
        [ 8.9375],
        [-8.9844]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.11161994934082
count = 485
logits = tensor([[-9.1484],
        [ 8.9766],
        [-9.0547],
        [-0.1826],
        [ 8.8281],
        [ 9.0156],
        [-9.1016],
        [-8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.21019172668457
count = 486
logits = tensor([[ 8.9688],
        [-9.2031],
        [ 8.9688],
        [ 8.9297],
        [ 9.0234],
        [ 8.9531],
        [ 9.0469],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.21019172668457
count = 487
logits = tensor([[ 9.0312],
        [-0.0482],
        [ 9.0469],
        [-9.1797],
        [ 9.0234],
        [-0.6816],
        [ 9.0391],
        [-0.0734]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.442392349243164
count = 488


 96%|█████████▌| 491/511 [00:26<00:01, 18.44it/s]

logits = tensor([[ 9.0547],
        [ 8.9766],
        [ 9.0156],
        [-9.1953],
        [ 9.0391],
        [-0.6143],
        [ 8.9922],
        [ 8.9141]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.57322120666504
count = 489
logits = tensor([[ 8.7422],
        [ 8.9844],
        [-9.1562],
        [-9.0859],
        [ 9.0234],
        [ 8.8984],
        [ 8.9844],
        [ 8.7422]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.57322120666504
count = 490
logits = tensor([[-9.2031],
        [ 9.0391],
        [-9.1328],
        [ 8.9375],
        [ 0.3259],
        [-9.1016],
        [ 8.9375],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.681894302368164
count = 491
logits = tensor([[ 9.0156],
        [ 8.6172],
        [-9.1641],
        [ 8.9844],
        [-9.1094],
        [-9.2031],
        [-9.0234],
        [-9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.681894302368164
count = 492


 97%|█████████▋| 495/511 [00:27<00:00, 18.39it/s]

logits = tensor([[-9.2266],
        [-0.7168],
        [-9.0000],
        [ 8.9375],
        [ 9.0156],
        [ 9.0234],
        [-9.0000],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.73160743713379
count = 493
logits = tensor([[ 8.9844],
        [-0.4893],
        [ 8.7891],
        [ 8.9766],
        [-9.2031],
        [ 8.9062],
        [-9.1875],
        [ 8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.791391372680664
count = 494
logits = tensor([[ 8.8984],
        [-0.8311],
        [-9.1250],
        [ 8.8516],
        [-9.0547],
        [ 8.8438],
        [ 8.6953],
        [ 8.8750]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.83658790588379
count = 495
logits = tensor([[ 9.0000],
        [-9.0781],
        [-9.0859],
        [-1.0107],
        [-1.0498],
        [ 8.8750],
        [ 8.9922],
        [-0.3459]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.97971534729004
count = 496


 98%|█████████▊| 499/511 [00:27<00:00, 18.07it/s]

logits = tensor([[-2.8066],
        [-0.7808],
        [-9.0000],
        [-0.5698],
        [ 8.9609],
        [ 8.9688],
        [-0.8730],
        [-8.6641]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.24298286437988
count = 497
logits = tensor([[-8.9062],
        [ 8.9688],
        [-0.8926],
        [-0.0189],
        [ 9.0156],
        [ 9.0156],
        [ 8.9375],
        [ 8.7891]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.48533058166504
count = 498
logits = tensor([[ 8.9922],
        [ 8.8594],
        [ 8.9531],
        [-7.8945],
        [ 8.9766],
        [ 8.9453],
        [ 8.9609],
        [-9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.48533058166504
count = 499
logits = tensor([[-0.9248],
        [-9.0703],
        [ 8.9531],
        [-9.0547],
        [ 8.9609],
        [ 8.9531],
        [ 8.8203],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.64267921447754
count = 500


 98%|█████████▊| 503/511 [00:27<00:00, 18.41it/s]

logits = tensor([[ 8.9297],
        [-9.0938],
        [ 8.9609],
        [ 8.9375],
        [-9.1562],
        [ 9.0391],
        [-9.0625],
        [-0.7866]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.78788185119629
count = 501
logits = tensor([[-9.1172],
        [-9.1094],
        [-9.1562],
        [ 8.9922],
        [-9.1328],
        [ 9.0391],
        [-9.0469],
        [ 8.9375]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.78788185119629
count = 502
logits = tensor([[ 0.4312],
        [-9.0000],
        [ 9.0625],
        [ 9.0781],
        [-9.0234],
        [ 8.9609],
        [-9.1250],
        [-9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.90439796447754
count = 503
logits = tensor([[-9.0859],
        [ 8.5781],
        [ 8.8672],
        [ 9.0156],
        [-1.2988],
        [ 9.0156],
        [ 9.0234],
        [-1.2021]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.129831314086914
count = 504


 99%|█████████▉| 507/511 [00:27<00:00, 18.53it/s]

logits = tensor([[ 8.4844],
        [-0.0874],
        [-9.1641],
        [-9.1172],
        [ 8.9297],
        [ 8.8828],
        [-9.0234],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.211130142211914
count = 505
logits = tensor([[ 8.9531],
        [ 9.0078],
        [ 9.0469],
        [ 9.0469],
        [-9.1406],
        [ 0.0280],
        [ 9.0156],
        [-0.9258]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.34128379821777
count = 506
logits = tensor([[ 8.9688],
        [ 9.0312],
        [-9.1250],
        [ 8.8984],
        [-9.1250],
        [ 8.9844],
        [ 9.0078],
        [-9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.34128379821777
count = 507
logits = tensor([[ 8.5781],
        [ 8.9531],
        [-0.0632],
        [ 9.0703],
        [ 8.9375],
        [-9.0703],
        [-9.1016],
        [ 8.9297]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.42410850524902
count = 508


100%|█████████▉| 509/511 [00:27<00:00, 18.64it/s]

logits = tensor([[-9.0234],
        [ 9.0078],
        [ 8.9688],
        [ 4.3320],
        [-9.0625],
        [ 9.0000],
        [ 8.9922],
        [ 8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.42568588256836
count = 509
logits = tensor([[ 9.0469],
        [-0.5146],
        [-1.7812],
        [ 8.8594],
        [-9.1875],
        [-9.1094],
        [-9.1406],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.726314544677734
count = 510
logits = tensor([[-9.1250],
        [-9.0234],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.726314544677734
count = 511


100%|██████████| 511/511 [00:28<00:00, 18.11it/s]



Epoch 3 complete! Validation Loss : 0.07969924568430085
Best validation loss improved from 0.08261696221543852 to 0.07969924568430085



 20%|██        | 307/1532 [00:47<03:04,  6.65it/s]


Iteration 306/1532 of epoch 4 complete. Loss : 0.03796271586788208 


 40%|████      | 613/1532 [01:35<02:20,  6.54it/s]


Iteration 612/1532 of epoch 4 complete. Loss : 0.035253204367976874 


 60%|█████▉    | 919/1532 [02:22<01:33,  6.54it/s]


Iteration 918/1532 of epoch 4 complete. Loss : nan 


 80%|███████▉  | 1225/1532 [03:09<00:45,  6.70it/s]


Iteration 1224/1532 of epoch 4 complete. Loss : 0.034191652465024105 


100%|█████████▉| 1531/1532 [03:57<00:00,  6.78it/s]


Iteration 1530/1532 of epoch 4 complete. Loss : 0.03537034110554279 


100%|██████████| 1532/1532 [03:57<00:00,  6.45it/s]
  1%|          | 3/511 [00:00<01:22,  6.14it/s]

logits = tensor([[-9.4688],
        [-9.4531],
        [-0.9072],
        [-9.4688],
        [ 9.2266],
        [ 9.2109],
        [-1.8477],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.17401123046875
count = 1
logits = tensor([[-9.4297],
        [-9.4688],
        [ 9.2188],
        [ 9.1328],
        [ 9.2578],
        [-1.3193],
        [ 9.2109],
        [-9.4688]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.368560791015625
count = 2
logits = tensor([[-0.5054],
        [ 9.1875],
        [ 9.2266],
        [-9.4375],
        [ 8.5469],
        [-0.9175],
        [ 9.2344],
        [-2.3848]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.8418197631835938
count = 3
logits = tensor([[ 9.2266],
        [ 9.1172],
        [-9.3984],
        [ 9.2500],
        [ 9.2109],
        [ 8.9922],
        [-9.4141],
        [-2.5469]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.8512191772460938
count = 4


  1%|▏         | 7/511 [00:00<00:42, 11.76it/s]

logits = tensor([[ 4.4336],
        [-9.4062],
        [ 9.2422],
        [-9.3984],
        [ 9.2109],
        [ 9.2656],
        [-9.4844],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 0.8526754379272461
count = 5
logits = tensor([[-9.4531],
        [ 9.1562],
        [-9.4141],
        [-0.6973],
        [-9.4375],
        [-9.4297],
        [-3.2090],
        [-0.0322]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.3978872299194336
count = 6
logits = tensor([[ 2.0996],
        [ 9.1641],
        [ 9.2109],
        [ 9.2344],
        [-9.4609],
        [-9.4688],
        [-9.4062],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.6747350692749023
count = 7
logits = tensor([[ 8.9688],
        [-9.4297],
        [ 9.1328],
        [ 9.2188],
        [ 9.2344],
        [ 8.9844],
        [ 9.1875],
        [-0.8208]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.8229589462280273
count = 8


  2%|▏         | 11/511 [00:01<00:33, 15.00it/s]

logits = tensor([[-9.4062],
        [-9.4609],
        [-9.4453],
        [-0.3984],
        [-9.3203],
        [-9.4688],
        [ 9.1250],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.8872289657592773
count = 9
logits = tensor([[-0.6396],
        [-9.3359],
        [ 2.7910],
        [ 9.2344],
        [-9.2812],
        [-1.9561],
        [ 9.2422],
        [ 9.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 1.9641942977905273
count = 10
logits = tensor([[ 9.1641],
        [-0.3406],
        [ 9.2109],
        [-1.6904],
        [ 9.2031],
        [ 9.1719],
        [-9.4453],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.0525121688842773
count = 11
logits = tensor([[ 9.1875],
        [ 9.2188],
        [ 9.2891],
        [-9.4766],
        [-9.4688],
        [-9.3906],
        [ 9.2031],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.0525121688842773
count = 12


  3%|▎         | 15/511 [00:01<00:29, 16.78it/s]

logits = tensor([[ 9.2188],
        [-9.4844],
        [ 9.1250],
        [ 9.2109],
        [ 9.0000],
        [ 9.0391],
        [-0.8330],
        [-1.4248]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.2286596298217773
count = 13
logits = tensor([[-9.4453],
        [ 0.1779],
        [-2.3867],
        [ 9.1484],
        [ 9.1641],
        [-9.4688],
        [ 9.1875],
        [ 0.7700]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.459425926208496
count = 14
logits = tensor([[-9.4375],
        [-9.4453],
        [ 9.1953],
        [-9.4219],
        [-0.6982],
        [-1.1211],
        [-1.2285],
        [-1.2725]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.767256736755371
count = 15
logits = tensor([[ 9.2500],
        [-9.4688],
        [-9.4219],
        [ 9.2422],
        [ 9.2109],
        [ 9.2734],
        [ 9.2500],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.767256736755371
count = 16


  4%|▎         | 19/511 [00:01<00:28, 17.39it/s]

logits = tensor([[ 9.0391],
        [-9.3906],
        [-9.4766],
        [ 9.1562],
        [-9.4219],
        [-9.4297],
        [ 9.1797],
        [ 8.6406]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.767256736755371
count = 17
logits = tensor([[-2.1484],
        [-9.4141],
        [-9.3750],
        [-9.4375],
        [-9.4609],
        [-9.4844],
        [ 9.2734],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.7809972763061523
count = 18
logits = tensor([[-9.4531],
        [ 9.2031],
        [ 9.2734],
        [-9.4688],
        [-0.9688],
        [ 9.1953],
        [ 9.1719],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8212499618530273
count = 19
logits = tensor([[ 9.1719],
        [ 9.1562],
        [-1.0469],
        [-9.5234],
        [-9.3438],
        [-9.4297],
        [ 9.2031],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8589086532592773
count = 20


  5%|▍         | 23/511 [00:01<00:26, 18.20it/s]

logits = tensor([[ 9.1875],
        [-9.3750],
        [-9.4531],
        [ 9.0547],
        [-9.3594],
        [-9.3750],
        [-9.3828],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.8589086532592773
count = 21
logits = tensor([[ 9.1328],
        [ 9.0625],
        [-0.6968],
        [ 9.2500],
        [ 9.0859],
        [-0.6841],
        [-9.3750],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.9604101181030273
count = 22
logits = tensor([[-1.2607],
        [-8.8203],
        [-9.4766],
        [ 9.2344],
        [ 9.2031],
        [ 9.1953],
        [-9.4453],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 2.991583824157715
count = 23
logits = tensor([[ 9.2266],
        [ 9.2344],
        [ 9.2578],
        [-1.1357],
        [ 9.2266],
        [ 9.2656],
        [ 9.1250],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.02640438079834
count = 24


  5%|▌         | 27/511 [00:01<00:26, 18.59it/s]

logits = tensor([[-9.4141],
        [-9.4297],
        [-2.2773],
        [ 9.1719],
        [-3.3340],
        [ 9.2188],
        [ 9.2109],
        [-8.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.459670066833496
count = 25
logits = tensor([[-0.5493],
        [ 9.1484],
        [ 9.2109],
        [ 9.1797],
        [ 9.2344],
        [ 9.1719],
        [-9.4141],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.516615867614746
count = 26
logits = tensor([[ 9.2266],
        [-9.4297],
        [ 9.1797],
        [-9.3906],
        [-9.3672],
        [ 9.1953],
        [ 9.0234],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.516615867614746
count = 27
logits = tensor([[ 9.2344],
        [ 9.0781],
        [ 9.2188],
        [ 9.1250],
        [-3.8242],
        [ 9.1797],
        [ 9.1484],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.519272804260254
count = 28


  6%|▌         | 31/511 [00:02<00:25, 18.62it/s]

logits = tensor([[-9.4297],
        [ 9.1719],
        [ 9.1797],
        [ 9.2344],
        [ 8.5703],
        [-9.3984],
        [ 9.2344],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.519272804260254
count = 29
logits = tensor([[ 9.1719],
        [ 9.1797],
        [ 9.2266],
        [-9.4766],
        [ 9.2266],
        [ 9.2188],
        [-0.4487],
        [-9.3594]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.581009864807129
count = 30
logits = tensor([[ 9.2266],
        [ 9.1250],
        [ 9.1797],
        [ 9.2031],
        [ 9.2500],
        [-9.4375],
        [-9.5078],
        [ 9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.581009864807129
count = 31
logits = tensor([[ 9.2266],
        [-9.4922],
        [-9.4297],
        [ 8.9688],
        [ 9.0781],
        [ 9.2188],
        [-1.2881],
        [-1.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.7909250259399414
count = 32


  7%|▋         | 35/511 [00:02<00:25, 18.58it/s]

logits = tensor([[ 9.2188],
        [ 8.8906],
        [-9.4453],
        [ 9.2266],
        [-9.4844],
        [-9.4531],
        [ 9.2188],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.7909250259399414
count = 33
logits = tensor([[ 9.2188],
        [-9.4297],
        [-9.3906],
        [ 9.1875],
        [ 0.6353],
        [-9.3594],
        [-9.4766],
        [ 8.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.9234323501586914
count = 34
logits = tensor([[ 9.2266],
        [-9.4922],
        [ 9.2656],
        [ 9.1719],
        [ 9.2266],
        [ 9.1172],
        [-9.4219],
        [-9.3906]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.9234323501586914
count = 35
logits = tensor([[ 9.2266],
        [ 9.2500],
        [-9.4531],
        [-9.4453],
        [-9.3125],
        [ 0.9341],
        [-9.4688],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 3.9648141860961914
count = 36


  8%|▊         | 39/511 [00:02<00:25, 18.33it/s]

logits = tensor([[ 9.1875],
        [-9.5000],
        [-0.8770],
        [-9.4375],
        [-9.3125],
        [-9.4844],
        [ 9.1797],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.008301734924316
count = 37
logits = tensor([[ 9.2031],
        [ 0.7583],
        [-1.0342],
        [-9.5000],
        [ 9.2109],
        [ 9.2500],
        [ 9.1797],
        [ 1.1143]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.129853248596191
count = 38
logits = tensor([[ 9.1953],
        [-0.7593],
        [ 9.0781],
        [ 9.1875],
        [ 9.2344],
        [ 9.1875],
        [ 9.2578],
        [-9.3750]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.272736549377441
count = 39
logits = tensor([[ 8.6094],
        [-9.3828],
        [ 9.2031],
        [-9.4609],
        [-9.4531],
        [ 8.9062],
        [-0.6992],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.323182106018066
count = 40


  8%|▊         | 43/511 [00:02<00:25, 18.33it/s]

logits = tensor([[-9.4609],
        [ 9.2109],
        [-9.4609],
        [ 9.2109],
        [-9.4844],
        [ 9.2188],
        [ 9.1172],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.323182106018066
count = 41
logits = tensor([[-9.4766],
        [ 9.0703],
        [ 9.1875],
        [-1.9209],
        [-9.3984],
        [-0.8091],
        [ 4.4141],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.387779235839844
count = 42
logits = tensor([[ 9.2422],
        [-9.4453],
        [-9.4062],
        [-9.3594],
        [ 9.2188],
        [ 9.1797],
        [ 9.1797],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.387779235839844
count = 43
logits = tensor([[-9.4453],
        [-9.3906],
        [-9.2812],
        [ 9.2422],
        [ 9.1016],
        [-9.4688],
        [-0.5566],
        [-0.3577]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.555412292480469
count = 44


  9%|▉         | 47/511 [00:02<00:25, 18.19it/s]

logits = tensor([[-9.0156],
        [-9.4609],
        [-1.2090],
        [-9.3672],
        [ 9.2344],
        [-0.8779],
        [-9.4219],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.631584167480469
count = 45
logits = tensor([[-9.3359],
        [ 9.2422],
        [ 0.5674],
        [ 9.1875],
        [ 9.2344],
        [-9.4297],
        [-2.0312],
        [-9.3828]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.7030487060546875
count = 46
logits = tensor([[ 9.2656],
        [-9.3125],
        [ 9.1641],
        [ 9.2109],
        [-9.4141],
        [-9.4766],
        [-0.2908],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.7728729248046875
count = 47
logits = tensor([[-9.4141],
        [-0.1293],
        [-9.4531],
        [-9.4141],
        [-1.9688],
        [ 9.2266],
        [-9.3984],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.8842315673828125
count = 48


 10%|▉         | 51/511 [00:03<00:25, 18.33it/s]

logits = tensor([[ 9.1328],
        [ 9.1875],
        [-9.4453],
        [ 9.1328],
        [-9.4844],
        [-9.3672],
        [-9.3984],
        [-1.8965]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.9017486572265625
count = 49
logits = tensor([[-9.3828],
        [ 9.1016],
        [ 9.2031],
        [ 9.1719],
        [-9.4375],
        [-9.4141],
        [-3.1465],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.907009124755859
count = 50
logits = tensor([[ 9.1953],
        [ 9.1875],
        [ 9.2266],
        [-9.4766],
        [ 9.1797],
        [-9.4375],
        [-9.4453],
        [ 9.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.907009124755859
count = 51
logits = tensor([[ 9.2656],
        [ 9.2109],
        [-9.4609],
        [-9.4219],
        [-3.7773],
        [ 8.6094],
        [-9.4844],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.909786224365234
count = 52


 11%|█         | 55/511 [00:03<00:24, 18.45it/s]

logits = tensor([[ 9.1484],
        [ 9.1875],
        [-0.4819],
        [-9.4453],
        [-9.3672],
        [ 9.1172],
        [-9.2031],
        [ 9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 4.969875335693359
count = 53
logits = tensor([[-8.6406],
        [ 9.2188],
        [ 9.1641],
        [ 9.2344],
        [ 8.9297],
        [ 9.2188],
        [-0.5835],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.098293304443359
count = 54
logits = tensor([[ 9.2422],
        [-9.4375],
        [ 9.1953],
        [ 9.1094],
        [ 9.2266],
        [-9.4219],
        [-0.9102],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.254329681396484
count = 55
logits = tensor([[ 9.1562],
        [ 9.2109],
        [ 9.1641],
        [ 9.2578],
        [-9.4766],
        [ 9.2422],
        [-1.1494],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.288692474365234
count = 56


 12%|█▏        | 59/511 [00:03<00:24, 18.20it/s]

logits = tensor([[ 3.5098],
        [ 9.1641],
        [-9.3828],
        [ 9.1953],
        [ 9.1562],
        [-9.5078],
        [ 9.1719],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.292421340942383
count = 57
logits = tensor([[ 9.2031],
        [ 9.2031],
        [-9.4297],
        [-9.4531],
        [-9.4609],
        [ 9.2031],
        [ 9.1406],
        [-9.5000]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.292421340942383
count = 58
logits = tensor([[ 9.2188],
        [ 9.2344],
        [-9.4453],
        [-9.4766],
        [-9.3828],
        [ 9.1797],
        [-9.5156],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.292421340942383
count = 59
logits = tensor([[ 9.2188e+00],
        [ 9.1797e+00],
        [-9.4688e+00],
        [ 9.2734e+00],
        [-9.5000e+00],
        [-8.0795e-03],
        [-9.4609e+00],
        [ 4.0967e-01]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.443272590637207
count = 60


 12%|█▏        | 63/511 [00:03<00:24, 18.33it/s]

logits = tensor([[-9.3984],
        [-9.3203],
        [-9.4062],
        [ 9.1719],
        [-9.4766],
        [-0.5225],
        [ 0.1229],
        [-0.5488]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.7217607498168945
count = 61
logits = tensor([[ 8.8438],
        [-9.4922],
        [-9.2656],
        [ 9.2344],
        [ 9.2422],
        [ 0.1273],
        [-9.4844],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.816655158996582
count = 62
logits = tensor([[ 9.1562],
        [-1.1230],
        [ 9.2266],
        [-1.7783],
        [-1.1484],
        [ 9.2578],
        [-9.4531],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 5.9058122634887695
count = 63
logits = tensor([[-1.9219],
        [ 8.7656],
        [ 9.2109],
        [ 9.2266],
        [-1.3965],
        [-9.4609],
        [ 9.1172],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.125065803527832
count = 64


 13%|█▎        | 67/511 [00:04<00:24, 18.14it/s]

logits = tensor([[-9.4609],
        [ 9.0781],
        [-1.4629],
        [ 9.1406],
        [ 9.1016],
        [-9.4609],
        [ 9.2656],
        [-9.4062]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.1510820388793945
count = 65
logits = tensor([[-9.4297],
        [-9.3750],
        [ 9.2734],
        [ 9.2578],
        [ 9.2656],
        [-1.2168],
        [ 9.2422],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.1834917068481445
count = 66
logits = tensor([[-0.7476],
        [ 9.2422],
        [-9.3984],
        [-9.4922],
        [ 9.1875],
        [ 9.2266],
        [ 9.1953],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.2319536209106445
count = 67
logits = tensor([[ 9.1641],
        [ 9.1953],
        [ 9.2500],
        [ 9.2109],
        [ 8.6328],
        [-9.5156],
        [-2.6387],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.2405595779418945
count = 68


 14%|█▍        | 71/511 [00:04<00:24, 18.26it/s]

logits = tensor([[ 9.1953],
        [ 9.1875],
        [ 9.2734],
        [ 9.1719],
        [ 9.1172],
        [ 9.1094],
        [-8.3125],
        [-9.3750]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.2405595779418945
count = 69
logits = tensor([[ 9.2031],
        [-1.1426],
        [ 9.2422],
        [ 9.0312],
        [-9.3672],
        [-1.0068],
        [ 9.1875],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.4569292068481445
count = 70
logits = tensor([[ 9.2734],
        [-9.4922],
        [ 9.2266],
        [ 9.1484],
        [ 9.1484],
        [ 9.0625],
        [-9.4766],
        [ 9.0234]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.4569292068481445
count = 71
logits = tensor([[ 9.2500],
        [-0.8271],
        [-1.1797],
        [-9.4688],
        [ 9.2891],
        [ 8.8359],
        [ 3.4199],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.539898872375488
count = 72


 15%|█▍        | 75/511 [00:04<00:23, 18.58it/s]

logits = tensor([[-9.5000],
        [-9.4609],
        [-9.4141],
        [ 9.2266],
        [-9.5000],
        [ 9.1562],
        [ 9.1719],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.539898872375488
count = 73
logits = tensor([[ 9.2422],
        [-0.9883],
        [ 0.3467],
        [-9.4766],
        [ 9.2422],
        [-9.4766],
        [-9.4453],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.646283149719238
count = 74
logits = tensor([[-9.3594],
        [ 9.2344],
        [-9.3750],
        [ 9.1797],
        [-9.4609],
        [ 9.1484],
        [-9.4062],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.646283149719238
count = 75
logits = tensor([[-9.4219],
        [-9.4062],
        [ 9.1172],
        [ 9.0547],
        [-9.3203],
        [-9.4922],
        [-1.0352],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.684308052062988
count = 76


 15%|█▌        | 79/511 [00:04<00:22, 18.83it/s]

logits = tensor([[-9.5156],
        [ 9.2109],
        [-9.4297],
        [ 9.1250],
        [-9.4688],
        [ 9.2422],
        [-9.3594],
        [-9.4062]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.684308052062988
count = 77
logits = tensor([[-9.4375],
        [ 9.1797],
        [-1.1797],
        [ 8.8359],
        [-9.4688],
        [ 9.2266],
        [ 9.2422],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 6.717846870422363
count = 78
logits = tensor([[ 9.2734],
        [ 9.2031],
        [ 1.8105],
        [ 8.6094],
        [-1.1729],
        [-2.4492],
        [-0.7759],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.298069953918457
count = 79
logits = tensor([[ 9.2422],
        [-9.3828],
        [ 9.2344],
        [ 9.2188],
        [-9.4062],
        [ 9.1875],
        [ 9.2266],
        [-9.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.298069953918457
count = 80


 16%|█▌        | 83/511 [00:04<00:22, 18.99it/s]

logits = tensor([[-1.3320],
        [ 9.2344],
        [ 9.0938],
        [ 9.1719],
        [-9.4141],
        [ 9.1875],
        [ 1.3135],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.357060432434082
count = 81
logits = tensor([[ 8.8750],
        [-9.3516],
        [-9.4297],
        [-9.4453],
        [-9.4297],
        [-9.5156],
        [-9.3984],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.357060432434082
count = 82
logits = tensor([[ 8.8672],
        [-9.4062],
        [ 9.1641],
        [-1.2695],
        [ 9.1875],
        [-9.4531],
        [ 9.2109],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.388035774230957
count = 83
logits = tensor([[ 9.2500],
        [ 9.2578],
        [ 9.1797],
        [-9.3906],
        [ 0.6338],
        [ 9.2031],
        [-1.3770],
        [-9.3672]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.4693803787231445
count = 84


 17%|█▋        | 87/511 [00:05<00:22, 18.64it/s]

logits = tensor([[ 9.2422],
        [-9.4375],
        [ 9.2266],
        [-0.8477],
        [-9.3984],
        [ 9.2656],
        [-9.5000],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.5139665603637695
count = 85
logits = tensor([[ 9.2422],
        [-9.3828],
        [ 9.1797],
        [ 9.2422],
        [-9.3672],
        [ 9.2344],
        [-9.3906],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.5139665603637695
count = 86
logits = tensor([[-9.4297],
        [ 9.2344],
        [-2.2754],
        [-9.5156],
        [ 9.0078],
        [-9.4297],
        [ 9.2109],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.526165962219238
count = 87
logits = tensor([[-9.5312],
        [-9.4375],
        [ 9.1953],
        [ 9.2500],
        [-9.3672],
        [ 9.1562],
        [ 9.1953],
        [-1.4707]], device='cuda:0', dtype=torch.float16)
mean_loss = 7.551983833312988
count = 88


 18%|█▊        | 91/511 [00:05<00:22, 18.64it/s]

logits = tensor([[-0.6904],
        [-9.4375],
        [-9.4375],
        [ 9.1875],
        [ 9.0469],
        [ 9.1016],
        [ 4.3555],
        [-3.8438]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.173832893371582
count = 89
logits = tensor([[ 9.0859],
        [-9.4844],
        [ 9.1641],
        [-9.4531],
        [ 9.2031],
        [-2.1055],
        [ 9.1953],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.18822956085205
count = 90
logits = tensor([[-9.5078],
        [-0.6050],
        [ 9.1797],
        [-9.4062],
        [ 9.2500],
        [ 8.9141],
        [ 9.2500],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.24267292022705
count = 91
logits = tensor([[ 9.1797],
        [-9.4219],
        [ 8.6797],
        [-9.4297],
        [ 9.2500],
        [-9.4297],
        [-9.4219],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.24267292022705
count = 92


 19%|█▊        | 95/511 [00:05<00:22, 18.38it/s]

logits = tensor([[ 9.1484],
        [ 0.2520],
        [ 9.1953],
        [ 9.1875],
        [ 9.1094],
        [-9.3984],
        [-1.2207],
        [-9.3906]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.530972480773926
count = 93
logits = tensor([[ 9.2344],
        [-9.4297],
        [ 9.1797],
        [ 8.5391],
        [ 9.2422],
        [-9.4219],
        [-9.4453],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.530972480773926
count = 94
logits = tensor([[-9.4219],
        [-1.0371],
        [ 9.2578],
        [ 9.1562],
        [ 9.1328],
        [-9.3672],
        [-1.1650],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.60290241241455
count = 95
logits = tensor([[ 9.1562],
        [-1.0879],
        [-1.6357],
        [-9.3438],
        [-9.4688],
        [ 0.3350],
        [ 9.2031],
        [ 0.4189]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.7921724319458
count = 96


 19%|█▉        | 99/511 [00:05<00:22, 18.28it/s]

logits = tensor([[-9.4844],
        [ 9.0625],
        [-9.5000],
        [-9.3984],
        [-9.5078],
        [-9.4844],
        [ 9.2500],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.7921724319458
count = 97
logits = tensor([[-9.3828],
        [ 9.0703],
        [-9.5156],
        [ 9.1875],
        [ 9.0625],
        [-9.4219],
        [ 9.0781],
        [-2.5762]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.801350593566895
count = 98
logits = tensor([[9.1875],
        [9.2734],
        [9.1875],
        [9.1562],
        [8.9844],
        [9.2188],
        [9.1875],
        [9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.801350593566895
count = 99
logits = tensor([[ 9.2188],
        [-9.4688],
        [-9.4453],
        [-9.4531],
        [ 9.2578],
        [-9.4297],
        [ 9.1875],
        [-9.3906]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.801350593566895
count = 100


 20%|██        | 103/511 [00:05<00:22, 18.51it/s]

logits = tensor([[ 9.1719],
        [-1.0488],
        [ 9.2344],
        [-9.3828],
        [ 9.1719],
        [ 9.0859],
        [ 9.1328],
        [ 9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 8.97002124786377
count = 101
logits = tensor([[ 9.1953],
        [-9.4375],
        [-9.5078],
        [ 9.2266],
        [-0.7251],
        [-9.4609],
        [ 9.2266],
        [-0.9111]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.175557136535645
count = 102
logits = tensor([[ 9.2344],
        [ 9.2031],
        [ 9.2109],
        [-9.4375],
        [ 9.1250],
        [-9.4141],
        [ 9.1953],
        [-9.3672]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.175557136535645
count = 103
logits = tensor([[ 8.6172],
        [ 9.2031],
        [ 9.2266],
        [ 9.0625],
        [-2.5020],
        [ 9.1797],
        [ 9.2422],
        [ 8.8906]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.18541431427002
count = 104


 21%|██        | 107/511 [00:06<00:22, 18.08it/s]

logits = tensor([[-1.9492],
        [ 9.2188],
        [ 9.2188],
        [ 9.1719],
        [ 9.2188],
        [ 9.2031],
        [ 9.2891],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.20207691192627
count = 105
logits = tensor([[-9.4844],
        [ 9.1875],
        [ 9.2109],
        [ 9.1719],
        [-9.3984],
        [ 9.1953],
        [-9.3828],
        [-0.3459]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.26891040802002
count = 106
logits = tensor([[-9.4297],
        [-9.3984],
        [-9.4531],
        [ 9.0938],
        [-9.4609],
        [ 9.1328],
        [-9.3672],
        [-0.1376]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.34721851348877
count = 107
logits = tensor([[-9.3906],
        [ 9.0938],
        [-8.9531],
        [ 1.0938],
        [-9.4375],
        [ 9.2188],
        [ 9.2266],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.520039558410645
count = 108


 22%|██▏       | 111/511 [00:06<00:22, 17.97it/s]

logits = tensor([[ 9.1797],
        [ 9.2266],
        [ 9.2344],
        [ 8.8672],
        [-9.4531],
        [-9.5078],
        [-9.3984],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.520039558410645
count = 109
logits = tensor([[ 9.2422],
        [ 9.2344],
        [ 9.2188],
        [-9.4453],
        [ 9.2344],
        [-9.3594],
        [ 9.1562],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.520039558410645
count = 110
logits = tensor([[-9.5000],
        [ 9.2031],
        [-9.4062],
        [-9.4922],
        [ 9.1484],
        [-0.6030],
        [ 9.1875],
        [ 9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.64995288848877
count = 111
logits = tensor([[-8.9062],
        [-2.8887],
        [ 9.1328],
        [-9.3906],
        [-1.0869],
        [-9.4297],
        [-9.4141],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.693009376525879
count = 112


 23%|██▎       | 115/511 [00:06<00:22, 17.99it/s]

logits = tensor([[ 9.1094],
        [ 9.1797],
        [-9.4844],
        [ 9.1875],
        [-9.3828],
        [ 9.2344],
        [ 9.1953],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.693009376525879
count = 113
logits = tensor([[ 9.2500],
        [-9.3906],
        [ 9.1016],
        [ 9.1953],
        [ 9.2031],
        [-9.4922],
        [-9.4609],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.693009376525879
count = 114
logits = tensor([[-9.4766],
        [ 9.1719],
        [ 9.2031],
        [ 9.2109],
        [-9.4453],
        [ 9.1562],
        [-3.2168],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.697915077209473
count = 115
logits = tensor([[ 9.2656],
        [ 9.0938],
        [ 9.2188],
        [-9.4922],
        [ 9.1562],
        [ 9.2422],
        [ 9.1641],
        [-9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.697915077209473
count = 116


 23%|██▎       | 119/511 [00:06<00:21, 18.50it/s]

logits = tensor([[ 9.2109],
        [ 9.2031],
        [-9.3906],
        [-0.1134],
        [-9.4297],
        [-2.1348],
        [-9.5234],
        [-1.8408]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.82418155670166
count = 117
logits = tensor([[ 9.1953],
        [ 9.1953],
        [ 9.1641],
        [ 9.2344],
        [-9.4375],
        [-9.3906],
        [-9.4062],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.82418155670166
count = 118
logits = tensor([[-9.4375],
        [ 9.0469],
        [ 0.4292],
        [ 9.1484],
        [ 9.1797],
        [ 9.1562],
        [-9.4688],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 9.94045352935791
count = 119
logits = tensor([[ 9.2734],
        [-0.7612],
        [-1.8496],
        [-9.4609],
        [-9.3750],
        [-0.1438],
        [-1.3652],
        [-9.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.28371524810791
count = 120


 24%|██▍       | 123/511 [00:07<00:20, 18.67it/s]

logits = tensor([[ 9.1875],
        [ 9.2422],
        [ 9.0781],
        [ 9.2344],
        [ 9.1641],
        [ 9.1484],
        [-2.0391],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.553864479064941
count = 121
logits = tensor([[-8.9844],
        [-1.1240],
        [-9.3672],
        [ 8.7422],
        [ 9.1719],
        [-9.3984],
        [ 9.2422],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.589051246643066
count = 122
logits = tensor([[-9.3594],
        [-9.5078],
        [-9.4766],
        [ 9.1875],
        [ 9.2656],
        [ 9.2266],
        [ 9.1406],
        [ 0.2642]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.693299293518066
count = 123
logits = tensor([[ 9.2734],
        [-9.4531],
        [-9.4609],
        [ 9.2344],
        [ 9.2031],
        [ 8.6250],
        [ 9.1484],
        [ 9.0000]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.693299293518066
count = 124


 25%|██▍       | 127/511 [00:07<00:20, 18.42it/s]

logits = tensor([[ 9.1406],
        [ 9.1719],
        [-0.9194],
        [-9.3828],
        [-9.3672],
        [ 9.2266],
        [ 9.1719],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.735230445861816
count = 125
logits = tensor([[-9.4062],
        [ 8.8281],
        [ 9.2656],
        [ 8.6875],
        [ 9.2031],
        [ 9.2031],
        [-1.9170],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.752427101135254
count = 126
logits = tensor([[-0.0569],
        [ 9.0781],
        [ 9.2656],
        [ 9.2031],
        [ 9.2188],
        [ 9.1641],
        [ 9.1172],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.842728614807129
count = 127
logits = tensor([[ 9.2578],
        [ 9.1953],
        [-0.6021],
        [-0.8779],
        [ 9.2266],
        [-9.2031],
        [ 9.2266],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 10.940812110900879
count = 128


 26%|██▌       | 131/511 [00:07<00:20, 18.49it/s]

logits = tensor([[ 9.2031],
        [-3.7852],
        [-9.3984],
        [ 9.1719],
        [-1.0283],
        [-9.4453],
        [ 9.2188],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.454941749572754
count = 129
logits = tensor([[-9.4375],
        [-9.4922],
        [ 0.9976],
        [ 9.2344],
        [-9.2578],
        [ 9.1484],
        [ 9.2734],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.618912696838379
count = 130
logits = tensor([[ 9.1562],
        [-9.4609],
        [-0.9077],
        [ 9.2500],
        [ 9.2578],
        [ 9.2422],
        [-9.4375],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.661271095275879
count = 131
logits = tensor([[ 8.8750],
        [ 9.1562],
        [ 9.1250],
        [ 9.2031],
        [ 9.1562],
        [ 9.2734],
        [-9.0703],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.661271095275879
count = 132


 26%|██▋       | 135/511 [00:07<00:20, 18.20it/s]

logits = tensor([[ 8.5312],
        [ 9.2734],
        [ 9.1094],
        [-9.4141],
        [ 9.0859],
        [ 9.2031],
        [ 9.2344],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.661271095275879
count = 133
logits = tensor([[-1.2832],
        [ 9.1641],
        [-9.4688],
        [ 9.1953],
        [-8.7500],
        [ 9.1406],
        [-9.4375],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.691864967346191
count = 134
logits = tensor([[-9.3750],
        [-1.6719],
        [-9.4062],
        [-9.4219],
        [ 9.1641],
        [ 9.2266],
        [ 9.1328],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 11.922333717346191
count = 135
logits = tensor([[-9.4688],
        [-0.3237],
        [ 9.2109],
        [-9.3828],
        [ 9.1562],
        [-9.4766],
        [-0.5918],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.085846900939941
count = 136


 27%|██▋       | 139/511 [00:07<00:20, 18.18it/s]

logits = tensor([[-9.3984],
        [ 9.2422],
        [-9.2656],
        [ 9.2109],
        [ 9.1250],
        [-9.4375],
        [-1.0283],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.252594947814941
count = 137
logits = tensor([[ 9.0781],
        [-1.6582],
        [ 9.2422],
        [ 9.2422],
        [ 8.8984],
        [-9.4609],
        [ 9.1250],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.274384498596191
count = 138
logits = tensor([[-9.3750],
        [ 9.2266],
        [-9.4219],
        [-9.4609],
        [ 9.2734],
        [ 9.2578],
        [-9.4453],
        [ 9.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.274384498596191
count = 139
logits = tensor([[-9.4844],
        [ 9.2188],
        [ 9.1250],
        [ 9.1953],
        [-0.6812],
        [-9.4766],
        [-0.0344],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.414399147033691
count = 140


 28%|██▊       | 143/511 [00:08<00:20, 18.05it/s]

logits = tensor([[ 9.1484],
        [ 9.1641],
        [-9.4844],
        [-9.4453],
        [ 9.2266],
        [-9.4062],
        [ 9.1094],
        [-0.7876]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.461274147033691
count = 141
logits = tensor([[-8.9531],
        [ 9.2031],
        [ 8.8750],
        [ 9.1250],
        [ 0.5454],
        [ 9.0703],
        [-8.9453],
        [-0.4023]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.700959205627441
count = 142
logits = tensor([[ 9.2344],
        [-9.3906],
        [ 2.7773],
        [ 9.0625],
        [-1.8955],
        [-9.5078],
        [-9.3984],
        [-1.7920]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.98229694366455
count = 143
logits = tensor([[ 9.2031],
        [-9.4922],
        [ 2.3125],
        [ 8.7656],
        [ 9.1484],
        [ 9.1719],
        [ 9.2344],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 12.994053840637207
count = 144


 29%|██▉       | 147/511 [00:08<00:20, 17.68it/s]

logits = tensor([[ 9.1797],
        [ 9.2266],
        [-1.0322],
        [ 9.1250],
        [-9.4844],
        [-1.0977],
        [ 0.1732],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.16612720489502
count = 145
logits = tensor([[ 9.1719],
        [ 9.2422],
        [-8.9531],
        [-9.1094],
        [ 9.1797],
        [-9.4453],
        [-9.4922],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.16612720489502
count = 146
logits = tensor([[ 9.2266],
        [-9.4688],
        [-0.9028],
        [ 9.2578],
        [ 9.1016],
        [-9.4609],
        [ 9.2109],
        [-9.5156]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.20866870880127
count = 147
logits = tensor([[-9.4688],
        [-9.4375],
        [ 9.1641],
        [ 9.1719],
        [ 9.1172],
        [-9.3438],
        [-9.3828],
        [ 9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.20866870880127
count = 148


 30%|██▉       | 151/511 [00:08<00:20, 17.84it/s]

logits = tensor([[ 9.1953e+00],
        [ 9.2578e+00],
        [ 9.2031e+00],
        [-6.4354e-03],
        [-9.4766e+00],
        [ 2.7832e-01],
        [ 9.2812e+00],
        [-9.4609e+00]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.40019702911377
count = 149
logits = tensor([[-9.3516],
        [ 9.1953],
        [-9.3906],
        [-0.9619],
        [-9.4609],
        [-9.3516],
        [ 9.2578],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.560872077941895
count = 150
logits = tensor([[ 9.1797],
        [-9.4531],
        [-9.4141],
        [-9.4375],
        [-9.0938],
        [-9.5078],
        [ 9.1719],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.560872077941895
count = 151
logits = tensor([[-2.4375],
        [ 9.2188],
        [-9.4453],
        [-9.5000],
        [ 9.1250],
        [ 9.0391],
        [-2.5645],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.580693244934082
count = 1

 30%|███       | 155/511 [00:08<00:19, 17.95it/s]

logits = tensor([[-0.9751],
        [-9.3906],
        [-9.4297],
        [ 9.2031],
        [ 9.1875],
        [ 9.1953],
        [-9.4609],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.620671272277832
count = 153
logits = tensor([[ 9.2266],
        [-3.4980],
        [-9.3906],
        [-9.3984],
        [ 9.2188],
        [-3.8438],
        [ 9.1641],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.627057075500488
count = 154
logits = tensor([[ 9.1250],
        [ 9.0625],
        [-0.2930],
        [ 9.1641],
        [ 9.1094],
        [-9.3672],
        [ 9.2422],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 13.696759223937988
count = 155
logits = tensor([[-9.3984],
        [ 9.1797],
        [ 9.1094],
        [ 9.1875],
        [-2.4531],
        [-9.3984],
        [ 9.2500],
        [-9.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.013707160949707
count = 156


 31%|███       | 159/511 [00:09<00:19, 18.05it/s]

logits = tensor([[ 9.1719],
        [-9.2188],
        [ 9.2500],
        [ 9.1797],
        [ 9.1641],
        [-9.4688],
        [-1.4658],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.039631843566895
count = 157
logits = tensor([[-9.4062],
        [ 9.1328],
        [-2.1699],
        [ 9.1797],
        [-9.4219],
        [ 9.1875],
        [ 9.1797],
        [-9.3906]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.0531587600708
count = 158
logits = tensor([[ 9.2188],
        [-1.0166],
        [-9.3906],
        [ 9.2031],
        [-9.4844],
        [-9.3906],
        [-9.4844],
        [-9.5000]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.218777656555176
count = 159
logits = tensor([[ 9.2422],
        [-9.4297],
        [ 9.1875],
        [ 9.2031],
        [ 9.1953],
        [-1.8320],
        [ 9.0938],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.237347602844238
count = 160


 32%|███▏      | 163/511 [00:09<00:18, 18.40it/s]

logits = tensor([[ 9.2812],
        [ 9.2266],
        [ 9.2031],
        [-9.4453],
        [ 9.1875],
        [ 9.1719],
        [-9.4375],
        [-9.3906]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.237347602844238
count = 161
logits = tensor([[-9.4766],
        [-3.8867],
        [-9.3984],
        [-9.4453],
        [ 9.0781],
        [ 9.1172],
        [-9.4453],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.239884376525879
count = 162
logits = tensor([[ 0.4595],
        [ 9.1875],
        [-0.9341],
        [-9.4297],
        [-9.3594],
        [ 9.2266],
        [-9.4453],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.459244728088379
count = 163
logits = tensor([[-9.4844],
        [-1.1172],
        [ 9.1953],
        [-9.3672],
        [ 9.2422],
        [-9.4219],
        [ 9.2500],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.494614601135254
count = 164


 33%|███▎      | 167/511 [00:09<00:18, 18.23it/s]

logits = tensor([[ 8.6094],
        [-9.4297],
        [-9.3984],
        [ 9.1719],
        [ 9.2422],
        [ 9.1328],
        [-9.5234],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.494614601135254
count = 165
logits = tensor([[ 9.2266],
        [ 9.1484],
        [ 8.8906],
        [ 9.1875],
        [-9.4922],
        [-9.4844],
        [-9.3672],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.494614601135254
count = 166
logits = tensor([[ 9.1484],
        [-0.8511],
        [ 9.2734],
        [-9.3438],
        [ 9.2188],
        [ 9.1719],
        [ 9.2422],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.539048194885254
count = 167
logits = tensor([[-9.4609],
        [ 9.1641],
        [ 9.2188],
        [ 9.1953],
        [ 9.2500],
        [-9.4609],
        [ 9.2344],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.539048194885254
count = 168


 33%|███▎      | 171/511 [00:09<00:18, 18.21it/s]

logits = tensor([[ 9.1250],
        [ 9.1719],
        [-1.3701],
        [ 9.0859],
        [-9.3750],
        [ 9.2656],
        [-3.5137],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.57094669342041
count = 169
logits = tensor([[-9.3516],
        [ 9.1875],
        [ 9.2109],
        [-9.4688],
        [ 9.1797],
        [ 9.1562],
        [ 9.2578],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.57094669342041
count = 170
logits = tensor([[ 9.1719],
        [-9.4453],
        [-9.4297],
        [ 1.7129],
        [ 9.2422],
        [ 9.2578],
        [-2.1758],
        [-9.4062]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.81923770904541
count = 171
logits = tensor([[-9.4375],
        [-4.2734],
        [ 9.1797],
        [ 9.1484],
        [ 9.1719],
        [-9.3906],
        [-9.4062],
        [-9.4688]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.820935249328613
count = 172


 34%|███▍      | 175/511 [00:09<00:18, 18.52it/s]

logits = tensor([[ 9.1953],
        [-9.5000],
        [ 9.2266],
        [ 9.1562],
        [-9.4141],
        [-9.3750],
        [ 9.2188],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.820935249328613
count = 173
logits = tensor([[-9.4531],
        [ 9.1953],
        [-9.3750],
        [ 9.1875],
        [-0.7412],
        [-9.4688],
        [-9.4297],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.869641304016113
count = 174
logits = tensor([[ 9.2422],
        [-9.4062],
        [-9.4062],
        [-1.8369],
        [-9.3672],
        [ 9.2344],
        [-8.8125],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.888104438781738
count = 175
logits = tensor([[ 9.2188],
        [-9.4375],
        [ 9.1797],
        [-9.4375],
        [ 9.2578],
        [ 9.0859],
        [-0.0952],
        [ 8.8203]], device='cuda:0', dtype=torch.float16)
mean_loss = 14.980816841125488
count = 176


 35%|███▌      | 179/511 [00:10<00:18, 18.38it/s]

logits = tensor([[ 9.2578],
        [ 9.1562],
        [-0.7925],
        [-9.4531],
        [ 9.2422],
        [ 9.2266],
        [-9.4531],
        [-0.8779]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.170086860656738
count = 177
logits = tensor([[-9.4297],
        [-9.4609],
        [-9.4688],
        [ 9.0000],
        [-9.4375],
        [ 9.2734],
        [ 9.2266],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.170086860656738
count = 178
logits = tensor([[ 9.2031],
        [ 9.1797],
        [ 9.2188],
        [-9.4219],
        [ 9.2422],
        [-9.4297],
        [ 9.1328],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.170086860656738
count = 179
logits = tensor([[-9.3125],
        [ 9.2344],
        [ 9.2500],
        [-9.4609],
        [-9.4141],
        [ 0.4268],
        [ 9.1953],
        [-9.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.286175727844238
count = 180


 36%|███▌      | 183/511 [00:10<00:17, 18.26it/s]

logits = tensor([[ 9.2734],
        [ 9.1953],
        [ 9.1953],
        [-9.3594],
        [-0.6245],
        [-1.5820],
        [-9.3750],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.363080024719238
count = 181
logits = tensor([[-9.3359],
        [ 9.2031],
        [ 2.0195],
        [-9.4531],
        [-9.4453],
        [-9.4062],
        [ 9.2188],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.378666877746582
count = 182
logits = tensor([[ 9.2500],
        [ 9.1797],
        [-9.4453],
        [-9.3672],
        [ 9.2344],
        [-9.4844],
        [ 9.1172],
        [ 8.9062]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.378666877746582
count = 183
logits = tensor([[ 9.1641],
        [ 9.1875],
        [-9.4062],
        [-9.4219],
        [-2.2148],
        [-9.4922],
        [ 9.1641],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.668499946594238
count = 184


 37%|███▋      | 187/511 [00:10<00:17, 18.15it/s]

logits = tensor([[ 9.2266],
        [-9.3750],
        [-9.4297],
        [-9.4375],
        [-9.4297],
        [-9.3047],
        [-9.5000],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.668499946594238
count = 185
logits = tensor([[ 9.2344],
        [-9.4375],
        [ 9.2188],
        [-1.6367],
        [ 9.1484],
        [-9.4297],
        [-1.0215],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.8568696975708
count = 186
logits = tensor([[ 9.2656],
        [ 9.2031],
        [ 9.2422],
        [ 9.1953],
        [-0.1104],
        [-9.4375],
        [-9.4375],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.950627326965332
count = 187
logits = tensor([[-9.0391],
        [ 9.2031],
        [-9.4844],
        [ 9.2188],
        [-9.4453],
        [ 9.2188],
        [ 9.2500],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 15.950627326965332
count = 188


 37%|███▋      | 191/511 [00:10<00:17, 18.23it/s]

logits = tensor([[ 9.1484],
        [ 9.1797],
        [-9.4141],
        [-0.7959],
        [-9.4375],
        [ 9.2344],
        [-0.5684],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.223790168762207
count = 189
logits = tensor([[ 9.2109],
        [ 9.2031],
        [-0.1396],
        [ 9.1641],
        [ 9.1953],
        [-0.7534],
        [ 9.2344],
        [-0.8999]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.486973762512207
count = 190
logits = tensor([[-9.5000],
        [ 9.2031],
        [ 9.2578],
        [ 9.1797],
        [ 9.2188],
        [-0.8862],
        [-0.7744],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.577488899230957
count = 191
logits = tensor([[ 9.1328],
        [ 9.0312],
        [-9.4844],
        [ 9.2578],
        [ 9.1953],
        [ 9.0156],
        [-9.4141],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.577488899230957
count = 192


 38%|███▊      | 195/511 [00:11<00:16, 18.62it/s]

logits = tensor([[-2.0859],
        [-9.3828],
        [ 9.2422],
        [ 0.8291],
        [ 9.1719],
        [-9.4609],
        [-9.3906],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.741032600402832
count = 193
logits = tensor([[-9.3906],
        [-9.4922],
        [ 8.8672],
        [ 1.4072],
        [ 9.2578],
        [-9.4531],
        [-9.4141],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.768437385559082
count = 194
logits = tensor([[ 9.2109],
        [ 9.1562],
        [ 9.2031],
        [-2.6309],
        [ 9.1172],
        [-9.4453],
        [-9.4766],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.7771577835083
count = 195
logits = tensor([[-3.8262],
        [ 9.1953],
        [-9.4297],
        [-9.4062],
        [-9.3828],
        [-9.4609],
        [ 9.1797],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.77981472015381
count = 196


 39%|███▉      | 199/511 [00:11<00:17, 18.33it/s]

logits = tensor([[-9.4531],
        [ 9.1797],
        [-9.3516],
        [ 9.2344],
        [ 9.1875],
        [ 9.2422],
        [-9.4219],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 16.77981472015381
count = 197
logits = tensor([[ 9.2266],
        [ 9.2266],
        [-1.0713],
        [-0.1456],
        [ 9.0703],
        [-9.3516],
        [ 8.9297],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.028441429138184
count = 198
logits = tensor([[ 9.2109],
        [ 9.1641],
        [ 9.2109],
        [ 9.1250],
        [-9.4062],
        [ 9.2109],
        [ 9.2031],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.028441429138184
count = 199
logits = tensor([[-9.3828],
        [ 9.1797],
        [ 9.1797],
        [-9.4219],
        [-9.3828],
        [-9.4297],
        [ 9.1875],
        [ 9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.028441429138184
count = 200


 40%|███▉      | 203/511 [00:11<00:16, 18.27it/s]

logits = tensor([[ 9.2031],
        [-0.9277],
        [ 9.1484],
        [ 9.1719],
        [ 9.2109],
        [-2.8027],
        [ 9.0859],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.077445030212402
count = 201
logits = tensor([[-9.4844],
        [-9.4609],
        [-9.4141],
        [ 9.1562],
        [-9.4766],
        [-9.5000],
        [ 0.7075],
        [-1.7061]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.23685359954834
count = 202
logits = tensor([[-9.3906],
        [-0.8418],
        [ 9.1875],
        [-1.1836],
        [-9.3906],
        [-9.4297],
        [-9.1484],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.315070152282715
count = 203
logits = tensor([[-9.4922],
        [ 9.2109],
        [-0.9814],
        [-9.5000],
        [ 9.2266],
        [-9.4062],
        [-9.4766],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.354865074157715
count = 204


 41%|████      | 207/511 [00:11<00:16, 18.50it/s]

logits = tensor([[ 9.2656],
        [ 9.2188],
        [-1.3135],
        [-9.4531],
        [ 9.2344],
        [ 9.1406],
        [ 9.2031],
        [-9.3828]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.548789024353027
count = 205
logits = tensor([[-9.4141],
        [ 9.0703],
        [ 9.2500],
        [-0.9854],
        [-9.3438],
        [ 9.2031],
        [-1.7900],
        [ 9.0625]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.607733726501465
count = 206
logits = tensor([[-0.2401],
        [ 9.1719],
        [-9.4375],
        [ 9.1016],
        [-1.1572],
        [ 9.1797],
        [-0.9443],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.930197715759277
count = 207
logits = tensor([[-9.4688],
        [ 9.0625],
        [-9.4531],
        [ 9.1406],
        [-9.3906],
        [-2.8281],
        [ 8.9219],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.937430381774902
count = 208


 41%|████▏     | 211/511 [00:11<00:16, 18.31it/s]

logits = tensor([[ 9.2422],
        [-1.1338],
        [ 9.1484],
        [-9.4609],
        [ 9.2188],
        [-9.4609],
        [ 9.2344],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 17.972342491149902
count = 209
logits = tensor([[-9.4922],
        [ 9.0781],
        [-9.4688],
        [-0.6274],
        [-9.4141],
        [ 9.2344],
        [-9.4219],
        [-9.2969]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.025839805603027
count = 210
logits = tensor([[ 9.2344],
        [ 9.2656],
        [ 0.4001],
        [ 9.1641],
        [-9.4219],
        [-9.4609],
        [-1.8096],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.108908653259277
count = 211
logits = tensor([[ 9.1797],
        [-0.6729],
        [-9.4297],
        [-1.1514],
        [-2.9922],
        [-9.4219],
        [-9.3828],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.284937858581543
count = 212


 42%|████▏     | 215/511 [00:12<00:16, 18.46it/s]

logits = tensor([[-1.1670],
        [-9.4922],
        [ 3.2266],
        [-1.0830],
        [-9.4219],
        [ 9.0859],
        [-9.4375],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.909411430358887
count = 213
logits = tensor([[ 9.2734],
        [-9.4219],
        [-9.3984],
        [ 9.1797],
        [-9.3906],
        [ 9.2656],
        [-9.4844],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.909411430358887
count = 214
logits = tensor([[-9.3828],
        [-2.0840],
        [ 9.2734],
        [ 9.2500],
        [-9.4141],
        [-9.4453],
        [-9.4219],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.92402935028076
count = 215
logits = tensor([[ 9.2266],
        [ 9.2031],
        [-9.4141],
        [ 9.1406],
        [-9.5078],
        [ 9.2109],
        [-9.3594],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 18.92402935028076
count = 216


 43%|████▎     | 219/511 [00:12<00:15, 18.39it/s]

logits = tensor([[-9.3828],
        [-9.4453],
        [ 9.2656],
        [ 9.2344],
        [ 9.1016],
        [-9.3516],
        [ 1.3535],
        [-0.3435]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.1889066696167
count = 217
logits = tensor([[ 9.1797],
        [ 9.2578],
        [-9.3828],
        [ 9.1562],
        [-9.4219],
        [ 9.2188],
        [-9.3984],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.1889066696167
count = 218
logits = tensor([[ 9.2500],
        [ 9.2578],
        [ 9.2578],
        [ 9.1797],
        [-0.8628],
        [ 9.1562],
        [ 9.2266],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.3407621383667
count = 219
logits = tensor([[-9.4922],
        [ 9.2422],
        [ 9.2344],
        [ 9.2188],
        [ 9.1484],
        [-9.4688],
        [-9.4141],
        [-2.1367]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.354723930358887
count = 220


 44%|████▎     | 223/511 [00:12<00:15, 18.22it/s]

logits = tensor([[-2.4160],
        [ 9.1562],
        [-9.3906],
        [ 9.1250],
        [ 8.9062],
        [ 9.2422],
        [-0.7466],
        [ 9.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.41382884979248
count = 221
logits = tensor([[ 9.2109],
        [-9.4297],
        [-1.1299],
        [ 9.2188],
        [-0.2109],
        [ 9.2266],
        [ 9.1953],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.523051261901855
count = 222
logits = tensor([[-2.6777],
        [ 9.1094],
        [-9.4531],
        [-2.0469],
        [ 9.2188],
        [ 9.2656],
        [ 9.1953],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.546473503112793
count = 223
logits = tensor([[ 9.1797],
        [-9.4531],
        [ 8.9062],
        [ 9.2344],
        [-9.4766],
        [-9.3984],
        [-9.4609],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.546473503112793
count = 224


 44%|████▍     | 227/511 [00:12<00:15, 18.28it/s]

logits = tensor([[-9.4453],
        [ 9.1484],
        [ 9.2344],
        [-9.5156],
        [ 9.2500],
        [ 9.2422],
        [ 9.2734],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.546473503112793
count = 225
logits = tensor([[ 9.2500],
        [ 9.2344],
        [-9.4766],
        [ 9.2188],
        [-9.3594],
        [-0.2925],
        [-9.4297],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.616175651550293
count = 226
logits = tensor([[-9.3359],
        [ 9.1406],
        [-9.3984],
        [ 9.1562],
        [-9.4141],
        [ 9.2500],
        [-9.3438],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 19.616175651550293
count = 227
logits = tensor([[ 9.2578],
        [-0.3115],
        [-9.4453],
        [-0.3997],
        [-1.4531],
        [ 9.1641],
        [-9.4844],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.04578685760498
count = 228


 45%|████▌     | 231/511 [00:12<00:15, 18.58it/s]

logits = tensor([[ 9.2109],
        [-0.8857],
        [ 9.2344],
        [ 9.1797],
        [ 9.2344],
        [-9.4531],
        [ 3.0879],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.20523738861084
count = 229
logits = tensor([[-9.4297],
        [ 8.8516],
        [ 9.1172],
        [-9.4062],
        [-9.4297],
        [-9.4062],
        [-0.6606],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.25730037689209
count = 230
logits = tensor([[ 9.2344],
        [ 9.2266],
        [ 9.2031],
        [ 9.1719],
        [-9.4297],
        [-9.4688],
        [-9.3281],
        [-9.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.25730037689209
count = 231
logits = tensor([[ 1.1182],
        [ 9.1094],
        [-9.4062],
        [-1.7080],
        [ 9.2422],
        [ 9.2109],
        [ 9.2188],
        [-1.7939]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.556967735290527
count = 232


 46%|████▌     | 235/511 [00:13<00:14, 18.57it/s]

logits = tensor([[-9.4219],
        [-9.5156],
        [ 9.2031],
        [-1.1104],
        [-9.4609],
        [-9.4062],
        [ 9.2578],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.731314659118652
count = 233
logits = tensor([[-9.4062],
        [-9.4688],
        [ 9.2422],
        [-9.4375],
        [ 9.1719],
        [-9.3906],
        [ 9.2344],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.731314659118652
count = 234
logits = tensor([[-9.4219],
        [-9.4375],
        [ 9.2266],
        [ 9.1562],
        [-9.4844],
        [ 8.6094],
        [-9.4844],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.731314659118652
count = 235
logits = tensor([[-0.5386],
        [ 9.2266],
        [-9.4062],
        [ 9.2188],
        [-9.5078],
        [ 9.1016],
        [ 9.2188],
        [-0.0610]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.946707725524902
count = 236


 47%|████▋     | 239/511 [00:13<00:14, 18.94it/s]

logits = tensor([[ 9.2344],
        [-9.4688],
        [-1.1045],
        [ 9.1797],
        [ 9.2656],
        [ 9.1406],
        [ 9.2031],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.982443809509277
count = 237
logits = tensor([[ 9.1953],
        [ 9.2266],
        [ 9.2109],
        [-9.3828],
        [-9.3984],
        [ 8.9141],
        [ 9.2656],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 20.982443809509277
count = 238
logits = tensor([[ 9.2500],
        [-2.2559],
        [ 9.0938],
        [ 9.2344],
        [-9.0703],
        [ 9.2109],
        [-1.6035],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.218222618103027
count = 239
logits = tensor([[ 9.2734],
        [-9.4062],
        [ 9.1875],
        [-9.4219],
        [ 9.2656],
        [-9.4688],
        [-9.3984],
        [-9.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.218222618103027
count = 240


 48%|████▊     | 243/511 [00:13<00:14, 18.35it/s]

logits = tensor([[ 9.1328],
        [-0.8857],
        [-9.4766],
        [-9.4141],
        [ 9.2500],
        [-9.4609],
        [-9.4844],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.372061729431152
count = 241
logits = tensor([[-9.4609],
        [ 9.1875],
        [ 9.1797],
        [ 9.2422],
        [-9.4531],
        [ 8.7188],
        [ 9.1953],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.372061729431152
count = 242
logits = tensor([[ 9.2500],
        [-9.4062],
        [ 9.2344],
        [-9.3047],
        [ 0.5522],
        [-9.4141],
        [-9.4375],
        [-9.3047]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.428946495056152
count = 243
logits = tensor([[ 9.1797],
        [ 9.2031],
        [ 9.1328],
        [-9.4609],
        [-9.4531],
        [-9.3828],
        [-9.4062],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.428946495056152
count = 244


 48%|████▊     | 247/511 [00:13<00:14, 17.77it/s]

logits = tensor([[ 9.2344],
        [ 9.1094],
        [ 9.2578],
        [ 9.2578],
        [-9.4219],
        [ 9.2266],
        [ 9.2188],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.428946495056152
count = 245
logits = tensor([[ 9.2344],
        [ 9.1719],
        [ 9.2266],
        [ 9.2109],
        [ 9.2266],
        [-1.1846],
        [ 9.1719],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.462271690368652
count = 246
logits = tensor([[ 9.2266],
        [-8.8906],
        [ 9.1094],
        [-1.6367],
        [-9.4219],
        [ 9.2578],
        [-9.4297],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.48447322845459
count = 247
logits = tensor([[ 9.2266],
        [ 9.1953],
        [ 9.1250],
        [ 9.1094],
        [ 9.2500],
        [ 9.1484],
        [ 9.0781],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.48447322845459
count = 248


 49%|████▉     | 251/511 [00:14<00:14, 17.60it/s]

logits = tensor([[ 9.1797],
        [ 9.2266],
        [-9.1016],
        [ 9.1875],
        [ 9.2266],
        [ 9.2188],
        [ 9.2266],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.48447322845459
count = 249
logits = tensor([[-9.4609],
        [ 9.2266],
        [ 9.1953],
        [-9.4531],
        [ 9.2109],
        [-9.4062],
        [ 9.2109],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.48447322845459
count = 250
logits = tensor([[ 9.2656],
        [-0.5850],
        [-9.4922],
        [-9.5156],
        [ 9.2578],
        [-9.4609],
        [ 9.2031],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.612921714782715
count = 251
logits = tensor([[ 9.1875],
        [ 9.1797],
        [ 8.9609],
        [ 9.2031],
        [ 9.1875],
        [-9.3984],
        [ 9.2109],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.612921714782715
count = 252


 50%|████▉     | 255/511 [00:14<00:14, 17.40it/s]

logits = tensor([[-9.4922],
        [ 9.1484],
        [ 9.1797],
        [ 9.1328],
        [-1.7041],
        [ 9.2656],
        [-9.3594],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 21.846793174743652
count = 253
logits = tensor([[ 9.1094],
        [-1.1621],
        [ 9.2109],
        [ 9.2734],
        [ 0.2744],
        [ 9.2188],
        [ 9.1250],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.096671104431152
count = 254
logits = tensor([[-0.4578],
        [-9.4766],
        [ 9.1406],
        [ 9.2031],
        [-9.4609],
        [ 9.2578],
        [ 9.2109],
        [ 9.2812]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.157950401306152
count = 255
logits = tensor([[ 9.2031],
        [-9.4609],
        [ 9.0234],
        [-9.4453],
        [-9.4688],
        [-9.3984],
        [ 9.2500],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.157950401306152
count = 256


 51%|█████     | 259/511 [00:14<00:13, 18.01it/s]

logits = tensor([[-9.4453],
        [-9.3984],
        [-1.4248],
        [ 9.2109],
        [-9.4219],
        [ 9.2188],
        [ 9.0547],
        [ 0.2312]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.257864952087402
count = 257
logits = tensor([[ 9.2031],
        [-9.4453],
        [ 9.1953],
        [-9.5078],
        [ 9.1172],
        [-9.4141],
        [-9.4219],
        [-2.4277]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.268393516540527
count = 258
logits = tensor([[ 9.1719],
        [-9.4062],
        [-9.3672],
        [-9.4062],
        [-0.8535],
        [ 9.1641],
        [-9.4922],
        [-9.3828]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.312735557556152
count = 259
logits = tensor([[ 1.2334],
        [ 9.0469],
        [-9.4531],
        [ 9.1250],
        [ 9.1719],
        [-9.4453],
        [-1.1914],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.377799034118652
count = 260


 51%|█████▏    | 263/511 [00:14<00:13, 17.89it/s]

logits = tensor([[ 9.2422],
        [ 9.2188],
        [ 9.1641],
        [ 8.6562],
        [-0.7773],
        [-9.4766],
        [-9.4688],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.522269248962402
count = 261
logits = tensor([[-0.8789],
        [ 9.2109],
        [ 9.1484],
        [ 9.0703],
        [-1.1650],
        [-9.3906],
        [ 9.2422],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.709525108337402
count = 262
logits = tensor([[-9.3906],
        [-9.4375],
        [ 9.2422],
        [-9.4766],
        [ 9.2266],
        [ 9.2578],
        [ 9.2734],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.709525108337402
count = 263
logits = tensor([[-9.4297],
        [-9.4062],
        [ 9.1719],
        [-9.4453],
        [-9.4219],
        [ 9.2109],
        [-9.5000],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.709525108337402
count = 264


 52%|█████▏    | 267/511 [00:15<00:13, 17.82it/s]

logits = tensor([[-9.3906],
        [-9.4531],
        [ 9.0938],
        [ 8.9766],
        [ 9.1719],
        [-9.4766],
        [ 9.1875],
        [-0.7480]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.757987022399902
count = 265
logits = tensor([[-9.5000],
        [-9.5000],
        [ 9.2344],
        [ 9.0781],
        [-0.4968],
        [-9.4297],
        [ 9.1328],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 22.879508018493652
count = 266
logits = tensor([[-9.4844],
        [ 0.0439],
        [ 9.2266],
        [-9.4609],
        [ 9.0859],
        [-9.4141],
        [-0.4036],
        [-0.2712]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.188036918640137
count = 267
logits = tensor([[ 9.1172],
        [ 8.9922],
        [-0.7261],
        [ 9.1406],
        [ 9.2344],
        [-0.1990],
        [ 9.2578],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.403002738952637
count = 268


 53%|█████▎    | 271/511 [00:15<00:13, 18.13it/s]

logits = tensor([[ 9.2109],
        [-1.5703],
        [-9.4609],
        [-9.4297],
        [ 9.1250],
        [-9.4141],
        [ 9.1875],
        [-9.4688]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.622912406921387
count = 269
logits = tensor([[-1.3311],
        [ 9.1250],
        [ 9.0391],
        [ 9.2344],
        [-1.3584],
        [-0.7817],
        [ 9.2422],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.99190044403076
count = 270
logits = tensor([[-9.5156],
        [-9.4609],
        [ 9.1328],
        [ 8.9922],
        [-9.4531],
        [ 9.2734],
        [-9.2109],
        [ 9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 23.99190044403076
count = 271
logits = tensor([[-0.1409],
        [ 8.7500],
        [ 9.1641],
        [-2.0781],
        [-9.4688],
        [-9.3750],
        [-9.4141],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.084811210632324
count = 272


 54%|█████▍    | 275/511 [00:15<00:12, 18.47it/s]

logits = tensor([[ 9.1875],
        [ 9.2266],
        [-9.3828],
        [ 9.1719],
        [-9.4219],
        [-9.4531],
        [-9.4609],
        [ 9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.084811210632324
count = 273
logits = tensor([[-9.4766],
        [-9.3984],
        [-9.4297],
        [ 9.1250],
        [-9.3750],
        [ 9.2109],
        [ 9.2422],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.084811210632324
count = 274
logits = tensor([[ 9.2500],
        [-9.3594],
        [ 9.1641],
        [ 9.2188],
        [-9.1797],
        [-8.9297],
        [-9.4375],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.084811210632324
count = 275
logits = tensor([[ 9.1484],
        [-9.4297],
        [ 9.0938],
        [-9.4844],
        [-3.1641],
        [-9.3906],
        [-9.4453],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.089953422546387
count = 276


 55%|█████▍    | 279/511 [00:15<00:12, 18.40it/s]

logits = tensor([[ 9.1094],
        [-9.4453],
        [-0.2549],
        [ 9.1797],
        [ 9.1797],
        [-9.4609],
        [-1.9893],
        [ 9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.17775249481201
count = 277
logits = tensor([[ 9.1328],
        [ 9.1562],
        [ 9.2188],
        [ 9.2344],
        [-9.4062],
        [ 9.1797],
        [-1.1025],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.21358013153076
count = 278
logits = tensor([[ 9.2031],
        [-9.4766],
        [-9.3438],
        [ 9.1875],
        [-9.4375],
        [-8.9453],
        [ 9.2109],
        [-0.9170]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.25557231903076
count = 279
logits = tensor([[-0.5054],
        [-8.8516],
        [-9.3906],
        [-2.1348],
        [-9.5078],
        [ 9.2656],
        [-2.1641],
        [-1.3789]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.433451652526855
count = 280


 55%|█████▌    | 283/511 [00:15<00:12, 18.27it/s]

logits = tensor([[-9.4688],
        [ 9.2344],
        [ 9.2500],
        [ 9.2188],
        [ 9.1562],
        [ 9.2266],
        [-9.4609],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.433451652526855
count = 281
logits = tensor([[ 9.1797],
        [-9.2969],
        [-9.4062],
        [ 9.1406],
        [-9.4375],
        [ 9.1875],
        [ 9.1797],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.433451652526855
count = 282
logits = tensor([[-9.5000],
        [ 9.1562],
        [-1.8809],
        [ 9.2578],
        [ 9.2031],
        [-9.2109],
        [ 9.0000],
        [-9.4062]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.45118236541748
count = 283
logits = tensor([[-9.4297],
        [-9.4375],
        [-9.4922],
        [-9.4922],
        [-9.3281],
        [-9.5156],
        [ 9.2188],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.45118236541748
count = 284


 56%|█████▌    | 287/511 [00:16<00:11, 18.72it/s]

logits = tensor([[-3.0391],
        [ 9.1641],
        [ 9.1797],
        [-1.3555],
        [ 9.2188],
        [ 9.0703],
        [-9.4141],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.485697746276855
count = 285
logits = tensor([[ 9.2109],
        [ 8.8281],
        [-9.3516],
        [ 9.2500],
        [ 9.1406],
        [-9.3984],
        [-9.5078],
        [ 9.0469]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.485697746276855
count = 286
logits = tensor([[-9.4062],
        [-9.4844],
        [ 9.2344],
        [ 9.2422],
        [-1.4609],
        [-2.7852],
        [-9.4922],
        [-9.3984]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.519282341003418
count = 287
logits = tensor([[ 9.1953],
        [ 9.1406],
        [-8.6016],
        [ 9.1797],
        [ 9.2344],
        [ 9.2344],
        [-0.6704],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.570948600769043
count = 288


 57%|█████▋    | 291/511 [00:16<00:11, 18.37it/s]

logits = tensor([[ 9.2109],
        [ 9.1797],
        [-9.4531],
        [ 9.2266],
        [ 9.1953],
        [ 9.1797],
        [-9.5000],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.570948600769043
count = 289
logits = tensor([[ 9.2422],
        [ 9.1953],
        [-2.2969],
        [ 9.2500],
        [-9.3672],
        [-9.3594],
        [ 9.2344],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.870036125183105
count = 290
logits = tensor([[-9.4766],
        [-0.9736],
        [ 8.8281],
        [-9.4688],
        [ 9.1406],
        [ 9.2266],
        [ 9.2266],
        [-9.3750]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.91010570526123
count = 291
logits = tensor([[ 9.1953],
        [ 9.2500],
        [ 9.2500],
        [-9.0781],
        [-3.0000],
        [ 9.2344],
        [ 9.2422],
        [-3.6504]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.91943645477295
count = 292


 58%|█████▊    | 295/511 [00:16<00:12, 17.95it/s]

logits = tensor([[-1.1367],
        [ 9.1797],
        [-9.4766],
        [-9.4219],
        [ 9.1875],
        [-9.4453],
        [ 9.2266],
        [ 9.0312]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.9541654586792
count = 293
logits = tensor([[-2.7422],
        [ 9.2109],
        [ 9.2109],
        [ 9.1719],
        [ 9.2031],
        [ 9.1719],
        [ 9.1953],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 24.961974143981934
count = 294
logits = tensor([[-9.3906],
        [-9.3906],
        [-2.4922],
        [ 9.0547],
        [-9.4453],
        [-9.4219],
        [ 9.2344],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.283461570739746
count = 295
logits = tensor([[-9.4375],
        [-9.4531],
        [-9.3828],
        [ 9.2422],
        [-1.7305],
        [ 9.2266],
        [ 9.0781],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.303908348083496
count = 296


 59%|█████▊    | 299/511 [00:16<00:11, 18.52it/s]

logits = tensor([[-9.4609],
        [ 9.1641],
        [ 9.2500],
        [ 9.2734],
        [-9.5000],
        [-9.4062],
        [ 9.1641],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.303908348083496
count = 297
logits = tensor([[-9.4922],
        [-9.4219],
        [ 9.2109],
        [ 9.1094],
        [-9.4688],
        [-9.4688],
        [-9.3828],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.303908348083496
count = 298
logits = tensor([[ 9.2578],
        [-9.5000],
        [ 9.2578],
        [ 9.1875],
        [ 9.2344],
        [-2.2520],
        [-9.4453],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.31644344329834
count = 299
logits = tensor([[-9.4609],
        [ 9.1641],
        [-2.8945],
        [ 9.0781],
        [-9.4219],
        [-9.4922],
        [-1.3721],
        [-9.3281]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.5230131149292
count = 300


 59%|█████▉    | 303/511 [00:16<00:11, 17.89it/s]

logits = tensor([[ 9.1719],
        [ 9.2031],
        [-9.3750],
        [ 9.2656],
        [ 9.1875],
        [ 9.1328],
        [-9.5078],
        [-1.2217]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.555331230163574
count = 301
logits = tensor([[-1.8330],
        [-0.0826],
        [-9.2500],
        [ 9.2188],
        [ 9.1875],
        [-9.3750],
        [ 9.2031],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.8949613571167
count = 302
logits = tensor([[-9.4922],
        [ 9.2266],
        [ 9.1797],
        [ 9.2031],
        [ 9.2422],
        [-9.4609],
        [ 9.2422],
        [-9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 25.8949613571167
count = 303
logits = tensor([[ 9.1094],
        [-9.4062],
        [ 1.1152],
        [ 9.1250],
        [ 9.2109],
        [-0.1581],
        [ 8.6562],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.14697551727295
count = 304


 60%|██████    | 307/511 [00:17<00:11, 18.16it/s]

logits = tensor([[ 9.1328],
        [ 9.1641],
        [-1.8506],
        [-9.4688],
        [ 0.6143],
        [ 9.2109],
        [ 9.2578],
        [ 8.6172]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.296053886413574
count = 305
logits = tensor([[ 9.1016],
        [-9.3906],
        [-9.4609],
        [ 9.1875],
        [ 9.1641],
        [ 9.1562],
        [-9.5078],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.296053886413574
count = 306
logits = tensor([[ 9.2266],
        [-9.4297],
        [ 9.2266],
        [ 9.2656],
        [-9.4375],
        [-9.4375],
        [-9.5000],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.296053886413574
count = 307
logits = tensor([[-9.4141],
        [-9.4062],
        [-1.9326],
        [-2.3672],
        [-0.8843],
        [ 9.1797],
        [ 9.2500],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.367342948913574
count = 308


 61%|██████    | 311/511 [00:17<00:10, 18.20it/s]

logits = tensor([[-2.4941],
        [-9.4219],
        [ 9.2656],
        [-9.4844],
        [-9.4453],
        [ 9.1875],
        [-9.4844],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.377306938171387
count = 309
logits = tensor([[ 9.1172],
        [-9.4375],
        [ 9.0156],
        [-9.4844],
        [ 9.1719],
        [ 9.2578],
        [ 9.0781],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.377306938171387
count = 310
logits = tensor([[ 9.2109],
        [-9.4375],
        [ 9.0000],
        [-9.4844],
        [-9.4219],
        [-9.4141],
        [ 9.2422],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.377306938171387
count = 311
logits = tensor([[ 9.1484],
        [ 9.2188],
        [ 9.1719],
        [ 9.1406],
        [ 9.0703],
        [-9.3672],
        [ 9.2266],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.377306938171387
count = 312


 62%|██████▏   | 315/511 [00:17<00:10, 18.79it/s]

logits = tensor([[ 9.1953],
        [-9.4688],
        [-9.4453],
        [-9.4219],
        [ 9.1328],
        [ 9.1250],
        [-9.4844],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.377306938171387
count = 313
logits = tensor([[-9.4844],
        [ 9.1406],
        [ 9.0703],
        [-0.7017],
        [-9.4219],
        [ 9.2266],
        [ 0.8130],
        [-1.1689]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.50734233856201
count = 314
logits = tensor([[ 9.1094],
        [ 9.2344],
        [ 9.0547],
        [-9.3594],
        [ 9.0859],
        [-9.4297],
        [ 4.3047],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.509039878845215
count = 315
logits = tensor([[ 9.2109],
        [-9.4922],
        [ 9.2031],
        [ 9.0703],
        [-9.4297],
        [ 9.2266],
        [-9.4688],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.509039878845215
count = 316


 62%|██████▏   | 319/511 [00:17<00:10, 18.63it/s]

logits = tensor([[-9.1406],
        [ 9.1797],
        [ 9.1875],
        [-9.3828],
        [-1.4473],
        [-9.4375],
        [-9.4062],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.535452842712402
count = 317
logits = tensor([[-9.4141],
        [-9.4141],
        [ 9.0156],
        [-9.4141],
        [ 9.1641],
        [-9.4922],
        [ 9.1953],
        [-0.7876]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.582327842712402
count = 318
logits = tensor([[-9.4062],
        [ 9.1172],
        [-9.1797],
        [ 9.2031],
        [-9.4922],
        [-9.4609],
        [-9.4844],
        [-2.8027]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.589674949645996
count = 319
logits = tensor([[ 9.2109],
        [ 9.1172],
        [-9.4609],
        [ 9.2656],
        [-9.4453],
        [-9.3984],
        [ 9.2266],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.589674949645996
count = 320


 63%|██████▎   | 323/511 [00:18<00:10, 18.33it/s]

logits = tensor([[-9.4375],
        [-9.4688],
        [ 9.1250],
        [-0.3638],
        [ 8.9141],
        [-9.4609],
        [-2.5293],
        [-0.4966]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.83224391937256
count = 321
logits = tensor([[-9.5000],
        [-9.4609],
        [ 9.2578],
        [ 9.0547],
        [ 9.2188],
        [ 9.1875],
        [ 9.2031],
        [-1.2705]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.863219261169434
count = 322
logits = tensor([[-9.4609],
        [ 9.2969],
        [-0.2346],
        [ 9.2031],
        [ 9.2500],
        [-9.4297],
        [ 9.2266],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.96542263031006
count = 323
logits = tensor([[-9.3594],
        [ 9.2188],
        [ 9.1953],
        [ 9.0547],
        [ 9.2266],
        [ 9.1406],
        [-9.4844],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 26.96542263031006
count = 324


 64%|██████▍   | 327/511 [00:18<00:10, 18.28it/s]

logits = tensor([[-1.1533],
        [ 9.2031],
        [-9.4141],
        [-9.3828],
        [-9.4766],
        [-9.4219],
        [-0.4128],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.063231468200684
count = 325
logits = tensor([[-9.4453],
        [-2.0957],
        [ 9.2031],
        [ 9.2188],
        [ 9.2188],
        [-9.3203],
        [-9.4922],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.07773494720459
count = 326
logits = tensor([[ 9.2109],
        [-9.4609],
        [ 9.1094],
        [ 9.2031],
        [-9.4141],
        [-9.4766],
        [ 9.2188],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.07773494720459
count = 327
logits = tensor([[-9.3594],
        [ 9.1562],
        [ 9.2500],
        [ 9.1641],
        [-9.4297],
        [-9.5234],
        [ 9.1875],
        [-9.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.07773494720459
count = 328


 65%|██████▍   | 331/511 [00:18<00:09, 18.37it/s]

logits = tensor([[ 9.2344],
        [ 9.1953],
        [-9.4297],
        [-9.4453],
        [ 9.2656],
        [-0.7622],
        [-9.4141],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.220892906188965
count = 329
logits = tensor([[ 9.1328],
        [ 9.1562],
        [ 9.0703],
        [ 9.1250],
        [-9.3828],
        [ 9.2422],
        [ 9.2188],
        [-9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.220892906188965
count = 330
logits = tensor([[-9.5000],
        [ 9.1641],
        [ 9.2344],
        [-0.8989],
        [-0.5835],
        [ 9.2266],
        [ 9.0781],
        [ 9.2734]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.39200496673584
count = 331
logits = tensor([[-9.4453],
        [ 9.2266],
        [ 8.9375],
        [-9.4766],
        [-9.4062],
        [ 9.2891],
        [ 9.2031],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.39200496673584
count = 332


 66%|██████▌   | 335/511 [00:18<00:09, 18.27it/s]

logits = tensor([[-9.3672],
        [-9.4922],
        [-9.2812],
        [ 9.2422],
        [ 9.1719],
        [-9.4375],
        [ 9.2344],
        [-9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.39200496673584
count = 333
logits = tensor([[ 9.2266],
        [ 9.1484],
        [ 9.1875],
        [ 9.1406],
        [-9.4062],
        [ 9.0547],
        [-9.4766],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.39200496673584
count = 334
logits = tensor([[-1.9277],
        [ 9.0547],
        [ 9.2656],
        [-9.3828],
        [-2.5410],
        [ 9.0938],
        [-9.4297],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.65946865081787
count = 335
logits = tensor([[-9.4375],
        [ 9.1484],
        [ 9.1953],
        [-9.4844],
        [ 9.1094],
        [ 9.1016],
        [-0.7383],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.70835781097412
count = 336


 66%|██████▋   | 339/511 [00:18<00:09, 18.08it/s]

logits = tensor([[ 9.1797],
        [ 9.2266],
        [-9.4609],
        [-9.4844],
        [-9.4766],
        [ 9.1797],
        [ 9.0469],
        [-9.4062]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.70835781097412
count = 337
logits = tensor([[-9.4688],
        [-9.4609],
        [-0.6362],
        [-9.3672],
        [ 9.2031],
        [ 9.1016],
        [-9.4141],
        [ 9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.76145839691162
count = 338
logits = tensor([[-9.4141],
        [ 9.1953],
        [ 9.1719],
        [ 9.2344],
        [-9.3984],
        [ 9.1875],
        [ 9.0312],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.76145839691162
count = 339
logits = tensor([[-9.4062],
        [-1.0361],
        [ 9.1797],
        [ 9.1797],
        [-9.4609],
        [ 9.2422],
        [ 9.1797],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 27.799391746520996
count = 340


 67%|██████▋   | 343/511 [00:19<00:09, 18.24it/s]

logits = tensor([[-2.9160],
        [ 9.2266],
        [-9.4375],
        [-9.4609],
        [ 9.1953],
        [ 9.0938],
        [-9.4297],
        [-9.5000]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.170432090759277
count = 341
logits = tensor([[-9.3672],
        [ 9.2344],
        [-9.4688],
        [-9.3906],
        [ 9.1406],
        [-9.4688],
        [-0.5977],
        [ 9.0859]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.225272178649902
count = 342
logits = tensor([[-9.3516],
        [ 8.5547],
        [-9.4531],
        [ 9.2031],
        [-9.4688],
        [-2.8906],
        [ 9.2578],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.232043266296387
count = 343
logits = tensor([[ 9.1797],
        [ 9.1250],
        [ 9.2344],
        [-9.3984],
        [-0.9526],
        [ 8.7969],
        [ 9.2500],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.272814750671387
count = 344


 68%|██████▊   | 347/511 [00:19<00:09, 18.22it/s]

logits = tensor([[ 9.1953],
        [-0.9150],
        [ 8.8047],
        [ 9.1797],
        [ 9.2422],
        [ 8.7500],
        [ 9.2500],
        [-9.3828]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.31489849090576
count = 345
logits = tensor([[ 9.2656],
        [ 9.2188],
        [ 9.0781],
        [ 9.1172],
        [ 9.2188],
        [ 9.0547],
        [-9.4297],
        [-9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.31489849090576
count = 346
logits = tensor([[ 9.1641],
        [ 9.1250],
        [-0.1213],
        [ 9.2266],
        [-9.3594],
        [ 9.2422],
        [ 9.2578],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.39418315887451
count = 347
logits = tensor([[-9.4453],
        [-1.8330],
        [-0.4385],
        [-9.4219],
        [ 9.2031],
        [ 9.1953],
        [ 9.1797],
        [-9.3984]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.474947929382324
count = 348


 69%|██████▊   | 351/511 [00:19<00:08, 18.04it/s]

logits = tensor([[-9.3828],
        [ 9.1641],
        [ 9.1875],
        [ 9.2188],
        [-9.3906],
        [ 9.2578],
        [ 9.2578],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.474947929382324
count = 349
logits = tensor([[ 9.0938],
        [-9.5000],
        [ 9.2422],
        [-9.4375],
        [-9.3906],
        [-9.4453],
        [ 9.1484],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.474947929382324
count = 350
logits = tensor([[ 9.2422],
        [ 9.1719],
        [-0.9951],
        [ 9.0781],
        [ 9.2734],
        [ 9.2109],
        [-9.4609],
        [-9.3750]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.6386137008667
count = 351
logits = tensor([[ 9.2266],
        [ 9.2500],
        [ 9.1562],
        [ 9.1797],
        [-2.4336],
        [ 9.1797],
        [ 8.5938],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.649142265319824
count = 352


 69%|██████▉   | 355/511 [00:19<00:08, 17.95it/s]

logits = tensor([[ 9.1562],
        [ 9.2422],
        [-9.4297],
        [-3.1035],
        [-9.4375],
        [ 9.1641],
        [-0.7163],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.70434856414795
count = 353
logits = tensor([[ 9.2734],
        [ 9.2422],
        [-9.4766],
        [ 8.9609],
        [-9.4453],
        [ 9.2266],
        [ 9.1953],
        [-9.4922]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.70434856414795
count = 354
logits = tensor([[-9.3984],
        [ 1.5947],
        [-0.8823],
        [ 9.2578],
        [-9.3750],
        [ 9.2500],
        [ 9.2109],
        [ 9.1406]], device='cuda:0', dtype=torch.float16)
mean_loss = 28.88106060028076
count = 355
logits = tensor([[ 9.2344],
        [-9.4141],
        [ 9.2109],
        [-3.7910],
        [-9.4609],
        [ 9.2188],
        [-1.2266],
        [-0.0297]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.000720024108887
count = 356


 70%|███████   | 359/511 [00:20<00:08, 17.84it/s]

logits = tensor([[ 9.1797],
        [-9.4141],
        [ 9.1797],
        [ 9.2500],
        [-9.4219],
        [-9.5000],
        [-9.5000],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.000720024108887
count = 357
logits = tensor([[ 9.2422],
        [-9.4922],
        [-9.4219],
        [ 9.2109],
        [ 9.1562],
        [ 9.1953],
        [ 9.1875],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.000720024108887
count = 358
logits = tensor([[ 9.0547],
        [ 9.1797],
        [ 9.2188],
        [ 9.2734],
        [-9.4766],
        [ 9.1875],
        [ 9.1172],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.000720024108887
count = 359
logits = tensor([[-9.3906],
        [-0.9155],
        [ 9.1797],
        [ 9.2422],
        [-9.5000],
        [-9.4297],
        [-0.1333],
        [ 8.7969]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.12135601043701
count = 360


 71%|███████   | 363/511 [00:20<00:08, 18.01it/s]

logits = tensor([[-9.4375],
        [-9.5000],
        [ 9.1953],
        [-0.8560],
        [-9.4688],
        [ 1.0674],
        [-3.2246],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.340861320495605
count = 361
logits = tensor([[-9.4922],
        [-9.0859],
        [-1.6094],
        [ 8.9609],
        [ 9.1641],
        [ 9.2500],
        [-9.4141],
        [ 9.1016]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.564845085144043
count = 362
logits = tensor([[ 9.1719],
        [ 9.1953],
        [-9.4062],
        [ 9.1875],
        [-9.4453],
        [ 9.1797],
        [ 9.1172],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.564845085144043
count = 363
logits = tensor([[-0.6421],
        [-0.9976],
        [ 9.1953],
        [-9.4609],
        [-9.4688],
        [ 9.2656],
        [ 0.7314],
        [-9.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.797541618347168
count = 364


 72%|███████▏  | 367/511 [00:20<00:08, 17.96it/s]

logits = tensor([[9.2188],
        [8.8516],
        [9.2266],
        [9.1797],
        [9.2031],
        [9.1016],
        [9.1953],
        [9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.797541618347168
count = 365
logits = tensor([[ 8.9844],
        [-9.4062],
        [-9.4531],
        [ 9.1328],
        [ 9.2031],
        [-9.5000],
        [-9.4297],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 29.797541618347168
count = 366
logits = tensor([[ 9.1875],
        [ 9.0938],
        [ 9.2266],
        [-2.4531],
        [-8.8672],
        [ 9.2266],
        [ 9.2422],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.114489555358887
count = 367
logits = tensor([[-9.4219],
        [ 9.2500],
        [-0.8955],
        [ 9.0625],
        [ 8.8672],
        [-9.4531],
        [-1.8467],
        [-0.4890]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.296542167663574
count = 368


 73%|███████▎  | 371/511 [00:20<00:07, 18.01it/s]

logits = tensor([[-9.4922],
        [-9.4766],
        [ 9.2422],
        [-9.4297],
        [ 9.1953],
        [ 9.0859],
        [ 9.1797],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.296542167663574
count = 369
logits = tensor([[ 9.2188],
        [ 9.2109],
        [-9.3984],
        [ 9.1250],
        [-9.4766],
        [-9.4297],
        [-9.4766],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.296542167663574
count = 370
logits = tensor([[-9.4453],
        [-9.4219],
        [ 9.2344],
        [ 9.2344],
        [-0.7891],
        [ 9.1797],
        [ 9.2422],
        [-9.3672]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.3433256149292
count = 371
logits = tensor([[-9.3906],
        [ 9.2734],
        [ 9.0703],
        [-9.3438],
        [ 9.1875],
        [-9.4922],
        [ 9.2266],
        [-0.6875]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.480196952819824
count = 372


 73%|███████▎  | 375/511 [00:20<00:07, 18.53it/s]

logits = tensor([[-9.4141],
        [-9.4375],
        [ 9.2109],
        [-9.3984],
        [-9.4531],
        [ 9.1797],
        [ 9.1172],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.480196952819824
count = 373
logits = tensor([[-9.4297],
        [-9.4688],
        [ 9.1719],
        [ 9.1875],
        [ 9.1875],
        [-1.8301],
        [ 9.2422],
        [ 9.1562]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.727526664733887
count = 374
logits = tensor([[-9.4609],
        [ 9.0469],
        [ 9.2344],
        [ 9.2031],
        [ 9.2266],
        [-9.4609],
        [-9.3828],
        [-1.4004]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.75502300262451
count = 375
logits = tensor([[ 9.1719],
        [ 9.1641],
        [ 9.2500],
        [-9.3906],
        [-0.7773],
        [-9.4375],
        [-9.4062],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.89949321746826
count = 376


 74%|███████▍  | 379/511 [00:21<00:07, 18.83it/s]

logits = tensor([[ 9.1953],
        [ 9.1953],
        [-9.4609],
        [-0.5244],
        [ 9.1719],
        [ 9.0703],
        [ 9.2656],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.95759868621826
count = 377
logits = tensor([[-9.4141],
        [-9.4141],
        [ 9.2500],
        [-9.4375],
        [-9.4688],
        [-9.4453],
        [ 9.2188],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.95759868621826
count = 378
logits = tensor([[ 9.1719],
        [ 9.2031],
        [ 9.1953],
        [-9.3984],
        [ 9.0469],
        [-9.1797],
        [ 9.2734],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.95759868621826
count = 379
logits = tensor([[ 9.2422],
        [ 9.2344],
        [ 9.1875],
        [ 9.0938],
        [ 9.1953],
        [ 9.0156],
        [-9.4531],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 30.95759868621826
count = 380


 75%|███████▍  | 383/511 [00:21<00:06, 18.68it/s]

logits = tensor([[ 9.2422],
        [-9.4766],
        [ 9.1719],
        [-0.1848],
        [ 9.1641],
        [-1.2402],
        [-9.4531],
        [ 9.1484]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.21998882293701
count = 381
logits = tensor([[ 9.1953],
        [ 9.2031],
        [-9.4219],
        [ 9.2344],
        [-1.0322],
        [ 9.1406],
        [ 9.1875],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.387133598327637
count = 382
logits = tensor([[ 8.9141],
        [ 9.2344],
        [-9.3906],
        [ 9.1328],
        [-9.5078],
        [ 9.1875],
        [-9.3984],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.387133598327637
count = 383
logits = tensor([[ 9.1562],
        [ 9.1641],
        [ 9.2422],
        [-9.1641],
        [ 9.2266],
        [ 9.1797],
        [ 9.0625],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.387133598327637
count = 384


 76%|███████▌  | 387/511 [00:21<00:06, 18.86it/s]

logits = tensor([[ 9.1797],
        [-1.0244],
        [ 9.1719],
        [ 9.2344],
        [-9.4688],
        [-9.3984],
        [ 9.2578],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.425524711608887
count = 385
logits = tensor([[ 9.1797],
        [-9.4688],
        [-9.3984],
        [-9.4688],
        [-0.9067],
        [-2.8301],
        [ 9.1641],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.588435173034668
count = 386
logits = tensor([[-9.3984],
        [-9.4141],
        [ 9.2422],
        [ 9.0703],
        [ 9.2188],
        [ 9.2188],
        [ 9.1875],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.588435173034668
count = 387
logits = tensor([[ 9.2266],
        [ 9.2656],
        [ 9.0703],
        [ 9.1953],
        [ 9.2812],
        [ 8.7578],
        [-9.4766],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.588435173034668
count = 388


 77%|███████▋  | 391/511 [00:21<00:06, 18.30it/s]

logits = tensor([[ 9.2344],
        [-3.3105],
        [ 9.1953],
        [ 9.2656],
        [-9.3906],
        [ 9.0000],
        [ 9.2109],
        [-0.5225]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.651129722595215
count = 389
logits = tensor([[ 9.1562],
        [-3.2246],
        [ 9.2188],
        [-9.4062],
        [-9.4453],
        [-9.5078],
        [ 9.1172],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.65603542327881
count = 390
logits = tensor([[-1.4189],
        [ 9.2188],
        [ 9.1719],
        [ 9.2188],
        [-9.4297],
        [-9.3828],
        [ 9.2266],
        [-9.4688]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.68315029144287
count = 391
logits = tensor([[-9.4688],
        [ 9.2422],
        [-9.5078],
        [ 9.1797],
        [-9.4375],
        [ 9.2422],
        [ 9.1328],
        [-9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.68315029144287
count = 392


 77%|███████▋  | 395/511 [00:22<00:06, 18.06it/s]

logits = tensor([[ 9.1875],
        [-9.4844],
        [-9.2109],
        [-9.2578],
        [ 9.2188],
        [ 9.2344],
        [-2.6914],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.691298484802246
count = 393
logits = tensor([[ 9.1953],
        [-9.4766],
        [-9.4844],
        [ 9.1953],
        [-9.3828],
        [-9.4062],
        [ 9.2500],
        [-0.5054]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.750319480895996
count = 394
logits = tensor([[-9.4688],
        [-9.4688],
        [-9.4922],
        [-9.3828],
        [ 9.2188],
        [ 9.2344],
        [ 9.2109],
        [-9.4766]], device='cuda:0', dtype=torch.float16)
mean_loss = 31.750319480895996
count = 395
logits = tensor([[-9.2656],
        [-9.4297],
        [ 9.1641],
        [ 9.2500],
        [-0.7300],
        [-9.3594],
        [-0.5186],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.01402187347412
count = 396


 78%|███████▊  | 399/511 [00:22<00:06, 17.67it/s]

logits = tensor([[-9.4766],
        [ 8.9688],
        [ 9.2656],
        [-9.4141],
        [-9.4062],
        [ 9.1719],
        [ 9.2500],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.01402187347412
count = 397
logits = tensor([[-0.8906],
        [-9.3906],
        [ 9.1797],
        [ 9.2344],
        [-2.0684],
        [-3.9551],
        [ 9.2188],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.07424068450928
count = 398
logits = tensor([[-9.2969],
        [ 9.1719],
        [ 9.2344],
        [ 9.1953],
        [-9.5078],
        [ 9.1641],
        [ 9.2188],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.07424068450928
count = 399
logits = tensor([[ 9.2031],
        [-9.3984],
        [ 9.1953],
        [ 9.2109],
        [ 9.2109],
        [ 9.2109],
        [ 9.0547],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.07424068450928
count = 400


 79%|███████▉  | 403/511 [00:22<00:06, 17.93it/s]

logits = tensor([[ 9.2188],
        [-9.5078],
        [-9.4375],
        [ 9.1797],
        [ 9.1719],
        [-9.0703],
        [-9.5312],
        [-9.3984]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.07424068450928
count = 401
logits = tensor([[ 9.1562],
        [-9.4453],
        [ 9.1875],
        [ 9.2266],
        [ 9.1953],
        [-9.4141],
        [ 9.1484],
        [-0.5977]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.2037878036499
count = 402
logits = tensor([[ 9.2500],
        [-1.1973],
        [ 9.2656],
        [-9.3906],
        [-9.3906],
        [ 9.1641],
        [-0.9395],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.42763423919678
count = 403
logits = tensor([[-9.3984],
        [-9.4844],
        [-9.4453],
        [-9.4766],
        [-9.4609],
        [-9.4844],
        [ 9.2266],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.42763423919678
count = 404


 80%|███████▉  | 407/511 [00:22<00:05, 18.22it/s]

logits = tensor([[-1.1318],
        [-9.4141],
        [ 9.2500],
        [ 9.1172],
        [-9.0781],
        [-9.4688],
        [ 8.9844],
        [-9.4219]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.46254634857178
count = 405
logits = tensor([[-1.9736],
        [ 9.1172],
        [-9.4609],
        [-9.4141],
        [ 9.2344],
        [-9.3906],
        [-1.4072],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.75289058685303
count = 406
logits = tensor([[-9.5078],
        [ 9.2344],
        [-9.4844],
        [-2.6680],
        [ 9.1328],
        [ 9.2188],
        [-9.4297],
        [-1.2432]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.94840145111084
count = 407
logits = tensor([[ 8.9766],
        [ 9.2500],
        [ 9.2109],
        [ 9.2031],
        [-9.4922],
        [-9.4766],
        [-0.7749],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.995795249938965
count = 408


 80%|████████  | 411/511 [00:22<00:05, 18.22it/s]

logits = tensor([[-9.4062],
        [-9.3984],
        [ 9.1797],
        [ 9.1641],
        [ 9.1484],
        [-9.5234],
        [ 9.2578],
        [-9.5234]], device='cuda:0', dtype=torch.float16)
mean_loss = 32.995795249938965
count = 409
logits = tensor([[ 9.1484],
        [-9.4375],
        [-9.4844],
        [ 8.6094],
        [ 9.2734],
        [ 9.2188],
        [ 2.3203],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.00755214691162
count = 410
logits = tensor([[9.2031],
        [9.1875],
        [9.1797],
        [9.2266],
        [8.9688],
        [9.2031],
        [8.9766],
        [9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.00755214691162
count = 411
logits = tensor([[ 9.2344],
        [ 9.2500],
        [ 9.1562],
        [-9.3828],
        [ 9.0234],
        [-9.4062],
        [-9.3906],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.00755214691162
count = 412


 81%|████████  | 415/511 [00:23<00:05, 18.24it/s]

logits = tensor([[-1.9922],
        [ 9.1328],
        [ 9.1875],
        [-9.4844],
        [ 9.2344],
        [ 9.2422],
        [-9.1641],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.023573875427246
count = 413
logits = tensor([[-9.4297],
        [-9.4453],
        [ 8.8594],
        [ 9.1719],
        [-9.4062],
        [-9.4531],
        [ 9.2734],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.023573875427246
count = 414
logits = tensor([[ 9.2031],
        [ 9.2734],
        [ 9.0938],
        [ 9.2188],
        [ 9.2422],
        [-9.4062],
        [-3.9727],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.025872230529785
count = 415
logits = tensor([[ 9.0156],
        [-0.8442],
        [-1.4717],
        [ 9.2188],
        [ 9.0859],
        [ 9.1719],
        [ 9.2500],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.280327796936035
count = 416


 82%|████████▏ | 419/511 [00:23<00:05, 18.04it/s]

logits = tensor([[-9.4766],
        [ 8.5469],
        [ 9.1172],
        [ 9.1953],
        [-9.4766],
        [-9.5156],
        [ 9.1953],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.280327796936035
count = 417
logits = tensor([[-9.4062],
        [ 9.2422],
        [ 9.2656],
        [-9.4531],
        [ 9.1484],
        [ 9.1797],
        [-9.4297],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.280327796936035
count = 418
logits = tensor([[ 9.1328],
        [ 9.2422],
        [ 9.1797],
        [-9.3828],
        [-9.4531],
        [ 9.2422],
        [ 9.2031],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.280327796936035
count = 419
logits = tensor([[-9.4141],
        [ 9.2344],
        [ 9.1875],
        [-1.0371],
        [ 9.2188],
        [ 9.1875],
        [-9.4688],
        [ 9.1094]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.31826114654541
count = 420


 83%|████████▎ | 423/511 [00:23<00:04, 18.00it/s]

logits = tensor([[-9.0469],
        [-9.4375],
        [ 9.1250],
        [-9.4297],
        [ 9.2656],
        [ 9.2422],
        [-9.4609],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.31826114654541
count = 421
logits = tensor([[-9.5156],
        [ 9.1328],
        [-9.4219],
        [-9.4609],
        [-9.4766],
        [-9.4297],
        [ 9.2734],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.31826114654541
count = 422
logits = tensor([[ 9.1953],
        [ 9.2344],
        [-9.3906],
        [-9.4688],
        [-2.2617],
        [-9.4531],
        [-9.4297],
        [-9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.330681800842285
count = 423
logits = tensor([[ 9.2344],
        [ 9.2422],
        [ 9.1719],
        [-9.3203],
        [-1.7998],
        [ 9.1953],
        [ 9.1094],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.57474613189697
count = 424


 84%|████████▎ | 427/511 [00:23<00:04, 18.30it/s]

logits = tensor([[ 9.0703],
        [ 9.1875],
        [-9.4844],
        [-9.4141],
        [-9.4453],
        [ 9.1797],
        [ 9.1641],
        [-9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.57474613189697
count = 425
logits = tensor([[ 9.2891],
        [-9.4453],
        [ 9.1953],
        [ 9.2109],
        [ 9.2266],
        [-9.4219],
        [ 8.7656],
        [-9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.57474613189697
count = 426
logits = tensor([[-9.3594],
        [-2.0469],
        [-9.5000],
        [-9.4531],
        [-3.9902],
        [ 9.2500],
        [ 9.1875],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.592204093933105
count = 427
logits = tensor([[-9.2969],
        [-2.0664],
        [ 9.2266],
        [-9.5078],
        [-9.4297],
        [ 9.2500],
        [ 9.2500],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.60714244842529
count = 428


 84%|████████▍ | 431/511 [00:23<00:04, 18.64it/s]

logits = tensor([[ 9.1484],
        [-9.4688],
        [ 9.2109],
        [-3.9043],
        [ 9.2109],
        [ 9.1406],
        [-9.4375],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.609679222106934
count = 429
logits = tensor([[-9.4531],
        [-9.4453],
        [ 9.2422],
        [-1.4150],
        [-9.4766],
        [-9.4297],
        [-9.3672],
        [ 9.1641]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.63688564300537
count = 430
logits = tensor([[ 9.0391],
        [ 3.6055],
        [-9.4375],
        [ 9.1016],
        [ 9.2344],
        [ 9.2266],
        [-9.4688],
        [-9.5078]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.640257835388184
count = 431
logits = tensor([[ 9.1562],
        [-9.4219],
        [ 9.2578],
        [-9.5078],
        [ 9.2500],
        [-9.3984],
        [-9.4062],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.640257835388184
count = 432


 85%|████████▌ | 435/511 [00:24<00:04, 18.04it/s]

logits = tensor([[-0.3594],
        [ 9.1172],
        [ 9.1875],
        [ 9.2578],
        [ 9.1797],
        [ 9.2344],
        [-3.6738],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.754536628723145
count = 433
logits = tensor([[-2.8496],
        [ 9.1875],
        [ 9.1094],
        [-9.5000],
        [-0.8081],
        [ 9.1875],
        [-9.2578],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 33.90860462188721
count = 434
logits = tensor([[ 9.2109],
        [ 9.2109],
        [-1.1816],
        [ 9.2578],
        [ 1.1172],
        [ 9.2109],
        [ 9.0547],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.11707019805908
count = 435
logits = tensor([[ 9.2109],
        [-9.4922],
        [ 9.2188],
        [-9.5000],
        [ 9.2422],
        [ 9.1797],
        [ 9.1328],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.11707019805908
count = 436


 86%|████████▌ | 439/511 [00:24<00:04, 17.81it/s]

logits = tensor([[ 8.9609],
        [-1.4727],
        [-0.8071],
        [ 9.2266],
        [-9.4453],
        [ 9.1953],
        [ 9.2422],
        [-9.4141]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.18900012969971
count = 437
logits = tensor([[-9.4297],
        [-9.3672],
        [-9.4766],
        [ 9.1875],
        [ 9.1875],
        [-9.4062],
        [ 9.1953],
        [-9.3750]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.18900012969971
count = 438
logits = tensor([[-0.5020],
        [ 9.2422],
        [-9.4141],
        [ 4.4922],
        [-0.9092],
        [-9.4297],
        [ 9.2266],
        [-2.6816]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.36278247833252
count = 439
logits = tensor([[-0.9229],
        [ 9.0234],
        [-9.4062],
        [ 8.9062],
        [ 9.1953],
        [-9.4609],
        [-9.4766],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.404622077941895
count = 440


 87%|████████▋ | 443/511 [00:24<00:03, 17.98it/s]

logits = tensor([[-0.2854],
        [-9.3984],
        [ 9.0391],
        [ 9.2578],
        [-9.4844],
        [ 9.2578],
        [-9.3906],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.474690437316895
count = 441
logits = tensor([[-9.4219],
        [ 9.1250],
        [ 9.2109],
        [-1.0371],
        [ 9.1328],
        [ 9.0703],
        [-9.4219],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.51262378692627
count = 442
logits = tensor([[-9.0625],
        [ 9.2031],
        [ 9.0703],
        [ 9.2109],
        [-9.4062],
        [ 9.1094],
        [-9.1328],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.51262378692627
count = 443
logits = tensor([[-9.4375],
        [-9.4141],
        [ 0.2510],
        [-9.2578],
        [ 8.8906],
        [ 9.1875],
        [-9.2812],
        [-2.5449]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.94340991973877
count = 444


 87%|████████▋ | 447/511 [00:24<00:03, 18.13it/s]

logits = tensor([[ 9.1406],
        [-9.4141],
        [-9.4141],
        [-9.4922],
        [ 9.1953],
        [ 9.2031],
        [-9.4766],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 34.94340991973877
count = 445
logits = tensor([[-9.3438],
        [ 8.8516],
        [-3.9160],
        [-0.2625],
        [ 9.2266],
        [ 9.1094],
        [-9.4844],
        [ 9.0938]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.017178535461426
count = 446
logits = tensor([[ 9.1953],
        [ 9.0703],
        [ 9.2031],
        [ 9.2188],
        [ 9.2031],
        [-9.4609],
        [-2.3965],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.028042793273926
count = 447
logits = tensor([[ 9.1875],
        [-0.6099],
        [-9.4609],
        [-9.4062],
        [ 9.2109],
        [-0.5518],
        [-1.7656],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.524746894836426
count = 448


 88%|████████▊ | 451/511 [00:25<00:03, 18.14it/s]

logits = tensor([[ 9.1250],
        [-9.4688],
        [-9.4609],
        [-1.6904],
        [ 9.2422],
        [ 9.2266],
        [ 9.2578],
        [-0.2915]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.615689277648926
count = 449
logits = tensor([[ 9.2031],
        [ 0.5054],
        [ 9.1406],
        [-9.4766],
        [ 9.2109],
        [ 9.2422],
        [ 9.2422],
        [-9.4531]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.737881660461426
count = 450
logits = tensor([[ 9.2578],
        [-9.4609],
        [ 9.1328],
        [ 9.1797],
        [-9.3828],
        [ 9.2344],
        [-9.3281],
        [ 9.2891]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.737881660461426
count = 451
logits = tensor([[-9.4531],
        [ 9.2422],
        [-9.3359],
        [-9.4375],
        [ 9.1406],
        [ 9.1875],
        [-0.9531],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.897793769836426
count = 452


 89%|████████▉ | 455/511 [00:25<00:03, 18.24it/s]

logits = tensor([[ 9.2266],
        [ 9.0469],
        [ 9.2109],
        [ 1.3818],
        [-0.9814],
        [ 9.2109],
        [ 9.1641],
        [ 4.6328]], device='cuda:0', dtype=torch.float16)
mean_loss = 35.96678829193115
count = 453
logits = tensor([[ 9.1406],
        [ 9.2656],
        [-1.1758],
        [-9.4219],
        [ 9.2344],
        [-9.3984],
        [-9.4141],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.0004186630249
count = 454
logits = tensor([[-9.4375],
        [-9.4688],
        [ 9.1562],
        [ 9.2422],
        [-1.1260],
        [ 9.2656],
        [-9.4062],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.17626094818115
count = 455
logits = tensor([[ 9.0703],
        [-9.5156],
        [-9.4531],
        [-9.1953],
        [ 9.1641],
        [-1.0273],
        [ 9.1953],
        [ 9.0781]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.34288692474365
count = 456


 90%|████████▉ | 459/511 [00:25<00:02, 18.59it/s]

logits = tensor([[ 9.0781],
        [-9.4375],
        [-9.4141],
        [ 9.2422],
        [-9.4219],
        [-9.2734],
        [ 9.1797],
        [-9.3672]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.34288692474365
count = 457
logits = tensor([[ 9.1484],
        [-0.4990],
        [ 9.1953],
        [ 9.1797],
        [ 9.1328],
        [-9.3984],
        [ 9.1797],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.40221309661865
count = 458
logits = tensor([[-9.4531],
        [-2.9902],
        [ 9.2266],
        [-9.4609],
        [ 9.2500],
        [ 9.2656],
        [ 9.1016],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.40828990936279
count = 459
logits = tensor([[-9.4375],
        [ 9.2734],
        [ 9.1172],
        [ 9.2109],
        [ 9.1719],
        [-9.4922],
        [ 9.2109],
        [-9.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.40828990936279
count = 460


 91%|█████████ | 463/511 [00:25<00:02, 18.43it/s]

logits = tensor([[ 9.2578],
        [ 8.8672],
        [-9.4609],
        [-2.2773],
        [ 9.2188],
        [ 9.2266],
        [ 9.2422],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.42048931121826
count = 461
logits = tensor([[ 8.9922],
        [-3.7070],
        [ 9.2109],
        [ 9.1016],
        [ 0.4487],
        [ 9.1953],
        [-9.4609],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48524188995361
count = 462
logits = tensor([[-9.4609],
        [ 9.2656],
        [-9.4922],
        [ 9.2266],
        [ 9.2344],
        [-9.4375],
        [ 9.0938],
        [-9.4375]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48524188995361
count = 463
logits = tensor([[-9.3672],
        [ 9.1875],
        [ 9.2266],
        [ 9.2500],
        [-9.5078],
        [ 9.2109],
        [-9.3984],
        [ 9.0547]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48524188995361
count = 464


 91%|█████████▏| 467/511 [00:25<00:02, 18.12it/s]

logits = tensor([[ 9.1953],
        [ 9.1797],
        [-9.4922],
        [ 9.1484],
        [ 9.2500],
        [ 9.1797],
        [ 9.2109],
        [ 9.1875]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.48524188995361
count = 465
logits = tensor([[ 9.1953],
        [ 9.1094],
        [ 9.1953],
        [-0.7129],
        [-9.4453],
        [ 9.1484],
        [-2.4434],
        [ 2.4785]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.6447114944458
count = 466
logits = tensor([[-0.6001],
        [-9.4375],
        [-9.4219],
        [ 9.2109],
        [ 9.2188],
        [ 9.2500],
        [ 9.1797],
        [-9.3047]], device='cuda:0', dtype=torch.float16)
mean_loss = 36.6993989944458
count = 467
logits = tensor([[-9.4141],
        [ 9.2422],
        [ 9.1719],
        [-2.9941],
        [-9.4297],
        [ 9.2656],
        [ 9.2109],
        [-9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.07974338531494
count = 468


 92%|█████████▏| 471/511 [00:26<00:02, 18.55it/s]

logits = tensor([[ 9.2500],
        [ 9.0078],
        [-9.3750],
        [ 9.1953],
        [ 9.1953],
        [ 0.2532],
        [-9.3672],
        [ 9.2656]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.183228492736816
count = 469
logits = tensor([[ 9.0938],
        [ 9.2422],
        [ 0.4199],
        [ 9.1797],
        [-9.3359],
        [-9.4609],
        [-9.5078],
        [ 9.1328]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.246399879455566
count = 470
logits = tensor([[-9.4062],
        [-2.1445],
        [ 9.0703],
        [-9.4141],
        [ 9.2109],
        [-1.2695],
        [ 9.2188],
        [ 9.1797]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.44992160797119
count = 471
logits = tensor([[-9.4688],
        [ 9.2188],
        [ 1.3926],
        [-9.3984],
        [ 9.2344],
        [-9.4688],
        [ 8.9375],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.47761631011963
count = 472


 93%|█████████▎| 475/511 [00:26<00:01, 18.20it/s]

logits = tensor([[-1.1230],
        [-9.3750],
        [-2.1777],
        [ 9.1953],
        [ 9.1562],
        [ 9.1719],
        [-9.4297],
        [ 9.2109]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.52621555328369
count = 473
logits = tensor([[-9.4141],
        [ 9.1719],
        [-9.0625],
        [ 9.2891],
        [ 9.2266],
        [ 9.2266],
        [ 9.0391],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.52621555328369
count = 474
logits = tensor([[-9.3438],
        [ 9.2734],
        [ 9.1875],
        [ 9.1406],
        [ 9.1953],
        [-9.4531],
        [ 9.2500],
        [-9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.52621555328369
count = 475
logits = tensor([[-9.4375],
        [ 9.1797],
        [-9.3984],
        [ 9.2031],
        [ 0.5410],
        [ 9.1641],
        [ 9.2344],
        [ 9.1172]], device='cuda:0', dtype=torch.float16)
mean_loss = 37.583558082580566
count = 476


 94%|█████████▎| 479/511 [00:26<00:01, 18.18it/s]

logits = tensor([[-1.5215],
        [ 9.0859],
        [ 9.2031],
        [ 9.1719],
        [-9.4453],
        [-9.4844],
        [ 1.3984],
        [-9.5000]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.00088596343994
count = 477
logits = tensor([[-1.3291],
        [-2.4785],
        [-9.4219],
        [-9.4609],
        [-2.3848],
        [ 9.1719],
        [-9.4297],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.52723789215088
count = 478
logits = tensor([[-9.3906],
        [ 9.1797],
        [ 9.1953],
        [-9.4453],
        [ 9.2109],
        [-9.4609],
        [ 9.2188],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.52723789215088
count = 479
logits = tensor([[-0.8423],
        [-9.4375],
        [ 9.2109],
        [ 9.1875],
        [ 9.1953],
        [ 8.5781],
        [ 9.2031],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.677292823791504
count = 480


 95%|█████████▍| 483/511 [00:26<00:01, 17.90it/s]

logits = tensor([[ 9.1797],
        [ 9.0703],
        [-9.3828],
        [ 9.2500],
        [-9.4219],
        [ 9.1250],
        [ 9.2266],
        [ 9.1953]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.677292823791504
count = 481
logits = tensor([[-9.1328],
        [ 9.2031],
        [-9.4766],
        [ 9.1797],
        [ 9.1641],
        [ 9.2031],
        [-0.4060],
        [ 9.0156]], device='cuda:0', dtype=torch.float16)
mean_loss = 38.79182529449463
count = 482
logits = tensor([[-1.8682],
        [-0.3730],
        [ 8.8125],
        [ 9.1484],
        [-9.3672],
        [-9.4922],
        [ 9.2812],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.108765602111816
count = 483
logits = tensor([[-9.4141],
        [ 9.2266],
        [-0.6040],
        [ 9.2031],
        [-0.8960],
        [-9.4375],
        [-9.4531],
        [ 9.1719]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.20608615875244
count = 484


 95%|█████████▌| 487/511 [00:27<00:01, 18.30it/s]

logits = tensor([[ 9.1875],
        [ 9.1719],
        [-9.3906],
        [ 9.0859],
        [ 0.0990],
        [ 1.9238],
        [-9.4766],
        [-9.3516]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.30380344390869
count = 485
logits = tensor([[ 9.2266],
        [-9.5312],
        [ 9.2344],
        [ 9.1797],
        [ 9.1953],
        [-9.4609],
        [ 9.2422],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.30380344390869
count = 486
logits = tensor([[ 9.2500],
        [-9.4141],
        [ 9.1641],
        [ 8.8672],
        [ 9.1953],
        [ 9.2422],
        [-0.7319],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.352845191955566
count = 487
logits = tensor([[ 9.1797],
        [ 4.2812],
        [ 9.2188],
        [ 9.2344],
        [-9.4141],
        [-9.3828],
        [ 9.2188],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.35454273223877
count = 488


 96%|█████████▌| 491/511 [00:27<00:01, 18.20it/s]

logits = tensor([[ 8.7969],
        [ 0.0246],
        [-9.5234],
        [-9.4375],
        [-1.3125],
        [ 3.0020],
        [-9.3672],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.64267444610596
count = 489
logits = tensor([[ 9.2109],
        [-1.0947],
        [ 9.1953],
        [-9.4453],
        [-0.5796],
        [ 9.2500],
        [ 0.5205],
        [ 9.2266]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.85773181915283
count = 490
logits = tensor([[ 9.2422],
        [ 9.2344],
        [-9.4766],
        [-9.4766],
        [-9.3984],
        [-9.4141],
        [ 9.2031],
        [ 9.2188]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.85773181915283
count = 491
logits = tensor([[ 9.2188],
        [-9.4688],
        [-9.3906],
        [-9.4844],
        [-9.3672],
        [ 9.1953],
        [ 9.0547],
        [-8.9688]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.85773181915283
count = 492


 97%|█████████▋| 495/511 [00:27<00:00, 18.01it/s]

logits = tensor([[ 9.2656],
        [-2.6641],
        [ 9.2656],
        [-9.4922],
        [ 9.2188],
        [ 9.1875],
        [ 9.2422],
        [-9.0703]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.866108894348145
count = 493
logits = tensor([[-9.4297],
        [ 9.2266],
        [-9.4531],
        [ 9.2422],
        [ 9.1719],
        [ 9.1719],
        [-9.4453],
        [ 8.8594]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.866108894348145
count = 494
logits = tensor([[ 9.1875],
        [ 9.2266],
        [-9.4062],
        [ 9.2109],
        [ 9.0781],
        [-9.3359],
        [-1.0791],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.902668952941895
count = 495
logits = tensor([[-9.4766],
        [-9.4688],
        [ 9.2031],
        [ 9.2344],
        [ 9.2344],
        [ 0.3728],
        [-9.4609],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.968220710754395
count = 496


 98%|█████████▊| 499/511 [00:27<00:00, 17.98it/s]

logits = tensor([[ 9.0703],
        [ 9.2422],
        [-9.3906],
        [ 9.2734],
        [ 9.2422],
        [ 9.1328],
        [ 9.2734],
        [-9.4609]], device='cuda:0', dtype=torch.float16)
mean_loss = 39.968220710754395
count = 497
logits = tensor([[-9.4375],
        [-0.3223],
        [ 9.1953],
        [ 9.2656],
        [ 9.2422],
        [ 9.2266],
        [-9.5078],
        [ 8.9766]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.036335945129395
count = 498
logits = tensor([[ 9.1094],
        [ 9.2266],
        [ 8.8203],
        [ 9.1641],
        [-0.5923],
        [-9.4141],
        [ 9.2578],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.091328620910645
count = 499
logits = tensor([[ 9.2422],
        [ 9.1250],
        [ 9.2500],
        [ 9.2578],
        [-9.4453],
        [-9.3984],
        [ 9.2109],
        [-9.4688]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.091328620910645
count = 500


 98%|█████████▊| 503/511 [00:27<00:00, 18.31it/s]

logits = tensor([[ 9.2500],
        [ 9.2422],
        [-9.4688],
        [ 9.2500],
        [-9.4297],
        [ 9.2266],
        [ 9.1875],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.091328620910645
count = 501
logits = tensor([[-1.0645],
        [ 9.2656],
        [-9.5078],
        [ 9.1953],
        [ 9.1875],
        [ 9.1094],
        [-1.0674],
        [-9.4844]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.29869556427002
count = 502
logits = tensor([[-9.3906],
        [ 9.2656],
        [ 8.6094],
        [ 9.1562],
        [ 9.2734],
        [ 9.1641],
        [ 0.2098],
        [-9.4453]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.37291431427002
count = 503
logits = tensor([[-9.4062],
        [-9.4141],
        [ 9.1406],
        [ 9.1875],
        [-9.2344],
        [ 9.1719],
        [-8.9609],
        [ 9.2578]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.37291431427002
count = 504


 99%|█████████▉| 507/511 [00:28<00:00, 18.91it/s]

logits = tensor([[ 9.2188],
        [ 9.2031],
        [-9.4141],
        [ 9.1641],
        [-9.4609],
        [-9.4453],
        [ 9.1797],
        [ 9.2031]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.37291431427002
count = 505
logits = tensor([[-9.4531],
        [ 9.2422],
        [ 9.1797],
        [-1.3574],
        [ 9.1406],
        [ 9.2188],
        [-1.0693],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.57217884063721
count = 506
logits = tensor([[ 0.3479],
        [-9.4922],
        [-1.1299],
        [ 8.3438],
        [-1.2988],
        [ 9.1797],
        [-9.4219],
        [-9.3125]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.74765491485596
count = 507
logits = tensor([[-9.4609],
        [-9.4297],
        [-9.4531],
        [-9.4297],
        [ 9.2031],
        [ 9.1953],
        [-9.4219],
        [ 9.2500]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.74765491485596
count = 508


100%|█████████▉| 509/511 [00:28<00:00, 19.06it/s]

logits = tensor([[ 9.2578],
        [ 9.1562],
        [ 9.1250],
        [ 9.1953],
        [-9.4141],
        [-1.1992],
        [-9.3828],
        [ 9.2422]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.78061389923096
count = 509
logits = tensor([[-9.4141],
        [ 9.2656],
        [-9.5078],
        [-9.3750],
        [-9.4297],
        [ 9.0234],
        [ 9.2422],
        [ 9.2344]], device='cuda:0', dtype=torch.float16)
mean_loss = 40.78061389923096
count = 510
logits = tensor([[-0.8779],
        [ 9.2266],
        [-9.4297]], device='cuda:0', dtype=torch.float16)
mean_loss = 41.18922394514084
count = 511


100%|██████████| 511/511 [00:28<00:00, 17.91it/s]



Epoch 4 complete! Validation Loss : 0.08060513492199772
The model has been saved in models/bert-base-cased_lr_2e-05_val_loss_0.0797_ep_3.pt


# Predictions

In [32]:
def get_probs_from_logits(logits):
    """
    Converts a tensor of logits into an array of probabilities by applying the sigmoid function
    """
    probs = torch.sigmoid(logits.unsqueeze(-1))
    return probs.detach().cpu().numpy()

def test_prediction(net, device, dataloader, with_labels=True, result_file="results/output.txt"):
    """
    Predict the probabilities on a dataset with or without labels and print the result in a file
    """
    net.eval()
    w = open(result_file, 'w')
    probs_all = []

    with torch.no_grad():
        if with_labels:
            for seq, attn_masks, token_type_ids, _ in tqdm(dataloader):
                seq, attn_masks, token_type_ids = seq.to(device), attn_masks.to(device), token_type_ids.to(device)
                logits = net(seq, attn_masks, token_type_ids)
                probs = get_probs_from_logits(logits.squeeze(-1)).squeeze(-1)
                probs_all += probs.tolist()
        else:
            for seq, attn_masks, token_type_ids in tqdm(dataloader):
                seq, attn_masks, token_type_ids = seq.to(device), attn_masks.to(device), token_type_ids.to(device)
                logits = net(seq, attn_masks, token_type_ids)
                probs = get_probs_from_logits(logits.squeeze(-1)).squeeze(-1)
                probs_all += probs.tolist()

    w.writelines(str(prob)+'\n' for prob in probs_all)
    w.close()

In [33]:
path_to_model = '/content/models/bert-base-cased_lr_2e-05_val_loss_0.0797_ep_3.pt'  

path_to_output_file = 'results/output.txt'

print("Reading test data...")
test_set = CustomDataset(df_test, maxlen, bert_model)
test_loader = DataLoader(test_set, batch_size=bs, num_workers=5)

model = SentencePairClassifier(bert_model)
if torch.cuda.device_count() > 1:  # if multiple GPUs
    print("Let's use", torch.cuda.device_count(), "GPUs!")
    model = nn.DataParallel(model)

print()
print("Loading the weights of the model...")
model.load_state_dict(torch.load(path_to_model))
model.to(device)

print("Predicting on test data...")
test_prediction(net=model, device=device, dataloader=test_loader, with_labels=True,  # set the with_labels parameter to False if your want to get predictions on a dataset without labels
                result_file=path_to_output_file)
print()
print("Predictions are available in : {}".format(path_to_output_file))

Reading test data...


  cpuset_checked))



Loading the weights of the model...
Predicting on test data...


100%|██████████| 409/409 [00:20<00:00, 20.13it/s]


Predictions are available in : results/output.txt





# Evaluation

In [34]:
path_to_output_file = 'results/output.txt'  # path to the file with prediction probabilities

labels_test = df_test['label']  # true labels

probs_test = pd.read_csv(path_to_output_file, header=None)[0]  # prediction probabilities
threshold = 0.5   # you can adjust this threshold for your own dataset
preds_test=(probs_test>=threshold).astype('uint8') # predicted labels using the above fixed threshold

metric = load_metric("glue", "mrpc")

https://raw.githubusercontent.com/huggingface/datasets/1.0.1/metrics/glue/glue.py not found in cache or force_download set to True, downloading to /root/.cache/huggingface/datasets/tmpljehdhf3


Downloading:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

storing https://raw.githubusercontent.com/huggingface/datasets/1.0.1/metrics/glue/glue.py in cache at /root/.cache/huggingface/datasets/50d5843bbbbd80c47809bc76a5b03c0fd87d068509b0060103ae8182e4f5cfb9.ec871b06a00118091ec63eff0a641fddcb8d3c7cd52e855bbb2be28944df4b82.py
creating metadata file for /root/.cache/huggingface/datasets/50d5843bbbbd80c47809bc76a5b03c0fd87d068509b0060103ae8182e4f5cfb9.ec871b06a00118091ec63eff0a641fddcb8d3c7cd52e855bbb2be28944df4b82.py
Checking /root/.cache/huggingface/datasets/50d5843bbbbd80c47809bc76a5b03c0fd87d068509b0060103ae8182e4f5cfb9.ec871b06a00118091ec63eff0a641fddcb8d3c7cd52e855bbb2be28944df4b82.py for additional imports.
Creating main folder for metric https://raw.githubusercontent.com/huggingface/datasets/1.0.1/metrics/glue/glue.py at /root/.cache/huggingface/modules/datasets_modules/metrics/glue
Creating specific version folder for metric https://raw.githubusercontent.com/huggingface/datasets/1.0.1/metrics/glue/glue.py at /root/.cache/huggingface/mod

In [35]:
# Compute the accuracy and F1 scores
metric._compute(predictions=preds_test, references=labels_test)

{'accuracy': 0.9528619528619529, 'f1': 0.957622454595487}