Base 환경에서 실행

In [4]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import tensorflow as tf

from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

In [5]:
df_newsgroup = pd.read_csv('C:/Users/user/Desktop/bilm-tf-master/20news_dataset_clear/20newsgroup_preprocessed.csv', sep=';', usecols=['target', 'text_cleaned'])
df_newsgroup.rename(columns={'text_cleaned' : 'text'}, inplace=True)

In [6]:
le = LabelEncoder()
le.fit(df_newsgroup['target'].unique())

In [7]:
df_newsgroup['target'] = le.transform(df_newsgroup['target'])

In [8]:
X = df_newsgroup['text'].astype(str)
y=list(df_newsgroup['target'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=df_newsgroup['target'])

In [9]:
x_train=list(X_train)
x_test=list(X_test)

특수문자 제거

In [10]:
import re
pattern = '[^a-z.0-9 ]'
clr_x_trian=[]
clr_x_test=[]
for sen in x_train:
    clr_x_trian.append(re.sub(pattern, '', sen))
for sen in x_test:
    clr_x_test.append(re.sub(pattern, '', sen))

In [11]:
x_train=clr_x_trian
x_test=clr_x_test

In [12]:
to_txt_filter=x_train+x_test

In [13]:
y=list(y_train)+list(y_test)

문서 길이 조정

In [14]:
#문서 리스트를 입력으로 문서가 설정한 길이(max_words)보다 단어 수가 많다면 뒤의 단어는 truncate하고 새로운 문서 리스트를 출력
def limit_words(text_list, max_words):
    new_list = []
    for text in text_list:
        words = text.split()
        if len(words) > max_words:
            words = words[:max_words]
        new_text = ' '.join(words)
        new_list.append(new_text)
    return new_list

In [15]:
to_txt_filter=limit_words(to_txt_filter,300) #버트 임베딩은 최대 임베딩 토큰 수가 정해져 있으므로 최대길이를 300으로 제한

In [16]:
to_txt_filter

['seen various references triple des recently could anyone tell context would guess means encrypting block times different key time id like sure replies email preferred news unreliable thanks richard pgp public key available request pgp public key available request disclaimer please note personal view construed official comment jet project',
 'j r laferriere wrote wondering law officers read several questions would like ask pertaining motorcycles cops please dont say get vehicle code go local station obvious things like questions would found places answered face face real live flesh cop brother friend cousin whos father cop etc dont bother writing thanks um would mind telling us statemunicipality live different laws different places know tom coradeschi usenet like herd performing elephants diarrhea massive difficult redirect aweinspiring entertaining source mind boggling amounts excrement least expect gene spafford',
 'sandy santra writes mike mattone wrote ive computer months thats lo

버트 모델 정의

In [17]:
import torch
import numpy as np
from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM
from itertools import groupby
from operator import itemgetter


tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 미리 학습된 모델(가중치) 불러오기
model = BertModel.from_pretrained('bert-base-uncased')

In [18]:
len(to_txt_filter)

18828

In [19]:
text = to_txt_filter[5]


marked_text = "[CLS] " + text + " [SEP]"

tokenized_text = tokenizer.tokenize(marked_text) #서브토큰화

indexed_text = tokenizer.convert_tokens_to_ids(tokenized_text)

segments_ids = [1] * len(tokenized_text)

# Python list를 PyTorch tensor로 변환하기 
tokens_tensor = torch.tensor([indexed_text])
segments_tensors = torch.tensor([segments_ids])

with torch.no_grad():
    encoded_layers, _ = model(tokens_tensor, segments_tensors )
    
token_embeddings = torch.stack(encoded_layers, dim=0) #12개 레이어 쌓기 # torch.Size([12, 1, 22, 768])
token_embeddings = torch.squeeze(token_embeddings, dim=1) #배치 차원 제거 # torch.Size([12, 22, 768])
token_embeddings = token_embeddings.permute(1,0,2) #위치 변환 # torch.Size([22, 12, 768])

token_vecs_sum = []

for token in token_embeddings:
    
    sum_vec = torch.sum(token[-4:], dim=0)
    
    token_vecs_sum.append(np.array(sum_vec))
    

token_vecs_sum=np.array(token_vecs_sum)

In [20]:
def split_continuous_integers(lst):                                      #연속된 정수리스트를 split 해주는 함수
    for k, g in groupby(enumerate(lst), lambda i_x:i_x[0]-i_x[1]):
        yield list(map(itemgetter(1), g))
        
def add_previous_number(lst):                                            #최초 서브토큰 인덱스 추가
    return [[sub_lst[0] - 1] + sub_lst for sub_lst in lst]

def bert_word_embedding(text):
    marked_text = "[CLS] " + text + " [SEP]"
    tokenized_text = tokenizer.tokenize(marked_text) #서브토큰화
    indexed_text = tokenizer.convert_tokens_to_ids(tokenized_text)
    segments_ids = [1] * len(tokenized_text)
    # Python list를 PyTorch tensor로 변환하기 
    tokens_tensor = torch.tensor([indexed_text])
    segments_tensors = torch.tensor([segments_ids])
    with torch.no_grad():
        encoded_layers, _ = model(tokens_tensor, segments_tensors )
    token_embeddings = torch.stack(encoded_layers, dim=0) #12개 레이어 쌓기 # torch.Size([12, 1, 22, 768])
    token_embeddings = torch.squeeze(token_embeddings, dim=1) #배치 차원 제거 # torch.Size([12, 22, 768])
    token_embeddings = token_embeddings.permute(1,0,2) #위치 변환 # torch.Size([22, 12, 768])
    
    token_vecs_sum = []
    for token in token_embeddings:                #인코더의 마지막 4개의 은닉 상태를 합쳐 최종 벡터(4개 합친 것이 성능이 가장 좋음)
        sum_vec = torch.sum(token[-4:], dim=0)
        token_vecs_sum.append(np.array(sum_vec))
    
    token_vecs_sum=np.array(token_vecs_sum)
    #서브토큰을 결합해 단어에 대한 임베딩 벡터를 얻자
    subword_indices = [i for i, token in enumerate(tokenized_text) if '##' in token]
    index_list = add_previous_number(list(split_continuous_integers(subword_indices))) #index_list는 서브토큰에 해당하는 인덱스를 한 리스트에 묶어줌
    
    new_token_vecs_sum = []
    last_index = 0

    for subword_inx_list in index_list:
        # 이전 인덱스와 현재 인덱스 그룹 사이의 벡터를 추가합니다.
        new_token_vecs_sum.extend(token_vecs_sum[last_index:subword_inx_list[0]])

        # 현재 인덱스 그룹에 해당하는 벡터의 평균을 계산하고 추가합니다.
        avg_vecs = np.mean(token_vecs_sum[subword_inx_list], axis=0)
        new_token_vecs_sum.append(avg_vecs)

        # 마지막 인덱스를 업데이트합니다.
        last_index = subword_inx_list[-1] + 1

    # 마지막 인덱스 이후의 벡터를 추가합니다.
    new_token_vecs_sum.extend(token_vecs_sum[last_index:])

    # 결과를 numpy array로 변환합니다.
    new_token_vecs_sum = np.array(new_token_vecs_sum[1:-1])
    
    return new_token_vecs_sum

In [21]:
token_vecs_sum=bert_word_embedding(text)
token_vecs_sum.shape

(268, 768)

임베딩

In [18]:
except_lst=[]
for i in range(len(x_train)):
    try:
        text = to_txt_filter[i]
        embed_matrix=bert_word_embedding(text)       
        np.save('./bert_embedding/train(bert)/doc%d'%i,embed_matrix)
        print(embed_matrix.shape)
    except:
        except_lst.append(i)   #sub_token 길이가 512가 넘는 문서는 except_lst에 추가

(49, 768)
(84, 768)
(79, 768)
(150, 768)
(49, 768)
(268, 768)
(141, 768)
(160, 768)
(58, 768)
(59, 768)
(149, 768)
(54, 768)
(94, 768)
(58, 768)
(11, 768)
(25, 768)
(65, 768)
(71, 768)
(125, 768)
(300, 768)
(116, 768)
(120, 768)
(129, 768)
(300, 768)
(62, 768)
(71, 768)
(114, 768)
(300, 768)
(29, 768)
(51, 768)
(143, 768)
(66, 768)
(19, 768)
(300, 768)
(67, 768)
(73, 768)
(27, 768)
(114, 768)
(175, 768)
(54, 768)
(300, 768)
(37, 768)
(59, 768)
(59, 768)
(207, 768)
(21, 768)
(118, 768)
(86, 768)
(47, 768)
(14, 768)
(300, 768)
(57, 768)
(50, 768)
(57, 768)
(41, 768)
(69, 768)
(72, 768)
(14, 768)
(63, 768)
(30, 768)
(228, 768)
(15, 768)
(104, 768)
(151, 768)
(58, 768)
(51, 768)
(23, 768)
(103, 768)
(300, 768)
(65, 768)
(120, 768)
(75, 768)
(94, 768)
(95, 768)
(42, 768)
(110, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (513 > 512). Running this sequence through BERT will result in indexing errors


(113, 768)
(41, 768)
(15, 768)
(133, 768)
(47, 768)
(36, 768)
(300, 768)
(51, 768)
(110, 768)
(61, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (588 > 512). Running this sequence through BERT will result in indexing errors


(105, 768)
(54, 768)
(141, 768)
(92, 768)
(156, 768)
(84, 768)
(88, 768)
(122, 768)
(112, 768)
(133, 768)
(34, 768)
(130, 768)
(144, 768)
(35, 768)
(290, 768)
(26, 768)
(79, 768)
(29, 768)
(300, 768)
(107, 768)
(30, 768)
(47, 768)
(18, 768)
(117, 768)
(16, 768)
(67, 768)
(78, 768)
(44, 768)
(126, 768)
(2, 768)
(64, 768)
(43, 768)
(41, 768)
(39, 768)
(22, 768)
(46, 768)
(136, 768)
(79, 768)
(66, 768)
(256, 768)
(48, 768)
(41, 768)
(81, 768)
(121, 768)
(96, 768)
(19, 768)
(17, 768)
(21, 768)
(51, 768)
(64, 768)
(29, 768)
(22, 768)
(23, 768)
(147, 768)
(195, 768)
(88, 768)
(174, 768)
(44, 768)
(129, 768)
(136, 768)
(46, 768)
(59, 768)
(294, 768)
(10, 768)
(300, 768)
(300, 768)
(300, 768)
(45, 768)
(50, 768)
(33, 768)
(151, 768)
(72, 768)
(16, 768)
(41, 768)
(83, 768)
(67, 768)
(80, 768)
(162, 768)
(10, 768)
(66, 768)
(111, 768)
(48, 768)
(218, 768)
(145, 768)
(124, 768)
(152, 768)
(57, 768)
(46, 768)
(66, 768)
(81, 768)
(300, 768)
(72, 768)
(73, 768)
(97, 768)
(80, 768)
(78, 768)
(123, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (606 > 512). Running this sequence through BERT will result in indexing errors


(120, 768)
(35, 768)
(26, 768)
(67, 768)
(63, 768)
(37, 768)
(137, 768)
(164, 768)
(238, 768)
(49, 768)
(42, 768)
(88, 768)
(36, 768)
(87, 768)
(168, 768)
(45, 768)
(81, 768)
(58, 768)
(87, 768)
(33, 768)
(73, 768)
(82, 768)
(51, 768)
(193, 768)
(63, 768)
(245, 768)
(138, 768)
(85, 768)
(57, 768)
(300, 768)
(48, 768)
(62, 768)
(209, 768)
(117, 768)
(103, 768)
(87, 768)
(31, 768)
(68, 768)
(56, 768)
(66, 768)
(67, 768)
(23, 768)
(138, 768)
(108, 768)
(300, 768)
(21, 768)
(131, 768)
(33, 768)
(11, 768)
(185, 768)
(32, 768)
(10, 768)
(46, 768)
(78, 768)
(130, 768)
(106, 768)
(62, 768)
(70, 768)
(18, 768)
(194, 768)
(96, 768)
(76, 768)
(126, 768)
(57, 768)
(300, 768)
(300, 768)
(57, 768)
(195, 768)
(41, 768)
(56, 768)
(119, 768)
(93, 768)
(9, 768)
(91, 768)
(123, 768)
(300, 768)
(56, 768)
(27, 768)
(102, 768)
(29, 768)
(170, 768)
(151, 768)
(40, 768)
(36, 768)
(62, 768)
(76, 768)
(300, 768)
(97, 768)
(34, 768)
(70, 768)
(71, 768)
(8, 768)
(197, 768)
(32, 768)
(16, 768)
(97, 768)
(242, 768)

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (521 > 512). Running this sequence through BERT will result in indexing errors


(115, 768)
(116, 768)
(260, 768)
(16, 768)
(36, 768)
(83, 768)
(80, 768)
(59, 768)
(49, 768)
(300, 768)
(48, 768)
(176, 768)
(98, 768)
(92, 768)
(46, 768)
(34, 768)
(41, 768)
(190, 768)
(16, 768)
(117, 768)
(54, 768)
(2, 768)
(71, 768)
(89, 768)
(69, 768)
(203, 768)
(100, 768)
(77, 768)
(76, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (661 > 512). Running this sequence through BERT will result in indexing errors


(86, 768)
(227, 768)
(30, 768)
(118, 768)
(42, 768)
(61, 768)
(69, 768)
(145, 768)
(66, 768)
(48, 768)
(48, 768)
(96, 768)
(71, 768)
(12, 768)
(64, 768)
(128, 768)
(173, 768)
(37, 768)
(57, 768)
(49, 768)
(78, 768)
(158, 768)
(82, 768)
(43, 768)
(300, 768)
(300, 768)
(86, 768)
(124, 768)
(91, 768)
(88, 768)
(103, 768)
(144, 768)
(189, 768)
(126, 768)
(98, 768)
(68, 768)
(126, 768)
(152, 768)
(75, 768)
(14, 768)
(118, 768)
(22, 768)
(63, 768)
(139, 768)
(46, 768)
(21, 768)
(33, 768)
(39, 768)
(60, 768)
(250, 768)
(15, 768)
(110, 768)
(136, 768)
(66, 768)
(50, 768)
(110, 768)
(64, 768)
(297, 768)
(24, 768)
(126, 768)
(35, 768)
(25, 768)
(46, 768)
(27, 768)
(89, 768)
(67, 768)
(56, 768)
(241, 768)
(37, 768)
(232, 768)
(282, 768)
(101, 768)
(128, 768)
(109, 768)
(71, 768)
(97, 768)
(63, 768)
(32, 768)
(114, 768)
(13, 768)
(77, 768)
(158, 768)
(55, 768)
(72, 768)
(66, 768)
(105, 768)
(56, 768)
(300, 768)
(43, 768)
(59, 768)
(34, 768)
(123, 768)
(10, 768)
(102, 768)
(40, 768)
(136, 768)
(14,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (538 > 512). Running this sequence through BERT will result in indexing errors


(40, 768)
(14, 768)
(300, 768)
(85, 768)
(71, 768)
(17, 768)
(125, 768)
(26, 768)
(300, 768)
(98, 768)
(32, 768)
(147, 768)
(69, 768)
(19, 768)
(39, 768)
(55, 768)
(42, 768)
(44, 768)
(68, 768)
(98, 768)
(84, 768)
(125, 768)
(68, 768)
(140, 768)
(138, 768)
(20, 768)
(300, 768)
(37, 768)
(59, 768)
(57, 768)
(162, 768)
(300, 768)
(43, 768)
(28, 768)
(60, 768)
(26, 768)
(82, 768)
(300, 768)
(183, 768)
(276, 768)
(300, 768)
(120, 768)
(237, 768)
(300, 768)
(50, 768)
(47, 768)
(42, 768)
(114, 768)
(73, 768)
(300, 768)
(173, 768)
(69, 768)
(83, 768)
(76, 768)
(88, 768)
(118, 768)
(38, 768)
(46, 768)
(83, 768)
(21, 768)
(103, 768)
(246, 768)
(197, 768)
(32, 768)
(86, 768)
(79, 768)
(49, 768)
(300, 768)
(22, 768)
(125, 768)
(6, 768)
(66, 768)
(43, 768)
(67, 768)
(27, 768)
(79, 768)
(128, 768)
(53, 768)
(154, 768)
(81, 768)
(204, 768)
(92, 768)
(8, 768)
(54, 768)
(88, 768)
(100, 768)
(13, 768)
(106, 768)
(93, 768)
(39, 768)
(66, 768)
(85, 768)
(110, 768)
(115, 768)
(239, 768)
(36, 768)
(300, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (641 > 512). Running this sequence through BERT will result in indexing errors


(45, 768)
(11, 768)
(156, 768)
(76, 768)
(41, 768)
(147, 768)
(55, 768)
(7, 768)
(54, 768)
(274, 768)
(12, 768)
(96, 768)
(47, 768)
(72, 768)
(49, 768)
(51, 768)
(199, 768)
(123, 768)
(11, 768)
(28, 768)
(49, 768)
(74, 768)
(79, 768)
(40, 768)
(94, 768)
(238, 768)
(171, 768)
(22, 768)
(195, 768)
(104, 768)
(64, 768)
(41, 768)
(30, 768)
(13, 768)
(115, 768)
(59, 768)
(16, 768)
(141, 768)
(47, 768)
(93, 768)
(300, 768)
(80, 768)
(8, 768)
(115, 768)
(124, 768)
(36, 768)
(133, 768)
(66, 768)
(29, 768)
(3, 768)
(161, 768)
(25, 768)
(116, 768)
(78, 768)
(72, 768)
(92, 768)
(106, 768)
(158, 768)
(177, 768)
(97, 768)
(41, 768)
(49, 768)
(76, 768)
(118, 768)
(62, 768)
(166, 768)
(57, 768)
(89, 768)
(33, 768)
(40, 768)
(70, 768)
(26, 768)
(196, 768)
(51, 768)
(70, 768)
(71, 768)
(100, 768)
(82, 768)
(169, 768)
(132, 768)
(39, 768)
(77, 768)
(12, 768)
(31, 768)
(173, 768)
(88, 768)
(65, 768)
(101, 768)
(36, 768)
(93, 768)
(26, 768)
(140, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (784 > 512). Running this sequence through BERT will result in indexing errors


(34, 768)
(1, 768)
(25, 768)
(74, 768)
(45, 768)
(160, 768)
(74, 768)
(300, 768)
(32, 768)
(74, 768)
(113, 768)
(1, 768)
(131, 768)
(186, 768)
(40, 768)
(54, 768)
(34, 768)
(29, 768)
(61, 768)
(77, 768)
(83, 768)
(61, 768)
(105, 768)
(108, 768)
(17, 768)
(147, 768)
(22, 768)
(167, 768)
(49, 768)
(70, 768)
(21, 768)
(111, 768)
(10, 768)
(47, 768)
(74, 768)
(48, 768)
(87, 768)
(71, 768)
(51, 768)
(144, 768)
(48, 768)
(35, 768)
(27, 768)
(17, 768)
(79, 768)
(16, 768)
(164, 768)
(300, 768)
(165, 768)
(97, 768)
(84, 768)
(300, 768)
(220, 768)
(65, 768)
(88, 768)
(300, 768)
(59, 768)
(176, 768)
(61, 768)
(247, 768)
(61, 768)
(126, 768)
(151, 768)
(229, 768)
(148, 768)
(80, 768)
(68, 768)
(52, 768)
(46, 768)
(300, 768)
(126, 768)
(110, 768)
(79, 768)
(192, 768)
(300, 768)
(65, 768)
(55, 768)
(39, 768)
(9, 768)
(99, 768)
(28, 768)
(219, 768)
(300, 768)
(52, 768)
(43, 768)
(45, 768)
(95, 768)
(59, 768)
(227, 768)
(63, 768)
(53, 768)
(43, 768)
(198, 768)
(63, 768)
(46, 768)
(278, 768)
(35, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (601 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(94, 768)
(6, 768)
(86, 768)
(300, 768)
(24, 768)
(75, 768)
(82, 768)
(300, 768)
(238, 768)
(215, 768)
(46, 768)
(112, 768)
(16, 768)
(115, 768)
(46, 768)
(22, 768)
(105, 768)
(122, 768)
(34, 768)
(101, 768)
(100, 768)
(89, 768)
(18, 768)
(25, 768)
(31, 768)
(37, 768)
(124, 768)
(208, 768)
(300, 768)
(64, 768)
(110, 768)
(198, 768)
(95, 768)
(81, 768)
(126, 768)
(185, 768)
(21, 768)
(26, 768)
(72, 768)
(266, 768)
(15, 768)
(109, 768)
(84, 768)
(26, 768)
(34, 768)
(95, 768)
(300, 768)
(52, 768)
(36, 768)
(24, 768)
(38, 768)
(26, 768)
(157, 768)
(29, 768)
(64, 768)
(155, 768)
(25, 768)
(300, 768)
(35, 768)
(173, 768)
(87, 768)
(64, 768)
(168, 768)
(42, 768)
(209, 768)
(300, 768)
(42, 768)
(40, 768)
(137, 768)
(172, 768)
(85, 768)
(206, 768)
(118, 768)
(108, 768)
(114, 768)
(279, 768)
(176, 768)
(76, 768)
(63, 768)
(109, 768)
(300, 768)
(55, 768)
(118, 768)
(247, 768)
(51, 768)
(71, 768)
(41, 768)
(98, 768)
(35, 768)
(67, 768)
(300, 768)
(38, 768)
(200, 768)
(265, 768)
(34, 768

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (635 > 512). Running this sequence through BERT will result in indexing errors


(80, 768)
(300, 768)
(42, 768)
(65, 768)
(24, 768)
(1, 768)
(86, 768)
(32, 768)
(104, 768)
(209, 768)
(33, 768)
(65, 768)
(94, 768)
(39, 768)
(90, 768)
(27, 768)
(96, 768)
(300, 768)
(203, 768)
(45, 768)
(78, 768)
(118, 768)
(89, 768)
(166, 768)
(300, 768)
(44, 768)
(57, 768)
(46, 768)
(73, 768)
(225, 768)
(65, 768)
(161, 768)
(174, 768)
(63, 768)
(129, 768)
(300, 768)
(131, 768)
(20, 768)
(142, 768)
(209, 768)
(149, 768)
(197, 768)
(30, 768)
(107, 768)
(31, 768)
(300, 768)
(132, 768)
(255, 768)
(95, 768)
(36, 768)
(236, 768)
(146, 768)
(117, 768)
(300, 768)
(158, 768)
(174, 768)
(91, 768)
(213, 768)
(112, 768)
(24, 768)
(60, 768)
(173, 768)
(102, 768)
(300, 768)
(57, 768)
(36, 768)
(242, 768)
(159, 768)
(300, 768)
(158, 768)
(68, 768)
(68, 768)
(13, 768)
(113, 768)
(86, 768)
(132, 768)
(38, 768)
(112, 768)
(170, 768)
(27, 768)
(109, 768)
(225, 768)
(103, 768)
(101, 768)
(94, 768)
(65, 768)
(53, 768)
(300, 768)
(300, 768)
(112, 768)
(93, 768)
(54, 768)
(177, 768)
(62, 768)
(74, 768)
(3

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (618 > 512). Running this sequence through BERT will result in indexing errors


(284, 768)
(126, 768)
(42, 768)
(20, 768)
(45, 768)
(119, 768)
(231, 768)
(37, 768)
(78, 768)
(49, 768)
(203, 768)
(68, 768)
(300, 768)
(300, 768)
(300, 768)
(15, 768)
(42, 768)
(50, 768)
(289, 768)
(300, 768)
(62, 768)
(55, 768)
(189, 768)
(134, 768)
(91, 768)
(30, 768)
(62, 768)
(8, 768)
(41, 768)
(60, 768)
(18, 768)
(54, 768)
(300, 768)
(31, 768)
(47, 768)
(51, 768)
(36, 768)
(7, 768)
(206, 768)
(143, 768)
(63, 768)
(64, 768)
(63, 768)
(33, 768)
(104, 768)
(300, 768)
(115, 768)
(58, 768)
(80, 768)
(70, 768)
(166, 768)
(111, 768)
(58, 768)
(90, 768)
(28, 768)
(85, 768)
(144, 768)
(159, 768)
(41, 768)
(300, 768)
(95, 768)
(88, 768)
(177, 768)
(48, 768)
(49, 768)
(26, 768)
(71, 768)
(62, 768)
(97, 768)
(69, 768)
(73, 768)
(218, 768)
(102, 768)
(96, 768)
(21, 768)
(99, 768)
(300, 768)
(139, 768)
(42, 768)
(44, 768)
(42, 768)
(138, 768)
(33, 768)
(88, 768)
(300, 768)
(34, 768)
(119, 768)
(243, 768)
(87, 768)
(300, 768)
(177, 768)
(68, 768)
(34, 768)
(29, 768)
(43, 768)
(90, 768)
(72, 768

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (670 > 512). Running this sequence through BERT will result in indexing errors


(299, 768)
(113, 768)
(33, 768)
(130, 768)
(249, 768)
(14, 768)
(77, 768)
(164, 768)
(284, 768)
(48, 768)
(142, 768)
(81, 768)
(300, 768)
(70, 768)
(80, 768)
(18, 768)
(54, 768)
(82, 768)
(182, 768)
(68, 768)
(42, 768)
(77, 768)
(300, 768)
(77, 768)
(147, 768)
(98, 768)
(109, 768)
(62, 768)
(164, 768)
(300, 768)
(79, 768)
(14, 768)
(4, 768)
(198, 768)
(42, 768)
(129, 768)
(300, 768)
(117, 768)
(232, 768)
(300, 768)
(163, 768)
(102, 768)
(45, 768)
(300, 768)
(56, 768)
(72, 768)
(26, 768)
(50, 768)
(119, 768)
(73, 768)
(127, 768)
(68, 768)
(19, 768)
(20, 768)
(300, 768)
(300, 768)
(75, 768)
(136, 768)
(53, 768)
(7, 768)
(163, 768)
(300, 768)
(140, 768)
(19, 768)
(143, 768)
(98, 768)
(111, 768)
(213, 768)
(36, 768)
(300, 768)
(56, 768)
(136, 768)
(99, 768)
(82, 768)
(29, 768)
(21, 768)
(172, 768)
(41, 768)
(11, 768)
(151, 768)
(65, 768)
(88, 768)
(176, 768)
(183, 768)
(106, 768)
(30, 768)
(88, 768)
(300, 768)
(41, 768)
(65, 768)
(109, 768)
(300, 768)
(300, 768)
(110, 768)
(300, 768)
(105,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (912 > 512). Running this sequence through BERT will result in indexing errors


(64, 768)
(20, 768)
(133, 768)
(123, 768)
(40, 768)
(126, 768)
(33, 768)
(300, 768)
(66, 768)
(16, 768)
(12, 768)
(218, 768)
(109, 768)
(62, 768)
(24, 768)
(98, 768)
(117, 768)
(68, 768)
(93, 768)
(226, 768)
(36, 768)
(72, 768)
(35, 768)
(57, 768)
(82, 768)
(88, 768)
(151, 768)
(269, 768)
(109, 768)
(67, 768)
(95, 768)
(93, 768)
(300, 768)
(38, 768)
(35, 768)
(48, 768)
(181, 768)
(178, 768)
(73, 768)
(61, 768)
(133, 768)
(169, 768)
(151, 768)
(126, 768)
(69, 768)
(300, 768)
(80, 768)
(80, 768)
(300, 768)
(134, 768)
(22, 768)
(68, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (600 > 512). Running this sequence through BERT will result in indexing errors


(55, 768)
(33, 768)
(84, 768)
(83, 768)
(57, 768)
(124, 768)
(47, 768)
(28, 768)
(80, 768)
(60, 768)
(56, 768)
(300, 768)
(77, 768)
(300, 768)
(120, 768)
(71, 768)
(37, 768)
(157, 768)
(271, 768)
(300, 768)
(189, 768)
(172, 768)
(189, 768)
(95, 768)
(44, 768)
(24, 768)
(138, 768)
(300, 768)
(27, 768)
(112, 768)
(21, 768)
(15, 768)
(27, 768)
(18, 768)
(256, 768)
(56, 768)
(102, 768)
(300, 768)
(57, 768)
(39, 768)
(42, 768)
(58, 768)
(200, 768)
(158, 768)
(96, 768)
(20, 768)
(270, 768)
(143, 768)
(18, 768)
(92, 768)
(53, 768)
(26, 768)
(24, 768)
(300, 768)
(99, 768)
(121, 768)
(97, 768)
(15, 768)
(116, 768)
(138, 768)
(120, 768)
(146, 768)
(103, 768)
(144, 768)
(75, 768)
(131, 768)
(278, 768)
(91, 768)
(21, 768)
(108, 768)
(104, 768)
(114, 768)
(274, 768)
(42, 768)
(30, 768)
(179, 768)
(70, 768)
(57, 768)
(145, 768)
(50, 768)
(61, 768)
(32, 768)
(146, 768)
(66, 768)
(142, 768)
(23, 768)
(77, 768)
(300, 768)
(82, 768)
(150, 768)
(81, 768)
(171, 768)
(300, 768)
(28, 768)
(66, 768)
(109, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (637 > 512). Running this sequence through BERT will result in indexing errors


(151, 768)
(37, 768)
(38, 768)
(132, 768)
(62, 768)
(51, 768)
(59, 768)
(80, 768)
(300, 768)
(83, 768)
(34, 768)
(156, 768)
(192, 768)
(176, 768)
(13, 768)
(150, 768)
(118, 768)
(145, 768)
(110, 768)
(31, 768)
(74, 768)
(166, 768)
(102, 768)
(156, 768)
(198, 768)
(43, 768)
(36, 768)
(66, 768)
(63, 768)
(40, 768)
(37, 768)
(238, 768)
(83, 768)
(72, 768)
(129, 768)
(70, 768)
(114, 768)
(202, 768)
(130, 768)
(300, 768)
(88, 768)
(7, 768)
(31, 768)
(85, 768)
(38, 768)
(182, 768)
(300, 768)
(32, 768)
(29, 768)
(146, 768)
(119, 768)
(47, 768)
(77, 768)
(53, 768)
(71, 768)
(120, 768)
(143, 768)
(241, 768)
(123, 768)
(168, 768)
(25, 768)
(7, 768)
(165, 768)
(149, 768)
(54, 768)
(1, 768)
(300, 768)
(74, 768)
(26, 768)
(69, 768)
(143, 768)
(55, 768)
(300, 768)
(130, 768)
(110, 768)
(233, 768)
(19, 768)
(81, 768)
(27, 768)
(40, 768)
(39, 768)
(51, 768)
(70, 768)
(111, 768)
(166, 768)
(62, 768)
(300, 768)
(300, 768)
(97, 768)
(93, 768)
(105, 768)
(46, 768)
(218, 768)
(300, 768)
(300, 768)
(37, 768

(300, 768)
(116, 768)
(78, 768)
(21, 768)
(92, 768)
(141, 768)
(101, 768)
(138, 768)
(158, 768)
(76, 768)
(39, 768)
(138, 768)
(25, 768)
(65, 768)
(70, 768)
(300, 768)
(79, 768)
(115, 768)
(57, 768)
(55, 768)
(300, 768)
(300, 768)
(163, 768)
(33, 768)
(143, 768)
(64, 768)
(24, 768)
(56, 768)
(130, 768)
(4, 768)
(16, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (825 > 512). Running this sequence through BERT will result in indexing errors


(114, 768)
(63, 768)
(31, 768)
(51, 768)
(101, 768)
(118, 768)
(137, 768)
(10, 768)
(235, 768)
(161, 768)
(18, 768)
(33, 768)
(67, 768)
(113, 768)
(64, 768)
(96, 768)
(88, 768)
(300, 768)
(73, 768)
(32, 768)
(224, 768)
(58, 768)
(79, 768)
(68, 768)
(37, 768)
(59, 768)
(28, 768)
(85, 768)
(159, 768)
(109, 768)
(79, 768)
(43, 768)
(84, 768)
(114, 768)
(56, 768)
(91, 768)
(68, 768)
(50, 768)
(111, 768)
(300, 768)
(77, 768)
(75, 768)
(85, 768)
(109, 768)
(86, 768)
(64, 768)
(47, 768)
(134, 768)
(100, 768)
(300, 768)
(19, 768)
(49, 768)
(21, 768)
(71, 768)
(204, 768)
(25, 768)
(44, 768)
(78, 768)
(8, 768)
(14, 768)
(186, 768)
(46, 768)
(35, 768)
(18, 768)
(300, 768)
(51, 768)
(100, 768)
(82, 768)
(169, 768)
(58, 768)
(87, 768)
(6, 768)
(69, 768)
(53, 768)
(300, 768)
(72, 768)
(300, 768)
(204, 768)
(82, 768)
(72, 768)
(28, 768)
(44, 768)
(98, 768)
(69, 768)
(62, 768)
(89, 768)
(22, 768)
(105, 768)
(94, 768)
(78, 768)
(60, 768)
(82, 768)
(134, 768)
(26, 768)
(32, 768)
(77, 768)
(40, 768)
(39,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (747 > 512). Running this sequence through BERT will result in indexing errors


(72, 768)
(86, 768)
(68, 768)
(26, 768)
(300, 768)
(44, 768)
(75, 768)
(211, 768)
(178, 768)
(16, 768)
(32, 768)
(61, 768)
(118, 768)
(63, 768)
(26, 768)
(39, 768)
(109, 768)
(25, 768)
(62, 768)
(245, 768)
(27, 768)
(73, 768)
(15, 768)
(79, 768)
(300, 768)
(93, 768)
(62, 768)
(56, 768)
(208, 768)
(250, 768)
(151, 768)
(57, 768)
(124, 768)
(100, 768)
(193, 768)
(31, 768)
(97, 768)
(123, 768)
(133, 768)
(18, 768)
(60, 768)
(97, 768)
(40, 768)
(95, 768)
(74, 768)
(50, 768)
(1, 768)
(73, 768)
(208, 768)
(59, 768)
(59, 768)
(114, 768)
(35, 768)
(47, 768)
(166, 768)
(65, 768)
(131, 768)
(300, 768)
(87, 768)
(107, 768)
(72, 768)
(43, 768)
(29, 768)
(300, 768)
(126, 768)
(150, 768)
(125, 768)
(18, 768)
(116, 768)
(19, 768)
(54, 768)
(115, 768)
(156, 768)
(300, 768)
(67, 768)
(49, 768)
(141, 768)
(206, 768)
(199, 768)
(58, 768)
(265, 768)
(300, 768)
(86, 768)
(39, 768)
(90, 768)
(84, 768)
(59, 768)
(74, 768)
(93, 768)
(103, 768)
(77, 768)
(97, 768)
(300, 768)
(54, 768)
(300, 768)
(31, 768)
(52,

(113, 768)
(49, 768)
(50, 768)
(18, 768)
(34, 768)
(52, 768)
(50, 768)
(300, 768)
(161, 768)
(19, 768)
(49, 768)
(300, 768)
(58, 768)
(124, 768)
(83, 768)
(72, 768)
(103, 768)
(107, 768)
(300, 768)
(141, 768)
(57, 768)
(102, 768)
(68, 768)
(127, 768)
(51, 768)
(58, 768)
(300, 768)
(38, 768)
(65, 768)
(42, 768)
(300, 768)
(300, 768)
(222, 768)
(195, 768)
(190, 768)
(125, 768)
(108, 768)
(92, 768)
(292, 768)
(36, 768)
(300, 768)
(300, 768)
(155, 768)
(86, 768)
(96, 768)
(52, 768)
(48, 768)
(111, 768)
(111, 768)
(45, 768)
(127, 768)
(47, 768)
(47, 768)
(215, 768)
(46, 768)
(159, 768)
(30, 768)
(52, 768)
(219, 768)
(41, 768)
(82, 768)
(199, 768)
(93, 768)
(117, 768)
(74, 768)
(54, 768)
(87, 768)
(150, 768)
(13, 768)
(103, 768)
(89, 768)
(48, 768)
(25, 768)
(54, 768)
(84, 768)
(29, 768)
(49, 768)
(126, 768)
(76, 768)
(56, 768)
(60, 768)
(142, 768)
(51, 768)
(117, 768)
(56, 768)
(136, 768)
(55, 768)
(88, 768)
(11, 768)
(300, 768)
(22, 768)
(72, 768)
(135, 768)
(41, 768)
(29, 768)
(63, 768)
(

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (699 > 512). Running this sequence through BERT will result in indexing errors


(272, 768)
(56, 768)
(171, 768)
(91, 768)
(132, 768)
(87, 768)
(65, 768)
(271, 768)
(20, 768)
(104, 768)
(75, 768)
(63, 768)
(157, 768)
(149, 768)
(51, 768)
(44, 768)
(16, 768)
(72, 768)
(91, 768)
(95, 768)
(67, 768)
(87, 768)
(38, 768)
(73, 768)
(190, 768)
(14, 768)
(31, 768)
(21, 768)
(226, 768)
(102, 768)
(160, 768)
(13, 768)
(113, 768)
(147, 768)
(59, 768)
(26, 768)
(152, 768)
(216, 768)
(50, 768)
(51, 768)
(300, 768)
(26, 768)
(80, 768)
(43, 768)
(142, 768)
(92, 768)
(22, 768)
(85, 768)
(164, 768)
(42, 768)
(74, 768)
(19, 768)
(233, 768)
(92, 768)
(85, 768)
(170, 768)
(90, 768)
(120, 768)
(33, 768)
(43, 768)
(16, 768)
(34, 768)
(155, 768)
(56, 768)
(18, 768)
(164, 768)
(108, 768)
(195, 768)
(53, 768)
(36, 768)
(183, 768)
(49, 768)
(245, 768)
(25, 768)
(219, 768)
(300, 768)
(43, 768)
(190, 768)
(3, 768)
(186, 768)
(300, 768)
(67, 768)
(54, 768)
(40, 768)
(48, 768)
(36, 768)
(26, 768)
(94, 768)
(169, 768)
(295, 768)
(98, 768)
(99, 768)
(30, 768)
(300, 768)
(78, 768)
(18, 768)
(52, 7

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (707 > 512). Running this sequence through BERT will result in indexing errors


(83, 768)
(63, 768)
(90, 768)
(36, 768)
(38, 768)
(30, 768)
(160, 768)
(145, 768)
(112, 768)
(130, 768)
(38, 768)
(67, 768)
(126, 768)
(32, 768)
(21, 768)
(17, 768)
(114, 768)
(300, 768)
(96, 768)
(41, 768)
(51, 768)
(95, 768)
(96, 768)
(33, 768)
(75, 768)
(132, 768)
(66, 768)
(59, 768)
(99, 768)
(300, 768)
(147, 768)
(181, 768)
(23, 768)
(300, 768)
(85, 768)
(85, 768)
(84, 768)
(17, 768)
(62, 768)
(141, 768)
(49, 768)
(300, 768)
(300, 768)
(71, 768)
(184, 768)
(18, 768)
(30, 768)
(6, 768)
(52, 768)
(20, 768)
(300, 768)
(46, 768)
(36, 768)
(126, 768)
(19, 768)
(192, 768)
(101, 768)
(49, 768)
(159, 768)
(68, 768)
(101, 768)
(43, 768)
(54, 768)
(76, 768)
(100, 768)
(52, 768)
(75, 768)
(50, 768)
(97, 768)
(57, 768)
(66, 768)
(87, 768)
(9, 768)
(46, 768)
(13, 768)
(300, 768)
(37, 768)
(16, 768)
(48, 768)
(25, 768)
(78, 768)
(137, 768)
(48, 768)
(51, 768)
(35, 768)
(50, 768)
(171, 768)
(264, 768)
(101, 768)
(170, 768)
(97, 768)
(76, 768)
(74, 768)
(22, 768)
(15, 768)
(54, 768)
(144, 768)
(6

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (776 > 512). Running this sequence through BERT will result in indexing errors


(84, 768)
(137, 768)
(300, 768)
(27, 768)
(112, 768)
(138, 768)
(61, 768)
(17, 768)
(132, 768)
(106, 768)
(146, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (517 > 512). Running this sequence through BERT will result in indexing errors


(43, 768)
(132, 768)
(300, 768)
(6, 768)
(138, 768)
(42, 768)
(111, 768)
(15, 768)
(86, 768)
(86, 768)
(47, 768)
(22, 768)
(86, 768)
(89, 768)
(155, 768)
(106, 768)
(99, 768)
(66, 768)
(99, 768)
(36, 768)
(63, 768)
(54, 768)
(83, 768)
(27, 768)
(201, 768)
(73, 768)
(235, 768)
(31, 768)
(207, 768)
(43, 768)
(139, 768)
(101, 768)
(35, 768)
(170, 768)
(22, 768)
(32, 768)
(41, 768)
(105, 768)
(76, 768)
(42, 768)
(47, 768)
(293, 768)
(31, 768)
(45, 768)
(159, 768)
(150, 768)
(194, 768)
(31, 768)
(115, 768)
(73, 768)
(85, 768)
(60, 768)
(300, 768)
(39, 768)
(12, 768)
(132, 768)
(144, 768)
(265, 768)
(13, 768)
(97, 768)
(34, 768)
(175, 768)
(276, 768)
(151, 768)
(37, 768)
(300, 768)
(41, 768)
(128, 768)
(95, 768)
(19, 768)
(98, 768)
(16, 768)
(82, 768)
(187, 768)
(138, 768)
(97, 768)
(135, 768)
(47, 768)
(163, 768)
(162, 768)
(41, 768)
(34, 768)
(182, 768)
(86, 768)
(43, 768)
(34, 768)
(300, 768)
(77, 768)
(86, 768)
(108, 768)
(234, 768)
(32, 768)
(205, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (524 > 512). Running this sequence through BERT will result in indexing errors
Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (945 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(58, 768)
(82, 768)
(54, 768)
(300, 768)
(107, 768)
(257, 768)
(19, 768)
(51, 768)
(34, 768)
(63, 768)
(139, 768)
(41, 768)
(300, 768)
(249, 768)
(114, 768)
(83, 768)
(51, 768)
(32, 768)
(53, 768)
(39, 768)
(300, 768)
(74, 768)
(26, 768)
(20, 768)
(50, 768)
(209, 768)
(43, 768)
(54, 768)
(24, 768)
(64, 768)
(18, 768)
(200, 768)
(54, 768)
(137, 768)
(18, 768)
(96, 768)
(55, 768)
(110, 768)
(33, 768)
(63, 768)
(55, 768)
(55, 768)
(29, 768)
(300, 768)
(9, 768)
(213, 768)
(126, 768)
(52, 768)
(43, 768)
(66, 768)
(300, 768)
(43, 768)
(79, 768)
(97, 768)
(300, 768)
(120, 768)
(177, 768)
(71, 768)
(116, 768)
(300, 768)
(300, 768)
(166, 768)
(194, 768)
(204, 768)
(108, 768)
(67, 768)
(83, 768)
(100, 768)
(137, 768)
(45, 768)
(139, 768)
(32, 768)
(87, 768)
(51, 768)
(114, 768)
(62, 768)
(17, 768)
(261, 768)
(56, 768)
(101, 768)
(130, 768)
(119, 768)
(19, 768)
(116, 768)
(78, 768)
(85, 768)
(16, 768)
(91, 768)
(50, 768)
(124, 768)
(36, 768)
(71, 768)
(17, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (615 > 512). Running this sequence through BERT will result in indexing errors


(158, 768)
(196, 768)
(32, 768)
(51, 768)
(8, 768)
(66, 768)
(102, 768)
(160, 768)
(119, 768)
(163, 768)
(63, 768)
(26, 768)
(21, 768)
(52, 768)
(87, 768)
(76, 768)
(38, 768)
(35, 768)
(300, 768)
(13, 768)
(59, 768)
(212, 768)
(35, 768)
(107, 768)
(272, 768)
(151, 768)
(52, 768)
(14, 768)
(31, 768)
(50, 768)
(300, 768)
(300, 768)
(64, 768)
(85, 768)
(134, 768)
(77, 768)
(34, 768)
(33, 768)
(161, 768)
(205, 768)
(120, 768)
(300, 768)
(71, 768)
(18, 768)
(47, 768)
(127, 768)
(55, 768)
(211, 768)
(31, 768)
(185, 768)
(29, 768)
(89, 768)
(64, 768)
(107, 768)
(40, 768)
(50, 768)
(75, 768)
(26, 768)
(70, 768)
(163, 768)
(34, 768)
(3, 768)
(52, 768)
(47, 768)
(80, 768)
(16, 768)
(300, 768)
(17, 768)
(200, 768)
(23, 768)
(213, 768)
(37, 768)
(54, 768)
(166, 768)
(268, 768)
(197, 768)
(300, 768)
(144, 768)
(204, 768)
(60, 768)
(20, 768)
(119, 768)
(300, 768)
(37, 768)
(27, 768)
(71, 768)
(169, 768)
(57, 768)
(40, 768)
(70, 768)
(63, 768)
(158, 768)
(287, 768)
(42, 768)
(148, 768)
(215, 768)
(26

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (724 > 512). Running this sequence through BERT will result in indexing errors


(128, 768)
(65, 768)
(82, 768)
(300, 768)
(183, 768)
(43, 768)
(88, 768)
(300, 768)
(55, 768)
(18, 768)
(77, 768)
(234, 768)
(85, 768)
(72, 768)
(172, 768)
(106, 768)
(62, 768)
(86, 768)
(34, 768)
(300, 768)
(8, 768)
(71, 768)
(117, 768)
(30, 768)
(50, 768)
(122, 768)
(104, 768)
(63, 768)
(116, 768)
(31, 768)
(112, 768)
(215, 768)
(41, 768)
(96, 768)
(58, 768)
(17, 768)
(122, 768)
(58, 768)
(18, 768)
(91, 768)
(300, 768)
(96, 768)
(84, 768)
(74, 768)
(165, 768)
(87, 768)
(133, 768)
(68, 768)
(300, 768)
(114, 768)
(119, 768)
(106, 768)
(34, 768)
(48, 768)
(291, 768)
(114, 768)
(79, 768)
(174, 768)
(180, 768)
(115, 768)
(300, 768)
(58, 768)
(25, 768)
(172, 768)
(94, 768)
(45, 768)
(300, 768)
(161, 768)
(68, 768)
(27, 768)
(100, 768)
(137, 768)
(88, 768)
(71, 768)
(49, 768)
(47, 768)
(122, 768)
(47, 768)
(38, 768)
(104, 768)
(35, 768)
(82, 768)
(61, 768)
(82, 768)
(118, 768)
(99, 768)
(49, 768)
(178, 768)
(78, 768)
(25, 768)
(33, 768)
(35, 768)
(9, 768)
(70, 768)
(53, 768)
(40, 768)
(66, 

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (520 > 512). Running this sequence through BERT will result in indexing errors


(278, 768)
(78, 768)
(300, 768)
(47, 768)
(265, 768)
(113, 768)
(148, 768)
(86, 768)
(91, 768)
(35, 768)
(56, 768)
(110, 768)
(37, 768)
(132, 768)
(110, 768)
(23, 768)
(20, 768)
(53, 768)
(115, 768)
(247, 768)
(105, 768)
(42, 768)
(225, 768)
(50, 768)
(223, 768)
(70, 768)
(285, 768)
(56, 768)
(154, 768)
(62, 768)
(142, 768)
(300, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (748 > 512). Running this sequence through BERT will result in indexing errors


(34, 768)
(93, 768)
(56, 768)
(20, 768)
(74, 768)
(46, 768)
(177, 768)
(38, 768)
(52, 768)
(89, 768)
(159, 768)
(5, 768)
(216, 768)
(300, 768)
(43, 768)
(300, 768)
(69, 768)
(19, 768)
(107, 768)
(89, 768)
(45, 768)
(53, 768)
(140, 768)
(69, 768)
(105, 768)
(33, 768)
(16, 768)
(300, 768)
(173, 768)
(68, 768)
(70, 768)
(206, 768)
(197, 768)
(280, 768)
(127, 768)
(145, 768)
(294, 768)
(134, 768)
(60, 768)
(233, 768)
(78, 768)
(74, 768)
(169, 768)
(38, 768)
(49, 768)
(23, 768)
(81, 768)
(55, 768)
(223, 768)
(57, 768)
(300, 768)
(171, 768)
(46, 768)
(239, 768)
(52, 768)
(117, 768)
(138, 768)
(25, 768)
(212, 768)
(47, 768)
(40, 768)
(70, 768)
(79, 768)
(94, 768)
(66, 768)
(86, 768)
(14, 768)
(17, 768)
(233, 768)
(77, 768)
(290, 768)
(67, 768)
(131, 768)
(191, 768)
(183, 768)
(139, 768)
(63, 768)
(101, 768)
(106, 768)
(238, 768)
(14, 768)
(49, 768)
(116, 768)
(43, 768)
(138, 768)
(11, 768)
(300, 768)
(62, 768)
(157, 768)
(24, 768)
(41, 768)
(117, 768)
(57, 768)
(51, 768)
(291, 768)
(123, 768)

(102, 768)
(82, 768)
(121, 768)
(29, 768)
(33, 768)
(300, 768)
(186, 768)
(111, 768)
(288, 768)
(139, 768)
(120, 768)
(140, 768)
(130, 768)
(77, 768)
(69, 768)
(97, 768)
(112, 768)
(27, 768)
(212, 768)
(15, 768)
(203, 768)
(59, 768)
(113, 768)
(300, 768)
(96, 768)
(71, 768)
(19, 768)
(135, 768)
(105, 768)
(58, 768)
(65, 768)
(137, 768)
(158, 768)
(94, 768)
(18, 768)
(18, 768)
(54, 768)
(32, 768)
(82, 768)
(148, 768)
(300, 768)
(77, 768)
(31, 768)
(65, 768)
(13, 768)
(200, 768)
(94, 768)
(67, 768)
(47, 768)
(21, 768)
(8, 768)
(100, 768)
(78, 768)
(15, 768)
(171, 768)
(57, 768)
(37, 768)
(34, 768)
(119, 768)
(95, 768)
(50, 768)
(60, 768)
(37, 768)
(154, 768)
(5, 768)
(136, 768)
(74, 768)
(300, 768)
(164, 768)
(87, 768)
(71, 768)
(27, 768)
(128, 768)
(45, 768)
(15, 768)
(27, 768)
(136, 768)
(56, 768)
(61, 768)
(75, 768)
(53, 768)
(60, 768)
(300, 768)
(136, 768)
(4, 768)
(42, 768)
(86, 768)
(41, 768)
(300, 768)
(30, 768)
(163, 768)
(91, 768)
(140, 768)
(300, 768)
(300, 768)
(33, 768)
(34, 

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (834 > 512). Running this sequence through BERT will result in indexing errors


(76, 768)
(29, 768)
(38, 768)
(160, 768)
(115, 768)
(255, 768)
(293, 768)
(44, 768)
(45, 768)
(101, 768)
(117, 768)
(49, 768)
(25, 768)
(74, 768)
(101, 768)
(57, 768)
(172, 768)
(300, 768)
(59, 768)
(122, 768)
(175, 768)
(61, 768)
(115, 768)
(240, 768)
(173, 768)
(94, 768)
(300, 768)
(53, 768)
(300, 768)
(49, 768)
(300, 768)
(64, 768)
(136, 768)
(103, 768)
(300, 768)
(21, 768)
(99, 768)
(20, 768)
(37, 768)
(131, 768)
(47, 768)
(272, 768)
(77, 768)
(22, 768)
(40, 768)
(62, 768)
(197, 768)
(300, 768)
(26, 768)
(75, 768)
(29, 768)
(300, 768)
(103, 768)
(70, 768)
(32, 768)
(106, 768)
(130, 768)
(58, 768)
(188, 768)
(193, 768)
(51, 768)
(29, 768)
(40, 768)
(30, 768)
(83, 768)
(158, 768)
(65, 768)
(66, 768)
(161, 768)
(24, 768)
(199, 768)
(51, 768)
(55, 768)
(69, 768)
(115, 768)
(26, 768)
(138, 768)
(100, 768)
(15, 768)
(36, 768)
(78, 768)
(36, 768)
(91, 768)
(12, 768)
(43, 768)
(130, 768)
(207, 768)
(91, 768)
(130, 768)
(33, 768)
(61, 768)
(129, 768)
(8, 768)
(100, 768)
(185, 768)
(300, 768

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (557 > 512). Running this sequence through BERT will result in indexing errors


(66, 768)
(59, 768)
(66, 768)
(38, 768)
(89, 768)
(74, 768)
(41, 768)
(24, 768)
(43, 768)
(93, 768)
(53, 768)
(12, 768)
(31, 768)
(123, 768)
(132, 768)
(121, 768)
(134, 768)
(170, 768)
(94, 768)
(34, 768)
(78, 768)
(87, 768)
(16, 768)
(126, 768)
(58, 768)
(30, 768)
(193, 768)
(82, 768)
(221, 768)
(133, 768)
(84, 768)
(30, 768)
(161, 768)
(8, 768)
(25, 768)
(300, 768)
(191, 768)
(19, 768)
(133, 768)
(131, 768)
(55, 768)
(65, 768)
(82, 768)
(74, 768)
(101, 768)
(54, 768)
(177, 768)
(54, 768)
(87, 768)
(35, 768)
(23, 768)
(18, 768)
(259, 768)
(20, 768)
(300, 768)
(73, 768)
(195, 768)
(54, 768)
(36, 768)
(114, 768)
(211, 768)
(238, 768)
(46, 768)
(41, 768)
(45, 768)
(60, 768)
(50, 768)
(32, 768)
(208, 768)
(26, 768)
(72, 768)
(118, 768)
(247, 768)
(25, 768)
(20, 768)
(41, 768)
(39, 768)
(128, 768)
(21, 768)
(76, 768)
(211, 768)
(67, 768)
(52, 768)
(127, 768)
(144, 768)
(32, 768)
(89, 768)
(73, 768)
(48, 768)
(200, 768)
(300, 768)
(35, 768)
(210, 768)
(146, 768)
(95, 768)
(93, 768)
(218, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (984 > 512). Running this sequence through BERT will result in indexing errors


(118, 768)
(120, 768)
(29, 768)
(216, 768)
(49, 768)
(65, 768)
(25, 768)
(300, 768)
(115, 768)
(193, 768)
(46, 768)
(65, 768)
(300, 768)
(84, 768)
(272, 768)
(263, 768)
(145, 768)
(115, 768)
(53, 768)
(21, 768)
(38, 768)
(151, 768)
(300, 768)
(76, 768)
(39, 768)
(22, 768)
(207, 768)
(41, 768)
(43, 768)
(234, 768)
(150, 768)
(66, 768)
(138, 768)
(116, 768)
(87, 768)
(300, 768)
(84, 768)
(13, 768)
(77, 768)
(300, 768)
(99, 768)
(97, 768)
(87, 768)
(46, 768)
(46, 768)
(300, 768)
(111, 768)
(27, 768)
(70, 768)
(19, 768)
(66, 768)
(150, 768)
(56, 768)
(154, 768)
(300, 768)
(86, 768)
(300, 768)
(97, 768)
(234, 768)
(228, 768)
(211, 768)
(136, 768)
(163, 768)
(251, 768)
(74, 768)
(119, 768)
(82, 768)
(18, 768)
(91, 768)
(134, 768)
(68, 768)
(24, 768)
(23, 768)
(84, 768)
(59, 768)
(42, 768)
(28, 768)
(57, 768)
(94, 768)
(33, 768)
(62, 768)
(18, 768)
(50, 768)
(100, 768)
(52, 768)
(107, 768)
(104, 768)
(51, 768)
(55, 768)
(139, 768)
(137, 768)
(110, 768)
(70, 768)
(95, 768)
(89, 768)
(14, 768)


(53, 768)
(300, 768)
(82, 768)
(74, 768)
(110, 768)
(103, 768)
(87, 768)
(32, 768)
(61, 768)
(300, 768)
(64, 768)
(74, 768)
(199, 768)
(76, 768)
(17, 768)
(20, 768)
(300, 768)
(40, 768)
(49, 768)
(75, 768)
(63, 768)
(39, 768)
(300, 768)
(300, 768)
(50, 768)
(80, 768)
(300, 768)
(39, 768)
(36, 768)
(49, 768)
(209, 768)
(33, 768)
(90, 768)
(300, 768)
(59, 768)
(106, 768)
(29, 768)
(89, 768)
(32, 768)
(89, 768)
(38, 768)
(80, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (804 > 512). Running this sequence through BERT will result in indexing errors


(278, 768)
(24, 768)
(27, 768)
(73, 768)
(100, 768)
(31, 768)
(27, 768)
(31, 768)
(228, 768)
(30, 768)
(33, 768)
(215, 768)
(30, 768)
(179, 768)
(80, 768)
(67, 768)
(34, 768)
(42, 768)
(30, 768)
(23, 768)
(13, 768)
(141, 768)
(77, 768)
(35, 768)
(45, 768)
(137, 768)
(47, 768)
(89, 768)
(11, 768)
(48, 768)
(190, 768)
(82, 768)
(143, 768)
(29, 768)
(23, 768)
(102, 768)
(82, 768)
(18, 768)
(74, 768)
(27, 768)
(94, 768)
(83, 768)
(300, 768)
(300, 768)
(106, 768)
(80, 768)
(80, 768)
(113, 768)
(116, 768)
(33, 768)
(94, 768)
(22, 768)
(150, 768)
(28, 768)
(133, 768)
(69, 768)
(70, 768)
(99, 768)
(60, 768)
(13, 768)
(55, 768)
(43, 768)
(54, 768)
(300, 768)
(300, 768)
(48, 768)
(90, 768)
(25, 768)
(61, 768)
(29, 768)
(89, 768)
(30, 768)
(35, 768)
(68, 768)
(47, 768)
(243, 768)
(11, 768)
(57, 768)
(147, 768)
(71, 768)
(49, 768)
(111, 768)
(67, 768)
(300, 768)
(139, 768)
(224, 768)
(254, 768)
(31, 768)
(129, 768)
(96, 768)
(117, 768)
(300, 768)
(198, 768)
(72, 768)
(78, 768)
(73, 768)
(134, 768)

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (2219 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(111, 768)
(105, 768)
(80, 768)
(146, 768)
(57, 768)
(129, 768)
(120, 768)
(66, 768)
(58, 768)
(56, 768)
(113, 768)
(43, 768)
(117, 768)
(20, 768)
(197, 768)
(300, 768)
(119, 768)
(31, 768)
(39, 768)
(77, 768)
(27, 768)
(175, 768)
(300, 768)
(88, 768)
(86, 768)
(46, 768)
(299, 768)
(42, 768)
(79, 768)
(17, 768)
(1, 768)
(37, 768)
(28, 768)
(300, 768)
(189, 768)
(18, 768)
(300, 768)
(212, 768)
(133, 768)
(119, 768)
(294, 768)
(300, 768)
(300, 768)
(80, 768)
(56, 768)
(80, 768)
(93, 768)
(25, 768)
(156, 768)
(209, 768)
(40, 768)
(33, 768)
(149, 768)
(168, 768)
(258, 768)
(49, 768)
(49, 768)
(195, 768)
(21, 768)
(16, 768)
(75, 768)
(22, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (998 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(37, 768)
(155, 768)
(200, 768)
(47, 768)
(32, 768)
(112, 768)
(64, 768)
(1, 768)
(70, 768)
(113, 768)
(63, 768)
(85, 768)
(220, 768)
(95, 768)
(300, 768)
(10, 768)
(25, 768)
(94, 768)
(106, 768)
(188, 768)
(68, 768)
(47, 768)
(300, 768)
(28, 768)
(300, 768)
(22, 768)
(79, 768)
(122, 768)
(300, 768)
(44, 768)
(114, 768)
(155, 768)
(51, 768)
(86, 768)
(86, 768)
(124, 768)
(86, 768)
(46, 768)
(131, 768)
(300, 768)
(88, 768)
(204, 768)
(24, 768)
(114, 768)
(85, 768)
(33, 768)
(180, 768)
(50, 768)
(135, 768)
(95, 768)
(15, 768)
(78, 768)
(197, 768)
(300, 768)
(24, 768)
(23, 768)
(235, 768)
(90, 768)
(39, 768)
(36, 768)
(206, 768)
(52, 768)
(80, 768)
(214, 768)
(218, 768)
(149, 768)
(28, 768)
(59, 768)
(63, 768)
(277, 768)
(77, 768)
(45, 768)
(294, 768)
(266, 768)
(124, 768)
(81, 768)
(103, 768)
(10, 768)
(89, 768)
(218, 768)
(34, 768)
(23, 768)
(24, 768)
(123, 768)
(41, 768)
(300, 768)
(32, 768)
(96, 768)
(101, 768)
(147, 768)
(43, 768)
(90, 768)
(62, 768)
(121, 768)
(181, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (964 > 512). Running this sequence through BERT will result in indexing errors


(145, 768)
(146, 768)
(132, 768)
(84, 768)
(64, 768)
(125, 768)
(39, 768)
(102, 768)
(216, 768)
(95, 768)
(65, 768)
(75, 768)
(284, 768)
(32, 768)
(34, 768)
(243, 768)
(69, 768)
(300, 768)
(300, 768)
(172, 768)
(97, 768)
(100, 768)
(122, 768)
(73, 768)
(134, 768)
(87, 768)
(134, 768)
(65, 768)
(17, 768)
(203, 768)
(11, 768)
(54, 768)
(82, 768)
(51, 768)
(14, 768)
(22, 768)
(65, 768)
(54, 768)
(89, 768)
(40, 768)
(93, 768)
(52, 768)
(38, 768)
(212, 768)
(128, 768)
(97, 768)
(33, 768)
(16, 768)
(183, 768)
(52, 768)
(13, 768)
(34, 768)
(48, 768)
(56, 768)
(286, 768)
(300, 768)
(130, 768)
(98, 768)
(42, 768)
(137, 768)
(91, 768)
(107, 768)
(77, 768)
(55, 768)
(153, 768)
(26, 768)
(90, 768)
(120, 768)
(300, 768)
(35, 768)
(76, 768)
(87, 768)
(18, 768)
(129, 768)
(22, 768)
(18, 768)
(215, 768)
(77, 768)
(295, 768)
(216, 768)
(127, 768)
(134, 768)
(154, 768)
(34, 768)
(129, 768)
(290, 768)
(41, 768)
(64, 768)
(300, 768)
(94, 768)
(300, 768)
(40, 768)
(215, 768)
(23, 768)
(102, 768)
(29, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (699 > 512). Running this sequence through BERT will result in indexing errors


(282, 768)
(40, 768)
(42, 768)
(27, 768)
(94, 768)
(94, 768)
(198, 768)
(23, 768)
(49, 768)
(158, 768)
(91, 768)
(125, 768)
(99, 768)
(181, 768)
(23, 768)
(12, 768)
(40, 768)
(35, 768)
(106, 768)
(74, 768)
(68, 768)
(2, 768)
(59, 768)
(56, 768)
(36, 768)
(59, 768)
(117, 768)
(78, 768)
(72, 768)
(300, 768)
(164, 768)
(177, 768)
(63, 768)
(5, 768)
(101, 768)
(24, 768)
(97, 768)
(193, 768)
(93, 768)
(106, 768)
(164, 768)
(179, 768)
(65, 768)
(99, 768)
(116, 768)
(254, 768)
(144, 768)
(300, 768)
(61, 768)
(10, 768)
(300, 768)
(300, 768)
(104, 768)
(100, 768)
(25, 768)
(62, 768)
(55, 768)
(48, 768)
(152, 768)
(80, 768)
(50, 768)
(300, 768)
(81, 768)
(49, 768)
(169, 768)
(78, 768)
(82, 768)
(79, 768)
(93, 768)
(84, 768)
(12, 768)
(50, 768)
(56, 768)
(74, 768)
(75, 768)
(143, 768)
(93, 768)
(187, 768)
(19, 768)
(46, 768)
(38, 768)
(189, 768)
(130, 768)
(117, 768)
(55, 768)
(260, 768)
(300, 768)
(201, 768)
(11, 768)
(67, 768)
(102, 768)
(38, 768)
(98, 768)
(43, 768)
(12, 768)
(18, 768)
(30, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (599 > 512). Running this sequence through BERT will result in indexing errors


(20, 768)
(300, 768)
(73, 768)
(70, 768)
(113, 768)
(127, 768)
(257, 768)
(41, 768)
(62, 768)
(121, 768)
(18, 768)
(92, 768)
(267, 768)
(80, 768)
(93, 768)
(300, 768)
(140, 768)
(87, 768)
(58, 768)
(59, 768)
(90, 768)
(56, 768)
(258, 768)
(66, 768)
(300, 768)
(75, 768)
(134, 768)
(34, 768)
(122, 768)
(71, 768)
(53, 768)
(62, 768)
(50, 768)
(177, 768)
(48, 768)
(260, 768)
(18, 768)
(70, 768)
(113, 768)
(30, 768)
(158, 768)
(246, 768)
(165, 768)
(71, 768)
(50, 768)
(79, 768)
(52, 768)
(30, 768)
(35, 768)
(42, 768)
(73, 768)
(250, 768)
(103, 768)
(219, 768)
(174, 768)
(289, 768)
(106, 768)
(300, 768)
(23, 768)
(69, 768)
(39, 768)
(130, 768)
(300, 768)
(37, 768)
(33, 768)
(73, 768)
(45, 768)
(11, 768)
(124, 768)
(133, 768)
(100, 768)
(19, 768)
(79, 768)
(51, 768)
(142, 768)
(72, 768)
(38, 768)
(300, 768)
(300, 768)
(11, 768)
(89, 768)
(62, 768)
(201, 768)
(181, 768)
(118, 768)
(84, 768)
(114, 768)
(272, 768)
(300, 768)
(82, 768)
(101, 768)
(3, 768)
(51, 768)
(32, 768)
(128, 768)
(26, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (827 > 512). Running this sequence through BERT will result in indexing errors
Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (697 > 512). Running this sequence through BERT will result in indexing errors


(127, 768)
(133, 768)
(125, 768)
(56, 768)
(192, 768)
(1, 768)
(45, 768)
(87, 768)
(43, 768)
(24, 768)
(28, 768)
(18, 768)
(76, 768)
(11, 768)
(44, 768)
(34, 768)
(44, 768)
(34, 768)
(300, 768)
(53, 768)
(83, 768)
(68, 768)
(141, 768)
(140, 768)
(195, 768)
(94, 768)
(36, 768)
(79, 768)
(97, 768)
(57, 768)
(144, 768)
(59, 768)
(144, 768)
(63, 768)
(300, 768)
(12, 768)
(300, 768)
(22, 768)
(300, 768)
(166, 768)
(63, 768)
(78, 768)
(22, 768)
(109, 768)
(184, 768)
(190, 768)
(111, 768)
(6, 768)
(300, 768)
(45, 768)
(111, 768)
(179, 768)
(136, 768)
(110, 768)
(24, 768)
(30, 768)
(300, 768)
(153, 768)
(36, 768)
(77, 768)
(55, 768)
(83, 768)
(85, 768)
(146, 768)
(48, 768)
(85, 768)
(105, 768)
(211, 768)
(90, 768)
(58, 768)
(102, 768)
(40, 768)
(171, 768)
(67, 768)
(33, 768)
(284, 768)
(60, 768)
(170, 768)
(75, 768)
(300, 768)
(300, 768)
(72, 768)
(28, 768)
(191, 768)
(52, 768)
(101, 768)
(70, 768)
(125, 768)
(83, 768)
(20, 768)
(78, 768)
(93, 768)
(145, 768)
(126, 768)
(47, 768)
(61, 768)
(15

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (1350 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(85, 768)
(166, 768)
(143, 768)
(44, 768)
(50, 768)
(60, 768)
(36, 768)
(67, 768)
(65, 768)
(48, 768)
(64, 768)
(178, 768)
(101, 768)
(234, 768)
(111, 768)
(46, 768)
(55, 768)
(101, 768)
(16, 768)
(8, 768)
(160, 768)
(32, 768)
(35, 768)
(78, 768)
(17, 768)
(98, 768)
(54, 768)
(46, 768)
(216, 768)
(65, 768)
(196, 768)
(16, 768)
(165, 768)
(44, 768)
(300, 768)
(36, 768)
(215, 768)
(114, 768)
(12, 768)
(28, 768)
(197, 768)
(105, 768)
(109, 768)
(33, 768)
(45, 768)
(300, 768)
(64, 768)
(113, 768)
(88, 768)
(210, 768)
(158, 768)
(79, 768)
(32, 768)
(112, 768)
(45, 768)
(165, 768)
(290, 768)
(65, 768)
(144, 768)
(18, 768)
(300, 768)
(162, 768)
(73, 768)
(189, 768)
(108, 768)
(83, 768)
(97, 768)
(104, 768)
(62, 768)
(20, 768)
(4, 768)
(44, 768)
(36, 768)
(71, 768)
(108, 768)
(91, 768)
(98, 768)
(115, 768)
(82, 768)
(48, 768)
(71, 768)
(178, 768)
(5, 768)
(231, 768)
(87, 768)
(89, 768)
(66, 768)
(257, 768)
(12, 768)
(50, 768)
(174, 768)
(149, 768)
(113, 768)
(9, 768)
(42, 768)
(128,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (731 > 512). Running this sequence through BERT will result in indexing errors


(52, 768)
(68, 768)
(137, 768)
(153, 768)
(101, 768)
(69, 768)
(89, 768)
(100, 768)
(300, 768)
(136, 768)
(60, 768)
(72, 768)
(150, 768)
(36, 768)
(293, 768)
(142, 768)
(66, 768)
(118, 768)
(59, 768)
(117, 768)
(107, 768)
(38, 768)
(45, 768)
(55, 768)
(117, 768)
(24, 768)
(183, 768)
(190, 768)
(120, 768)
(10, 768)
(45, 768)
(300, 768)
(58, 768)
(149, 768)
(204, 768)
(76, 768)
(186, 768)
(79, 768)
(86, 768)
(50, 768)
(38, 768)
(81, 768)
(88, 768)
(282, 768)
(99, 768)
(300, 768)
(300, 768)
(32, 768)
(201, 768)
(70, 768)
(62, 768)
(26, 768)
(31, 768)
(139, 768)
(133, 768)
(47, 768)
(114, 768)
(167, 768)
(24, 768)
(14, 768)
(76, 768)
(151, 768)
(32, 768)
(43, 768)
(173, 768)
(23, 768)
(75, 768)
(76, 768)
(37, 768)
(300, 768)
(31, 768)
(7, 768)
(103, 768)
(39, 768)
(300, 768)
(61, 768)
(40, 768)
(154, 768)
(106, 768)
(207, 768)
(163, 768)
(300, 768)
(259, 768)
(246, 768)
(30, 768)
(72, 768)
(119, 768)
(43, 768)
(118, 768)
(98, 768)
(272, 768)
(150, 768)
(53, 768)
(32, 768)
(60, 768)
(26, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (1134 > 512). Running this sequence through BERT will result in indexing errors


(143, 768)
(89, 768)
(127, 768)
(73, 768)
(44, 768)
(94, 768)
(67, 768)
(61, 768)
(275, 768)
(149, 768)
(300, 768)
(49, 768)
(43, 768)
(57, 768)
(106, 768)
(82, 768)
(75, 768)
(33, 768)
(49, 768)
(133, 768)
(100, 768)
(128, 768)
(149, 768)
(15, 768)
(37, 768)
(37, 768)
(47, 768)
(56, 768)
(176, 768)
(79, 768)
(143, 768)
(9, 768)
(41, 768)
(44, 768)
(150, 768)
(125, 768)
(166, 768)
(37, 768)
(45, 768)
(44, 768)
(166, 768)
(273, 768)
(128, 768)
(110, 768)
(31, 768)
(144, 768)
(184, 768)
(53, 768)
(71, 768)
(31, 768)
(73, 768)
(169, 768)
(107, 768)
(122, 768)
(163, 768)
(61, 768)
(63, 768)
(27, 768)
(245, 768)
(42, 768)
(43, 768)
(16, 768)
(61, 768)
(76, 768)
(159, 768)
(119, 768)
(41, 768)
(83, 768)
(41, 768)
(138, 768)
(276, 768)
(42, 768)
(144, 768)
(128, 768)
(34, 768)
(111, 768)
(117, 768)
(26, 768)
(45, 768)
(82, 768)
(60, 768)
(25, 768)
(300, 768)
(81, 768)
(79, 768)
(261, 768)
(100, 768)
(75, 768)
(129, 768)
(147, 768)
(87, 768)
(20, 768)
(53, 768)
(54, 768)
(73, 768)
(41, 768)
(1

(49, 768)
(223, 768)
(277, 768)
(300, 768)
(75, 768)
(62, 768)
(119, 768)
(68, 768)
(73, 768)
(77, 768)
(29, 768)
(204, 768)
(77, 768)
(13, 768)
(60, 768)
(145, 768)
(42, 768)
(127, 768)
(1, 768)
(121, 768)
(16, 768)
(34, 768)
(56, 768)
(300, 768)
(102, 768)
(86, 768)
(43, 768)
(229, 768)
(38, 768)
(141, 768)
(104, 768)
(108, 768)
(27, 768)
(38, 768)
(18, 768)
(47, 768)
(300, 768)
(103, 768)
(300, 768)
(87, 768)
(77, 768)
(68, 768)
(62, 768)
(85, 768)
(45, 768)
(100, 768)
(118, 768)
(14, 768)
(86, 768)
(235, 768)
(139, 768)
(30, 768)
(29, 768)
(44, 768)
(289, 768)
(148, 768)
(154, 768)
(43, 768)
(57, 768)
(300, 768)
(251, 768)
(83, 768)
(283, 768)
(300, 768)
(13, 768)
(73, 768)
(91, 768)
(33, 768)
(105, 768)
(247, 768)
(217, 768)
(97, 768)
(26, 768)
(101, 768)
(65, 768)
(44, 768)
(35, 768)
(57, 768)
(119, 768)
(274, 768)
(31, 768)
(139, 768)
(300, 768)
(61, 768)
(37, 768)
(64, 768)
(187, 768)
(300, 768)
(300, 768)
(300, 768)
(18, 768)
(116, 768)
(31, 768)
(11, 768)
(43, 768)
(45, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (516 > 512). Running this sequence through BERT will result in indexing errors


(246, 768)
(217, 768)
(82, 768)
(190, 768)
(89, 768)
(39, 768)
(59, 768)
(22, 768)
(18, 768)
(131, 768)
(37, 768)
(117, 768)
(33, 768)
(53, 768)
(121, 768)
(281, 768)
(44, 768)
(112, 768)
(77, 768)
(77, 768)
(63, 768)
(61, 768)
(94, 768)
(45, 768)
(145, 768)
(47, 768)
(188, 768)
(44, 768)
(141, 768)
(44, 768)
(110, 768)
(122, 768)
(132, 768)
(300, 768)
(251, 768)
(95, 768)
(120, 768)
(43, 768)
(127, 768)
(179, 768)
(18, 768)
(26, 768)
(300, 768)
(118, 768)
(31, 768)
(27, 768)
(55, 768)
(300, 768)
(167, 768)
(110, 768)
(112, 768)
(219, 768)
(21, 768)
(41, 768)
(245, 768)
(51, 768)
(173, 768)
(26, 768)
(140, 768)
(114, 768)
(48, 768)
(44, 768)
(15, 768)
(87, 768)
(106, 768)
(28, 768)
(27, 768)
(145, 768)
(255, 768)
(200, 768)
(45, 768)
(136, 768)
(210, 768)
(43, 768)
(106, 768)
(178, 768)
(125, 768)
(300, 768)
(42, 768)
(46, 768)
(135, 768)
(227, 768)
(92, 768)
(31, 768)
(28, 768)
(63, 768)
(93, 768)
(127, 768)
(300, 768)
(108, 768)
(300, 768)
(84, 768)
(99, 768)
(26, 768)
(71, 768)
(14,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (677 > 512). Running this sequence through BERT will result in indexing errors


(66, 768)
(52, 768)
(50, 768)
(101, 768)
(158, 768)
(70, 768)
(78, 768)
(71, 768)
(300, 768)
(37, 768)
(300, 768)
(68, 768)
(91, 768)
(34, 768)
(143, 768)
(88, 768)
(48, 768)
(300, 768)
(142, 768)
(300, 768)
(72, 768)
(300, 768)
(45, 768)
(3, 768)
(102, 768)
(40, 768)
(70, 768)
(34, 768)
(80, 768)
(68, 768)
(36, 768)
(92, 768)
(26, 768)
(48, 768)
(300, 768)
(45, 768)
(261, 768)
(68, 768)
(139, 768)
(108, 768)
(73, 768)
(115, 768)
(21, 768)
(82, 768)
(269, 768)
(175, 768)
(18, 768)
(300, 768)
(49, 768)
(83, 768)
(127, 768)
(37, 768)
(28, 768)
(300, 768)
(23, 768)
(300, 768)
(69, 768)
(49, 768)
(86, 768)
(91, 768)
(300, 768)
(34, 768)
(224, 768)
(51, 768)
(170, 768)
(28, 768)
(48, 768)
(24, 768)
(57, 768)
(13, 768)
(300, 768)
(249, 768)
(256, 768)
(108, 768)
(300, 768)
(171, 768)


In [19]:
#문서 길이를 300으로 설정했음에도 sub_token 길이가 512를 초과하는 문서들은 제외 됨
import pickle

print('제외된 문서의 수: ',len(except_lst))

with open('except_lst.pkl', 'wb') as file:
    pickle.dump(except_lst, file)

print("except_lst를 피클 파일로 저장했습니다.")

제외된 문서의 수:  43
except_lst를 피클 파일로 저장했습니다.


In [20]:
#제외된 문서들의 길이를 150으로 재설정 후 다시 임베딩
new_except_lst=[]
to_txt_long_train=[]
for idx in except_lst:
    to_txt_long_train.append(to_txt_filter[idx])
    
to_txt_long_train=limit_words(to_txt_long_train,150)

for i in except_lst:
    try:
        cnt=0
        text = to_txt_long_train[cnt]
        cnt+=1
        embed_matrix=bert_word_embedding(text)   
        np.save('./bert_embedding/train(bert)/doc%d'%i,embed_matrix)
        print(embed_matrix.shape)
    except:
        new_except_lst.append(i)   #단어를 150개로 제한했는데도 sub_token 길이가 512가 넘는 문서는 new_except_lst에 추가

(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)


In [21]:
new_except_lst

[]

In [22]:
#문서 길이를 300으로 설정했음에도 sub_token 길이가 512를 초과하는 문서들은 제외 됨
except_test_lst=[]

for i in range(len(x_test)):
    try:
        text = to_txt_filter[i+15062]
        embed_matrix=bert_word_embedding(text)       
        np.save('./bert_embedding/test(bert)/test%d'%i,embed_matrix)
        print(embed_matrix.shape)
    except:
        except_test_lst.append(i)   #sub_token 길이가 512가 넘는 문서는 except_lst에 추가

(21, 768)
(65, 768)
(90, 768)
(107, 768)
(107, 768)
(98, 768)
(99, 768)
(248, 768)
(83, 768)
(20, 768)
(33, 768)
(22, 768)
(45, 768)
(39, 768)
(107, 768)
(92, 768)
(67, 768)
(104, 768)
(99, 768)
(75, 768)
(79, 768)
(68, 768)
(77, 768)
(99, 768)
(56, 768)
(120, 768)
(41, 768)
(41, 768)
(67, 768)
(300, 768)
(119, 768)
(48, 768)
(43, 768)
(115, 768)
(82, 768)
(148, 768)
(28, 768)
(48, 768)
(247, 768)
(47, 768)
(276, 768)
(54, 768)
(50, 768)
(10, 768)
(43, 768)
(162, 768)
(32, 768)
(163, 768)
(97, 768)
(89, 768)
(300, 768)
(144, 768)
(33, 768)
(19, 768)
(22, 768)
(122, 768)
(106, 768)
(62, 768)
(152, 768)
(31, 768)
(86, 768)
(50, 768)
(142, 768)
(300, 768)
(83, 768)
(40, 768)
(101, 768)
(85, 768)
(150, 768)
(71, 768)
(43, 768)
(84, 768)
(18, 768)
(6, 768)
(91, 768)
(126, 768)
(29, 768)
(20, 768)
(51, 768)
(238, 768)
(19, 768)
(98, 768)
(63, 768)
(23, 768)
(31, 768)
(19, 768)
(27, 768)
(69, 768)
(104, 768)
(27, 768)
(63, 768)
(104, 768)
(300, 768)
(78, 768)
(26, 768)
(300, 768)
(73, 768)
(3

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (694 > 512). Running this sequence through BERT will result in indexing errors


(121, 768)
(110, 768)
(79, 768)
(41, 768)
(36, 768)
(47, 768)
(99, 768)
(50, 768)
(31, 768)
(38, 768)
(180, 768)
(119, 768)
(107, 768)
(212, 768)
(300, 768)
(86, 768)
(51, 768)
(236, 768)
(247, 768)
(87, 768)
(93, 768)
(120, 768)
(22, 768)
(38, 768)
(101, 768)
(33, 768)
(68, 768)
(80, 768)
(169, 768)
(54, 768)
(71, 768)
(30, 768)
(50, 768)
(139, 768)
(41, 768)
(36, 768)
(138, 768)
(73, 768)
(149, 768)
(69, 768)
(21, 768)
(148, 768)
(52, 768)
(266, 768)
(37, 768)
(300, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (677 > 512). Running this sequence through BERT will result in indexing errors


(93, 768)
(19, 768)
(61, 768)
(68, 768)
(54, 768)
(114, 768)
(16, 768)
(53, 768)
(186, 768)
(25, 768)
(155, 768)
(72, 768)
(67, 768)
(74, 768)
(79, 768)
(300, 768)
(130, 768)
(300, 768)
(63, 768)
(195, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (980 > 512). Running this sequence through BERT will result in indexing errors


(110, 768)
(272, 768)
(43, 768)
(283, 768)
(300, 768)
(133, 768)
(58, 768)
(16, 768)
(78, 768)
(70, 768)
(300, 768)
(201, 768)
(10, 768)
(148, 768)
(35, 768)
(110, 768)
(110, 768)
(30, 768)
(137, 768)
(70, 768)
(160, 768)
(23, 768)
(45, 768)
(52, 768)
(300, 768)
(232, 768)
(115, 768)
(11, 768)
(47, 768)
(90, 768)
(95, 768)
(19, 768)
(70, 768)
(65, 768)
(59, 768)
(300, 768)
(54, 768)
(82, 768)
(71, 768)
(65, 768)
(72, 768)
(300, 768)
(11, 768)
(300, 768)
(123, 768)
(66, 768)
(138, 768)
(147, 768)
(64, 768)
(24, 768)
(84, 768)
(300, 768)
(293, 768)
(94, 768)
(77, 768)
(79, 768)
(38, 768)
(66, 768)
(38, 768)
(46, 768)
(300, 768)
(47, 768)
(48, 768)
(165, 768)
(55, 768)
(94, 768)
(300, 768)
(106, 768)
(74, 768)
(45, 768)
(109, 768)
(80, 768)
(71, 768)
(184, 768)
(16, 768)
(93, 768)
(27, 768)
(25, 768)
(34, 768)
(78, 768)
(32, 768)
(22, 768)
(60, 768)
(52, 768)
(42, 768)
(69, 768)
(149, 768)
(91, 768)
(40, 768)
(198, 768)
(173, 768)
(300, 768)
(34, 768)
(24, 768)
(166, 768)
(53, 768)
(15, 7

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (670 > 512). Running this sequence through BERT will result in indexing errors


(176, 768)
(138, 768)
(43, 768)
(300, 768)
(103, 768)
(171, 768)
(38, 768)
(59, 768)
(140, 768)
(52, 768)
(79, 768)
(24, 768)
(168, 768)
(19, 768)
(136, 768)
(51, 768)
(143, 768)
(151, 768)
(91, 768)
(74, 768)
(65, 768)
(59, 768)
(79, 768)
(24, 768)
(68, 768)
(145, 768)
(42, 768)
(224, 768)
(18, 768)
(47, 768)
(11, 768)
(197, 768)
(164, 768)
(160, 768)
(59, 768)
(300, 768)
(103, 768)
(75, 768)
(300, 768)
(187, 768)
(71, 768)
(90, 768)
(23, 768)
(102, 768)
(300, 768)
(74, 768)
(58, 768)
(48, 768)
(149, 768)
(300, 768)
(155, 768)
(25, 768)
(221, 768)
(81, 768)
(96, 768)
(120, 768)
(150, 768)
(278, 768)
(221, 768)
(14, 768)
(82, 768)
(132, 768)
(52, 768)
(26, 768)
(83, 768)
(88, 768)
(82, 768)
(45, 768)
(300, 768)
(25, 768)
(231, 768)
(16, 768)
(82, 768)
(38, 768)
(279, 768)
(37, 768)
(16, 768)
(76, 768)
(9, 768)
(48, 768)
(46, 768)
(62, 768)
(4, 768)
(74, 768)
(126, 768)
(37, 768)
(159, 768)
(88, 768)
(75, 768)
(97, 768)
(85, 768)
(52, 768)
(82, 768)
(30, 768)
(30, 768)
(85, 768)
(273, 7

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (790 > 512). Running this sequence through BERT will result in indexing errors


(46, 768)
(198, 768)
(142, 768)
(58, 768)
(34, 768)
(300, 768)
(23, 768)
(38, 768)
(55, 768)
(300, 768)
(142, 768)
(52, 768)
(75, 768)
(54, 768)
(43, 768)
(91, 768)
(73, 768)
(98, 768)
(62, 768)
(69, 768)
(49, 768)
(22, 768)
(3, 768)
(33, 768)
(29, 768)
(195, 768)
(158, 768)
(62, 768)
(39, 768)
(65, 768)
(44, 768)
(54, 768)
(157, 768)
(157, 768)
(212, 768)
(1, 768)
(136, 768)
(161, 768)
(51, 768)
(83, 768)
(170, 768)
(72, 768)
(35, 768)
(104, 768)
(47, 768)
(300, 768)
(37, 768)
(132, 768)
(60, 768)
(96, 768)
(165, 768)
(38, 768)
(77, 768)
(27, 768)
(47, 768)
(68, 768)
(48, 768)
(106, 768)
(193, 768)
(128, 768)
(97, 768)
(99, 768)
(183, 768)
(23, 768)
(131, 768)
(84, 768)
(26, 768)
(13, 768)
(65, 768)
(45, 768)
(269, 768)
(196, 768)
(207, 768)
(153, 768)
(102, 768)
(25, 768)
(82, 768)
(147, 768)
(51, 768)
(138, 768)
(28, 768)
(210, 768)
(45, 768)
(92, 768)
(192, 768)
(22, 768)
(300, 768)
(39, 768)
(44, 768)
(1, 768)
(164, 768)
(300, 768)
(149, 768)
(107, 768)
(300, 768)
(300, 768)
(122,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (617 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(16, 768)
(44, 768)
(69, 768)
(142, 768)
(169, 768)
(43, 768)
(104, 768)
(48, 768)
(35, 768)
(46, 768)
(170, 768)
(19, 768)
(118, 768)
(187, 768)
(23, 768)
(57, 768)
(41, 768)
(62, 768)
(196, 768)
(52, 768)
(117, 768)
(48, 768)
(41, 768)
(101, 768)
(60, 768)
(99, 768)
(300, 768)
(83, 768)
(29, 768)
(33, 768)
(2, 768)
(55, 768)
(168, 768)
(13, 768)
(56, 768)
(300, 768)
(58, 768)
(159, 768)
(150, 768)
(47, 768)
(98, 768)
(66, 768)
(81, 768)
(102, 768)
(28, 768)
(151, 768)
(300, 768)
(125, 768)
(83, 768)
(42, 768)
(65, 768)
(47, 768)
(77, 768)
(7, 768)
(233, 768)
(39, 768)
(43, 768)
(148, 768)
(25, 768)
(121, 768)
(59, 768)
(214, 768)
(119, 768)
(162, 768)
(41, 768)
(40, 768)
(252, 768)
(28, 768)
(112, 768)
(120, 768)
(79, 768)
(144, 768)
(48, 768)
(22, 768)
(39, 768)
(78, 768)
(46, 768)
(95, 768)
(82, 768)
(300, 768)
(300, 768)
(12, 768)
(93, 768)
(14, 768)
(132, 768)
(270, 768)
(175, 768)
(103, 768)
(101, 768)
(17, 768)
(124, 768)
(185, 768)
(300, 768)
(103, 768)
(21, 768)
(3

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (636 > 512). Running this sequence through BERT will result in indexing errors


(251, 768)
(60, 768)
(113, 768)
(50, 768)
(300, 768)
(90, 768)
(22, 768)
(28, 768)
(192, 768)
(111, 768)
(51, 768)
(32, 768)
(69, 768)
(78, 768)
(139, 768)
(21, 768)
(81, 768)
(121, 768)
(52, 768)
(42, 768)
(74, 768)
(92, 768)
(37, 768)
(26, 768)
(228, 768)
(56, 768)
(98, 768)
(65, 768)
(20, 768)
(156, 768)
(243, 768)
(235, 768)
(69, 768)
(84, 768)
(102, 768)
(42, 768)
(204, 768)
(27, 768)
(56, 768)
(41, 768)
(6, 768)
(66, 768)
(205, 768)
(187, 768)
(22, 768)
(221, 768)
(44, 768)
(54, 768)
(196, 768)
(15, 768)
(31, 768)
(176, 768)
(53, 768)
(24, 768)
(111, 768)
(73, 768)
(223, 768)
(83, 768)
(87, 768)
(36, 768)
(44, 768)
(61, 768)
(37, 768)
(12, 768)
(256, 768)
(271, 768)
(44, 768)
(60, 768)
(72, 768)
(299, 768)
(15, 768)
(76, 768)
(153, 768)
(147, 768)
(75, 768)
(19, 768)
(37, 768)
(98, 768)
(123, 768)
(40, 768)
(16, 768)
(22, 768)
(100, 768)
(209, 768)
(112, 768)
(213, 768)
(25, 768)
(93, 768)
(94, 768)
(198, 768)
(19, 768)
(57, 768)
(23, 768)
(78, 768)
(57, 768)
(300, 768)
(199, 768

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (790 > 512). Running this sequence through BERT will result in indexing errors


(76, 768)
(103, 768)
(126, 768)
(49, 768)
(46, 768)
(34, 768)
(197, 768)
(67, 768)
(45, 768)
(56, 768)
(43, 768)
(31, 768)
(54, 768)
(75, 768)
(84, 768)
(20, 768)
(300, 768)
(59, 768)
(196, 768)
(134, 768)
(171, 768)
(88, 768)
(74, 768)
(122, 768)
(46, 768)
(112, 768)
(74, 768)
(58, 768)
(81, 768)
(64, 768)
(108, 768)
(67, 768)
(78, 768)
(109, 768)
(34, 768)
(193, 768)
(300, 768)
(42, 768)
(28, 768)
(85, 768)
(131, 768)
(75, 768)
(143, 768)
(24, 768)
(117, 768)
(35, 768)
(205, 768)
(25, 768)
(77, 768)
(67, 768)
(71, 768)
(98, 768)
(70, 768)
(30, 768)
(64, 768)
(61, 768)
(13, 768)
(65, 768)
(258, 768)
(73, 768)
(258, 768)
(156, 768)
(300, 768)
(145, 768)
(13, 768)
(83, 768)
(27, 768)
(23, 768)
(44, 768)
(119, 768)
(66, 768)
(151, 768)
(25, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (529 > 512). Running this sequence through BERT will result in indexing errors


(229, 768)
(78, 768)
(34, 768)
(11, 768)
(107, 768)
(63, 768)
(33, 768)
(42, 768)
(101, 768)
(300, 768)
(56, 768)
(133, 768)
(42, 768)
(77, 768)
(250, 768)
(55, 768)
(70, 768)
(56, 768)
(52, 768)
(55, 768)
(47, 768)
(132, 768)
(247, 768)
(245, 768)
(154, 768)
(71, 768)
(54, 768)
(18, 768)
(54, 768)
(89, 768)
(56, 768)
(66, 768)
(229, 768)
(16, 768)
(114, 768)
(121, 768)
(97, 768)
(100, 768)
(51, 768)
(74, 768)
(120, 768)
(68, 768)
(68, 768)
(27, 768)
(81, 768)
(139, 768)
(250, 768)
(72, 768)
(76, 768)
(63, 768)
(110, 768)
(45, 768)
(15, 768)
(59, 768)
(121, 768)
(142, 768)
(163, 768)
(83, 768)
(43, 768)
(36, 768)
(300, 768)
(165, 768)
(46, 768)
(59, 768)
(253, 768)
(298, 768)
(68, 768)
(168, 768)
(66, 768)
(84, 768)
(90, 768)
(143, 768)
(186, 768)
(118, 768)
(60, 768)
(118, 768)
(10, 768)
(67, 768)
(96, 768)
(52, 768)
(14, 768)
(268, 768)
(27, 768)
(58, 768)
(15, 768)
(77, 768)
(45, 768)
(16, 768)
(161, 768)
(96, 768)
(47, 768)
(35, 768)
(300, 768)
(72, 768)
(13, 768)
(28, 768)
(73, 76

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (612 > 512). Running this sequence through BERT will result in indexing errors


(42, 768)
(39, 768)
(196, 768)
(55, 768)
(15, 768)
(104, 768)
(51, 768)
(39, 768)
(45, 768)
(88, 768)
(28, 768)
(64, 768)
(40, 768)
(71, 768)
(177, 768)
(300, 768)
(56, 768)
(33, 768)
(175, 768)
(204, 768)
(48, 768)
(11, 768)
(114, 768)
(56, 768)
(41, 768)
(300, 768)
(82, 768)
(42, 768)
(14, 768)
(90, 768)
(35, 768)
(255, 768)
(124, 768)
(109, 768)
(54, 768)
(97, 768)
(59, 768)
(35, 768)
(300, 768)
(30, 768)
(84, 768)
(76, 768)
(169, 768)
(210, 768)
(45, 768)
(62, 768)
(227, 768)
(13, 768)
(10, 768)
(166, 768)
(23, 768)
(164, 768)
(40, 768)
(226, 768)
(73, 768)
(300, 768)
(119, 768)
(55, 768)
(69, 768)
(75, 768)
(122, 768)
(50, 768)
(36, 768)
(222, 768)
(222, 768)
(188, 768)
(56, 768)
(53, 768)
(42, 768)
(39, 768)
(42, 768)
(59, 768)
(24, 768)
(98, 768)
(51, 768)
(9, 768)
(61, 768)
(213, 768)
(44, 768)
(24, 768)
(63, 768)
(3, 768)
(37, 768)
(74, 768)
(37, 768)
(227, 768)
(162, 768)
(23, 768)
(29, 768)
(87, 768)
(59, 768)
(67, 768)
(114, 768)
(59, 768)
(20, 768)
(82, 768)
(91, 768)
(13,

Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (562 > 512). Running this sequence through BERT will result in indexing errors


(50, 768)
(10, 768)
(121, 768)
(73, 768)
(57, 768)
(43, 768)
(27, 768)
(10, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (656 > 512). Running this sequence through BERT will result in indexing errors


(300, 768)
(169, 768)
(22, 768)
(111, 768)
(121, 768)
(144, 768)
(95, 768)
(283, 768)
(21, 768)
(122, 768)
(27, 768)
(49, 768)
(299, 768)
(18, 768)
(146, 768)
(37, 768)
(159, 768)
(22, 768)
(41, 768)
(110, 768)
(44, 768)
(20, 768)
(34, 768)
(91, 768)
(196, 768)
(194, 768)
(78, 768)
(73, 768)
(38, 768)
(41, 768)
(104, 768)
(29, 768)
(46, 768)
(59, 768)
(64, 768)
(249, 768)
(233, 768)
(115, 768)
(128, 768)
(300, 768)
(46, 768)
(43, 768)
(54, 768)
(40, 768)


Token indices sequence length is longer than the specified maximum  sequence length for this BERT model (1607 > 512). Running this sequence through BERT will result in indexing errors


(61, 768)
(150, 768)
(98, 768)
(154, 768)
(110, 768)
(34, 768)
(116, 768)
(85, 768)
(134, 768)
(105, 768)
(157, 768)
(109, 768)
(223, 768)
(69, 768)
(126, 768)
(75, 768)
(92, 768)
(163, 768)
(34, 768)
(5, 768)
(103, 768)
(19, 768)
(89, 768)
(24, 768)
(163, 768)
(183, 768)
(1, 768)
(59, 768)
(67, 768)
(71, 768)
(43, 768)
(96, 768)
(194, 768)
(79, 768)
(32, 768)
(48, 768)
(71, 768)
(59, 768)
(152, 768)
(5, 768)
(50, 768)
(205, 768)
(300, 768)
(30, 768)
(98, 768)
(74, 768)
(12, 768)
(114, 768)
(300, 768)
(85, 768)
(211, 768)
(145, 768)
(108, 768)
(94, 768)
(300, 768)
(181, 768)
(300, 768)
(43, 768)
(300, 768)
(58, 768)
(39, 768)
(99, 768)
(4, 768)
(39, 768)
(244, 768)
(291, 768)
(47, 768)
(56, 768)
(31, 768)
(28, 768)
(17, 768)
(285, 768)
(146, 768)
(43, 768)
(32, 768)
(57, 768)
(100, 768)
(55, 768)
(67, 768)
(37, 768)
(300, 768)
(18, 768)
(300, 768)
(13, 768)
(46, 768)
(120, 768)
(107, 768)
(26, 768)
(53, 768)
(143, 768)
(77, 768)
(137, 768)
(110, 768)
(300, 768)
(119, 768)
(221, 768)
(1

In [23]:
import pickle

print('제외된 문서의 수: ',len(except_test_lst))

with open('except_test_lst.pkl', 'wb') as file:
    pickle.dump(except_test_lst, file)

print("except_test_lst를 피클 파일로 저장했습니다.")

제외된 문서의 수:  13
except_test_lst를 피클 파일로 저장했습니다.


In [24]:
#제외된 문서들의 길이를 150으로 재설정 후 다시 임베딩
new_except_test_lst=[]
to_txt_long_test=[]
for idx in except_test_lst:
    to_txt_long_test.append(to_txt_filter[idx+15062])
    
to_txt_long_test=limit_words(to_txt_long_test,150)

for i in except_test_lst:
    try:
        cnt=0
        text = to_txt_long_test[cnt]
        cnt+=1
        embed_matrix=bert_word_embedding(text)       
        np.save('./bert_embedding/test(bert)/test%d'%i,embed_matrix)
        print(embed_matrix.shape)
    except:
        new_except_test_lst.append(i)   #단어를 150개로 제한했는데도 sub_token 길이가 512가 넘는 문서는 except_lst에 추가

(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)
(150, 768)


In [25]:
new_except_test_lst

[]