In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]
sequences2 = ["asdofuqp9weuih  p9a8wufp jasd ou wp9 usa duf p98 uu8 wpe9 9w w  a[ siuq[3uejtojds f ]]", "I've been waiting for a asdlfksdfaksjdfhna;ksdjfha;sjdkhf;kajsdhfasdf;kjashdf;oiawefup9w apweuryqpw9eu hfqwp9e yrqwe98 ryqpw9 e8yr q9we rw e  qce course my whole life.", "So have I!"]

tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors='pt')
tokens2 = tokenizer(sequences2, padding=True, truncation=True, return_tensors='pt')
tokens3 = tokenizer(sequences, padding=True, truncation=True, return_tensors='pt')
output = model(**tokens)

In [2]:
input_ids = tokens['input_ids']
input_ids2 = tokens2['input_ids']
input_ids3 = tokens3['input_ids']

print(input_ids.shape, input_ids2.shape, input_ids3.shape)

torch.Size([2, 16]) torch.Size([3, 91]) torch.Size([2, 16])


In [2]:
from src.datasets import WangChanBERTaFinetunerDataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification


tokenizer = AutoTokenizer.from_pretrained(
    "airesearch/wangchanberta-base-att-spm-uncased",
    revision='main',
    model_max_length=416
)

train_dataset = WangChanBERTaFinetunerDataset(
    tokenizer,
    './data/processed/tscc/train',
    text_column_name='filtered_fact',
    label_column_name='label',
)

valid_dataset = WangChanBERTaFinetunerDataset(
    tokenizer,
    './data/processed/tscc/valid',
    text_column_name='filtered_fact',
    label_column_name='label',
)

train_dataset.unique_labels

['./data/processed/tscc/train/train.csv']
Files in the specified directory:  ['./data/processed/tscc/train/train.csv']


  0%|          | 0/1 [00:00<?, ?it/s]

['./data/processed/tscc/valid/valid.csv', './data/processed/tscc/valid/test.csv']
Files in the specified directory:  ['./data/processed/tscc/valid/valid.csv', './data/processed/tscc/valid/test.csv']


  0%|          | 0/2 [00:00<?, ?it/s]

{0,
 1,
 2,
 3,
 4,
 5,
 6,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 32,
 33,
 34,
 35,
 36}

In [4]:
import pythainlp

stopwords = pythainlp.corpus.common.thai_stopwords()
print(stopwords)

frozenset({'ซะจนถึง', 'หลาย', 'นี่นา', 'เมื่อไร', 'ดังกล่าว', '\ufeffๆ', 'มอง', 'น้อย', 'สิ่ง', 'ให้ไป', 'พร้อม', 'เท่ากับ', 'ร่วมมือ', 'กระนั้น', 'เสียด้วย', 'อย่างเดียว', 'พวก', 'อย่างที่', 'มักจะ', 'เมื่อครั้ง', 'ยังคง', 'ดั่งกับ', 'เอง', 'คราว', 'ได้ที่', 'เพิ่งจะ', 'มี', 'จวน', 'เนี่ยเอง', 'เกี่ยวเนื่อง', 'ทีใด', 'พอดี', 'เล็ก', 'ที่จริง', 'ดัง', 'แสดงว่า', 'เมื่อวันวาน', 'แต่', 'สู่', 'ครั้งครา', 'จ้า', 'แท้', 'แค่จะ', 'ยัง', 'เห็นควร', 'ใหญ่ๆ', 'ทำๆ', 'เมื่อครั้งก่อน', 'ด้วยที่', 'จวนเจียน', 'ไม่ใช่', 'พร้อมกัน', 'ก่อน', 'จากนั้น', 'ในที่', 'ถึง', 'นอกจากว่า', 'น่า', 'ยิ่งจะ', 'ที่ไหน', 'เขียน', 'มา', 'ทีละ', 'ภาย', 'จวบ', 'แก่', 'ยืนยัน', 'รับรอง', 'ทุกครั้ง', 'แค่', 'ปฏิบัติ', 'นั้น', 'เช่นเมื่อ', 'นะ', 'ขณะใดๆ', 'บ่อยครั้ง', 'เสร็จสมบูรณ์', 'ตนฯ', 'ครั้งหลังสุด', 'สิ่งใด', 'เดียวกัน', 'ฝ่าย', 'ที่ได้', 'ทันใดนั้น', 'ผ่านๆ', 'ส่วนที่', 'ประการหนึ่ง', 'นั่น', 'แบบ', 'นี่', 'ตามๆ', 'ซึ่งๆ', 'เหตุ', 'เพิ่ง', 'อย่างไรเสีย', 'ทีเถอะ', 'ยิ่งเมื่อ', 'เช่นเดียวกัน', 'ใช่ไหม', 'คราใด',

In [10]:
import collections

CORPUS_METADATA = [
    {'name': 'tscc', 'text_column_id': 1, 'delimiter': ','},
    {'name': 'wongnai', 'text_column_id': 0, 'delimiter': ';'},
    {'name': 'prachathai', 'text_column_id': 3, 'delimiter': ','},
    {'name': 'thaipbs', 'text_column_id': 1, 'delimiter': ','},
]


In [1]:
import nltk

In [5]:
nltk.download('stopwords')
stopwords_en = nltk.corpus.stopwords.words('english')
print(stopwords_en)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
