In [1]:
import tiktoken

In [2]:
def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613"):
    """Return the number of tokens used by a list of messages."""
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("Warning: model not found. Using cl100k_base encoding.")
        encoding = tiktoken.get_encoding("cl100k_base")
    
    tokens_per_message = 3
    tokens_per_name = 1
    
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3  # every reply is primed with <|start|>assistant<|message|>
    return num_tokens


In [4]:
import json 

total_tokens = 0
with open('../jsonl/tweet-tone-train2.jsonl', 'r', encoding='utf-8') as jsonl_file:
    for sample in jsonl_file:
        sample_obj = json.loads(sample)
        sample_token = num_tokens_from_messages(sample_obj["messages"], "gpt-3.5-turbo-1106")
        print(f"{sample_token} prompt tokens counted for sample.")
        total_tokens += sample_token

print(total_tokens)

70 prompt tokens counted for sample.
77 prompt tokens counted for sample.
75 prompt tokens counted for sample.
75 prompt tokens counted for sample.
73 prompt tokens counted for sample.
81 prompt tokens counted for sample.
77 prompt tokens counted for sample.
75 prompt tokens counted for sample.
63 prompt tokens counted for sample.
70 prompt tokens counted for sample.
73 prompt tokens counted for sample.
75 prompt tokens counted for sample.
104 prompt tokens counted for sample.
74 prompt tokens counted for sample.
95 prompt tokens counted for sample.
82 prompt tokens counted for sample.
73 prompt tokens counted for sample.
75 prompt tokens counted for sample.
73 prompt tokens counted for sample.
75 prompt tokens counted for sample.
72 prompt tokens counted for sample.
79 prompt tokens counted for sample.
65 prompt tokens counted for sample.
102 prompt tokens counted for sample.
54 prompt tokens counted for sample.
78 prompt tokens counted for sample.
72 prompt tokens counted for sample.

In [None]:
import pandas as pd

train = pd.read_csv('./processed_train.csv').dropna()
x_train = train['text']

num_tokens = 0
for string in x_train[:5000]:
    print(string)
    encoding = tiktoken.encoding_for_model("gpt-3.5-turbo-1106")
    num_token = len(encoding.encode(string))
    print(num_token)
    num_tokens += num_token
    
    
print(num_tokens)

18
Geçici Kolordu Komutanı olarak görev yapmaktaydı
18
ürünün fiyatı markatlere göre uygun ürün geç iki günde elinizde oluyor
27
pislikşuan otelden yazıyorum otele ilk girdiğimiz saat buçuktu giriş olmasi gerekirken geç gittiğimiz halde odamız hazır değildi oda pislik içindeydi dışarıdan çamaşır suyu alıp eşim temizledi ilgilenen kimse yok zaten çalışanların çoğu stajyer öğrenci maalesef pis kılık kıyafet konudadüşünün yemekte çorba çıkıyor çorba kasesi bulmak uzun süre görevli kovalıyoruz resmen zaten çorbasından başka doğru düzgün yemek yok birçok insan dışarıdan pizza söylüyor yada dışarı çıkıyorpaspal bi müdür var beyefendiye odamızda hırsızlık oldu şikayet gelen vardı adam orali dahi olmadı yorumlara inanmadik geldik burada yazılan yorumlar gerçekmis
253
güzel ürün hızlı kargo tek sorun yumuşak cilde dudak kenarı vs yerlere cihaz dalıyor kanatıyor
38
Aynı yıl Kazakistan Yüksek Sovyet Prezidyumu Başkan Yardımcısı seçildi
26
su ana kadar kullandigim verimli etkili kum
16
Ürün açıkla

58
ürünü henüz kullanmadım ancak kendisi hatta kutusu bile şık üstelik fiyat iyi
27
evimdeki elektrikli supurge ailesinin 3katilimcisi fantom esim istedi aldim soyledigine gore diger iki uyenin emeklilik vakti gelmis herseyi tam bir elektrikli supurge kadar ovunce bende denemek istedim gercekten kuvvetli cekim gucu var su calisana gore temizligi cok kolay ses elektrikli supurgede oldugu kadar kablosu gayet yeterli 3035 m2 odayi rahatlikla supurebiliyor bence renk secenekleri olabilir 2 yil garantili guzel bir urun tavsiye ederim son bir tesekkurde
168
kullanışlı biraz fazla uzun tasarlanmış
15
uygun fiyatlı markalarda var ancak farklı ürün tercih edenler uygun bir ürün bir iyi tarafı hepa filtre olması temiz bir süpürme ortamı sağlıyor tozu tutuyor şık görüntüsü artısı süpürgenin içinin görünmeside istenmeyen bir şeyi süpürge içine alısa göre bilirsiniz
104
ürünü yaklaşık 10 gün önce satın aldım i̇lk tercihim olan üründen kargoya verileceği gün vazgeçtim jet hızıyla sipariş iptal oldu 

21
Önceleri yaz saati uygulaması kullanılsa uygulama günümüzde devam etmemektedir
30
ürünü bir haftadır kullanıyorum diğer düzleştiricilere göre kullanımı rahat ısınma süresi söyledikleri hızlı i̇lk kullanımda sıcaklık derecesini kilitli hale getirmemiştim parmağım hareket ettikçe derece yükselip azaldı rahatsız oldum sonraki denemelerimde bunu kilitleyerek basit bir işlem olduğunu anladım kablosu diğer modellere göre hafif taşıması kolay kolay çantası var başarılı bir ürün plaka kısmını sevdim sacda parlaklık yaratıyor anında düzleştirme yapıla biliyor severek kullanacağınız bir ürünü tavsiye ederim 0n üzerinden puan versem 9 verirdim
211
piyasadaki çakma versiyon urunlerden cok cekmis olarak tedirginlik icerisinde siparisimi verdim fakat note 4 kutusundan cikan sarj cihaziyla ayni oldugunu gorunce sarj etme hizininda gayet iyi olusuyla size almaniz yonunde tavsiye ederim ürünün kendine ait bir kutusu yok kilitli poset icinde geliyor kutu olarak burada kutusu icerisinde geliyor kesinl

67
aldığım aynı marka şemsiyeyle uyumlu beğendim
20
Bazı düşüncelere göre boru hattının yarıçapı Rus Gazprom şirketinin baskısından dolayı düşürülmüştür
43
Daha uzun mesafe koşu etkinliklerinde yarışmıştır
21
Balayı çiftleri uygun bir tesis balayı gitmiştik Hizmet oldukça iyi Tavsiye ediyorum
33
johnny johnny iştegerçektende muhtesemhiç temposu azalmayan bi filmjohnny in iyi filmi bence1010
35
hızlıgüvenli ucuz alışverişteşekkürler hepsiburada
23
arkadaşlar ürün bugün elime ulaştı sakallarım uzundu sakal kısaltmayı normal traş başlığını deneme imkanım oldu köpükleyerek traş oldum gerçekten memnun kaldım alırken düşünmenize bile gerek yok mükemmel bi makina tek eksiği çantasının olmaması
91
Körfez Akımı ayrıca yenilenebilir enerji üretiminin önemli bir potansiyel kaynağıdır
35
almak hala düşünüp karar veremeyenlere şiddetle tavsiye olunur hatta şimdi bir arkadaşım yeni sipariş verdik hepsiburadacoma fiyatta sağladığı avantaj hızlı teslimatı teşekkürler
70
Cross ingilizce çapraz anlamı t

14
Almadan once yorumlarini okumustum bi yorumda fare pesinizden gelir yaziyodu gercekten oyle kucucuk fiyata alabileceginiz iyi urun borulari cok kalitesiz eski supurgemin borusu uyumlu geldi onu taktim
71
4 farklı kediye bir köpeğe verdim saldırdılar ucuz mama yemiyorsa kediniz bunu bir deneyin
37
bence çift hatlı düşünenler çılgınlık yapmasın telefonu alsınlar
25
Bellekten belleğe doğrudan veri aktarım komutu yoktur
20
Kaldığı sürece yaklaşık bir düzine resim yaptı
18
Parçanın Ms
5
güzel alışveriş oldu kara buza rağmen 1 günde kargo elime ulaştı üründe sıkıntı yok sadece tek sıkıntım mouse pad katlanarak gelmiş oda iz bıraktı hala geçmedi ilerlyen günlerde inşallah geçer
76
hızlı gönderi güvenli alışveriş güzel kullanılabilir ürün olsun teşekkürler
30
Çoklu işlem yapabilen sistemlerden gelişen yöntem tek bir çekirdeğin kaynaklarını paylaşmak zorundadır
39
onun dışında parfüm şişesi hoş koku aynı eskisi
20
Kesinlikle 2000li yılların iyi filmlerinden Fetiş karakterleri melankolik atmo

33
Bahçeye kemerli bir kapıdan girilir
13
yıllardır yaparım işi x2 den sonra beni sadece marka tatmin etti değerler stabil kaldı oyunlarda max 83 dereceyi gördü öncekilerde 90 dayıyordu dikkat edilmesi gereken var bence sürmeden önce talimatlara internetten yapıldığına bakın ürünün amacı soğutma bakırı işlemci chip arasındaki akım kaybını önlemek ufak bir hava boşluğu bile ürün iyi olsada fark etmez alış verişlerimden memnunum teşekkürler hepsiburadacom
162
iğrenç anlatamayacağım kadar iğrençti tatil gittiğim yerde sinirlerim midem bozuldu yemekler iğrençti kahvaltıda açtığım tane terayağın küflü kokmuştu kazayla birinden ekmeğime sürdüm bir ağzıma aldım çıkarmaktan içim dışıma çıktı içecek desen sudan başka istersen kalmadı odalar iğrenç çarşaflar havlular siyah beyazı
138
zamanında geldi fiyatı uyguntavsiye ederim
17
baska siteden siparis verip 1hafta bekleyip siparisini iptal etmek zorunda kaldigim urunu 1 gunde gonderen hepsiburada kurumuna tesekkuru borc bilirim kaliteli hizmet bo

16
Serinin üç filmi muhteşemMilyonlarca kere seyretsem kesinlikle bıkmamYalnız tek bir eleştirim olacakKeşke seriyi veren kanallar STAR TVdeki dublajı kullansalar inanın bana dört dörtlük
74
1 300 mbs hız
7
ürün güzel kullanişli araçla tarlada gi̇tmedi̇ği̇n sürece birakmiyo telefonu telefon tutacaği hoşdi̇r
45
kullanmadığınız battaniye kışlık kıyafet yorgan yer kaplayan malzemeler mükemmel bir çözüm küçülüyor hemde nemden tozdan korunuyor yerden büyük tasarruf sağlıyor
61
kötüilk yanlış bir tercih yaptım otel konusunda özet olarak oda ortak kullanım alanı temizliği fena değildi yiyiecek içecek mutfak berbattı temiz bir tabak fincan bulabilmek bayağı bir uğraş verdik midem bozuldu yemeklerde kullanılan malzeme kalitesizdi yiyicek içecek kısmı tek kelimeyle iğrençti yüzden tatilimi yarıda bırakmak zorunda kaldım otele sadece gün dayanabildik gün erken ayrılmış olduk kahvaltıda poşet çay içirdiler bize neymiş yabancı misafirler çoğunlukta olduğu çay demlenemezmiş tatilim zehir oldu kesinl