In [6]:
import pandas as pd
import tiktoken
from google.colab import drive

In [1]:
drive.mount('/content/drive')

# Specifying the full path to the file
file_path = '/content/drive/MyDrive/wiki_arm.json'

# Reading the JSON file
df = pd.read_json(file_path, orient='columns', compression='infer')

df.head()

Mounted at /content/drive


Unnamed: 0,id,url,title,text
0,800,https://hy.wikipedia.org/wiki/%D5%80%D5%A1%D5%...,Հայաստան,"Հայաստան , պաշտոնական անվանումը՝ Հայաստանի Հան..."
1,1027,https://hy.wikipedia.org/wiki/%D4%BC%D5%A5%D5%...,Լեռնային Ղարաբաղ,"Արցախ (Լեռնային Ղարաբաղ), պատմական տարածաշրջան..."
2,1032,https://hy.wikipedia.org/wiki/%D4%B7%D5%B5%D5%...,Էյսիդ ջազ,"Էյսիդ ջազը երաժշտական ուղղություն է, որը սկիզբ..."
3,1033,https://hy.wikipedia.org/wiki/%D5%80%D5%A1%D5%...,Հայկական խոհանոց,"Հայկական խոհանոց, ունի մի շարք առանձնահատկությ..."
4,1042,https://hy.wikipedia.org/wiki/%D4%B3%D6%80%D5%...,Գրաֆիտի,Գրաֆիտի („գրաֆիտո“ լատիներեն նշանակում է «քերթ...


In [3]:
# Loading the encoding
encoding = tiktoken.get_encoding("cl100k_base")

# Tokenizing the text in the DataFrame
df['tokenized_text'] = df['text'].apply(lambda x: encoding.encode(x))

# Decoding the tokenized text if needed
df['decoded_text'] = df['tokenized_text'].apply(lambda x: encoding.decode(x))

# Displaying the modified DataFrame
print(df.head())

     id                                                url             title  \
0   800  https://hy.wikipedia.org/wiki/%D5%80%D5%A1%D5%...          Հայաստան   
1  1027  https://hy.wikipedia.org/wiki/%D4%BC%D5%A5%D5%...  Լեռնային Ղարաբաղ   
2  1032  https://hy.wikipedia.org/wiki/%D4%B7%D5%B5%D5%...         Էյսիդ ջազ   
3  1033  https://hy.wikipedia.org/wiki/%D5%80%D5%A1%D5%...  Հայկական խոհանոց   
4  1042  https://hy.wikipedia.org/wiki/%D4%B3%D6%80%D5%...           Գրաֆիտի   

                                                text  \
0  Հայաստան , պաշտոնական անվանումը՝ Հայաստանի Հան...   
1  Արցախ (Լեռնային Ղարաբաղ), պատմական տարածաշրջան...   
2  Էյսիդ ջազը երաժշտական ուղղություն է, որը սկիզբ...   
3  Հայկական խոհանոց, ունի մի շարք առանձնահատկությ...   
4  Գրաֆիտի („գրաֆիտո“ լատիներեն նշանակում է «քերթ...   

                                      tokenized_text  \
0  [145, 222, 145, 94, 145, 113, 145, 94, 145, 12...   
1  [144, 109, 146, 222, 146, 223, 145, 94, 145, 2...   
2  [144, 115, 

In [4]:
# Selecting a few random examples
sample_indices = [0, 10, 20, 30, 40]  # Choosing indices of examples to inspect

# Iterating through the selected examples
for idx in sample_indices:
    original_text = df.loc[idx, 'text']
    tokenized_text = df.loc[idx, 'decoded_text']  
    
    # Printing original and tokenized text
    print(f"Example {idx + 1} - Original Text:")
    print(original_text)
    print("\nTokenized Text:")
    print(tokenized_text)
    print("\n---\n")

Example 1 - Original Text:
Հայաստան , պաշտոնական անվանումը՝ Հայաստանի Հանրապետություն, պետություն Առաջավոր Ասիայում՝ Հայկական լեռնաշխարհի հյուսիսարևելյան մասում։ Քաղաքական և մշակութային իմաստով, սակայն, գտնվում է հարավարևելյան Եվրոպայի Կովկասյան տարածաշրջանում։ Հյուսիսում սահմանակցում է Վրաստանին, արևելքում՝ Ադրբեջանին, հարավում՝ Իրանին, իսկ արևմուտքում՝ Թուրքիային։ Հարավարևելյան կողմում Բերձորի միջանցքով կապվում է Արցախի Հանրապետությանը, իսկ հարավ-արևմուտքում Ադրբեջանի էքսկլավ Նախիջևանի Ինքնավար Հանրապետությունն է։ Այժմյան Հայաստանը զբաղեցնում է պատմական Հայաստանի տարածքի միայն մեկ տասներորդը՝ Այրարատ և Սյունիք նահանգների մի մասը։

«Հայաստան» անվանումը վերաբերում է նաև ողջ Հայկական լեռնաշխարհին, որտեղ կազմավորվել և իր պատմական ուղին է անցել հայ ժողովուրդը։ Ըստ հայոց պատմահայր Մովսես Խորենացու՝ հայ ժողովրդի պատմության սկիզբն է համարվում մ.թ.ա. 2492 թվականը, երբ հայ ժողովրդի անվանադիր նախահայրը՝ Հայկ նահապետը, Հայոց ձորի ճակատամարտում հաղթում է Ասորեստանի բռնարար տիրակալ Բելին և անկախու