# Task 1: Tokenization Output Checks

This notebook loads the dataset and the Task 1 outputs to inspect sample inputs, tokenization results, and frequency summaries.

In [16]:
import json
from pathlib import Path
import pandas as pd

def tokenize(text: str) -> list[str]:
    # Simple space-based tokenizer
    return text.replace('\n', ' ').replace('\t', ' ').split()

ROOT = Path('..')
DATA_PATH = ROOT / 'poems_cleaned.parquet'
TASK1_DIR = Path('.')
STATS_PATH = TASK1_DIR / 'token_stats.json'
FREQ_PATH = TASK1_DIR / 'token_frequencies.csv'


In [17]:
df = pd.read_parquet(DATA_PATH)
df.head(3)


Unnamed: 0,author,title,url,text
0,Məhəmməd Füzuli,Aşiq oldum yenə bir tazə güli-rənayə,https://az.wikisource.org/wiki/A%C5%9Fiq%20old...,"Aşiq oldum yenə bir tazə güli-rənayə\nKi, salı..."
1,Məhəmməd Füzuli,Bağə gir bülbülə ərzi-güli-rüxsar eylə,https://az.wikisource.org/wiki/Ba%C4%9F%C9%99%...,"Bağə gir bülbülə ərzi-güli-rüxsar eylə,\nYıq g..."
2,Məhəmməd Füzuli,Batalı qanə oxun dideyi-giryan içrə,https://az.wikisource.org/wiki/Batal%C4%B1%20q...,"Batalı qanə oxun dideyi-giryan içrə,\nBir əlif..."


In [20]:
sample_text = df.loc[777, 'text']
sample_text


'Yenə ya rəb, nə qəmgindir mənim bu şad olan könlüm,\nRumuzi-eşqdən agah olub, ustad olan könlüm.\nGörübdür yari əğyarə olubdur məhvi-nəzzarə,\nEdibdir sinəsin parə, mənim abad olan könlüm.\nNiyə peymanədən kecdin, niyə zəncirdən qacdın?\nNədəndir collərə duşdun, mənim bərbad olan könlüm?\nFəraqin ruzi-məhşərdir, sərasər möhnətü-qəmdir.\nO zülfün kimi dərhəmdir, mənim azad olan könlüm.\nBaxın bu Natəvan zarə, gunu bəxtim kimi qarə,\nGəzər Məcnun tək avarə, mənim naşad olan könlüm.'

In [19]:
sample_tokens = tokenize(sample_text)
len(sample_tokens), sample_tokens[:50]


(121,
 ['Yıxıb',
  'bu',
  'könlüm',
  'evin,',
  'eyləyib',
  'viran,',
  'getmə!',
  'Yoxumdu',
  'tabü',
  'tavan',
  'firqətə,',
  'cavan,',
  'getmə!',
  'Fəda',
  'olum',
  'sənə',
  'mən,',
  'səndən',
  'ayrıla',
  'bilməm,',
  'Yəqin,',
  'fəraqın',
  'edər',
  'qəddimi',
  'kəman,',
  'getmə!',
  'Səninlə',
  'rövşən',
  'idi',
  'qəlbim,',
  'ey',
  'gözüm',
  'nuri!',
  'Güman',
  'ki,',
  'təng',
  'ola',
  'bu',
  'canıma',
  'cahan,',
  'getmə!',
  'Boyun',
  'bəlasın',
  'alım,',
  'sərv',
  'tək',
  'yıxılma,',
  'oğul,',
  'Doyunca',
  'görməmişəm,'])

In [6]:
stats = json.loads(STATS_PATH.read_text(encoding='utf-8'))
stats


{'dataset': 'poems.parquet',
 'rows': 846,
 'text_column': 'text',
 'tokenizer': 'simple-space',
 'total_tokens': 136244,
 'unique_types': 50428}

In [7]:
freq = pd.read_csv(FREQ_PATH)
freq.head(20)


Unnamed: 0,token,frequency
0,bir,1700
1,"ki,",1472
2,bu,1277
3,ilə,903
4,|,805
5,=,805
6,"kim,",733
7,ol,716
8,hər,712
9,ey,693


In [8]:
freq.tail(20)


Unnamed: 0,token,frequency
50408,yaratmaqda,1
50409,şairlərin,1
50410,"peyrəmbəri,",1
50411,möçüzü,1
50412,bəyanımdır.,1
50413,"söyləyən,",1
50414,"getsən,",1
50415,fəğanımdır.,1
50416,Həcv,1
50417,söyüş,1
