<a href="https://colab.research.google.com/github/bahramzada/az-ner-blur/blob/main/NER_MODEL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import random
import string
import csv
import re

# EN: Rayon (region) codes list for Azerbaijani car plates
# AZ: Azərbaycan avtomobil nömrələri üçün rayon kodları siyahısı
first_digit = [
    "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "14", "15", "16", "17", "18", "19", "20",
    "21", "22", "23", "24", "25", "26", "27", "28", "29", "30", "31", "32", "33", "34", "35", "36", "37", "38", "39",
    "40", "41", "42", "43", "44", "45", "46", "47", "48", "49", "50", "51", "52", "53", "54", "55", "56", "57", "58",
    "59", "60", "61", "62", "63", "64", "65", "66", "67", "68", "69", "70", "71", "72", "77", "85", "90", "99"
]

# EN: Variable for rayon codes used in car plate generation
# AZ: Avtomobil nömrəsi yaratmaq üçün rayon kodları dəyişəni
RAYON_CODES = first_digit

def generate_car_plate():
    """
    EN: Generates a car plate in the format RayonCode-XX-XXX (e.g., 01-XX-001)
    AZ: Rayon kodu-XX-XXX formatında avtomobil nömrəsi yaradır (məsələn, 01-XX-001)
    """
    # EN: Select a rayon code
    # AZ: Rayon kodunu seç
    first_digits = random.choice(RAYON_CODES)

    # EN: Generate two random uppercase letters
    # AZ: Təsadüfi iki böyük hərf yarat
    letters = ''.join(random.choices(string.ascii_uppercase, k=2))

    # EN: Generate the last three digits (001–999), always three digits
    # AZ: Son üç rəqəmi (001–999), həmişə üçrəqəmli kimi yarat
    last_digits = f"{random.randint(1, 999):03d}"

    # EN: Return the car plate string
    # AZ: Avtomobil nömrəsini qaytar
    return f"{first_digits}-{letters}-{last_digits}"

def generate_sentences_with_car_plates(num_sentences=1000):
    """
    EN: Generates sentences containing car plates
    AZ: Avtomobil nömrələri olan cümlələr yaradır
    """
    # EN: Various sentence templates for generating sentences with car plates
    # AZ: Avtomobil nömrəsi ilə cümlə yaratmaq üçün müxtəlif şablonlar
    sentence_templates = [
        "Avtomobil nömrəsi {} olan maşın yolda gedirdi.",
        "{} nömrəli avtomobil sürətlə keçdi.",
        "Mən {} nömrəsini gördüm.",
        "{} nömrəli maşın dayanacaqda idi.",
        "Polis {} nömrəli avtomobili dayandırdı.",
        "Bu gün {} nömrəsini qeyd etdim.",
        "{} nömrəli avtomobil qırmızı işıqda dayandı.",
        "Qonşumun avtomobil nömrəsi {}dır.",
        "{} nömrəli maşın çox sürətlə gedirdi.",
        "Avtomobil {} nömrəsi ilə qeydiyyatdan keçib.",
        "Mən {} nömrəli avtomobili tanıyıram.",
        "{} nömrəsində olan maşın ağ rəngdədir.",
        "Dünən {} nömrəli avtomobili gördüm.",
        "Bu {} nömrəli maşın kimə məxsusdur?",
        "{} nömrəli avtomobil yeni alınıb.",
        "Parklama yerində {} nömrəsi var idi.",
        "{} nömrəli maşın təmirə ehtiyacı var.",
        "Avtomobil nömrəsi {} olan sürücü təcrübəlidir.",
        "Mənim dostumun avtomobil nömrəsi {}dır.",
        "{} nömrəli avtomobil bazarda satılır.",
        "Bu səhər {} nömrəsini yolda gördüm.",
        "{} nömrəli maşın çox böyükdür.",
        "Avtomobil {} nömrəsi qara maşında yazılıb.",
        "Mən {} nömrəsini unutmuşdum.",
        "{} nömrəli avtomobil həftəsonu istifadə olunur.",
        "Bu {} avtomobil nömrəsi çox maraqlıdır.",
        "{} nömrəli maşın əla vəziyyətdədir.",
        "Avtomobil nömrəsi {} yaddaşımda qalıb.",
        "Dünən axşam {} nömrəli avtomobil gəldi.",
        "{} nömrəsini polisə bildirdim.",
        "Hadisə yerindən {} nömrəli avtomobil uzaqlaşdı.",
        "Şəhər kameraları {} nömrəli maşını qeydə aldı.",
        "{} nömrəsi ilə icarəyə götürülən avtomobil qaytarıldı.",
        "Təhlükəsizlik əməkdaşı {} nömrəsini soruşdu.",
        "Bu avtomobilin nömrəsi {} olaraq qeyd edilib.",
        "Avtomobilin texniki baxışı {} nömrəsinə uyğundur.",
        "{} nömrəli maşın yol kənarında saxlanılıb.",
        "Məlumat bazasında {} nömrəsi ilə axtarış aparıldı.",
        "O, öz avtomobilinin nömrəsini, {} nömrəsini xatırladı.",
        "{} nömrəli avtomobilin sahibi kimdir?",
        "Kömək üçün {} nömrəli maşın çağırıldı.",
        "Avtomobil nömrəsi {} qeydiyyatdan keçdi.",
        "Nəqliyyatın hərəkətini izləmək üçün {} nömrəsindən istifadə edildi.",
        "Gömrükdə {} nömrəli avtomobil yoxlanıldı.",
        "Bu qəza ilə bağlı {} nömrəli avtomobilin adı hallanır.",
        "{} nömrəli maşının təkərləri dəyişdirildi.",
        "Avtomobilin nömrəsi {} və rəngi ağdır.",
        "Bu avtomobilin nömrəsi {} olaraq dəyişdiriləcək.",
        "Tədbirdə iştirak edən hər bir avtomobilin nömrəsi, o cümlədən {} qeyd olundu."
    ]
    sentences = []

    # EN: Generate the requested number of sentences
    # AZ: İstənilən sayda cümlə yarat
    for _ in range(num_sentences):
        # EN: Select a random template
        # AZ: Təsadüfi şablon seç
        template = random.choice(sentence_templates)
        # EN: Generate car plate
        # AZ: Avtomobil nömrəsini yarat
        car_plate = generate_car_plate()
        # EN: Insert car plate into sentence template
        # AZ: Avtomobil nömrəsini cümlə şablonuna yerləşdir
        sentence = template.format(car_plate)
        sentences.append(sentence)

    return sentences

def save_dataset(sentences, filename="car_plate_dataset.txt"):
    """
    EN: Saves the dataset to a text file
    AZ: Dataset-i mətn faylına saxlayır
    """
    with open(filename, 'w', encoding='utf-8') as f:
        for sentence in sentences:
            f.write(sentence + '\n')
    # EN: Print how many sentences were saved
    # AZ: Neçə cümlə saxlanıldığını çap et
    print(f"{len(sentences)} cümlə {filename} faylında saxlanıldı.")

def save_dataset_csv(sentences, filename="car_plate_dataset.csv"):
    """
    EN: Saves the dataset to a CSV file (with columns: sentence & car_plate)
    AZ: Dataset-i CSV formatında saxlayır (sütunlar: cümlə & avtomobil nömrəsi)
    """
    with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['sentence', 'car_plate'])

        for sentence in sentences:
            # EN: Find car plate in the sentence using regex
            # AZ: Cümlədə avtomobil nömrəsini regex ilə tap
            car_plate_pattern = r'\d{2}-[A-Z]{2}-\d{3}'
            match = re.search(car_plate_pattern, sentence)
            if match:
                car_plate = match.group()
                writer.writerow([sentence, car_plate])

    # EN: Print confirmation about CSV saving
    # AZ: CSV saxlanılması barədə təsdiq çap et
    print(f"CSV formatında da {filename} faylında saxlanıldı.")

def main():
    # EN: Generate 30,000 sentences with car plates
    # AZ: 30,000 avtomobil nömrəli cümlə yarat
    sentences = generate_sentences_with_car_plates(30000)

    # EN: Display the first 10 sample sentences
    # AZ: İlk 10 nümunə cümləni göstər
    print("Nümunə cümlələr:")
    for i, sentence in enumerate(sentences[:10], 1):
        print(f"{i}. {sentence}")

    print("\n" + "="*50)
    print(f"Cəmi {len(sentences)} cümlə yaradıldı.")

    # EN: Save sentences to text file
    # AZ: Cümlələri mətn faylına saxla
    save_dataset(sentences)

    # EN: Save sentences also as CSV
    # AZ: Cümlələri həm də CSV formatında saxla
    save_dataset_csv(sentences)

if __name__ == "__main__":
    main()

Nümunə cümlələr:
1. Bu gün 72-MY-215 nömrəsini qeyd etdim.
2. Nəqliyyatın hərəkətini izləmək üçün 58-OH-587 nömrəsindən istifadə edildi.
3. Avtomobil 68-CB-083 nömrəsi qara maşında yazılıb.
4. 55-RO-777 nömrəli avtomobilin sahibi kimdir?
5. Təhlükəsizlik əməkdaşı 21-NJ-764 nömrəsini soruşdu.
6. Bu gün 16-GV-210 nömrəsini qeyd etdim.
7. 42-ZP-581 nömrəli maşın çox sürətlə gedirdi.
8. 31-GX-041 nömrəli maşın çox böyükdür.
9. Avtomobil nömrəsi 77-OG-934 qeydiyyatdan keçdi.
10. Tədbirdə iştirak edən hər bir avtomobilin nömrəsi, o cümlədən 46-NE-732 qeyd olundu.

Cəmi 30000 cümlə yaradıldı.
30000 cümlə car_plate_dataset.txt faylında saxlanıldı.
CSV formatında da car_plate_dataset.csv faylında saxlanıldı.


In [None]:
import csv
import json
import re

def find_car_plate_positions(text):
    """
    EN: Finds the positions of car plates in the text
    AZ: Mətndə avtomobil nömrələrinin mövqelərini tapır
    """
    car_plate_pattern = r'\d{2}-[A-Z]{2}-\d{3}'
    entities = []

    # EN: Look for all matches of the car plate pattern in the text
    # AZ: Mətndə avtomobil nömrəsi şablonuna uyğun bütün uyğunluqları tap
    for match in re.finditer(car_plate_pattern, text):
        start_pos = match.start()
        end_pos = match.end()
        # EN: Add the entity as [start, end, "CAR_PLATE"]
        # AZ: Entitiyi [start, end, "CAR_PLATE"] formatında əlavə et
        entities.append([start_pos, end_pos, "CAR_PLATE"])

    return entities

def annotate_csv_file(input_csv_file, output_json_file):
    """
    EN: Reads a CSV file and annotates it in JSON format
    AZ: CSV faylını oxuyub JSON formatında annotate edir
    """
    annotated_data = []

    # EN: Read the CSV file
    # AZ: CSV faylını oxu
    with open(input_csv_file, 'r', encoding='utf-8') as csvfile:
        reader = csv.reader(csvfile)

        # EN: Skip header if present, but also process if it's not a header
        # AZ: Header-i atla (əgər varsa), amma header deyilsə, onu da emal et
        try:
            first_row = next(reader)
            # EN: If the first row is not a header, process it as a sentence
            # AZ: Əgər ilk sətir header deyilsə, onu da cümlə kimi emal et
            if not (first_row[0].lower() in ['sentence', 'text', 'cümle']):
                sentence = first_row[0]
                entities = find_car_plate_positions(sentence)
                annotation = {"entities": entities}
                annotated_data.append([sentence, annotation])
        except StopIteration:
            print("CSV faylı boşdur!")
            return

        # EN: Process the remaining rows
        # AZ: Qalan sətirləri emal et
        for row in reader:
            if row:  # EN: Skip empty rows | AZ: Boş sətirləri atla
                sentence = row[0]  # EN: Take the first column as sentence | AZ: İlk sütunu cümlə kimi götür
                entities = find_car_plate_positions(sentence)
                annotation = {"entities": entities}
                annotated_data.append([sentence, annotation])

    # EN: Save the annotated data as JSON
    # AZ: Annotate edilmiş məlumatı JSON faylında saxla
    with open(output_json_file, 'w', encoding='utf-8') as f:
        json.dump(annotated_data, f, ensure_ascii=False, indent=2)

    print(f"{len(annotated_data)} cümlə annotate edildi və {output_json_file} faylında saxlanıldı.")

    return annotated_data

def print_sample_results(data, num_samples=5):
    """
    EN: Print sample annotated results
    AZ: Nümunə annotate edilmiş nəticələri göstər
    """
    print(f"\nNümunə {min(num_samples, len(data))} annotated cümlə:")
    print("="*80)

    for i, (sentence, annotation) in enumerate(data[:num_samples]):
        print(f"{i+1}. {sentence}")
        if annotation['entities']:
            for entity in annotation['entities']:
                start, end, label = entity
                car_plate = sentence[start:end]
                # EN: Print found car plate and its position
                # AZ: Tapılan avtomobil nömrəsini və mövqeyini göstər
                print(f"   -> Tapılan: '{car_plate}' (mövqe: {start}-{end})")
        else:
            print("   -> Avtomobil nömrəsi tapılmadı")
        print("-" * 40)

def main():
    # EN: Ask for CSV file name from user
    # AZ: İstifadəçidən CSV fayl adını soruş
    input_csv = input("CSV fayl adını daxil edin (məs: sentences.csv): ").strip()
    if not input_csv:
        input_csv = "/content/car_plate_dataset.csv"

    # EN: Set the output JSON file name
    # AZ: Output JSON fayl adını təyin et
    output_json = input_csv.replace('.csv', '_annotated.json')

    try:
        # EN: Annotate the CSV file
        # AZ: CSV-ni annotate et
        data = annotate_csv_file(input_csv, output_json)

        # EN: Print sample results
        # AZ: Nümunə nəticələri göstər
        print_sample_results(data)

        print(f"\n✅ Uğurla tamamlandı!")
        print(f"📁 Input: {input_csv}")
        print(f"📁 Output: {output_json}")

    except FileNotFoundError:
        print(f"❌ XƏTA: '{input_csv}' faylı tapılmadı!")
    except Exception as e:
        print(f"❌ XƏTA: {str(e)}")

if __name__ == "__main__":
    main()

CSV fayl adını daxil edin (məs: sentences.csv): 
30000 cümlə annotate edildi və /content/car_plate_dataset_annotated.json faylında saxlanıldı.

Nümunə 5 annotated cümlə:
1. Bu gün 72-MY-215 nömrəsini qeyd etdim.
   -> Tapılan: '72-MY-215' (mövqe: 7-16)
----------------------------------------
2. Nəqliyyatın hərəkətini izləmək üçün 58-OH-587 nömrəsindən istifadə edildi.
   -> Tapılan: '58-OH-587' (mövqe: 36-45)
----------------------------------------
3. Avtomobil 68-CB-083 nömrəsi qara maşında yazılıb.
   -> Tapılan: '68-CB-083' (mövqe: 10-19)
----------------------------------------
4. 55-RO-777 nömrəli avtomobilin sahibi kimdir?
   -> Tapılan: '55-RO-777' (mövqe: 0-9)
----------------------------------------
5. Təhlükəsizlik əməkdaşı 21-NJ-764 nömrəsini soruşdu.
   -> Tapılan: '21-NJ-764' (mövqe: 23-32)
----------------------------------------

✅ Uğurla tamamlandı!
📁 Input: /content/car_plate_dataset.csv
📁 Output: /content/car_plate_dataset_annotated.json


In [None]:
import random

def random_aze_id():
    """
    EN: Generates a random Azerbaijani ID in the format AZE + 9 digits
    AZ: Təsadüfi Azərbaycan şəxsiyyət vəsiqəsi nömrəsi yaradır (AZE + 9 rəqəm)
    """
    digits = ''.join([str(random.randint(0, 9)) for _ in range(9)])
    return "AZE" + digits

def random_aa_id():
    """
    EN: Generates a random AA ID in the format AA + 7 digits
    AZ: Təsadüfi AA şəxsiyyət vəsiqəsi nömrəsi yaradır (AA + 7 rəqəm)
    """
    digits = ''.join([str(random.randint(0, 9)) for _ in range(7)])
    return "AA" + digits

# EN: Sentence templates with ID placeholders
# AZ: Şəxsiyyət vəsiqə nömrəsi üçün cümlə şablonları
templates = [
    "Mənim şəxsiyyət vəsiqə nömrəm {}-dir.",
    "Şəxsiyyət vəsiqə nömrəsi {}-dir.",
    "Vəsiqə nömrəm {}-dir.",
    "Zəhmət olmasa, şəxsiyyət vəsiqə nömrənizi qeyd edin: {}",
    "Adı: Bahram Zada, Vəsiqə nömrəsi: {}",
    "Şəxsiyyət vəsiqə nömrəsi: {}",
    "Mənim {} şəxsiyyət vəsiqə nömrəmdir.",
    "Şəxsiyyət vəsiqə nömrəsini yoxlamaq üçün {} daxil edin.",
    "Vəsiqə nömrəsi olmadan qeydiyyat mümkün deyil: {}",
    "Sizin şəxsiyyət vəsiqə nömrəniz {}-dür?",
    "Qeydiyyat üçün şəxsiyyət vəsiqə nömrəsi tələb olunur: {}",
    "İstifadəçinin şəxsiyyət vəsiqə nömrəsi: {}",
    "Aşağıda göstərilən vəsiqə nömrəsini yoxlayın: {}",
    "Sistemə giriş üçün {} vəsiqə nömrəsini daxil edin.",
    "Sənəd məlumatları: şəxsiyyət vəsiqə nömrəsi - {}",
    "{} şəxsiyyət vəsiqə nömrəsini təsdiqləyin.",
    "Yuxarıda qeyd olunan {} vəsiqə nömrəsidir.",
    "Əlavə məlumat üçün {} şəxsiyyət vəsiqə nömrəsini istifadə edin.",
    "Şəxsiyyətinizi təsdiqləmək üçün {} nömrəsini yazın.",
    "Əgər şəxsiyyət vəsiqə nömrəniz {}-dirsə, davam edin.",
    "Qeydiyyat zamanı istifadə etdiyiniz vəsiqə nömrəsi: {}",
    "Şəxsiyyət vəsiqə nömrəniz bir daha təsdiqlənir: {}",
    "Formada yazılan şəxsiyyət vəsiqə nömrəsi {}-dir.",
    "Sizdən tələb olunan şəxsiyyət vəsiqə nömrəsi: {}",
    "Aşağıda göstərilən {} nömrəsi sizin vəsiqənizdir.",
    "Profilinizdə qeyd olunan şəxsiyyət vəsiqə nömrəsi: {}",
    "Şəxsiyyət vəsiqə nömrəsi olmadan qeydiyyat mümkün deyil, nömrəniz: {}",
    "Sistemə daxil olmaq üçün şəxsiyyət vəsiqə nömrənizi {} daxil edin.",
    "Qeydiyyat formasında {} şəxsiyyət vəsiqə nömrəsini yazın.",
    "Məlumat bazasında saxlanılan vəsiqə nömrəsi: {}",
    "Müraciət üçün {} şəxsiyyət vəsiqə nömrəsi vacibdir.",
    "Yalnız {} nömrəsi olan şəxs xidmətdən yararlana bilər.",
    "{} şəxsiyyət vəsiqə nömrəsi ilə əlaqəli sənədlər qəbul edildi.",
    "Ödənişi etmək üçün {} şəxsiyyət vəsiqə nömrənizi göstərin.",
    "Ərizəyə {} vəsiqə nömrəsi ilə müraciət edə bilərsiniz.",
    "Hər hansı bir dəyişiklik üçün {} nömrəsi tələb olunur.",
    "{} nömrəsi yoxlandı və təsdiq edildi.",
    "Bu hesabın sahibi {} şəxsiyyət vəsiqə nömrəsinə malikdir.",
    "Vəsiqənin üzərində {} nömrəsi qeyd olunub.",
    "{} nömrəsi ilə bağlı bütün məlumatlar doğrudur.",
    "Giriş üçün {} şəxsiyyət vəsiqə nömrəsini yenidən daxil edin.",
    "Lütfən, {} nömrəsini əlavə edin.",
    "Bu şəxsiyyət vəsiqəsi nömrəsi, {} yeni verilmişdir.",
    "Sığorta əməliyyatı {} nömrəsinə əsaslanır.",
    "Təsdiqləmə kodu {} vəsiqə nömrənizə göndərildi.",
    "{} vəsiqə nömrəsi məlumat bazasına daxil edilmişdir.",
    "Xidmət haqqını ödəmək üçün {} nömrəsi lazımdır.",
    "Sistemdə {} nömrəsi ilə bağlı heç bir qeyd tapılmadı.",
    "Ödənişin təsdiqi üçün {} nömrəsini göstərin.",
    "{} nömrəsi ilə bağlı bütün məlumatlar qorunur."
]

def generate_sentences(n=1000, aze_ratio=0.7):
    """
    EN: Generates sentences with random ID numbers (AZE or AA format)
    AZ: Təsadüfi şəxsiyyət vəsiqə nömrələri ilə cümlələr yaradır (AZE və ya AA formatı)
    """
    sentences = []
    for _ in range(n):
        template = random.choice(templates)
        # EN: 70% AZE format, 30% AA format
        # AZ: 70% AZE formatı, 30% AA formatı
        if random.random() < aze_ratio:
            id_num = random_aze_id()
        else:
            id_num = random_aa_id()
        sentence = template.format(id_num)
        sentences.append(sentence)
    return sentences

if __name__ == "__main__":
    # EN: Generate 30,000 sentences and save to file
    # AZ: 30,000 cümlə yaradın və fayla yazın
    sentences = generate_sentences(30000)
    with open("vesiqe_numune.txt", "w", encoding="utf-8") as f:
        for sentence in sentences:
            f.write(sentence + "\n")

In [None]:
import re
import json

# EN: Regex patterns for ID numbers
# AZ: Şəxsiyyət vəsiqə nömrələri üçün regex pattern-lər
pattern_aze = r'AZE\d{9}'         # EN: AZE + 9 digits | AZ: AZE + 9 rəqəm
pattern_aa = r'AA\d{7}'           # EN: AA + 7 digits  | AZ: AA + 7 rəqəm

label = "ID_NUMBER"  # EN: Entity label for ID numbers | AZ: Şəxsiyyət vəsiqə nömrəsi üçün entiti label

def label_sentences(sentences):
    """
    EN: Labels AZE and AA ID numbers in sentences with their positions
    AZ: Cümlələrdə AZE və AA şəxsiyyət vəsiqə nömrələrinin mövqelərini annotate edir
    """
    labeled_data = []
    for sentence in sentences:
        entities = []
        # EN: For AZE IDs
        # AZ: AZE nömrələri üçün
        for match in re.finditer(pattern_aze, sentence):
            start, end = match.start(), match.end()
            entities.append((start, end, label))
        # EN: For AA IDs
        # AZ: AA nömrələri üçün
        for match in re.finditer(pattern_aa, sentence):
            start, end = match.start(), match.end()
            entities.append((start, end, label))
        # EN: If any entity is found, add to the labeled data
        # AZ: Əgər entitilər tapılıbsa, annotate edilmiş verilənlərə əlavə et
        if entities:
            labeled_data.append((sentence, {"entities": entities}))
    return labeled_data

# EN: Read sentences from file
# AZ: Fayldan cümlələri oxu
with open("vesiqe_numune.txt", "r", encoding="utf-8") as f:
    sentences = [line.strip() for line in f.readlines()]

# EN: Label sentences with ID numbers
# AZ: Cümlələri şəxsiyyət vəsiqə nömrələri ilə annotate et
labeled_data = label_sentences(sentences)

# EN: Write labeled data to annotation format JSON
# AZ: Annotasiya formatlı JSON-a yaz
with open("vesiqe_annotated.json", "w", encoding="utf-8") as f:
    json.dump(labeled_data, f, ensure_ascii=False, indent=2)

In [None]:
import random

def random_fin():
    """
    EN: Generates a random FIN code (7 characters, excluding 'I' and 'O')
    AZ: Təsadüfi FİN kodu yaradır (7 simvol, 'I' və 'O' istisna olmaqla)
    """
    # EN: Allowed letters are from English alphabet except 'I' and 'O'
    # AZ: İcazəli hərflər İngilis əlifbasından, amma 'I' və 'O' olmamalıdır
    letters = [chr(c) for c in range(ord('A'), ord('Z')+1) if chr(c) not in ['I', 'O']]
    digits = [str(d) for d in range(10)]
    allowed = letters + digits
    # EN: FIN code is 7 characters, randomly chosen from allowed characters
    # AZ: FİN kodu icazəli simvollardan təsadüfi seçilmiş 7 simvoldan ibarətdir
    fin = ''.join(random.choice(allowed) for _ in range(7))
    return fin

# EN: Sentence templates with FIN placeholder
# AZ: FİN kodu üçün cümlə şablonları
fin_templates = [
    "Mənim FİN kodum {}-dur.",
    "FİN kodu: {}",
    "Zəhmət olmasa, FİN kodunuzu daxil edin: {}",
    "Sizin FİN kodunuz {}-dir?",
    "Qeydiyyat üçün tələb olunan FİN kodu: {}",
    "Formada yazılan FİN kodu {}-dir.",
    "Əlavə məlumat üçün FİN kodu: {}",
    "Profilinizdə qeyd olunan FİN kodu: {}",
    "FİN kodunuzu yoxlamaq üçün {} daxil edin.",
    "FİN kodu olmadan qeydiyyat mümkün deyil: {}",
    "Sistemdə qeydiyyatdan keçmək üçün FİN kodunuzu daxil edin: {}",
    "Sizin şəxsiyyətinizi təsdiqləyən FİN kod: {}",
    "FİN kodunuz bir daha təsdiqlənir: {}",
    "Aşağıda göstərilən FİN kodunu yoxlayın: {}",
    "Sənəd məlumatları: FİN kodu - {}",
    "Qeydiyyat formasında {} FİN kodunu yazın.",
    "Məlumat bazasında saxlanılan FİN kodu: {}",
    "Sizdən tələb olunan FİN kodu: {}",
    "FİN kodu olmadan əməliyyat davam etmir: {}",
    "Sistemə giriş üçün {} FİN kodunu daxil edin.",
    "Sənədin üzərində yazılmış FİN kodu {}-dir.",
    "FİN kodunuzu təsdiqləyin: {}",
    "FİN kodu sahəsinə {} yazın.",
    "Şəxsiyyəti təsdiqləmək üçün {} FİN kodunu daxil edin.",
    "Sizin üçün yaradılmış FİN kodu: {}",
    "Sənədə əlavə olunan FİN kodu: {}",
    "FİN kodu tələb olunduqda {} təqdim edin.",
    "Sistemdə mövcud FİN kodu: {}",
    "FİN kodunu dəyişmək üçün köhnə kod: {}",
    "Əgər FİN kodunuz {}-dirsə, davam edin.",
    "FİN kodunuzu unutmusunuzsa, yeni kod alın: {}",
    "Təsdiqlənmiş FİN kodu: {}",
    "Yeni qeydiyyat üçün FİN kodu: {}",
    "FİN kodu olmadan qeydiyyat mümkün deyil, kodunuz: {}",
    "Aşağıda göstərilən {} kodu sizin FİN kodunuzdur.",
    "FİN kodu ilə bağlı sualınız varsa, kod: {}",
    "Məlumat formasında FİN kodu: {}",
    "Sistemə daxil olmaq üçün FİN kodunuzu {} yazın.",
    "FİN kodunuzun düzgünlüyünü yoxlayın: {}",
    "Şəxsiyyət vəsiqəsi və FİN kodu: {}",
    "FİN kodu olmadan sənəd qəbul edilmir: {}",
    "FİN kodu qutusuna {} yazın.",
    "FİN kodu səhvdirsə, yenisini daxil edin: {}",
    "Hər hansı əməliyyat üçün FİN kodu {} mütləqdir.",
    "Məlumatlarınızın təhlükəsizliyi üçün FİN kodunuzu {} ilə təsdiqləyin.",
    "Daxil etdiyiniz FİN kodu {} məlumatlarımızla uyğun gəlmir.",
    "Bank xidmətlərindən istifadə üçün FİN kodunuz: {}",
    "Şəxsi məlumatlarınızı yoxlamaq üçün {} FİN kodunuzu daxil edin.",
    "FİN kodu {} ilə bağlı bütün sənədlər qəbul edildi.",
    "İstifadəçinin FİN kodu {} olaraq qeyd olundu.",
    "Bu sənədə uyğun FİN kodu {}-dir.",
    "Yeni bank kartı almaq üçün {} FİN kodu tələb olunur.",
    "FİN kodu {} olan şəxs sistemə daxil oldu.",
    "Sistemdə {} FİN kodu ilə axtarış aparıldı.",
    "{} FİN kodu ilə ödəniş uğurla tamamlandı.",
    "Vergi ödənişi üçün FİN kodunuzu {} yazın.",
    "Maliyyə əməliyyatlarını yoxlamaq üçün {} FİN kodunu təqdim edin.",
]

def generate_fin_sentences(n=500):
    """
    EN: Generates sentences with random FIN codes
    AZ: Təsadüfi FİN kodları ilə cümlələr yaradır
    """
    sentences = []
    for _ in range(n):
        template = random.choice(fin_templates)
        fin_code = random_fin()
        sentence = template.format(fin_code)
        sentences.append(sentence)
    return sentences

if __name__ == "__main__":
    # EN: Generate 30,000 FIN sentences and save to file
    # AZ: 30,000 FİN kodlu cümlə yaradıb fayla yazın
    sentences = generate_fin_sentences(30000)
    with open("fin_numune.txt", "w", encoding="utf-8") as f:
        for sentence in sentences:
            f.write(sentence + "\n")

In [None]:
import re
import json

# EN: FIN code pattern - 7 characters, uppercase letters (excluding "I" and "O") and digits
# AZ: FİN kodu pattern-i - 7 simvol, böyük hərf və rəqəm, "I" və "O" istisna
# EN: Pattern: [A-HJ-NP-Z0-9]{7} (A-Z, except I and O, and 0-9)
# AZ: Pattern: [A-HJ-NP-Z0-9]{7} (A-Z, amma I və O olmadan, 0-9)
pattern_fin = r'\b[A-HJ-NP-Z0-9]{7}\b'
label = "FIN_CODE"  # EN: Entity label for FIN code | AZ: FİN kod üçün entiti label

def label_sentences(sentences):
    """
    EN: Finds and labels FIN codes in sentences with their positions
    AZ: Cümlələrdə FİN kodlarının mövqelərini tapır və annotate edir
    """
    labeled_data = []
    for sentence in sentences:
        entities = []
        # EN: Find all FIN code matches in the sentence
        # AZ: Cümlədə bütün FİN kod uyğunluqlarını tap
        for match in re.finditer(pattern_fin, sentence):
            start, end = match.start(), match.end()
            entities.append((start, end, label))
        # EN: If any FIN code is found, add to labeled data
        # AZ: Əgər FİN kod tapılıbsa, annotate edilmiş verilənlərə əlavə et
        if entities:
            labeled_data.append((sentence, {"entities": entities}))
    return labeled_data

# EN: Read sentences from file
# AZ: Fayldan cümlələri oxu
with open("fin_numune.txt", "r", encoding="utf-8") as f:
    sentences = [line.strip() for line in f.readlines()]

# EN: Label sentences with FIN codes
# AZ: Cümlələri FİN kodları ilə annotate et
labeled_data = label_sentences(sentences)

# EN: Write annotation data to JSON file
# AZ: Annotasiya məlumatını JSON-a yaz
with open("fin_annotated.json", "w", encoding="utf-8") as f:
    json.dump(labeled_data, f, ensure_ascii=False, indent=2)

In [None]:
!rm -r /content/sample_data /content/car_plate_dataset.csv /content/car_plate_dataset.txt /content/fin_numune.txt /content/vesiqe_numune.txt

In [None]:
# EN: Imports
# AZ: Import-lar
import json
import torch
import numpy as np
import pandas as pd
import re
from typing import List, Tuple, Dict
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, classification_report
from transformers import (
    AutoTokenizer,
    AutoModelForTokenClassification,
    TrainingArguments,
    Trainer,
    DataCollatorForTokenClassification
)
from torch.utils.data import Dataset
import warnings
warnings.filterwarnings('ignore')  # EN: Ignore warnings | AZ: Warning-ları gizlət

print("✅ Bütün kitabxanalar yükləndi")  # EN: All libraries loaded | AZ: Bütün kitabxanalar yükləndi
print(f"🔥 PyTorch versiyası: {torch.__version__}")  # EN: PyTorch version | AZ: PyTorch versiyası
print(f"🚀 CUDA mövcuddur: {torch.cuda.is_available()}")  # EN: CUDA available | AZ: CUDA mövcuddur

# EN: Set device (GPU if available, otherwise CPU)
# AZ: Device ayarla (əgər GPU varsa, GPU, yoxdursa CPU)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"💻 İstifadə ediləcək device: {device}")  # EN: Device to be used | AZ: İstifadə ediləcək device

✅ Bütün kitabxanalar yükləndi
🔥 PyTorch versiyası: 2.8.0+cu126
🚀 CUDA mövcuddur: True
💻 İstifadə ediləcək device: cuda


In [None]:
# EN: Model and training configuration
# AZ: Model və training konfiqurasiyası
MODEL_NAME = "bert-base-multilingual-cased"
MAX_LEN = 128
BATCH_SIZE = 16
NUM_EPOCHS = 3
LEARNING_RATE = 2e-5

# EN: Label system - based on your dataset's entities
# AZ: Label sistemi - datasetinizdən çıxan nəticələrə görə
LABELS = [
    'O',           # EN: Outside | AZ: Kənar (etiketlənmiş entitiy olmayan hissə)
    'B-PLATE',     # EN: Beginning of Car Plate | AZ: Avtomobil nömrəsinin başlanğıcı
    'I-PLATE',     # EN: Inside Car Plate | AZ: Avtomobil nömrəsinin içi (davamı)
    'B-FIN',       # EN: Beginning of FIN Code | AZ: FİN kodunun başlanğıcı
    'I-FIN',       # EN: Inside FIN Code | AZ: FİN kodunun içi (davamı)
    'B-ID',        # EN: Beginning of ID Number | AZ: Şəxsiyyət vəsiqə nömrəsinin başlanğıcı
    'I-ID'         # EN: Inside ID Number | AZ: Şəxsiyyət vəsiqə nömrəsinin içi (davamı)
]

# EN: Label mapping (label to id and id to label dictionaries)
# AZ: Label mapping (etiket-id və id-etiket dictionary-ləri)
label2id = {label: i for i, label in enumerate(LABELS)}
id2label = {i: label for i, label in enumerate(LABELS)}

print("📋 Konfiqurasiya:")  # EN: Configuration | AZ: Konfiqurasiya
print(f"Model: {MODEL_NAME}")
print(f"Max Length: {MAX_LEN}")
print(f"Batch Size: {BATCH_SIZE}")
print(f"Epochs: {NUM_EPOCHS}")
print(f"Learning Rate: {LEARNING_RATE}")
print(f"Labels: {LABELS}")

📋 Konfiqurasiya:
Model: bert-base-multilingual-cased
Max Length: 128
Batch Size: 16
Epochs: 3
Learning Rate: 2e-05
Labels: ['O', 'B-PLATE', 'I-PLATE', 'B-FIN', 'I-FIN', 'B-ID', 'I-ID']


In [None]:
def validate_entity_format(text: str, entity_type: str) -> bool:
    """
    EN: Validates the format of an entity based on its type
    AZ: Entity-nin formatını doğrulayır

    EN: Format rules:
    AZ: Format qaydaları:
    - FIN code: 7 characters (letters + digits)
      EN: Example: AZEDF12
    - ID/AA: AA + 7 digits (9 characters)
      EN: Example: AA1234567
    - ID/AZE: AZE + 9 digits (12 characters)
      EN: Example: AZE123456789
    - Car Plate: XX-YY-ZZZ format
      EN: Example: 90-AB-123
    """
    if entity_type == 'FIN':
        # EN: FIN code must be 7 characters (letters or digits)
        # AZ: FIN kod 7 simvol olmalıdır (hərf və rəqəm qarışığı)
        return len(text) == 7 and re.match(r'^[A-Z0-9]{7}$', text)

    elif entity_type == 'ID':
        # EN: Serial number rules
        # AZ: Seriya nömrəsi qaydaları
        if text.startswith('AA'):
            # EN: If starts with AA, must be 9 characters (AA + 7 digits)
            # AZ: AA ilə başlayırsa 9 simvol (AA + 7 rəqəm)
            return len(text) == 9 and re.match(r'^AA\d{7}$', text)
        elif text.startswith('AZE'):
            # EN: If starts with AZE, must be 12 characters (AZE + 9 digits)
            # AZ: AZE ilə başlayırsa 12 simvol (AZE + 9 rəqəm)
            return len(text) == 12 and re.match(r'^AZE\d{9}$', text)
        else:
            # EN: For other serials, general rule (2-3 letters + 6-9 digits)
            # AZ: Digər seriya nömrələri üçün ümumi qayda
            return 8 <= len(text) <= 12 and re.match(r'^[A-Z]{2,3}\d{6,9}$', text)

    elif entity_type == 'PLATE':
        # EN: Car plate should be in XX-YY-ZZZ format
        # AZ: Avtomobil nömrəsi XX-YY-ZZZ formatında olmalıdır
        return len(text) == 9 and re.match(r'^\d{2}-[A-Z]{2}-\d{3}$', text)

    return False

def show_validation_rules():
    """
    EN: Displays the format validation rules for entities
    AZ: Format qaydalarını göstərir
    """
    print("📏 Entity Format Qaydaları:")
    print("🔹 FIN kod: 7 simvol (hərf+rəqəm) - məsələn: AZEDF12")
    print("🔹 ID/AA: 9 simvol (AA + 7 rəqəm) - məsələn: AA1234567")
    print("🔹 ID/AZE: 12 simvol (AZE + 9 rəqəm) - məsələn: AZE123456789")
    print("🔹 Avtomobil: XX-YY-ZZZ formatı - məsələn: 90-AB-123")

show_validation_rules()

📏 Entity Format Qaydaları:
🔹 FIN kod: 7 simvol (hərf+rəqəm) - məsələn: AZEDF12
🔹 ID/AA: 9 simvol (AA + 7 rəqəm) - məsələn: AA1234567
🔹 ID/AZE: 12 simvol (AZE + 9 rəqəm) - məsələn: AZE123456789
🔹 Avtomobil: XX-YY-ZZZ formatı - məsələn: 90-AB-123


In [None]:
def convert_spacy_to_bio(text: str, entities: list) -> Tuple[List[str], List[str]]:
    """
    EN: Converts spaCy format entities to BIO format labels
    AZ: spaCy formatından BIO formatına çevirmə
    """
    tokens = text.split()
    labels = ['O'] * len(tokens)

    # EN: Calculate token positions (character indices in text)
    # AZ: Token-ların mövqelərini hesablayırıq
    token_positions = []
    current_pos = 0

    for token in tokens:
        start_pos = text.find(token, current_pos)
        end_pos = start_pos + len(token)
        token_positions.append((start_pos, end_pos))
        current_pos = end_pos

    # EN: Convert entities to BIO format
    # AZ: Entity-ləri BIO formatına çeviririk
    for start_char, end_char, entity_type in entities:
        # EN: Map entity type to BIO label
        # AZ: Entity tipini bizim formatımıza uyğunlaşdırırıq
        if entity_type == "CAR_PLATE":
            bio_label = "PLATE"
        elif entity_type == "FIN_CODE":
            bio_label = "FIN"
        elif entity_type == "ID_NUMBER":
            bio_label = "ID"
        else:
            continue

        # EN: Find tokens that overlap with entity span
        # AZ: Hansı token-ların entity-yə aid olduğunu tapırıq
        entity_tokens = []
        for i, (token_start, token_end) in enumerate(token_positions):
            if token_start < end_char and token_end > start_char:
                entity_tokens.append(i)

        # EN: Set BIO labels for entity tokens
        # AZ: BIO etiketləri təyin edirik
        for i, token_idx in enumerate(entity_tokens):
            if i == 0:
                labels[token_idx] = f"B-{bio_label}"
            else:
                labels[token_idx] = f"I-{bio_label}"

    return tokens, labels

def load_spacy_json_from_path(file_path: str):
    """
    EN: Loads a spaCy-format JSON dataset from the given path
    AZ: Verilən fayl yolundan spaCy formatında JSON dataseti yükləyir
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)

        texts = []
        labels = []

        for item in data:
            text = item[0]  # EN: Sentence | AZ: Cümlə
            annotations = item[1]  # EN: Annotation | AZ: Annotasiyalar
            entities = annotations.get('entities', [])

            tokens, bio_labels = convert_spacy_to_bio(text, entities)
            texts.append(tokens)
            labels.append(bio_labels)

        print(f"✅ {file_path} uğurla yükləndi: {len(texts)} nümunə")

        return texts, labels

    except FileNotFoundError:
        print(f"❌ Fayl tapılmadı: {file_path}")
        return [], []
    except Exception as e:
        print(f"❌ Xəta baş verdi {file_path}: {e}")
        return [], []

def load_datasets_from_paths(file_paths: List[str]):
    """
    EN: Loads multiple spaCy-format datasets from given file paths
    AZ: Verilən fayl yollarından datasetləri yükləyir
    """
    datasets = []

    for i, file_path in enumerate(file_paths, 1):
        print(f"\n📁 Dataset {i} yüklənir: {file_path}")
        texts, labels = load_spacy_json_from_path(file_path)

        if texts:
            datasets.append((texts, labels))
            print(f"✅ Dataset {i} yükləndi: {len(texts)} nümunə")
        else:
            print(f"❌ Dataset {i} yüklənmədi")

    return datasets

def combine_datasets(datasets: List[Tuple[List[List[str]], List[List[str]]]]):
    """
    EN: Combines multiple token/label datasets into one
    AZ: Datasetləri birləşdirir
    """
    all_texts = []
    all_labels = []

    for i, (texts, labels) in enumerate(datasets, 1):
        print(f"Dataset {i}: {len(texts)} nümunə")
        all_texts.extend(texts)
        all_labels.extend(labels)

    print(f"📊 Ümumi: {len(all_texts)} nümunə")
    return all_texts, all_labels

print("✅ Dataset yükləmə funksiyaları hazırlandı")

✅ Dataset yükləmə funksiyaları hazırlandı


In [None]:
def analyze_dataset(texts: List[List[str]], labels: List[List[str]]):
    """
    EN: Analyzes the dataset and prints statistics
    AZ: Dataset analizi və statistika
    """
    label_counts = {}
    total_tokens = 0
    entity_examples = {}

    for text_tokens, label_seq in zip(texts, labels):
        total_tokens += len(label_seq)

        # EN: Collect entity examples
        # AZ: Entity nümunələrini topla
        i = 0
        while i < len(text_tokens):
            label = label_seq[i] if i < len(label_seq) else 'O'

            if label.startswith('B-'):
                entity_type = label[2:]
                entity_tokens = [text_tokens[i]]
                j = i + 1

                while (j < len(text_tokens) and
                       j < len(label_seq) and
                       label_seq[j] == f'I-{entity_type}'):
                    entity_tokens.append(text_tokens[j])
                    j += 1

                entity_text = ''.join(entity_tokens)
                if entity_type not in entity_examples:
                    entity_examples[entity_type] = []
                if len(entity_examples[entity_type]) < 3:
                    entity_examples[entity_type].append(entity_text)
                i = j
            else:
                i += 1

        # EN: Count label frequencies
        # AZ: Label sayını hesabla
        for label in label_seq:
            label_counts[label] = label_counts.get(label, 0) + 1

    print("\n📈 Dataset Statistikası:")
    print(f"Ümumi cümlə sayı: {len(texts)}")
    print(f"Ümumi token sayı: {total_tokens}")
    print("\n🏷️ Label paylanması:")

    for label, count in sorted(label_counts.items()):
        percentage = (count / total_tokens) * 100
        print(f"{label}: {count} ({percentage:.1f}%)")

    print("\n📝 Entity nümunələri:")
    for entity_type, examples in entity_examples.items():
        print(f"{entity_type}: {', '.join(examples[:3])}")

def validate_dataset_entities(texts: List[List[str]], labels: List[List[str]]):
    """
    EN: Validates entities in the dataset using format rules
    AZ: Dataset-də olan entity-ləri validation qaydalarına görə yoxlayır
    """
    valid_entities = {'FIN': 0, 'ID': 0, 'PLATE': 0}
    invalid_entities = {'FIN': 0, 'ID': 0, 'PLATE': 0}

    for text_tokens, label_seq in zip(texts, labels):
        i = 0
        while i < len(text_tokens):
            label = label_seq[i] if i < len(label_seq) else 'O'

            if label.startswith('B-'):
                entity_type = label[2:]
                entity_tokens = [text_tokens[i]]
                j = i + 1

                while (j < len(text_tokens) and
                       j < len(label_seq) and
                       label_seq[j] == f'I-{entity_type}'):
                    entity_tokens.append(text_tokens[j])
                    j += 1

                entity_text = ''.join(entity_tokens)

                if validate_entity_format(entity_text, entity_type):
                    valid_entities[entity_type] += 1
                else:
                    invalid_entities[entity_type] += 1

                i = j
            else:
                i += 1

    print("\n✅ Validation Nəticələri:")
    for entity_type in valid_entities:
        total = valid_entities[entity_type] + invalid_entities[entity_type]
        if total > 0:
            valid_percent = (valid_entities[entity_type] / total) * 100
            print(f"{entity_type}: {valid_entities[entity_type]}/{total} valid ({valid_percent:.1f}%)")

print("✅ Dataset analiz funksiyaları hazırlandı")

✅ Dataset analiz funksiyaları hazırlandı


In [None]:
# EN: File paths for datasets
# AZ: Fayl Yolları
dataset_paths = [
    "/content/car_plate_dataset_annotated.json",    # EN: 1st dataset | AZ: 1-ci dataset
    "/content/fin_annotated.json",                  # EN: 2nd dataset | AZ: 2-ci dataset
    "/content/vesiqe_annotated.json"                # EN: 3rd dataset | AZ: 3-cü dataset
]

print("📂 Datasetlər yüklənir...")  # EN: Loading datasets...
print("Fayl yolları:")              # EN: File paths:
for i, path in enumerate(dataset_paths, 1):
    print(f"  {i}. {path}")

# EN: Load datasets from paths
# AZ: Datasetləri yüklə
datasets = load_datasets_from_paths(dataset_paths)

if datasets:
    # EN: Combine datasets into one
    # AZ: Datasetləri birləşdir
    all_texts, all_labels = combine_datasets(datasets)

    # EN: Analyze dataset statistics
    # AZ: Dataset analizini et
    analyze_dataset(all_texts, all_labels)

    # EN: Entity validation check
    # AZ: Validation yoxlaması
    validate_dataset_entities(all_texts, all_labels)

    # EN: Train-validation split (80% train, 20% validation)
    # AZ: Train-validation split (80% train, 20% validation)
    train_texts, val_texts, train_labels, val_labels = train_test_split(
        all_texts, all_labels, test_size=0.2, random_state=42
    )

    print(f"\n📋 Data Split:")
    print(f"Train: {len(train_texts)} nümunə")
    print(f"Validation: {len(val_texts)} nümunə")

    print("✅ Datasetlər uğurla hazırlandı!")
else:
    print("❌ Heç bir dataset yüklənmədi!")
    print("Fayl yollarını yoxlayın və yenidən cəhd edin.")

📂 Datasetlər yüklənir...
Fayl yolları:
  1. /content/car_plate_dataset_annotated.json
  2. /content/fin_annotated.json
  3. /content/vesiqe_annotated.json

📁 Dataset 1 yüklənir: /content/car_plate_dataset_annotated.json
✅ /content/car_plate_dataset_annotated.json uğurla yükləndi: 30000 nümunə
✅ Dataset 1 yükləndi: 30000 nümunə

📁 Dataset 2 yüklənir: /content/fin_annotated.json
✅ /content/fin_annotated.json uğurla yükləndi: 30000 nümunə
✅ Dataset 2 yükləndi: 30000 nümunə

📁 Dataset 3 yüklənir: /content/vesiqe_annotated.json
✅ /content/vesiqe_annotated.json uğurla yükləndi: 30000 nümunə
✅ Dataset 3 yükləndi: 30000 nümunə
Dataset 1: 30000 nümunə
Dataset 2: 30000 nümunə
Dataset 3: 30000 nümunə
📊 Ümumi: 90000 nümunə

📈 Dataset Statistikası:
Ümumi cümlə sayı: 90000
Ümumi token sayı: 576351

🏷️ Label paylanması:
B-FIN: 30000 (5.2%)
B-ID: 30000 (5.2%)
B-PLATE: 30000 (5.2%)
O: 486351 (84.4%)

📝 Entity nümunələri:
PLATE: 72-MY-215, 58-OH-587, 68-CB-083
FIN: B5LC8EA, 7Y8TGYS, LYV28M9
ID: AZE12392

In [None]:
# EN: Load tokenizer and define NERDataset class
# AZ: Tokenizer və model yükləmə

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
print(f"✅ Tokenizer yükləndi: {MODEL_NAME}")  # EN: Tokenizer loaded

class NERDataset(Dataset):
    """
    EN: Custom PyTorch Dataset for NER tasks with BIO labels
    AZ: BIO etiketli NER tapşırıqları üçün PyTorch Dataset sinifi
    """
    def __init__(self, texts: List[List[str]], labels: List[List[str]], tokenizer, max_len: int):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        labels = self.labels[idx]

        # EN: Tokenize the text (split into words)
        # AZ: Tokenləşdirmə (sözlər üzrə split)
        encoding = self.tokenizer(
            text,
            is_split_into_words=True,
            truncation=True,
            padding='max_length',
            max_length=self.max_len,
            return_tensors='pt'
        )

        # EN: Align labels with tokens (using word_ids)
        # AZ: Label-ları token-lara uyğunlaşdırma
        word_ids = encoding.word_ids()
        label_ids = []

        for word_id in word_ids:
            if word_id is None:
                label_ids.append(-100)  # EN: Special tokens (CLS, SEP, PAD etc.)
            elif word_id < len(labels):
                label_ids.append(label2id[labels[word_id]])
            else:
                label_ids.append(label2id['O'])

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label_ids, dtype=torch.long)
        }

print("✅ NERDataset sinifi hazırlandı")  # EN: NERDataset class is ready

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

✅ Tokenizer yükləndi: bert-base-multilingual-cased
✅ NERDataset sinifi hazırlandı


In [None]:
# EN: Load model and set training configuration
# AZ: Model yüklə və training konfiqurasiyası

model = AutoModelForTokenClassification.from_pretrained(
    MODEL_NAME,
    num_labels=len(LABELS),
    label2id=label2id,
    id2label=id2label
)
model.to(device)

print(f"✅ Model yükləndi: {MODEL_NAME}")        # EN: Model loaded
print(f"📊 Label sayı: {len(LABELS)}")          # EN: Number of labels

# EN: Metrics calculation function for Trainer
# AZ: Metrics hesablama funksiyası
def compute_metrics(eval_pred):
    """
    EN: Computes metrics during training
    AZ: Training zamanı metriklər hesablamaq üçün
    """
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=2)

    # EN: Remove labels with -100 (special tokens)
    # AZ: -100 olan labelları çıxar (special tokens)
    true_predictions = [
        [id2label[p] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [id2label[l] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    # EN: Flatten lists
    # AZ: Flatten etmək
    flat_true_labels = [label for sublist in true_labels for label in sublist]
    flat_predictions = [pred for sublist in true_predictions for pred in sublist]

    # EN: Calculate metrics
    # AZ: Metrics hesablamaq
    precision, recall, f1, _ = precision_recall_fscore_support(
        flat_true_labels, flat_predictions, average='weighted', zero_division=0
    )
    accuracy = accuracy_score(flat_true_labels, flat_predictions)

    return {
        'accuracy': accuracy,
        'f1': f1,
        'precision': precision,
        'recall': recall
    }

# EN: Training arguments for 300 steps
# AZ: Training argumentləri - 300 step üçün
training_args = TrainingArguments(
    output_dir='./results',
    max_steps=300,                    # EN: 300 steps limit | AZ: 300 step məhdudiyyəti
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE,
    warmup_steps=50,                  # EN: Less warmup (1/6 of 300) | AZ: Daha az warmup (300 step-in 1/6-sı)
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=25,                 # EN: More frequent logging | AZ: Daha tez-tez log (300/12)
    eval_strategy="steps",      # EN: Use evaluation_strategy if needed
    eval_steps=50,                    # EN: More frequent eval | AZ: Daha tez-tez eval (300/6)
    save_strategy="steps",
    save_steps=50,                    # EN: More frequent save | AZ: Daha tez-tez save
    save_total_limit=2,
    load_best_model_at_end=True,
    metric_for_best_model="f1",
    greater_is_better=True,
    report_to=None,
    learning_rate=LEARNING_RATE,
)

print(f"Max steps: 300")
print(f"Warmup steps: 50")
print(f"Logging every: 25 steps")
print(f"Evaluation every: 50 steps")
print(f"Save every: 50 steps")

print("✅ Training konfiqurasiyası hazırlandı")

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of BertForTokenClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


✅ Model yükləndi: bert-base-multilingual-cased
📊 Label sayı: 7
Max steps: 300
Warmup steps: 50
Logging every: 25 steps
Evaluation every: 50 steps
Save every: 50 steps
✅ Training konfiqurasiyası hazırlandı


In [None]:
# EN: Create dataset objects and start training if train_texts are loaded
# AZ: Dataset obyektlərini yarat və train başlat, əgər train_texts mövcuddursa

if 'train_texts' in locals() and len(train_texts) > 0:
    # EN: Create train and validation NERDataset objects
    # AZ: Train və validation NERDataset obyektləri yarat
    train_dataset = NERDataset(
        texts=train_texts,
        labels=train_labels,
        tokenizer=tokenizer,
        max_len=MAX_LEN
    )

    val_dataset = NERDataset(
        texts=val_texts,
        labels=val_labels,
        tokenizer=tokenizer,
        max_len=MAX_LEN
    )

    # EN: Data collator for token classification
    # AZ: Token classification üçün data collator
    data_collator = DataCollatorForTokenClassification(
        tokenizer=tokenizer,
        padding=True,
        max_length=MAX_LEN,
        pad_to_multiple_of=None,
        return_tensors="pt"
    )

    # EN: Create Trainer object
    # AZ: Trainer obyektini yarat
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        tokenizer=tokenizer,
        data_collator=data_collator,
        compute_metrics=compute_metrics,
    )

    print(f"✅ Train dataset: {len(train_dataset)} nümunə")          # EN: Train dataset samples
    print(f"✅ Validation dataset: {len(val_dataset)} nümunə")      # EN: Validation dataset samples
    print("✅ Trainer hazırlandı")                                  # EN: Trainer is ready

    # EN: Start training process
    # AZ: Training başlat
    print("\n🚀 Training başlayır...")
    print(f"📊 Total training samples: {len(train_dataset)}")
    print(f"📊 Total validation samples: {len(val_dataset)}")
    print(f"🔥 Device: {device}")

    try:
        trainer.train()
        print("✅ Training tamamlandı!")                             # EN: Training completed

        # EN: Evaluate the model
        # AZ: Model qiymətləndirmə
        print("\n📊 Model qiymətləndirilir...")
        eval_results = trainer.evaluate()

        print("🎯 Evaluation nəticələri:")                          # EN: Evaluation results
        for key, value in eval_results.items():
            if isinstance(value, float):
                print(f"{key}: {value:.4f}")
            else:
                print(f"{key}: {value}")

        # EN: Save best model and tokenizer
        # AZ: En yaxşı modeli saxla
        trainer.save_model("./best_model")
        tokenizer.save_pretrained("./best_model")
        print("✅ Model ./best_model qovluğunda saxlanıldı")        # EN: Model saved in ./best_model

    except Exception as e:
        print(f"❌ Training zamanı xəta: {e}")                      # EN: Error during training

else:
    print("❌ Datasetlər hazırlanmadı, training edilə bilməz!")     # EN: Datasets not ready, training cannot be performed
    print("Əvvəlki hissələrdə datasetləri düzgün yükləyin.")        # EN: Make sure datasets are loaded in previous steps

✅ Train dataset: 72000 nümunə
✅ Validation dataset: 18000 nümunə
✅ Trainer hazırlandı

🚀 Training başlayır...
📊 Total training samples: 72000
📊 Total validation samples: 18000
🔥 Device: cuda


<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize?ref=models
wandb: Paste an API key from your profile and hit enter:

 ··········


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mbahramzada[0m ([33mbahramzada-unec-business-school[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Step,Training Loss,Validation Loss,Accuracy,F1,Precision,Recall
50,0.1655,0.015308,0.998266,0.998264,0.99827,0.998266
100,0.0043,0.000867,0.999983,0.999983,0.999983,0.999983
150,0.0011,0.000642,0.999966,0.999966,0.999966,0.999966
200,0.0009,0.000385,1.0,1.0,1.0,1.0
250,0.0007,0.000341,1.0,1.0,1.0,1.0
300,0.0007,0.000326,1.0,1.0,1.0,1.0


✅ Training tamamlandı!

📊 Model qiymətləndirilir...


🎯 Evaluation nəticələri:
eval_loss: 0.0004
eval_accuracy: 1.0000
eval_f1: 1.0000
eval_precision: 1.0000
eval_recall: 1.0000
eval_runtime: 125.3216
eval_samples_per_second: 143.6300
eval_steps_per_second: 8.9770
epoch: 0.0667
✅ Model ./best_model qovluğunda saxlanıldı


In [None]:
def predict_entities_with_model(text: str, model, tokenizer, device):
    """
    EN: Predicts entities in text using model
    AZ: Modeli istifadə edərək entity-ləri predict edir
    """
    tokens = text.split()

    # EN: Encode with tokenizer
    # AZ: Tokenizer ilə encode et
    inputs = tokenizer(
        tokens,
        is_split_into_words=True,
        return_tensors="pt",
        truncation=True,
        padding=True,
        max_length=MAX_LEN
    )

    # EN: Send to GPU if available
    # AZ: GPU-ya göndər
    inputs = {k: v.to(device) for k, v in inputs.items()}

    # EN: Model prediction
    # AZ: Model prediction
    model.eval()
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)

    # EN: Get word IDs for mapping tokens
    # AZ: Word IDs ilə token-word mapping
    word_ids = inputs.word_ids() if hasattr(inputs, 'word_ids') else None
    predicted_labels = []

    if word_ids is None:
        # EN: Manual mapping if word_ids not available
        # AZ: Manual word mapping
        tokenized = tokenizer.tokenize(' '.join(tokens))
        pred_idx = 1  # EN: Start after CLS token

        for token in tokens:
            if pred_idx < len(predictions[0]):
                label_id = predictions[0][pred_idx].item()
                if label_id < len(id2label):
                    predicted_labels.append(id2label[label_id])
                else:
                    predicted_labels.append('O')

                # EN: Count subwords for token
                # AZ: Token neçə subword-ə bölünüb onu hesabla
                token_subwords = tokenizer.tokenize(token)
                pred_idx += len(token_subwords)
            else:
                predicted_labels.append('O')
    else:
        # EN: Use word_ids mapping
        # AZ: Word IDs istifadə et
        for i in range(len(tokens)):
            word_positions = [j for j, wid in enumerate(word_ids[0]) if wid == i]
            if word_positions:
                label_id = predictions[0][word_positions[0]].item()
                if label_id < len(id2label):
                    predicted_labels.append(id2label[label_id])
                else:
                    predicted_labels.append('O')
            else:
                predicted_labels.append('O')

    # EN: Fix label count to match tokens
    # AZ: Label sayını düzəlt
    while len(predicted_labels) < len(tokens):
        predicted_labels.append('O')
    predicted_labels = predicted_labels[:len(tokens)]

    return tokens, predicted_labels

def enhanced_predict_with_validation(text: str, model, tokenizer, device):
    """
    EN: Entity prediction with format validation
    AZ: Validation qaydaları ilə təkmilləşdirilmiş entity prediction
    """
    tokens, predicted_labels = predict_entities_with_model(text, model, tokenizer, device)

    validated_labels = []
    i = 0

    while i < len(tokens):
        current_label = predicted_labels[i] if i < len(predicted_labels) else 'O'

        if current_label.startswith('B-'):
            entity_type = current_label[2:]
            entity_tokens = [tokens[i]]

            # EN: Gather full entity text
            # AZ: Entity-nin tam mətnini topla
            j = i + 1
            while (j < len(tokens) and
                   j < len(predicted_labels) and
                   predicted_labels[j] == f'I-{entity_type}'):
                entity_tokens.append(tokens[j])
                j += 1

            entity_text = ''.join(entity_tokens)

            # EN: Validate format
            # AZ: Format validation
            if validate_entity_format(entity_text, entity_type):
                # EN: Valid entity, keep labels
                # AZ: Valid entity - saxla
                validated_labels.append(current_label)
                for k in range(i + 1, j):
                    if k < len(predicted_labels):
                        validated_labels.append(predicted_labels[k])
                    else:
                        validated_labels.append('O')
            else:
                # EN: Invalid entity, set to 'O'
                # AZ: Invalid entity - O etiketi ver
                for k in range(i, j):
                    validated_labels.append('O')

            i = j
        else:
            validated_labels.append(current_label)
            i += 1

    # EN: Fix label count to match tokens
    # AZ: Label sayını düzəlt
    while len(validated_labels) < len(tokens):
        validated_labels.append('O')
    validated_labels = validated_labels[:len(tokens)]

    return tokens, validated_labels

def blur_with_model_and_validation(text: str, model, tokenizer, device):
    """
    EN: Blur entities using model & validation
    AZ: Model + validation ilə blurring edir
    """
    tokens, validated_labels = enhanced_predict_with_validation(text, model, tokenizer, device)

    blurred_tokens = []
    entities_found = []
    i = 0

    while i < len(tokens):
        current_label = validated_labels[i] if i < len(validated_labels) else 'O'

        if current_label.startswith('B-'):
            entity_type = current_label[2:]
            entity_tokens = [tokens[i]]
            entity_start = i

            # EN: Find entity continuation (I- labels)
            # AZ: I- etiketli davamını tap
            j = i + 1
            while (j < len(tokens) and
                   j < len(validated_labels) and
                   validated_labels[j] == f'I-{entity_type}'):
                entity_tokens.append(tokens[j])
                j += 1

            entity_text = ''.join(entity_tokens)

            entities_found.append({
                'text': entity_text,
                'type': entity_type,
                'start': entity_start,
                'end': j-1,
                'tokens': entity_tokens
            })

            blurred_tokens.append('[BLURRED]')
            i = j
        else:
            blurred_tokens.append(tokens[i])
            i += 1

    return ' '.join(blurred_tokens), entities_found

print("✅ Təkmilləşdirilmiş inference funksiyaları hazırlandı")  # EN: Enhanced inference functions ready

✅ Təkmilləşdirilmiş inference funksiyaları hazırlandı


In [20]:
def test_enhanced_model():
    """
    EN: Tests the model with validation rules on various sentences
    AZ: Validation qaydaları ilə modeli test edir
    """
    test_sentences = [
        "Mənim fin kodum AZEDF12 olan kartım var",          # Valid FIN (7 simvol)
        "FIN kod AB12345 mövcuddur",                        # Valid FIN (7 simvol)
        "Bu 90-AB-123 nömrəli avtomobil dostumundur",       # Valid PLATE
        "Şəxsiyyət vəsiqə AA1234567 dir",                   # Valid ID (AA + 7 rəqəm)
        "Sənəd nömrəsi AZE123456789 təqdim edilməlidir",    # Valid ID (AZE + 9 rəqəm)
        "Səhv format AA12345 və ya AZE12345 var",           # Invalid formats
        "Bu adi cümlə dir heç nə yoxdur",                   # Heç nə yox
        "FİN MM4NS3L və maşın 77-KM-596 qeydiyyatı var",    # Valid entities
        'Qeydiyyat prosesində şəxsiyyət vəsiqəsi nömrəsi AZE123456789 və FİN kod MM4NS3L təqdim edilməlidir. Avtomobilin nömrəsi 77-KM-596 və 10-AB-123 ilə bağlı məlumatlar da sistemə daxil edilməlidir. Əlavə olaraq, yeni qeydiyyatda tələb olunan ikinci şəxsiyyət vəsiqəsi nömrəsi AZE987654321 və FİN kodu QA9WT2K də yoxlanılacaq. Qeyd: hər hansı bir kod səhv daxil edilərsə, sistem xəbərdarlıq edəcək.' #custom
    ]

    print("🧪 Model + Validation Test...\n")

    for i, sentence in enumerate(test_sentences, 1):
        print(f"📝 Test {i}:")
        print(f"Orijinal: {sentence}")

        try:
            blurred_text, entities = blur_with_model_and_validation(sentence, model, tokenizer, device)
            print(f"Blurred:  {blurred_text}")

            if entities:
                print("✅ Tapılan valid entity-lər:")
                for entity in entities:
                    validation_result = "✓ Valid" if validate_entity_format(entity['text'], entity['type']) else "✗ Invalid"
                    print(f"  {validation_result} - '{entity['text']}' ({entity['type']})")
            else:
                print("❌ Heç bir valid entity tapılmadı")

        except Exception as e:
            print(f"❌ Xəta: {e}")

        print("-" * 70)

def detailed_analysis_demo(text: str):
    """
    EN: Shows detailed token-level analysis for a given sentence
    AZ: Detailed token-level analiz
    """
    print(f"\n🔍 Detailed Analiz: '{text}'")

    try:
        tokens, model_labels = predict_entities_with_model(text, model, tokenizer, device)
        _, validated_labels = enhanced_predict_with_validation(text, model, tokenizer, device)

        print("\nToken-by-token analiz:")
        print("Token".ljust(15) + "Model".ljust(10) + "Validated".ljust(12) + "Valid?")
        print("-" * 50)

        for i, token in enumerate(tokens):
            model_label = model_labels[i] if i < len(model_labels) else 'O'
            validated_label = validated_labels[i] if i < len(validated_labels) else 'O'

            # EN: Check entity validation status
            # AZ: Entity-nin validation statusunu yoxla
            if model_label.startswith('B-'):
                entity_type = model_label[2:]
                # EN: Get full entity text
                # AZ: Entity-nin tam mətnini tap
                entity_tokens = [token]
                j = i + 1
                while (j < len(tokens) and
                       j < len(model_labels) and
                       model_labels[j] == f'I-{entity_type}'):
                    entity_tokens.append(tokens[j])
                    j += 1
                entity_text = ''.join(entity_tokens)
                is_valid = validate_entity_format(entity_text, entity_type)
                valid_status = "✓" if is_valid else "✗"
            else:
                valid_status = "-"

            print(f"{token:<15} {model_label:<10} {validated_label:<12} {valid_status}")

    except Exception as e:
        print(f"❌ Analiz xətası: {e}")

def interactive_blur_system():
    """
    EN: Interactive NER blur system with validation rules
    AZ: İnteraktiv blurring sistemi
    """
    print("🤖 Azərbaycan NER Blur Sistemi")
    print("Model + Validation qaydaları istifadə edilir")
    print("Format qaydaları:")
    print("  • FIN: 7 simvol (hərf+rəqəm)")
    print("  • ID/AA: 9 simvol (AA + 7 rəqəm)")
    print("  • ID/AZE: 12 simvol (AZE + 9 rəqəm)")
    print("  • Avtomobil: XX-YY-ZZZ")
    print("\nÇıxmaq üçün 'exit' yazın\n")

    while True:
        user_input = input("📝 Mətn daxil edin: ")

        if user_input.lower() in ['exit', 'çıx', 'quit', 'q']:
            print("👋 Görüşənədək!")
            break

        if user_input.strip():
            try:
                blurred_text, entities = blur_with_model_and_validation(user_input, model, tokenizer, device)
                print(f"🔒 Blurred: {blurred_text}")

                if entities:
                    print("📍 Tapılan entity-lər:")
                    for entity in entities:
                        print(f"  • '{entity['text']}' → {entity['type']}")
                else:
                    print("📍 Heç bir entity tapılmadı")

                # EN: Show detailed analysis
                # AZ: Detailed analizi göstər
                detailed_analysis_demo(user_input)
                print()

            except Exception as e:
                print(f"❌ Xəta: {e}\n")
        else:
            print("❌ Boş mətn daxil etdiniz\n")

# EN: If model is trained and available, run demo
# AZ: Əgər model öyrədilib və mövcuddursa test et
if 'model' in locals():
    print("🎯 Model test edilir...")
    test_enhanced_model()

    print("\n" + "="*70)
    print("İnteraktiv sistemə keçmək istəyirsinizmi? (y/n)")
    interactive_blur_system()
else:
    print("❌ Model əvvəlcə öyrədilməlidir!")  # EN: Model must be trained first!

🎯 Model test edilir...
🧪 Model + Validation Test...

📝 Test 1:
Orijinal: Mənim fin kodum AZEDF12 olan kartım var
Blurred:  Mənim fin kodum [BLURRED] olan kartım var
✅ Tapılan valid entity-lər:
  ✓ Valid - 'AZEDF12' (FIN)
----------------------------------------------------------------------
📝 Test 2:
Orijinal: FIN kod AB12345 mövcuddur
Blurred:  FIN kod [BLURRED] mövcuddur
✅ Tapılan valid entity-lər:
  ✓ Valid - 'AB12345' (FIN)
----------------------------------------------------------------------
📝 Test 3:
Orijinal: Bu 90-AB-123 nömrəli avtomobil dostumundur
Blurred:  Bu [BLURRED] nömrəli avtomobil dostumundur
✅ Tapılan valid entity-lər:
  ✓ Valid - '90-AB-123' (PLATE)
----------------------------------------------------------------------
📝 Test 4:
Orijinal: Şəxsiyyət vəsiqə AA1234567 dir
Blurred:  Şəxsiyyət vəsiqə [BLURRED] dir
✅ Tapılan valid entity-lər:
  ✓ Valid - 'AA1234567' (ID)
----------------------------------------------------------------------
📝 Test 5:
Orijinal: Sənəd nömr

In [21]:
!zip -r /content/best_model.zip /content/best_model

  adding: content/best_model/ (stored 0%)
  adding: content/best_model/model.safetensors (deflated 7%)
  adding: content/best_model/config.json (deflated 55%)
  adding: content/best_model/training_args.bin (deflated 53%)
  adding: content/best_model/vocab.txt (deflated 45%)
  adding: content/best_model/special_tokens_map.json (deflated 42%)
  adding: content/best_model/tokenizer.json (deflated 67%)
  adding: content/best_model/tokenizer_config.json (deflated 75%)
