In [1]:
import pandas as pd
import numpy as np
from transformers import AutoTokenizer
import random

In [2]:
# Load the provided Excel file
file_path = "/app/data/raw_data.xlsx"
data = pd.read_excel(file_path)

# Display the first few rows of the dataset to understand its structure
data.head()

Unnamed: 0,№,Контрагент,Наименование заказчика,Ед. Изм.,Простая/составная,Продукт/рукав,Длина,Фитинг левый,Фитинг правый,БРС,Термо,Мех.защита
0,1,суэк-Кузбасс,"РВД D19(20) P350 4SP JIC G1,5/16 L3000 DIN EN856",Шт.,Составная,4SP DN19,3000,"JIC1.5/16""DN19","JIC1.5/16""DN19",нет,нет,нет
1,2,суэк-Кузбасс,"РВД D19(20) P350 4SP JIC G1,5/16*L750 DIN EN856",Шт.,Составная,4SP DN19,750,"JIC1.5/16""DN19","JIC1.5/16""DN19",нет,нет,нет
2,3,суэк-Кузбасс,"РВД D19(20) P350 4SP JIC G1,5/16*L500 DIN EN856",Шт.,Составная,4SP DN19,500,"JIC1.5/16""DN19","JIC1.5/16""DN19",нет,нет,нет
3,4,суэк-Кузбасс,"РВД D19(20) P350 4SP JIC G1,5/16 L2750 DIN EN856",Шт.,Составная,4SP DN19,2750,"JIC1.5/16""DN19","JIC1.5/16""DN19",нет,нет,нет
4,5,суэк-Кузбасс,"РВД D19(20) P350 4SP JIC G1,5/16*L2250 DIN EN856",Шт.,Составная,4SP DN19,2250,"JIC1.5/16""DN19","JIC1.5/16""DN19",нет,нет,нет


In [3]:
def format_data(row):
    input_text = row["Наименование заказчика"]
    output_text = f"\nПростая/составная - {row['Простая/составная']}\nПродукт/рукав - {row['Продукт/рукав']}\nДлина - {row['Длина']}\nФитинг левый - {row['Фитинг левый']}\nФитинг правый - {row['Фитинг правый']}"
    return input_text, output_text

In [4]:
# Extract relevant columns
data = data[
    [
        "Наименование заказчика",
        "Простая/составная",
        "Продукт/рукав",
        "Длина",
        "Фитинг левый",
        "Фитинг правый",
    ]
]
data.shape

(2866, 6)

In [5]:
data.dropna(inplace=True)
data.shape

(2865, 6)

In [7]:
# Apply the formatting function to create the dataset
formatted_data = data.apply(format_data, axis=1)

# Convert to a list of input-output pairs
training_data = formatted_data.tolist()

# Display the first few pairs
training_data[:5]

[('РВД D19(20) P350 4SP JIC G1,5/16 L3000 DIN EN856',
  '\nПростая/составная - Составная\nПродукт/рукав - 4SP DN19\nДлина - 3000\nФитинг левый - JIC1.5/16"DN19\nФитинг правый - JIC1.5/16"DN19'),
 ('РВД D19(20) P350 4SP JIC G1,5/16*L750 DIN EN856',
  '\nПростая/составная - Составная\nПродукт/рукав - 4SP DN19\nДлина - 750\nФитинг левый - JIC1.5/16"DN19\nФитинг правый - JIC1.5/16"DN19'),
 ('РВД D19(20) P350 4SP JIC G1,5/16*L500 DIN EN856',
  '\nПростая/составная - Составная\nПродукт/рукав - 4SP DN19\nДлина - 500\nФитинг левый - JIC1.5/16"DN19\nФитинг правый - JIC1.5/16"DN19'),
 ('РВД D19(20) P350 4SP JIC G1,5/16 L2750 DIN EN856',
  '\nПростая/составная - Составная\nПродукт/рукав - 4SP DN19\nДлина - 2750\nФитинг левый - JIC1.5/16"DN19\nФитинг правый - JIC1.5/16"DN19'),
 ('РВД D19(20) P350 4SP JIC G1,5/16*L2250 DIN EN856',
  '\nПростая/составная - Составная\nПродукт/рукав - 4SP DN19\nДлина - 2250\nФитинг левый - JIC1.5/16"DN19\nФитинг правый - JIC1.5/16"DN19')]

In [9]:
# # Transform the dataset into the desired dialogue format
# dialogue_data = []
# for input_text, output_text in training_data:
#     dialogue_entry = f"Human: {input_text}\nAssistant: {output_text}\n\n\n"
#     dialogue_data.append(dialogue_entry)

# # Define the path for the output text file
# output_txt_file_path = '/app/simple-llm-finetuner/example-datasets/rukava_data.txt'

# # Write the data to a text file
# with open(output_txt_file_path, 'w', encoding='utf-8') as f:
#     f.writelines(dialogue_data)

In [72]:
# Configuration
cache_dir = "/app/model"
model_id = "Vikhrmodels/Vikhr-7B-instruct_0.4"
# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir=cache_dir)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [74]:
tokenizer.get_vocab().keys()



In [73]:
len(tokenizer.get_vocab().keys())

79099

In [75]:
# Check all input texts in the training data
for idx, (input_text, _) in enumerate(training_data):
    # Tokenize the input text
    tokens = tokenizer.tokenize(input_text)

    # Convert tokens back to text
    decoded_text = tokenizer.convert_tokens_to_string(tokens)

    # Check if the decoded text matches the input text
    if input_text != decoded_text:
        print(f"Entry {idx}: Discrepancy found!")
        print("Original input:", input_text)
        print("Decoded text:", decoded_text)

In [100]:
# Example input text
input_text = training_data[random.randint(0,len(training_data))][0]
print(input_text)

000000001300414700 Рукав высокого давления 31-34,5-7600-SF/SF-63,5/63,5 Dв31мм L7600мм PN345Бар SF 63,5 SF 63,5


In [101]:
# Tokenize the input text
tokens = tokenizer.tokenize(input_text)
print("Tokens:", tokens)

# Convert tokens back to text
decoded_text = tokenizer.convert_tokens_to_string(tokens)
print("Decoded text:", decoded_text)

Tokens: ['▁', '0', '0', '0', '0', '0', '0', '0', '0', '1', '3', '0', '0', '4', '1', '4', '7', '0', '0', '▁Ру', 'ка', 'в', '▁высокого', '▁давления', '▁', '3', '1', '-', '3', '4', ',', '5', '-', '7', '6', '0', '0', '-', 'SF', '/', 'SF', '-', '6', '3', ',', '5', '/', '6', '3', ',', '5', '▁D', 'в', '3', '1', 'мм', '▁L', '7', '6', '0', '0', 'мм', '▁P', 'N', '3', '4', '5', 'Бар', '▁SF', '▁', '6', '3', ',', '5', '▁SF', '▁', '6', '3', ',', '5']
Decoded text: 000000001300414700 Рукав высокого давления 31-34,5-7600-SF/SF-63,5/63,5 Dв31мм L7600мм PN345Бар SF 63,5 SF 63,5


In [44]:
# Tokenize the input text
tokens = tokenizer.tokenize(input_text)
print("Tokens:", tokens)

# Convert tokens back to text
decoded_text = tokenizer.convert_tokens_to_string(tokens)
print("Decoded text:", decoded_text)

Tokens: ['▁', '<0x0A>', 'Про', 'стая', '/', 'со', 'став', 'ная', '▁-', '▁Состав', 'ная', '<0x0A>', 'Про', 'ду', 'кт', '/', 'ру', 'ка', 'в', '▁-', '▁', '4', 'SP', '▁D', 'N', '1', '9', '<0x0A>', 'Д', 'лина', '▁-', '▁', '3', '0', '0', '0', '<0x0A>', 'Фи', 'тинг', '▁левый', '▁-', '▁J', 'IC', '1', '.', '5', '/', '1', '6', '"', 'DN', '1', '9', '<0x0A>', 'Фи', 'тинг', '▁правый', '▁-', '▁J', 'IC', '1', '.', '5', '/', '1', '6', '"', 'DN', '1', '9']
Decoded text: 
Простая/составная - Составная
Продукт/рукав - 4SP DN19
Длина - 3000
Фитинг левый - JIC1.5/16"DN19
Фитинг правый - JIC1.5/16"DN19


In [55]:
# List of challenging input examples
challenging_inputs = [
    "Рукав 15,9-110-1000-0,2-11/11-М27х1,5!",  # Special characters
    "Hello, こんにちは, Привет, 안녕하세요!",  # Mixed languages
    "Рукав " + "а" * 512,  # Long sequence
    "Рукав\t\t\t15,9-110\n\n1000-0,2-11/11-М27х1,5",  # Whitespace variations
    "15,9-110-1000-0,2-11/11-М27х1,5, длина 1000 мм",  # Numbers and measurements
    "Рукав-соединение 15,9-110-1000-0,2-11/11-М27х1,5",  # Compound words and hyphens
]

# Print each challenging input
for idx, input_text in enumerate(challenging_inputs):
    print(f"Challenging Input {idx}: {input_text}")

Challenging Input 0: Рукав 15,9-110-1000-0,2-11/11-М27х1,5!
Challenging Input 1: Hello, こんにちは, Привет, 안녕하세요!
Challenging Input 2: Рукав аааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа
Challenging Input 3: Рукав			15,9-110

1000-0,2-11/11-М27х1,5
Challenging Input 4: 15,9-110-1000-0,2-11/11-М27х1,5, длина 1000 мм
Challenging Input 5: Рукав-соединение 15,9-110-1000-0,2-11/11-М27х1,5


In [57]:
tokenizer.tokenize(challenging_inputs[5])

['Ðł',
 'ÑĥÐº',
 'Ð°Ð²',
 '-Ñģ',
 'Ð¾',
 'ÐµÐ´Ð¸Ð½',
 'ÐµÐ½Ð¸Ðµ',
 'Ġ',
 '15',
 ',',
 '9',
 '-',
 '110',
 '-',
 '100',
 '0',
 '-',
 '0',
 ',',
 '2',
 '-',
 '11',
 '/',
 '11',
 '-Ðľ',
 '27',
 'Ñħ',
 '1',
 ',',
 '5']

In [49]:
# Check all challenging input texts
for idx, input_text in enumerate(challenging_inputs):
    # Tokenize the input text
    tokens = tokenizer.tokenize(input_text)

    # Convert tokens back to text
    decoded_text = tokenizer.convert_tokens_to_string(tokens)

    # Check if the decoded text matches the input text
    if input_text == decoded_text:
        print(
            f"Challenging Input {idx+1}: Tokenizer can successfully handle the input."
        )
    else:
        print(f"Challenging Input {idx+1}: Discrepancy found!")
        print("Original input:", input_text)
        print("Decoded text:", decoded_text)

        # Print tokens for further inspection
        print(f"Tokens: {tokens}")

Challenging Input 1: Tokenizer can successfully handle the input.
Challenging Input 2: Tokenizer can successfully handle the input.
Challenging Input 3: Tokenizer can successfully handle the input.
Challenging Input 4: Tokenizer can successfully handle the input.
Challenging Input 5: Tokenizer can successfully handle the input.
Challenging Input 6: Tokenizer can successfully handle the input.
