In [1]:
!pip install pandas
!pip install pylatexenc



In [2]:
import pandas as pd
from pylatexenc.latex2text import LatexNodes2Text

symbols_df = pd.read_csv('hasyv2/hasyv2/symbols.csv')
latex_to_text = LatexNodes2Text()
class_to_symbol = {}

for index, row in symbols_df.iterrows():
    class_id = row['symbol_id']
    latex_command = row['latex']
    try:
        unicode_symbol = latex_to_text.latex_to_text(latex_command)
    except:
        unicode_symbol = latex_command  # Обработка ошибок
    class_to_symbol[class_id] = unicode_symbol

print(f"Количество классов в словаре: {len(class_to_symbol)}")
print(class_to_symbol)

Количество классов в словаре: 369
{31: 'A', 32: 'B', 33: 'C', 34: 'D', 35: 'E', 36: 'F', 37: 'G', 38: 'H', 39: 'I', 40: 'J', 41: 'K', 42: 'L', 43: 'M', 44: 'N', 45: 'O', 46: 'P', 47: 'Q', 48: 'R', 49: 'S', 50: 'T', 51: 'U', 52: 'V', 53: 'W', 54: 'X', 55: 'Y', 56: 'Z', 59: '→', 70: '0', 71: '1', 72: '2', 73: '3', 74: '4', 75: '5', 76: '6', 77: '7', 78: '8', 79: '9', 81: 'π', 82: 'α', 87: 'β', 88: '∑', 89: 'σ', 90: 'a', 91: 'b', 92: 'c', 93: 'd', 94: 'e', 95: 'f', 96: 'g', 97: 'h', 98: 'i', 99: 'j', 100: 'k', 101: 'l', 102: 'm', 103: 'n', 104: 'o', 105: 'p', 106: 'q', 107: 'r', 108: 's', 110: 'u', 111: 'v', 112: 'w', 113: 'x', 114: 'y', 115: 'z', 116: 'Σ', 117: 'γ', 150: 'Γ', 151: 'δ', 152: 'Δ', 153: 'ζ', 154: 'η', 155: 'θ', 156: 'Θ', 157: 'ϵ', 158: 'ε', 159: 'ι', 160: 'κ', 161: 'ϰ', 162: 'λ', 163: 'Λ', 164: 'μ', 165: 'ν', 166: 'ξ', 167: 'Ξ', 168: 'Π', 169: 'ρ', 170: 'ϱ', 171: 'τ', 174: 'ϕ', 175: 'Φ', 176: 'φ', 177: 'χ', 178: 'ψ', 179: 'Ψ', 180: 'ω', 181: 'Ω', 182: '∂', 183: '∫', 184: '·

In [3]:
import json

# Предполагается, что class_to_symbol уже создан, например:
# class_to_symbol = {0: '0', 1: 'α', 2: 'β', ...}

# Путь для сохранения файла
output_path = 'models/class_to_symbol.json'

# Сохранение словаря в JSON-файл с поддержкой Unicode
with open(output_path, 'w', encoding='utf-8') as f:
    json.dump(class_to_symbol, f, ensure_ascii=False, indent=4)

print(f"✅ Словарь успешно сохранён в {output_path}")

✅ Словарь успешно сохранён в models/class_to_symbol.json


In [4]:
# Проверка данных и нормализация меток
csv_path = 'hasyv2/hasyv2/hasy-data-labels.csv'
df = pd.read_csv(csv_path)

In [5]:
# Создание отображения symbol_id на [0, 368]
unique_symbol_ids = sorted(df['symbol_id'].unique())
id_to_normalized = {old_id: new_id for new_id, old_id in enumerate(unique_symbol_ids)}
if len(unique_symbol_ids) != 369:
    raise ValueError(f"Ожидалось 369 уникальных классов, найдено {len(unique_symbol_ids)}")

In [6]:
# Нормализация symbol_id в DataFrame
df['normalized_symbol_id'] = df['symbol_id'].map(id_to_normalized)
print(f"Нормализованный диапазон symbol_id: [{df['normalized_symbol_id'].min()}, {df['normalized_symbol_id'].max()}]")
print(f"Количество уникальных классов: {len(df['normalized_symbol_id'].unique())}")

Нормализованный диапазон symbol_id: [0, 368]
Количество уникальных классов: 369


In [8]:
# Обновление словаря class_to_symbol.json
with open('models/class_to_symbol.json', 'r', encoding='utf-8') as f:
    old_class_to_symbol = json.load(f)
new_class_to_symbol = {str(id_to_normalized[int(old_id)]): symbol for old_id, symbol in old_class_to_symbol.items()}
with open('models/class_to_symbol_normalized.json', 'w', encoding='utf-8') as f:
    json.dump(new_class_to_symbol, f, ensure_ascii=False, indent=4)
print("✅ Новый словарь сохранён в models/class_to_symbol_normalized.json")

✅ Новый словарь сохранён в models/class_to_symbol_normalized.json
