In [None]:
from google.colab import drive
import getpass, os

# === Настройка проекта ===
USER = "tokarevdr"   # твой GitHub username
REPO = "entities-extraction-x5"            # название репозитория
EMAIL = "fedorov.alexander.04@gmail.com"    # твоя почта для git
NAME = "Alexander"           # твоё имя для git
# === Подключение Google Drive ===
drive.mount('/content/drive')
PROJECTS_DIR = "/content/drive/MyDrive/Colab Notebooks"
%cd $PROJECTS_DIR
# === GitHub авторизация ===
token = getpass.getpass('Введи GitHub PAT токен: ')
os.environ["GITHUB_TOKEN"] = token

# === Проверяем: если репозиторий ещё не скачан, клонируем ===
if not os.path.exists(f"{PROJECTS_DIR}/{REPO}/ML PART"):
    print('Заново склонировали репу')
    !git clone https://{USER}:{os.environ["GITHUB_TOKEN"]}@github.com/{USER}/{REPO}.git
# === Переходим в папку проекта ===
%cd {REPO}/{'ML_PART'}

# === Настройка Git ===
!git config --global user.email "{EMAIL}"
!git config --global user.name "{NAME}"
!git remote set-url origin https://{USER}:{os.environ["GITHUB_TOKEN"]}@github.com/{USER}/{REPO}.git

print("✅ Всё готово! Рабочая папка:", os.getcwd())

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import spacy
import numpy as np
from module import calculate_ner_metrics, calculate_macro_f1, process_submission

In [None]:
entity_pairs = [
    (
        [(0, 7, 'B-TYPE')],  # авокадо
        [(0, 7, 'B-BRAND')]
    ),
    (
        [(0, 5, 'B-TYPE')],  # батат
        [(0, 5, 'O')]
    ),
    (
        [(0, 8, 'B-TYPE'), (9, 13, 'B-VOLUME'), (14, 20, 'B-BRAND'), (21, 28, 'I-BRAND')],
        [(0, 8, 'B-TYPE'), (9, 13, 'B-VOLUME'), (14, 20, 'B-BRAND'), (21, 28, 'I-BRAND')]
    )
]

macro_f1, f1_type, f1_brand, f1_volume, f1_percent = calculate_macro_f1(entity_pairs)
print(f"Macro-averaged F1-score: {macro_f1:.4f}")
print(f"F1 TYPE: {f1_type:.4f}")
print(f"F1 BRAND: {f1_brand:.4f}")
print(f"F1 VOLUME: {f1_volume:.4f}")
print(f"F1 PERCENT: {f1_percent:.4f}")

In [None]:
PATH="OUTPUT/ru_core_web_lg"

In [None]:
def analyze_training_results(metrics_df, plot_name=True):
    """
    Строит графики обучения и выводит статистику по лучшей эпохе.

    Параметры:
    - metrics_df : pd.DataFrame с колонками 'epoch', 'loss', 'f1_macro', 'f1_TYPE', ...
    - model_path  : str, путь к сохранённой модели SpaCy
    - save_plot   : bool, сохранять график или нет
    """
    # --- Статистика ---
    best_epoch = int(metrics_df.loc[metrics_df["f1_macro"].idxmax(), "epoch"])
    best_f1    = metrics_df["f1_macro"].max()
    min_loss   = metrics_df["loss"].min()

    print("=== Статистика обучения ===")
    print(f"Лучшая эпоха по F1_macro : {best_epoch}")
    print(f"Максимальный F1_macro    : {best_f1:.4f}")
    print(f"Минимальный Loss         : {min_loss:.4f}\n")

    # --- Построение графиков ---
    plt.figure(figsize=(15, 10))

    # Loss
    plt.subplot(2, 1, 1)
    plt.plot(metrics_df['epoch'], metrics_df['loss'], 'b-', linewidth=2, label='Loss')
    plt.axvline(x=best_epoch, color='r', linestyle='--', alpha=0.7, label=f'Лучшая эпоха ({best_epoch})')
    plt.xlabel('Эпоха')
    plt.ylabel('Loss')
    plt.title('Loss по эпохам')
    plt.legend()
    plt.grid(True, alpha=0.3)

    # F1 scores
    plt.subplot(2, 1, 2)
    plt.plot(metrics_df['epoch'], metrics_df['f1_macro'], 'r-', linewidth=3, label='F1-macro')
    for col in metrics_df.columns:
        if col.startswith("f1_") and col != "f1_macro":
            plt.plot(metrics_df['epoch'], metrics_df[col], '--', label=col)
    plt.axvline(x=best_epoch, color='r', linestyle='--', alpha=0.7)
    plt.xlabel('Эпоха')
    plt.ylabel('F1 Score')
    plt.title('F1 Scores по эпохам')
    plt.legend()
    plt.grid(True, alpha=0.3)

    plt.tight_layout()
    if save_plot:
        plt.savefig(f"{PATH}/training_metrics.png", dpi=300, bbox_inches='tight')
    plt.show()



In [None]:
metrics_spacy = dp.read_csv("OUTPUT/ru_core_web_lg/final_training_metrics_per_epoch.csv")

In [None]:
analyze_training_results(metrics_spacy)

In [None]:

    # --- Проверка модели на тестовых фразах ---
    trained_model = spacy.load(model_path)
    test_texts = [
        "чипсы русская картошка краб",
        "чипсы паприка",
        "чипсы острые из",
        "яблоки 3 штуки",
        "апельсин большой",
        "сок сады придонья",
        "hohland сыр плавленный 100г",
    ]

    print("=== Проверка на тестовых фразах ===")
    for text in test_texts:
        doc = trained_model(text)
        ents = [(ent.start_char, ent.end_char, ent.label_) for ent in doc.ents]
        print(f"{text}\n  -> {ents}")