# Обучение модели классификации учебных заданий по Python

**Автор:** Федотова Анастасия Алексеевна

**Тема ВКР:**
«Автоматическая генерация и проверка учебных заданий по языку программирования Python с помощью нейронных сетей (на примере ЧОУ ВО „Московский университет имени С.Ю. Витте“)»

В ноутбуке выполняется загрузка датасета, обучение модели машинного обучения и сохранение модели.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import joblib
import os

In [None]:
DATA_PATH = '../data/train_data.csv'
df = pd.read_csv(DATA_PATH)
df.head()

In [None]:
X = df['task_text']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [None]:
vectorizer = TfidfVectorizer(ngram_range=(1,2), max_features=3000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

In [None]:
model = LogisticRegression(max_iter=1000, solver='liblinear')
model.fit(X_train_vec, y_train)

In [None]:
y_pred = model.predict(X_test_vec)
print('Accuracy:', accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
os.makedirs('../models', exist_ok=True)
joblib.dump(model, '../models/model_task_classifier.pkl')
joblib.dump(vectorizer, '../models/task_vectorizer.pkl')
print('Модель сохранена')