In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

data = pd.read_csv('datasets/product_category.csv')


In [None]:
data

Unnamed: 0,Продукты,Категория
0,Сироп Add Sweety Карамель 1л с/б (Ќазаќстан/Ка...,Консервированные фрукты
1,Сироп Add Sweety Гранат 1л с/б (Ќазаќстан/Каза...,Консервированные фрукты
2,Сироп Add Sweety Тархун 1л с/б (Ќазаќстан/Каза...,Консервированные фрукты
3,Сироп Add Sweety Мохито 1л с/б (Ќазаќстан/Каза...,Консервированные фрукты
4,Сироп Add Sweety Клубника 1л с/б (Ќазаќстан/Ка...,Консервированные фрукты
...,...,...
10409,Набор Ручек Epene Шариковых 5шт ep01-0002-50 (...,Канцелярские принадлежности
10410,Бумага Цветная Радуга Creative Kris 100шт (Рес...,Канцелярские принадлежности
10411,Клей Пва Hatber 125г (Ресей/Россия),Канцелярские принадлежности
10412,Набор Игровой д/лепки play-doh Mini артe4902 (...,Канцелярские принадлежности


In [None]:
X_train, X_test, y_train, y_test = train_test_split(data['Продукты'], data['Категория'], test_size=0.2, random_state=42)

In [None]:
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)


In [None]:
label_encoder = LabelEncoder()
y_train_enc = label_encoder.fit_transform(y_train)
y_test_enc = label_encoder.transform(y_test)


In [None]:
model = LogisticRegression(max_iter=1000)
model.fit(X_train_vec, y_train_enc)

In [None]:
y_pred = model.predict(X_test_vec)

In [None]:
accuracy = accuracy_score(y_test_enc, y_pred)
report = classification_report(y_test_enc, y_pred, target_names=label_encoder.classes_)
print(f'Accuracy: {accuracy:.2f}')
print(report)

Accuracy: 0.85
                                     precision    recall  f1-score   support

             Безалкогольные напитки       0.97      0.98      0.98       133
                      Бытовая химия       1.00      0.99      0.99        76
                        Гастрономия       0.93      0.98      0.95       167
                    Детское питание       1.00      0.97      0.98        59
              Замороженные продукты       0.61      0.58      0.59       103
        Канцелярские принадлежности       1.00      0.58      0.74        24
               Кондитерские изделия       0.64      0.71      0.67       269
        Консервированное мясо птицы       0.96      1.00      0.98        22
             Консервированные овощи       1.00      0.96      0.98        54
            Консервированные фрукты       1.00      0.95      0.97        20
  Консервы из птицы и порепродуктов       1.00      0.88      0.93        32
                  Консервы молочные       0.86      0.86    

In [None]:
import joblib

joblib.dump(model, 'model.pkl')

