# Загрузка данных

In [2]:
import pandas as pd

In [13]:
df = pd.read_csv('../data/train.csv').drop(columns=['index'])

In [14]:
df['class'] = pd.Categorical(df['class'])

In [15]:
df.head(3)

Unnamed: 0,text,class
0,Выплата на содержание родных детей,TAX
1,Оплата за Бритва Gillette Blue II Plus однораз...,NON_FOOD_GOODS
2,Паевой взнос в жилищно-строительный кооператив...,REALE_STATE


## Очистка датасета

In [2]:
!pip install natasha

Defaulting to user installation because normal site-packages is not writeable
Collecting natasha
  Downloading natasha-1.6.0-py3-none-any.whl.metadata (23 kB)
Collecting pymorphy2 (from natasha)
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting razdel>=0.5.0 (from natasha)
  Downloading razdel-0.5.0-py3-none-any.whl.metadata (10.0 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl.metadata (21 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl.metadata (34 kB)
Collecting yargy>=0.16.0 (from natasha)
  Downloading yargy-0.16.0-py3-none-any.whl.metadata (3.5 kB)
Collecting ipymarkup>=0.8.0 (from natasha)
  Downloading ipymarkup-0.9.0-py3-none-any.whl.metadata (5.6 kB)
Collecting intervaltree>=3 (from ipymarkup>=0.8.0->natasha)
  Downloading intervaltree-3.1.0.tar.gz (32 kB)
  Preparing metadata (setup.py) ... [?25ldone
Collecting dawg-python>=0.7.1 (from pymorphy2->natasha)
  Downloading

In [None]:
from natasha import Doc, Segmenter, MorphVocab
from natasha import NewsEmbedding, NewsMorphTagger
import re
import string
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [27]:

# Инициализация компонентов Natasha
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

# Список месяцев
months = [
    "январь", "февраль", "март", "апрель", "май", "июнь",
    "июль", "август", "сентябрь", "октябрь", "ноябрь", "декабрь"
]

# Стоп-слова
russian_stopwords = set(stopwords.words("russian"))
russian_stopwords.discard('за')  # Убираем из стоп-слов "за"
russian_stopwords.update(['кг', 'сумма', 'тч', 'мл', 'счёт'])  # Добавляем свои слова

# Функция очистки текста
def clean_text(text, russian_stopwords, segmenter, morph_vocab, morph_tagger, months):
    # Удаляем даты из текста
    date_pattern = r"(\d{0,4}[./-]?)"
    cleaned_text = re.sub(date_pattern, "", text)
    
    # Токенизация и удаление стоп-слов
    tokens = word_tokenize(cleaned_text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords]
    tokens = [token for token in tokens if token not in string.punctuation]
    cleaned_text = ' '.join(tokens)
    
    # Используем Natasha для морфологической обработки
    doc = Doc(cleaned_text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    
    # Лемматизация
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
    
    # Убираем месяцы и короткие слова
    lemmas = [token.lemma for token in doc.tokens if token.lemma not in months and len(token.lemma) > 1]
    
    return ' '.join(lemmas)

In [28]:
df['clean_text'] = df['text'].apply(clean_text)
df['clean_text']

0                        Выплата содержание родных детей
1          Оплата Бритва одноразовая шт счету июля Сумма
2      Паевой взнос жилищно строительный кооператив ц...
3      доставку д транспортом г Одинцово г Бийск дого...
4                     юридические услуги договору января
                             ...                        
395          Оплата Восточные сладости халва счету Сумма
396    транспортировку перевозка железной дороге г Бе...
397              Оплата дог Б г согл сч г счет фактура г
398        Оплата Масло оливковое жарки мл счету г Сумма
399    Оплата Крем универсальный Пантенол мл счету г ...
Name: clean_text, Length: 400, dtype: object

# Наивный байесовский классификатор

In [29]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics import accuracy_score, f1_score

In [30]:
vectorizer = TfidfVectorizer()

### На грязном тексте

In [31]:
X = vectorizer.fit_transform(df.text.tolist())
y = df['class']

In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [33]:
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)

In [34]:
y_pred = nb_model.predict(X_test)

print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(f'F1-Score: {f1_score(y_test, y_pred, average="macro")}')

Accuracy: 0.8375
F1-Score: 0.8051641372524225


### На чистом тексте

In [35]:
X = vectorizer.fit_transform(df.clean_text.tolist())
y = df['class']

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [37]:
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)

In [38]:
y_pred = nb_model.predict(X_test)

print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(f'F1-Score: {f1_score(y_test, y_pred, average="macro")}')

Accuracy: 0.875
F1-Score: 0.8397206139141624
