In [6]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import joblib

nltk.download('stopwords')
nltk.download('punkt_tab')

data = pd.read_csv('/content/datasethahaton.csv')
data.head()

def preprocess_text(text):
  text = text.lower()

  text = text.translate(str.maketrans("", "", string.punctuation))

  tokens = word_tokenize(text)

  stop_words = set(stopwords.words('russian'))
  tokens = [word for word in tokens if word not in stop_words]

  return " ".join(tokens)

data['clean_content'] = data['content'].apply(preprocess_text)
print(data[['content', 'clean_content']])

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['clean_content'])
y= data['class_news']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = MultinomialNB()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Точность модели: {accuracy}')

new_text = input('Введите новость:')

new_text_cleaned = preprocess_text(new_text)
new_text_vectorized =  vectorizer.transform([new_text_cleaned])

prediction = model.predict(new_text_vectorized)
print(f'Класс новости: {prediction[0]}')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


                                              content  \
0   Частное учреждение «Наука и инновации» входит ...   
1   Национальный центр Россия совместно с Российск...   
2   национальный центр россия совместно с российск...   
3   ученые из россии с коллегами из ирландии и вел...   
4   в десятилетие науки и технологий университеты ...   
5   в мфти разработали принтер сухой аэрозольной п...   
6   ученые из сколтеха института нанотехнологий ми...   
7   новые перовскитные фотодиоды созданные российс...   
8   в десятилетие науки и технологий университеты ...   
9   с 1 апреля 2025 года начал действовать новый н...   
10  российские ученые доказали что серотонин играе...   
11  международный форум университеты бизнес и изме...   
12  стартап фистех созданный на базе сколтеха впер...   
13  1 апреля в музее атом на вднх прошла презентац...   
14  Ученые сеченовского университета вместе с колл...   
15  Учёные из России разработали метод ранней диаг...   
16  Новый препарат для лечения 

In [7]:
joblib.dump(model, 'model.pkl')
joblib.dump(vectorizer, 'vectorizer.pkl')

['vectorizer.pkl']