<a href="https://colab.research.google.com/github/RomanChertkov/geekBrains_diplom_prepare_dataset/blob/main/GeekBrains_diplom_ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
import pandas as pd

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
# TfidfVectorizer преобразует тексты в числовые вектора, отражающие важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом тексте
from sklearn.linear_model import SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
# линейный классификатор и классификатор методом ближайших соседей
from sklearn import metrics
# набор метрик для оценки качества модели
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('/content/drive/MyDrive/10_000news.csv',)

In [3]:
df.shape

(10000, 2)

In [4]:
X = df ['text']
y = df['topic']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
sgd_ppl_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('sgd_clf', SGDClassifier(random_state=42))])

In [8]:
knb_ppl_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('knb_clf', KNeighborsClassifier(n_neighbors=10))])

In [10]:
sgd_ppl_clf.fit(X_train, y_train)

In [11]:
knb_ppl_clf.fit(X_train, y_train)

In [12]:
predicted_sgd = sgd_ppl_clf.predict(X_test)
print(metrics.classification_report(predicted_sgd, y_test))

                   precision    recall  f1-score   support

           Бизнес       0.03      0.33      0.06         3
      Бывший СССР       0.92      0.87      0.90       301
              Дом       0.79      0.86      0.82        90
         Из жизни       0.66      0.73      0.70        97
   Интернет и СМИ       0.81      0.83      0.82       227
         Культура       0.91      0.88      0.89       238
  Наука и техника       0.94      0.89      0.92       280
      Путешествия       0.36      0.92      0.52        13
Силовые структуры       0.78      0.85      0.82        47
            Спорт       0.97      0.96      0.96       279
         Ценности       0.72      0.94      0.82        31
        Экономика       0.92      0.83      0.87       394

         accuracy                           0.87      2000
        macro avg       0.74      0.82      0.76      2000
     weighted avg       0.89      0.87      0.88      2000



In [13]:
predicted_knb = knb_ppl_clf.predict(X_test)
print(metrics.classification_report(predicted_knb, y_test))

                   precision    recall  f1-score   support

           Бизнес       0.10      0.21      0.14        14
      Бывший СССР       0.91      0.78      0.84       331
              Дом       0.79      0.74      0.77       104
         Из жизни       0.45      0.62      0.52        77
   Интернет и СМИ       0.72      0.75      0.74       224
         Культура       0.82      0.86      0.84       223
  Наука и техника       0.87      0.87      0.87       267
      Путешествия       0.30      0.91      0.45        11
Силовые структуры       0.65      0.87      0.74        38
            Спорт       0.96      0.94      0.95       282
         Ценности       0.65      0.93      0.76        28
        Экономика       0.88      0.78      0.83       401

         accuracy                           0.81      2000
        macro avg       0.68      0.77      0.70      2000
     weighted avg       0.83      0.81      0.82      2000



In [18]:
sgd_ppl_clf_tuned = Pipeline([
    ('tfidf', TfidfVectorizer(ngram_range=(1, 2))),
    ('sgd_clf', SGDClassifier(penalty='elasticnet', class_weight='balanced', random_state=42))])
sgd_ppl_clf_tuned.fit(X_train, y_train)
predicted_sgd_tuned = sgd_ppl_clf_tuned.predict(X_test)
print(metrics.classification_report(predicted_sgd_tuned, y_test))

                   precision    recall  f1-score   support

           Бизнес       0.63      0.42      0.51        45
      Бывший СССР       0.93      0.86      0.90       308
              Дом       0.91      0.77      0.83       115
         Из жизни       0.55      0.68      0.61        87
   Интернет и СМИ       0.69      0.84      0.76       189
         Культура       0.86      0.90      0.88       222
  Наука и техника       0.92      0.88      0.90       278
      Путешествия       0.79      0.72      0.75        36
Силовые структуры       0.88      0.63      0.74        71
            Спорт       0.97      0.93      0.95       285
         Ценности       0.85      0.79      0.82        43
        Экономика       0.84      0.92      0.88       321

         accuracy                           0.85      2000
        macro avg       0.82      0.78      0.79      2000
     weighted avg       0.86      0.85      0.85      2000



In [14]:
test = [
    'Экономика Германии справилась с недостатком газа, который был связан с прекращением поставок из России, эта проблема последних двух лет более не ощущается. Об этом заявил министр экономики ФРГ Роберт Хабек, сообщает Welt. По его словам, отсутствие российского газа больше не ощущается, дефицит закончился. В то же время он признал, что стоимость топлива не вернется на докризисный уровень. До начала боевых действий на Украине Германия была крупнейшим экспортным рынком для «Газпрома». С 2022 года Германия находилась в чрезвычайной ситуации по газовой безопасности. В стране активно проводили политику экономии топлива и искали альтернативных поставщиков. Эти проблемы привели к замедлению национальной экономики, которое не удается преодолеть до сих пор. Одним из следствий роста цен на энергоносители может стать беспрецедентное закрытие заводов Volkswagen. Вместе с тем фондовый рынок республики находится в состоянии роста, что свидетельствует о вере инвесторов в перспективы экономики. С начала года индекс S&P Germany BMI Liquid 35/20 Capped, объединяющий 30 наиболее ликвидных акций немецкого рынка, вырос на 14 процентов. Ранее президент России Владимир Путин признался, что не понимает, почему Берлин не хочет договориться с Москвой об использовании уцелевшей после взрыва одной из веток газопровода «Северный поток-2», который так и не был сертифицирован.',
    'Число новых работников в угольной сфере в Кузбассе за июль 2024 года увеличилось с 91 тысячи до 97 тысяч человек, что стало рекордным показателем за последние годы. Такие данные озвучил министр угольной промышленности региона Олег Токарев. В беседе с ТАСС глава ведомства пояснил, что такой скачок связан с открытием новых производств в регионе, в том числе фабрик и шахт. Однако при этом он добавил, что проблема нехватки кадров до сих пор существует: в угольной промышленности не хватает порядка 4,5 тысячи человек. «То есть предприятия готовы еще принять людей на работу», — сказал Токарев. Напомним, на территории Кузбасса расположено более 150 угольных предприятий, которые обеспечивают добычу более 50% всего российского угля. Налоги от реализации угля составляют основную доходную часть в бюджете региона.',
    'В группу D также попали сборные Испании и Новой Зеландии. В 1-м туре сборная Казахстана вничью сыграла с Испанией (1:1), а Ливия победила Новую Зеландию — 3:1. Чемпионат мира по футзалу проходит с 14 сентября по 6 октября в трёх узбекских городах: Андижане, Бухаре и Ташкенте. В турнире участвуют 24 команды, разбитые на шесть групп. Действующим чемпионом мира является сборная Португалии, завоевавшая титул в 2021 году.'
    ]

In [15]:
sgd_ppl_clf.predict(test)

array(['Экономика', 'Экономика', 'Спорт'], dtype='<U17')

In [16]:
knb_ppl_clf.predict(test)

array(['Экономика', 'Экономика', 'Спорт'], dtype=object)

In [20]:
import pickle
with open('/content/drive/MyDrive/text_classifier_sgd', 'wb') as picklefile:
    pickle.dump(sgd_ppl_clf_tuned,picklefile)