In [None]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split
import torch

In [None]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(device)

cuda


In [None]:
import kagglehub

path = kagglehub.dataset_download("kuantaiulysalamat/kazakh-news-articles-dataset")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/kazakh-news-articles-dataset


In [None]:
import os

os.listdir(path)

['tags.csv', 'tengri_news.csv']

In [None]:
df = pd.read_csv(os.path.join(path, 'tengri_news.csv'))
df

Unnamed: 0,title,url,tags,text
0,Әлемдегі ең танымал туристік бағыттар аталды,https://kaz.tengritravel.kz/around-the-world/a...,"['туризм', 'рейтинг', 'саяхат']",Tripadvisor нұсқасы бойынша Индонезияның Бали ...
1,2020 жылдың қорытындысы бойынша Қазақстан халқ...,https://kaz.tengrinews.kz/kazakhstan_news/2020...,"['қазақстан', 'халық саны']",2021 жылы елдегі халық саны 18 миллион 877 мың...
2,Қазақстандықтар 2021 жылды қарсы алып жатыр,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['мереке', 'жаңа жыл']",Қазақстандықтар 2021 жылды қарсы алып жатыр. 2...
3,2022 жылы Балқаш көлінде демалу қанша тұрады,https://kaz.tengritravel.kz/my-country/2022-jy...,"['туризм', 'балқаш', 'турист', 'саяхат']",2022 жылдың жазғы маусымында Балқаш көлінде де...
4,Тоқаев қазақстандықтарды 2022 жылы не күтіп тұ...,https://kaz.tengrinews.kz/kazakhstan_news/toka...,"['тоқаев қасым-жомарт', 'жаңа жыл']",Президент Қасым-Жомарт Тоқаев қазақстандықтард...
...,...,...,...,...
27583,Қай қалаларда жаңажылдық отшашу болады?,https://kaz.tengrinews.kz/kazakhstan_news/kay-...,"['өңір', 'мереке', 'жаңа жыл']",Оралда мерекелік отшашу 31 желтоқсан сағат 23....
27584,"Бір өңір ""жасыл"" аймақтан ""сары"" аймаққа өтті",https://kaz.tengrinews.kz/kazakhstan_news/br-o...,"['өңір', 'эпидемиологиялық жағдай', 'ақтөбе об...",15 қазандағы жағдай бойынша Қазақстан өңірлері...
27585,"Қазақстанда 4 өңір ""қызыл"" аймақта",https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['өңір', 'эпидемиологиялық жағдай', 'қазақстан...",Қазақстан өңірлеріндегі эпидемиологиялық ахуал...
27586,Қазақстан өңірлеріндегі білім сапасында алшақт...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['өңір', 'мектеп', 'білім беру']",Білім және ғылым министрі Асхат Аймағамбетов Қ...


## data prep

In [None]:
import ast

df["tags_list"] = df["tags"].apply(ast.literal_eval)
df

Unnamed: 0,title,url,tags,text,tags_list
0,Әлемдегі ең танымал туристік бағыттар аталды,https://kaz.tengritravel.kz/around-the-world/a...,"['туризм', 'рейтинг', 'саяхат']",Tripadvisor нұсқасы бойынша Индонезияның Бали ...,"[туризм, рейтинг, саяхат]"
1,2020 жылдың қорытындысы бойынша Қазақстан халқ...,https://kaz.tengrinews.kz/kazakhstan_news/2020...,"['қазақстан', 'халық саны']",2021 жылы елдегі халық саны 18 миллион 877 мың...,"[қазақстан, халық саны]"
2,Қазақстандықтар 2021 жылды қарсы алып жатыр,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['мереке', 'жаңа жыл']",Қазақстандықтар 2021 жылды қарсы алып жатыр. 2...,"[мереке, жаңа жыл]"
3,2022 жылы Балқаш көлінде демалу қанша тұрады,https://kaz.tengritravel.kz/my-country/2022-jy...,"['туризм', 'балқаш', 'турист', 'саяхат']",2022 жылдың жазғы маусымында Балқаш көлінде де...,"[туризм, балқаш, турист, саяхат]"
4,Тоқаев қазақстандықтарды 2022 жылы не күтіп тұ...,https://kaz.tengrinews.kz/kazakhstan_news/toka...,"['тоқаев қасым-жомарт', 'жаңа жыл']",Президент Қасым-Жомарт Тоқаев қазақстандықтард...,"[тоқаев қасым-жомарт, жаңа жыл]"
...,...,...,...,...,...
27583,Қай қалаларда жаңажылдық отшашу болады?,https://kaz.tengrinews.kz/kazakhstan_news/kay-...,"['өңір', 'мереке', 'жаңа жыл']",Оралда мерекелік отшашу 31 желтоқсан сағат 23....,"[өңір, мереке, жаңа жыл]"
27584,"Бір өңір ""жасыл"" аймақтан ""сары"" аймаққа өтті",https://kaz.tengrinews.kz/kazakhstan_news/br-o...,"['өңір', 'эпидемиологиялық жағдай', 'ақтөбе об...",15 қазандағы жағдай бойынша Қазақстан өңірлері...,"[өңір, эпидемиологиялық жағдай, ақтөбе облысы,..."
27585,"Қазақстанда 4 өңір ""қызыл"" аймақта",https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['өңір', 'эпидемиологиялық жағдай', 'қазақстан...",Қазақстан өңірлеріндегі эпидемиологиялық ахуал...,"[өңір, эпидемиологиялық жағдай, қазақстан, қыз..."
27586,Қазақстан өңірлеріндегі білім сапасында алшақт...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['өңір', 'мектеп', 'білім беру']",Білім және ғылым министрі Асхат Аймағамбетов Қ...,"[өңір, мектеп, білім беру]"


посмотреть количество повторений каждого тега

In [None]:
from collections import Counter

all_rows = []
for row in df['tags_list']:
  all_rows.extend(row)

counter = Counter(all_rows)


In [None]:
topics = pd.Series(counter)
topics.describe()

Unnamed: 0,0
count,2460.0
mean,34.69878
std,126.335369
min,1.0
25%,2.0
50%,6.0
75%,23.0
max,3231.0


In [None]:
topics.sort_values(ascending=False).head(20)

Unnamed: 0,0
коронавирус,3231
алматы,2369
соңғы жаңалықтар,1774
қазақстан,1717
қылмыс,1697
карантин,1238
вакцина,1059
ресей,849
нұр-сұлтан,660
жекпе-жек,648


собрать самые популярные теги

In [None]:
topics_to_keep = topics[topics >= 400].index
topics_to_keep

Index(['туризм', 'саяхат', 'қазақстан', 'тоқаев қасым-жомарт', 'видеолар',
       'коронавирус', 'ресей', 'соңғы жаңалықтар', 'құқық қорғау органдары',
       'сот', 'карантин', 'мектеп', 'нұр-сұлтан', 'алматы', 'ақш', 'вакцина',
       'пандемия', 'денсаулық', 'бокс', 'астана', 'тағайындау', 'министр',
       'спорт', 'шымкент ', 'жекпе-жек', 'балалар', 'ақорда', 'көліктер',
       'полиция', 'қасым-жомарт тоқаев', 'қылмыс', 'алматы облысы', 'әкім',
       'ұрлық', 'пневмония'],
      dtype='object')

## rebalancing

In [None]:
df_balanced = pd.DataFrame()
for topic in topics_to_keep:
  filtered_df = df[df['tags'].str.contains(topic, case=False, na=False)]
  topic_sample = filtered_df.sample(n=400, random_state=42)
  df_balanced = pd.concat([df_balanced, topic_sample])
df_balanced

Unnamed: 0,title,url,tags,text,tags_list
12331,Дубайда әлемдегі ең биік панорамалық бассейн а...,https://kaz.tengritravel.kz/around-the-world/d...,"['туризм', 'бассейн', 'дубай', 'саяхат']",Дубайда 360 градусқа қарайтын әлемдегі ең биік...,"[туризм, бассейн, дубай, саяхат]"
17068,Туроператорлар Мысырдың қазақстандықтар үшін қ...,https://kaz.tengritravel.kz/my-country/turoper...,"['шекара', 'мысыр', 'рейс', 'туризм', 'коронав...",Қазақстандық туристер өткен жылдың қарашасынан...,"[шекара, мысыр, рейс, туризм, коронавирус]"
5426,Нью-Йоркте үрейлі аттракцион пайда болады,https://kaz.tengritravel.kz/around-the-world/n...,"['туризм', 'нью-йорк', 'турист', 'ақш']",Нью-Йорк тұрғындары мен қонақтары енді қаланы ...,"[туризм, нью-йорк, турист, ақш]"
23718,БАӘ-де жылдың осы уақыты үшін қалыпсыз аптап ы...,https://kaz.tengritravel.kz/around-the-world/b...,"['туризм', 'ыстық', 'біріккен араб әмірліктері...",Біріккен Араб Әмірліктеріндегі ауа райы темпер...,"[туризм, ыстық, біріккен араб әмірліктері, ауа..."
3775,Ердоған Түркия туризмінің ең үлкен мәселесін а...,https://kaz.tengritravel.kz/travel-notes/erdog...,"['табыс', 'түркия', 'инфляция', 'туризм', 'реж...","Туризм ""мақсаттарды барынша жүзеге асыруға"" бе...","[табыс, түркия, инфляция, туризм, режеп тайып ..."
...,...,...,...,...,...
20678,Пневмония: тағы 3 адам көз жұмды,https://kaz.tengrinews.kz/kazakhstan_news/pnev...,"['пневмония', 'коронавирус']",2020 жылғы 26 желтоқсанда тіркелген коронавиру...,"[пневмония, коронавирус]"
20424,2 088 қазақстандық коронавирустан қайтыс болған,https://kaz.tengrinews.kz/kazakhstan_news/2-08...,"['пневмония', 'коронавирус', 'статистика', 'па...",Пандемия басталғалы 2 088 қазақстандық коронав...,"[пневмония, коронавирус, статистика, пандемия]"
17558,Қазақстанда коронавирус пен пневмониядан тағы ...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['пневмония', 'қазақстан', 'коронавирус', 'ада...",Қазақстанда бір тәулік ішінде коронавирус пен ...,"[пневмония, қазақстан, коронавирус, адам өлімі]"
17425,Қазақстанда коронавирус пен пневмониядан бір т...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['пневмония', 'коронавирус']",Қазақстанда коронавирус пен пневмониядан тағы ...,"[пневмония, коронавирус]"


In [None]:
def drop_tags(row):
  new_list = []
  for topic in row:
    if topic in topics_to_keep:
      new_list.append(topic)
  return new_list

df_balanced['tags_list_cut'] = df_balanced['tags_list'].apply(lambda x: drop_tags(x))
df_balanced

Unnamed: 0,title,url,tags,text,tags_list,tags_list_cut
12331,Дубайда әлемдегі ең биік панорамалық бассейн а...,https://kaz.tengritravel.kz/around-the-world/d...,"['туризм', 'бассейн', 'дубай', 'саяхат']",Дубайда 360 градусқа қарайтын әлемдегі ең биік...,"[туризм, бассейн, дубай, саяхат]","[туризм, саяхат]"
17068,Туроператорлар Мысырдың қазақстандықтар үшін қ...,https://kaz.tengritravel.kz/my-country/turoper...,"['шекара', 'мысыр', 'рейс', 'туризм', 'коронав...",Қазақстандық туристер өткен жылдың қарашасынан...,"[шекара, мысыр, рейс, туризм, коронавирус]","[туризм, коронавирус]"
5426,Нью-Йоркте үрейлі аттракцион пайда болады,https://kaz.tengritravel.kz/around-the-world/n...,"['туризм', 'нью-йорк', 'турист', 'ақш']",Нью-Йорк тұрғындары мен қонақтары енді қаланы ...,"[туризм, нью-йорк, турист, ақш]","[туризм, ақш]"
23718,БАӘ-де жылдың осы уақыты үшін қалыпсыз аптап ы...,https://kaz.tengritravel.kz/around-the-world/b...,"['туризм', 'ыстық', 'біріккен араб әмірліктері...",Біріккен Араб Әмірліктеріндегі ауа райы темпер...,"[туризм, ыстық, біріккен араб әмірліктері, ауа...",[туризм]
3775,Ердоған Түркия туризмінің ең үлкен мәселесін а...,https://kaz.tengritravel.kz/travel-notes/erdog...,"['табыс', 'түркия', 'инфляция', 'туризм', 'реж...","Туризм ""мақсаттарды барынша жүзеге асыруға"" бе...","[табыс, түркия, инфляция, туризм, режеп тайып ...",[туризм]
...,...,...,...,...,...,...
20678,Пневмония: тағы 3 адам көз жұмды,https://kaz.tengrinews.kz/kazakhstan_news/pnev...,"['пневмония', 'коронавирус']",2020 жылғы 26 желтоқсанда тіркелген коронавиру...,"[пневмония, коронавирус]","[пневмония, коронавирус]"
20424,2 088 қазақстандық коронавирустан қайтыс болған,https://kaz.tengrinews.kz/kazakhstan_news/2-08...,"['пневмония', 'коронавирус', 'статистика', 'па...",Пандемия басталғалы 2 088 қазақстандық коронав...,"[пневмония, коронавирус, статистика, пандемия]","[пневмония, коронавирус, пандемия]"
17558,Қазақстанда коронавирус пен пневмониядан тағы ...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['пневмония', 'қазақстан', 'коронавирус', 'ада...",Қазақстанда бір тәулік ішінде коронавирус пен ...,"[пневмония, қазақстан, коронавирус, адам өлімі]","[пневмония, қазақстан, коронавирус]"
17425,Қазақстанда коронавирус пен пневмониядан бір т...,https://kaz.tengrinews.kz/kazakhstan_news/kaza...,"['пневмония', 'коронавирус']",Қазақстанда коронавирус пен пневмониядан тағы ...,"[пневмония, коронавирус]","[пневмония, коронавирус]"


In [None]:
df_balanced.dropna(subset=['tags_list_cut'], inplace=True)

In [None]:
from collections import Counter

all_rows = []
for row in df_balanced['tags_list_cut']:
  all_rows.extend(row)

counter = Counter(all_rows)
topics = pd.Series(counter)
display(topics.describe())
display(topics.sort_values(ascending=False))


Unnamed: 0,0
count,35.0
mean,720.6
std,355.239869
min,308.0
25%,564.0
50%,643.0
75%,732.0
max,2325.0


Unnamed: 0,0
коронавирус,2325
соңғы жаңалықтар,1261
алматы,1238
қылмыс,1080
карантин,1053
вакцина,894
қазақстан,870
жекпе-жек,832
ұрлық,738
нұр-сұлтан,726


In [None]:
texts = df_balanced["text"].tolist()
tags = df_balanced["tags_list_cut"].tolist()

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
binary_labels = mlb.fit_transform(tags)

In [None]:
len(mlb.classes_)

35

In [None]:
import numpy as np

binary_labels.shape

(14000, 35)

In [None]:
train_texts, val_texts, train_labels, val_labels = train_test_split(texts, binary_labels, test_size=0.2, random_state=42)

In [None]:
from torch.utils.data import Dataset
import torch
from transformers import AutoTokenizer

MODEL_NAME = "distilbert/distilbert-base-uncased" 

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

class NewsDataset(Dataset):
    def __init__(self, texts, labels):
        self.encodings = tokenizer(texts, truncation=True, padding=True, max_length=512)
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx], dtype=torch.float)
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = NewsDataset(train_texts, train_labels)
val_dataset = NewsDataset(val_texts, val_labels)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [None]:
import os
os.environ["WANDB_DISABLED"] = "true"

In [None]:
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

model = AutoModelForSequenceClassification.from_pretrained(
    MODEL_NAME,
    num_labels=len(mlb.classes_),
    problem_type="multi_label_classification"
)
model = model.to(device)

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=128,
    per_device_eval_batch_size=128,
    num_train_epochs=20,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    save_total_limit=1,
    fp16=True
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset
)

trainer.train()


Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert/distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Epoch,Training Loss,Validation Loss
1,0.2816,0.251683
2,0.2044,0.199072
3,0.1988,0.190749
4,0.1835,0.179515
5,0.169,0.165336
6,0.1569,0.151991
7,0.1467,0.14243
8,0.1388,0.134428
9,0.131,0.129705
10,0.1275,0.124838


TrainOutput(global_step=1760, training_loss=0.15085068480534988, metrics={'train_runtime': 2902.3461, 'train_samples_per_second': 77.179, 'train_steps_per_second': 0.606, 'total_flos': 2.96901599232e+16, 'train_loss': 0.15085068480534988, 'epoch': 20.0})

In [None]:
import joblib

model.save_pretrained("kaznews-bert")
tokenizer.save_pretrained("kaznews-bert")
joblib.dump(mlb, "label_binarizer.pkl")


['label_binarizer.pkl']

In [None]:
from sklearn.metrics import classification_report

preds = trainer.predict(val_dataset)
y_pred = (preds.predictions > 0.2).astype(int)
y_true = val_labels

print(classification_report(y_true, y_pred, target_names=mlb.classes_))


                        precision    recall  f1-score   support

                алматы       0.68      0.61      0.64       238
         алматы облысы       0.84      0.43      0.57       125
                астана       0.74      0.46      0.57       112
                ақорда       1.00      0.02      0.05       122
                   ақш       0.00      0.00      0.00       112
               балалар       1.00      0.04      0.07       140
                  бокс       0.83      0.85      0.84       144
               вакцина       0.86      0.77      0.82       181
              видеолар       0.44      0.08      0.14        96
             денсаулық       0.00      0.00      0.00        88
             жекпе-жек       0.79      0.81      0.80       180
              карантин       0.76      0.60      0.67       212
           коронавирус       0.80      0.76      0.78       478
              көліктер       0.00      0.00      0.00        82
                мектеп       0.82      

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
import numpy as np

def predict_tags(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    inputs = inputs.to(device)
    outputs = model(**inputs)
    probs = torch.sigmoid(outputs.logits).detach().cpu().numpy()[0]
    predicted = [mlb.classes_[i] for i, p in enumerate(probs) if p > 0.2]
    return predicted

# Пример
new_text = """
Бұл туралы "Ашық НҚА" порталында жарияланған Энергетика министрінің бұйрық жобасының түсіндірмесінде айтылған. Шектеу алты айға созылады және автомобиль мен теміржол көлігі арқылы тасымалдауға қатысты.

"Қазақстан Республикасы аумағынан сұйытылған мұнай газын (Код ТН ВЭД ЕАЭС 2711 12 970 0), пропанды (2711 12 940 0) және бутанды (2711 13 970 0) автомобиль және теміржол көлігімен сыртқа шығаруға алты ай мерзімге тыйым салу енгізілсін", – делінген министрлік жобасында.


Еске салайық, 2024 жылдың қазан айының басында бұрынғы энергетика министрі Алмасадам Сәтқалиев кейбір өңірлерде жекелеген жанармай құю бекеттерінде сұйытылған газ тапшылығы туындағанын мойындаған болатын. Оның айтуынша, бұл жағдай егін жинау науқаны мен жауын-шашын салдарынан орын алып, диқандарға астықты кептіруге қосымша ресурстар қажет болған.

Алайда министр елде мұнай өнімдерінің ешбір түрі бойынша тапшылық жоқ екенін мәлімдеген еді.

Соған қарамастан, бір жыл бұрын-ақ министр автокөлік иелеріне көліктерін газға ауыстыруды ұсынбаған, өйткені 2023 жылы сұйытылған мұнай газын тұтыну жоспарланған көлемнен асып кеткенін атап өткен болатын.
"""
new_text = """
Синоптиктер Астана тұрғындары мен қонақтарына құмды дауыл соғатыны туралы ескертті, - деп хабарлайды Tengrinews.kz тілшісі ТЖД-ға сілтеме жасап.

10 сәуірде қалада ауа айына байланысты ескерту жарияланды.

    "Астананың Төтенше жағдайлар департаменті "Қазгидромет" РМК деректеріне сүйене отырып, 10 сәуірде Астанада құмды дауыл күтілетінін хабарлайды", – делінген хабарламада.

Сілтемесіз жаңалық оқисыз ба? Онда Telegram желісінде парақшамызға тіркеліңіз!
"""
print("Тегтер:", predict_tags(new_text))


Тегтер: ['астана']


In [None]:
import shutil

shutil.make_archive('kaznews-bert', 'zip', 'kaznews-bert')


'/content/kaznews-bert.zip'

In [None]:
from google.colab import files

# Download the zipped model
files.download('kaznews-bert.zip')

# Download the label binarizer
files.download('label_binarizer.pkl')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
import shutil

shutil.make_archive('logs', 'zip', 'logs')

# Download the zipped model
files.download('logs.zip')


shutil.make_archive('results', 'zip', 'results')

# Download the zipped model
files.download('results.zip')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>