In [7]:
import pandas as pd
import numpy as np
from tqdm import tqdm_notebook
import os


In [5]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("yutkin/corpus-of-russian-news-articles-from-lenta")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/yutkin/corpus-of-russian-news-articles-from-lenta?dataset_version_number=2...


100%|██████████| 584M/584M [00:06<00:00, 93.3MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/yutkin/corpus-of-russian-news-articles-from-lenta/versions/2


In [8]:
print("Files in the dataset directory:")
print(os.listdir(path))

csv_filename = "lenta-ru-news.csv"

full_csv_path = os.path.join(path, csv_filename)

ds = pd.read_csv(full_csv_path)

print(ds.head())

Files in the dataset directory:
['lenta-ru-news.csv']
                                           url  \
0   https://lenta.ru/news/1914/09/16/hungarnn/   
1  https://lenta.ru/news/1914/09/16/lermontov/   
2  https://lenta.ru/news/1914/09/17/nesteroff/   
3   https://lenta.ru/news/1914/09/17/bulldogn/   
4       https://lenta.ru/news/1914/09/18/zver/   

                                               title  \
0  1914. Русские войска вступили в пределы Венгрии     
1  1914. Празднование столетия М.Ю. Лермонтова от...   
2                           1914. Das ist Nesteroff!   
3                    1914. Бульдог-гонец под Льежем    
4           1914. Под Люблином пойман швабский зверь   

                                                text       topic  \
0  Бои у Сопоцкина и Друскеник закончились отступ...  Библиотека   
1  Министерство народного просвещения, в виду про...  Библиотека   
2  Штабс-капитан П. Н. Нестеров на днях, увидев в...  Библиотека   
3  Фотограф-корреспондент Daily Mirr

  ds = pd.read_csv(full_csv_path)


In [9]:
ds.shape

(800975, 6)

In [10]:
ds.isnull().sum()

Unnamed: 0,0
url,0
title,0
text,5
topic,62002
tags,27219
date,0


In [11]:
ds.dropna(inplace= True)
ds.shape

(712654, 6)

In [12]:
ds_sample = ds.sample(n=1000)
ds_sample.to_csv('ds_sample.csv',index = False)

In [13]:
new_data = pd.read_csv('ds_sample.csv')

In [14]:
new_data.dropna(inplace = True)
new_data.shape

(1000, 6)

# Data exploration

In [15]:
from collections import Counter

In [16]:
Counter(ds_sample.tags)

Counter({'Все': 653,
         'Хоккей': 2,
         'Общество': 36,
         'Госэкономика': 22,
         'Зимние виды': 5,
         'Интернет': 19,
         'Стиль': 4,
         'Криминал': 5,
         'Бизнес': 12,
         'События': 6,
         'Украина': 23,
         'Следствие и суд': 8,
         'Еда': 1,
         'Квартира': 5,
         'Игры': 4,
         'Преступная Россия': 2,
         'Политика': 38,
         'Люди': 8,
         'Музыка': 8,
         'Кино': 17,
         'Полиция и спецслужбы': 3,
         'Конфликты': 6,
         'Мировой бизнес': 2,
         'Происшествия': 11,
         'ТВ и радио': 5,
         'Рынки': 1,
         'Космос': 3,
         'Прибалтика': 3,
         'Россия': 1,
         'Coцсети': 6,
         'Театр': 3,
         'Город': 3,
         'Вирусные ролики': 1,
         'Техника': 1,
         'Часы': 1,
         'Москва': 3,
         'Футбол': 19,
         'Наука': 11,
         'Деловой климат': 2,
         'Белоруссия': 3,
         'Звери': 2,
 

In [17]:
cntr = Counter(ds.tags)
{k: v for k, v in sorted(cntr.items(), key=lambda item: item[1], reverse=True)}

{'Все': 453581,
 'Политика': 33220,
 'Общество': 27560,
 'Украина': 17934,
 'Происшествия': 15972,
 'Футбол': 13128,
 'Госэкономика': 12869,
 'Кино': 9109,
 'Бизнес': 8224,
 'Интернет': 7945,
 'Наука': 6975,
 'Следствие и суд': 6825,
 'Музыка': 5822,
 'Люди': 5184,
 'Преступность': 4737,
 'Квартира': 3759,
 'Космос': 3622,
 'События': 3161,
 'Конфликты': 3136,
 'ТВ и радио': 3028,
 'Coцсети': 2924,
 'Летние виды': 2893,
 'Деловой климат': 2656,
 'Регионы': 2639,
 'Криминал': 2550,
 'Явления': 2523,
 'Бокс и ММА': 2443,
 'Звери': 2278,
 'Город': 2247,
 'Гаджеты': 2183,
 'Мир': 2121,
 'Стиль': 2090,
 'Игры': 2072,
 'Рынки': 2012,
 'Пресса': 1805,
 'Искусство': 1795,
 'Зимние виды': 1677,
 'Полиция и спецслужбы': 1635,
 'Закавказье': 1442,
 'Деньги': 1361,
 'Москва': 1312,
 'Прибалтика': 1242,
 'Театр': 1217,
 'Оружие': 1216,
 'Техника': 1208,
 'Книги': 1208,
 'Средняя Азия': 1131,
 'Дача': 1084,
 'Белоруссия': 916,
 'Хоккей': 915,
 'Мировой бизнес': 854,
 'Движение': 834,
 'Офис': 783,
 

In [18]:
texts = ds_sample.text.values
#remove punctuation

def rem_punc(t):
# define punctuation
    punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890'''


# remove punctuation from the string
    for c in punctuations:
        t=t.replace(c,' ')


# display the unpunctuated string
    return t.replace('\n',' ')


no_punc_text = [rem_punc(t) for t in tqdm_notebook(texts)]

  punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890'''
Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  no_punc_text = [rem_punc(t) for t in tqdm_notebook(texts)]


  0%|          | 0/1000 [00:00<?, ?it/s]

In [19]:
#lowercase
lc_text = [t.lower() for t in tqdm_notebook(no_punc_text)]
lc_text[0]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  lc_text = [t.lower() for t in tqdm_notebook(no_punc_text)]


  0%|          | 0/1000 [00:00<?, ?it/s]

'лидер мадридского  реала  криштиану роналду забил победный гол в матче чемпионата испании против  расинга  из сантандера   реал  одержал выездную победу со счетом     и вышел в лидеры национального первенства  команда из мадрида опережает  барселону  за счет лучшей разницы забитых и пропущенных мячей  сообщает          роналду забил победный гол на    й минуте  реализовав пенальти в ворота  расинга   окончательный счет на    й минуте установил аргентинский нападающий  реала  гонсало игуаин  для криштиану роналду его гол стал    м в чемпионате испании  а для игуаина      м  первое место в споре бомбардиров по прежнему занимает аргентинский нападающий  барселоны  лионель месси  на счету которого    мячей  в субботу    апреля  месси забил гол в ворота  атлетика  из бильбао и помог  барселоне  одержать победу со счетом      после    туров  реал  и  барселона  набрали по    очков  в воскресенье     апреля  эти команды сыграют друг с другом на поле  реала  '

In [20]:
#stopword removal
import nltk
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')
sw = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [25]:
import nltk
nltk.download('punkt_tab')
nltk.download('stopwords')
text = "Я очень люблю изучать обработку естественного языка"

# tokenize into words
words = nltk.word_tokenize(text, language="russian")

# filter out stopwords
filtered = [w for w in words if w.lower() not in sw]

print("Original:", words)
print("Without stopwords:", filtered)

Original: ['Я', 'очень', 'люблю', 'изучать', 'обработку', 'естественного', 'языка']
Without stopwords: ['очень', 'люблю', 'изучать', 'обработку', 'естественного', 'языка']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [26]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [27]:
ds.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18


In [28]:
ds['title'][0]

'1914. Русские войска вступили в\xa0пределы Венгрии  '

In [29]:
words = nltk.word_tokenize(ds['title'][0], language="russian")

In [30]:
words

['1914', '.', 'Русские', 'войска', 'вступили', 'в', 'пределы', 'Венгрии']

In [None]:
# Clean the data set from stop words
# your code

In [35]:
def clean_text_stopwords(text, stop_words):
  if pd.isna(text):
    return text
  words = nltk.word_tokenize(text, language="russian")
  filtered_words = [w for w in words if w.lower() not in stop_words]
  return " ".join(filtered_words)

ds_sample['text_cleaned'] = ds_sample['text'].apply(lambda x: clean_text_stopwords(x, sw))

print(ds_sample[['text', 'text_cleaned']])

                                                     text  \
325481  Лидер мадридского "Реала" Криштиану Роналду за...   
389753  Актер Иван Охлобыстин объявил, что больше не н...   
84678   В центральноафриканским государстве Бенин при ...   
688802  Защитник подольского «Витязя» Алексей Семенов ...   
334150  Задолженность Белоруссии перед "Газпромом" за ...   
...                                                   ...   
484505  В Норвегии охотник на лосей случайно подстрели...   
384437  Восемь россиян были госпитализированы в Турции...   
199071  Итальянский кинорежиссер Джузеппе Торнаторе, г...   
663956  По меньшей мере пять человек стали жертвами ци...   
307762  Федеральная антимонопольная служба (ФАС) намер...   

                                             text_cleaned  
325481  Лидер мадридского `` Реала '' Криштиану Роналд...  
389753  Актер Иван Охлобыстин объявил , намерен баллот...  
84678   центральноафриканским государстве Бенин вылете...  
688802  Защитник подольског

In [36]:
ds_sample.to_csv('ds_sample_cleaned.csv', index=False)