In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm_notebook

In [2]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("yutkin/corpus-of-russian-news-articles-from-lenta")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/yutkin/corpus-of-russian-news-articles-from-lenta?dataset_version_number=2...


100%|██████████| 584M/584M [00:07<00:00, 83.6MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/yutkin/corpus-of-russian-news-articles-from-lenta/versions/2


In [3]:
import os

In [4]:
os.listdir(path)

['lenta-ru-news.csv']

In [5]:
data_path = os.path.join(path, 'lenta-ru-news.csv')
data_path

'/root/.cache/kagglehub/datasets/yutkin/corpus-of-russian-news-articles-from-lenta/versions/2/lenta-ru-news.csv'

In [6]:
ds = pd.read_csv(data_path)
ds.head()

  ds = pd.read_csv(data_path)


Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18


In [7]:
ds.shape

(800975, 6)

In [8]:
ds.isnull().sum()

Unnamed: 0,0
url,0
title,0
text,5
topic,62002
tags,27219
date,0


In [9]:
ds.dropna(inplace= True)
ds.shape

(712654, 6)

In [10]:
ds_sample = ds.sample(n=1000)
ds_sample.to_csv('ds_sample.csv',index = False)

In [11]:
new_data = pd.read_csv('ds_sample.csv')

In [12]:
new_data.dropna(inplace = True)
new_data.shape

(1000, 6)

# Data exploration

In [13]:
from collections import Counter

In [14]:
Counter(ds_sample.tags)

Counter({'Все': 626,
         'Интернет': 10,
         'Политика': 48,
         'Музыка': 10,
         'Конфликты': 5,
         'Зимние виды': 1,
         'Общество': 43,
         'Госэкономика': 26,
         'Происшествия': 20,
         'Дача': 1,
         'Следствие и суд': 9,
         'Достижения': 2,
         'Преступность': 7,
         'Футбол': 20,
         'Наука': 12,
         'Бизнес': 14,
         'Люди': 10,
         'Закавказье': 4,
         'Квартира': 7,
         'Украина': 31,
         'Пресса': 3,
         'События': 4,
         'Внешний вид': 1,
         'Coцсети': 5,
         'Хоккей': 4,
         'Рынки': 3,
         'Техника': 2,
         'Криминал': 4,
         'Космос': 5,
         'Полиция и спецслужбы': 2,
         'Кино': 10,
         'Россия': 3,
         'Искусство': 4,
         'Деловой климат': 4,
         'Игры': 1,
         'Гаджеты': 3,
         'Мировой бизнес': 2,
         'Инструменты': 2,
         'Регионы': 2,
         'Театр': 3,
         'Деньги':

In [15]:
cntr = Counter(ds.tags)
{k: v for k, v in sorted(cntr.items(), key=lambda item: item[1], reverse=True)}

{'Все': 453581,
 'Политика': 33220,
 'Общество': 27560,
 'Украина': 17934,
 'Происшествия': 15972,
 'Футбол': 13128,
 'Госэкономика': 12869,
 'Кино': 9109,
 'Бизнес': 8224,
 'Интернет': 7945,
 'Наука': 6975,
 'Следствие и суд': 6825,
 'Музыка': 5822,
 'Люди': 5184,
 'Преступность': 4737,
 'Квартира': 3759,
 'Космос': 3622,
 'События': 3161,
 'Конфликты': 3136,
 'ТВ и радио': 3028,
 'Coцсети': 2924,
 'Летние виды': 2893,
 'Деловой климат': 2656,
 'Регионы': 2639,
 'Криминал': 2550,
 'Явления': 2523,
 'Бокс и ММА': 2443,
 'Звери': 2278,
 'Город': 2247,
 'Гаджеты': 2183,
 'Мир': 2121,
 'Стиль': 2090,
 'Игры': 2072,
 'Рынки': 2012,
 'Пресса': 1805,
 'Искусство': 1795,
 'Зимние виды': 1677,
 'Полиция и спецслужбы': 1635,
 'Закавказье': 1442,
 'Деньги': 1361,
 'Москва': 1312,
 'Прибалтика': 1242,
 'Театр': 1217,
 'Оружие': 1216,
 'Техника': 1208,
 'Книги': 1208,
 'Средняя Азия': 1131,
 'Дача': 1084,
 'Белоруссия': 916,
 'Хоккей': 915,
 'Мировой бизнес': 854,
 'Движение': 834,
 'Офис': 783,
 

In [16]:
texts = ds_sample.text.values
#remove punctuation

def rem_punc(t):
# define punctuation
    punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890'''


# remove punctuation from the string
    for c in punctuations:
        t=t.replace(c,' ')


# display the unpunctuated string
    return t.replace('\n',' ')


no_punc_text = [rem_punc(t) for t in tqdm_notebook(texts)]

  punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890'''
Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  no_punc_text = [rem_punc(t) for t in tqdm_notebook(texts)]


  0%|          | 0/1000 [00:00<?, ?it/s]

In [17]:
#lowercase
lc_text = [t.lower() for t in tqdm_notebook(no_punc_text)]
lc_text[0]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  lc_text = [t.lower() for t in tqdm_notebook(no_punc_text)]


  0%|          | 0/1000 [00:00<?, ?it/s]

'компания  российские железные дороги   ржд  снизит стоимость проезда для организованных групп болельщиков в случае выхода сборной россии в четвертьфинал чемпионата европы по футболу  который пройдет в      году в польше и на украине  об этом сообщает  интерфакс  со ссылкой на вице президента ржд михаила акулова  по его словам  для организованных групп пассажиров предназначены специальные туристические поезда по направлениям москва   варшава и москва   тересполь   варшава  минимальная стоимость билетов на эти поезда составит     евро  акулов отметил  что в случае выхода россиян в четвертьфинал цена проезда будет снижена на четверть  цена билетов для индивидуальных пассажиров до варшавы составит в одну сторону от      евро  туда обратно         евро  при этом стоимость проезда в вагонах класса  люкс  при проезде туда обратно достигнет       евро  билет до вроцлава будет стоить в одну сторону от       евро  футбольный чемпионат европы в      году пройдет в    й раз  евро      начнется   

In [18]:
#stopword removal
import nltk
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')
nltk.download("punkt_tab")
sw = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [19]:
text = "Я очень люблю изучать обработку естественного языка"

# tokenize into words
words = nltk.word_tokenize(text, language="russian")

# filter out stopwords
filtered = [w for w in words if w.lower() not in sw]

print("Original:", words)
print("Without stopwords:", filtered)

Original: ['Я', 'очень', 'люблю', 'изучать', 'обработку', 'естественного', 'языка']
Without stopwords: ['очень', 'люблю', 'изучать', 'обработку', 'естественного', 'языка']


In [20]:
sample_text = "Меня зовут Мухамедали, мнe 19 лет. Я развиваюсь в сфере машинное обучение и глубокое обучение"

In [21]:
sample_text.replace(",", "").strip().split()


['Меня',
 'зовут',
 'Мухамедали',
 'мнe',
 '19',
 'лет.',
 'Я',
 'развиваюсь',
 'в',
 'сфере',
 'машинное',
 'обучение',
 'и',
 'глубокое',
 'обучение']

In [22]:
words = nltk.word_tokenize(sample_text, language="russian")
words

['Меня',
 'зовут',
 'Мухамедали',
 ',',
 'мнe',
 '19',
 'лет',
 '.',
 'Я',
 'развиваюсь',
 'в',
 'сфере',
 'машинное',
 'обучение',
 'и',
 'глубокое',
 'обучение']

In [23]:
filtered_words = [s for s in words if s.lower() not in sw]
filtered_words

['зовут',
 'Мухамедали',
 ',',
 'мнe',
 '19',
 'лет',
 '.',
 'развиваюсь',
 'сфере',
 'машинное',
 'обучение',
 'глубокое',
 'обучение']

In [24]:
ds.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18


In [25]:
ds['title'][0]

'1914. Русские войска вступили в\xa0пределы Венгрии  '

In [26]:
words = nltk.word_tokenize(ds['title'][0], language="russian")

In [27]:
words

['1914', '.', 'Русские', 'войска', 'вступили', 'в', 'пределы', 'Венгрии']

In [28]:
def clean_stopwords(text):
  words = nltk.word_tokenize(text) # tokenize text
  filtered_words = [word for word in words if word.lower() not in sw] # remove stopwords
  text = " ".join(filtered_words) # join our text
  return text

In [29]:
# Проверка
clean_stopwords("Меня зовут Мухамедали, мне 19 лет, я очень хочу стать МЛ исследователем. Я щас учусь в КБТУ")

'зовут Мухамедали , 19 лет , очень хочу стать МЛ исследователем . щас учусь КБТУ'

In [33]:
# Чистим title
ds_sample['title'] = ds_sample['title'].map(clean_stopwords)

In [34]:
# Чистим текст
ds_sample['text'] = ds_sample['text'].map(clean_stopwords)

In [35]:
ds_sample

Unnamed: 0,url,title,text,topic,tags,date
416523,https://lenta.ru/news/2012/04/13/rzh/,РЖД снизит цены болельщиков Евро-2012,Компания `` Российские железные дороги `` ( РЖ...,Экономика,Все,2012/04/13
693103,https://lenta.ru/news/2017/11/28/vvp_dud/,Кремле отреагировали идею интервью Путина Дудю,Информация подготовке интервью президента Росс...,Интернет и СМИ,Интернет,2017/11/28
361071,https://lenta.ru/news/2011/01/27/catapult/,Мексиканские наркодельцы взяли вооружение ката...,Мексиканские полицейские изъяли границе США ка...,Мир,Все,2011/01/27
172944,https://lenta.ru/news/2006/11/29/fixing/,Евросоюз оштрафовал Shell Eni ценовой сговор,Европейская комиссия оштрафовала пять компаний...,Экономика,Все,2006/11/29
76034,https://lenta.ru/news/2003/08/14/kerbel/,Скончался скульптор Лев Кербель,Известный скульптор Лев Кербель скончался четв...,Культура,Все,2003/08/14
...,...,...,...,...,...,...
446844,https://lenta.ru/news/2012/12/12/down/,КНДР заявила успешном выводе спутника орбиту,"Северная Корея объявила , спутник , запущенный...",Мир,Все,2012/12/12
667469,https://lenta.ru/news/2017/06/19/london2/,Появились данные жертвам инцидента Лондоне,результате наезда автомобиля людей Лондоне мог...,Мир,Происшествия,2017/06/19
473179,https://lenta.ru/news/2013/07/18/die/,Украинские рыбаки погибли столкновении российс...,Азовском море украинский рыболовецкий баркас с...,Бывший СССР,Украина,2013/07/18
237342,https://lenta.ru/news/2008/07/15/cheap/,июне самая дешевая подмосковная новостройка ст...,Минимальная цена квадратного метра подмосковны...,Дом,Все,2008/07/15
