Dataset from https://github.com/natasha/corus

In [1]:
!pip install 'corus==0.10.0'
!pip install 'nltk==3.8.1'
!pip install 'pymystem3==0.2.0'
!pip install 'pymorphy2==0.9.1'



Fix random state

In [2]:
import random

random.seed(42)

In [3]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All"
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

## Loading the dataset

In [4]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2

import corus

--2023-09-27 16:51:38--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-dac89df8aced?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230927%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230927T165011Z&X-Amz-Expires=300&X-Amz-Signature=6a575b6db4079225d0ff56ee89e8a7d1f26b5e4a9e5359a30fa4b465af98dffe&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.bz2&response-content-type=application%2Foctet-stream [following]
--2023-09-27 16:51:38--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-da

In [5]:
def load_lenta_to_list(path, max_number=None):
    records = corus.load_lenta2(path)
    texts, titles = [], []
    for i, record in enumerate(records):
        texts.append(record.text)
        titles.append(record.title)
        if not max_number is None and i >= max_number-1:
            break
    return texts, titles

In [6]:
texts, titles = load_lenta_to_list('lenta-ru-news.csv.bz2', max_number=10)
len(texts), len(titles)

(10, 10)

In [7]:
df = pd.DataFrame({'text':texts, 'title':titles})
df.head()

Unnamed: 0,text,title
0,Бои у Сопоцкина и Друскеник закончились отступ...,1914. Русские войска вступили в пределы Венгрии
1,"Министерство народного просвещения, в виду про...",1914. Празднование столетия М.Ю. Лермонтова от...
2,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",1914. Das ist Nesteroff!
3,Фотограф-корреспондент Daily Mirror рассказыва...,1914. Бульдог-гонец под Льежем
4,"Лица, приехавшие в Варшаву из Люблина, передаю...",1914. Под Люблином пойман швабский зверь


## Checking the dataset structure and stats

In [8]:
import nltk
from nltk import corpus, tokenize, word_tokenize, sent_tokenize

nltk.download('punkt')
nltk.download('stopwords')

word_only_tokenize = tokenize.RegexpTokenizer(r'\w+').tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [9]:
df['sent_tokens'] = df['text'].apply(sent_tokenize)
df['word_tokens'] = df['text'].apply(word_tokenize)

df.head()

Unnamed: 0,text,title,sent_tokens,word_tokens
0,Бои у Сопоцкина и Друскеник закончились отступ...,1914. Русские войска вступили в пределы Венгрии,[Бои у Сопоцкина и Друскеник закончились отсту...,"[Бои, у, Сопоцкина, и, Друскеник, закончились,..."
1,"Министерство народного просвещения, в виду про...",1914. Празднование столетия М.Ю. Лермонтова от...,"[Министерство народного просвещения, в виду пр...","[Министерство, народного, просвещения, ,, в, в..."
2,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",1914. Das ist Nesteroff!,"[Штабс-капитан П. Н. Нестеров на днях, увидев ...","[Штабс-капитан, П., Н., Нестеров, на, днях, ,,..."
3,Фотограф-корреспондент Daily Mirror рассказыва...,1914. Бульдог-гонец под Льежем,[Фотограф-корреспондент Daily Mirror рассказыв...,"[Фотограф-корреспондент, Daily, Mirror, расска..."
4,"Лица, приехавшие в Варшаву из Люблина, передаю...",1914. Под Люблином пойман швабский зверь,"[Лица, приехавшие в Варшаву из Люблина, переда...","[Лица, ,, приехавшие, в, Варшаву, из, Люблина,..."


## Preprocessing the data inside

In [10]:
average_word_tokens_count = round(df['word_tokens'].apply(len).sum()/df['sent_tokens'].count())
unique_word_tokens_count = df['word_tokens'].apply(len).sum()

average_word_tokens_count, unique_word_tokens_count

(210, 2095)

In [11]:
df['word_only_tokens'] = df['text'].apply(word_only_tokenize)
df['lowered_word_only_tokens'] = df['word_only_tokens'].apply(lambda wl: map(lambda w: w.lower(), wl))
df['lowered_unique_word_only_tokens'] = df['lowered_word_only_tokens'].apply(lambda wl: set(wl))

In [12]:
ru_stop_words = corpus.stopwords.words('russian')
df['lowered_unique_no_stop_word_only_tokens'] = df['lowered_unique_word_only_tokens'].apply(lambda ws: ws - set(ru_stop_words))

lowered_unique_word_only_tokens_count = df['lowered_unique_word_only_tokens'].apply(len).sum()
lowered_unique_no_stop_word_only_tokens_count = df['lowered_unique_no_stop_word_only_tokens'].apply(len).sum()

lowered_unique_word_only_tokens_count, lowered_unique_no_stop_word_only_tokens_count

(1410, 1190)

In [13]:
from pymystem3 import Mystem

mst = Mystem()
def lemmatize(words):
    words_result = []
    for word in words:
        words_result.append(mst.lemmatize(word)[0])
    return words_result

df['lowered_unique_word_only_tokens_lemmas'] = df['lowered_unique_word_only_tokens'].apply(lemmatize)
df['lowered_unique_word_only_tokens_lemmas'].head()

0    [друскеник, отступать, сопоцкин, в, пробиватьс...
1    [просвещение, день, 1914, 2, соответственный, ...
2    [напрасный, деятельность, ist, район, в, пушка...
3    [что, настоящий, раз, спрятать, в, шифрованный...
4    [что, зверь, глаз, в, когда, конвойный, по, и,...
Name: lowered_unique_word_only_tokens_lemmas, dtype: object

In [14]:
from pymorphy2 import MorphAnalyzer

man = MorphAnalyzer()
def morph(words):
    words_result = []
    for word in words:
        words_result.append(man.parse(word)[0].word)
    return words_result

df['lowered_unique_word_only_tokens_morphs'] = df['lowered_unique_word_only_tokens'].apply(morph)
df['lowered_unique_word_only_tokens_morphs'].head()

0    [друскеник, отступавшая, сопоцкина, в, пробить...
1    [просвещения, дня, 1914, 2, соответственным, в...
2    [напрасны, деятельности, ist, районе, в, пушки...
3    [что, настоящим, раз, спрятанными, в, шифрован...
4    [что, зверь, глазами, в, когда, конвойные, по,...
Name: lowered_unique_word_only_tokens_morphs, dtype: object