# Data Preprocessing

## Loading data

In [1]:
import pandas as pd

In [2]:
# Specify dtypes of columns
dtypes = {
    'url': str,
    'title': str,
    'text': str,
    'topic': str,
    'tags': str,
    'date': str
}

In [3]:
# Load dataset
data = pd.read_csv("lenta-ru-news.csv", dtype=dtypes)

In [4]:
# Preview dataset
data.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18


## Data Preparing

In [5]:
# Check if there are NaN values for 'text'
display(data[data['text'].isna()])

Unnamed: 0,url,title,text,topic,tags,date
150785,https://lenta.ru/news/2006/04/20/student1/,Прокуратура не нашла национальной почвы в напа...,,Россия,Все,2006/04/20
153075,https://lenta.ru/news/2006/05/16/dagestan/,При штурме дома в Кизилюрте ранены шестеро,,Россия,Все,2006/05/16
153931,https://lenta.ru/news/2006/05/24/fire/,В Стамбуле горит багажное отделение аэропорта ...,,Мир,Все,2006/05/24
154591,https://lenta.ru/news/2006/05/31/an70/,РФ вышла из российско-украинского проекта Ан-70,,Россия,Все,2006/05/31
582527,https://lenta.ru/news/2016/02/23/aquarium/,Гребенщиков заработал 10 тысяч рублей в омском...,,Культура,Музыка,2016/02/23


In [6]:
# Fill NaN values
data.loc[150785, 'text'] = 'Прокуратура Санкт-Петербурга не сочла нападение на студента из Индии совершенным на национальной почве, пишет интернет-издание Фонтанка.Ру. Уголовное дело по факту нападения возбуждено по статьям 30 и 105, часть 1, УК РФ (покушение на убийство). Мотивы нападения в настоящий момент устанавливаются. Напомним, что двое человек с ножом напали на студента 5 курса Медецинской академии имени Мечникова Анджанги Кишори Кумара на Кирилловской улице, возле общежития академии, около 9 часов вечера 19 апреля. 22-летний индиец был госпитализирован с резаным ранением шеи. В Мариинской больнице ему сделали операцию. По сообщению РИА Новости, врачи оценивают состояние студента как удовлетворительное. Он находится в общем хирургическом отделении больницы.'
data.loc[153075, 'text'] = 'В Дагестане в кизилюртовскую центральную районную больницу с места спецоперации доставлены шестеро раненых, из них пятеро милиционеров, а шестой - мирный житель, передает РИА Новости. ОМОН продолжает штурмовать многоэтажное здание на улице Гагарина в Кизилюрте, где в одной из квартир укрылись боевики. Стали известны имена боевиков, заблокированных в квартире. РИА Новости сообщает, что это Абдулмажид Кабашилаев и Ибрагим Ибрагимов, объявленные в федеральный розыск после спецоперации 6 мая в Буйнакском районе. Тогда был убит один и ранены четверо военнослужащих федеральных сил, а боевикам удалось уйти.'
data.loc[153931, 'text'] = 'В Турции загорелось багажное отделение международного аэропорта Стамбула "Ататюрк", сообщает телеканал CNN. В настоящее время пожарные пытаются локализовать огонь. Используется пожарная авиация. Как сообщает Associated Press, работа аэропорта полностью остановлена. По информации агентства France Presse, к аэропорту прибыли автомобили скорой помощи. Однако к данному моменту информации о раненых или погибших не поступало. Данных об эвакуации людей также не передавалось. Международный аэропорт "Ататюрк" является одним из крупнейших транспортных узлов Ближнего Востока и Восточной Европы. Он находится в европейской части Стамбула, на северном берегу залива Босфор.'
data.loc[154591, 'text'] = 'Россия вышла из совместного с Украиной проекта создания самолета Ан-70, передает агентство РБК. Как заявил Анатолий Гриценко, министр обороны Украины, в ходе его встречи с российским коллегой Сергеем Ивановым, состоявшейся 30 мая в Баку, "наступила полная ясность - российской стороной одобрено решение о том, что она выходит из проекта". По словам Гриценко, руководители оборонных ведомств двух стран договорились, что этот выход будет осуществляться с участием экспертов, способных урегулировать вопросы финансирования и интеллектуальной собственности. Он считает, что Украина в дальнейшем сможет самостоятельно дорабатывать проект. Ранее украинская сторона уже выражала недовольство слабой заинтересованностью России в проекте и заявляла о готовности к поиску новых партнеров по проекту. В их числе назывались, в частности, компании Airbus и Boeing. Ан-70 планировался как тяжелый транспортный самолет грузоподъемностью до 47 тонн. Доля российского участия в проекте составляла 80 процентов. Впервые о намерении России отказаться от доработки Ан-70 заявил главком ВВС РФ Владимир Михайлов в начале апреля. Основным тяжелым транспортным самолетом российских военно-воздушных сил предполагается сделать Ил-76.'
data.loc[582527, 'text'] = 'Борис Гребенщиков и участники группы «Аквариум» дали концерт в подземном переходе в Омске. Как пишет «Российская газета» со ссылкой на очевидцев, импровизированное выступление прошло «на ура». Музыканты исполнили для зрителей свои хиты — «Парусный флот», «Стаканы» и «Собачий вальс» — и за полчаса заработали 10 тысяч рублей.'

## Data Cleaning

In [7]:
import re
from string import punctuation

In [8]:
# Preprocess function
def preprocess_text(text):
    '''Remove words containing numbers,
remove special characters, punctuation and non-cyrillic symbols from text'''
    
    text = text.lower()
    text = re.sub('\w*\d-*\w*', '', text)
    text = re.sub('[%s]' % re.escape(punctuation), ' ', text)
    text = re.sub('[‘’“”…«»–—№]', ' ', text)
    text = re.sub('\n', ' ', text)
    text = re.sub('[^\u0400-\u04FF\u0500-\u052F ]', '', text)
    
    return text

preprocess = lambda x: preprocess_text(x)

In [9]:
# Apply preprocessing
data['text'] = data['text'].apply(preprocess)

In [10]:
data.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,бои у сопоцкина и друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,министерство народного просвещения в виду про...,Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,штабс капитан п н нестеров на днях увидев в...,Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,фотограф корреспондент рассказывает случай ...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,лица приехавшие в варшаву из люблина передаю...,Библиотека,Первая мировая,1914/09/18


## Lemmatizing

In [11]:
from pymystem3 import Mystem
from tqdm import tqdm

In [12]:
# Convert 'text' column to list
texts = list(data['text'])

In [13]:
# Batch size should be choosen based on the RAM and CPU
batch_size = 1000

In [14]:
# Create text batches for efficient lemmatizing
text_batches = [texts[i: i + batch_size] for i in 
                range(0, len(texts), batch_size)]

In [15]:
# Initialize stemmer
m = Mystem()

In [16]:
def lemmatize(text):
    '''Lemmatize text'''
    
    merged_text = '|'.join(text)
    
    doc = []
    res = []
    
    for t in m.lemmatize(merged_text):
        t = t.strip()
        if t != '|':
            doc.append(t)
        else:
            res.append(doc)
            doc = []
            
#     exlude '\n' from the last doc and append it to the list
    res.append(doc[:-1])
    
    return res

In [17]:
# processed_texts = [lemmatize(t) for t in tqdm(text_batches)]

In [18]:
# lst = []
# for batch in processed_texts:
#     for text in batch:
#         lst.append(' '.join(text))

In [20]:
# data['text'] = pd.Series(lst)

In [22]:
# data.head()

## Saving data

In [23]:
# Write prepared dataset to pickle for future use
data.to_pickle('lenta-ru-news-prepared.pkl')