# Loading Data

In [1]:
import pandas as pd

In [2]:
# Specify dtypes of columns
dtypes = {
    'url': str,
    'title': str,
    'text': str,
    'topic': str,
    'tags': str,
    'date': str
}

In [3]:
# Load dataset
data = pd.read_csv("lenta-ru-news.csv", dtype=dtypes)

In [4]:
# Preview dataset
data.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18


## Partition Dataset By Periods

In [5]:
# Create lambda function that extracts year from date
get_year = lambda x: int(x.split('/')[0])

In [7]:
# Add a column with year
data['year'] = data['date'].apply(get_year)

In [8]:
# Preview dataset
data.head()

Unnamed: 0,url,title,text,topic,tags,date,year
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,Бои у Сопоцкина и Друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16,1914
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,"Министерство народного просвещения, в виду про...",Библиотека,Первая мировая,1914/09/16,1914
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,"Штабс-капитан П. Н. Нестеров на днях, увидев в...",Библиотека,Первая мировая,1914/09/17,1914
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,Фотограф-корреспондент Daily Mirror рассказыва...,Библиотека,Первая мировая,1914/09/17,1914
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,"Лица, приехавшие в Варшаву из Люблина, передаю...",Библиотека,Первая мировая,1914/09/18,1914


In [10]:
# Partition dataset into smaller ones with approximately same size by periods
data_1914_2005 = data[data['year'] <= 2005]
data_2006_2009 = data[(data['year'] >= 2006) & (data['year'] <= 2009)]
data_2010_2013 = data[(data['year'] >= 2010) & (data['year'] <= 2013)]
data_2014_2016 = data[(data['year'] >= 2014) & (data['year'] <= 2016)]
data_2017_2019 = data[(data['year'] >= 2017)]

In [11]:
# Check size of resulting datasets
len(data_1914_2005), len(data_2006_2009), len(data_2010_2013), len(data_2014_2016), len(data_2017_2019)

(140076, 173725, 178753, 145949, 162472)

In [12]:
# Make sure all rows were included
len(data) == len(data_1914_2005) + len(data_2006_2009) + len(data_2010_2013) + len(data_2014_2016) + len(data_2017_2019)

True

## Write Datasets To Files

In [13]:
# Write resulting datasets to seperate files
data_1914_2005.to_csv('data_1914_2005.csv', index=False)
data_2006_2009.to_csv('data_2006_2009.csv', index=False)
data_2010_2013.to_csv('data_2010_2013.csv', index=False)
data_2014_2016.to_csv('data_2014_2016.csv', index=False)
data_2017_2019.to_csv('data_2017_2019.csv', index=False)