# News Dataset Preprocessing

### Required packages

In [9]:
from pathlib import Path
import pandas as pd

from core.ukraine_utilities import NewsPreprocessor

### Defining paths and directory creation

In [10]:
# define Path object for data directory
root_dir = Path('./')
data_dir = root_dir / 'data'
models_dir = root_dir / 'models'
plots_dir = root_dir / 'plots'

# print data files
for data_file in data_dir.glob('*'):
    print(data_file)
    
# create directory for plots and models
plots_dir.mkdir(exist_ok=True)
models_dir.mkdir(exist_ok=True)

data/train.json
data/test_cleaned.csv
data/train_cleaned.csv
data/test.json
data/twitter_train.csv


### Loading in datasets

In [11]:
train = pd.read_json(data_dir / 'train.json')
test = pd.read_json(data_dir / 'test.json')

print(test.shape)
test.head(5)

(2056, 2)


Unnamed: 0,text,id
0,"Как сообщает пресс-служба акимата Алматы, для ...",0
1,Казахстанские авиакомпании перевозят 250 тысяч...,1
2,На состоявшемся под председательством Касым-Жо...,2
3,В ОАЭ состоялись переговоры между казахстанско...,3
4,12 вагонов грузового поезда сошли с путей в Во...,4


### Data preprocessing

In [12]:
X_train, y_train, X_test = train['text'], train['sentiment'], test['text']

processor = NewsPreprocessor(X_train, y_train)

help(processor)

Help on NewsPreprocessor in module core.ukraine_utilities object:

class NewsPreprocessor(builtins.object)
 |  NewsPreprocessor(X_train, y_train)
 |  
 |  all functions are applied at the sample level.
 |  for a pandas.DataFrame object do
 |  df.apply(lambda sample: NewsProcessor.method(sample))
 |  
 |  Methods defined here:
 |  
 |  __init__(self, X_train, y_train)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  get_common_enough_words(self, filter_val)
 |      get all words that are present more times than threshold value filter_val
 |  
 |  get_freqwords(self, num_words)
 |      get the num_words most frequent words in the object instance of vocab
 |  
 |  get_wordcount(self)
 |      populate the object instance of vocab (collections.Counter) with words in X_train
 |  
 |  label_encoder(self)
 |  
 |  remove_freqwords(self, doc)
 |      remove the frequent words
 |  
 |  remove_numbers(self, doc)
 |      remove numbers from the text
 |  
 |  remove_r

In [13]:
# preprocess X_train and store in train_cleaned.csv
X_train = X_train.apply(lambda doc: processor.to_lowercase(doc))
print("to_lowercase executed")
X_train = X_train.apply(lambda doc: processor.strip_punctuation(doc))
print("strip_punctuation executed")
X_train = X_train.apply(lambda doc: processor.remove_stopwords(doc))
print("remove_stopwords executed")
X_train = X_train.apply(lambda doc: processor.strip_special_chars(doc))
print("strip_special_chars executed")
X_train = X_train.apply(lambda doc: processor.remove_numbers(doc))
print("remove_numbers executed")
# processor.get_wordcount()
# processor.get_freqwords(100)
# X_train = X_train.apply(lambda doc: processor.remove_freqwords(doc))
# print("remove_freqwords executed")
# processor.get_common_enough_words(3)
# X_train = X_train.apply(lambda doc: processor.remove_rarewords(doc))
# print("remove_rarewords executed")
X_train = X_train.apply(lambda doc: processor.stemmer(doc))
print("stemmer executed")
y_train = processor.label_encoder()
print("label encoder executed")

train_cleaned = pd.DataFrame({'text': X_train,
                              'sentiment': y_train})

train_cleaned.to_csv(data_dir / 'train_cleaned.csv')

to_lowercase executed
strip_punctuation executed
remove_stopwords executed
strip_special_chars executed
remove_numbers executed
stemmer executed
label encoder executed


In [14]:
# preprocess X_test and store in test_cleaned.csv
X_test = X_test.apply(lambda doc: processor.to_lowercase(doc))
print("to_lowercase executed")
X_test = X_test.apply(lambda doc: processor.strip_punctuation(doc))
print("strip_punctuation executed")
X_test = X_test.apply(lambda doc: processor.remove_stopwords(doc))
print("remove_stopwords executed")
X_test = X_test.apply(lambda doc: processor.strip_special_chars(doc))
print("strip_special_chars executed")
X_test = X_test.apply(lambda doc: processor.remove_numbers(doc))
print("remove_numbers executed")
# processor.get_wordcount()
# processor.get_freqwords(10)
# X_test = X_test.apply(lambda doc: processor.remove_freqwords(doc))
# print("remove_freqwords executed")
# processor.get_common_enough_words(3)
# X_test = X_test.apply(lambda doc: processor.remove_rarewords(doc))
# print("remove_rarewords executed")
X_test = X_test.apply(lambda doc: processor.stemmer(doc))
print("stemmer executed")

test_cleaned = pd.DataFrame({'text': X_test})

test_cleaned.to_csv(data_dir / 'test_cleaned.csv')

to_lowercase executed
strip_punctuation executed
remove_stopwords executed
strip_special_chars executed
remove_numbers executed
stemmer executed


In [15]:
train_cleaned.text[0]

'досудебн расследован факт покупк енпф пакет облигац то бузгул аурум начат инициатив национальн банк рк сообщ директор департамент защит прав потребител финансов услуг нацбанк казахста александр терент основан досудебн расследован стал обращен национальн банк письм  ноябр  год обращен национальн банк правоохранительн орга нам эт сделк показа сомнительн недостаточн корректн поэт нацбанк  ноябр  год обрат правоохранительн орга эт мог озвуч сегодн идет следств провод проверк   сказа терент  декабр нацбанк заяв знают стал основан проверк енпф  декабр факт проведен проверк а един накопительн пенсион фонд подтверд прессслужб национальн банк сообщ проверк провод операц совершен а енпф отношен инвестирован собствен актив такж финрегулятор сообща сделк енпф сумм пят млрд завед уголовн дел нацбанк заверя все происходя затрагива пенсион накоплен казахстанц нашл ошибк текст выдел мыш нажм ctrlenter '