# 1. Import required libraries

In [100]:
import sys
sys.path.append('../scripts/')
from database_script import DatabaseHandler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import data_preprocessing_script
import numpy as np
import pandas as pd

# 2. Read data

In [94]:
db_handler = DatabaseHandler()
news_data = db_handler.read_data("news","category","content")
df = pd.DataFrame(news_data, columns=["category", "content"])
df[:10]

Unnamed: 0,category,content
0,فرهنگی,هر وقت از حرفه خبرنگاری سخن به میان می‌آید با ...
1,بازار و آگهی,امروزه مسئله‌ انرژی در جهان به یکی از چالش‌ها ...
2,فرهنگی,من کيم بوسه زنم ساعد زيبايش را؟ گر مرا دست دهد...
3,فرهنگی,در خم گیسوی کافر کیش داری تارها بهر گمره کردن ...
4,ورزشی,تیم کشتی آزاد آمریکا قهرمان زودهنگام جهان شد و...
5,ورزشی,دارنده مدال برنز سنگین وزن کشتی آزاد جهان می‌گ...
6,ورزشی,۲۳ ورزشکار ایرانی در تاریخ بازی‌های آسیایی پرا...
7,ورزشی,یک مدال طلا و ۲ نقره حاصل کار نمایندگان کشورما...
8,ورزشی,فدراسیون فوتبال کانادا ـ که پیش از این و در تو...
9,ورزشی,به گزارش تابناک ورزشی، به این ترتيب، رای گیری ...


# 3. Encoding (Categorical target Column)

In [95]:
label_encoder = LabelEncoder()
encoded_target = label_encoder.fit_transform(df['category'])
encoded_target[:10]

array([20,  5, 20, 20, 24, 24, 24, 24, 24, 24])

# 3. Preprocessing text

```
1- Normalization
2- Tokenization
3- Stopword Removal
4- Lemmatization 
```

In [96]:
df['content'] = df['content'].apply(preprocess_persian_text)

In [97]:
df['content'][999]

'نمایندگان مجلس شورا اسلام خروج آمریکا برجا واکنش نشان جمهوری اسلام ایران تاکید صیانت حقوق عنصر دیپلماسی تعامل دنیا تاکید عرصه حقانیت ملت ایران ثابت گزارش ایسنا متن بیانیه توسط رنجبرزاده عضو هیات رییسه قرائت شرح ملت ایران اسلام گستاخ آمریکا برخلاف قواعد برجا خارج نشان دولت آمریکا رژیم صهیونیست مرتجعین عرب منافقین جبهه ملت ایران قرار جمهوری اسلام ایران تاکید صیانت حقوق عنصر دیپلماسی تعامل دنیا تاکید عرصه حقانیت ملت ایران امام راحل رهبر فرزانه انقلاب اثبات آمریکا امروز مرز ایران اسلام عبور دیرباور عرصه جهانی آمریکا قواعد امروز آزمون جهانیان کشور اروپایی امضاکننده برجا روسیه چین مقابل آمریکا طریق مذاکره تعامل دنیا کفه انحصارطلب زورگو عنوان نمایندگان ملت ایران دقت رفتار کشور رصد مبتنی اصول حاکم سیاست خارج عزت حکمت مصلحت منافع ملی قانون اقدام متقابل تصمیم مسیر کشور تاس فرمایشات رهبر معظم انقلاب وحدت مسئول کشور اتحاد کشور ایران اسلام مدیریت منسجم کشور اقتصاد مقاومت تقویت اقتصاد ملی ترویج کالا ایران بحران عبور روزید#روز پرونده شورا امنیت برد#بر تلاش ایران مسیر منزوی موفقیت دست نیاوردند رسید#ر

# 4. Encoding (text column) using tf-idf

In [98]:
vectorized_text=tf_idf_vectorization(df['content'])
vectorized_text[0]

array([0.        , 0.        , 0.        , 0.01692841, 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.04661333,
       0.        , 0.        , 0.01686281, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.01556498, 0.06390544, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.03334281, 0.01113448, 0.        , 0.        , 0.28655006,
       0.        , 0.        , 0.01189167, 0.        , 0.        ,
       0.09280568, 0.01439721, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.0079193 , 0.        , 0.02400841,
       0.06581631, 0.03625725, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.04122806, 0.        ,
       0.01771908, 0.        , 0.        , 0.        , 0.        ,
       0.01997375, 0.        , 0.        , 0.02956854, 0.     

# 5. Split data

In [107]:
X_train, X_test, y_train, y_test = train_test_split(vectorized_text, encoded_target, test_size=0.2, random_state=42)

# 6. Save data

In [109]:
path = '../data/cleaned_data'
np.save(f'{path}/X.npy', vectorized_text)
np.save(f'{path}/y.npy', encoded_target)
np.save(f'{path}/X_train.npy', X_train)
np.save(f'{path}/X_test.npy', X_test)
np.save(f'{path}/y_train.npy', y_train)
np.save(f'{path}/y_test.npy', y_test)