# Importing Required Libs

In [1]:
import pandas as pd
import numpy as np
import scipy as sc
import re
from datetime import datetime

# Reading text data and Stopwords

In [2]:
doc_df = pd.read_csv('../data/docs.csv', encoding="utf-8")
sw_df  = pd.read_csv('../pashto-stopwords.csv', encoding="utf-8")

In [4]:
#Display some documents
doc_df.head()

Unnamed: 0.1,Unnamed: 0,author,content,title
0,0,حبيب الله غمخور,\r\n\r\n\r\nد اوسنيو چارواکو لپاره د منلو وړ ن...,د هيواد د فرهنګي او تاريخي اثارو څخه ملاتړ...
1,1,,\r\n,
2,2,,\r\n,
3,3,,\r\n,
4,4,,\r\n,


In [5]:
#dropping null values
doc_df = doc_df.dropna()

In [6]:
doc_df.head()

Unnamed: 0.1,Unnamed: 0,author,content,title
0,0,حبيب الله غمخور,\r\n\r\n\r\nد اوسنيو چارواکو لپاره د منلو وړ ن...,د هيواد د فرهنګي او تاريخي اثارو څخه ملاتړ...
20,20,حبيب الله غمخور,\r\nبه کله پای ته رسيږي ؟ \r\nدحبيب الله غمخور...,په افغانستان کي د ملي اردو د جوړيدو ډرامه >>>
21,21,اتمرخيل باييزی,\r\nداتمرخېل باييزی ليکنه \r\n \r\nد اساسي قان...,پښتو هم د افغانستان رسمي ژبه ده >>>
27,27,بابوزی,\r\n د ښاغلي بابوزي ليکنه\r\nهسي خوهم د کابل پ...,مشت نمونه خروار
28,28,حنان حبيبزی,\r\n ژباړه حنان حبيبزی / مزار شريف,د خبريال دنده دا ده چې ټول خلك له ورځنيو >>>


In [9]:
doc_df.shape

(52, 4)

In [17]:
sw_df.head()

Unnamed: 0.1,Unnamed: 0,word
0,0,په
1,1,د
2,2,دی
3,3,ددی
4,4,او


In [21]:
stopwords_set = set(sw_df['word'])

In [22]:
stopwords_set

{' ارامه',
 ' ارغواني',
 ' اسماني شين',
 ' اندازه',
 ' اوږد',
 ' بد',
 ' بعضی',
 ' تازه',
 ' تروش',
 ' تریخ',
 ' تش',
 ' تور',
 ' تیاره',
 ' جګ',
 ' خاكي',
 ' خالي',
 ' خوږ',
 ' دایره',
 ' دروند',
 ' دقیقه',
 ' روښان',
 ' زوړ',
 ' سست',
 ' سور',
 ' سپين',
 ' شاوخوا',
 ' شم',
 ' شنه',
 ' غلی',
 ' غټ',
 ' قوی',
 ' كمزور',
 ' لنډ',
 ' لوند',
 ' لوړه',
 ' لوی',
 ' مالگين',
 ' مثلث',
 ' مخکی',
 ' مربع',
 ' نارنجې',
 ' نری',
 ' نسواري',
 ' نمجن',
 ' نوي',
 ' نږدی',
 ' ورو',
 ' وچ',
 ' وړوکی',
 ' ټول',
 ' پاس',
 ' پاک',
 ' پر ضد',
 ' پراخ',
 ' په اړه',
 ' په تیریدادی',
 ' ځوان',
 ' ځواکمن',
 ' څو',
 ' ډېر',
 ' ژور',
 ' ژېړ',
 ' ښه',
 'اته',
 'ارګانونو',
 'استازيتوب',
 'استراليا',
 'افغان',
 'افغانانو',
 'السلام عليکم',
 'الله',
 'امان',
 'امریکا',
 'امله',
 'ان',
 'انشاالله',
 'انګریز',
 'انگلستان',
 'او',
 'اوبه',
 'اوزبیک',
 'اوس',
 'اوقات',
 'اووه',
 'اووه ',
 'اوړی',
 'اوږدو',
 'ایا',
 'ایماق',
 'ایکسپریس',
 'باجوه',
 'بادی',
 'باران',
 'باندې',
 'باور',
 'برابر',
 'برتانوي',
 'بل',
 'بل 

# Removing Stopwords and Non-Pashto wors

In [23]:
def preprocessing(raw_text):
    
    #keep only text
    letters_only_text = re.sub("[^ا-ی]", " ", raw_text)
    
    #split words
    words = letters_only_text.split()
    
    #remove stopwords
    meaningful_words = [w for w in words if w not in stopwords_set]
    
    #join clean words into a list
    cleaned_word_list = " ".join(meaningful_words)
    
    return cleaned_word_list

# Processing Documents

In [31]:
def process_data(dataset):
    #read dataset
    data_df = doc_df
    data_df= data_df.dropna()
    
    #shape of data
    num_docs = data_df.shape[0]
    print("Total Documents: " + str(num_docs))
    
    #cleaned documents 
    cleaned_docs = []
    
    cleaned_heads = []
    print("Beginning processing of documents at: " + str(datetime.now()))
    
    for i in range(num_docs):
        cleaned_doc = preprocessing(data_df.iloc[i]['content'])
        cleaned_docs.append(cleaned_doc)
        
        cleaned_head = preprocessing(data_df.iloc[i]['title'])
        cleaned_heads.append(cleaned_head)
        
        if(i % 10000 == 0):
            print(str(i) + " documents are processed")
            
        print("Finished processing of documents at: " + str(datetime.now()))
    return cleaned_docs, cleaned_heads

In [32]:
docs, heads = process_data(doc_df)

Total Documents: 52
Beginning processing of documents at: 2019-05-21 17:43:07.235895
0 documents are processed
Finished processing of documents at: 2019-05-21 17:43:07.235895
Finished processing of documents at: 2019-05-21 17:43:07.243456
Finished processing of documents at: 2019-05-21 17:43:07.243456
Finished processing of documents at: 2019-05-21 17:43:07.248032
Finished processing of documents at: 2019-05-21 17:43:07.248032
Finished processing of documents at: 2019-05-21 17:43:07.253054
Finished processing of documents at: 2019-05-21 17:43:07.253054
Finished processing of documents at: 2019-05-21 17:43:07.258053
Finished processing of documents at: 2019-05-21 17:43:07.263049
Finished processing of documents at: 2019-05-21 17:43:07.263049
Finished processing of documents at: 2019-05-21 17:43:07.268051
Finished processing of documents at: 2019-05-21 17:43:07.273055
Finished processing of documents at: 2019-05-21 17:43:07.273055
Finished processing of documents at: 2019-05-21 17:43:07.

In [34]:
docs

['اوسنيو چارواکو منلو وړ دي',
 'پای رسيږي دحبيب غمخور ليـــــــــکنه ٢٠٠١ ږ کال سپټمبر ١١ ن ټ مشهور ناورين راپد خوا چي امريکا دد ملا وتړل چي بايد نړيوال تروريزم القاعد افراطي سازمان ضد تلاښ مبارزه چټکه همد موخ سرته رسيدو خاطر نړ وال تروريزم مقابل محل ويش لمړ ليکه کښي افغانستان وليکل شو طالبانو لاسپوڅي کرغ ړن رژيم چي افغانستان شمالي ټلوالي جمعيت تنظيم واک نشکوريدو منظور پاکستان ای اس ای امريکا سي ای ا سعودي عربستان اوعربي شيخانو ملاتړ منځته ړنګيدو پنټاګون لندن ډير تلوار پلانونو طرح کول پيل دد کار چي پرد شاته سي ای ا انګلستان استخباراتي ادار معلوماتو راتلوټولولو پلانونو جوړولو بوخت وه بوش تونيبل ر ملګرو ملتونو امنيت شورا نړ شم ر هيوادو رهبرانو هغو ملاتړ راخپلولو منظور ديپلوماتيکي هلي ځلي چټکي لنډه توګه افغانستان باندي حمل طالبي رژيم نسکوريدو ضرب العاجل لحظه راورسيده دد کار امريکا خپلو سياسي ګټو رسيدو خاطر چي ټولي يي متاسفانه اوسه دي رسوا بيله چي سياسي تعقل پوهي څخه کار واخلي افغانستان قومي ژبني جوړښت اواړيکو څرنګوالی نظر ونيسي شمالي ټولوالي چي حاکميت دغير انساني اوټولو ملي نړيوالو حقوقي 

In [35]:
heads

['هيواد فرهنګي تاريخي اثارو څخه ملاتړ',
 'افغانستان ملي اردو جوړيدو ډرامه',
 'پښتو افغانستان رسمي ژبه',
 'مشت نمونه خروار',
 'خبريال دنده چ ټول خلك ورځنيو',
 'افغانستان خپلواک جګړ در ستر مورچلونه',
 'خدای بخښلي محمدولي مندوزي جناز مراسم',
 'پښتو پخپله پښتنو ټيټه سترګه کتلي',
 'پښتو پښتو وايو انګريزي اُردو',
 'دغازي خان ازاد سرو زرو مډالونه',
 'غازي خان صورت سيرت',
 'رسنيو ب نواويبپاڼي خبرتيا',
 'ډاکتر انوارلحق احدي کندهار غونډه',
 'وسله ټلوالي بايد دپای ټکی کښ ښول شي',
 'مخکي ګزار روسي واکمنانو نوي نيواکګر دکتورين',
 'دولسمشر کانديدان',
 'افغانستان پوهني بهير ملي پيوستون',
 'کندهار ښووني روزني بهيراو نوي ښوونيز کال پيل',
 'غزل',
 'څلوريزه غزل',
 'غزل',
 'غزل',
 'علامه رشاد صاحب',
 'غزل',
 'محمديار ژوند فن سرليک سيمينار',
 'کوچی وچکالي',
 'طاوس بڼکو ک تلويزيون بڼک',
 'بيا مي زړه ګوتي څله راوړ',
 'اطلاعاتو اوکلتور وزارت اود کندهار احتجاج',
 'دايتلاف ځواکونو دکندهار پوليسو وکړه',
 'دکندهار هلمند لوبډلو لوب وشو',
 'عراق ک دکولن پاول وينا تشدد زياتيږي',
 'دصادراتو دپر مختيا بانک دفعاليت جوا