In [2]:
#Importing the necessary library
import nltk
from urllib import request
from bs4 import BeautifulSoup
from nltk import word_tokenize
import re
import io
from unidecode import unidecode
import unicodedata


import string
import sys
import argparse

import codecs

In [3]:
arabic_punctuations = '''`÷×؛<>_۔()*&^%][ـ،/:"؟‘’.,'{}~¦+|!”…“–ـ'''
english_punctuations = string.punctuation
punctuations_list = arabic_punctuations + english_punctuations

arabic_diacritics = re.compile("""
							 ّ    | # Tashdid
							 َ    | # Fatha
							 ً    | # Tanwin Fath
							 ُ    | # Damma
							 ٌ    | # Tanwin Damm
							 ِ    | # Kasra
							 ٍ    | # Tanwin Kasr
							 ْ    | # Sukun
							 ـ     # Tatwil/Kashida
							’	 | # ulta comma
							‘	 | # ulta comma 2
						 """, re.VERBOSE)



def normalize_arabic(text):
    text = re.sub("[إأآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "ء", text)
    text = re.sub("ئ", "ء", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("گ", "ك", text)
    return text


def remove_diacritics(text):
	text = re.sub(arabic_diacritics, '', text)
	return text


def remove_punctuations(text):
    translator = str.maketrans('', '', punctuations_list)
    return text.translate(translator)


def remove_repeating_char(text):
	return re.sub(r'(.)\1+', r'\1', text)



## Downloading and cleaning text from Web using BeautifulSoup

In [4]:
url = 'https://www.bbc.co.uk/urdu/sport-49433148'
html = request.urlopen(url)
raw = BeautifulSoup(html, 'html.parser').get_text()
raw = raw.translate ({ord(c): " " for c in "\\!@#$%^&*\'\"()[]{};:,./<>?\|`~-=_+\n"})
raw

raw = remove_punctuations(raw)
raw = remove_diacritics(raw)
raw = remove_repeating_char(raw)

### Tokenizing the Text

In [9]:
tokens = word_tokenize(raw)

print('The length of the words are: ' + str(len(tokens)))

tokens = [w for w in tokens if not re.match(r'[A-Z]+', w, re.I)]
tokens = [w for w in tokens if not re.match(r'[0-9]+', w, re.I)]
tokens = [w for w in tokens if not re.match(r'۔+', w, re.I)]

The length of the words are: 8842


In [7]:
len(tokens)
tokens

['ویڈیو',
 'گیمز',
 'فورٹ',
 'نائٹ',
 'کی',
 'دنیا',
 'کا',
 'وہ',
 'کوچ',
 'جس',
 'نے',
 'کئی',
 'نوجوانوں',
 'کو',
 'کروڑ',
 'پتی',
 'بنایا',
 'اردو',
 'پر',
 'جائیںرسائی',
 'میں',
 'مدNewsSportWeatherRadioArtsفہرستسرچبی',
 'بی',
 'سی',
 'پر',
 'تلاش',
 'کریںبی',
 'بی',
 'سی',
 'پر',
 'تلاش',
 'کریں',
 'اردو',
 'سائٹ',
 'پر',
 'صفحات',
 'اردو',
 'سیکشن',
 'صفحۂ',
 'اول',
 'پاکستان',
 'آس',
 'پاس',
 'ورلڈ',
 'کھیل',
 'فن',
 'فنکار',
 'سائنس',
 'آڈیو',
 'ویڈیو',
 'پنجابی',
 'ويڈیو',
 'تصاویر',
 'ہمیں',
 'اپنے',
 'بارے',
 'میں',
 'بتائیے',
 'ہم',
 'ہمیشہ',
 'اس',
 'ویب',
 'سائٹ',
 'کو',
 'بہتر',
 'بنانے',
 'کی',
 'کوش',
 'کرتے',
 'ہیں',
 'جس',
 'کے',
 'لیے',
 'آپ',
 'کی',
 'مد',
 'درکار',
 'ہے',
 'کیا',
 'آپ',
 'چند',
 'منٹ',
 'صرف',
 'کر',
 'کے',
 'ہمیں',
 'بتا',
 'سکتے',
 'ہیں',
 'کہ',
 'آپ',
 'کا',
 'اس',
 'ویب',
 'سائٹ',
 'کے',
 'بارے',
 'میں',
 'کیا',
 'خیال',
 'ہے',
 'جی',
 'نہیں',
 'ویڈیو',
 'گیمز',
 'فورٹ',
 'نائٹ',
 'کی',
 'دنیا',
 'کا',
 'وہ',
 'کوچ',
 'جس',
 'نے',
 'کئی',
 'ن

In [24]:
fdist1 = nltk.FreqDist(tokens)

fdist1.most_common(1693)

[('میں', 75),
 ('کے', 57),
 ('کو', 40),
 ('کی', 30),
 ('نے', 26),
 ('سے', 25),
 ('کا', 24),
 ('اس', 23),
 ('ویڈیو', 22),
 ('اور', 22),
 ('کریں', 18),
 ('شیئر', 17),
 ('پر', 16),
 ('ہیں', 16),
 ('ہے', 16),
 ('گیمز', 15),
 ('کر', 15),
 ('پوسٹ', 15),
 ('بھی', 15),
 ('کھلاڑیوں', 15),
 ('کہ', 14),
 ('بی', 13),
 ('اپنے', 13),
 ('ایک', 13),
 ('فورٹ', 12),
 ('نائٹ', 11),
 ('یہ', 11),
 ('ہے۔', 11),
 ('ورلڈ', 10),
 ('کپ', 10),
 ('کھلاڑی', 10),
 ('ان', 10),
 ('وہ', 9),
 ('سی', 9),
 ('لیے', 9),
 ('گیم', 9),
 ('ہیو', 9),
 ('کھیل', 8),
 ('نہیں', 8),
 ('شروع', 8),
 ('’', 8),
 ('‘', 8),
 ('سائٹ', 7),
 ('بارے', 7),
 ('کرتے', 7),
 ('آپ', 7),
 ('جو', 7),
 ('ای', 7),
 ('کوچ', 6),
 ('جس', 6),
 ('فیس', 6),
 ('ہیں۔', 6),
 ('مقابلوں', 6),
 ('لیکن', 6),
 ('تو', 6),
 ('کوچنگ', 6),
 ('حکمت', 6),
 ('عملی', 6),
 ('سکتے', 5),
 ('بک', 5),
 ('ٹوئٹر', 5),
 ('گے', 5),
 ('انعام', 5),
 ('ملین', 5),
 ('ڈالر', 5),
 ('جیتنے', 5),
 ('سالہ', 5),
 ('کوئی', 5),
 ('خود', 5),
 ('میرے', 5),
 ('جب', 5),
 ('دوسرے', 5),
 ('کچھ', 5),
