In [1]:
import pandas as pd
import collections

In [2]:
with open('quran-text/quran-uthmani.txt') as f:
    quran_text = [l.strip() for l in f if not l.strip().startswith('#')]

quran_text

6|99|وَهُوَ ٱلَّذِىٓ أَنزَلَ مِنَ ٱلسَّمَآءِ مَآءً فَأَخْرَجْنَا بِهِۦ نَبَاتَ كُلِّ شَىْءٍ فَأَخْرَجْنَا مِنْهُ خَضِرًا نُّخْرِجُ مِنْهُ حَبًّا مُّتَرَاكِبًا وَمِنَ ٱلنَّخْلِ مِن طَلْعِهَا قِنْوَانٌ دَانِيَةٌ وَجَنَّٰتٍ مِّنْ أَعْنَابٍ وَٱلزَّيْتُونَ وَٱلرُّمَّانَ مُشْتَبِهًا وَغَيْرَ مُتَشَٰبِهٍ ٱنظُرُوٓا۟ إِلَىٰ ثَمَرِهِۦٓ إِذَآ أَثْمَرَ وَيَنْعِهِۦٓ إِنَّ فِى ذَٰلِكُمْ لَءَايَٰتٍ لِّقَوْمٍ يُؤْمِنُونَ',
 '6|100|وَجَعَلُوا۟ لِلَّهِ شُرَكَآءَ ٱلْجِنَّ وَخَلَقَهُمْ وَخَرَقُوا۟ لَهُۥ بَنِينَ وَبَنَٰتٍۭ بِغَيْرِ عِلْمٍ سُبْحَٰنَهُۥ وَتَعَٰلَىٰ عَمَّا يَصِفُونَ',
 '6|101|بَدِيعُ ٱلسَّمَٰوَٰتِ وَٱلْأَرْضِ أَنَّىٰ يَكُونُ لَهُۥ وَلَدٌ وَلَمْ تَكُن لَّهُۥ صَٰحِبَةٌ وَخَلَقَ كُلَّ شَىْءٍ وَهُوَ بِكُلِّ شَىْءٍ عَلِيمٌ',
 '6|102|ذَٰلِكُمُ ٱللَّهُ رَبُّكُمْ لَآ إِلَٰهَ إِلَّا هُوَ خَٰلِقُ كُلِّ شَىْءٍ فَٱعْبُدُوهُ وَهُوَ عَلَىٰ كُلِّ شَىْءٍ وَكِيلٌ',
 '6|103|لَّا تُدْرِكُهُ ٱلْأَبْصَٰرُ وَهُوَ يُدْرِكُ ٱلْأَبْصَٰرَ وَهُوَ ٱللَّطِيفُ ٱلْخَبِيرُ',
 '6|104|قَدْ جَآءَكُم بَصَآئِرُ مِن رَّبِّ

In [3]:
cnt = collections.Counter(''.join(quran_text))

FILTERED_CHARS = \
    '|123456789 \t\nًٌَُّْ	' \
    'ِ ۫ ۨ ۬ ۬' \
    '۪ ۣۭۜ۠' \
    '	' \
    'ٰ'

df = pd.DataFrame([
    {'char': k, 'count': v} for k,v in cnt.items()
    if k not in FILTERED_CHARS
])

In [4]:
# TOP 10 frequented chars
df.sort_values('count', ascending=False).head(10)

Unnamed: 0,char,count
4,ل,38550
8,ن,27380
2,م,27071
15,ا,25184
13,و,24970
9,ي,18334
5,ه,14962
3,ٱ,13819
6,ر,12627
0,ب,11603


In [5]:
# top rarest character
df.sort_values('count').head(10)

Unnamed: 0,char,count
43,ـ,495
44,ٔ,496
37,ۢ,510
27,ؤ,706
35,ظ,853
33,ئ,921
42,ۦ,995
22,غ,1221
40,ۥ,1257
18,ط,1273


In [6]:
# characters that has the same occurence

df_same = df.groupby('count').agg(['count', list])

# there are no character that has the same occurence
df_same[df_same['char']['count'] > 1]

Unnamed: 0_level_0,char,char
Unnamed: 0_level_1,count,list
count,Unnamed: 1_level_2,Unnamed: 2_level_2


In [7]:
df[df['count'] == 114]

Unnamed: 0,char,count


In [8]:
# arabic character values according to Ibn Arabi

ref = 'ابجدهوزحطيكلمنسعفصقرشتثخذضظغ';
mapping = {
    'ؤ': 'ا',
    'ئ': 'ا',
    'إ': 'ا',
    'أ': 'ا',
    'آ': 'ا',
    'ى': 'ي',
    'ء': 'ا',
    'ة': 'ه'
}
def val1(c):
    c = mapping.get(c, c)
    i = ref.index(c) if c in ref else -1
    if i == -1:
        if c != ' ':
            return None
        return 0
    else:
        return ((i % 9)+1) * (10 ** (i//9))

def val(s):
    return sum([val1(c) for c in s])


# total char value of all verses in quran
(df['char'].apply(val1) * df['count']).sum()

23443751.0