# TF-IDF

In [1]:
import pandas as pd

In [2]:
documentA = 'ذهب محمد الي الجامعة ليدرس الفيزياء و الكيمياء'
documentB = 'ذاكرت مني الرياضيات و الفيزياء في الجامعة'

In [3]:
bagOfWordsA = documentA.split(' ')
bagOfWordsB = documentB.split(' ')

In [7]:
bagOfWordsA

['ذهب', 'محمد', 'الي', 'الجامعة', 'ليدرس', 'الفيزياء', 'و', 'الكيمياء']

In [5]:
uniqueWords = set(bagOfWordsA).union(set(bagOfWordsB))
uniqueWords

{'الجامعة',
 'الرياضيات',
 'الفيزياء',
 'الكيمياء',
 'الي',
 'ذاكرت',
 'ذهب',
 'في',
 'ليدرس',
 'محمد',
 'مني',
 'و'}

In [6]:
numOfWordsA = dict.fromkeys(uniqueWords, 0)
numOfWordsA

{'و': 0,
 'الرياضيات': 0,
 'في': 0,
 'ذهب': 0,
 'محمد': 0,
 'الجامعة': 0,
 'مني': 0,
 'ذاكرت': 0,
 'ليدرس': 0,
 'الي': 0,
 'الكيمياء': 0,
 'الفيزياء': 0}

In [7]:
for word in bagOfWordsA:
    numOfWordsA[word] += 1
numOfWordsA

{'و': 1,
 'الرياضيات': 0,
 'في': 0,
 'ذهب': 1,
 'محمد': 1,
 'الجامعة': 1,
 'مني': 0,
 'ذاكرت': 0,
 'ليدرس': 1,
 'الي': 1,
 'الكيمياء': 1,
 'الفيزياء': 1}

In [8]:
numOfWordsB = dict.fromkeys(uniqueWords, 0)
numOfWordsB


{'و': 0,
 'الرياضيات': 0,
 'في': 0,
 'ذهب': 0,
 'محمد': 0,
 'الجامعة': 0,
 'مني': 0,
 'ذاكرت': 0,
 'ليدرس': 0,
 'الي': 0,
 'الكيمياء': 0,
 'الفيزياء': 0}

In [9]:
for word in bagOfWordsB:
    numOfWordsB[word] += 1

numOfWordsB

{'و': 1,
 'الرياضيات': 1,
 'في': 1,
 'ذهب': 0,
 'محمد': 0,
 'الجامعة': 1,
 'مني': 1,
 'ذاكرت': 1,
 'ليدرس': 0,
 'الي': 0,
 'الكيمياء': 0,
 'الفيزياء': 1}

In [10]:
def computeTF(wordDict, bagOfWords):
    tfDict = {}
    bagOfWordsCount = len(bagOfWords)
    for word, count in wordDict.items():
        tfDict[word] = count / float(bagOfWordsCount)
    return tfDict

In [11]:
tfA = computeTF(numOfWordsA,bagOfWordsA)
tfA

{'و': 0.125,
 'الرياضيات': 0.0,
 'في': 0.0,
 'ذهب': 0.125,
 'محمد': 0.125,
 'الجامعة': 0.125,
 'مني': 0.0,
 'ذاكرت': 0.0,
 'ليدرس': 0.125,
 'الي': 0.125,
 'الكيمياء': 0.125,
 'الفيزياء': 0.125}

In [12]:
tfB = computeTF(numOfWordsB, bagOfWordsB)
tfB

{'و': 0.14285714285714285,
 'الرياضيات': 0.14285714285714285,
 'في': 0.14285714285714285,
 'ذهب': 0.0,
 'محمد': 0.0,
 'الجامعة': 0.14285714285714285,
 'مني': 0.14285714285714285,
 'ذاكرت': 0.14285714285714285,
 'ليدرس': 0.0,
 'الي': 0.0,
 'الكيمياء': 0.0,
 'الفيزياء': 0.14285714285714285}

In [13]:
def computeIDF(documents):
    import math
    N = len(documents)
    
    idfDict = dict.fromkeys(documents[0].keys(), 0)
    for document in documents:
        for word, val in document.items():
            if val > 0:
                idfDict[word] += 1
    
    for word, val in idfDict.items():
        idfDict[word] = math.log(N / float(val))
    return idfDict

In [14]:
idfs = computeIDF([numOfWordsA, numOfWordsB])
idfs

{'و': 0.0,
 'الرياضيات': 0.6931471805599453,
 'في': 0.6931471805599453,
 'ذهب': 0.6931471805599453,
 'محمد': 0.6931471805599453,
 'الجامعة': 0.0,
 'مني': 0.6931471805599453,
 'ذاكرت': 0.6931471805599453,
 'ليدرس': 0.6931471805599453,
 'الي': 0.6931471805599453,
 'الكيمياء': 0.6931471805599453,
 'الفيزياء': 0.0}

In [15]:
def computeTFIDF(tfBagOfWords, idfs):
    tfidf = {}
    for word, val in tfBagOfWords.items():
        tfidf[word] = val * idfs[word]
    return tfidf

In [16]:
tfidfA = computeTFIDF(tfA, idfs)
tfidfA

{'و': 0.0,
 'الرياضيات': 0.0,
 'في': 0.0,
 'ذهب': 0.08664339756999316,
 'محمد': 0.08664339756999316,
 'الجامعة': 0.0,
 'مني': 0.0,
 'ذاكرت': 0.0,
 'ليدرس': 0.08664339756999316,
 'الي': 0.08664339756999316,
 'الكيمياء': 0.08664339756999316,
 'الفيزياء': 0.0}

In [17]:
tfidfB = computeTFIDF(tfB, idfs)
tfidfB

{'و': 0.0,
 'الرياضيات': 0.09902102579427789,
 'في': 0.09902102579427789,
 'ذهب': 0.0,
 'محمد': 0.0,
 'الجامعة': 0.0,
 'مني': 0.09902102579427789,
 'ذاكرت': 0.09902102579427789,
 'ليدرس': 0.0,
 'الي': 0.0,
 'الكيمياء': 0.0,
 'الفيزياء': 0.0}

In [18]:
df = pd.DataFrame([tfidfA, tfidfB])
df.head()

Unnamed: 0,و,الرياضيات,في,ذهب,محمد,الجامعة,مني,ذاكرت,ليدرس,الي,الكيمياء,الفيزياء
0,0.0,0.0,0.0,0.086643,0.086643,0.0,0.0,0.0,0.086643,0.086643,0.086643,0.0
1,0.0,0.099021,0.099021,0.0,0.0,0.0,0.099021,0.099021,0.0,0.0,0.0,0.0


In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([documentA, documentB])
print(vectors)

  (0, 3)	0.4078241041497786
  (0, 2)	0.29017020899133733
  (0, 8)	0.4078241041497786
  (0, 0)	0.29017020899133733
  (0, 4)	0.4078241041497786
  (0, 9)	0.4078241041497786
  (0, 6)	0.4078241041497786
  (1, 7)	0.4466561618018052
  (1, 1)	0.4466561618018052
  (1, 10)	0.4466561618018052
  (1, 5)	0.4466561618018052
  (1, 2)	0.31779953783628945
  (1, 0)	0.31779953783628945


In [20]:
feature_names = vectorizer.get_feature_names()
feature_names

['الجامعة',
 'الرياضيات',
 'الفيزياء',
 'الكيمياء',
 'الي',
 'ذاكرت',
 'ذهب',
 'في',
 'ليدرس',
 'محمد',
 'مني']

In [21]:
dense = vectors.todense()
dense

matrix([[0.29017021, 0.        , 0.29017021, 0.4078241 , 0.4078241 ,
         0.        , 0.4078241 , 0.        , 0.4078241 , 0.4078241 ,
         0.        ],
        [0.31779954, 0.44665616, 0.31779954, 0.        , 0.        ,
         0.44665616, 0.        , 0.44665616, 0.        , 0.        ,
         0.44665616]])

In [22]:
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)
df.head()

Unnamed: 0,الجامعة,الرياضيات,الفيزياء,الكيمياء,الي,ذاكرت,ذهب,في,ليدرس,محمد,مني
0,0.29017,0.0,0.29017,0.407824,0.407824,0.0,0.407824,0.0,0.407824,0.407824,0.0
1,0.3178,0.446656,0.3178,0.0,0.0,0.446656,0.0,0.446656,0.0,0.0,0.446656
