TF-IDF Example

In [1]:
#open all the Libraries we need for these work
import nltk
import math
import sklearn
import pprint
nltk.download('punkt')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [2]:
#we will use two document in Arabic text
DA="التنقيب في البيانات باللغة العربية"
DB="علم التنقيب في البيانات هو علم حديث"

In [3]:
#build the Bag of words for each document
BofwA=nltk.word_tokenize(DA)
BofwB=nltk.word_tokenize(DB)

In [4]:
print(BofwA)
print(BofwB)

['التنقيب', 'في', 'البيانات', 'باللغة', 'العربية']
['علم', 'التنقيب', 'في', 'البيانات', 'هو', 'علم', 'حديث']


In [5]:
UniqSet=set(BofwA).union(set(BofwB))

In [6]:
print(UniqSet)

{'هو', 'علم', 'في', 'حديث', 'العربية', 'باللغة', 'التنقيب', 'البيانات'}


In [7]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [8]:
stopWD = set(stopwords.words("arabic"))


for word1 in UniqSet:
    if word1 not in stopWD:
          print(word1)

علم
حديث
العربية
باللغة
التنقيب
البيانات


In [9]:
NofwinA=dict.fromkeys(UniqSet,0)
for word1 in BofwA:
  NofwinA[word1] +=1

NofwinB=dict.fromkeys(UniqSet,0)
for word1 in BofwB:
  NofwinB[word1] +=1

In [10]:
print(NofwinA)
print(NofwinB)

{'هو': 0, 'علم': 0, 'في': 1, 'حديث': 0, 'العربية': 1, 'باللغة': 1, 'التنقيب': 1, 'البيانات': 1}
{'هو': 1, 'علم': 2, 'في': 1, 'حديث': 1, 'العربية': 0, 'باللغة': 0, 'التنقيب': 1, 'البيانات': 1}


In [11]:
def calctf(worddict,bagofword):
  tfdict={}
  bagofwordcount=len(bagofword)
  for word ,count in worddict.items():
    tfdict[word]=count/ float(bagofwordcount)
  return tfdict  


In [12]:
tfA=calctf(NofwinA,BofwA)
tfB=calctf(NofwinB,BofwB)
print(tfA)
print(tfB)

{'هو': 0.0, 'علم': 0.0, 'في': 0.2, 'حديث': 0.0, 'العربية': 0.2, 'باللغة': 0.2, 'التنقيب': 0.2, 'البيانات': 0.2}
{'هو': 0.14285714285714285, 'علم': 0.2857142857142857, 'في': 0.14285714285714285, 'حديث': 0.14285714285714285, 'العربية': 0.0, 'باللغة': 0.0, 'التنقيب': 0.14285714285714285, 'البيانات': 0.14285714285714285}


In [13]:
#these function to calcualte the idf for each word in the document
def calcidf(documents):
  N=len(documents)
  idfDict=dict.fromkeys(documents[0].keys(),0)
  for document in documents:
    for word,val in document.items():
      if val>0:
        idfDict[word] +=1
  for word,val in idfDict.items():
      idfDict[word]=math.log(N/float(val))
  return idfDict  

In [14]:
idfss=calcidf([NofwinA,NofwinB])
print(idfss)

{'هو': 0.6931471805599453, 'علم': 0.6931471805599453, 'في': 0.0, 'حديث': 0.6931471805599453, 'العربية': 0.6931471805599453, 'باللغة': 0.6931471805599453, 'التنقيب': 0.0, 'البيانات': 0.0}


In [15]:
#these fuction to calculate the tfidf for all words
def calcTFIDF(tfbagofword,idfs):
  tfidf={}
  for word,val in tfbagofword.items():
     tfidf[word]=val *idfs[word]
  return tfidf   


In [16]:
tfidf_A=calcTFIDF(tfA,idfss)
tfidf_B=calcTFIDF(tfB,idfss)

pprint.pprint(tfidf_A)
pprint.pprint(tfidf_B)

{'البيانات': 0.0,
 'التنقيب': 0.0,
 'العربية': 0.13862943611198905,
 'باللغة': 0.13862943611198905,
 'حديث': 0.0,
 'علم': 0.0,
 'في': 0.0,
 'هو': 0.0}
{'البيانات': 0.0,
 'التنقيب': 0.0,
 'العربية': 0.0,
 'باللغة': 0.0,
 'حديث': 0.09902102579427789,
 'علم': 0.19804205158855578,
 'في': 0.0,
 'هو': 0.09902102579427789}


In [17]:
#here we implement the TFidf build in 

from sklearn.feature_extraction.text import TfidfVectorizer


In [18]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([DA,DB])
feature_names = vectorizer.get_feature_names()
TfidfForAll= vectors.todense()


pprint.pprint(TfidfForAll)

matrix([[0.37930349, 0.37930349, 0.53309782, 0.53309782, 0.        ,
         0.        , 0.37930349, 0.        ],
        [0.25948224, 0.25948224, 0.        , 0.        , 0.36469323,
         0.72938646, 0.25948224, 0.36469323]])
