In [100]:
import numpy as np
from scipy.sparse import csr_matrix
import math
from sklearn.preprocessing import normalize

In [1]:
corpus = [
     'this is the first document',
     'this document is the second document',
     'and this is the third one',
     'is this the first document',
]

In [104]:
class TFIDFCustomInplement:
  def __init__(self):
    self.IDFdict = dict()
  
  def term_freq(self,doc):
    '''calculating the term value'''
    TFdict = dict()
    for word in doc.split(' '):
      value = 1
      if TFdict.get(word) == None:
        TFdict[word] = value
      else:
        value = TFdict[word]
        TFdict[word] = value+1
    for key in TFdict.keys():
      TFdict[key] = TFdict[key]/(len(doc.split(' '))*1.0)
    print('TF-',TFdict)
    return TFdict
  
  def inv_doc_freq(self,corpus):
    '''Calculating the IDF value'''
    WordList = set()
    for sent in corpus:
      for word in sent.split(' '):
        WordList.add(word)
    for word in WordList:
      no_of_occurances = 0
      for sent in corpus:
        if word in sent.split(' '):
          no_of_occurances += 1
          continue
      self.IDFdict[word] = 1 + math.log((1+len(corpus))/(1+no_of_occurances))
    print('IDF-',self.IDFdict)

  def fit(self,corpus):
    '''Calculating the IDF value'''
    self.inv_doc_freq(corpus)
  
  def transform(self, corpus):
      # Initialising empty lists to store the row numbers, column numbers 
      # and the values that has to be stored in that particular location (row, column)
      # This is to create a sparse representation of a matrix
      rows = []
      columns = []
      values = []
      for row,sent in enumerate(corpus):
        TFdict = self.term_freq(sent)
        for col,word in enumerate(sent.split(' ')):
          TFIDFValue = TFdict[word]*self.IDFdict[word]
          if TFIDFValue != 0:
            rows.append(row)
            columns.append(col)
            values.append(TFIDFValue)
      sparse_matrix =  csr_matrix((values, (rows, columns)), shape=(len(corpus), len(self.IDFdict)))
      print(sparse_matrix)
      return sparse_matrix

In [107]:
tfidfvectorizer = TFIDFCustomInplement()
tfidfvectorizer.fit(corpus)
vector = tfidfvectorizer.transform(corpus)

IDF- {'this': 1.0, 'first': 1.5108256237659907, 'the': 1.0, 'document': 1.2231435513142097, 'second': 1.916290731874155, 'third': 1.916290731874155, 'one': 1.916290731874155, 'is': 1.0, 'and': 1.916290731874155}
TF- {'this': 0.2, 'is': 0.2, 'the': 0.2, 'first': 0.2, 'document': 0.2}
TF- {'this': 0.16666666666666666, 'document': 0.3333333333333333, 'is': 0.16666666666666666, 'the': 0.16666666666666666, 'second': 0.16666666666666666}
TF- {'and': 0.16666666666666666, 'this': 0.16666666666666666, 'is': 0.16666666666666666, 'the': 0.16666666666666666, 'third': 0.16666666666666666, 'one': 0.16666666666666666}
TF- {'is': 0.2, 'this': 0.2, 'the': 0.2, 'first': 0.2, 'document': 0.2}
  (0, 0)	0.2
  (0, 1)	0.2
  (0, 2)	0.2
  (0, 3)	0.3021651247531982
  (0, 4)	0.24462871026284194
  (1, 0)	0.16666666666666666
  (1, 1)	0.40771451710473655
  (1, 2)	0.16666666666666666
  (1, 3)	0.16666666666666666
  (1, 4)	0.3193817886456925
  (1, 5)	0.40771451710473655
  (2, 0)	0.3193817886456925
  (2, 1)	0.166666666