# Lab 05 - TF-IDF


In [0]:
#Release: 1.1909.0901

You will learn how to:
1. Calculate TF-IDF using TfidfVectorizer
2. View data in pandas DataFrame

<br>
 
***If you use Google Colab, install sastrawi package***

In [1]:
!pip install sastrawi

Collecting sastrawi
[?25l  Downloading https://files.pythonhosted.org/packages/6f/4b/bab676953da3103003730b8fcdfadbdd20f333d4add10af949dd5c51e6ed/Sastrawi-1.0.1-py2.py3-none-any.whl (209kB)
[K     |████████████████████████████████| 215kB 3.2MB/s 
[?25hInstalling collected packages: sastrawi
Successfully installed sastrawi-1.0.1


<br>

#### Import required library

In [0]:
import nltk
import re
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from sklearn.feature_extraction.text import TfidfVectorizer

<br>
 
***If you use Google Colab, download stopwords dan punkt package***

In [3]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

#### Prepocessing function from previous labs

In [0]:
def tokenize_clean(text):
    
    #tokenisasi
    tokens = [word.lower() for sent in nltk.sent_tokenize(text) for word
        in nltk.word_tokenize(sent)]
    
    #clean token from numeric and other character like puntuation
    filtered_tokens = []
    for token in tokens:
        if re.search('[a-zA-Z]', token):
            filtered_tokens.append(token)
            
    return filtered_tokens

In [0]:
stopwords = nltk.corpus.stopwords.words('indonesian')

In [0]:
def remove_stopwords(tokenized_text):
    
    cleaned_token = []
    for token in tokenized_text:
        if token not in stopwords:
            cleaned_token.append(token)
            
    return cleaned_token

In [0]:
def stemming_text(tokenized_text):
    
    #stem using Sastrawi StemmerFactory 
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()

    stems = []
    for token in tokenized_text:
        stems.append(stemmer.stem(token))

    return stems

In [0]:
def text_preprocessing(text):
    
    prep01 = tokenize_clean(text)
    prep02 = remove_stopwords(prep01)
    prep03 = stemming_text(prep02)
    
    return prep03
    

<br>

### Step 01 - Create dataset

Create simple dataset contain 5 sentences (docs)

In [0]:
files = []
files.append("Sekelompok ibu dan kaum perempuan duduk beralaskan rumput lapangan sambil fokus menganyam bambu yang ia genggam ditangan.")
files.append("Sebagian besar masyarakat rupanya tak mau melewatkan waktu begitu  saja untuk meratapi erupsi.")
files.append("Lombok memang memiliki sejuta pesona yang mampu menyedot perhatian orang untuk datang berwisata.")
files.append("Perempuan yang bergelut di dunia kerelawanan akan belajar caranya bertanggung jawab bagi sendiri dan orang lain.")
files.append("Kami berkoordinasi dan melapor pada posko relawan, kami berkomitmen  siap membantu dengan siaga 24 jam")

### Step 02 - Corpus preparation

In [10]:
#prepare corpus, load it into dictionary
token_dict = {}
i = 0
for t in files:
    filename = "file" + str(i)
    token_dict[filename] = t
    i = i + 1

token_dict

{'file0': 'Sekelompok ibu dan kaum perempuan duduk beralaskan rumput lapangan sambil fokus menganyam bambu yang ia genggam ditangan.',
 'file1': 'Sebagian besar masyarakat rupanya tak mau melewatkan waktu begitu  saja untuk meratapi erupsi.',
 'file2': 'Lombok memang memiliki sejuta pesona yang mampu menyedot perhatian orang untuk datang berwisata.',
 'file3': 'Perempuan yang bergelut di dunia kerelawanan akan belajar caranya bertanggung jawab bagi sendiri dan orang lain.',
 'file4': 'Kami berkoordinasi dan melapor pada posko relawan, kami berkomitmen  siap membantu dengan siaga 24 jam'}

In [11]:
token_dict.values()

dict_values(['Sekelompok ibu dan kaum perempuan duduk beralaskan rumput lapangan sambil fokus menganyam bambu yang ia genggam ditangan.', 'Sebagian besar masyarakat rupanya tak mau melewatkan waktu begitu  saja untuk meratapi erupsi.', 'Lombok memang memiliki sejuta pesona yang mampu menyedot perhatian orang untuk datang berwisata.', 'Perempuan yang bergelut di dunia kerelawanan akan belajar caranya bertanggung jawab bagi sendiri dan orang lain.', 'Kami berkoordinasi dan melapor pada posko relawan, kami berkomitmen  siap membantu dengan siaga 24 jam'])

In [13]:
token_dict['file0']

'Sekelompok ibu dan kaum perempuan duduk beralaskan rumput lapangan sambil fokus menganyam bambu yang ia genggam ditangan.'

<br>

Tfidfvectorizer will compute the word counts, idf and tfidf values all at once.

In [0]:
#perform tf-idf vectorization
tfidf = TfidfVectorizer(max_df=0.8,             # terms with document frequency value > 0.8 will be removed
                        min_df=0.2,             # terms with document frequency value < 0.2 will be removed
                        max_features=200000,    # create maximum 200.000 vocabulary that only consider the top max_features ordered by term frequency across the corpus.
                        stop_words = stopwords, # stopwords list
                        use_idf=True,           # enable inverse-document-frequency reweighting
                        tokenizer=text_preprocessing, # override the string tokenization step by using text_prepocessing function 
                        ngram_range=(1,3))      # ngram range 1 - 3 


tfs = tfidf.fit_transform(token_dict.values())

For detail TfidfVectorizer documentation visit: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

<br>

Let's check the shape. We should have 5 rows (5 docs) and 96 columns (96 unique words):

In [14]:
tfs.shape

(5, 96)

<br>

Inspect the first document vector

In [15]:
print(tfs[0])

  (0, 11)	0.17500574860015006
  (0, 8)	0.17500574860015006
  (0, 24)	0.17500574860015006
  (0, 48)	0.17500574860015006
  (0, 86)	0.17500574860015006
  (0, 5)	0.17500574860015006
  (0, 17)	0.17500574860015006
  (0, 65)	0.17500574860015006
  (0, 36)	0.17500574860015006
  (0, 39)	0.17500574860015006
  (0, 29)	0.17500574860015006
  (0, 10)	0.17500574860015006
  (0, 7)	0.17500574860015006
  (0, 23)	0.17500574860015006
  (0, 47)	0.17500574860015006
  (0, 85)	0.17500574860015006
  (0, 4)	0.17500574860015006
  (0, 16)	0.17500574860015006
  (0, 64)	0.17500574860015006
  (0, 35)	0.17500574860015006
  (0, 38)	0.17500574860015006
  (0, 92)	0.17500574860015006
  (0, 28)	0.17500574860015006
  (0, 9)	0.17500574860015006
  (0, 6)	0.17500574860015006
  (0, 22)	0.17500574860015006
  (0, 46)	0.17500574860015006
  (0, 84)	0.17500574860015006
  (0, 3)	0.17500574860015006
  (0, 15)	0.17500574860015006
  (0, 63)	0.1411935360448027
  (0, 34)	0.17500574860015006
  (0, 37)	0.17500574860015006


In [0]:
feature_names = tfidf.get_feature_names()

In [24]:
print(len(feature_names))

96


In [25]:
print(feature_names)

['ajar', 'ajar tanggung', 'ajar tanggung orang', 'alas', 'alas rumput', 'alas rumput lapang', 'anyam', 'anyam bambu', 'anyam bambu genggam', 'bambu', 'bambu genggam', 'bambu genggam tang', 'bantu', 'bantu siaga', 'bantu siaga jam', 'duduk', 'duduk alas', 'duduk alas rumput', 'dunia', 'dunia rawan', 'dunia rawan ajar', 'erupsi', 'fokus', 'fokus anyam', 'fokus anyam bambu', 'gelut', 'gelut dunia', 'gelut dunia rawan', 'genggam', 'genggam tang', 'jam', 'juta', 'juta pesona', 'juta pesona sedot', 'kaum', 'kaum perempuan', 'kaum perempuan duduk', 'kelompok', 'kelompok kaum', 'kelompok kaum perempuan', 'komitmen', 'komitmen bantu', 'komitmen bantu siaga', 'koordinasi', 'koordinasi lapor', 'koordinasi lapor posko', 'lapang', 'lapang fokus', 'lapang fokus anyam', 'lapor', 'lapor posko', 'lapor posko rawan', 'lombok', 'lombok milik', 'lombok milik juta', 'masyarakat', 'masyarakat ratap', 'masyarakat ratap erupsi', 'milik', 'milik juta', 'milik juta pesona', 'orang', 'orang wisata', 'perempuan',

<br>

print IDF value by using pandas

In [26]:
import pandas as pd
# print idf values
df_idf = pd.DataFrame(tfidf.idf_, index=feature_names,columns=["idf"])
 
# sort ascending
df_idf.sort_values(by=['idf'])

Unnamed: 0,idf
rawan,1.693147
perempuan,1.693147
orang,1.693147
ajar,2.098612
perhati,2.098612
perempuan gelut dunia,2.098612
perempuan gelut,2.098612
perempuan duduk alas,2.098612
perempuan duduk,2.098612
orang wisata,2.098612


### Step 03 - TF-IDF Transformation

In [27]:
str1 = 'Di kejauhan tampak seorang relawan pria dari Lombok sedang berjalan.'
response = tfidf.transform([str1])

#show result
for col in response.nonzero()[1]:
    print (feature_names[col], ' - ', response[0, col])
    

rawan  -  0.6279137616509933
lombok  -  0.7782829228046183


In [18]:
response.shape

(1, 96)

In [19]:
print (text_preprocessing(str1))

['jauh', 'rawan', 'pria', 'lombok', 'jalan']


<br>
<br>

### Using Smaller Corpus

In [0]:
# list of text documents
text = ["Sebagian besar masyarakat rupanya tak mau melewatkan waktu begitu  saja untuk meratapi erupsi.",
        "Masyarakat tak mau erupsi",
        "Rupanya waktu erupsi"]

In [29]:
# create the transform
vectorizer = TfidfVectorizer(tokenizer=text_preprocessing)

# tokenize and build vocab
vectorizer.fit(text)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=<function text_preprocessing at 0x7f3178248f28>,
                use_idf=True, vocabulary=None)

In [30]:
# summarize
print(vectorizer.vocabulary_)
print(vectorizer.idf_)

{'masyarakat': 2, 'lewat': 1, 'ratap': 3, 'erupsi': 0}
[1.         1.69314718 1.28768207 1.69314718]


In [31]:
# print idf values
df_idf = pd.DataFrame(vectorizer.idf_, index=vectorizer.get_feature_names(),columns=["idf"])
 
# sort ascending
df_idf.sort_values(by=['idf'])

Unnamed: 0,idf
erupsi,1.0
masyarakat,1.287682
lewat,1.693147
ratap,1.693147


In [32]:
# encode document
vector = vectorizer.transform([text[0]])
# summarize encoded vector
print(vector.shape)
print(vector.toarray())

(1, 4)
[[0.34520502 0.5844829  0.44451431 0.5844829 ]]


<br>
<br>


#### Revision History:
Release: 1.1907.1601
- Initial release

Release: 1.1909.0901
- Install sastrawi package to support Google Colab
- Reorganize code