# Week  03 Handson - Data Preprocessing #02

## Tokenization

In [7]:
import nltk
from nltk.tokenize import word_tokenize

text1 = "After watching two hours non stop, he says that \
        the film is really fantastic #brilliant."
text2 = "Foods sold there are little bit pricy, \
        meanwhile the taste is not delicious #notrecommended."

tokens1 = word_tokenize(text1)
print("tokens1:\n", tokens1)

tokens2 = word_tokenize(text2)
print("\ntokens2:\n", tokens2)

tokens1:
 ['After', 'watching', 'two', 'hours', 'non', 'stop', ',', 'he', 'says', 'that', 'the', 'film', 'is', 'really', 'fantastic', '#', 'brilliant', '.']

tokens2:
 ['Foods', 'sold', 'there', 'are', 'little', 'bit', 'pricy', ',', 'meanwhile', 'the', 'taste', 'is', 'not', 'delicious', '#', 'notrecommended', '.']


## Normalization

In [8]:
normalized_words1 = [w.lower() for w in tokens1]
print("normalized_words1:\n", normalized_words1)

normalized_words2 = [w.lower() for w in tokens2]
print("\n\nnormalized_words2:\n", normalized_words2)

normalized_words1:
 ['after', 'watching', 'two', 'hours', 'non', 'stop', ',', 'he', 'says', 'that', 'the', 'film', 'is', 'really', 'fantastic', '#', 'brilliant', '.']


normalized_words2:
 ['foods', 'sold', 'there', 'are', 'little', 'bit', 'pricy', ',', 'meanwhile', 'the', 'taste', 'is', 'not', 'delicious', '#', 'notrecommended', '.']


## Cleaning 01: remove punctuation

In [9]:
import string 
table = str.maketrans('', '', string.punctuation)
punc_removed1 = [w.translate(table) for w in normalized_words1]
print("punc_removed1:\n", punc_removed1)

punc_removed2 = [w.translate(table) for w in normalized_words2]
print("\n\npunc_removed2:\n", punc_removed2)

punc_removed1:
 ['after', 'watching', 'two', 'hours', 'non', 'stop', '', 'he', 'says', 'that', 'the', 'film', 'is', 'really', 'fantastic', '', 'brilliant', '']


punc_removed2:
 ['foods', 'sold', 'there', 'are', 'little', 'bit', 'pricy', '', 'meanwhile', 'the', 'taste', 'is', 'not', 'delicious', '', 'notrecommended', '']


## Cleaning 02: remove not alphabetic

In [11]:
isalpha_words1 = [word for word in punc_removed1 if word.isalpha()]
print("isalpha_words1:\n", isalpha_words1)

isalpha_words2 = [word for word in punc_removed2 if word.isalpha()]
print("\n\nisalpha_words2:\n", isalpha_words2)

isalpha_words1:
 ['after', 'watching', 'two', 'hours', 'non', 'stop', 'he', 'says', 'that', 'the', 'film', 'is', 'really', 'fantastic', 'brilliant']


isalpha_words2:
 ['foods', 'sold', 'there', 'are', 'little', 'bit', 'pricy', 'meanwhile', 'the', 'taste', 'is', 'not', 'delicious', 'notrecommended']


## Cleaning 03: remove stop words

In [16]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words("english"))
# print("stop_words:\n{}\n".format(stop_words))

stopWords_removed1 = [w for w in isalpha_words1 if not w in stop_words]
print("stopWords_removed1:\n", stopWords_removed1)

stopWords_removed2 = [w for w in isalpha_words2 if not w in stop_words]
print("\n\nstopWords_removed2:\n", stopWords_removed2)

stopWords_removed1:
 ['watching', 'two', 'hours', 'non', 'stop', 'says', 'film', 'really', 'fantastic', 'brilliant']


stopWords_removed2:
 ['foods', 'sold', 'little', 'bit', 'pricy', 'meanwhile', 'taste', 'delicious', 'notrecommended']


## Stemming

In [18]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

stemmed_word1 = [ps.stem(w) for w in stopWords_removed1]
print("stemmed_word1: \n", stemmed_word1)

stemmed_word2 = [ps.stem(w) for w in stopWords_removed2]
print("\n\nstemmed_word2:\n", stemmed_word2)

stemmed_word1: 
 ['watch', 'two', 'hour', 'non', 'stop', 'say', 'film', 'realli', 'fantast', 'brilliant']


stemmed_word2:
 ['food', 'sold', 'littl', 'bit', 'prici', 'meanwhil', 'tast', 'delici', 'notrecommend']


## Lemmatization

In [26]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

lemmatized_words1 = [lemmatizer.lemmatize(w) for w in stopWords_removed1]
print("lemmatized_words1:\n", lemmatized_words1)

lemmatized_words2 = [lemmatizer.lemmatize(w) for w in stopWords_removed2]
print("\n\nlemmatized_words2:\n", lemmatized_words2)

lemmatized_words1:
 ['watching', 'two', 'hour', 'non', 'stop', 'say', 'film', 'really', 'fantastic', 'brilliant']


lemmatized_words2:
 ['food', 'sold', 'little', 'bit', 'pricy', 'meanwhile', 'taste', 'delicious', 'notrecommended']


## Example of Converting Preprocessed Text into Numerical Features

In [42]:
from sklearn.feature_extraction.text import TfidfVectorizer, HashingVectorizer, CountVectorizer

two_preprocessed_text = [lemmatized_words1, lemmatized_words2]

# define the tfidf vectorizer
def dummy(doc):
    return doc

tfidf = TfidfVectorizer(
    analyzer="word",
    tokenizer=dummy,
    preprocessor=dummy,
    token_pattern=None)

# train / Learn from the given data
model = tfidf.fit(two_preprocessed_text)

# transform to numerical features using the trained model
numerical_features = model.transform(two_preprocessed_text).toarray()

print("feature names:\n", tfidf.get_feature_names())
print("\n\nnumerical_features of text1: \n", numerical_features[0],
     "; shape: ", numerical_features[0].shape)
print("\n\nnumerical_features of text2:\n", numerical_features[1],
     "; shape: ", numerical_features[1].shape)

# list(filter(lambda x: x>0, numerical_features[0]))

feature names:
 ['bit', 'brilliant', 'delicious', 'fantastic', 'film', 'food', 'hour', 'little', 'meanwhile', 'non', 'notrecommended', 'pricy', 'really', 'say', 'sold', 'stop', 'taste', 'two', 'watching']


numerical_features of text1: 
 [0.         0.31622777 0.         0.31622777 0.31622777 0.
 0.31622777 0.         0.         0.31622777 0.         0.
 0.31622777 0.31622777 0.         0.31622777 0.         0.31622777
 0.31622777] ; shape:  (19,)


numerical_features of text2:
 [0.33333333 0.         0.33333333 0.         0.         0.33333333
 0.         0.33333333 0.33333333 0.         0.33333333 0.33333333
 0.         0.         0.33333333 0.         0.33333333 0.
 0.        ] ; shape:  (19,)


## Questions

### Question 01

a. ***Tokenization*** adalah process  melakukan *split* terhadap *string* yang diberikan. Salah satu bagian teknik *tokenization* yang ada, yaitu *word_tokenize*, yaitu *split* dilakukan dengan tanda baca sebagai pemisah; *wordpuct_tokenize* juga melakukan hal yang sama, namun bedanya *word_tokenize* mampu melakukan split kalimat $3.88 menjadi `[ '$', '3.88']`, sedangkan *wordpuct_tokenize* memberikan jawaban yang beda yaitu, `['$', '3', '.', '88']`. Selain itu juga terdapat *sent_tokenize*, yaitu melakukan split string menjadi per kalimat. 

***Normalization*** yaitu proses mengubah teks dalam format yang sama. Pada contoh di atas *normalization* dilakukan dengan cara mengubah *string* menjadi *lowercase*.

***Cleaning*** yaitu proses yang menghilangkan teks-teks yang tidak bermakna, seperti *stopwords*, tanda baca, dan *empty string*.

b. Keduanya memiliki tujuan yang sama yaitu mengambil format kata yang umum atau dasar dari kata yang diberikan dapat berupa kata berimbuhan.

***Stemming*** mengambil kata dasar dari suatu kata yang diberikan. Sudah terdapat *dictionaries* yang menampung daftar kata berserta dengan *prefix* dan *suffix*-nya masing-masing. Sehingga *output* dari teknik ini yaitu kata yang telah dikurangi *prefix* dan *suffix*.

***Lemmatization*** di lain sisi, memiliki tujuan lebih ke *linguistics* dan tidak langsung mengambil kata dasar, melainkan *dictionaries* dan algoritmanya lebih kompleks dan lebih mengerti tentang morfologi struktur kalimat.

### Question 02

***TF-IDF***(*term-frequency times inverse document-frequency*) menunjukkan seberapa penting suatu kata/istilah/*term* di dalam dokumen untuk diperoleh informasi bersangkutan, biasanya cocok digunakan untuk klasifikasi dokumen. ***TF-IDF*** memberikan nilai pada suatu istilah di dalam dokumen berdasarkan proporsi inverse dari frekuensi istilah di dokumen dibandingkan keseluruhan persen dokumen dimana istilah itu muncul. Semua istilah dalam suatu dokumen tidak boleh diperlakukan secara sama berdasarkan aspek frekuensi saja. *Zipf's* law mengatakan, kata fungsional seperti *stopwords* biasanya bersifat dominan distribusinya dalam dokumen.

$tf-idf(t, d) = tf(t, d) * idf(t)$, dimana t adalah *term* dari suatu *document* d adalah di dalam suatu set dokumen.

$tf(t, d)$ adalah *term frequency* adalah jumlah frekuensi *term* t muncul di *document* d. Formula ini tidak cocok digunakan secara mentah karena jika dalam suatu dokumen, kemunculan suatu istilah tertentu ialah 10 kali namun tidak berarti ia lebih relevan 10 kali dibandingkan dokumen lain dengan kemunculan suatu istilah tersebut satu kali saja. Oleh karena itu, kemudian muncul formula $tf-idf(t, d)$.

$idf(t) = $log(n / df(t))$ + 1$, jika smooth_idf=False, dimana n adalah total jumlah *documents* atau kalimat di dalam set dokumen dan $df(t)$ adalah frekuensi dokumen dari t. Formula di sklearn ini berbeda dari yang ditetapkan secara standar.

<br>

Istilah dengan nilai ***TF-IDF*** yang tinggi menunjukkan ikatan yang kuat dengan dokumen dimana istilah ini muncul, dengan kata lain, jika kata tersebut muncul dalam sebuah *query*, dokumen itu menarik bagi *users*. *Array* eksperimen di atas mempunyai *shape* 19 dikarenakan total istilah unik di dalam dua dokumen tersebut berjumlah 19.




### Question 03

***Alternative to TF-IDF Vectorizer***: 

1. *Hashing Vectorizer*
<br>
Mengubah teks dokumen menjadi matrix yang mengandung jumlah kemunculan token atau informasi kemunculan binary dengan mengaplikasikan trik hashing untuk mencari token string sebagai karakteristik index mapping.


2. *Count Vectorizer*
<br>
Mengubah teks ke matriks mengandung nilai jumlah token. Output berupa nilai 0 atau 1. 1 menunjukkan bermakna dan 0 sebaliknya.