# 2. Simple topic identification

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat Anda terapkan pada teks apa pun yang Anda jumpai di berbagai studi kasus. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: **bag-of-words** dan **Tf-idf** menggunakan NLTK dan library baru Gensim.

## Word counts with bag-of-words

### Bag-of-words

* Metode dasar untuk menemukan topik dalam sebuah teks
* Harus terlebih dahulu membuat token menggunakan tokenization
* ...dan kemudian hitung semua token
* Semakin sering kata, semakin penting artinya
* Dapat menjadi cara yang bagus untuk menentukan kata-kata penting dalam sebuah teks

### Bag-of-words example

* Text: `"The cat is in the box. The cat likes the box. The box is over the cat."`
* Bag of words (tanda baca stripped):
  * "The": 3, "box": 3
  * "cat": 3, "the": 3
  * "is": 2
  * "in": 1, "likes": 1, "over": 1

### Bag-of-words in Python

In [7]:
from nltk.tokenize import word_tokenize
from collections import Counter

counter = Counter(word_tokenize("The cat is in the box. The cat likes the box. The box is over the cat."))
counter

Counter({'The': 3,
         'cat': 3,
         'is': 2,
         'in': 1,
         'the': 3,
         'box': 3,
         '.': 3,
         'likes': 1,
         'over': 1})

In [10]:
counter.most_common(2)

[('The', 3), ('cat', 3)]

### Building a Counter with bag-of-words

In [49]:
from zipfile import ZipFile

with ZipFile("datasets/News articles.zip", "r") as myzip:
    with myzip.open("News articles/articles.txt") as myfile:
        article = myfile.read()
        
article = str(article)

In [50]:
# Import Counter
from collections import Counter

# Tokenize the article: tokens
tokens = word_tokenize(article)

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [t.lower() for t in tokens]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = Counter(lower_tokens)

# Print the 10 most common tokens
print(bow_simple.most_common(10))

[(',', 269), ('the', 257), ('to', 131), ('of', 119), ('.', 114), ('a', 98), ('in', 93), ('and', 79), ('that', 63), ('is', 45)]


## Simple text preprocessing

### Why preprocess?

* Membantu menghasilkan data input yang lebih baik
  * Saat melakukan pembelajaran mesin atau metode statistik lainnya
* Contoh:
  * Tokenization untuk membuat bag of words
  * Merubah kata-kata menjadi huruf kecil
* Lemmatization/Stemming
  * Persingkat kata-kata sampai ke akarnya
* Menghapus *stop words*, tanda baca, atau token yang tidak diinginkan
* Bagus untuk bereksperimen dengan berbagai pendekatan

### Preprocessing example

* **Input text**: 
  * `Cats, dogs and birds are common pets. So are fish.`
* **Output tokens**: 
  * `cat, dog, bird, common, pet, fish`

### Text preprocessing with Python

In [55]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [56]:
from nltk.corpus import stopwords

text = "The cat is in the box. The cat likes the box. The box is over the cat."
tokens = [w for w in word_tokenize(text.lower()) if w.isalpha()]
no_stops = [t for t in tokens if t not in stopwords.words('english')]
Counter(no_stops).most_common(2)

[('cat', 3), ('box', 3)]

### Text preprocessing practice

Sekarang, giliran Anda untuk menerapkan teknik yang telah Anda pelajari untuk membantu membersihkan teks untuk hasil NLP yang lebih baik. Anda harus menghapus kata-kata penghenti (*stop words*) dan karakter non-alfabet, lemmatize, dan melakukan *bag-of-words* pada teks Anda yang sudah dibersihkan.

In [62]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [60]:
english_stops = stopwords.words('english')

In [63]:
# Import WordNetLemmatizer
from nltk.stem import WordNetLemmatizer

# Retain alphabetic words: alpha_only
alpha_only = [t for t in lower_tokens if t.isalpha()]

# Remove all stop words: no_stops
no_stops = [t for t in alpha_only if t not in english_stops]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [wordnet_lemmatizer.lemmatize(t) for t in no_stops]

# Create the bag-of-words: bow
bow = Counter(lemmatized)

# Print the 10 most common tokens
print(bow.most_common(10))

[('robot', 26), ('said', 25), ('population', 21), ('news', 18), ('growth', 16), ('human', 15), ('fake', 15), ('united', 14), ('continue', 13), ('could', 12)]


## Introduction to gensim

### What is gensim?

* Popular open-source NLP library
* Uses top academic models to perform complex tasks
  * Building document or word vectors
  * Performing topic identification and document comparison

### What is a word vector?

<img src="datasets/word-vector.png" width=600px height=600px align=left />

### Gensim Example

(Source: http://tlfvincent.github.io/2015/10/23/presidential-speech-topics)

<img src="datasets/gensim.png" width=600px height=600px align=left />

### Creating a gensim dictionary

In [66]:
# !pip install gensim

In [67]:
from gensim.corpora.dictionary import Dictionary
from nltk.tokenize import word_tokenize

my_documents = ['The movie was about a spaceship and aliens.',
                'I really liked the movie!'
                ,'Awesome action scenes, but boring characters.',
                'The movie was awful! I hate alien films.',
                'Space is cool! I liked the movie.',
                'More space films, please!']

tokenized_docs = [word_tokenize(doc.lower()) for doc in my_documents]
dictionary = Dictionary(tokenized_docs)
dictionary.token2id

{'.': 0,
 'a': 1,
 'about': 2,
 'aliens': 3,
 'and': 4,
 'movie': 5,
 'spaceship': 6,
 'the': 7,
 'was': 8,
 '!': 9,
 'i': 10,
 'liked': 11,
 'really': 12,
 ',': 13,
 'action': 14,
 'awesome': 15,
 'boring': 16,
 'but': 17,
 'characters': 18,
 'scenes': 19,
 'alien': 20,
 'awful': 21,
 'films': 22,
 'hate': 23,
 'cool': 24,
 'is': 25,
 'space': 26,
 'more': 27,
 'please': 28}

### Creating a gensim corpus

In [68]:
corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]
corpus

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)],
 [(5, 1), (7, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
 [(0, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1)],
 [(0, 1),
  (5, 1),
  (7, 1),
  (8, 1),
  (9, 1),
  (10, 1),
  (20, 1),
  (21, 1),
  (22, 1),
  (23, 1)],
 [(0, 1), (5, 1), (7, 1), (9, 1), (10, 1), (11, 1), (24, 1), (25, 1), (26, 1)],
 [(9, 1), (13, 1), (22, 1), (26, 1), (27, 1), (28, 1)]]

* Model `gensim` dapat dengan mudah disimpan, diperbarui, dan digunakan kembali
* Dictionary juga dapat diperbarui
* Bag-of-words yang lebih canggih dan kaya fitur, ini dapat digunakan dalam latihan di masa mendatang

### Creating and querying a corpus with gensim

Saatnya untuk menerapkan metode yang Anda pelajari sebelumnya untuk membuat `gensim` dictionary dan corpus pertama Anda!

Anda akan menggunakan struktur data ini untuk menyelidiki tren kata dan topik menarik potensial dalam kumpulan dokumen. Untuk memulai, kami telah mengimpor beberapa artikel berantakan tambahan dari Wikipedia, yang diproses lebih dulu dengan mengurangi semua kata, mengurangi token, dan menghapus *stop words* dan tanda baca. Ini kemudian disimpan dalam list token dokumen sebagai `articles`. Anda harus melakukan preprocessing ringan dan kemudian menghasilkan `gensim` dictionary dan corpus.

In [131]:
# Create name list in zip file .namelist()
name_list = ['Wikipedia articles/wiki_text_bug.txt',
             'Wikipedia articles/wiki_text_computer.txt',
             'Wikipedia articles/wiki_text_crash.txt',
             'Wikipedia articles/wiki_text_debugger.txt',
             'Wikipedia articles/wiki_text_debugging.txt',
             'Wikipedia articles/wiki_text_exception.txt',
             'Wikipedia articles/wiki_text_hopper.txt',
             'Wikipedia articles/wiki_text_language.txt',
             'Wikipedia articles/wiki_text_malware.txt',
             'Wikipedia articles/wiki_text_program.txt',
             'Wikipedia articles/wiki_text_reversing.txt',
             'Wikipedia articles/wiki_text_software.txt']

article_raw = []
for i in name_list:
    zipfile = ZipFile("datasets/Wikipedia articles.zip")
    if i in zipfile.namelist():
        article_list = str(zipfile.open(i).read())
        article_raw.append(article_list)
        
articles = []
for t in article_raw:
    # Tokenize the article: tokens
    tokens = word_tokenize(t)
    # Convert the tokens into lowercase: lower_tokens
    lower_tokens = [t.lower() for t in tokens]
    # Retain alphabetic words: alpha_only
    alpha_only = [t for t in lower_tokens if t.isalpha()]
    # Remove all stop words: no_stops
    no_stops = [t for t in alpha_only if t not in english_stops]
    
    articles.append(no_stops)

In [132]:
# Import Dictionary
from gensim.corpora.dictionary import Dictionary

# Create a Dictionary from the articles: dictionary
dictionary = Dictionary(articles)

# Select the id for "computer": computer_id
computer_id = dictionary.token2id.get("computer")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [dictionary.doc2bow(article) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])

computer
[(1, 1), (13, 1), (15, 1), (18, 1), (26, 1), (29, 1), (36, 1), (37, 4), (45, 2), (46, 7)]


### Gensim bag-of-words

Sekarang, Anda akan menggunakan `gensim` corpus dan dictionary baru Anda untuk melihat istilah paling umum per dokumen dan di semua dokumen. Anda dapat menggunakan dictionary Anda untuk mencari istilah. Coba tebak apa topiknya dan jangan ragu untuk menjelajahi lebih banyak dokumen di IPython Shell!

Anda memiliki akses ke `dictionary` dan objek `corpus` yang Anda buat pada latihan sebelumnya, serta `defaultdict` Python dan `itertools` untuk membantu pembuatan struktur data menengah untuk analisis.

* `defaultdict` memungkinkan kita untuk menginisialisasi dictionary yang akan menetapkan nilai default ke kunci yang tidak ada. Dengan memasok argumen `int`, kami dapat memastikan bahwa kunci yang tidak ada secara otomatis diberi nilai default `0`. Ini membuatnya ideal untuk menyimpan jumlah kata dalam latihan ini.
* `itertools.chain.from_iterable()` memungkinkan kita untuk beralih melalui serangkaian urutan seolah-olah mereka adalah satu urutan berkelanjutan. Dengan menggunakan fungsi ini, kita dapat dengan mudah iterate melalui objek `corpus` kami (yang merupakan list of lists).

Dokumen kelima dari `corpus` disimpan dalam variabel `doc`, yang telah diurutkan dalam urutan menurun.

In [137]:
from collections import defaultdict
import itertools

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.get(word_id), word_count)
    
# Create the defaultdict: total_word_count
total_word_count = defaultdict(int)
for word_id, word_count in itertools.chain.from_iterable(corpus):
    total_word_count[word_id] += word_count
    
# Create a sorted list from the defaultdict: sorted_word_count
sorted_word_count = sorted(total_word_count.items(), key=lambda w: w[1], reverse=True) 

# Print the top 5 words across all documents alongside the count
for word_id, word_count in sorted_word_count[:5]:
    print(dictionary.get(word_id), word_count)

debugging 30
system 18
software 16
computer 12
tools 12
computer 551
software 403
cite 314
ref 259
code 223


## Tf-idf with gensim

### What is tf-idf?

* Frekuensi istilah - frekuensi dokumen terbalik
* Memungkinkan Anda menentukan kata-kata terpenting dalam setiap dokumen
* Setiap corpus mungkin telah membagikan kata-kata di luar stopwords
* Kata-kata ini harus diturunkan bobotnya menjadi penting
* Contoh dari astronomi: "Sky"
* Pastikan kata yang paling umum tidak muncul sebagai kata kunci
* Menyimpan dokumen dengan kata-kata khusus yang frekuensi berbobot tinggi

### Tf-idf formula

<img src="datasets/tf-idf-formula.png" width=400px height=400px align=left />

### Tf-idf with gensim

In [141]:
from gensim.models.tfidfmodel import TfidfModel

tfidf = TfidfModel(corpus)
tfidf[corpus[1][:10]]

[(1, 0.6709183957946449),
 (2, 0.44727893052976325),
 (4, 0.117649747733871),
 (8, 0.4726135548348919),
 (11, 0.19269987713035017),
 (12, 0.1490929768432544),
 (13, 0.0941547797106057),
 (16, 0.1883095594212114),
 (18, 0.0745464884216272),
 (19, 0.05796791435941204)]

### Tf-idf with Wikipedia

Sekarang giliran Anda untuk menentukan istilah signifikan baru untuk corpus Anda dengan menerapkan `gensim`'s tf-idf. Anda lagi akan memiliki akses ke objek dictionary dan corpus yang sama yang Anda buat dalam latihan sebelumnya - `dictionary`, `corpus`, dan `doc`. Akankah tf-idf membuat hasil yang lebih menarik pada level dokumen?

In [142]:
# Create a new TfidfModel using the corpus: tfidf
tfidf = TfidfModel(corpus)

# Calculate the tfidf weights of doc: tfidf_weights
tfidf_weights = tfidf[doc]

# Print the first five weights
print(tfidf_weights[:5])

# Sort the weights from highest to lowest: sorted_tfidf_weights
sorted_tfidf_weights = sorted(tfidf_weights, key=lambda w: w[1], reverse=True)

# Print the top 5 weighted words
for term_id, weight in sorted_tfidf_weights[:5]:
    print(dictionary.get(term_id), weight)

[(1, 0.012839474667861298), (13, 0.01621669825834024), (15, 0.02035008587751938), (18, 0.012839474667861298), (26, 0.025678949335722595)]
wolf 0.23014517606620988
fence 0.1841161408529679
debugging 0.15986590374609647
acm 0.15407369601433557
tron 0.13808710563972595
