<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Word Cloud</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Word Cloud__. Disini kita akan membuat <i>word cloud</i> dari data teks berekstensi <code>.txt</code> dan juga dataset berekstensi <code>.csv</code>. Kita juga akan belajar membuat <i>word cloud</i> dengan berbagai bentuk objek serta mengatur warna <i>background</i> dan teksnya.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Apa itu Wordcloud?
            <ul>
                <li>Install Wordcloud</li>
            </ul>
        </li>
        <li>
            Load data teks
        </li>
        <li>
            Visualisasi teks dengan Word Cloud
            <ul>
                <li>Mengatur ukuran figure</li>
                <li>Menambahkan grid lines</li>
                <li>Menghapus kata pada word cloud</li>
            </ul>
        </li>
        <li>
            Visualisasi data pada dataframe dengan Word Cloud
            <ul>
                <li>Mengubah data pada dataframe menjadi string</li>
                <li>Membuat Word Cloud dengan frekuensi kata</li>
                <ul>
                    <li>Menambahkan kolom 'frekuensi' pada dataframe</li>
                </ul>
            </ul>
        </li>
        <li>
            Word Cloud pada berbagai bentuk objek
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Apa itu Wordcloud ?

__Word Cloud__ adalah salah satu visualisasi data yang digunakan untuk melihat kata-kata yang paling sering muncul di sebuah data teks seperti artikel, buku, dan lain sebagainya. Semakin sering kata tersebut muncul, maka akan semakin besar tulisan kata tersebut pada <i>Word Cloud</i>.

Di Python, kita dapat membuat <i>Word Cloud</i> dengan menggunakan <i>package</i> <code>wordcloud</code> yang sudah tersedia. Disini kita akan menggunakan <i>package</i> tersebut untuk membuat <i>Word Cloud</i>. 

### Install Wordcloud

Untuk membuat __Word Cloud__ kita harus meng-<i>install</i> <i>package</i>-nya terlebih dahulu. Jalankan kode di bawah untuk menginstal <code>wordcloud</code>.

In [None]:
pip install wordcloud

Setelah terinstal, seperti biasanya kita harus meng-<i>import</i>-nya sebelum menggunakannya. Disini kita mengimpor beberapa <i>library</i> atau <i>package</i> seperti Matplotlib, Numpy, Pandas, dan tentunya WordCloud. Kita juga harus mengimpor __STOPWORDS__ karena akan kita gunakan untuk mem-<i>filter</i> kata-kata yang kurang penting pada string.

In [None]:
# import package yang dibutuhkan

from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

<hr>

## Load data teks

Disini kita akan menggunakan data teks dari novel yang cukup terkenal dari Lewis Carroll yang berjudul __Alice's Adventures in Wonderland__.

Pertama kita harus membuka <i>file</i> tersebut dan membacanya. Kita akan memasukkannya ke dalam sebuah variabel, misalnya <code>novel_alice</code>.

In [None]:
# Membuka file dan memasukkannya ke dalam variabel novel_alice

novel_alice = open('../datasets/novel-alice.txt', 'r', encoding='utf8').read()

Anda dapat melihat isi dari teks tersebut dengan <code>print</code>.

In [None]:
# Menampilkan teks novel_alice

print(novel_alice)

Kemudian kita harus mendefinisikan <i>stopwords</i> dari <i>package</i> <code>wordcloud</code> yang telah kita <i>import</i> sebelumnya. <i>Stopwords</i> yang tersedia di Python adalah versi bahasa inggris. Untuk <i>stopwords</i> berbahasa selain bahasa inggris, Anda harus mendefinisikannya sendiri.

In [None]:
# Mendefinisikan stopwords

stopwords = set(STOPWORDS)

Sekarang kita <code>print</code> stopwords.

In [None]:
# Menampilkan stopwords

print(stopwords)

Sekarang kita dapat langsung membuat <i>Word Cloud</i>.

<hr>

## Visualisasi teks dengan Word Cloud

Untuk membuat <i>Word Cloud</i>, pertama kita harus membuat objek <code>WordCloud</code> dan men-<i>generate</i>-nya dengan <i>method</i> <code>generate()</code>. Perhatikan kode berikut.

In [None]:
# Membuat objek word cloud
wordcloud_alice = WordCloud(
    background_color='white',
    max_words=10000,
    stopwords=stopwords
)

# Generate word cloud
wordcloud_alice.generate(novel_alice)

Pada objek <i>word cloud</i>, kita dapat memberikan beberapa argumen diantaranya yang digunakan pada contoh kode di atas adalah :

* <code>background_color</code> untuk mengatur warna latar belakang. Pada contoh di atas, kita mendefinisikan warna putih (white) sebagai warna latarnya.
* <code>max_words</code> untuk mendefinisikan jumlah kata yang akan diambil. Pada contoh di atas, hanya 10000 kata pertama dari novel_alice yang akan digunakan untuk membuat word cloud.
* <code>stopwords</code> untuk mem-filter kata-kata tertentu agar tidak muncul pada hasil visualisasi.

Selanjutnya, kita tampilkan objek <i>word cloud</i> tersebut menggunakan <i>method</i> dari Matplotlib yaitu <code>imshow()</code>.

In [None]:
# Menampilkan word cloud

plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

### Mengatur ukuran figure

Seperti yang kita lihat sebelumnya, <i>word cloud</i> yang terbentuk berukuran kecil. Untuk menentukan ukuran <i>figure</i>, kita dapat mengaturnya dengan <i>method</i> <code>set_figwidth()</code> dan <code>set_figheight()</code>.

In [None]:
fig = plt.figure()
fig.set_figwidth(14) # mengatur width
fig.set_figheight(10) # mengatur height

# menampilkan word cloud
plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

Atau, kita dapat menggunakan <code>figsize</code> seperti di bawah ini.

In [None]:
# Mengatur ukuran figure

plt.figure(figsize=(14,10))
plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

### Menghapus kata pada Word Cloud

Adakalanya kita ingin menghilangkan salah satu kata pada <i>word cloud</i> karena dianggap kurang penting. Untuk itu, kita harus memasukkan kata tersebut ke dalam <i>stopwords</i> agar tidak diikutsertakan dalam pembuatan <i>word cloud</i>.

Misalnya seperti yang kita lihat dari output <i>word cloud</i> sebelumnya, ada string __'S'__ yang tidak bermakna apapun pada <i>word cloud</i> dan ingin kita hapus. Kita dapat menambahkan __'S'__ pada <i>stopwords</i>. Perhatikan kode berikut.

In [None]:
stopwords.add('S') # menambahkan 'S' pada stopwords

# men-generate ulang word cloud
wordcloud_alice.generate(novel_alice)

# menampilkan word cloud
fig = plt.figure()
fig.set_figwidth(14)
fig.set_figheight(10) 

plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

Sekarang <i>word cloud</i> tersebut sudah tidak mengandung string __'S'__.

Bagaimana jika kita ingin menambahkan beberapa kata pada <i>stopwords</i> ?

Kita dapat menambahkannya dengan menggunakan __for__ <i>looping</i> seperti di bawah ini.

In [None]:
add_stopword = ['don', 't', 'without', 'll', 'tm']   # membuat list stopwords

# menambahkan add_stopword pada stopwords
for i in add_stopword:
    stopwords.add(i) 

# men-generate ulang word cloud
wordcloud_alice.generate(novel_alice)

# menampilkan word cloud
fig = plt.figure()
fig.set_figwidth(14) 
fig.set_figheight(10) 

plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

<hr>

## Visualisasi data pada dataframe dengan Word Cloud

Normalnya, <i>word cloud</i> di-<i>generate</i> dari data teks atau string. Namun, bagaimana jika kita ingin membuat <i>word cloud</i> dari data pada dataframe? Untuk melakukan hal itu, salah satu caranya yaitu kita dapat membuat data tersebut menjadi string.

Misalnya disini kita menggunakan dataset populasi penduduk di setiap negara di dunia, dan kita ingin menampilkan nama-nama negara dalam bentuk <i>word cloud</i> berdasarkan pada jumlah populasinya. Semakin banyak populasinya, maka nama negara tersebut akan semakin besar di <i>word cloud</i>.

Pertama, mari kita <i>load</i> datasetnya terlebih dahulu dengan <code>read_csv()</code> dan kemudian kita simpan pada variabel <code>df</code>.

In [None]:
# Load dataset

df = pd.read_csv("../datasets/pop_worldometer_data.csv")
df.head(10)

Kemudian agar lebih mudah dalam <i>indexing</i>, kita akan mengatur kolom <code>Country (or dependency)</code> sebagai indeks menggunakan <i>method</i> <code>set_index()</code>.

In [None]:
# Mengatur 'Country (or dependency)' sebagai indeks

df.set_index("Country (or dependency)", inplace=True)

Mari kita lihat dataframenya setelah perubahan dilakukan.

In [None]:
# Menampilkan 10 data teratas

df.head(10)

### Mengubah data pada dataframe menjadi string

Untuk membuat <i>word cloud</i> dari dataframe, cara pertama yang dapat dilakukan adalah dengan mengubah data pada dataframe menjadi string. Dalam kasus ini, kita akan menjadikan nama-nama negara (indeks dataframe) sebagai string dengan masing-masing negara memiliki jumlah tertentu. Perhatikan kode berikut.

In [None]:
# Membuat string dari indeks dataframe 

word_string = ''      # Mendefinisikan string kosong

# Perhitungan untuk menentukan jumlah untuk tiap negara
for country in df.index.values:
    repeat_num_times = int(df.loc[country, 'World Share %']*100)
    word_string = word_string + ((country + ' ') * repeat_num_times)
                                     
# display the generated text
word_string

Dari kode di atas, kita menentukan jumlah kata untuk tiap negara yang tercetak dengan mengalikan kolom <code>World Share %</code> dengan __100__. 

Setelah kita memiliki string-nya, kita dapat membuat objek <i>word cloud</i>, men-<i>generate</i>-nya, dan menampilkannya dengan Matplotlib seperti di bawah ini.

In [None]:
# Membuat word cloud
wordcloud_country = WordCloud(background_color='black', 
                              collocations=False, 
                              colormap='viridis',
                              width=600,
                              height=330)

wordcloud_country.generate(word_string)

plt.figure(figsize=(16,12))
plt.imshow(wordcloud_country, interpolation='bilinear')
plt.axis('off')
plt.show()

Ada beberapa parameter yang baru kita gunakan, di antaranya:

* <code>collocations</code> : kita atur dengan nilai __False__ agar kemunculan nama negara tidak <i>double</i>.
* <code>colormap</code> : untuk mengatur warna teks pada <i>word cloud</i>.
* <code>width</code> : untuk mengatur lebar (horizontal) <i>word cloud</i>.
* <code>height</code> : untuk mengatur tinggi (vertikal) <i>word cloud</i>.

### Membuat Word Cloud dari frekuensi kata

Cara yang kedua untuk membuat <i>word cloud</i> dari dataframe adalah dari frekuensi setiap kata. Disini kita tidak membuat string atau teks dari dataframe, melainkan membuat 2 list dengan jumlah elemen yang sama, dimana satu list berfungsi untuk menampung kata (nama negara) dan satu list lagi untuk menampung jumlah frekuensi. Untuk menghasilkan frekuensinya kita masih menggunakan perhitungan hasil kali antara kolom <code>World Share %</code> dengan __100__.

In [None]:
# Membuat list_country dan list_freq

list_country = []     # Mendefinisikan list kosong untuk menampung nama negara
list_freq = []        # Mendefinisikan list kosong untuk menampung frekuensi

for country in df.index.values:
    frequency = int(df.loc[country, 'World Share %']*100)
    
    list_country.append(country)         # Menambahkan nama negara ke list_country
    list_freq.append(frequency)          # Menambahkan frekuensi ke list_freq

Setelah itu, kita buat dictionary dari 2 list tersebut. Misalnya disini kita akan membuat dictionary dan memasukkannya ke dalam variabel <code>d</code>.

In [None]:
# Membuat dictionary

d = dict(zip(list_country, list_freq))
print(d)

Setelah mendapatkan dictionary, kita dapat membuat objek <i>word cloud</i> dan men-<i>generate</i>-nya. 

Ada yang berbeda dalam proses <i>generate</i> ini. Disini kita menggunakan <i>method</i> <code>generate_from_frequencies()</code> untuk men-<i>generate</i> <i>word cloud</i> dari frekuensinya.

In [None]:
# Membuat objek word cloud
wordcloud_country = WordCloud(background_color='purple', 
                              collocations=False, 
                              colormap='Paired',
                              width=600,
                              height=330)

# Generate word cloud from frequencies
wordcloud_country.generate_from_frequencies(d)

plt.figure(figsize=(16,12))
plt.imshow(wordcloud_country, interpolation='bilinear')
plt.axis('off')
plt.show()

### Menambahkan kolom 'frequency' pada dataframe

Selain dengan membuat 2 list seperti di atas, kita juga dapat melakukan cara lain yaitu dengan menambahkan kolom baru yang berisi frekuensinya. 

Misalnya kita buat kolom baru yaitu <code>Frequency for Word Cloud</code> yang berisi hasil kali dari kolom <code>World Share %</code> dan __100__.

In [None]:
# Membuat kolom baru 'Frequency for Word Cloud'

df['Frequency for Word Cloud'] = df['World Share %'] * 100
df.head()

Sama seperti sebelumnya, kita membuat dictionary dari <code>df.index.values</code> dan <code>df['Frequency for Word Cloud']</code> dan men-<i>generate</i> <i>word cloud</i> dengan <code>generate_from_frequencies()</code> dengan memasukkan argumen berupa variabel <code>d</code> atau dictionary tersebut.

In [None]:
d = dict(zip(df.index.values, df['Frequency for Word Cloud']))

# Create the word cloud
wordcloud_country = WordCloud(background_color='maroon', 
                              collocations=False, 
                              colormap='coolwarm',
                              width=600,
                              height=330)

# Generate word cloud from frequencies
wordcloud_country.generate_from_frequencies(d)

plt.figure(figsize=(16,12))
plt.imshow(wordcloud_country, interpolation='bilinear')
plt.axis('off')
plt.show()

<hr>

## Word Cloud pada berbagai bentuk objek

Tidak hanya <i>word cloud</i> berbentuk persegi, kita juga dapat membuat <i>word cloud</i> dengan berbagai bentuk. Jadi disini kita akan membuat <i>word cloud</i> pada gambar tertentu yang menjadi <i>mask</i>-nya.

Karena kita akan menggunakan gambar, kita harus meng-<i>import</i> <code>Image</code> dari <i>package</i> <code>PIL</code>. Gambar yang akan kita gunakan adalah <code>alice_mask.png</code>.

In [None]:
from PIL import Image

# Menyimpan mask pada variabel alice_mask
alice_mask = np.array(Image.open('../images/alice_mask.png'))

Selanjutnya kita tampilkan gambar atau <i>mask</i> tersebut dengan <code>imshow()</code>.

In [None]:
# Menampilkan gambar mask

fig = plt.figure()
fig.set_figwidth(14) 
fig.set_figheight(18) 

plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis('off')
plt.show()

Kemudian kita buat <i>word cloud</i>-nya sama seperti sebelumnya namun ditambah parameter <code>mask</code> yang diberi nilai nama variabel dari <i>mask</i>-nya.

In [None]:
# Membuat objek word cloud
wordcloud_alice = WordCloud(background_color='white', max_words=2000, mask=alice_mask, stopwords=stopwords)

# Generate word cloud
wordcloud_alice.generate(novel_alice)

# Menampilkan word cloud
fig = plt.figure()
fig.set_figwidth(14) # set width
fig.set_figheight(18) # set height

plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

Sekarang mari kita coba gunakan <code>colormap</code> dengan tipe __coolwarm__.

In [None]:
# Membuat objek word cloud
wordcloud_alice = WordCloud(background_color='white', max_words=2000, mask=alice_mask, stopwords=stopwords, colormap='coolwarm')

# Generate word cloud
wordcloud_alice.generate(novel_alice)

# Menampilkan word cloud
fig = plt.figure()
fig.set_figwidth(14) 
fig.set_figheight(18) 

plt.imshow(wordcloud_alice, interpolation='bilinear')
plt.axis('off')
plt.show()

Sekarang mari kita coba terapkan juga untuk nama-nama negara dengan menggunakan gambar peta dunia dengan nama <i>file</i> <code>world_map.png</code>.

In [None]:
# Menyimpan mask pada variabel world_mask
world_mask = np.array(Image.open('../images/world_map.png'))

fig = plt.figure()
fig.set_figwidth(18) 
fig.set_figheight(14) 

plt.imshow(world_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis('off')
plt.show()

Dengan cara yang sama seperti sebelumnya, kita buat dictionary, objek <i>word cloud</i>, lalu men-<i>generate</i>-nya dengan <code>generate_from_frequencies()</code>.

In [None]:
# Membuat dictionary
d = dict(zip(df.index.values, df['Frequency for Word Cloud']))

# Membuat objek word cloud dan men-generate-nya
wordcloud_country = WordCloud(background_color='white', 
                              collocations=False, 
                              colormap='winter',
                              width=600,
                              height=330,
                              mask=world_mask).generate_from_frequencies(d)

# Menampilkan word cloud
fig = plt.figure()
fig.set_figwidth(18)
fig.set_figheight(14)

plt.imshow(wordcloud_country)
plt.axis('off')
plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>