# Text Processing


**Text processing** adalah suatu teori maupun praktik manipulasi maupun pembuatan teks.

Beberapa tugas **text processing** diantaranya:

- pencarian dan pertukaran
- format
- generate a processed report of the content of, or
- filter a file or report of a text file.


Berikut adalah beberapa library yang dibutuhkan untuk melakukan text processing

- ```numpy```
- ```pandas```
- ```nltk``` (Natural Language Toolkit)
- ```hunspell```
- ```Sastrawi```
- ```Scikit-Learn```
- ```spacy```
- ```gensim```

## Instalasi Library

Untuk instalasi masing-masing package dapat menjalankan script berikut melalui command-prompt atau bash

```bash
pip install numpy
pip install pandas
pip install nltk
pip install hunspell
pip install Sastrawi
pip install scikit-learn
pip install gensim
pip install spacy
```

# Basic Preprocessing

## Lowercasing & Uppercasing

Lowercasing berfungsi untuk membuat setiap huruf pada suatu teks menjadi *lowercase*. Untuk mengubah teks menjadi *lowercase*, kita cukup menggunakan method ```lower``` pada teks. Sedangkan untuk mengubah teks menjadi *uppercase* cukup menggunakan method ```upper```.

**Contoh:** 

In [None]:
teks = 'Facebook resmi menutup 69 akun Facebook, 42 halaman Facebook, dan 34 akun Instagram dari Indonesia karena terindikasi melakukan "perilaku tidak otentik yang terkoordinasi". Sebagian besar akun tersebut mengangkat isu Papua yang ditulis dalam bahasa Indonesia dan bahasa Inggris.'

# sebelum lowercasing
teks

In [None]:
# setelah lowercasing
teks.lower()

In [None]:
# setelah uppercase
teks.upper()

## Tokenization

Tokenisasi adalah proses memecah teks menjadi beberapa kalimat ataupun kata-kata terpisah.

In [None]:
# load sent_tokenize, word_tokenize dan wordpunct_tokenize
from nltk.tokenize import sent_tokenize, word_tokenize, wordpunct_tokenize

Selanjutnya, kita akan mencoba melakukan tokenisasi pada salah satu paragraf dari berita berikut dari situs mojok.co: [INSIGHTID, PERUSAHAAN MISTERIUS YANG TERHUBUNG DENGAN RATUSAN AKUN PROPAGANDA PAPUA
](https://mojok.co/red/rame/kilas/insightid-perusahaan-misterius-yang-terhubung-dengan-ratusan-akun-propaganda-papua/)

In [None]:
teks = "Facebook resmi menutup 69 akun Facebook, 42 halaman Facebook, dan 34 akun Instagram dari Indonesia karena terindikasi melakukan “perilaku tidak otentik yang terkoordinasi”. Sebagian besar akun tersebut mengangkat isu Papua yang ditulis dalam bahasa Indonesia dan bahasa Inggris."

In [None]:
sent_tokenize(text = teks)

In [None]:
word_tokenize(text = teks)

In [None]:
wordpunct_tokenize(text = teks)

**Menggunakan Modul re (Regular Expression)**

In [None]:
import re

In [None]:
re.split(r'\W+', teks)

## Membuang Tanda Baca (Punctuation)

Tanda baca biasanya tidak memiliki nilai apapun dalam pengolahan teks, apalagi jika menggunakan metode klasik seperti *wordcount* atau *TF-IDF*, maka dari itu biasanya tanda baca seperti titik (.), koma (,) dan tanda baca lainnya mesti dibuang.

Untuk membuang tanda baca kita dapat menggunakan method ```replace``` dan menggunakan ReGex seperti berikut:

In [None]:
hasil_tokenisasi = wordpunct_tokenize(text = teks)
hasil_tokenisasi

In [None]:
import string
hasil_tokenisasi = [hasil for hasil in hasil_tokenisasi if hasil not in list(string.punctuation)]

' '.join(hasil_tokenisasi)

## Stemming

Stemming adalah proses menghilangkan *afix* atau imbuhan yang tujuannya agar memperoleh kata dasar

**Menggunakan Sastrawi**

In [None]:
# Load StemmerFactory
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat Steammer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

Selanjutnya kita akan mencoba melakukan stemming pada kata-kata berikut:

- kemalaman
- kesiangan
- berkawan
- permainan
- keterlaluan
- keberpihakan
- mempertanggungjawabkan

In [None]:
daftar_kata = ["kemalaman", 
               "kesiangan", 
               "berkawan", 
               "permainan", 
               "keterlaluan", 
               "keberpihakan", 
               "mempertanggungjawabkan"]

In [None]:
for kata in daftar_kata:
    print(stemmer.stem(kata))

Stemming bisa dilakukan per teks seperti berikut

In [None]:
teks

In [None]:
stemmer.stem(teks)

**Menggunakan Hunspell**

**Note**:

Untuk menggunakan hunspell, dibutuhkan beberapa library tambahan, misalnya:

- Untuk Linux, wajib mendownload ```libhunspell-dev```
- Untuk windows, bisa mendownload dari https://pyhunspell.latinier.fr/ dan install dari source
- Untuk MacOS, harus instalasi dari source di github: https://github.com/blatinier/pyhunspell

In [None]:
# Load library
import hunspell

Untuk menggunakan library hunspell, wajib mengunduh dictionary khusus tergantung dari bahasa yang digunakan, misalnya untuk bahasa Indonesia bisa di https://cgit.freedesktop.org/libreoffice/dictionaries/plain/id

In [None]:
# membuat objek hunspell dengan menggunakan dictionary bahasa indonesia
hunspell_object = hunspell.HunSpell('./dictionary/id_ID.dic','./dictionary/id_ID.aff')

In [None]:
# melakukan stemming per kata
for kata in daftar_kata:
    print(hunspell_object.stem(kata))

## Lemmatization

## Stopwords

Stopwords secara sederhana dapat didefinisikan sebagai kata-kata yang tidak relevan, biasanya sering muncul dalam sebuah teks seperti kata 'adalah', 'ini', 'itu' dan sejenisnya.

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
# Membuat Stopword Remover
factory = StopWordRemoverFactory()
stopwords = factory.get_stop_words()

In [None]:
# melihat daftar stopwords
stopwords

In [None]:
# teks sebelum stopwords
teks

In [None]:
hasil_tokenisasi = word_tokenize(teks)
hasil_tokenisasi

In [None]:
# melihat hasil setelah stopwords dibuang dari teks
[hasil for hasil in hasil_tokenisasi if not hasil in stopwords]

# Basic Feature Extraction

## Wordcount

Kita dapat menghitung jumlah kata dengan cara menggunakan ```FreqDist``` dari NLTK.

In [None]:
# load package
from nltk.probability import FreqDist

In [None]:
FreqDist(hasil_tokenisasi)

In [None]:
import pandas as pd

In [None]:
list(FreqDist(hasil_tokenisasi).keys())

In [None]:
pd.DataFrame(list(FreqDist(hasil_tokenisasi).items()), columns=['Kata', 'Frekuensi'])

## Characters

Untuk mengektrak jumlah karakter dalam sebuah teks, kita dapat menggunakan fungsi ```len```.

In [None]:
len(teks)

## Special Character

Untuk menghitung jumlah karakter spesial tertentu seperti "#", "@" dan lainnya, kita dapat menggunakan cara berikut:

In [None]:
len([hasil for hasil in hasil_tokenisasi if hasil in list(string.punctuation)])

## N-Grams

N-grams adalah pasangan kata terdiri dari N kata.

- N=1 dikatakan sebagai unigram
- N=2 dikatakan sebagai bigram
- N=3 dikatakan sebagai trigram

dan seterusnya. Biasanya berfungsi untuk mengekstrak struktur dari teks atau kata yang terdiri dari 2 atau lebih kata seperti "Rumah Sakit", "Tempat Tidur", "Sepeda Motor" dan sebagainya.

Untuk mengekstrak N-gram, kita dapat menggunakan method ```ngrams``` dari ```nltk```.

In [None]:
from nltk import ngrams

In [None]:
for pasangan_kata in ngrams(teks.split(),2):
    print(pasangan_kata)

# Visualisasi

## Wordclouds

Untuk melakukan visualisasi pada data teks, kita bisa menggunakan Wordclouds untuk melihat kata apa saja yang memiliki frekuensi kemunculan terbesar. Biasanya worcloud digunakan untuk mencari kata-kata kunci dari sebuah dokumen atau teks. 

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
wordcloud = WordCloud().generate(teks.lower())

In [None]:
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off");

In [None]:
wordcloud = WordCloud().generate_from_frequencies(dict(FreqDist(hasil_tokenisasi).items()))

In [None]:
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off");

## Barchart

Karena data teks dapat dianggap sebagai data kategorik, kita dapat memperhitungkan frekuensi tiap kata dengan menggunakan barchart.

In [None]:
frekuensi_kata = list(FreqDist([hasil.lower() for hasil in hasil_tokenisasi]).items())
frekuensi_kata = pd.DataFrame(frekuensi_kata, columns=['Kata', 'Frekuensi'])
frekuensi_kata

In [None]:
frekuensi_kata.sort_values(by='Frekuensi', ascending=True).plot.barh(x='Kata', y='Frekuensi', figsize=(10,10));

In [None]:
frekuensi_kata.sort_values(by='Frekuensi', ascending=False).nlargest(n = 10, columns='Frekuensi').plot.barh('Kata', 'Frekuensi');