# Text Pre-Processing "Mendeteksi Berita Hoax" #

Text Pre-processing merupakan langkah menyiapkan data teks untuk bisa dimodelkan ke dalam machine learning. Secara umum tahapan text pre-processing bisa dikategorikan menjadi:





1.   Tahapan Wajib, tahapan yang pasti dilakukan setiap melakukan text pre-processing. Tahapan ini adalah Tokenisasi
2.   Tahapan Umum, tahapan ini yang sering sekali dilakukan oleh praktisi. Tahapan ini tidak wajib dilakukan dan sangat bergantung pada tujuan analisis yang ingin dilakukan. Beberapa tahapan yang masuk dalam kategori ini adalah:
  - Case Folding (Capital/Non Capital letters)
  - Menghilangkan Tanda Baca (punctuation removal)
  Menghapus whitepace (Whitespace removal)
  - Menghapus/mentransformasi angka
  - Menghapus Stop Word (Stop Word Removal)
  - Text Normalization/Noise Removal (seperti mengubah bahasa tidak baku menjadi baku,mengubah singkatan, menghapus karater khusus seperti @ dan #)
  - Stemming/Lemmatization
  - Tahapan Tambahan (Other Steps, tahapan ini tidak sering dilakukan oleh praktisi karena hanya digunakan pada kasus-kasus khusus)

Language Detection (jika kumpulan teks mengandung lebih dari satu bahasa)
Code Mixing/Transliteration (jika dalam satu teks mengandung lebih dari satu bahasa, misalnya bahasa gaul jaksel)


# Resources Bahasa Indonesia untuk Text Pre-processing #
Beberapa resources text pre-processing bahasa indonesia yang dapat digunakan:

1. KirraLabs: Mix of NLP-TextMining resources
2. Sastrawi 1.0.1: untuk "stemming" & stopwords bahasa Indonesia.
3. Daftar Kata Dasar Indonesia: Bisa di load sebagai dictionary di Python
4. Wiktionary: ProyekWiki bahasa Indonesia [termasuk Lexicon]
5. WordNet Bahasa Indonesia: Bisa di load sebagai dictionary (atau NLTK*) di Python.
6. Daftar Kata Baku-Tidak Baku: Bisa di load sebagai dictionary di Python.
7. Spacy: Cepat/efisien, MIT License, tapi language model Indonesia masih terbatas.
8. UdPipe: Online request & restricted license (support berbagai bahasa - pemrograman).
9. Kamus Alay: Daftar bahasa gaul.
10. Indonesia NLP Resources github: Resources di github.
11. NLP Bahasa Indonesia Resources: Resources di github.

Di python, ada beberapa package (modul) yang dapat membantu kita untuk menangani masalah teks ini, seperti:

- Spacy
- NLTK
- Gensim
- TextBlob
- PySastrawi (Khusus Bahasa Indonesia)

Dalam tutorial ini kita akan fokus menggunakan Spacy,NLTK dan PySastrawi. Selain package diatas, ada beberapa sumber lain yang dapat membantu kita untuk pengolahan teks ini seperti:

1. Indonesian stopwords
2. Daftar Kata Baku-Tidak Baku
3. Kamus Alay

In [None]:
import pandas as pd

dummy_doc = pd.DataFrame({"text":["utk kamu yg disana, sdh makan belum?",
                                  "Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.",
                                  "Gue ga suka makan bakso, jangan dipaksaaa!!!",
                                  "Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3",
                                  "Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia."
                                  ]})
dummy_doc

Unnamed: 0,text
0,"utk kamu yg disana, sdh makan belum?"
1,Bangkai 120 lumba-lumba ditemukan di sungai Am...
2,"Gue ga suka makan bakso, jangan dipaksaaa!!!"
3,Galau bgt mau dukung Ji Chang Wook atau Wi Ha ...
4,Kasus Covid-19 bertambah 40.618 pada Kamis (10...


In [None]:
for row in range(0,5):
  print(dummy_doc.iloc[row,0])

utk kamu yg disana, sdh makan belum?
Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.
Gue ga suka makan bakso, jangan dipaksaaa!!!
Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.


In [None]:
def print_text_in_df(doc):
  for row in range(0,doc.shape[0]):
    print(doc.iloc[row,0])

# Tokenisasi #
Tokenisasi merupakan tahap yang wajib dilakukan pada saat text pre-processing. Pada tahap ini, kita memisahkan teks menjadi unit-unit yang lebih kecil. Unit-unit ini disebut juga dengan token. Di sini, token dapat berupa kata, karakter, atau subkata. Oleh karena itu, tokenisasi secara luas dapat diklasifikasikan menjadi 3 jenis yaitu

* tokenisasi (word) kata
* tokenisasi karakter(character)
* tokenisasi sub kata (karakter n-gram).

Membuat Kosakata adalah tujuan akhir dari Tokenisasi.

Misalkan saja, kalimat: Aku suka mangga.

Cara paling umum untuk membentuk token didasarkan pada spasi. Dengan asumsi spasi sebagai pemisah, tokenisasi kata (word tokenization) Aku suka mangga menghasilkan 3 token yaitu Aku-suka-mangga. Karena setiap token adalah sebuah kata, itu menjadi contoh tokenisasi kata.

Demikian pula, token dapat berupa karakter atau subkata. Misalnya, kata menghasilkan:

* Token karakter: m-e-n-g-h-a-s-i-l-k-a-n
* Token sub kata: meng-hasil-kan

# Tokenisasi Kata dalam Python #

In [None]:
def word_token_default(doc):
  return doc.split()

In [None]:
print(word_token_default(dummy_doc.iloc[3,0]))

['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon...', 'Semuanya', 'kasian', 'huhu..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt!', '<3']


In [None]:
dummy_doc1 = dummy_doc.apply(lambda doc: word_token_default(doc.iloc[0]),axis=1)
print(type(dummy_doc1))

<class 'pandas.core.series.Series'>


In [None]:
#Menampilkan kata
print_text_in_df(dummy_doc1.to_frame(name="text"))

['utk', 'kamu', 'yg', 'disana,', 'sdh', 'makan', 'belum?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'di', 'sungai', 'Amazon', 'selama', 'seminggu', 'terakhir.']
['Gue', 'ga', 'suka', 'makan', 'bakso,', 'jangan', 'dipaksaaa!!!']
['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon...', 'Semuanya', 'kasian', 'huhu..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt!', '<3']
['Kasus', 'Covid-19', 'bertambah', '40.618', 'pada', 'Kamis', '(10/2),', 'sehingga', 'total', 'kasus', 'mencapai', '4.667.554.', 'Sebanyak', '4.234.510', 'orang', 'telah', 'sembuh,', 'dan', '144.858', 'meninggal', 'dunia.']


# Menggunakan Spacy #

In [None]:
from spacy.lang.id import Indonesian
import spacy
nlp = Indonesian()

In [None]:
def word_token_spacy(doc):
  doc1 = nlp(doc)
  token = [token.text for token in doc1]
  return token

In [None]:
print(word_token_spacy(dummy_doc.iloc[3,0]))

['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<3']


In [None]:
dummy_doc2 = dummy_doc.apply(lambda doc: word_token_spacy(doc.iloc[0]),axis=1)
print(type(dummy_doc2))
dummy_doc2

<class 'pandas.core.series.Series'>


0     [utk, kamu, yg, disana, ,, sdh, makan, belum, ?]
1    [Bangkai, 120, lumba-lumba, ditemukan, di, sun...
2    [Gue, ga, suka, makan, bakso, ,, jangan, dipak...
3    [Galau, bgt, mau, dukung, Ji, Chang, Wook, ata...
4    [Kasus, Covid, -, 19, bertambah, 40.618, pada,...
dtype: object

In [None]:
print_text_in_df(dummy_doc2.to_frame(name="text"))

['utk', 'kamu', 'yg', 'disana', ',', 'sdh', 'makan', 'belum', '?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'di', 'sungai', 'Amazon', 'selama', 'seminggu', 'terakhir', '.']
['Gue', 'ga', 'suka', 'makan', 'bakso', ',', 'jangan', 'dipaksaaa', '!', '!', '!']
['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<3']
['Kasus', 'Covid', '-', '19', 'bertambah', '40.618', 'pada', 'Kamis', '(', '10', '/', '2', ')', ',', 'sehingga', 'total', 'kasus', 'mencapai', '4.667.554', '.', 'Sebanyak', '4.234.510', 'orang', 'telah', 'sembuh', ',', 'dan', '144.858', 'meninggal', 'dunia', '.']


In [None]:
eng_text = "I don't like your attitude! I'll report you to your parents!"
print(word_token_default(eng_text))
print(word_token_spacy(eng_text))

['I', "don't", 'like', 'your', 'attitude!', "I'll", 'report', 'you', 'to', 'your', 'parents!']
['I', "don't", 'like', 'your', 'attitude', '!', "I'll", 'report', 'you', 'to', 'your', 'parents', '!']


In [None]:
nlp_eng = spacy.load("en_core_web_sm")
def word_token_spacy_eng(doc):
  doc1 = nlp_eng(doc)
  token = [token.text for token in doc1]
  return token

In [None]:
print(word_token_spacy_eng(eng_text))

['I', 'do', "n't", 'like', 'your', 'attitude', '!', 'I', "'ll", 'report', 'you', 'to', 'your', 'parents', '!']


# Menggunakan NLTK #

In [None]:
import nltk
from nltk.tokenize import word_tokenize

In [None]:
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping grammars/basque_grammars.zip.
[nltk_data]    | Downloading package bcp47 to /root/nltk_data...
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   U

True

In [None]:
print(word_tokenize(dummy_doc.iloc[3,0]))

['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<', '3']


In [None]:
print(word_tokenize(eng_text))

['I', 'do', "n't", 'like', 'your', 'attitude', '!', 'I', "'ll", 'report', 'you', 'to', 'your', 'parents', '!']


In [None]:
dummy_doc3 = dummy_doc.apply(lambda doc: word_tokenize(doc.iloc[0]),axis=1)
print(type(dummy_doc3))
dummy_doc3

<class 'pandas.core.series.Series'>


0     [utk, kamu, yg, disana, ,, sdh, makan, belum, ?]
1    [Bangkai, 120, lumba-lumba, ditemukan, di, sun...
2    [Gue, ga, suka, makan, bakso, ,, jangan, dipak...
3    [Galau, bgt, mau, dukung, Ji, Chang, Wook, ata...
4    [Kasus, Covid-19, bertambah, 40.618, pada, Kam...
dtype: object

In [None]:
print_text_in_df(dummy_doc3.to_frame(name="text"))

['utk', 'kamu', 'yg', 'disana', ',', 'sdh', 'makan', 'belum', '?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'di', 'sungai', 'Amazon', 'selama', 'seminggu', 'terakhir', '.']
['Gue', 'ga', 'suka', 'makan', 'bakso', ',', 'jangan', 'dipaksaaa', '!', '!', '!']
['Galau', 'bgt', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<', '3']
['Kasus', 'Covid-19', 'bertambah', '40.618', 'pada', 'Kamis', '(', '10/2', ')', ',', 'sehingga', 'total', 'kasus', 'mencapai', '4.667.554', '.', 'Sebanyak', '4.234.510', 'orang', 'telah', 'sembuh', ',', 'dan', '144.858', 'meninggal', 'dunia', '.']


# Tokenisasi Karakter dalam Python #

In [None]:
def char_token(doc):
 token = [x for x in doc]
 return token

In [None]:
print(char_token(dummy_doc.iloc[3,0]))

['G', 'a', 'l', 'a', 'u', ' ', 'b', 'g', 't', ' ', 'm', 'a', 'u', ' ', 'd', 'u', 'k', 'u', 'n', 'g', ' ', 'J', 'i', ' ', 'C', 'h', 'a', 'n', 'g', ' ', 'W', 'o', 'o', 'k', ' ', 'a', 't', 'a', 'u', ' ', 'W', 'i', ' ', 'H', 'a', ' ', 'J', 'o', 'o', 'n', '.', '.', '.', ' ', 'S', 'e', 'm', 'u', 'a', 'n', 'y', 'a', ' ', 'k', 'a', 's', 'i', 'a', 'n', ' ', 'h', 'u', 'h', 'u', '.', '.', ' ', 'T', 'h', 'e', ' ', 'W', 'o', 'r', 's', 't', ' ', 'o', 'f', ' ', 'E', 'v', 'i', 'l', ' ', 's', 'e', 'r', 'u', 'u', 'u', 'u', ' ', 'b', 'g', 't', '!', ' ', '<', '3']


In [None]:
dummy_doc4 = dummy_doc.apply(lambda doc: char_token(doc.iloc[0]),axis=1)
print(type(dummy_doc4))
dummy_doc4

<class 'pandas.core.series.Series'>


0    [u, t, k,  , k, a, m, u,  , y, g,  , d, i, s, ...
1    [B, a, n, g, k, a, i,  , 1, 2, 0,  , l, u, m, ...
2    [G, u, e,  , g, a,  , s, u, k, a,  , m, a, k, ...
3    [G, a, l, a, u,  , b, g, t,  , m, a, u,  , d, ...
4    [K, a, s, u, s,  , C, o, v, i, d, -, 1, 9,  , ...
dtype: object

In [None]:
print_text_in_df(dummy_doc4.to_frame(name="text"))

['u', 't', 'k', ' ', 'k', 'a', 'm', 'u', ' ', 'y', 'g', ' ', 'd', 'i', 's', 'a', 'n', 'a', ',', ' ', 's', 'd', 'h', ' ', 'm', 'a', 'k', 'a', 'n', ' ', 'b', 'e', 'l', 'u', 'm', '?']
['B', 'a', 'n', 'g', 'k', 'a', 'i', ' ', '1', '2', '0', ' ', 'l', 'u', 'm', 'b', 'a', '-', 'l', 'u', 'm', 'b', 'a', ' ', 'd', 'i', 't', 'e', 'm', 'u', 'k', 'a', 'n', ' ', 'd', 'i', ' ', 's', 'u', 'n', 'g', 'a', 'i', ' ', 'A', 'm', 'a', 'z', 'o', 'n', ' ', 's', 'e', 'l', 'a', 'm', 'a', ' ', 's', 'e', 'm', 'i', 'n', 'g', 'g', 'u', ' ', 't', 'e', 'r', 'a', 'k', 'h', 'i', 'r', '.']
['G', 'u', 'e', ' ', 'g', 'a', ' ', 's', 'u', 'k', 'a', ' ', 'm', 'a', 'k', 'a', 'n', ' ', 'b', 'a', 'k', 's', 'o', ',', ' ', 'j', 'a', 'n', 'g', 'a', 'n', ' ', 'd', 'i', 'p', 'a', 'k', 's', 'a', 'a', 'a', '!', '!', '!']
['G', 'a', 'l', 'a', 'u', ' ', 'b', 'g', 't', ' ', 'm', 'a', 'u', ' ', 'd', 'u', 'k', 'u', 'n', 'g', ' ', 'J', 'i', ' ', 'C', 'h', 'a', 'n', 'g', ' ', 'W', 'o', 'o', 'k', ' ', 'a', 't', 'a', 'u', ' ', 'W', 'i', ' ', '

# Tokenisasi Sub-kata dalam Python #

In [None]:
!pip install bpemb

Collecting bpemb
  Downloading bpemb-0.3.4-py3-none-any.whl (19 kB)
Collecting sentencepiece (from bpemb)
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sentencepiece, bpemb
Successfully installed bpemb-0.3.4 sentencepiece-0.1.99


In [None]:
from bpemb import BPEmb

In [None]:
bpemb_id = BPEmb(lang="id",vs=200000, dim=300)

downloading https://nlp.h-its.org/bpemb/id/id.wiki.bpe.vs200000.model


100%|██████████| 3739973/3739973 [00:00<00:00, 4548473.31B/s]


downloading https://nlp.h-its.org/bpemb/id/id.wiki.bpe.vs200000.d300.w2v.bin.tar.gz


100%|██████████| 223740954/223740954 [00:09<00:00, 22848034.09B/s]


In [None]:
print(bpemb_id.encode(dummy_doc.iloc[3,0]))

['▁galau', '▁bgt', '▁mau', '▁dukung', '▁ji', '▁chang', '▁wook', '▁atau', '▁wi', '▁ha', '▁joon', '...', '▁semuanya', '▁kas', 'ian', '▁h', 'uhu', '..', '▁the', '▁worst', '▁of', '▁evil', '▁ser', 'uu', 'uu', '▁bgt', '!', '▁<0']


In [None]:
dummy_doc5 = dummy_doc.apply(lambda doc: bpemb_id.encode(doc.iloc[0]),axis=1)
print(type(dummy_doc5))
dummy_doc5

<class 'pandas.core.series.Series'>


0    [▁utk, ▁kamu, ▁yg, ▁disana, ,, ▁sdh, ▁makan, ▁...
1    [▁bangkai, ▁000, ▁lumba, -, lumba, ▁ditemukan,...
2    [▁gue, ▁ga, ▁suka, ▁makan, ▁bakso, ,, ▁jangan,...
3    [▁galau, ▁bgt, ▁mau, ▁dukung, ▁ji, ▁chang, ▁wo...
4    [▁kasus, ▁cov, id, -00, ▁bertambah, ▁00.000, ▁...
dtype: object

In [None]:
print_text_in_df(dummy_doc5.to_frame(name="text"))

['▁utk', '▁kamu', '▁yg', '▁disana', ',', '▁sdh', '▁makan', '▁belum', '?']
['▁bangkai', '▁000', '▁lumba', '-', 'lumba', '▁ditemukan', '▁di', '▁sungai', '▁amazon', '▁selama', '▁seminggu', '▁terakhir', '.']
['▁gue', '▁ga', '▁suka', '▁makan', '▁bakso', ',', '▁jangan', '▁dipaksa', 'aa', '!!!']
['▁galau', '▁bgt', '▁mau', '▁dukung', '▁ji', '▁chang', '▁wook', '▁atau', '▁wi', '▁ha', '▁joon', '...', '▁semuanya', '▁kas', 'ian', '▁h', 'uhu', '..', '▁the', '▁worst', '▁of', '▁evil', '▁ser', 'uu', 'uu', '▁bgt', '!', '▁<0']
['▁kasus', '▁cov', 'id', '-00', '▁bertambah', '▁00.000', '▁pada', '▁kamis', '▁(00/0', '),', '▁sehingga', '▁total', '▁kasus', '▁mencapai', '▁0.000.000.', '▁sebanyak', '▁0.000.000', '▁orang', '▁telah', '▁sembuh', ',', '▁dan', '▁000.000', '▁meninggal', '▁dunia', '.']


# Text Pre-processing sebelum tokenisasi #
Tahap tokenisasi dalam python menyebabkan text yang bertipe string berubah menjadi list. Beberapa tahapan text preprocessing mengharuskan text yang kita miliki masih dalam bentuk string. Oleh karena itu, tahapan ini dilakukan sebelum kita melakukan tokenisasi. Tentu saja jika menggunakan bahasa pemrograman berbeda, hal ini bisa berubah. Adapun beberapa tahap text preprocessing yang termasuk dalam kriteria ini adalah sebagai berikut:

* Case Folding (Capital/Non Capital letters)
* Menghilangkan Tanda Baca (punctuation removal)
* Menghapus whitepace (Whitespace removal)
* Menghapus/mentransformasi angka

In [None]:
import string
print(string.punctuation)
print(string.digits)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
0123456789


In [None]:
def pre_token(doc):
  # case folding
  doc1 = doc.lower()
  # punctuation removal+menghapus angka
  doc2 = doc1.translate(str.maketrans('', '', string.punctuation + string.digits))
  # whitespace removal
  doc3 = doc2.strip()
  return doc3

In [None]:
def pre_token_print(doc):
  # case folding
  doc1 = doc.lower()
  print("Tahap Case Folding \n")
  print(doc1,"\n")
  # punctuation removal+menghapus angka
  doc2 = doc1.translate(str.maketrans('', '', string.punctuation + string.digits))
  print("Tahap Punctuation Removal dan menghapus angka \n")
  print(doc2,"\n")
  # whitespace removal
  print("Tahap Whitespace Removal \n")
  doc3 = doc2.strip()
  print(doc3)

In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[3,0])
print("\nSesudah Preprocessing \n")
pre_token(dummy_doc.iloc[3,0])

Sebelum Preprocessing 

Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3

Sesudah Preprocessing 



'galau bgt mau dukung ji chang wook atau wi ha joon semuanya kasian huhu the worst of evil seruuuu bgt'

In [None]:
pre_token_print(dummy_doc.iloc[3,0])

Tahap Case Folding 

galau bgt mau dukung ji chang wook atau wi ha joon... semuanya kasian huhu.. the worst of evil seruuuu bgt! <3 

Tahap Punctuation Removal dan menghapus angka 

galau bgt mau dukung ji chang wook atau wi ha joon semuanya kasian huhu the worst of evil seruuuu bgt  

Tahap Whitespace Removal 

galau bgt mau dukung ji chang wook atau wi ha joon semuanya kasian huhu the worst of evil seruuuu bgt


In [None]:
dummy_doc6 = dummy_doc.apply(lambda doc: pre_token(doc.iloc[0]),axis=1)
print(type(dummy_doc6))
dummy_doc6

<class 'pandas.core.series.Series'>


0                   utk kamu yg disana sdh makan belum
1    bangkai  lumbalumba ditemukan di sungai amazon...
2             gue ga suka makan bakso jangan dipaksaaa
3    galau bgt mau dukung ji chang wook atau wi ha ...
4    kasus covid bertambah  pada kamis  sehingga to...
dtype: object

In [None]:
print("Sebelum Preprocessing \n")
print_text_in_df(dummy_doc)
print("\nSesudah Preprocessing \n")
print_text_in_df(dummy_doc6.to_frame(name="text"))

Sebelum Preprocessing 

utk kamu yg disana, sdh makan belum?
Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.
Gue ga suka makan bakso, jangan dipaksaaa!!!
Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.

Sesudah Preprocessing 

utk kamu yg disana sdh makan belum
bangkai  lumbalumba ditemukan di sungai amazon selama seminggu terakhir
gue ga suka makan bakso jangan dipaksaaa
galau bgt mau dukung ji chang wook atau wi ha joon semuanya kasian huhu the worst of evil seruuuu bgt
kasus covid bertambah  pada kamis  sehingga total kasus mencapai  sebanyak  orang telah sembuh dan  meninggal dunia


# Menghapus StopWord dalam Python #
Stopword merupakan kumpulan kata-kata yang sangat sering digunakan dalam suatu bahasa dan tidak memiliki makna khusus. Dalam python, stopword Bahasa Indonesia bisa diperoleh dari package Spacy dan NLTK.

Untuk keperluan menghapus stopword dari text, kita akan mendefinisikan fungsi baru agar memudahkan perocess penghapusan

In [None]:
#fungsi menghapus stopword
def stopwords_removal(words,stopword):
    return [word for word in words if word not in stopword]

# Menggunakan Spacy #

In [None]:
from spacy.lang.id.stop_words import STOP_WORDS

In [None]:
print(type(STOP_WORDS))
len(STOP_WORDS)

<class 'set'>


757

In [None]:
print(list(STOP_WORDS)[0:20])

['berlangsung', 'dini', 'berujar', 'hendaklah', 'panjang', 'kapanpun', 'tentu', 'lah', 'harus', 'hampir', 'menyampaikan', 'selaku', 'perlunya', 'padanya', 'sela', 'diberi', 'justru', 'menanti-nanti', 'entahlah', 'penting']


In [None]:
def find_word(word,doc):
  return list(filter(lambda x: word in x, doc))

In [None]:
find_word("tidak",list(STOP_WORDS))

['setidaknya', 'tidak', 'tidakkah', 'setidak-tidaknya', 'tidaklah']

In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[3,0])
print("Sesudah Preprocessing \n")
print(stopwords_removal(word_token_spacy(dummy_doc.iloc[3,0]),STOP_WORDS))

Sebelum Preprocessing 

Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Sesudah Preprocessing 

['Galau', 'bgt', 'dukung', 'Ji', 'Chang', 'Wook', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<3']


In [None]:
print(stopwords_removal(dummy_doc.iloc[3,0],STOP_WORDS))

['G', 'a', 'l', 'a', 'u', ' ', 'b', 'g', 't', ' ', 'm', 'a', 'u', ' ', 'd', 'u', 'k', 'u', 'n', 'g', ' ', 'J', 'i', ' ', 'C', 'h', 'a', 'n', 'g', ' ', 'W', 'o', 'o', 'k', ' ', 'a', 't', 'a', 'u', ' ', 'W', 'i', ' ', 'H', 'a', ' ', 'J', 'o', 'o', 'n', '.', '.', '.', ' ', 'S', 'e', 'm', 'u', 'a', 'n', 'y', 'a', ' ', 'k', 'a', 's', 'i', 'a', 'n', ' ', 'h', 'u', 'h', 'u', '.', '.', ' ', 'T', 'h', 'e', ' ', 'W', 'o', 'r', 's', 't', ' ', 'o', 'f', ' ', 'E', 'v', 'i', 'l', ' ', 's', 'e', 'r', 'u', 'u', 'u', 'u', ' ', 'b', 'g', 't', '!', ' ', '<', '3']


In [None]:
dummy_doc7 = dummy_doc.apply(lambda doc: stopwords_removal(word_token_spacy(doc.iloc[0]),STOP_WORDS),axis=1)
print(type(dummy_doc7))
dummy_doc7

<class 'pandas.core.series.Series'>


0                  [utk, yg, disana, ,, sdh, makan, ?]
1    [Bangkai, 120, lumba-lumba, ditemukan, sungai,...
2    [Gue, ga, suka, makan, bakso, ,, dipaksaaa, !,...
3    [Galau, bgt, dukung, Ji, Chang, Wook, Wi, Ha, ...
4    [Kasus, Covid, -, 19, bertambah, 40.618, Kamis...
dtype: object

In [None]:
print("Sebelum Preprocessing \n")
print_text_in_df(dummy_doc)
print("\nSesudah Preprocessing \n")
print_text_in_df(dummy_doc7.to_frame(name="text"))

Sebelum Preprocessing 

utk kamu yg disana, sdh makan belum?
Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.
Gue ga suka makan bakso, jangan dipaksaaa!!!
Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.

Sesudah Preprocessing 

['utk', 'yg', 'disana', ',', 'sdh', 'makan', '?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'sungai', 'Amazon', 'seminggu', '.']
['Gue', 'ga', 'suka', 'makan', 'bakso', ',', 'dipaksaaa', '!', '!', '!']
['Galau', 'bgt', 'dukung', 'Ji', 'Chang', 'Wook', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<3']
['Kasus', 'Covid', '-', '19', 'bertambah', '40.618', 'Kamis', '(', '10', '/', '2', ')', ',', 'total', 'mencapai', '4.667.554', '.', 'Sebanyak'

# Menggunakan NLTK #

In [None]:
from nltk.corpus import stopwords

In [None]:
# mendapatkan stopword bahasa indonesia
indo_stopwords = stopwords.words('indonesian')
print(type(indo_stopwords))
len(indo_stopwords)

<class 'list'>


758

In [None]:
print(indo_stopwords[0:20])

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara']


In [None]:
find_word("tidak",indo_stopwords)

['setidak-tidaknya', 'setidaknya', 'tidak', 'tidakkah', 'tidaklah']

In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[3,0])
print("\nSesudah Preprocessing \n")
print(stopwords_removal(word_tokenize(dummy_doc.iloc[3,0]),indo_stopwords))

Sebelum Preprocessing 

Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3

Sesudah Preprocessing 

['Galau', 'bgt', 'dukung', 'Ji', 'Chang', 'Wook', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<', '3']


In [None]:
print(stopwords_removal(dummy_doc.iloc[3,0],indo_stopwords))

['G', 'a', 'l', 'a', 'u', ' ', 'b', 'g', 't', ' ', 'm', 'a', 'u', ' ', 'd', 'u', 'k', 'u', 'n', 'g', ' ', 'J', 'i', ' ', 'C', 'h', 'a', 'n', 'g', ' ', 'W', 'o', 'o', 'k', ' ', 'a', 't', 'a', 'u', ' ', 'W', 'i', ' ', 'H', 'a', ' ', 'J', 'o', 'o', 'n', '.', '.', '.', ' ', 'S', 'e', 'm', 'u', 'a', 'n', 'y', 'a', ' ', 'k', 'a', 's', 'i', 'a', 'n', ' ', 'h', 'u', 'h', 'u', '.', '.', ' ', 'T', 'h', 'e', ' ', 'W', 'o', 'r', 's', 't', ' ', 'o', 'f', ' ', 'E', 'v', 'i', 'l', ' ', 's', 'e', 'r', 'u', 'u', 'u', 'u', ' ', 'b', 'g', 't', '!', ' ', '<', '3']


In [None]:
dummy_doc8 = dummy_doc.apply(lambda doc: stopwords_removal(word_tokenize(doc.iloc[0]),indo_stopwords),axis=1)
print(type(dummy_doc8))
dummy_doc8

<class 'pandas.core.series.Series'>


0                  [utk, yg, disana, ,, sdh, makan, ?]
1    [Bangkai, 120, lumba-lumba, ditemukan, sungai,...
2    [Gue, ga, suka, makan, bakso, ,, dipaksaaa, !,...
3    [Galau, bgt, dukung, Ji, Chang, Wook, Wi, Ha, ...
4    [Kasus, Covid-19, bertambah, 40.618, Kamis, (,...
dtype: object

In [None]:
print("Sebelum Preprocessing \n")
print_text_in_df(dummy_doc)
print("\nSesudah Preprocessing \n")
print_text_in_df(dummy_doc8.to_frame(name="text"))

Sebelum Preprocessing 

utk kamu yg disana, sdh makan belum?
Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.
Gue ga suka makan bakso, jangan dipaksaaa!!!
Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.

Sesudah Preprocessing 

['utk', 'yg', 'disana', ',', 'sdh', 'makan', '?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'sungai', 'Amazon', 'seminggu', '.']
['Gue', 'ga', 'suka', 'makan', 'bakso', ',', 'dipaksaaa', '!', '!', '!']
['Galau', 'bgt', 'dukung', 'Ji', 'Chang', 'Wook', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasian', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'bgt', '!', '<', '3']
['Kasus', 'Covid-19', 'bertambah', '40.618', 'Kamis', '(', '10/2', ')', ',', 'total', 'mencapai', '4.667.554', '.', 'Sebanyak', '4.234.510

# Menggunakan Sastrawi #
Selain untuk stemming, library Sastrawi juga mendukung proses filtering. Kita dapat menggunakan stopWordRemoverFactory dari modul sastrawi.

In [None]:
pip install PySastrawi

Collecting PySastrawi
  Downloading PySastrawi-1.2.0-py2.py3-none-any.whl (210 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/210.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.2/210.6 kB[0m [31m2.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m210.6/210.6 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PySastrawi
Successfully installed PySastrawi-1.2.0


In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
factory = StopWordRemoverFactory()
stopword_sastrawi = factory.get_stop_words()
print(stopword_sastrawi)

['a', 'ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'arti', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'b', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagainamakah', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasannya', 'bahwasanya', 'baik', 'baiklah', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumla

In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[1,0])
print("\nSesudah Preprocessing \n")
print(stopwords_removal(word_tokenize(dummy_doc.iloc[1,0]),stopword_sastrawi))

Sebelum Preprocessing 

Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.

Sesudah Preprocessing 

['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'sungai', 'Amazon', 'seminggu', '.']


# Text Normalizarion/Noise Removal #
Text Normalization merupakan process mengubah seperti mengubah bahasa tidak baku menjadi baku,mengubah singkatan.

Untuk melakukan hal ini kita akan menggunakan daftar kata-kata tidak baku dan baku dari https://github.com/nasalsabila/kamus-alay yang sudah dalam bentuk file csv.. Kita akan mengimport file ini ke python dalam bentuk DataFrame

In [None]:
import pandas as pd

In [None]:
indo_slang_word = pd.read_csv("https://raw.githubusercontent.com/nasalsabila/kamus-alay/master/colloquial-indonesian-lexicon.csv")
indo_slang_word.head()

Unnamed: 0,slang,formal,In-dictionary,context,category1,category2,category3
0,woww,wow,1,wow,elongasi,0,0
1,aminn,amin,1,Selamat ulang tahun kakak tulus semoga panjang...,elongasi,0,0
2,met,selamat,1,Met hari netaas kak!? Wish you all the best @t...,abreviasi,0,0
3,netaas,menetas,1,Met hari netaas kak!? Wish you all the best @t...,afiksasi,elongasi,0
4,keberpa,keberapa,0,Birthday yg keberpa kak?,abreviasi,0,0


In [None]:
indo_slang_word.query("slang == 'loe'")

Unnamed: 0,slang,formal,In-dictionary,context,category1,category2,category3
9179,loe,lo,1,@angga_fabiyan tega u? Nenek moyang loe gua ma...,anaptiksis,0,0
10952,loe,lo,1,Bang @raditya_dika : loe anak tiri yah?? Adek ...,anaptiksis,0,0
10954,loe,lo,1,Bang @raditya_dika : loe anak tiri yah?? Adek ...,anaptiksis,0,0
10956,loe,lo,1,Bang @raditya_dika : loe anak tiri yah?? Adek ...,anaptiksis,0,0


In [None]:
def replace_slang_word(doc,slang_word):
    for index in  range(0,len(doc)-1):
        index_slang = slang_word.slang==doc[index]
        formal = list(set(slang_word[index_slang].formal))
        if len(formal)==1:
            doc[index]=formal[0]
    return doc

In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[2,0])
print("\nSesudah Preprocessing \n")
print(replace_slang_word(word_token_spacy(dummy_doc.iloc[2,0]),indo_slang_word))

Sebelum Preprocessing 

Gue ga suka makan bakso, jangan dipaksaaa!!!

Sesudah Preprocessing 

['Gue', 'enggak', 'suka', 'makan', 'bakso', ',', 'jangan', 'dipaksaaa', '!', '!', '!']


In [None]:
dummy_doc9 = dummy_doc.apply(lambda doc: replace_slang_word(word_token_spacy(doc.iloc[0]),indo_slang_word),axis=1)
print(type(dummy_doc9))
dummy_doc9

<class 'pandas.core.series.Series'>


0    [untuk, kamu, yang, disana, ,, sudah, makan, b...
1    [Bangkai, 120, lumba-lumba, ditemukan, di, sun...
2    [Gue, enggak, suka, makan, bakso, ,, jangan, d...
3    [Galau, banget, mau, dukung, Ji, Chang, Wook, ...
4    [Kasus, Covid, -, 19, bertambah, 40.618, pada,...
dtype: object

In [None]:
print("Sebelum Preprocessing \n")
print_text_in_df(dummy_doc)
print("\nSesudah Preprocessing \n")
print_text_in_df(dummy_doc9.to_frame(name="text"))

Sebelum Preprocessing 

utk kamu yg disana, sdh makan belum?
Bangkai 120 lumba-lumba ditemukan di sungai Amazon selama seminggu terakhir.
Gue ga suka makan bakso, jangan dipaksaaa!!!
Galau bgt mau dukung Ji Chang Wook atau Wi Ha Joon... Semuanya kasian huhu.. The Worst of Evil seruuuu bgt! <3
Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.

Sesudah Preprocessing 

['untuk', 'kamu', 'yang', 'disana', ',', 'sudah', 'makan', 'belum', '?']
['Bangkai', '120', 'lumba-lumba', 'ditemukan', 'di', 'sungai', 'Amazon', 'selama', 'seminggu', 'terakhir', '.']
['Gue', 'enggak', 'suka', 'makan', 'bakso', ',', 'jangan', 'dipaksaaa', '!', '!', '!']
['Galau', 'banget', 'mau', 'dukung', 'Ji', 'Chang', 'Wook', 'atau', 'Wi', 'Ha', 'Joon', '...', 'Semuanya', 'kasihan', 'huhu', '..', 'The', 'Worst', 'of', 'Evil', 'seruuuu', 'banget', '!', '<3']
['Kasus', 'Covid', '-', '19', 'bertambah', '40.618', 'p

# Stemming/Lemmatization #
Stemming adalah proses menghilangkan infleksi kata ke bentuk dasarnya, namun bentuk dasar tersebut tidak berarti sama dengan akar kata (root word). Misalnya kata “mendengarkan”, “dengarkan”, “didengarkan” akan ditransformasi menjadi kata “dengar”.

Idenya adalah ketika kita mencari dokumen “cara membuka lemari”, kita juga ingin melihat dokumen yang menyebutkan “cara terbuka lemari” atau “cara dibuka lemari” meskipun terdengar tidak enak. Tentunya kita ingin mencocokan semua variasi kata untuk memunculkan dokumen yang paling relevan.

Stemming adalah proses menghasilkan varian morfologi dari kata dasar / dasar. Program stemming biasanya disebut sebagai algoritma stemming atau stemmer. Algoritme stemming mereduksi kata-kata menghasilkan menjadi hasil dan percintaan menjadi cinta.

Berbeda dengan stemming, lemmatization mempertimbangkan kosakata(vocabulary) lengkap suatu bahasa untuk menerapkan analisis morfologi pada kata-kata. Lemma dari 'menaruh' adalah 'taruh' dan lemma dari 'menyapu' adalah 'sapu'.

# Stemming bahasa indonesia menggunakan Python Sastrawi #
Proses stemming antara satu bahasa dengan bahasa yang lain tentu berbeda. Contohnya pada teks berbahasa inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

Untuk melakukan stemming bahasa Indonesia kita dapat menggunakan library Python Sastrawi yang sudah kita siapkan di awal. Library Sastrawi menerapkan Algoritma Nazief dan Adriani dalam melakukan stemming bahasa Indonesia.

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
hasil = stemmer.stem(kalimat)
print(hasil)

andi kerap laku transaksi rutin cara daring atau online turut andi belanja online lebih praktis murah


In [None]:
print("Sebelum Preprocessing \n")
print(dummy_doc.iloc[4,0])
print("\nSesudah Preprocessing \n")
print(stemmer.stem(dummy_doc.iloc[4,0]))

Sebelum Preprocessing 

Kasus Covid-19 bertambah 40.618 pada Kamis (10/2), sehingga total kasus mencapai 4.667.554. Sebanyak 4.234.510 orang telah sembuh, dan 144.858 meninggal dunia.

Sesudah Preprocessing 

kasus covid-19 tambah 40 618 pada kamis 10 2 sehingga total kasus capai 4 667 554 banyak 4 234 510 orang telah sembuh dan 144 858 tinggal dunia


# Stemming bahasa inggris #

In [None]:
# Porter Stemmer
from nltk.stem import PorterStemmer
ps = PorterStemmer()

ps.stem('jumping'), ps.stem('jumps'), ps.stem('jumped')

('jump', 'jump', 'jump')

In [None]:
ps.stem('lying'), ps.stem('strange')

('lie', 'strang')

In [None]:
# Lancaster Stemmer
from nltk.stem import LancasterStemmer
ls = LancasterStemmer()

ls.stem('jumping'), ls.stem('jumps'), ls.stem('jumped')

('jump', 'jump', 'jump')

In [None]:
ls.stem('lying'), ls.stem('strange')

('lying', 'strange')

In [None]:
# Regex based stemmer
from nltk.stem import RegexpStemmer
rs = RegexpStemmer('ing$|s$|ed$', min=4)
rs.stem('jumping'), rs.stem('jumps'), rs.stem('jumped')

('jump', 'jump', 'jump')

In [None]:
rs.stem('lying'), rs.stem('strange')

('ly', 'strange')

In [None]:
# Snowball Stemmer
from nltk.stem import SnowballStemmer
ss = SnowballStemmer("german")
print('Supported Languages:', SnowballStemmer.languages)

Supported Languages: ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [None]:
# stemming on German words
# autobahnen -> cars
# autobahn -> car
ss.stem('autobahnen')

'autobahn'

In [None]:
# springen -> jumping
# spring -> jump
ss.stem('springen')

'spring'

In [None]:
def simple_stemmer(text):
    ps = nltk.porter.PorterStemmer()
    text = ' '.join([ps.stem(word) for word in text.split()])
    return text

simple_stemmer("My system keeps crashing his crashed yesterday, ours crashes daily")

'my system keep crash hi crash yesterday, our crash daili'

# Lemmatization bahasa Indonesia #

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
pip install nlp-id

Collecting nlp-id
  Downloading nlp_id-0.1.15.0.tar.gz (54.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.8/54.8 MB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting wget==3.2 (from nlp-id)
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pytest==7.3.1 (from nlp-id)
  Downloading pytest-7.3.1-py3-none-any.whl (320 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m320.5/320.5 kB[0m [31m31.3 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: nlp-id, wget
  Building wheel for nlp-id (setup.py) ... [?25l[?25hdone
  Created wheel for nlp-id: filename=nlp_id-0.1.15.0-py3-none-any.whl size=58153891 sha256=18115a1dbd26a1dc4f03ac4c78c7306f8cfb21d0f2ad894eecd5ba1b85a48103
  Stored in directory: /root/.cache/pip/wheels/85/34/2a/deaf7b7896a1eed336b874e1a7732588d40bb7bdc0a824e73e
  Building wheel for wget (setup.py) ... 

In [None]:
import pandas as pd
import string
import re
import json
from nlp_id.tokenizer import Tokenizer
from nlp_id.stopword import StopWord
from nlp_id.lemmatizer import Lemmatizer
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
berita_hoax = pd.read_csv('berita_HOAX_indonesia.csv', delimiter=";")
berita_hoax.head()

Unnamed: 0,kategori,berita
0,valid,"""Gunung Agung erupsi untuk pertama kali pada 2..."
1,valid,"""Jakarta, CNN Indonesia -- Menteri BUMN Erick ..."
2,valid,"""Dosen Fakultas Kedokteran Hewan IPB, Yusuf Ri..."
3,valid,"""Jakarta - Dua anggota TNI, Serda N dan Serda ..."
4,valid,"""Akui Tembak Jatuh Pesawat Ukraina, Iran Tuai ..."


In [None]:
berita_hoax['kategori'].value_counts()

valid    250
hoax     250
Name: kategori, dtype: int64

In [None]:
with open('combined_slang_words.txt') as f:
    data0 = f.read()
print("Data type before reconstruction : ", type(data0))
formal_indo = json.loads(data0)
print("Data type after reconstruction : ", type(formal_indo))

Data type before reconstruction :  <class 'str'>
Data type after reconstruction :  <class 'dict'>


In [None]:
def informal_to_formal_indo(text):
    res = " ".join(formal_indo.get(ele, ele) for ele in text.split())
    return(res)

In [None]:
tokenizer = Tokenizer()
stopword = StopWord()
lemmatizer = Lemmatizer()

In [None]:
lemmatizer.lemmatize("gue mau berpulang")

'gue mau pulang'

In [None]:
def my_tokenizer(doc):
  #menghapus url
  doc1 = re.sub(r"https\S+", "",doc)
  # lowercase
  doc3 = doc1.lower()
  # Text Normalization
  doc4 = informal_to_formal_indo(doc3)
  # punctuation removal+menghapus angka
  doc5 = doc4.translate(str.maketrans('', '', string.punctuation + string.digits))
  # whitespace removal
  doc6 = doc5.strip()
  # stopword removal
  doc7 = stopword.remove_stopword(doc6)
  #Lemmatization
  doc8=lemmatizer.lemmatize(doc7)
  # tokenization
  doc_token1 = tokenizer.tokenize(doc8)
  return doc_token1

In [None]:
berita_hoax.iloc[1,1]

'"Jakarta, CNN Indonesia -- Menteri BUMN Erick Thohir resmi menunjuk Basuki Tjahaja Purnama alias Ahok sebagai Komisaris Utama PT Pertamina (Persero). "Basuki Tjahaja Purnama Komisaris Utama di Pertamina. Didampingi oleh pak Wamen BUMN Budi Gunadi Sadikin jadi Wakil Komisaris Utama di Pertamina," ujarnya, Jumat (22/11). Selain dua nama di atas, Erick juga menyodorkan Emma Sri Martini, eks direktur utama Telkomsel. Emma ditunjuk menjadi Direktur Keuangan Pertamina menggantikan Pahala Nugraha Mansury. Pergantian Pahala di Pertamina, sambung Erick, berkaitan dengan tugas barunya di PT Bank Tabungan Negara (Persero) Tbk. Pahala akan dibantu oleh Chandra Hamzah sebagai Komisaris Utama BTN. Erick mengklaim nama-nama tersebut di atas sudah melalui Tim Penilai Akhir (TPA). "Saya hanya menyebutkan yang sudah melalui TPA. Yang tidak melalui TPA, saya tidak bisa komentar," tegas dia. Nama-nama pejabat baru Pertamina tersebut akan dilakukan segera pada Jumat ini atau paling lambat Senin (25/11). "

In [None]:
count_vect0 = CountVectorizer(tokenizer=my_tokenizer,token_pattern=None,lowercase=False)

In [None]:
features = count_vect0.fit_transform(berita_hoax["berita"])
features_df = pd.DataFrame(features.todense(), columns=count_vect0.get_feature_names_out())
combined_df = pd.concat([berita_hoax["kategori"], features_df], axis=1)
combined_df

Unnamed: 0,kategori,a,aa,aam,aamiin,ababa,abad,abai,abang,abbas,...,zedong,zee,zeit,zholim,zhong,zimbabwe,zon,zona,zubaidah,zuhur
0,valid,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,2,0,0
1,valid,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,valid,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,valid,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,valid,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,hoax,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
496,hoax,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
497,hoax,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
498,hoax,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
combined_df.to_csv("berita_hoax_indonesia_postprocess.csv")

# Lemmatization bahasa inggris #

In [None]:
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

In [None]:
# lemmatize nouns
print(wnl.lemmatize('cars', 'n'))
print(wnl.lemmatize('men', 'n'))

car
men


In [None]:
# lemmatize verbs
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

run
eat


In [None]:
# lemmatize adjectives
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

sad
fancy


In [None]:
# ineffective lemmatization
print(wnl.lemmatize('ate', 'n'))
print(wnl.lemmatize('fancier', 'v'))

ate
fancier


In [None]:
import spacy
# use spacy.load('en') if you have downloaded the language model en directly after install spacy
nlp = spacy.load('en_core_web_sm')
text = 'My system keeps crashing his crashed yesterday, ours crashes daily'

def lemmatize_text(text):
    text = nlp(text)
    text = ' '.join([word.lemma_ if word.lemma_ != '-PRON-' else word.text for word in text])
    return text

lemmatize_text("My system keeps crashing! his crashed yesterday, ours crashes daily")

'my system keep crash ! his crashed yesterday , ours crash daily'

In [None]:
from nltk.tokenize.toktok import ToktokTokenizer
tokenizer = ToktokTokenizer()
stopword_list = nltk.corpus.stopwords.words('english')
def remove_stopwords(text, is_lower_case=False, stopwords=stopword_list):
    tokens = tokenizer.tokenize(text)
    tokens = [token.strip() for token in tokens]
    if is_lower_case:
        filtered_tokens = [token for token in tokens if token not in stopwords]
    else:
        filtered_tokens = [token for token in tokens if token.lower() not in stopwords]
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text

remove_stopwords("The, and, if are stopwords, computer is not")

', , stopwords , computer'

# Extra Text Wrangling #
HTML Stripping

In [None]:
import re
from bs4 import BeautifulSoup

def strip_html_tags(text):
    soup = BeautifulSoup(text, "html.parser")
    [s.extract() for s in soup(['iframe', 'script'])]
    stripped_text = soup.get_text()
    stripped_text = re.sub(r'[\r|\n|\r\n]+', '\n', stripped_text)
    return stripped_text

# Removing Accented Characters #

In [None]:
import unicodedata

def remove_accented_chars(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    return text

remove_accented_chars('Sómě Áccěntěd těxt')

'Some Accented text'

# Expanding Contractions #

In [None]:
pip install contractions

Collecting contractions
  Downloading contractions-0.1.73-py2.py3-none-any.whl (8.7 kB)
Collecting textsearch>=0.0.21 (from contractions)
  Downloading textsearch-0.0.24-py2.py3-none-any.whl (7.6 kB)
Collecting anyascii (from textsearch>=0.0.21->contractions)
  Downloading anyascii-0.3.2-py3-none-any.whl (289 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m289.9/289.9 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyahocorasick (from textsearch>=0.0.21->contractions)
  Downloading pyahocorasick-2.0.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (110 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.8/110.8 kB[0m [31m15.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyahocorasick, anyascii, textsearch, contractions
Successfully installed anyascii-0.3.2 contractions-0.1.73 pyahocorasick-2.0.0 textsearch-0.0.24


In [None]:
import contractions
contractions.fix("Y'all can't expand contractions I'd think")

'You all cannot expand contractions I would think'

# Removing Special Character #

In [None]:
def remove_special_characters(text, remove_digits=False):
    pattern = r'[^a-zA-z0-9\s]' if not remove_digits else r'[^a-zA-z\s]'
    text = re.sub(pattern, '', text)
    return text

remove_special_characters("Well this was fun! What do you think? 123#@!",
                          remove_digits=True)

'Well this was fun What do you think '

# Correcting Repeating Characters #

In [None]:
old_word = 'finalllyyy'
repeat_pattern = re.compile(r'(\w*)(\w)\2(\w*)')
match_substitution = r'\1\2\3'
step = 1

while True:
    # remove one repeated character
    new_word = repeat_pattern.sub(match_substitution,
                                  old_word)
    if new_word != old_word:
         print('Step: {} Word: {}'.format(step, new_word))
         step += 1 # update step
         # update old word to last substituted state
         old_word = new_word
         continue
    else:
         print("Final word:", new_word)
         break

Step: 1 Word: finalllyy
Step: 2 Word: finallly
Step: 3 Word: finally
Step: 4 Word: finaly
Final word: finaly


In [None]:
import nltk
import subprocess

# Download and unzip wordnet
try:
    nltk.data.find('wordnet.zip')
except:
    nltk.download('wordnet', download_dir='/kaggle/working/')
    command = "unzip /kaggle/working/corpora/wordnet.zip -d /kaggle/working/corpora"
    subprocess.run(command.split())
    nltk.data.path.append('/kaggle/working/')

# Now you can import the NLTK resources as usual
from nltk.corpus import wordnet

[nltk_data] Downloading package wordnet to /kaggle/working/...


In [None]:
from nltk.corpus import wordnet
old_word = 'finalllyyy'
repeat_pattern = re.compile(r'(\w*)(\w)\2(\w*)')
match_substitution = r'\1\2\3'
step = 1

while True:
    # check for semantically correct word
    if wordnet.synsets(old_word):
        print("Final correct word:", old_word)
        break
    # remove one repeated character
    new_word = repeat_pattern.sub(match_substitution,
                                  old_word)
    if new_word != old_word:
        print('Step: {} Word: {}'.format(step, new_word))
        step += 1 # update step
        # update old word to last substituted state
        old_word = new_word
        continue
    else:
        print("Final word:", new_word)
        break

Step: 1 Word: finalllyy
Step: 2 Word: finallly
Step: 3 Word: finally
Final correct word: finally


In [None]:
from nltk.corpus import wordnet

def remove_repeated_characters(tokens):
    repeat_pattern = re.compile(r'(\w*)(\w)\2(\w*)')
    match_substitution = r'\1\2\3'
    def replace(old_word):
        if wordnet.synsets(old_word):
            return old_word
        new_word = repeat_pattern.sub(match_substitution, old_word)
        return replace(new_word) if new_word != old_word else new_word

    correct_tokens = [replace(word) for word in tokens]
    return correct_tokens

In [None]:
sample_sentence = 'My schooool is realllllyyy amaaazingggg'
correct_tokens = remove_repeated_characters(nltk.word_tokenize(sample_sentence))
' '.join(correct_tokens)

'My school is really amazing'

# Correcting Spellings #

In [None]:
import re, collections

def tokens(text):
    """
    Get all words from the corpus
    """
    return re.findall('[a-z]+', text.lower())

WORDS = tokens(open('big.txt').read())
WORD_COUNTS = collections.Counter(WORDS)
# top 10 words in corpus
WORD_COUNTS.most_common(10)

[('the', 80030),
 ('of', 40025),
 ('and', 38313),
 ('to', 28766),
 ('in', 22050),
 ('a', 21155),
 ('that', 12512),
 ('he', 12401),
 ('was', 11410),
 ('it', 10681)]

In [None]:
def edits0(word):
    """
    Return all strings that are zero edits away
    from the input word (i.e., the word itself).
    """
    return {word}



def edits1(word):
    """
    Return all strings that are one edit away
    from the input word.
    """
    alphabet = 'abcdefghijklmnopqrstuvwxyz'
    def splits(word):
        """
        Return a list of all possible (first, rest) pairs
        that the input word is made of.
        """
        return [(word[:i], word[i:])
                for i in range(len(word)+1)]

    pairs      = splits(word)
    deletes    = [a+b[1:]           for (a, b) in pairs if b]
    transposes = [a+b[1]+b[0]+b[2:] for (a, b) in pairs if len(b) > 1]
    replaces   = [a+c+b[1:]         for (a, b) in pairs for c in alphabet if b]
    inserts    = [a+c+b             for (a, b) in pairs for c in alphabet]
    return set(deletes + transposes + replaces + inserts)


def edits2(word):
    """Return all strings that are two edits away
    from the input word.
    """
    return {e2 for e1 in edits1(word) for e2 in edits1(e1)}

In [None]:
def known(words):
    """
    Return the subset of words that are actually
    in our WORD_COUNTS dictionary.
    """
    return {w for w in words if w in WORD_COUNTS}

In [None]:
# input word
In [409]: word = 'fianlly'

# zero edit distance from input word
edits0(word)

{'fianlly'}

In [None]:
# returns null set since it is not a valid word
known(edits0(word))

set()

In [None]:
# one edit distance from input word
edits1(word)

{'afianlly',
 'aianlly',
 'bfianlly',
 'bianlly',
 'cfianlly',
 'cianlly',
 'dfianlly',
 'dianlly',
 'efianlly',
 'eianlly',
 'faanlly',
 'faianlly',
 'fainlly',
 'fanlly',
 'fbanlly',
 'fbianlly',
 'fcanlly',
 'fcianlly',
 'fdanlly',
 'fdianlly',
 'feanlly',
 'feianlly',
 'ffanlly',
 'ffianlly',
 'fganlly',
 'fgianlly',
 'fhanlly',
 'fhianlly',
 'fiaally',
 'fiaanlly',
 'fiablly',
 'fiabnlly',
 'fiaclly',
 'fiacnlly',
 'fiadlly',
 'fiadnlly',
 'fiaelly',
 'fiaenlly',
 'fiaflly',
 'fiafnlly',
 'fiaglly',
 'fiagnlly',
 'fiahlly',
 'fiahnlly',
 'fiailly',
 'fiainlly',
 'fiajlly',
 'fiajnlly',
 'fiaklly',
 'fiaknlly',
 'fiallly',
 'fially',
 'fialnlly',
 'fialnly',
 'fiamlly',
 'fiamnlly',
 'fianally',
 'fianaly',
 'fianblly',
 'fianbly',
 'fianclly',
 'fiancly',
 'fiandlly',
 'fiandly',
 'fianelly',
 'fianely',
 'fianflly',
 'fianfly',
 'fianglly',
 'fiangly',
 'fianhlly',
 'fianhly',
 'fianilly',
 'fianily',
 'fianjlly',
 'fianjly',
 'fianklly',
 'fiankly',
 'fianlaly',
 'fianlay',
 'fi

In [None]:
# get correct words from above set
known(edits1(word))

{'finally'}

In [None]:
# two edit distances from input word
edits2(word)

{'fniianlly',
 'rkianlly',
 'fianllem',
 'efipnlly',
 'fihanally',
 'bfianlxy',
 'fdanllfy',
 'fiantllym',
 'ficanlfy',
 'hfianlldy',
 'fibanlhy',
 'fiatolly',
 'yiaenlly',
 'qiapnlly',
 'fionxly',
 'fiarlgly',
 'fianllqyr',
 'feuanlly',
 'faiatlly',
 'fyiaanlly',
 'fiamnlty',
 'jfiamnlly',
 'finanlxy',
 'abianlly',
 'fiandllm',
 'bxfianlly',
 'fyaqnlly',
 'fwianllty',
 'fianljlyc',
 'fianlfyq',
 'fianfmy',
 'fijnllwy',
 'fitanvlly',
 'fianzllyq',
 'ianlley',
 'fianklyk',
 'fibanlbly',
 'fiuanllyw',
 'fixnllb',
 'fwiandly',
 'fianlggy',
 'fianolx',
 'fiqnlcly',
 'fianulily',
 'bficnlly',
 'vfianllyh',
 'fianldlzy',
 'fcianlfly',
 'dfianlley',
 'fiabllyl',
 'cficnlly',
 'fvinnlly',
 'fxianllw',
 'fianlkv',
 'fqianlfly',
 'fionllq',
 'fiamll',
 'fiaxnllly',
 'fianulyf',
 'fianllwc',
 'hianllyn',
 'fiayjly',
 'fiavnldy',
 'ofiannly',
 'fiuanllyr',
 'fianldlye',
 'fianolc',
 'fhianllyh',
 'fianglyc',
 'filanltly',
 'fiqnllw',
 'finnllya',
 'fiaullyf',
 'fuianllvy',
 'fiadnhly',
 'fiamklly'

In [None]:
# get correct words from above set
known(edits1(word))

{'finally'}

In [None]:
# two edit distances from input word
edits2(word)

{'fniianlly',
 'rkianlly',
 'fianllem',
 'efipnlly',
 'fihanally',
 'bfianlxy',
 'fdanllfy',
 'fiantllym',
 'ficanlfy',
 'hfianlldy',
 'fibanlhy',
 'fiatolly',
 'yiaenlly',
 'qiapnlly',
 'fionxly',
 'fiarlgly',
 'fianllqyr',
 'feuanlly',
 'faiatlly',
 'fyiaanlly',
 'fiamnlty',
 'jfiamnlly',
 'finanlxy',
 'abianlly',
 'fiandllm',
 'bxfianlly',
 'fyaqnlly',
 'fwianllty',
 'fianljlyc',
 'fianlfyq',
 'fianfmy',
 'fijnllwy',
 'fitanvlly',
 'fianzllyq',
 'ianlley',
 'fianklyk',
 'fibanlbly',
 'fiuanllyw',
 'fixnllb',
 'fwiandly',
 'fianlggy',
 'fianolx',
 'fiqnlcly',
 'fianulily',
 'bficnlly',
 'vfianllyh',
 'fianldlzy',
 'fcianlfly',
 'dfianlley',
 'fiabllyl',
 'cficnlly',
 'fvinnlly',
 'fxianllw',
 'fianlkv',
 'fqianlfly',
 'fionllq',
 'fiamll',
 'fiaxnllly',
 'fianulyf',
 'fianllwc',
 'hianllyn',
 'fiayjly',
 'fiavnldy',
 'ofiannly',
 'fiuanllyr',
 'fianldlye',
 'fianolc',
 'fhianllyh',
 'fianglyc',
 'filanltly',
 'fiqnllw',
 'finnllya',
 'fiaullyf',
 'fuianllvy',
 'fiadnhly',
 'fiamklly'

In [None]:
# get correct words from above set
known(edits2(word))

{'faintly', 'finally', 'finely', 'frankly'}

In [None]:
candidates = (known(edits0(word)) or
              known(edits1(word)) or
              known(edits2(word)) or
              [word])
candidates

{'finally'}

In [None]:
def correct(word):
    """
    Get the best correct spelling for the input word
    """
    # Priority is for edit distance 0, then 1, then 2
    # else defaults to the input word itself.
    candidates = (known(edits0(word)) or
                  known(edits1(word)) or
                  known(edits2(word)) or
                  [word])
    return max(candidates, key=WORD_COUNTS.get)

In [None]:
correct('fianlly')

'finally'

In [None]:
correct('FIANLLY')

'FIANLLY'

In [None]:
def correct_match(match):
    """
    Spell-correct word in match,
    and preserve proper upper/lower/title case.
    """

    word = match.group()
    def case_of(text):
        """
        Return the case-function appropriate
        for text: upper, lower, title, or just str.:
            """
        return (str.upper if text.isupper() else
                str.lower if text.islower() else
                str.title if text.istitle() else
                str)
    return case_of(word)(correct(word.lower()))


def correct_text_generic(text):
    """
    Correct all the words within a text,
    returning the corrected text.
    """
    return re.sub('[a-zA-Z]+', correct_match, text)

In [None]:
correct_text_generic('fianlly')

'finally'

In [None]:
correct_text_generic('FIANLLY')

'FINALLY'

In [None]:
from textblob import Word

w = Word('fianlly')
w.correct()

'finally'

In [None]:
w.spellcheck()

[('finally', 1.0)]

In [None]:
w = Word('flaot')
w.spellcheck()

[('flat', 0.85), ('float', 0.15)]

# Normalize #

In [None]:
def normalize_corpus(corpus, html_stripping=True, contraction_expansion=True,
                     accented_char_removal=True, text_lower_case=True,
                     text_lemmatization=True, special_char_removal=True,
                     stopword_removal=True, remove_digits=True):

    normalized_corpus = []
    # normalize each document in the corpus
    for doc in corpus:
        # strip HTML
        if html_stripping:
            doc = strip_html_tags(doc)
        # remove accented characters
        if accented_char_removal:
            doc = remove_accented_chars(doc)
        # expand contractions
        if contraction_expansion:
            doc = contractions.fix(doc)
        # lowercase the text
        if text_lower_case:
            doc = doc.lower()
        # remove extra newlines
        doc = re.sub(r'[\r|\n|\r\n]+', ' ',doc)
        # lemmatize text
        if text_lemmatization:
            doc = lemmatize_text(doc)
        # remove special characters and\or digits
        if special_char_removal:
            # insert spaces between special characters to isolate them
            special_char_pattern = re.compile(r'([{.(-)!}])')
            doc = special_char_pattern.sub(" \\1 ", doc)
            doc = remove_special_characters(doc, remove_digits=remove_digits)
        # remove extra whitespace
        doc = re.sub(' +', ' ', doc)
        # remove stopwords
        if stopword_removal:
            doc = remove_stopwords(doc, is_lower_case=text_lower_case)

        normalized_corpus.append(doc)

    return normalized_corpus

In [None]:
sample_text = ("US unveils world's most powerful supercomputer, beats China. "
               "The US has unveiled the world's most powerful supercomputer called 'Summit', "
               "beating the previous record-holder China's Sunway TaihuLight. With a peak performance "
               "of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, "
               "which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, "
               "which reportedly take up the size of two tennis courts.")

In [None]:
{'Original': sample_text,
 'Processed': normalize_corpus([sample_text])[0]}

{'Original': "US unveils world's most powerful supercomputer, beats China. The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight. With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, which reportedly take up the size of two tennis courts.",
 'Processed': 'us unveil world powerful supercomputer beat china us unveil world powerful supercomputer call summit beat previous record holder china sunway taihulight peak performance trillion calculation per second twice fast sunway taihulight capable trillion calculation per second summit server reportedly take size two tennis court'}