<a href="https://colab.research.google.com/github/velizhask/PemrosesanBahasaAlami-nlp/blob/main/%20Text%20Prepocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Prepocessing




> **NLTK**



In [None]:
!pip install nltk



In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords



> Text Normalization

**`punkt`** Resource ini digunakan untuk tokenisasi teks. Modul Punkt menyediakan model untuk memecah teks menjadi kata-kata atau kalimat. Ini berguna untuk berbagai tugas seperti word tokenization (pemecahan teks menjadi kata) dan sentence tokenization (pemecahan teks menjadi kalimat).


In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

**Tokenisasi** adalah proses membagi teks menjadi unit-unit yang lebih kecil, seperti kata atau frasa

In [None]:
from nltk.tokenize import word_tokenize
words = word_tokenize("saya ganteng")
words

['saya', 'ganteng']

In [None]:
teks = "saya adalah calon orang sukses."
tokens = word_tokenize(teks)
print("Hasil Tokenisasi:", tokens)

Hasil Tokenisasi: ['saya', 'adalah', 'calon', 'orang', 'sukses', '.']


**`wordnet`** Resource ini menyediakan akses ke WordNet, yaitu kamus semantik besar yang mengandung hubungan antara kata-kata seperti sinonim, antonim, serta hubungan hierarkis (misalnya, hypernyms dan hyponyms). WordNet juga digunakan untuk lemmatization, yaitu proses mengembalikan kata ke bentuk dasarnya.

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
from nltk.corpus import wordnet
synonyms = wordnet.synsets("wonderful")
print(synonyms)

[Synset('fantastic.s.02')]


In [None]:
#Penerapan dalam bahasa Inggris
Lemmatizer = WordNetLemmatizer()
print("words :", Lemmatizer.lemmatize("words"))
print("corpora :", Lemmatizer.lemmatize("corpra"))

# a denotes adjective in "pos"
print("better :", Lemmatizer.lemmatize("better", pos ="a"))

words : word
corpora : corpra
better : good


**Stemming** adalah proses mengubah kata menjadi bentuk dasar (root form).

In [None]:
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in tokens] #'tokens' diambil dari hasil tokenisasi
print("Hasil Stemming:", stemmed_words)

Hasil Stemming: ['saya', 'adalah', 'calon', 'orang', 'suks', '.']


**Lemmatization** adalah proses mengubah kata menjadi bentuk dasar (lebih tepat daripada stemming).

In [None]:
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens] #'tokens' diambil dari hasil tokenisasi
print("Hasil Lemmatization:", lemmatized_words)

Hasil Lemmatization: ['saya', 'adalah', 'calon', 'orang', 'sukses', '.']


**`stopwords`** Merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti.


In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords
stop_words = stopwords.words('indonesian')  # Untuk bahasa Indonesia, jika ingin menggunakan bahasa Inggris bisa diganti dengan 'english'
stop_words

['ada',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agaknya',
 'agar',
 'akan',
 'akankah',
 'akhir',
 'akhiri',
 'akhirnya',
 'aku',
 'akulah',
 'amat',
 'amatlah',
 'anda',
 'andalah',
 'antar',
 'antara',
 'antaranya',
 'apa',
 'apaan',
 'apabila',
 'apakah',
 'apalagi',
 'apatah',
 'artinya',
 'asal',
 'asalkan',
 'atas',
 'atau',
 'ataukah',
 'ataupun',
 'awal',
 'awalnya',
 'bagai',
 'bagaikan',
 'bagaimana',
 'bagaimanakah',
 'bagaimanapun',
 'bagi',
 'bagian',
 'bahkan',
 'bahwa',
 'bahwasanya',
 'baik',
 'bakal',
 'bakalan',
 'balik',
 'banyak',
 'bapak',
 'baru',
 'bawah',
 'beberapa',
 'begini',
 'beginian',
 'beginikah',
 'beginilah',
 'begitu',
 'begitukah',
 'begitulah',
 'begitupun',
 'bekerja',
 'belakang',
 'belakangan',
 'belum',
 'belumlah',
 'benar',
 'benarkah',
 'benarlah',
 'berada',
 'berakhir',
 'berakhirlah',
 'berakhirnya',
 'berapa',
 'berapakah',
 'berapalah',
 'berapapun',
 'berarti',
 'berawal',
 'berbagai',
 'berdatangan',
 'beri',
 'berikan',
 'berikut'

**Lowercasing** mengubah semua huruf dalam teks menjadi huruf kecil

In [None]:
teks = "Pemrosesan Bahasa Alami adalah cabang ilmu komputer."
teks_lower = teks.lower()
print("Lowercased teks:", teks_lower)

Lowercased teks: pemrosesan bahasa alami adalah cabang ilmu komputer.


**Penghapusan Tanda Baca** Menghapus tanda baca menggunakan regex atau pustaka string

In [None]:
import string
teks = "Pemrosesan Bahasa Alami adalah cabang ilmu komputer."
teks_no_punct = teks.translate(str.maketrans('', '', string.punctuation))
print("teks Tanpa Tanda Baca:", teks_no_punct)

teks Tanpa Tanda Baca: Pemrosesan Bahasa Alami adalah cabang ilmu komputer



**SpaCy**

adalah pustaka Natural Language Processing (NLP) yang sangat populer dan efisien, dirancang untuk menangani pemrosesan bahasa alami secara cepat dan mudah. Berbeda dengan NLTK, yang lebih fokus pada edukasi dan penelitian, SpaCy berfokus pada penggunaan praktis dalam produksi dengan performa yang lebih cepat dan model yang lebih canggih.



In [None]:
!pip install spacy
!python -m spacy download en_core_web_sm


Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m88.4 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
nlp = spacy.load("en_core_web_sm")

`Tokenisasi` untuk memecah teks menjadi token

In [None]:
doc = nlp("natural language processing is a branch of computer science")
tokens_spacy = [token.text for token in doc]
print("Hasil Tokenisasi (SpaCy):", tokens_spacy)

Hasil Tokenisasi (SpaCy): ['natural', 'language', 'processing', 'is', 'a', 'branch', 'of', 'computer', 'science']


`POS Tagging` (Part-of-Speech Tagging) Untuk menandai kelas kata dari setiap token.

In [None]:
for token in doc:
    print(token.text, token.pos_)

natural ADJ
language NOUN
processing NOUN
is AUX
a DET
branch NOUN
of ADP
computer NOUN
science NOUN


`Lemmatization` Untuk mengembalikan kata ke bentuk dasar atau lemma.

In [None]:
for token in doc:
    print(token.text, token.lemma_)

natural natural
language language
processing processing
is be
a a
branch branch
of of
computer computer
science science


In [None]:
lemmas_spacy = [token.lemma_ for token in doc]
print("Hasil Lemmatization (SpaCy):", lemmas_spacy)

Hasil Lemmatization (SpaCy): ['natural', 'language', 'processing', 'be', 'a', 'branch', 'of', 'computer', 'science']


#Implementation



> Lakukan Pengumpulan Data terlebih dahulu

Berikut contoh dari `kaggle` menggunakan bahasa Indonesia dan `Google Play Store` menggunakan bahasa Inggris



# 1 Kaggle

In [None]:
# from google.colab import files
# files.upload()  # Ini akan memunculkan prompt untuk mengunggah file 'kaggle.json'

# !mkdir -p ~/.kaggle
# !mv kaggle.json ~/.kaggle/
# !chmod 600 ~/.kaggle/kaggle.json  # Set permission agar file hanya bisa diakses oleh pemilik

!kaggle datasets download -d ucupsedaya/gojek-app-reviews-bahasa-indonesia #copy API command
!unzip gojek-app-reviews-bahasa-indonesia.zip

Dataset URL: https://www.kaggle.com/datasets/ucupsedaya/gojek-app-reviews-bahasa-indonesia
License(s): other
Downloading gojek-app-reviews-bahasa-indonesia.zip to /content
 89% 7.00M/7.84M [00:01<00:00, 8.02MB/s]
100% 7.84M/7.84M [00:01<00:00, 5.39MB/s]
Archive:  gojek-app-reviews-bahasa-indonesia.zip
  inflating: GojekAppReviewV4.0.0-V4.9.3_Cleaned.csv  


In [None]:
import pandas as pd

df= pd.read_csv('/content/GojekAppReviewV4.0.0-V4.9.3_Cleaned.csv')
df.head()

Unnamed: 0,userName,content,score,at,appVersion
0,Yuga Edit,akun gopay saya di blok,1,2022-01-21 10:52:12,4.9.3
1,ff burik,Lambat sekali sekarang ini bosssku apk gojek g...,3,2021-11-30 15:40:38,4.9.3
2,Anisa Suci Rahmayuliani,Kenapa sih dari kemarin sy buka aplikasi gojek...,4,2021-11-29 22:58:12,4.9.3
3,naoki yakuza,Baru download gojek dan hape baru trus ditop u...,1,2022-09-03 15:21:17,4.9.3
4,Trio Sugianto,Mantap,5,2022-01-15 10:05:27,4.9.3


In [None]:
# Mengambil hanya kolom 'review' dan 'rating'
df = df[['content', 'score']]
df

Unnamed: 0,content,score
0,akun gopay saya di blok,1
1,Lambat sekali sekarang ini bosssku apk gojek g...,3
2,Kenapa sih dari kemarin sy buka aplikasi gojek...,4
3,Baru download gojek dan hape baru trus ditop u...,1
4,Mantap,5
...,...,...
224997,Gofood Biaya lain2ya gak ngotak mending hujan2...,1
224998,Yok lah,5
224999,Sempurna,5
225000,GOJEK LAMA LAMA GAK JELAS LAGI PESEN MASA MAP...,1


In [None]:
df.shape #untuk mengecek berapa jumlah baris dan kolom dari dataframe

In [None]:
df['content'].duplicated().sum()

86183

In [None]:
df.isnull().sum()

Unnamed: 0,0
content,2
score,0


In [None]:
pd.reset_option('display.max_colwidth')
df = df.dropna()
df = df.drop_duplicates()
df

Unnamed: 0,content,score
0,akun gopay saya di blok,1
1,Lambat sekali sekarang ini bosssku apk gojek g...,3
2,Kenapa sih dari kemarin sy buka aplikasi gojek...,4
3,Baru download gojek dan hape baru trus ditop u...,1
4,Mantap,5
...,...,...
224989,Makin kesini makin mahal dan voucher2nya makin...,5
224991,Kenapa harus perbaruan mulu hedeh payah,1
224997,Gofood Biaya lain2ya gak ngotak mending hujan2...,1
224998,Yok lah,5


In [None]:
df.info() #info digunakan untuk melihat informasi dari dataframe

<class 'pandas.core.frame.DataFrame'>
Index: 141002 entries, 0 to 225000
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   content  141002 non-null  object
 1   score    141002 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.2+ MB


Prepocessing

In [None]:
import numpy as np
import re
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


In [None]:
# Fungsi untuk menghapus tanda baca
def clean_text(text):
    text = text.lower()  # Konversi ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text)  # Hapus tanda baca
    return text

In [None]:
df['content']=df['content'].apply(clean_text)
df.head()

Unnamed: 0,content,score
0,akun gopay saya di blok,1
1,lambat sekali sekarang ini bosssku apk gojek g...,3
2,kenapa sih dari kemarin sy buka aplikasi gojek...,4
3,baru download gojek dan hape baru trus ditop u...,1
4,mantap,5


##Tokenize

In [None]:
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan fungsi tokenisasi pada setiap elemen di kolom 'content'
df['content'] = df['content'].apply(tokenize_text)
df

Unnamed: 0,content,score
0,"[akun, gopay, saya, di, blok]",1
1,"[lambat, sekali, sekarang, ini, bosssku, apk, ...",3
2,"[kenapa, sih, dari, kemarin, sy, buka, aplikas...",4
3,"[baru, download, gojek, dan, hape, baru, trus,...",1
4,[mantap],5
...,...,...
224989,"[makin, kesini, makin, mahal, dan, voucher2nya...",5
224991,"[kenapa, harus, perbaruan, mulu, hedeh, payah]",1
224997,"[gofood, biaya, lain2ya, gak, ngotak, mending,...",1
224998,"[yok, lah]",5


##Stopword Removal untuk bahasa Indonesia

In [None]:
!pip install sastrawi

Collecting sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sastrawi
Successfully installed sastrawi-1.0.1


In [None]:
sw = stopwords.words('indonesian')
# Fungsi untuk menghapus stopwords dari token-token kata
def remove_stopwords(tokens):
    filtered_tokens = [word for word in tokens if word.lower() not in sw]
    return filtered_tokens

# Menghapus stopwords dari kolom 'Tokenized Text'
df['content'] = df['content'].apply(remove_stopwords)
df

Unnamed: 0,content,score
0,"[akun, gopay, blok]",1
1,"[lambat, bosssku, apk, gojek, gk, kaya]",3
2,"[sih, kemarin, sy, buka, aplikasi, gojek, kasi...",4
3,"[download, gojek, hape, trus, ditop, u, gopay,...",1
4,[mantap],5
...,...,...
224989,"[kesini, mahal, voucher2nya, pelit]",5
224991,"[perbaruan, mulu, hedeh, payah]",1
224997,"[gofood, biaya, lain2ya, gak, ngotak, mending,...",1
224998,[yok],5


## Lematization untuk bahasa Indonesia

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer dari Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stemming(words):
    return [stemmer.stem(word) for word in words]

In [None]:
# Menerapkan fungsi stemming pada kolom 'content'
# Menerapkan stemming hanya pada 5 baris pertama
df.loc[:4, 'content'] = df.loc[:4, 'content'].apply(stemming)
df

Unnamed: 0,content,score
0,"[akun, gopay, blok]",1
1,"[lambat, bosssku, apk, gojek, gk, kaya]",3
2,"[sih, kemarin, sy, buka, aplikasi, gojek, kasi...",4
3,"[download, gojek, hape, trus, top, u, gopay, t...",1
4,[mantap],5
...,...,...
224989,"[kesini, mahal, voucher2nya, pelit]",5
224991,"[perbaruan, mulu, hedeh, payah]",1
224997,"[gofood, biaya, lain2ya, gak, ngotak, mending,...",1
224998,[yok],5


In [None]:
df['content'] = df['content'].apply(lambda x: ' '.join(x)) #membuat isi content menjadi kalimat kembali
df

Unnamed: 0,content,score
0,akun gopay blok,1
1,lambat bosssku apk gojek gk kaya,3
2,sih kemarin sy buka aplikasi gojek kasih binta...,4
3,download gojek hape trus top u gopay transaksi...,1
4,mantap,5
...,...,...
224989,kesini mahal voucher2nya pelit,5
224991,perbaruan mulu hedeh payah,1
224997,gofood biaya lain2ya gak ngotak mending hujan2...,1
224998,yok,5




---



# 2 Google Play Store

In [None]:
!pip install google-play-scraper

In [None]:
from google_play_scraper import app
from google_play_scraper import Sort, reviews
import pandas as pd

# Mengambil informasi dari aplikasi menggunakan app_id
app_id = 'com.tokopedia'  # Contoh: ID aplikasi WhatsApp di Play Store
app_info = app(app_id)

# Menampilkan informasi aplikasi
print("Nama Aplikasi:", app_info['title'])
print("Deskripsi Singkat:", app_info['summary'])
print("Pengembang:", app_info['developer'])
print("Rating:", app_info['score'])
print("Jumlah Pengguna:", app_info['installs'])
print("Versi Terbaru:", app_info['version'])
print("Tanggal Update Terakhir:", app_info['updated'])
print("Harga:", app_info['price'])
print("URL Play Store:", app_info['url'])

# Mengambil ulasan dari aplikasi berdasarkan app_id
app_id = 'com.whatsapp'  # Contoh: ID aplikasi WhatsApp
result, continuation_token = reviews(
    app_id,
    lang='en',   # Bahasa ulasan (misalnya 'en' untuk Inggris, 'id' untuk Indonesia)
    country='us',  # Negara ulasan (misalnya 'us' untuk Amerika Serikat)
    sort=Sort.NEWEST,  # Urutkan berdasarkan ulasan terbaru
    count=1000  # Jumlah ulasan yang akan diambil
)

# Membuat DataFrame dari hasil review
ps = pd.DataFrame(result)

# Menyimpan DataFrame ke file CSV
ps.to_csv('playstore_reviews.csv', index=False)
ps.head()

In [None]:
# Mengambil hanya kolom 'review' dan 'rating'
ps = ps[['content', 'score']]
ps

In [None]:
ps.shape #untuk mengecek berapa jumlah baris dan kolom dari dataframe

In [None]:
ps['content'].duplicated().sum()

In [None]:
ps.isnull().sum()

In [None]:
pd.reset_option('display.max_colwidth')

In [None]:
data = ps.dropna()
data = data.drop_duplicates()
data

In [None]:
#Labeling
data['label'] = data['score'].map({1.0:0, 2.0:0, 3.0:0, 4.0:1, 5.0:1})

In [None]:
# Fungsi untuk menghapus tanda baca
def clean_text(text):
    text = text.lower()  # Konversi ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text)  # Hapus tanda baca
    return text

In [None]:
data['content']=data['content'].apply(clean_text)
data.head()

##Tokenize

In [None]:
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan fungsi tokenisasi pada setiap elemen di kolom 'review_text'
data['content'] = data['content'].apply(tokenize_text)
data

## Stopword Removal

In [None]:
sw = stopwords.words('english')
# Fungsi untuk menghapus stopwords dari token-token kata
def remove_stopwords(tokens):
    filtered_tokens = [word for word in tokens if word.lower() not in sw]
    return filtered_tokens

# Menghapus stopwords dari kolom 'Tokenized Text'
data['content'] = data['content'].apply(remove_stopwords)
data

## Lematization

In [None]:
sw = stopwords.words('english')
# Fungsi untuk menghapus stopwords dari token-token kata
def lemmatize_text(token_list):
    return " ".join([lemmatizer.lemmatize(token) for token in token_list if not token in set(sw)])

lemmatizer = nltk.stem.WordNetLemmatizer()
data['content'] = data['content'].apply(lambda x: lemmatize_text(x))
data.head()

#KESIMPULAN

1. **Stopword Removal (Penghapusan Kata Umum)**:
   - **Bahasa Inggris**: Ada daftar stopword yang sangat umum, seperti "the", "is", "and", yang banyak digunakan dalam berbagai library NLP (misalnya, NLTK, SpaCy).
   - **Bahasa Indonesia**: Stopword seperti "dan", "yang", "di" juga perlu dihapus, namun daftar stopword Indonesia bisa lebih bervariasi karena perbedaan konteks dan penggunaan kata dalam kalimat yang lebih luas, sehingga memerlukan daftar khusus.

2. **Stemming dan Lemmatization**:
   - **Bahasa Inggris**: Algoritma stemming seperti **Porter Stemmer** atau **Lancaster Stemmer** cukup mapan untuk bahasa Inggris. Lemmatization juga didukung dengan baik karena bahasa Inggris memiliki struktur kata dasar yang lebih jelas.
   - **Bahasa Indonesia**: Stemming di bahasa Indonesia lebih menantang karena penggunaan imbuhan (prefiks, sufiks) yang kompleks. Algoritma seperti **Nazief-Adriani** atau **Sastrawi** sering digunakan untuk bahasa Indonesia, namun efektivitasnya mungkin kurang dibandingkan dengan bahasa Inggris.

3. **Tokenisasi**:
   - **Bahasa Inggris**: Tokenisasi lebih mudah karena pemisahan kata biasanya dilakukan berdasarkan spasi atau tanda baca. Library NLP umum seperti SpaCy dan NLTK sangat efektif untuk ini.
   - **Bahasa Indonesia**: Meski tokenisasi pada bahasa Indonesia juga berbasis spasi, kata gabungan atau perubahan bentuk kata akibat afiksasi dapat menambah tantangan. Penggunaan tanda baca dan format kata juga bisa berbeda dibandingkan bahasa Inggris.

4. **Slang dan Ekspresi Lokal**:
   - **Bahasa Inggris**: Slang seperti "gonna" (going to) atau "wanna" (want to) dapat diproses menggunakan kamus atau model yang dilatih khusus untuk bahasa informal.
   - **Bahasa Indonesia**: Penggunaan bahasa gaul atau variasi daerah dalam bahasa Indonesia membuat preprocessing lebih sulit. Contoh seperti "gue" (saya), "nggak" (tidak), atau penggunaan singkatan umum perlu diproses secara lebih kontekstual.

5. **Negation Handling (Penanganan Negasi)**:
   - **Bahasa Inggris**: Kata-kata negasi seperti "not", "never" biasanya diidentifikasi dengan baik oleh alat NLP.
   - **Bahasa Indonesia**: Negasi seperti "tidak", "bukan", atau "belum" memerlukan perhatian khusus agar algoritma NLP tidak salah menangkap maksud.