In [1]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize


nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
teks = "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan."


In [3]:
token_kata = word_tokenize(teks)
token_kata

['Perekonomian',
 'Indonesia',
 'sedang',
 'dalam',
 'pertumbuhan',
 'yang',
 'membanggakan',
 '.']

In [4]:
stopwords_indonesian = set(stopwords.words('indonesian'))

In [5]:
kata_penting = [kata for kata in token_kata if kata.lower() not in stopwords_indonesian]
kata_penting

['Perekonomian', 'Indonesia', 'pertumbuhan', 'membanggakan', '.']

In [8]:
teks_update = ' '.join(kata_penting)
teks_update

'Perekonomian Indonesia pertumbuhan membanggakan .'

In [9]:
print("Teks asli:", teks)
print("Teks setelah filtering stopwords NLTK:", teks_update)

Teks asli: Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan.
Teks setelah filtering stopwords NLTK: Perekonomian Indonesia pertumbuhan membanggakan .


In [11]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.tokenize import word_tokenize


In [12]:
factory = StopWordRemoverFactory()
stopwords_sastrawi = factory.get_stop_words()

In [14]:
tokens_kata = word_tokenize(teks)
tokens_kata

['Perekonomian',
 'Indonesia',
 'sedang',
 'dalam',
 'pertumbuhan',
 'yang',
 'membanggakan',
 '.']

In [15]:
kata_penting = [kata for kata in tokens_kata if kata.lower() not in stopwords_sastrawi]
kata_penting

['Perekonomian', 'Indonesia', 'sedang', 'pertumbuhan', 'membanggakan', '.']

In [16]:
teks_update = ' '.join(kata_penting)
teks_update

'Perekonomian Indonesia sedang pertumbuhan membanggakan .'

# Stemming

In [17]:
import nltk
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

In [18]:
words = ["running", "runs", "runner", "ran", "easily", "fairness", "better", "best", "cats", "cacti", "geese", "rocks", "oxen"]


In [19]:
for word in words:
    stemmed_word = stemmer.stem(word)
    print(f"Kata asli {word}, Kata setelah stem {stemmed_word}")

Kata asli running, Kata setelah stem run
Kata asli runs, Kata setelah stem run
Kata asli runner, Kata setelah stem runner
Kata asli ran, Kata setelah stem ran
Kata asli easily, Kata setelah stem easili
Kata asli fairness, Kata setelah stem fair
Kata asli better, Kata setelah stem better
Kata asli best, Kata setelah stem best
Kata asli cats, Kata setelah stem cat
Kata asli cacti, Kata setelah stem cacti
Kata asli geese, Kata setelah stem gees
Kata asli rocks, Kata setelah stem rock
Kata asli oxen, Kata setelah stem oxen


# Lemmatization

In [20]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [21]:
words = ["Run", "Cat", "Good", "Goose", "Rock", "City", "Big", "Happy", "Run", "Sleep"]

for word in words:
    lemma_word = lemmatizer.lemmatize(word.lower())
    print(f'sebelum lemmatize {word}, setelah lemmatize {lemma_word}')

sebelum lemmatize Run, setelah lemmatize run
sebelum lemmatize Cat, setelah lemmatize cat
sebelum lemmatize Good, setelah lemmatize good
sebelum lemmatize Goose, setelah lemmatize goose
sebelum lemmatize Rock, setelah lemmatize rock
sebelum lemmatize City, setelah lemmatize city
sebelum lemmatize Big, setelah lemmatize big
sebelum lemmatize Happy, setelah lemmatize happy
sebelum lemmatize Run, setelah lemmatize run
sebelum lemmatize Sleep, setelah lemmatize sleep


# Extrasi Fitur

In [23]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [24]:
text_data = [
    'Saya suka makan bakso',
    'Bakso enak dan lezat',
    'Makanan favorit saya adalah nasi goreng',
    'Nasi goreng pedas adalah makanan favorit saya',
    'Saya suka makanan manis seperti es krim',
]

In [25]:
tokenized_word = [word_tokenize(sentence.lower()) for sentence in text_data]

In [26]:
tokenized_word

[['saya', 'suka', 'makan', 'bakso'],
 ['bakso', 'enak', 'dan', 'lezat'],
 ['makanan', 'favorit', 'saya', 'adalah', 'nasi', 'goreng'],
 ['nasi', 'goreng', 'pedas', 'adalah', 'makanan', 'favorit', 'saya'],
 ['saya', 'suka', 'makanan', 'manis', 'seperti', 'es', 'krim']]

In [27]:
model = Word2Vec(sentences=tokenized_word, vector_size=100, window=5, min_count=1, workers=4)

In [28]:
word_vectors = model.wv

In [33]:
simmilar_words = word_vectors.most_similar('bakso', topn=3)
print("kata yang mirip dengan 'bakso': ", simmilar_words)

kata yang mirip dengan 'bakso':  [('manis', 0.2529163062572479), ('nasi', 0.17018672823905945), ('enak', 0.15006466209888458)]


# TF-IDF

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
documents = [
    "Saya suka makan bakso",
    "Bakso enak dan lezat",
    "Makanan favorit saya adalah nasi goreng",
    "Nasi goreng pedas adalah makanan favorit saya",
    "Saya suka makanan manis seperti es krim",
]

In [3]:
tfidf_vect = TfidfVectorizer()

tfodf_matrix = tfidf_vect.fit_transform(documents)

print("Vocab: ", tfidf_vect.vocabulary_)

Vocab:  {'saya': 14, 'suka': 16, 'makan': 9, 'bakso': 1, 'enak': 3, 'dan': 2, 'lezat': 8, 'makanan': 10, 'favorit': 5, 'adalah': 0, 'nasi': 12, 'goreng': 6, 'pedas': 13, 'manis': 11, 'seperti': 15, 'es': 4, 'krim': 7}


In [4]:
print("TF-IDF Matrix:")
print(tfodf_matrix.toarray())

TF-IDF Matrix:
[[0.         0.49851188 0.         0.         0.         0.
  0.         0.         0.         0.61789262 0.         0.
  0.         0.         0.34810993 0.         0.49851188]
 [0.         0.42224214 0.52335825 0.52335825 0.         0.
  0.         0.         0.52335825 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.43951606 0.         0.         0.         0.         0.43951606
  0.43951606 0.         0.         0.         0.36483803 0.
  0.43951606 0.         0.30691325 0.         0.        ]
 [0.38596041 0.         0.         0.         0.         0.38596041
  0.38596041 0.         0.         0.         0.320382   0.
  0.38596041 0.47838798 0.26951544 0.         0.        ]
 [0.         0.         0.         0.         0.42966246 0.
  0.         0.42966246 0.         0.         0.28774996 0.42966246
  0.         0.         0.24206433 0.42966246 0.34664897]]


# BagofWord (BoW)

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

In [6]:
vectorizer = CountVectorizer()

In [7]:
bow_matrix = vectorizer.fit_transform(documents)

In [8]:
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]], dtype=int64)

In [9]:
features = vectorizer.get_feature_names_out()

In [10]:
print("Matriks BoW:")
print(bow_matrix.toarray())
 
print("\nDaftar Fitur:")
print(features)

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


# N-gram

In [11]:
from nltk.util import ngrams


In [12]:
sentences = [
    "Saya suka makan bakso enak di warung dekat rumah.",
    "Nasi goreng adalah salah satu makanan favorit saya.",
    "Es krim coklat sangat lezat dan menyegarkan.",
    "Saat hari hujan, saya suka minum teh hangat.",
    "Pemandangan pegunungan di pagi hari sangat indah.",
    "Bola basket adalah olahraga favorit saya sejak kecil."
]

In [14]:
for sentence in sentences:
    words = sentence.split()
    unigrams = list(ngrams(words, 1))
    bigrams = list(ngrams(words, 2))
    trigrams = list(ngrams(words, 3))

In [15]:
print("\nKalimat:", sentence)
print("1-gram:")
for gram in unigrams:
    print(gram)
print("\n2-gram:")
for gram in bigrams:
    print(gram)
print("\n3-gram:")
for gram in trigrams:
    print(gram)


Kalimat: Bola basket adalah olahraga favorit saya sejak kecil.
1-gram:
('Bola',)
('basket',)
('adalah',)
('olahraga',)
('favorit',)
('saya',)
('sejak',)
('kecil.',)

2-gram:
('Bola', 'basket')
('basket', 'adalah')
('adalah', 'olahraga')
('olahraga', 'favorit')
('favorit', 'saya')
('saya', 'sejak')
('sejak', 'kecil.')

3-gram:
('Bola', 'basket', 'adalah')
('basket', 'adalah', 'olahraga')
('adalah', 'olahraga', 'favorit')
('olahraga', 'favorit', 'saya')
('favorit', 'saya', 'sejak')
('saya', 'sejak', 'kecil.')


# Studi Kasus NLP

In [16]:
from google_play_scraper import app, reviews, Sort, reviews_all
import pandas as pd
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining
import numpy as np
seed = 0
np.random.seed(seed)
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score

import datetime as dt
import re
import string

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory


from wordcloud import WordCloud

import nltk  # Import pustaka NLTK (Natural Language Toolkit).
nltk.download('punkt')  # Mengunduh dataset yang diperlukan untuk tokenisasi teks.
nltk.download('stopwords')  # Mengunduh dataset yang berisi daftar kata-kata berhenti (stopwords) dalam berbagai bahasa.

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [17]:
scrapreview = reviews_all(
    'com.byu.id',
    lang='id',
    country='id',
    sort=Sort.MOST_RELEVANT,
    count=1000
)

In [18]:
import csv

with open('ulasan_aplikasi.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])
    for review in scrapreview:
        writer.writerow([review['content']])

In [19]:
app_review = pd.DataFrame(scrapreview)
app_review.shape
app_review.head()
app_review.to_csv('ulasan_aplikasi.csv', index=False)

jumlah_ulasan, jumlah_kolom = app_review.shape

In [20]:
app_review.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,77b1715e-885d-47c7-b958-41c18f60593d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,sangat rekomended buat kalian yang mau melatih...,1,361,1.59.0,2024-12-19 23:08:33,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-20 07:05:11,1.59.0
1,98f0f6db-3225-4f54-94cc-0d920622db63,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Untuk sekarang saya kasih segini dulu. Kecewa ...,1,96,1.59.0,2024-12-19 20:01:50,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-20 07:08:21,1.59.0
2,427de1b2-99ea-4d93-86cb-acb059c1ef7f,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Sayang ya. By.u ini menarik sekali tapi bener ...,3,33,1.59.0,2024-12-26 16:10:50,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-26 21:11:56,1.59.0
3,9e145aa3-7c51-402d-b8da-8911061e07da,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Cuaca baik baiknya saja dan paket data baru sa...,3,7,1.59.0,2025-01-05 17:22:14,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2025-01-06 08:36:34,1.59.0
4,b9a8d064-7751-436c-bb53-35fa167a15bb,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"sy pengguna provider ini dari awal 2020, sedih...",1,49,1.59.0,2025-01-02 02:38:06,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2025-01-02 07:08:01,1.59.0


In [21]:
app_review.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117000 entries, 0 to 116999
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              117000 non-null  object        
 1   userName              117000 non-null  object        
 2   userImage             117000 non-null  object        
 3   content               116999 non-null  object        
 4   score                 117000 non-null  int64         
 5   thumbsUpCount         117000 non-null  int64         
 6   reviewCreatedVersion  98973 non-null   object        
 7   at                    117000 non-null  datetime64[ns]
 8   replyContent          108322 non-null  object        
 9   repliedAt             108322 non-null  datetime64[ns]
 10  appVersion            98973 non-null   object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 9.8+ MB


In [22]:
app_review.isnull().sum()

reviewId                    0
userName                    0
userImage                   0
content                     1
score                       0
thumbsUpCount               0
reviewCreatedVersion    18027
at                          0
replyContent             8678
repliedAt                8678
appVersion              18027
dtype: int64

In [23]:
clean_df = app_review.dropna()
clean_df.isnull().sum()

reviewId                0
userName                0
userImage               0
content                 0
score                   0
thumbsUpCount           0
reviewCreatedVersion    0
at                      0
replyContent            0
repliedAt               0
appVersion              0
dtype: int64

In [24]:
clean_df.duplicated().sum()

0

In [25]:
def cleaningText(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text) # menghapus mention
    text = re.sub(r'#[A-Za-z0-9]+', '', text) # menghapus hashtag
    text = re.sub(r'RT[\s]', '', text) # menghapus RT
    text = re.sub(r"http\S+", '', text) # menghapus link
    text = re.sub(r'[0-9]+', '', text) # menghapus angka
    text = re.sub(r'[^\w\s]', '', text) # menghapus karakter selain huruf dan angka
 
    text = text.replace('\n', ' ') # mengganti baris baru dengan spasi
    text = text.translate(str.maketrans('', '', string.punctuation)) # menghapus semua tanda baca
    text = text.strip(' ') # menghapus karakter spasi dari kiri dan kanan teks
    return text
 
def casefoldingText(text): # Mengubah semua karakter dalam teks menjadi huruf kecil
    text = text.lower()
    return text
 
def tokenizingText(text): # Memecah atau membagi string, teks menjadi daftar token
    text = word_tokenize(text)
    return text
 
def filteringText(text): # Menghapus stopwords dalam teks
    listStopwords = set(stopwords.words('indonesian'))
    listStopwords1 = set(stopwords.words('english'))
    listStopwords.update(listStopwords1)
    listStopwords.update(['iya','yaa','gak','nya','na','sih','ku',"di","ga","ya","gaa","loh","kah","woi","woii","woy"])
    filtered = []
    for txt in text:
        if txt not in listStopwords:
            filtered.append(txt)
    text = filtered
    return text
 
def stemmingText(text): # Mengurangi kata ke bentuk dasarnya yang menghilangkan imbuhan awalan dan akhiran atau ke akar kata
    # Membuat objek stemmer
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
 
    # Memecah teks menjadi daftar kata
    words = text.split()
 
    # Menerapkan stemming pada setiap kata dalam daftar
    stemmed_words = [stemmer.stem(word) for word in words]
 
    # Menggabungkan kata-kata yang telah distem
    stemmed_text = ' '.join(stemmed_words)
 
    return stemmed_text
 
def toSentence(list_words): # Mengubah daftar kata menjadi kalimat
    sentence = ' '.join(word for word in list_words)
    return sentence

In [27]:
slangwords = {"@": "di", "abis": "habis", "wtb": "beli", "masi": "masih", "wts": "jual", "wtt": "tukar", "bgt": "banget", "maks": "maksimal" }
def fix_slangwords(text):
    words = text.split()
    fixed_words = []
 
    for word in words:
        if word.lower() in slangwords:
            fixed_words.append(slangwords[word.lower()])
        else:
            fixed_words.append(word)
 
    fixed_text = ' '.join(fixed_words)
    return fixed_text

In [28]:
# Membersihkan teks dan menyimpannya di kolom 'text_clean'
clean_df['text_clean'] = clean_df['content'].apply(cleaningText)
 
# Mengubah huruf dalam teks menjadi huruf kecil dan menyimpannya di 'text_casefoldingText'
clean_df['text_casefoldingText'] = clean_df['text_clean'].apply(casefoldingText)
 
# Mengganti kata-kata slang dengan kata-kata standar dan menyimpannya di 'text_slangwords'
clean_df['text_slangwords'] = clean_df['text_casefoldingText'].apply(fix_slangwords)
 
# Memecah teks menjadi token (kata-kata) dan menyimpannya di 'text_tokenizingText'
clean_df['text_tokenizingText'] = clean_df['text_slangwords'].apply(tokenizingText)
 
# Menghapus kata-kata stop (kata-kata umum) dan menyimpannya di 'text_stopword'
clean_df['text_stopword'] = clean_df['text_tokenizingText'].apply(filteringText)
 
# Menggabungkan token-token menjadi kalimat dan menyimpannya di 'text_akhir'
clean_df['text_akhir'] = clean_df['text_stopword'].apply(toSentence)

In [29]:
clean_df

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion,text_clean,text_casefoldingText,text_slangwords,text_tokenizingText,text_stopword,text_akhir
0,77b1715e-885d-47c7-b958-41c18f60593d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,sangat rekomended buat kalian yang mau melatih...,1,361,1.59.0,2024-12-19 23:08:33,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-20 07:05:11,1.59.0,sangat rekomended buat kalian yang mau melatih...,sangat rekomended buat kalian yang mau melatih...,sangat rekomended buat kalian yang mau melatih...,"[sangat, rekomended, buat, kalian, yang, mau, ...","[rekomended, melatih, kesabaran, setipis, tisu...",rekomended melatih kesabaran setipis tisu diba...
1,98f0f6db-3225-4f54-94cc-0d920622db63,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Untuk sekarang saya kasih segini dulu. Kecewa ...,1,96,1.59.0,2024-12-19 20:01:50,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-20 07:08:21,1.59.0,Untuk sekarang saya kasih segini dulu Kecewa p...,untuk sekarang saya kasih segini dulu kecewa p...,untuk sekarang saya kasih segini dulu kecewa p...,"[untuk, sekarang, saya, kasih, segini, dulu, k...","[kasih, segini, kecewa, parah, udah, makai, by...",kasih segini kecewa parah udah makai byu sinya...
2,427de1b2-99ea-4d93-86cb-acb059c1ef7f,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Sayang ya. By.u ini menarik sekali tapi bener ...,3,33,1.59.0,2024-12-26 16:10:50,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2024-12-26 21:11:56,1.59.0,Sayang ya Byu ini menarik sekali tapi bener ka...,sayang ya byu ini menarik sekali tapi bener ka...,sayang ya byu ini menarik sekali tapi bener ka...,"[sayang, ya, byu, ini, menarik, sekali, tapi, ...","[sayang, byu, menarik, bener, orang², sinyal, ...",sayang byu menarik bener orang² sinyal maju mu...
3,9e145aa3-7c51-402d-b8da-8911061e07da,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Cuaca baik baiknya saja dan paket data baru sa...,3,7,1.59.0,2025-01-05 17:22:14,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2025-01-06 08:36:34,1.59.0,Cuaca baik baiknya saja dan paket data baru sa...,cuaca baik baiknya saja dan paket data baru sa...,cuaca baik baiknya saja dan paket data baru sa...,"[cuaca, baik, baiknya, saja, dan, paket, data,...","[cuaca, baiknya, paket, data, dibeli, diaktifk...",cuaca baiknya paket data dibeli diaktifkan jar...
4,b9a8d064-7751-436c-bb53-35fa167a15bb,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"sy pengguna provider ini dari awal 2020, sedih...",1,49,1.59.0,2025-01-02 02:38:06,"Hi, Kak. Maaf banget jadi bikin gak nyaman. Ni...",2025-01-02 07:08:01,1.59.0,sy pengguna provider ini dari awal sedih bang...,sy pengguna provider ini dari awal sedih bang...,sy pengguna provider ini dari awal sedih bange...,"[sy, pengguna, provider, ini, dari, awal, sedi...","[sy, pengguna, provider, sedih, banget, perfor...",sy pengguna provider sedih banget performa byu...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
116995,f6d11492-a8e3-4318-8d82-e324925da144,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,mantap,5,0,787,2022-04-02 15:52:54,Hai Kak! Makasih banyak ya buat feedbacknya. N...,2022-04-02 16:08:15,787,mantap,mantap,mantap,[mantap],[mantap],mantap
116996,aebad197-cc62-4849-a4f3-819498a2da7f,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,bagus,5,0,787,2022-04-02 12:50:54,Hai Kak Damar! Makasih ya buat feedbacknya. Ni...,2022-04-02 13:04:33,787,bagus,bagus,bagus,[bagus],[bagus],bagus
116997,ced86d00-73f2-4282-8053-c42e70cd7960,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,mantaappp,5,0,787,2022-03-21 02:50:01,Hai Kak! Makasih banget yaa buat feedbacknya. ...,2022-03-21 02:56:35,787,mantaappp,mantaappp,mantaappp,[mantaappp],[mantaappp],mantaappp
116998,ddc28e7d-8b22-458e-a4a2-1eef2e22af2e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,mantap,5,0,787,2022-03-26 14:28:29,Hai Kak. Makasih banyak buat feedbacknya ya. N...,2022-03-26 14:33:24,787,mantap,mantap,mantap,[mantap],[mantap],mantap


In [30]:
import csv
import requests
from io import StringIO
 
# Membaca data kamus kata-kata positif dari GitHub
lexicon_positive = dict()
 
response = requests.get('https://raw.githubusercontent.com/angelmetanosaa/dataset/main/lexicon_positive.csv')
# Mengirim permintaan HTTP untuk mendapatkan file CSV dari GitHub
 
if response.status_code == 200:
    # Jika permintaan berhasil
    reader = csv.reader(StringIO(response.text), delimiter=',')
    # Membaca teks respons sebagai file CSV menggunakan pembaca CSV dengan pemisah koma
 
    for row in reader:
        # Mengulangi setiap baris dalam file CSV
        lexicon_positive[row[0]] = int(row[1])
        # Menambahkan kata-kata positif dan skornya ke dalam kamus lexicon_positive
else:
    print("Failed to fetch positive lexicon data")
 
# Membaca data kamus kata-kata negatif dari GitHub
lexicon_negative = dict()
 
response = requests.get('https://raw.githubusercontent.com/angelmetanosaa/dataset/main/lexicon_negative.csv')
# Mengirim permintaan HTTP untuk mendapatkan file CSV dari GitHub
 
if response.status_code == 200:
    # Jika permintaan berhasil
    reader = csv.reader(StringIO(response.text), delimiter=',')
    # Membaca teks respons sebagai file CSV menggunakan pembaca CSV dengan pemisah koma
 
    for row in reader:
        # Mengulangi setiap baris dalam file CSV
        lexicon_negative[row[0]] = int(row[1])
        # Menambahkan kata-kata negatif dan skornya dalam kamus lexicon_negative
else:
    print("Failed to fetch negative lexicon data")

In [31]:
# Fungsi untuk menentukan polaritas sentimen dari tweet
 
def sentiment_analysis_lexicon_indonesia(text):
    #for word in text:
 
    score = 0
    # Inisialisasi skor sentimen ke 0
 
    for word in text:
        # Mengulangi setiap kata dalam teks
 
        if (word in lexicon_positive):
            score = score + lexicon_positive[word]
            # Jika kata ada dalam kamus positif, tambahkan skornya ke skor sentimen
 
    for word in text:
        # Mengulangi setiap kata dalam teks (sekali lagi)
 
        if (word in lexicon_negative):
            score = score + lexicon_negative[word]
            # Jika kata ada dalam kamus negatif, kurangkan skornya dari skor sentimen
 
    polarity=''
    # Inisialisasi variabel polaritas
 
    if (score >= 0):
        polarity = 'positive'
        # Jika skor sentimen lebih besar atau sama dengan 0, maka polaritas adalah positif
    elif (score < 0):
        polarity = 'negative'
        # Jika skor sentimen kurang dari 0, maka polaritas adalah negatif
 
    # else:
    #     polarity = 'neutral'
    # Ini adalah bagian yang bisa digunakan untuk menentukan polaritas netral jika diperlukan
 
    return score, polarity
    # Mengembalikan skor sentimen dan polaritas teks

In [32]:
results = clean_df['text_stopword'].apply(sentiment_analysis_lexicon_indonesia)
results = list(zip(*results))
clean_df['polarity_score'] = results[0]
clean_df['polarity'] = results[1]
print(clean_df['polarity'].value_counts())

polarity
positive    47476
negative    43792
Name: count, dtype: int64


In [33]:
from matplotlib.colors import ListedColormap
wc_general = clean_df['polarity']

for word in wc_general:
    # Custom colormap
    custom_cmap = ListedColormap(['#ff9999', '#66b3ff', '#99ff99', '#ffcc99'])

    # Membuat word cloud dengan kustomisasi
    wordcloud = WordCloud(
        width=800,
        height=400,
        background_color='black',
        colormap=custom_cmap
    ).generate(word)

KeyboardInterrupt: 

In [None]:
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Hasil WordCloud Polarity General')
plt.show()