<a href="https://colab.research.google.com/github/irwanmaulana42/google-collab/blob/master/Toped%20Visualisasi%20Data%20Bokeh.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [2]:
# Import Library
from bokeh.plotting import figure, output_file, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource, HoverTool
from bokeh.palettes import Category10_10
from bokeh.palettes import Spectral6
import pandas as pd
from collections import Counter
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

In [3]:
# Mengambil dataset dari URL
url = 'https://raw.githubusercontent.com/irwanmaulana42/google-collab/master/dataset_review_tokped_labelled.csv'
data = pd.read_csv(url)

In [4]:
# Menampilkan Data ke dalam bentuk Table
pd.DataFrame(data)

Unnamed: 0,Review,Rating,Sentiment
0,enak kuacinya,5,positive
1,pengiriman cepat packing bagus sesuai pesanan ...,5,positive
2,pengemasan luar biasa baik untuk rasa menurut ...,4,negative
3,terimakasih min,5,neutral
4,udah order untuk kesekian kali jos,5,neutral
...,...,...,...
4055,seller sangat responsif rasa belum dicoba kare...,5,neutral
4056,imut2 banget packing aman,5,positive
4057,good product trusted seller,5,positive
4058,sudah beli yg ke 3,5,neutral


Menghitung Jumlah Ulasan Positif, Neutral dan Negatif

In [5]:
# Menghitung jumlah ulasan positif dan negatif
counts = data['Sentiment'].value_counts()
labels = counts.index.tolist()
print(counts)
jumlah = counts.tolist()

# Membuat output notebook
output_notebook()

# Membuat plot
p = figure(x_range=labels, height=400, title='Jumlah Ulasan Positif, Neutral dan Negatif',
           toolbar_location=None, tools="")

# Menambahkan batang untuk jumlah ulasan
p.vbar(x=labels, top=jumlah, width=0.5, color='steelblue')

# Menambahkan hover tool
hover = HoverTool(tooltips=[('Label', '@x'), ('Jumlah', '@top')])
p.add_tools(hover)

# Mengatur sumbu x dan y
p.xgrid.grid_line_color = None
p.y_range.start = 0
p.y_range.end = max(jumlah) + 100

# Menampilkan plot
show(p)


positive    2903
neutral      585
negative     572
Name: Sentiment, dtype: int64


Menghitung Banyak Review Per Rating

In [6]:
# Membuat DataFrame dari data
df = pd.DataFrame(data)

# Menghitung banyaknya review per rating
review_counts = df['Rating'].value_counts().sort_index()
print(review_counts)
# Membuat output notebook
output_notebook()

# Membuat plot
p = figure(x_range=[str(rating) for rating in review_counts.index], height=400, title='Banyaknya Review per Rating',
           toolbar_location=None, tools="")

# Menambahkan batang untuk jumlah review
p.vbar(x=[str(rating) for rating in review_counts.index], top=review_counts.values, width=0.5, color='steelblue')

# Menambahkan hover tool
hover = HoverTool(tooltips=[('Label', '@x'), ('Jumlah', '@top')])
p.add_tools(hover)

# Mengatur sumbu x dan y
p.xgrid.grid_line_color = None
p.y_range.start = 0
p.y_range.end = max(review_counts.values) + 1

# Menampilkan plot
show(p)


1      64
2      50
3     117
4     248
5    3581
Name: Rating, dtype: int64


Menghitung kata yang sering muncul

In [7]:
# Membuat DataFrame dari data
df = pd.DataFrame(data)
print(df)
# Menggabungkan semua review menjadi satu teks
all_reviews = ' '.join(df['Review'])

# Melakukan stemming dengan Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()
stemmed_text = stemmer.stem(all_reviews)

# Menghapus stopwords dengan Sastrawi
stopword_factory = StopWordRemoverFactory()
stopwords = stopword_factory.get_stop_words()
stopwords = set(stopwords) # Mengubah menjadi set untuk efisiensi

# Tokenisasi teks menjadi kata-kata
tokens = stemmed_text.split()

# Menghapus stopwords dari token
filtered_tokens = [token for token in tokens if token not in stopwords]

# Menghitung kemunculan kata menggunakan Counter
word_counts = Counter(filtered_tokens)

                                                 Review  Rating Sentiment
0                                         enak kuacinya       5  positive
1     pengiriman cepat packing bagus sesuai pesanan ...       5  positive
2     pengemasan luar biasa baik untuk rasa menurut ...       4  negative
3                                       terimakasih min       5   neutral
4                    udah order untuk kesekian kali jos       5   neutral
...                                                 ...     ...       ...
4055  seller sangat responsif rasa belum dicoba kare...       5   neutral
4056                          imut2 banget packing aman       5  positive
4057                        good product trusted seller       5  positive
4058                                 sudah beli yg ke 3       5   neutral
4059                                    byk campurannya       4   neutral

[4060 rows x 3 columns]


In [8]:
# Mengambil 10 kata terbanyak
top_10_words = word_counts.most_common(10)
words = [word[0] for word in top_10_words]
counts = [count[1] for count in top_10_words]
print(words)
print(counts)
# Membuat output notebook
output_notebook()

# Membuat plot
p = figure(x_range=words, height=400, width=1000, title='Kata yang Paling Sering Muncul (Setelah Stemming dan Stopwords Removal)',
           toolbar_location=None, tools="")

# Menambahkan batang untuk jumlah kemunculan kata
p.vbar(x=words, top=counts, width=0.5, color='green')

# Menambahkan hover tool
hover = HoverTool(tooltips=[('Label', '@x'), ('Jumlah', '@top')])
p.add_tools(hover)

# Mengatur sumbu x dan y
p.xgrid.grid_line_color = None
p.y_range.start = 0
p.y_range.end = max(counts) + 1

# Menampilkan plot
show(p)


['cepat', 'enak', 'kirim', 'rasa', 'nya', 'seller', 'sesuai', 'barang', 'terima', 'yg']
[890, 882, 807, 508, 502, 486, 478, 453, 430, 400]


In [21]:
# Mengambil 10 kata terbanyak
top_10_words = word_counts.most_common(10)
words = [word[0] for word in top_10_words]
counts = [count[1] for count in top_10_words]
print(words)
print(counts)

# Membuat output notebook
output_notebook()

# Membuat plot
p = figure(x_range=words, height=400, width=1000, title='Kata yang Paling Sering Muncul (Setelah Stemming dan Stopwords Removal)',
           toolbar_location=None, tools="")

# Menambahkan line chart untuk jumlah kemunculan kata
p.line(x=words, y=counts, line_width=2, color='steelblue', legend_label='Jumlah Ulasan')
p.circle(x=words, y=counts, fill_color="white", size=8)

# Menambahkan hover tool
hover = HoverTool(tooltips=[('Label', '@x'), ('Jumlah', '@y')])
p.add_tools(hover)

# Mengatur sumbu x dan y
p.xgrid.grid_line_color = None
p.y_range.start = 0
p.y_range.end = max(counts) + 100

# Menampilkan plot
show(p)

['cepat', 'enak', 'kirim', 'rasa', 'nya', 'seller', 'sesuai', 'barang', 'terima', 'yg']
[890, 882, 807, 508, 502, 486, 478, 453, 430, 400]
