<a id="A"></a>
# <b>A. <span style='color:#9BCF53'>Web Scraping</span></b> 

<i>Web scraping</i> adalah teknik pengambilan data secara otomatis dari internet. Dengan teknik ini, data besar dari sumber yang dituju dapat dikumpulkan dengan cepat, di mana hal ini berguna untuk berbagai keperluan seperti analisis data, pembuatan alat perbandingan harga, atau penelitian.

<a id="B"></a>
# <b>B. <span style='color:#9BCF53'>Proses Scraping Tabel dengan Pandas</span></b> 

Selain file berekstensi .csv, .xlsx, dsb, <a href="https://pandas.pydata.org">pandas</a> (<i>Python Data Analysis Tools</i>) juga dapat mengekstrak data pada suatu situs. Data yang bisa diekstrak pandas dalam sebuah situs  haruslah berupa tabel HTML. Prosedur untuk melakukan ekstraksi data tabel pada suatu situs dengan pandas adalah sebagai berikut :

<ol>
    <li>
        Kunjungi link <i><a href="https://id.wikipedia.org/wiki/Demografi_Indonesia">https://id.wikipedia.org/wiki/Demografi_Indonesia</a></i><br><br>
        <img src="https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/Image/Materi-Scraping/Demografi-Indonesia1.png" width=50%><br><br>
    </li>
    <li>
        Pastikan terdapat data dalam bentuk tabel HTML di situs yang dituju dengan melakukan <a href=" https://blog.hubspot.com/website/how-to-inspect#:~:text=What%20does%20“inspect%20element”%20mean,live%20inside%20the%20browser%20window.">inspeksi elemen</a> (klik kanan lalu pilih <b>inspect</b>)<br><br>
        <img src="https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/Image/Materi-Scraping/Inspect-Element1.png" width=50%><br><br>
    </li>
    <li>
        Import pandas sebagai library yang akan membantu proses scraping dengan mengeksekusi sintaks<br>
        <code>import pandas as pd</code>
    </li><br>
    <li>
        Lalu ikuti instruksi berikut
    </li>
</ol>
<br>
<i>docs : <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_html.html">https://pandas.pydata.org/docs/reference/api/pandas.read_html.html</a></i>

<a id="B.1."></a>
### <b>B.1. <span style='color:#8EAC50'>Mengekstrak Semua Tabel pada Situs</span></b>

In [79]:
# Setup Awal
import warnings
import plotly.offline as pyo

warnings.filterwarnings('ignore')
pyo.init_notebook_mode(connected=True)

In [3]:
# Import library yang digunakan
import pandas as pd

# Definisikan url yang akan di-scraping
url = 'https://id.wikipedia.org/wiki/Demografi_Indonesia'

# Proses ekstraksi data dengan scraping
data = pd.read_html(url)

<a id="B.2."></a>
### <b>B.2. <span style='color:#8EAC50'>Menghitung Total Semua Tabel Terekstrak</span></b>

In [4]:
# Tampilkan berapa banyak data di ekstrak
print(f'Jumlah data terekstrak : {len(data)} data (tabel)')

Jumlah data terekstrak : 7 data (tabel)


<a id="B.3."></a>
### <b>B.3. <span style='color:#8EAC50'>Menampilkan Total Semua Tabel Terekstrak</span></b>

In [5]:
idx_tabel = 1
for tbl in data:
    print(f'\n\033[33;1mSampel Data ke-{idx_tabel}\033[0m')
    display(tbl.head())
    idx_tabel += 1


[33;1mSampel Data ke-1[0m


Unnamed: 0,Tahun,Populasi,±% p.t.,Ref
0,1930,60.727.233,—,[6]
1,1961,97.085.348,—,[7]
2,1971,119.208.229,"+2,10%",[8]
3,1980,147.490.298,"+2,31%",[8]
4,1990,179.378.946,"+1,98%",[8]



[33;1mSampel Data ke-2[0m


Unnamed: 0,Pulau,Jumlah penduduk (juta),Persentase (%)
0,Jawa,1516,561
1,Sumatra,586,2168
2,Sulawesi,199,736
3,Kalimantan,166,615
4,Bali dan Nusa Tenggara,15,554



[33;1mSampel Data ke-3[0m


Unnamed: 0,Nama provinsi,Luas (km²)[11],Populasi (2010)[12],Populasi (2020)[9]
0,Aceh,"56.500,51",4.494.410,5.274.871
1,Sumatera Utara,"72.427,81",12.982.204,14.799.361
2,Sumatera Barat,"42.224,65",4.846.909,5.534.472
3,Riau,"87.844,23",5.538.367,6.394.087
4,Jambi,"45.348,49",3.092.265,3.548.228



[33;1mSampel Data ke-4[0m


Unnamed: 0,Kelompok suku bangsa,Populasi,Persentase
0,Jawa,95.217.022,4022
1,Sunda,36.701.670,155
2,Batak,8.466.969,358
3,Madura,7.179.356,303
4,Betawi,6.807.968,288



[33;1mSampel Data ke-5[0m


Unnamed: 0_level_0,Tahun sensus,Proporsi kelompok umur (%)[18],Proporsi kelompok umur (%)[18],Proporsi kelompok umur (%)[18]
Unnamed: 0_level_1,Tahun sensus,0–14 tahun,15–64 tahun,65+ tahun
0,1971,249,5339,4412
1,1980,325,5584,4091
2,1990,377,5958,3665
3,2000,453,6503,3044
4,2010,504,6609,2887



[33;1mSampel Data ke-6[0m


Unnamed: 0,Bahasa,Populasi,Persentase
0,Jawa,68.044.660,3179
1,Indonesia,42.682.566,1994
2,Sunda,32.412.752,144
3,Melayu,7.901.386,369
4,Madura,7.743.533,362



[33;1mSampel Data ke-7[0m


Unnamed: 0,lbsTopik Indonesia,lbsTopik Indonesia.1
0,Sejarah Nusantara (pra-Indonesia),Prasejarah Kerajaan Hindu-Buddha Kerajaan Isla...
1,Sejarah Indonesia,Sejarah nama Proklamasi Era transisi Revolusi ...
2,Geografi,Air terjun Bendungan dan waduk Danau Gunung Pe...
3,Politik dan pemerintahan,Ibu kota negara Lembaga negara Pemerintah Pres...
4,Ekonomi,APBN APBD Bank Pasar modal IDX JFX Pariwisata ...


<a id="B.4."></a>
### <b>B.4. <span style='color:#8EAC50'>Ambil Tabel yang Dibutuhkan</span></b>

<ul><li>Misalkan akan diambil sampel data ke-3 mengenai jumlah populasi di setiap provinsi Indonesia untuk di-plot.</li></ul>

In [6]:
# Ambil data yang dibutuhkan
populasi_indonesia = data[2]

# Tampilkan hasilnya
display(populasi_indonesia)

Unnamed: 0,Nama provinsi,Luas (km²)[11],Populasi (2010)[12],Populasi (2020)[9]
0,Aceh,"56.500,51",4.494.410,5.274.871
1,Sumatera Utara,"72.427,81",12.982.204,14.799.361
2,Sumatera Barat,"42.224,65",4.846.909,5.534.472
3,Riau,"87.844,23",5.538.367,6.394.087
4,Jambi,"45.348,49",3.092.265,3.548.228
5,Sumatera Selatan,"91.592,43",7.450.394,8.467.432
6,Bengkulu,"19.795,15",1.715.518,2.010.670
7,Lampung,"37.735,15",7.608.405,9.007.848
8,Kepulauan Bangka Belitung,"16.424,14",1.223.296,1.455.678
9,Kepulauan Riau,"8.084,01",1.679.163,2.064.564


In [7]:
# Akses Informasi Umum
populasi_indonesia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Nama provinsi        35 non-null     object
 1   Luas (km²)[11]       35 non-null     object
 2   Populasi (2010)[12]  35 non-null     object
 3   Populasi (2020)[9]   35 non-null     object
dtypes: object(4)
memory usage: 1.2+ KB


<ul><li>Lakukan <i>Cleansing Data</i></li></ul>

In [8]:
# Hapus baris terakhir
populasi_indonesia = populasi_indonesia.drop(populasi_indonesia.index[-1])

# Ubah nama kolom
populasi_indonesia = populasi_indonesia.rename(columns = {
    'Nama provinsi' : 'nama_provinsi',
    'Luas (km²)[11]' : 'luas_per_km2',
    'Populasi (2010)[12]' : 'populasi_thn_2010',
    'Populasi (2020)[9]' : 'populasi_thn_2020'
})

# Buat nama_provinsi menjadi uppercase
populasi_indonesia['nama_provinsi'] = populasi_indonesia['nama_provinsi'].str.upper()

# Transformasi sesuai tipe data yang seharusnya
for num_columns in ['luas_per_km2', 'populasi_thn_2010', 'populasi_thn_2020']:
    populasi_indonesia[num_columns] = populasi_indonesia[num_columns].str.replace('.', '')
    populasi_indonesia[num_columns] = populasi_indonesia[num_columns].str.replace(',', '.')
    if(num_columns == 'luas_per_km2'):
        populasi_indonesia[num_columns] = populasi_indonesia[num_columns].astype(float)
    else:
        populasi_indonesia[num_columns] = populasi_indonesia[num_columns].astype(int)
    
# Tampilkan hasilnya
populasi_indonesia.head(10)

Unnamed: 0,nama_provinsi,luas_per_km2,populasi_thn_2010,populasi_thn_2020
0,ACEH,56500.51,4494410,5274871
1,SUMATERA UTARA,72427.81,12982204,14799361
2,SUMATERA BARAT,42224.65,4846909,5534472
3,RIAU,87844.23,5538367,6394087
4,JAMBI,45348.49,3092265,3548228
5,SUMATERA SELATAN,91592.43,7450394,8467432
6,BENGKULU,19795.15,1715518,2010670
7,LAMPUNG,37735.15,7608405,9007848
8,KEPULAUAN BANGKA BELITUNG,16424.14,1223296,1455678
9,KEPULAUAN RIAU,8084.01,1679163,2064564


In [9]:
# Akses Kembali Informasi Umum
populasi_indonesia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nama_provinsi      34 non-null     object 
 1   luas_per_km2       34 non-null     float64
 2   populasi_thn_2010  34 non-null     int64  
 3   populasi_thn_2020  34 non-null     int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 1.2+ KB


<ul><li><i>Plot</i> Peta untuk Melihat Sebaran Populasi per Provinsi di Indonesia</li></ul>

In [80]:
import plotly.express as px
import json
import requests

# URL data GeoJSON (contoh menggunakan URL dari sumber yang relevan)
url = 'https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/GeoData/Indonesia-Province.geojson'

# Mengambil data GeoJSON
response = requests.get(url)
indonesia_geojson = response.json()

fig = px.choropleth_mapbox(
    populasi_indonesia,
    geojson = indonesia_geojson,
    featureidkey = 'properties.Propinsi',
    locations = 'nama_provinsi',
    color = 'populasi_thn_2020',
    color_continuous_scale = 'Greens',
    mapbox_style = 'carto-positron',
    center = {'lat': -2.4, 'lon': 118.0},
    zoom = 3.8,
    title = 'Total Crime by Region',
)

# Menampilkan peta
fig.update_layout(
    width = 1300,
    height = 600,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = '<b>Sebaran <span style="color:#40513B">Populasi</span> di Indonesia</b><br><sup><sup>Tahun 2020 (per Provinsi)</sup></sup>',
        font = dict(
            size = 25,
            color = '#B0A7A7'
        ),
        y = 0.92,
        x = 0.06
    )
)

fig.update_traces(
    hovertemplate = '<b>%{location}</b><br>Populasi : %{z:,.0f}<extra></extra>'
)



fig.show()

---

<a id="C"></a>
# <b>C. <span style='color:#9BCF53'>Proses Scraping Review App di Play Store</span></b> 

<a href="https://play.google.com">Play Store</a>, atau Google Play Store, adalah platform distribusi digital yang dikembangkan oleh Google. Platform ini digunakan untuk mendownload dan membeli aplikasi, game, musik, film, buku, dan konten digital lainnya untuk perangkat berbasis Android. Scraping data di Play Store mempunyai manfaat diantaranya :
<ul>
    <li>Analisis Kompetitor</li>
    <li><i>Market Research</i></li>
    <li><i>Feedback User Analysis</i></li>
    <li>dsb</li>
</ul>

Misalkan kita ingin melakukan analisa aplikasi kompetitor dengan cara melihat rating & ulasan pada 'Educational Kids App' (Aplikasi Edukasi untuk Anak), langkah yang perlu dilakukan adalah :

<a id="C.1."></a>
### <b>C.1. <span style='color:#8EAC50'>Install Library google-play-scraper</span></b>

Untuk melakukan instalasi library ini, eksekusi command <code>pip install google-play-scraper</code> di <i>prompt</i> (<i>command prompt</i> atau <i>terminal</i>)

In [11]:
pip install google-play-scraper

[33mDEPRECATION: Loading egg at /opt/anaconda3/lib/python3.11/site-packages/huggingface_hub-0.23.3-py3.8.egg is deprecated. pip 24.3 will enforce this behaviour change. A possible replacement is to use pip for package installation. Discussion can be found at https://github.com/pypa/pip/issues/12330[0m[33m
Note: you may need to restart the kernel to use updated packages.


<a id="C.2."></a>
### <b>C.2. <span style='color:#8EAC50'>Cari <i>Keyword</i></span></b>

Buka situs play.google.com, lalu ketikan keyword yang ingin dicari (dalam hal ini ketikan kids education) <br><br>
<img src="https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/Image/Materi-Scraping/Search-App-PlayStore1.png" width=50%>

Setelah muncul, salin link yang muncul (dalam hal ini didapatkan linknya adalah <a href="https://play.google.com/store/search?q=game%20for%20kids&c=apps"><i>https://play.google.com/store/search?q=game%20for%20kids&c=apps</i></a>)

<a id="C.3."></a>
### <b>C.3. <span style='color:#8EAC50'>Insepeksi Elemen untuk Mendapatkan id</span></b>

Untuk mendapatkan ulasan tiap aplikasi perlu didapatkan dulu id aplikasinya. Sebagai contoh aplikasi berjudul 'Game Anak: Balita Usia 3-7' ini dapat diakses pada link <a href="https://play.google.com/store/apps/details?id=com.rvappstudios.baby.toddler.kids.games.learning.activity">https://play.google.com/store/apps/details?id=com.rvappstudios.baby.toddler.kids.games.learning.activity, sehingga id dari aplikasi tersebut adalah <code>com.rvappstudios.baby.toddler.kids.games.learning.activity</code><br><br>
<img src="https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/Image/Materi-Scraping/Game-Anak.png" width=50%><br><br>
Karena banyak aplikasi edukasi untuk anak pada saat penelusuran, maka perlu dilakukan scraping nama id pada aplikasi hasil pencarian agar lebih cepat. ID Aplikasi diperoleh dengan melakukan inspeksi elemen seperti gambar dibawah ini <br><br>
<img src="https://raw.githubusercontent.com/bachtiyarma/Material/refs/heads/main/Image/Materi-Scraping/Inspect-Element2.png" width=50%>


<a id="C.4."></a>
### <b>C.4. <span style='color:#8EAC50'>Mendapatkan Semua ID Aplikasi (Sesuai Keyword Dicari)</span></b>

<ul><li>Untuk mendapatkan semua ID Aplikasi, pertama harus dilakukan pembacaan seluruh sintaks HTML yang ada pada halaman yang dicari</li><ul>

In [19]:
# Import library yang dibutuhkan
import requests

# Definsikan url hasil pencarian keyword
url = 'https://play.google.com/store/search?q=game%20for%20kids&c=apps'

# Kirimkan permintaan 
response = requests.get(url)

# Tampilkan hasil response
response.content

b'<!doctype html><html lang="en-US" dir="ltr"><head><base href="https://play.google.com/"><link rel="preconnect" href="//www.gstatic.com"><meta name="referrer" content="origin"><meta name="viewport" content="width=device-width, initial-scale=1"><meta name="mobile-web-app-capable" content="yes"><meta name="apple-mobile-web-app-capable" content="yes"><meta name="google-site-verification" content="sBw2N8uateIzRr93vmFze5MF_35vMk5F1wG04L5JcJE"><meta name="google-site-verification" content="PJKdyVFC5jlu_l8Wo_hirJkhs1cmitmn44fgpOc3zFc"><link rel="search" href="/opensearch.xml" type="application/opensearchdescription+xml" title="Google Play"><link rel="shortcut icon" href="//www.gstatic.com/android/market_images/web/favicon_v3.ico"><script data-id="_gd" nonce="yF3dA3jdFT83OQGX7Sm8Fg">window.WIZ_global_data = {"DMjf6c":false,"DpimGf":false,"EBQOHc":[],"EP1ykd":["/_/*","/covid19/exposurenotifications/select","/covid19/exposurenotifications/select/*","/exchange","/exchange/*","/store/ereview","/s

<ul><li>Lakukan Pencarian</li><ul>

In [13]:
# Import library yang dibutuhkan
from bs4 import BeautifulSoup

# Lakukan parsing terhadap content response
soup = BeautifulSoup(response.content, 'html.parser')

# Temukan semua konten sesuai kriteria
get_all = soup.find_all('div', {'jsname' : 'O2DNWb', 'class': 'fUEl2e'})

# Buat list kosong untuk menampung semua id
app_id = list()

# Proses pencarian id yang dimaksud
for item in get_all:
    app_link_elements = item.find_all('a', {'class': 'Si6A0c Gy4nib'})
    for link_element in app_link_elements:
        id_link = link_element['href'].replace('/store/apps/details?id=', '')
        app_id.append(id_link)

In [17]:
# Tampilkan hasil ekstraksi
print(f'ID Aplikasi yang berhasil di ekstrak sebanyak {len(app_id)} id yakni :\n{app_id}')

ID Aplikasi yang berhasil di ekstrak sebanyak 30 id yakni :
['com.rvappstudios.baby.toddler.kids.games.learning.activity', 'com.rvappstudios.kids.coloring.book.color.painting', 'com.budgestudios.googleplay.BlueyBLU', 'com.halfbrick.fruitninjafree', 'com.orange.kidspiano.music.songs', 'com.gameloft.android.ANMP.GloftDMHM', 'com.sinyee.babybus.world', 'org.pbskids.gamesapp', 'com.educational.baby.games', 'com.rvappstudios.abc_kids_toddler_tracing_phonics', 'com.rvappstudios.baby.games.piano.phone.kids', 'com.happytools.learning.kids.games', 'com.budgestudios.googleplay.PawPatrolRescueWorld', 'com.rvappstudios.toddler.preschool.kids.learning.games', 'com.rvappstudios.math.kids.counting', 'com.orange.coloring.learn.kids', 'com.tocaboca.tocakitchen2', 'com.sagosago.World.googleplay', 'com.paperboatapps.google.kiddopia', 'com.joongly.kids.learning.games', 'com.rvappstudios.jigsaw.puzzles.kids', 'com.peppapig.worldofpeppapig_g', 'es.monkimun.lingokids', 'com.amayasoft.cars.kids.racing.toddler

<a id="C.5."></a>
### <b>C.5. <span style='color:#8EAC50'>Let <code>google_play_scraper</code> cook!</span></b>

In [22]:
# Import library yang dibutuhkan
import pandas as pd

# Buat fungsi untuk mengkonversi hasil ke format dataframe pandas
def convert_result_to_dataframe(results):
    hasil = dict()
    for data in results:
        for key, value in data.items():
            if key not in hasil:
                hasil[key] = []
            hasil[key].append(value)

    hasil_akhir = pd.DataFrame(hasil)
    return(hasil_akhir)

In [24]:
# Import library yang dibutuhkan
from google_play_scraper import app, reviews_all

# Untuk keperluan praktis, akan dibatasi 5 aplikasi saja
banyak_app = 5

# Buat dataframe penampung
iterasi = 1
data_review_all = pd.DataFrame()

# Lakukan ekstraksi data pada playstore
for app_package in app_id[0:banyak_app]:
    # Mendapatkan nama aplikasi
    app_detail = app(app_package)
    print(f"Nama Aplikasi : {app_detail['title']}")

    # Proses mengambil semua review
    result = reviews_all(app_package)

    # Ubah hasilnya menjadi format dataframe
    data = convert_result_to_dataframe(result)
    data['app_name'] = app_detail['title'].upper()

    # Proses penggabungan data
    if(iterasi == 1):
        data_review_all = data
    else:
        data_review_all = pd.concat([data_review_all, data])

    iterasi += 1

Nama Aplikasi : Kids Games: For Toddlers 3-5
Nama Aplikasi : Coloring Games: Color & Paint
Nama Aplikasi : Bluey: Let's Play!
Nama Aplikasi : Fruit Ninja®
Nama Aplikasi : Piano Kids - Music & Songs


In [26]:
# Transformasi tipe data date
for col_date in ['at', 'repliedAt']:
    data_review_all[col_date] = pd.to_datetime(data_review_all[col_date], errors = 'coerce')

In [27]:
# Tampilkan hasilnya
display(data_review_all)

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion,app_name
0,61c7724b-0e21-4c99-8817-c4b47c10be3a,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,This game is very use full for children.it pro...,5,0,,2024-09-17 20:51:13,,NaT,,KIDS GAMES: FOR TODDLERS 3-5
1,f2c5db01-e9d6-4c15-9ad6-9245302402c6,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,Good,3,0,1.3.2,2024-09-17 20:20:13,,NaT,1.3.2,KIDS GAMES: FOR TODDLERS 3-5
2,aa74b168-753e-4e3c-9249-439066ee22f5,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,Goodddddddd the best apppp,5,0,1.3.2,2024-09-17 18:14:38,,NaT,1.3.2,KIDS GAMES: FOR TODDLERS 3-5
3,dd5008a4-8840-4513-b7a6-700c5df02cf8,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,"I love this kids game dahil, madaling matuto Y...",5,0,,2024-09-17 16:56:49,,NaT,,KIDS GAMES: FOR TODDLERS 3-5
4,ecc98b7e-4c2d-4f87-83bd-2f3a90975946,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,this game is super cool it helps my kid a lot,5,0,1.3.0,2024-09-17 15:38:58,,NaT,1.3.0,KIDS GAMES: FOR TODDLERS 3-5
...,...,...,...,...,...,...,...,...,...,...,...,...
49634,10286270-86f1-49c8-beaf-31e440b7291c,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,"Colourful, easy to use, includes all the favor...",4,13,1.10,2016-07-18 00:01:59,,NaT,1.10,PIANO KIDS - MUSIC & SONGS
49635,8e300a30-f38d-4741-809d-00709c276432,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,"Muy bueno, lastima que siendo Lara bebes the s...",4,1,1.10,2016-07-11 09:22:41,,NaT,1.10,PIANO KIDS - MUSIC & SONGS
49636,16c1e592-d0fe-4d95-ae9d-54a241d329ed,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,i like it and my baby like it too,4,1,1.9,2016-07-04 18:44:16,,NaT,1.9,PIANO KIDS - MUSIC & SONGS
49637,9d167e63-51d1-477a-9481-0b92f223f185,A Google user,https://play-lh.googleusercontent.com/EGemoI2N...,Fun,5,1,1.7,2016-06-22 22:40:34,,NaT,1.7,PIANO KIDS - MUSIC & SONGS


In [37]:
total_reviewer_per_appname_and_score = data_integrasi.groupby(['app_name', 'score'], as_index = False).agg(
    jumlah_reviewer = ('reviewId', 'count')
)

total_reviewer_per_appname = total_reviewer_per_appname_and_score.groupby('app_name')['jumlah_reviewer'].sum()
total_reviewer_per_appname_and_score['percentage'] = (total_reviewer_per_appname_and_score['jumlah_reviewer'] / total_reviewer_per_appname_and_score['app_name'].map(total_reviewer_per_appname)).round(4) * 100

total_reviewer_per_appname_and_score = total_reviewer_per_appname_and_score.sort_values(by = ['app_name', 'score'], ascending = [True, False], ignore_index = False)
total_reviewer_per_appname_and_score

Unnamed: 0,app_name,score,jumlah_reviewer,percentage
4,BLUEY: LET'S PLAY!,5,2703,43.03
3,BLUEY: LET'S PLAY!,4,339,5.4
2,BLUEY: LET'S PLAY!,3,425,6.77
1,BLUEY: LET'S PLAY!,2,554,8.82
0,BLUEY: LET'S PLAY!,1,2261,35.99
9,COLORING GAMES: COLOR & PAINT,5,7793,77.84
8,COLORING GAMES: COLOR & PAINT,4,710,7.09
7,COLORING GAMES: COLOR & PAINT,3,324,3.24
6,COLORING GAMES: COLOR & PAINT,2,198,1.98
5,COLORING GAMES: COLOR & PAINT,1,986,9.85


In [73]:
pivot_total_reviewer_per_appname = total_reviewer_per_appname_and_score.pivot_table(
    values = 'percentage',
    index = 'app_name',
    columns = ['score']
)

pivot_total_reviewer_per_appname = pivot_total_reviewer_per_appname.sort_values(by = [5], ascending = True)
pivot_total_reviewer_per_appname = pivot_total_reviewer_per_appname.drop(columns = 0)
display(pivot_total_reviewer_per_appname)

score,1,2,3,4,5
app_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BLUEY: LET'S PLAY!,35.99,8.82,6.77,5.4,43.03
FRUIT NINJA®,8.63,2.68,5.6,11.34,71.75
PIANO KIDS - MUSIC & SONGS,7.38,2.07,3.7,9.58,77.27
COLORING GAMES: COLOR & PAINT,9.85,1.98,3.24,7.09,77.84
KIDS GAMES: FOR TODDLERS 3-5,5.85,1.59,4.33,7.26,80.97


In [87]:
import plotly.graph_objects as go

top_labels = pivot_total_reviewer_per_appname.columns.tolist()
x_data = pivot_total_reviewer_per_appname.values.tolist()
y_data = pivot_total_reviewer_per_appname.index.tolist()
colors = [ 
    'rgba(190, 192, 213, 1)',
    'rgba(164, 163, 204, 0.85)',
    'rgba(122, 120, 168, 0.8)', 
    'rgba(71, 58, 131, 0.8)',
    'rgba(38, 24, 74, 0.8)'
]


fig = go.Figure()

for i in range(0, len(x_data[0])):
    for xd, yd in zip(x_data, y_data):
        fig.add_trace(go.Bar(
            x=[xd[i]], y=[yd],
            orientation='h',
            marker=dict(
                color=colors[i],
                line=dict(color='rgb(248, 248, 249)', width=1)
            )
        ))

fig.update_layout(
    height = 500,
    width = 900,
    title = dict(
        text = '''
        <b><span style="color:#26184A"><i><b>Rating Score</b></i></span> tiap Aplikasi Edukasi Anak</b><br><sup><sup>di Google Play Store (dengan skala Likert)<sup><sup>
        ''',
        font = dict(
            family = 'sans serif',
            size = 30,
            color = '#00917C'
        ),
        y = 0.9,
        x = 0.5 #0.025
    ),
    xaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
        domain=[0.02, 1]
    ),
    yaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
    ),
    barmode='stack',
    paper_bgcolor='rgb(248, 248, 255)',
    plot_bgcolor='rgb(248, 248, 255)',
    margin=dict(l=210, r=10, t=140, b=40),
    showlegend=False,
)

# Atur posisi label
fig.update_traces(
    hovertemplate='<b>%{label} Class</b><br>%{value}%'
)

annotations = []

for yd, xd in zip(y_data, x_data):
    # Memberi label pada y-axis diawal
    annotations.append(dict(xref='paper', yref='y',
                            x=0.018, y=yd,
                            xanchor='right',
                            text=str(yd),
                            font=dict(family='Arial', size=12,
                                      color='rgb(67, 67, 67)'),
                            showarrow=False, align='right'))
    # Memberi label pada setiap percentage setiap bar pada x-axis diawal
    annotations.append(dict(xref='x', yref='y',
                            x=xd[0] / 2, y=yd,
                            text=f'{xd[i]:.2f} %',
                            font=dict(family='Arial', size=10,
                                      color='rgb(248, 248, 255)'),
                            showarrow=False))
    # Memberi label pada skala Likert (bagian atas) diawal
    if yd == y_data[-1]:
        annotations.append(dict(xref='x', yref='paper',
                                x=xd[0] / 2, y=1.05,
                                text=top_labels[0],
                                font=dict(family='Arial', size=14,
                                          color='rgb(67, 67, 67)'),
                                showarrow=False))
    space = xd[0]
    for i in range(1, len(xd)):
            # Memberi label pada setiap percentage setiap bar pada x-axis
            annotations.append(dict(xref='x', yref='y',
                                    x=space + (xd[i]/2), y=yd,
                                    text=f'{xd[i]:.2f} %',
                                    font=dict(family='Arial', size=10,
                                              color='rgb(248, 248, 255)'),
                                    showarrow=False))
            # Memberi label pada skala Likert (bagian atas)
            if yd == y_data[-1]:
                annotations.append(dict(xref='x', yref='paper',
                                        x=space + (xd[i]/2), y=1.05,
                                        text=top_labels[i],
                                        font=dict(family='Arial', size=14,
                                                  color='rgb(67, 67, 67)'),
                                        showarrow=False))
            space += xd[i]

fig.update_layout(annotations=annotations)

fig.show()