# Pendahuluan

Pandemi COVID-19 telah mengubah kehidupan kita sehari-hari, mendorong banyak orang mencari hiburan melalui buku. Para startup di industri buku memanfaatkan peluang ini untuk mengembangkan aplikasi inovatif. Agar berhasil dalam bidang ini, kami akan menganalisis database untuk menginformasikan strategi penetapan harga dan pengembangan produk. Tugas kami mencakup mengidentifikasi rilis buku pasca tahun 2000, menganalisis ulasan dan penilaian pengguna, menentukan penerbit teratas, mengenali penulis terhormat, dan menilai durasi ulasan pengguna. Pendekatan berbasis data ini akan memandu kami dalam memenuhi tuntutan pembaca yang terus berubah di era COVID-19.



# Inisialisasi

In [1]:
# Impor library
import pandas as pd
from sqlalchemy import create_engine


In [2]:
# Menampilkan semua kolom
pd.set_option('display.max_columns', None)

pd.set_option('display.max_rows', 500)

# Lebar kolom max
pd.set_option('display.max_colwidth', None)


# Mengakses Database

In [3]:
db_config = {'user': 'practicum_student',                             # nama pengguna
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs',                       # kata sandi
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,                                            # port koneksi
             'db': 'data-analyst-final-project-db'}                   # nama database

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# Explore Table

In [4]:
query = """SELECT * FROM pg_catalog.pg_tables"""

In [5]:
df = pd.io.sql.read_sql(query, con = engine)

df[df['schemaname'] == 'public']

Unnamed: 0,schemaname,tablename,tableowner,tablespace,hasindexes,hasrules,hastriggers,rowsecurity
66,public,author,praktikum_student,,True,False,False,False
67,public,second,praktikum_student,,False,False,False,False
68,public,second_b,praktikum_student,,False,False,False,False
69,public,advertisment_costs,praktikum_admin,,True,False,False,False
70,public,authors,praktikum_admin,,True,False,True,False
71,public,books,praktikum_admin,,True,False,True,False
72,public,orders,praktikum_admin,,True,False,False,False
73,public,publishers,praktikum_admin,,True,False,True,False
74,public,ratings,praktikum_admin,,True,False,True,False
75,public,reviews,praktikum_admin,,True,False,True,False


Terdapat 11 'tablename' pada 'schemaname' public. Pada penelitian ini 'tablename' yang digunakan adalah books, authors, publishers, ratings dan reviews.

## public.books

In [6]:
query = """
SELECT * 
FROM public.books
LIMIT 5
"""

In [7]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Informasi yang terdapat pada data public.books :**
- `book_id` — ID buku
- `author_id` — ID penulis
- `title` — judul buku
- `num_pages` — jumlah halaman
- `publication_date` — tanggal penerbitan
- `publisher_id` — ID penerbit

## public.authors

In [8]:
query = """
SELECT * 
FROM public.authors
LIMIT 5
"""

In [9]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Informasi yang terdapat pada data public.authors :**
- `author_id` — ID penulis
- `author` — nama penulis

## public.publishers

In [10]:
query = """
SELECT * 
FROM public.publishers
LIMIT 5
"""

In [11]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Informasi yang terdapat pada data public.publishers :**
- `publisher_id` — ID penerbit
- `publisher` — nama penerbit

## public.ratings

In [12]:
query = """
SELECT * 
FROM public.ratings
LIMIT 5
"""

In [13]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Informasi yang terdapat pada data public.publishers :**
- `rating_id` — ID rating
- `book_id` — ID buku
- `username` — nama pengguna yang memberi rating buku
- `rating` — nilai rating yang diberikan max 5

## public.reviews

In [14]:
query = """
SELECT * 
FROM public.reviews
LIMIT 5
"""

In [15]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.


**Informasi yang terdapat pada data public.reviews :**
- `review_id` — ID ulasan
- `book_id` — ID buku
- `username` — nama pengguna yang mengulas buku
- `text` — teks ulasan

## Kesimpulan

Terdapat 5 data yang akan digunakan pada penelitian ini dari 'schemaname' public :

1. **Informasi yang terdapat pada data public.books :**
- `book_id` — ID buku
- `author_id` — ID penulis
- `title` — judul buku
- `num_pages` — jumlah halaman
- `publication_date` — tanggal penerbitan
- `publisher_id` — ID penerbit

2. **Informasi yang terdapat pada data public.authors :**
- `author_id` — ID penulis
- `author` — nama penulis

3. **Informasi yang terdapat pada data public.publishers :**
- `publisher_id` — ID penerbit
- `publisher` — nama penerbit

4. **Informasi yang terdapat pada data public.publishers :**
- `rating_id` — ID rating
- `book_id` — ID buku
- `username` — nama pengguna yang memberi rating buku
- `rating` — nilai rating yang diberikan max 5

5. **Informasi yang terdapat pada data public.reviews :**
- `review_id` — ID ulasan
- `book_id` — ID buku
- `username` — nama pengguna yang mengulas buku
- `text` — teks ulasan

# Jumlah buku yang dirilis setelah tanggal 1 Januari 2000.

In [16]:
query = """
SELECT COUNT(*) AS n_books
FROM public.books
WHERE publication_date > '2000-01-01'
"""

In [17]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,n_books
0,819


Jumlah buku yang dirilis setelah tanggal 1 Januari 2000 adalah 819.

# Jumlah ulasan pengguna dan rating rata-rata untuk setiap buku.

In [33]:
query = """
SELECT books.title,
COUNT(DISTINCT(reviews.text)) AS n_reviews,
AVG(ratings.rating) AS avg_rating
FROM public.books
JOIN public.reviews on reviews.book_id = books.book_id
JOIN public.ratings on ratings.book_id = books.book_id
GROUP BY books.title
ORDER BY n_reviews DESC
"""

In [34]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,title,n_reviews,avg_rating
0,Memoirs of a Geisha,8,4.138462
1,Twilight (Twilight #1),7,3.662500
2,The Da Vinci Code (Robert Langdon #2),6,3.830508
3,The Road,6,3.772727
4,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),6,4.414634
...,...,...,...
988,Naked Empire (Sword of Truth #8),1,3.500000
989,Moo Baa La La La!,1,3.000000
990,Merrick (The Vampire Chronicles #7),1,4.000000
991,Babyville,1,3.500000


Terdapat 993 buku yang diulas oleh pengguna.

# Identifikasi penerbit yang telah menerbitkan jumlah buku terbanyak, dengan jumlah halaman lebih dari 50 

In [20]:
query = """
SELECT publishers.publisher,
SUM(books.num_pages) AS total_pages,
COUNT(books.title) AS n_books
FROM public.publishers
JOIN public.books ON publishers.publisher_id = books.publisher_id
GROUP BY books.publisher_id,
publishers.publisher_id
HAVING SUM(books.num_pages) > 50
ORDER BY COUNT(DISTINCT(books.title)) DESC
"""

In [21]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,total_pages,n_books
0,Penguin Books,15961,42
1,Vintage,10895,31
2,Grand Central Publishing,10631,25
3,Penguin Classics,12247,24
4,Bantam,8159,19
5,Ballantine Books,9495,19
6,Berkley,6623,17
7,Berkley Books,6832,14
8,St. Martin's Press,4112,14
9,HarperCollins,4032,13


Terdapat 333 penerbit yang menerbitkan dengan total jumlah halaman lebih dari 50. Penguin Books menduduki peringkat pertama dengan jumlah buku terbanyak yang dirilis (42).

# Identifikasi penulis dengan rating rata-rata buku tertinggi: temukan buku dengan rating minimal 50.

In [22]:
query = """
SELECT authors.author,
AVG(ratings.rating) AS avg_rating,
COUNT(ratings.rating) AS n_rating
FROM public.authors
JOIN public.books ON books.author_id = authors.author_id
JOIN public.ratings ON ratings.book_id = books.book_id
GROUP BY authors.author
HAVING COUNT(ratings.rating) > 50
ORDER BY COUNT(ratings.rating) DESC
"""

In [23]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating,n_rating
0,J.K. Rowling/Mary GrandPré,4.288462,312
1,J.R.R. Tolkien,4.240964,166
2,Stephenie Meyer,3.6625,160
3,Dan Brown,3.741259,143
4,Nicholas Sparks,3.882883,111
5,Stephen King,4.009434,106
6,J.D. Salinger,3.846939,98
7,Rick Riordan,4.130952,84
8,Jodi Picoult,3.881579,76
9,George Orwell/Boris Grabnar/Peter Škerl,3.72973,74


Terdapat 22 penulis dengan jumlah rating yang diberikan pengguna diatas 50. 'J.K. Rowling/Mary GrandPré' menduduki posisi pertama dengan 312 jumlah rating yang diberikan.

# Jumlah rata-rata teks ulasan di antara pengguna yang memberi rating terhadap lebih dari 50 buku.

In [24]:
query = """
SELECT AVG(review_counts.avg_reviews) AS avg_n_reviews
FROM ( SELECT reviews.username, 
       COUNT(DISTINCT reviews.review_id) AS avg_reviews
       FROM public.reviews
       WHERE reviews.username IN (
          SELECT ratings.username
          FROM public.ratings
          GROUP BY ratings.username
          HAVING COUNT(DISTINCT ratings.book_id) > 50 )
       GROUP BY reviews.username )
    AS review_counts
"""

In [25]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_n_reviews
0,24.333333


Rata-rata jumlah ulasan teks yang diberikan oleh pengguna yang memberikan rating kepada lebih dari 50 buku adalah 24,33 ulasan.

# Kesimpulan

Terdapat 5 data yang akan digunakan pada penelitian ini dari 'schemaname' public :

1. **Informasi yang terdapat pada data public.books :**
- `book_id` — ID buku
- `author_id` — ID penulis
- `title` — judul buku
- `num_pages` — jumlah halaman
- `publication_date` — tanggal penerbitan
- `publisher_id` — ID penerbit

2. **Informasi yang terdapat pada data public.authors :**
- `author_id` — ID penulis
- `author` — nama penulis

3. **Informasi yang terdapat pada data public.publishers :**
- `publisher_id` — ID penerbit
- `publisher` — nama penerbit

4. **Informasi yang terdapat pada data public.publishers :**
- `rating_id` — ID rating
- `book_id` — ID buku
- `username` — nama pengguna yang memberi rating buku
- `rating` — nilai rating yang diberikan max 5

5. **Informasi yang terdapat pada data public.reviews :**
- `review_id` — ID ulasan
- `book_id` — ID buku
- `username` — nama pengguna yang mengulas buku
- `text` — teks ulasan

**Hasil dari penelitian ini adalah :**

1. Jumlah buku yang dirilis setelah tanggal 1 Januari 2000 adalah 819.

2. Terdapat 993 buku yang diulas oleh pengguna.

3. Terdapat 333 penerbit yang menerbitkan buku dengan total jumlah halaman lebih dari 50. Penguin Books menduduki peringkat pertama dengan jumlah buku terbanyak yang dirilis (42).

4. Terdapat 22 penulis dengan jumlah rating yang diberikan pengguna diatas 50. 'J.K. Rowling/Mary GrandPré' menduduki posisi pertama dengan 312 jumlah rating yang diberikan.

5. Rata-rata jumlah ulasan teks yang diberikan oleh pengguna yang memberikan rating kepada lebih dari 50 buku adalah 24,33 ulasan.