# Daftar Isi

- [Daftar Isi](#daftar_isi)
- [Pendahuluan](#pendahuluan)
- [Pengantar Proyek](#pengantar_proyek)
- [Tujuan Proyek](#tujuan_proyek)
- [Tahapan Proyek](#tahapan_proyek)
- [Memuat seluruh Library dan Membaca filenya](#1)
    - [Memuat seluruh Library](#11)
    - [Memuat seluruh data untuk masing-masing tabel dan membaca serta menganalisanya](#12)
        - [Tabel Books](#121)
        - [Tabel Authors](#122)
        - [Tabel Publishers](#123)
        - [Tabel Ratings](#124)
        - [Tabel Reviews](#125)
- [Analisis Data Eksplorasi (EDA)](#2)
    - [Menghitung jumlah buku yang dirilis setelah tanggal tertentu](#21)
    - [Menghitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku](#22)
    - [Penerbit yang telah menerbitkan buku terbanyak lebih dari 50 halaman](#23)
    - [Menentukan penulis dengan rata-rata rating buku tertinggi dengan rating minimal 50](#24)
    - [Menghitung jumlah rata-rata teks ulasan](#25)
- [Kesimpulan](#3)
- [Rekomendasi](#4)

# Pendahuluan

Setiap kali kita melakukan penelitian, kita memerlukan analisa secara menyeluruh dengan seksama. Untuk membuat keputusan yang tepat, sebuah bisnis harus dapat memahami apakah analisa yang dibuatnya benar atau tidak.

Proyek ini menganalisa berbagai tabel seperti tabel buku, tabel pengarang, tabel penerbit, tabel rating, dan tabel review untuk membuat penawaran harga untuk sebuah produk baru.

# Pengantar Proyek

Virus corona yang kehadirannya mengejutkan seluruh dunia telah mengubah rutinitas harian semua orang. Kini warga kota tidak lagi menghabiskan waktu luangnya di luar rumah seperti pergi ke kafe dan mal. Mereka lebih sering berada di rumah, menghabiskan waktunya dengan membaca buku. Hal ini pun mendorong perusahaan startup untuk mengembangkan aplikasi baru bagi para pecinta buku.

Anda telah diberi sebuah database dari salah satu perusahaan yang bersaing dalam industri ini. Database tersebut berisi data tentang buku, penerbit, penulis, serta rating dan ulasan pelanggan atas buku terkait. Informasi ini akan digunakan dalam membuat penawaran harga untuk sebuah produk baru.

# Tujuan Proyek

Menggali informasi yang akan digunakan dalam membuat penawaran harga untuk sebuah produk baru dan membuat profit untuk startup yang dibidang buku.

# Tahapan Proyek

Mempelajari isi dari beberapa tabel:

Tabel `books`: Berisi data tentang buku

- `book_id` — ID buku
- `author_id` — ID penulis
- `title` — judul buku
- `num_pages` — jumlah halaman
- `publication_date` — tanggal penerbitan
- `publisher_id` — ID penerbit

Tabel `authors`: Berisi data tentang penulis

- `author_id` — ID penulis
- `author` — nama penulis

Tabel `publishers`: Berisi data tentang penerbit

- `publisher_id` — ID penerbit
- `publisher` — nama penerbit

Tabel `ratings`: Berisi data tentang rating pengguna

- `rating_id` — ID rating
- `book_id` — ID buku
- `username` — nama pengguna yang memberi rating buku
- `rating` — penilaian terhadap buku 

Tabel `reviews`: Berisi data tentang ulasan pelanggan

- `review_id` — ID ulasan
- `book_id` — ID buku
- `username` — nama pengguna yang mengulas buku
- `text` — teks ulasan

Setelah mempelajari tabelnya, akan melakukan Analisis Data Eksplorasi dengan metode SQL, adapun analisisnya, yaitu:

- Hitung jumlah buku yang dirilis setelah tanggal 1 Januari 2000.
- Hitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku.
- Tentukan penerbit yang telah menerbitkan buku terbanyak dengan jumlah lebih dari 50 halaman.
- Tentukan penulis dengan rating rata-rata buku tertinggi: temukan buku dengan rating minimal 50.
- Hitung jumlah rata-rata teks ulasan di antara pengguna yang memberi rating lebih dari 50 buku.

Setelah proses Analisis Data Eksplorasi dengan metode SQL, akan melakukan langkah terakhir, yaitu:

- Kesimpulan
- Rekomendasi

## Memuat seluruh Library dan Membaca filenya

### Memuat seluruh Library

Sebelum memulai analisa, diperlukan library yang hanya dibutuhkan untuk analisa kali ini.

In [None]:
# impor library yang diperlukan
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'practicum_student',         # nama pengguna
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs', # kata sandi
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # port koneksi
             'db': 'data-analyst-final-project-db'}          # nama database

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                                     db_config['pwd'],
                                                                       db_config['host'],
                                                                       db_config['port'],
                                                                       db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [None]:
# Menyembunyikan warning
import warnings
# Membuat set kolom untuk kolom bisa dibaca jika panjang
pd.set_option('display.max_columns', 100)
# Membuat warning untuk di abaikan dan disembunyikan
warnings.filterwarnings('ignore')

### Memuat seluruh data untuk masing-masing tabel dan membaca serta menganalisanya.

#### Tabel Books

In [None]:
# Memuat file tabel books (df_books)
df_books = ''' 
SELECT 
    * 
FROM 
    books;
'''

# Melihat tabel books (df_books)
pd.io.sql.read_sql(df_books, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


**Deskripsi Data**

Tabel books: Berisi data tentang buku

- `book_id` — ID buku
- `author_id` — ID penulis
- `title` — judul buku
- `num_pages` — jumlah halaman
- `publication_date` — tanggal penerbitan
- `publisher_id` — ID penerbit

In [None]:
# Melihat informasi keseluruhan pada tabel books (df_books)
pd.io.sql.read_sql(df_books, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [None]:
# Melihat nilai yang hilang pada tabel books (df_books)
pd.io.sql.read_sql(df_books, con = engine).isna().sum()

book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64

In [None]:
# Melihat nilai yang duplikasi pada tabel books (df_books)
pd.io.sql.read_sql(df_books, con = engine).duplicated().sum()

0

Setelah melihat dan menganalisa tabel books, maka didapatkan beberapa kesimpulan untuk tabel ini, yaitu:

- Tidak mempunyai masalah untuk nilai yang hilang
- Tidak mempunyai masalah untuk nilai yang duplikasi
- Tidak mempunyai masalah untuk nama kolomnya
- Tidak mempunyai masalah untuk tipe datanya

#### Tabel Authors

In [None]:
# Memuat file tabel authors (df_authors)
df_authors = ''' 
SELECT 
    * 
FROM 
    authors;
'''

# Melihat tabel authors (df_authors)
pd.io.sql.read_sql(df_authors, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


**Deskripsi Data**

Tabel authors: Berisi data tentang penulis

- `author_id` — ID penulis
- `author` — nama penulis

In [None]:
# Melihat informasi keseluruhan pada tabel authors (df_authors)
pd.io.sql.read_sql(df_authors, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [None]:
# Melihat nilai yang hilang pada tabel authors (df_authors)
pd.io.sql.read_sql(df_authors, con = engine).isna().sum()

author_id    0
author       0
dtype: int64

In [None]:
# Melihat nilai yang duplikasi pada tabel authors (df_authors)
pd.io.sql.read_sql(df_authors, con = engine).duplicated().sum()

0

Setelah melihat dan menganalisa tabel authors, maka didapatkan beberapa kesimpulan untuk tabel ini, yaitu:

- Tidak mempunyai masalah untuk nilai yang hilang
- Tidak mempunyai masalah untuk nilai yang duplikasi
- Tidak mempunyai masalah untuk nama kolomnya
- Tidak mempunyai masalah untuk tipe datanya

#### Tabel Publishers

In [None]:
# Memuat file tabel publishers (df_publishers)
df_publishers = ''' 
SELECT 
    * 
FROM 
    publishers;
'''

# Melihat tabel publishers (df_publishers)
pd.io.sql.read_sql(df_publishers, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


**Deskripsi Data**

Tabel publishers: Berisi data tentang penerbit

- `publisher_id` — ID penerbit
- `publisher` — nama penerbit

In [None]:
# Melihat informasi keseluruhan pada tabel publishers (df_publishers)
pd.io.sql.read_sql(df_publishers, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [None]:
# Melihat nilai yang hilang pada tabel publishers (df_publishers)
pd.io.sql.read_sql(df_publishers, con = engine).isna().sum()

publisher_id    0
publisher       0
dtype: int64

In [None]:
# Melihat nilai yang duplikasi pada tabel publishers (df_publishers)
pd.io.sql.read_sql(df_publishers, con = engine).duplicated().sum()

0

Setelah melihat dan menganalisa tabel publishers, maka didapatkan beberapa kesimpulan untuk tabel ini, yaitu:

- Tidak mempunyai masalah untuk nilai yang hilang
- Tidak mempunyai masalah untuk nilai yang duplikasi
- Tidak mempunyai masalah untuk nama kolomnya
- Tidak mempunyai masalah untuk tipe datanya

#### Tabel Ratings

In [None]:
# Memuat file tabel ratings (df_ratings)
df_ratings = ''' 
SELECT 
    * 
FROM 
    ratings;
'''

# Melihat tabel ratings (df_ratings)
pd.io.sql.read_sql(df_ratings, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


**Deskripsi Data**

Tabel ratings: Berisi data tentang rating pengguna

- `rating_id` — ID rating
- `book_id` — ID buku
- `username` — nama pengguna yang memberi rating buku
- `rating` — penilaian terhadap buku 

In [None]:
# Melihat informasi keseluruhan pada tabel ratings (df_ratings)
pd.io.sql.read_sql(df_ratings, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [None]:
# Melihat nilai yang hilang pada tabel ratings (df_ratings)
pd.io.sql.read_sql(df_ratings, con = engine).isna().sum()

rating_id    0
book_id      0
username     0
rating       0
dtype: int64

In [None]:
# Melihat nilai yang duplikasi pada tabel ratings (df_ratings)
pd.io.sql.read_sql(df_ratings, con = engine).duplicated().sum()

0

Setelah melihat dan menganalisa tabel ratings, maka didapatkan beberapa kesimpulan untuk tabel ini, yaitu:

- Tidak mempunyai masalah untuk nilai yang hilang
- Tidak mempunyai masalah untuk nilai yang duplikasi
- Tidak mempunyai masalah untuk nama kolomnya
- Tidak mempunyai masalah untuk tipe datanya

#### Tabel Reviews

In [None]:
# Memuat file tabel reviews (df_reviews)
df_reviews = ''' 
SELECT 
    * 
FROM 
    reviews;
'''

# Melihat tabel reviews (df_reviews)
pd.io.sql.read_sql(df_reviews, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


**Deskripsi Data**

Tabel reviews: Berisi data tentang ulasan pelanggan

- `review_id` — ID ulasan
- `book_id` — ID buku
- `username` — nama pengguna yang mengulas buku
- `text` — teks ulasan

In [None]:
# Melihat informasi keseluruhan pada tabel reviews (df_reviews)
pd.io.sql.read_sql(df_reviews, con = engine).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


In [None]:
# Melihat nilai yang hilang pada tabel reviews (df_reviews)
pd.io.sql.read_sql(df_reviews, con = engine).isna().sum()

review_id    0
book_id      0
username     0
text         0
dtype: int64

In [None]:
# Melihat nilai yang duplikasi pada tabel reviews (df_reviews)
pd.io.sql.read_sql(df_reviews, con = engine).duplicated().sum()

0

Setelah melihat dan menganalisa tabel reviews, maka didapatkan beberapa kesimpulan untuk tabel ini, yaitu:

- Tidak mempunyai masalah untuk nilai yang hilang
- Tidak mempunyai masalah untuk nilai yang duplikasi
- Tidak mempunyai masalah untuk nama kolomnya
- Tidak mempunyai masalah untuk tipe datanya

Semua tabel sudah dianalisa dan dipelajari, semua tabel aman dari masalah-masalah seperti nilai hilang, duplikasi, nama kolom, dan tipe datanya. Untuk tanggal tidak perlu untuk mengubah tipe datanya, karena SQL punya library sendiri untuk mengidentifikasi tipe data tersebut saat proses analisa data eksplorasi berlangsung.

## Analisis Data Eksplorasi (EDA)

Adapun beberapa tugas yang diberikan untuk diselesaikan, yaitu:

- Hitung jumlah buku yang dirilis setelah tanggal 1 Januari 2000.
- Hitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku.
- Tentukan penerbit yang telah menerbitkan buku terbanyak dengan jumlah lebih dari 50 halaman (hal ini akan membantu Anda dalam mengecualikan brosur dan publikasi serupa dari analisis Anda).
- Tentukan penulis dengan rating rata-rata buku tertinggi: temukan buku dengan rating minimal 50.
- Hitung jumlah rata-rata teks ulasan di antara pengguna yang memberi rating lebih dari 50 buku.

Adapun beberapa intruksi untuk menyelsaikan tugas agar tidak ada kekurangan saat proses analisis data eksplorasi, yaitu:

- Jelaskan tujuan dari studi yang Anda lakukan.
- Pelajari tabelnya (tampilkan baris-baris pertamanya).
- Buatlah kueri SQL untuk setiap tugas Anda.
- Tampilkan hasil dari setiap kueri tersebut pada Notebook.
- Jelaskan kesimpulan Anda untuk setiap tugas.

### Menghitung jumlah buku yang dirilis setelah tanggal tertentu

- Hitung jumlah buku yang dirilis setelah tanggal 1 Januari 2000.

In [None]:
# Menghitung jumlah buku yang dirilis setelah 1 januri 2000 (2000-1-1)
books_counts = '''
SELECT
    COUNT(*) AS books_counts
FROM
    books
WHERE
    publication_date::date > '2000-1-1;'
'''
# Menampilkan hasil querynya
pd.io.sql.read_sql(books_counts, con = engine)

Unnamed: 0,books_counts
0,819


Bahwa jumlah buku yang dirilis setelah tanggal 1 Januri 2000 berjumlah 819 buku.

### Menghitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku

- Hitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku.

Metode untuk menghitung ulasan dan rata-rata untuk setiap buku akan menggunakan `LEFT JOIN` untuk mendeteksi kemungkinan ada buku yang tidak mempunyai ulasan atau buku yang tidak mempunyai rating. Karena kalau `INNER JOIN` tidak akan mendeteksi kedua hal tersebut.

In [None]:
# Menghitung jumlah ulasan pengguna dan rating rata-rata untuk setiap buku untuk 5 teratas
# berdasarkan jumlah ulasan pengguna
reviews_ratings = '''
SELECT
    books.book_id AS book_id,
    books.title AS book_title,
    COUNT(DISTINCT reviews.review_id) AS review_counts,
    AVG(ratings.rating) AS avg_ratings
FROM
    books
    LEFT JOIN reviews ON reviews.book_id = books.book_id
    LEFT JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    books.book_id
ORDER BY
    review_counts DESC
'''
# Menampilkan hasil querynya
pd.io.sql.read_sql(reviews_ratings, con = engine)

Unnamed: 0,book_id,book_title,review_counts,avg_ratings
0,948,Twilight (Twilight #1),7,3.662500
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,808,The Natural Way to Draw,0,3.000000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,221,Essential Tales and Poems,0,4.000000


Setelah melihat hasilnya, dapat disimpulkan berdasarkan 5 teratas dan 5 terbawah untuk jumlah ulasan dan rata-rata ratingnya.

Untuk 5 teratas jumlah ulasan dan rata-rata rating untuk setiap buku, yaitu:

- `Twilight` dengan total ulasan 7 dan rata-rata nilai rating adalah 3.66
- `Water for Elephants` dengan total ulasan 6 dan rata-rata nilai rating adalah 3.97
- `The Glass Castle` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.20
- `Harry Potter and the Prisoner of Azkaban` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.14
- `The Curious Incident of the Dog in the Night-Time` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.08


Untuk 5 terbawah jumlah ulasan dan rata-rata rating untuk setiap buku, yaitu:

- `Anne Rice's The Vampire Lestat: A Graphic Novel` dengan total ulasan 0 dan rata-rata nilai rating adalah 3.66
- `The Natural Way to Draw` dengan total ulasan 0 dan rata-rata nilai rating adalah 3
- `The Cat in the Hat and Other Dr. Seuss Favorites` dengan total ulasan 0 dan rata-rata nilai rating adalah 5
- `Essential Tales and Poems` dengan total ulasan 0 dan rata-rata nilai rating adalah 4
- `Disney's Beauty and the Beast` dengan total ulasan 0 dan rata-rata nilai rating adalah 4

### Penerbit yang telah menerbitkan buku terbanyak lebih dari 50 halaman

- Tentukan penerbit yang telah menerbitkan buku terbanyak dengan jumlah lebih dari 50 halaman (hal ini akan membantu Anda dalam mengecualikan brosur dan publikasi serupa dari analisis Anda).

In [None]:
# Menghitung untuk penerbit yang menerbitkan buku terbanyak dengan jumlah 
# lebih dari 50 halaman
fifty_pages = '''
SELECT
    publishers.publisher_id AS publisher_id,
    publishers.publisher AS publisher,
    COUNT(books.book_id) AS total_books_published
FROM
    books
    LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    publishers.publisher_id, publishers.publisher
ORDER BY
    total_books_published DESC
LIMIT 5;
''' 
# Menampilkan hasil querynya
pd.io.sql.read_sql(fifty_pages, con = engine)

Unnamed: 0,publisher_id,publisher,total_books_published
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,35,Bantam,19


Kesimpulan setelah melihat hasilnya untuk penerbit yang menerbitkan total buku dengan halaman diatas 50, yaitu:

- Publisher/Penerbit `Penguin Book` dengan total 42 buku
- Publisher/Penerbit `Vintage` dengan total 31 buku
- Publisher/Penerbit `Grand Central Publishing` dengan total 25 buku
- Publisher/Penerbit `Penguin Classics` dengan total 24 buku
- Publisher/Penerbit `Bantam` dengan total 19 buku

### Menentukan penulis dengan rata-rata rating buku tertinggi dengan rating minimal 50

- Tentukan penulis dengan rating rata-rata buku tertinggi: temukan buku dengan rating minimal 50.

In [None]:
# Berapa banyak penulis yang mempunyai rata-rata rating buku tertinggi 
# dengan syarat ratingnya mempunyai nilai minimal 50

top_author_with_min_rating_fifty1 = '''
WITH rating_min_50 AS (
    SELECT
        book_id,
        COUNT(ratings.rating) AS rating_counts
    FROM
        ratings
    GROUP BY
        book_id
    HAVING
        COUNT(ratings.rating) >= 50
),
main AS (
    SELECT
        authors.author_id AS author_id,
        authors.author AS author,
        books.title AS title,
        COUNT(ratings.rating) AS rating_counts,
        AVG(ratings.rating) AS avg_rating
    FROM
        books
        INNER JOIN authors ON authors.author_id = books.author_id
        INNER JOIN ratings ON ratings.book_id = books.book_id
        INNER JOIN rating_min_50 ON rating_min_50.book_id = books.book_id
    GROUP BY
        authors.author_id,
        authors.author,
        books.title,
        rating_counts
)
SELECT *
FROM main
ORDER BY
    avg_rating DESC
LIMIT 5;
'''
# Menampilkan hasil querynya
pd.io.sql.read_sql(top_author_with_min_rating_fifty1, con = engine)

Unnamed: 0,author_id,author,title,rating_counts,avg_rating
0,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Prisoner of Azkaban (Harr...,82,4.414634
1,240,J.R.R. Tolkien,The Fellowship of the Ring (The Lord of the Ri...,74,4.391892
2,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Chamber of Secrets (Harry...,80,4.2875
3,402,Markus Zusak/Cao Xuân Việt Khương,The Book Thief,53,4.264151
4,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Half-Blood Prince (Harry ...,73,4.246575


Kesimpulan setelah melihat hasilnya untuk 5 penulis teratas dengan rating rata-rata buku tertinggi yang bukunya mempunyai rating minimal 50, yaitu:

- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Prisoner of Azkaban` mempunyai total rating sebesar 82 rating dan rata-rata rating 4.41.
- Penulis `J.R.R. Tolkien` dengan judul buku `The Fellowship of the Ring` mempunyai total rating sebesar 74 rating dan rata-rata rating 4.39.
- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Chamber of Secrets` mempunyai total rating sebesar 80 rating dan rata-rata rating 4.28.
- Penulis `Markus Zusak/Cao Xuân Việt Khương` dengan judul buku `The Book Thief` mempunyai total rating sebesar 53 rating dan rata-rata rating 4.26.
- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Half-Blood Prince` mempunyai total rating sebesar 73 rating dan rata-rata rating 4.24.

Karena diatas juga berdasarkan judul buku membuat ada auhtor yang sama dengan judul buku berbeda, maka sekarang hanya mencari author yang berbeda dengan rata-rata rating tertinggi tanpa judul buku atau pernah mempunyai rata-rata rating tertinggi untuk salah satu karya bukunya.

In [None]:
# Berapa banyak penulis yang mempunyai rata-rata rating buku tertinggi untuk salah satu bukunya 
# dengan syarat ratingnya mempunyai nilai minimal 50

top_author_with_min_rating_fifty12 = '''
WITH rating_min_50 AS (
    SELECT
        book_id,
        COUNT(ratings.rating) AS rating_counts
    FROM
        ratings
    GROUP BY
        book_id
    HAVING
        COUNT(ratings.rating) >= 50
),
main AS (
    SELECT
        authors.author AS author,
        AVG(ratings.rating) AS avg_rating
    FROM
        books
        INNER JOIN authors ON authors.author_id = books.author_id
        INNER JOIN ratings ON ratings.book_id = books.book_id
        INNER JOIN rating_min_50 ON rating_min_50.book_id = books.book_id
    GROUP BY
        authors.author
)
SELECT *
FROM main
ORDER BY
    avg_rating DESC
LIMIT 5;
'''
# Menampilkan hasil querynya
pd.io.sql.read_sql(top_author_with_min_rating_fifty12, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.246914
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


Bahwa hanya berdasarkan rata-rata rating tertinggi, maka ada 5 auhtor buku yang berbeda yang mempunyai rata-rata rating tertinggi untuk salah satu karya bukunya, yaitu:

- Author `J.K. Rowling/Mary GrandPré` dengan rata-rata rating 4.28.
- Author `Markus Zusak/Cao Xuân Việt Khương` dengan rata-rata rating 4.26.
- Author `J.R.R. Tolkien` dengan rata-rata rating 4.24.
- Author `Louisa May Alcott` dengan rata-rata rating 4.19.
- Author `Rick Riordan` dengan rata-rata rating 4.08.

### Menghitung jumlah rata-rata teks ulasan

- Hitung jumlah rata-rata teks ulasan di antara pengguna yang memberi rating lebih dari 50 buku.

In [None]:
# Menghitung jumlah rata-rat teks ulasan di atnara pengguna
# yang memberi rating lebih dari 50 buku

avg_text = '''
WITH rating_min_50 AS (
    SELECT
        ratings.username AS username
    FROM
        ratings
    GROUP BY
        1
    HAVING
        COUNT(ratings.rating) > 50
)
, text AS (
    SELECT
        COUNT(reviews.text) AS avg_text
    FROM
        reviews
        INNER JOIN rating_min_50 ON rating_min_50.username = reviews.username
    GROUP BY
        reviews.username
)
SELECT 
    AVG(avg_text)
FROM
    text;
'''
# Menampilkan hasil querynya
pd.io.sql.read_sql(avg_text, con = engine)

Unnamed: 0,avg
0,24.333333


Bahwa ulasan yang diberikan para pengguna mempunyai rata-rata sebesar 24 teks.

## Kesimpulan

Bahwa jumlah buku yang dirilis setelah tanggal 1 Januri 2000 berjumlah 819 buku.
_____________________________________________
Untuk 5 teratas jumlah ulasan dan rata-rata rating untuk setiap buku, yaitu:

- `Twilight` dengan total ulasan 7 dan rata-rata nilai rating adalah 3.66
- `Water for Elephants` dengan total ulasan 6 dan rata-rata nilai rating adalah 3.97
- `The Glass Castle` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.20
- `Harry Potter and the Prisoner of Azkaban` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.14
- `The Curious Incident of the Dog in the Night-Time` dengan total ulasan 6 dan rata-rata nilai rating adalah 4.08


Untuk 5 terbawah jumlah ulasan dan rata-rata rating untuk setiap buku, yaitu:

- `Anne Rice's The Vampire Lestat: A Graphic Novel` dengan total ulasan 0 dan rata-rata nilai rating adalah 3.66
- `The Natural Way to Draw` dengan total ulasan 0 dan rata-rata nilai rating adalah 3
- `The Cat in the Hat and Other Dr. Seuss Favorites` dengan total ulasan 0 dan rata-rata nilai rating adalah 5
- `Essential Tales and Poems` dengan total ulasan 0 dan rata-rata nilai rating adalah 4
- `Disney's Beauty and the Beast` dengan total ulasan 0 dan rata-rata nilai rating adalah 4
_____________________________________________
Penerbit yang menerbitkan total buku dengan halaman diatas 50, yaitu:

- Publisher/Penerbit `Penguin Book` dengan total 42 buku
- Publisher/Penerbit `Vintage` dengan total 31 buku
- Publisher/Penerbit `Grand Central Publishing` dengan total 25 buku
- Publisher/Penerbit `Penguin Classics` dengan total 24 buku
- Publisher/Penerbit `Bantam` dengan total 19 buku
_____________________________________________
5 auhtor teratas dengan rating rata-rata buku tertinggi yang bukunya mempunyai rating minimal 50, yaitu:

- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Prisoner of Azkaban` mempunyai total rating sebesar 82 rating dan rata-rata rating 4.41.
- Penulis `J.R.R. Tolkien` dengan judul buku `The Fellowship of the Ring` mempunyai total rating sebesar 74 rating dan rata-rata rating 4.39.
- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Chamber of Secrets` mempunyai total rating sebesar 80 rating dan rata-rata rating 4.28.
- Penulis `Markus Zusak/Cao Xuân Việt Khương` dengan judul buku `The Book Thief` mempunyai total rating sebesar 53 rating dan rata-rata rating 4.26.
- Penulis `J.K. Rowling/Mary GrandPré` dengan judul buku `Harry Potter and the Half-Blood Prince` mempunyai total rating sebesar 73 rating dan rata-rata rating 4.24.
_____________________________________________
5 auhtor yang berbeda yang mempunyai rata-rata rating tertinggi untuk salah satu karya bukunya, yaitu:

- Author `J.K. Rowling/Mary GrandPré` dengan rata-rata rating 4.28.
- Author `Markus Zusak/Cao Xuân Việt Khương` dengan rata-rata rating 4.26.
- Author `J.R.R. Tolkien` dengan rata-rata rating 4.24.
- Author `Louisa May Alcott` dengan rata-rata rating 4.19.
- Author `Rick Riordan` dengan rata-rata rating 4.08.
_____________________________________________
Ulasan yang diberikan para pengguna mempunyai rata-rata sebesar 24 teks.

## Rekomendasi

Karena kehadiran Virus Corona yang membuat peminat untuk membaca buku sebagai kegiatan mengisi waktu, maka ada beberapa rekomendasi yang diberikan untuk membuka startup dibidang penjualan buku secara digital untuk memberikan penawaran harga kepada produk-produknya. 

- Carilah buku yang mempunyai ulasan yang banyak, artinya buku tersebut ramai dibicarakan dan karena ramai maka orang akan membelinya.
- Selain ulasan yang banyak, rating untuk buku-buku yang ditawarkan sebaiknya memenuhi minimum, kaerna kalau menjual buku yang ratingnya kecil kemungkinan besar tidak ada yang mau membelinya.
- Bekerja samalah dengan penerbit-penerbit yang kompoten. Selain mereka secara berkala menerbitkan buku, buku yang diterbitkan juga merupakan buku yang mempunyai potensi penjualan yang bagus sehingga akan menguntungkan kita sebagai startup.
- Sebaiknya halaman-halaman buku yang tawarkan diperhatikan, karena membuat pengguna akan menikmati isi buku seperti buku Harry Potter yang dimana setiap seriesnya layak untuk di tunggu oleh para pecintanya.
- Mempertimbangkan Author juga salah satu faktor untuk mempengaruhi penjualan.
- Sebaiknya mempunyai satu atau dua review yang dimana teksnya dapat dibaca tanpa kepanjangan sehingga mencegah pengguna tidak jadi membeli buku karena ingin melihat review terlebih dahulu sebelum membeli tetapi kepanjangan karena membaca reviewnya.

<div class="alert alert-block alert-warning">

# General comments #1
<b>Reviewer's comment</b> <a class="tocSkip"></a> 

Good Job Ariq! Sebagian besar kamu telah menyelesaikan project ini dengan baik namun masih ada beberapa hal yang bisa diimprove yang saya tandai dengan comment berwarna kuning dan merah. Jika kamu telah merevisinya, projectmu akan di approve dan kamu bisa lanjut ke tahapan selanjutnya!.
    
Keep going Ariq, you are doing very well!
    

</div>

<div class="alert alert-block alert-success">

# General comments #2
<b>Reviewer's comment</b> <a class="tocSkip"></a> 

Good Job Ariq! Revisi sudah sesuai ya!
    

</div>