# Analisa SQL

Virus corona yang kehadirannya mengejutkan seluruh dunia telah mengubah rutinitas harian semua orang. Kini, warga kota tidak lagi menghabiskan waktu luangnya di luar rumah seperti pergi ke kafe dan mal. Mereka lebih sering berada di rumah, menghabiskan waktunya dengan membaca buku. Hal ini pun mendorong perusahaan startup untuk mengembangkan aplikasi baru bagi para pecinta buku.

Anda telah diberi sebuah database dari salah satu perusahaan yang bersaing dalam industri ini. Database tersebut berisi data tentang buku, penerbit, penulis, serta rating dan ulasan pelanggan atas buku terkait. Informasi ini akan digunakan dalam membuat penawaran harga untuk sebuah produk baru.

**Deskripsi Data**

books (Berisi data tentang buku):
   - `book_id` — ID buku
   - `author_id` — ID penulis
   - `title` — judul buku
   - `num_pages` — jumlah halaman
   - `publication_date` — tanggal penerbitan
   - `publisher_id` — ID penerbit

authors (Berisi data tentang penulis):
   - `author_id` — ID penulis
   - `author` — nama penulis

publishers (Berisi data tentang penerbit):
   - `publisher_id` — ID penerbit
   - `publisher` — nama penerbit

ratings (Berisi data tentang ulasan pengguna):
   - `rating_id` — ID rating
   - `book_id` — ID buku
   - `username` — nama pengguna yang memberi rating buku
   - `rating` — rating dari pengguna

reviews (Berisi data tentang ulasan pelanggan):
   - `review_id` — ID ulasan
   - `book_id` — ID buku
   - `username` — nama pengguna yang mengulas buku
   - `text` — teks ulasan
   
<b>Objektif</b>:

- Menganalisa dataset ini untuk mendapatkan informasi yang akan digunakan dalam membuat penawaran harga untuk sebuah produk baru.

<b>Tahapan:</b><a id='back'></a>

1. [Ikhtisar Data](#Mulai)
2. [*Exploratory Data Analysis*](#EDA)
    - [Jumlah buku yang dirilis setelah tanggal 1 Januari 2000](#1)
    - [Jumlah ulasan pengguna dan rating rata-rata untuk setiap buku](#2)
    - [Penerbit yang telah menerbitkan jumlah buku terbanyak](#3)
    - [Penulis dengan rating rata-rata buku tertinggi](#4)
    - [Jumlah rata-rata teks ulasan di antara pengguna](#5)
3. [Kesimpulan Umum](#Kesimpulan)

In [3]:
# driver PostgreSQL yang digunakan oleh SQLAlchemy untuk terhubung ke database PostgreSQL
pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.6-cp39-cp39-win_amd64.whl (1.2 MB)
     ---------------------------------------- 1.2/1.2 MB 228.0 kB/s eta 0:00:00
Installing collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.6
Note: you may need to restart the kernel to use updated packages.


In [4]:
# impor library yang diperlukan
import pandas as pd
from sqlalchemy import create_engine

In [5]:
# Account
db_config = {'user': 'practicum_student',                         # nama pengguna
             'pwd': 's65BlTKV3faNIGhmvJVzOqhs',                   # kata sandi
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,                                        # port koneksi
             'db': 'data-analyst-final-project-db'}               # nama database


# Parameter
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

# Menghubungkan account dengan database dengan parameter connection_string
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [6]:
# Fungsi untuk melakukan query dengan SQL
'''
Definisi:
-----------
    # Fungsi untuk melakukan query dengan SQL
-----------
    query:
        query yang diinginkan menggunakan bahasa SQL
'''
def query_sql (query):
    return pd.io.sql.read_sql(query, con = engine)

## Ikhtisar Data<a id='Mulai'></a>

In [7]:
# Melihat dataset books dan menampilkan hasilnya
query_sql(
    '''
    SELECT
        *
    FROM
        books;
    '''
).head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [8]:
# Melihat dataset reviews dan menampilkan hasilnya
query_sql(
    '''
    SELECT
        *
    FROM
        reviews;
    '''
).head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [9]:
# Melihat dataset ratings dan menampilkan hasilnya
query_sql(
    '''
    SELECT
        *
    FROM
        ratings;
    '''
).head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [None]:
# Melihat dataset publishers dan menampilkan hasilnya
query_sql(
    '''
    SELECT 
        *
    FROM
        publishers;
    '''
).head()

In [None]:
# Melihat dataset authors dan menampilkan hasilnya
query_sql(
    '''
    SELECT 
        *
    FROM
        authors;
    '''
).head()

## *Exploratory Data Analysis*<a id='EDA'></a>

### Jumlah buku yang dirilis setelah tanggal 1 Januari 2000<a id='1'></a>

In [None]:
# Menghitung jumlah buku yang dirilis setelah tanggal yang ditentukan
query_sql(
    '''
    SELECT 
        COUNT(publication_date) as books_cnt
    FROM
        books
    WHERE
        publication_date > '2020-01-01';
    '''
).head()

In [10]:
# Memeriksa buku tersebut
query_sql(
    '''
    -- CTE(Common Table Expression)
    WITH table_2 AS(
        SELECT
            *
        FROM
            authors
    )
    
    -- Menggabungkan tabel
    SELECT 
        books.author_id,
        publication_date,
        author,
        title,
        num_pages
    FROM
        books LEFT JOIN table_2
        ON table_2.author_id = books.author_id
    WHERE
        publication_date > '2020-01-01';
    '''
).head()

Unnamed: 0,author_id,publication_date,author,title,num_pages
0,377,2020-03-31,Lynsay Sands,A Quick Bite (Argeneau #1),360


Hanya terdapat 1 buku yang dirilis setelah tanggal 1 Januari 2000, yakni:
- buku dari penulis Lynsay Sands dengan judul 'A Quick Bite (Argeneau #1)' yang mempunyai 360 halaman.

### Jumlah ulasan pengguna dan rating rata-rata untuk setiap buku<a id='2'></a>

In [None]:
# Menghitung jumlah ulasan dan rating rata-rata setiap buku
query_sql(
    '''
    -- CTE
    WITH table_reviews AS(
        SELECT
            book_id,
            review_id
        FROM
            reviews
    )
    
    -- Menggabungkan tabel
    SELECT
        ratings.book_id,
        ROUND(AVG(ratings.rating)::numeric, 2) AS rating_avg, -- Rata-rata rating setiap buku
        COUNT(table_reviews.review_id) as review_total -- Total review setiap buku
    FROM
        ratings LEFT JOIN table_reviews
        ON ratings.book_id = table_reviews.book_id
    GROUP BY
        ratings.book_id
    ORDER BY
        review_total DESC;
    '''
).head()

Jika diurutkan berdasarkan jumlah review yang diberikan pengguna pada setiap buku:
1. `books_id` 948 menerima review terbanyak dengan jumlah 1120 dan rata-rata reviewnya sebesar 3.66,
2. Diikuti oleh `books_id` 750 yang menerima review dengan jumlah 528 dan rata-rata reviewnya sebesar 4.13,
2. Diperingkat berikutnya ada `books_id` 673 yang menerima review dengan jumlah 516 dan rata-rata reviewnya sebesar 3.83

### Penerbit yang telah menerbitkan jumlah buku terbanyak<a id='3'></a>

Filter yang akan diterapkan adalah jumlah halaman lebih dari 50 sehingga dapat mengecualikan seperti brosur dan publikasi.

In [None]:
# Menghitung total buku yang dirilis oleh penerbit
query_sql(
    '''
    -- CTE
    WITH table_publisher AS(
        SELECT
            *
        FROM
            publishers
    )
    
    SELECT
        books.publisher_id,
        COUNT(books.book_id) AS books_cnt, -- Total buku yang dirilis
        table_publisher.publisher
    FROM
        books LEFT JOIN table_publisher
        ON books.publisher_id = table_publisher.publisher_id
    WHERE
        books.num_pages > 50
    GROUP BY
        books.publisher_id,
        table_publisher.publisher
    ORDER BY
        books_cnt DESC;
    '''
).head()

Penerbit:
1. Penguin Books menjadi yang terbanyak (42) dalam hal penerbitan buku,
2. Diikuti oleh penerbit Vintage, Grand Central Publishing, Penguin Classics, dan Ballantine Books secara berurutan.

### Penulis dengan rating rata-rata buku tertinggi<a id='4'></a>

Filter yang akan diterapkan adalah buku yang diberi rating lebih dari 50 kali.

In [11]:
# Menghitung rating yang diberikan pengguna pada setiap buku
query_sql(
    '''
    -- CTE
    WITH table_authors AS(
        SELECT
            *
        FROM
            authors
    ), table_books AS(
        SELECT
            book_id,
            author_id
        FROM
            books
    )
    
    -- Menggabungkan tabel
    SELECT
        ratings.book_id,
        COUNT(ratings.username) AS rating_cnt,
        table_authors.author_id,
        table_authors.author
    FROM
        ratings
        LEFT JOIN table_books
        ON ratings.book_id = table_books.book_id
        LEFT JOIN table_authors
        ON table_books.author_id = table_authors.author_id
    GROUP BY
        ratings.book_id,
        table_authors.author_id,
        table_authors.author
    HAVING
        COUNT(ratings.username)>50
    ORDER BY
        rating_cnt DESC;
    '''
).head()

Unnamed: 0,book_id,rating_cnt,author_id,author
0,948,160,554,Stephenie Meyer
1,750,88,240,J.R.R. Tolkien
2,673,86,235,J.D. Salinger
3,75,84,106,Dan Brown
4,302,82,236,J.K. Rowling/Mary GrandPré


1. Stephenie Meyer menjadi penulis dengan buku yang diberi rating terbanyak (160)
2. Diikuti oleh J.R.R. Tolkien, J.D. Salinger, Dan Brown, dan J.K. Rowling/Mary GrandPré secara berurutan.

### Jumlah rata-rata teks ulasan di antara pengguna<a id='5'></a>

Filter yang akan diterapkan adalah buku yang diberi rating lebih dari 50 kali.

In [12]:
# Rata-rata ulasan pengguna
query_sql(
    '''
    WITH table_authors AS (
        SELECT
            *
        FROM
            authors
    ), table_books AS (
        SELECT 
            book_id,
            author_id,
            title
        FROM
            books
    ), table_reviews AS (
        SELECT
            book_id,
            text
        FROM
            reviews
    ), table_ratings AS (
        SELECT
            book_id,
            COUNT(username) AS rating_cnt FROM ratings
        GROUP BY
            book_id
        HAVING
            COUNT(username) > 50 -- Filter rating yang diterima lebih dari 50 kali
    )

    SELECT 
        table_ratings.book_id,
        table_ratings.rating_cnt,
        table_books.title,
        AVG(LENGTH(table_reviews.text)) AS avg_text_len
    FROM
        table_ratings
        JOIN table_books ON table_ratings.book_id = table_books.book_id
        JOIN table_authors ON table_books.author_id = table_authors.author_id
        JOIN table_reviews ON table_ratings.book_id = table_reviews.book_id
    GROUP BY 
        table_ratings.book_id,
        table_ratings.rating_cnt,
        table_books.title
    ORDER BY 
        table_ratings.rating_cnt DESC;

    '''
).head()

Unnamed: 0,book_id,rating_cnt,title,avg_text_len
0,948,160,Twilight (Twilight #1),89.571429
1,750,88,The Hobbit or There and Back Again,86.833333
2,673,86,The Catcher in the Rye,103.166667
3,75,84,Angels & Demons (Robert Langdon #1),112.6
4,302,82,Harry Potter and the Prisoner of Azkaban (Harr...,82.0


1. Buku dengan judul "Twilight (Twilight #1)"	menerima rata-rata teks ulasan sebesar 89.57,
2. Diikuti oleh "The Hobbit or There and Back Again" (86.83), "The Catcher in the Rye" (103.17), "Angels & Demons (Robert Langdon #1)" (112.6), Harry Potter and the Prisoner of Azkaban" (82)

## Kesimpulan Umum<a id='Kesimpulan'></a>

Kesimpulan umum dari hasil analisa dataset ini adalah:
1. Kumpulan dataset ini terdiri dari informasi tentang buku-buku, penulis, penerbit, rating, dan ulasan pengguna.
2. Hanya ada satu buku yang dirilis setelah tanggal 1 Januari 2000.
3. Buku dengan ID 948 adalah buku yang paling banyak direview oleh pengguna dengan rata-rata rating 3.66.
4. Penerbit Penguin Books menjadi penerbit yang paling banyak menerbitkan buku.
5. Stephenie Meyer adalah penulis dengan rating rata-rata buku tertinggi.
6. Beberapa buku memiliki rata-rata teks ulasan yang cukup tinggi di antara pengguna yang memberi rating terhadap lebih dari 50 buku.

Berdasarkan hasil analisa tersebut, beberapa rekomendasi yang dapat diberikan dalam membuat penawaran harga untuk produk baru adalah:
1. Mengambil buku-buku yang telah banyak direview dan memiliki rating rata-rata yang baik untuk dijadikan referensi dalam menawarkan produk baru.
2. Menghubungi penerbit-penerbit terkait untuk menjajaki peluang kerjasama dalam penerbitan produk baru.
3. Melihat karya-karya penulis dengan rating rata-rata buku tertinggi dan mempertimbangkan untuk mengajak kerjasama dalam penerbitan produk baru.
4. Memperhatikan ulasan pengguna dan rata-rata teks ulasan yang tinggi sebagai bahan pertimbangan dalam menawarkan produk baru.