# SQL
Компания купила крупный сервис для чтения книг по подписке.

Основная цель — проанализировать базу данных сервиса, чтобы сформулировать ценностное предложение для нового продукта. 
Необходимо подключиться к базе данных сервиса и получить следующие данные:
* Посчитать, сколько книг вышло после 1 января 2000 года;
* Для каждой книги посчитать количество обзоров и среднюю оценку;
* Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так будут исключены из анализа брошюры;
* Определить автора с самой высокой средней оценкой книг — необходимо учитывать при этом только книги с 50 и более оценками;
* Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string)

Выведем первые строки по каждой таблице:

#### Книги (`books`)

In [2]:
query = '''
            SELECT * FROM books
            LIMIT 10
        '''

books = pd.io.sql.read_sql(query, con = engine)
display(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


#### Авторы (`authors`)

In [3]:
query = '''
            SELECT * FROM authors
        '''

authors = pd.io.sql.read_sql(query, con = engine)
display(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


#### Издательства (`publishers`)

In [4]:
query = '''
            SELECT * FROM publishers
        '''

publishers = pd.io.sql.read_sql(query, con = engine)
display(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


#### Оценки (`ratings`)

In [5]:
query = '''
            SELECT * FROM ratings
        '''

ratings = pd.io.sql.read_sql(query, con = engine)
display(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


#### Обзоры (`reviews`)

In [6]:
query = '''
            SELECT * FROM reviews
        '''

reviews = pd.io.sql.read_sql(query, con = engine)
display(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


## Задания
### 1. Cколько книг вышло после 1 января 2000 года

In [12]:
query = '''
SELECT 
    COUNT(book_id) 
FROM 
    books
WHERE 
    publication_date >= '2000-01-01'
'''

task1 = pd.io.sql.read_sql(query, con = engine)
display(task1)

Unnamed: 0,count
0,821


Начиная с 1 января 2000 года выпущена 821 книга. Всего в таблице с книгами 1000 записей. Таким образом, большинство книг, представленных в сервисе, изданы после 2000 года.

### 2. Количество обзоров и средняя оценка для каждой книги

In [13]:
query = '''
SELECT 
    b.title,
    CASE
        WHEN rev.reviews_num IS NULL THEN 0
        ELSE rev.reviews_num
    END AS reviews_num,
    CASE
        WHEN rat.avg_rating IS NULL THEN 0
        ELSE rat.avg_rating
    END AS avg_rating
FROM
    books b
LEFT JOIN 
    (SELECT
        book_id,
        COUNT(review_id) reviews_num
    FROM 
        reviews
    GROUP BY 
        book_id
    ) AS rev ON b.book_id = rev.book_id
LEFT JOIN 
    (SELECT
        book_id,
        AVG(rating :: real) avg_rating
    FROM 
        ratings
    GROUP BY 
        book_id
    ) AS rat ON b.book_id = rat.book_id    
ORDER BY
    reviews_num DESC
LIMIT 10
'''

task2 = pd.io.sql.read_sql(query, con = engine)
display(task2)

Unnamed: 0,title,reviews_num,avg_rating
0,Twilight (Twilight #1),7,3.6625
1,The Alchemist,6,3.789474
2,The Da Vinci Code (Robert Langdon #2),6,3.830508
3,The Glass Castle,6,4.206897
4,The Hobbit or There and Back Again,6,4.125
5,The Road,6,3.772727
6,Outlander (Outlander #1),6,4.125
7,The Curious Incident of the Dog in the Night-Time,6,4.081081
8,Water for Elephants,6,3.977273
9,Eat Pray Love,6,3.395833


Вывод: наибольшее количество обзоров получили известные мировые бестселлеры. На основе многих из этих книг были сняты фильмы, в том числе на фильм Twilight (Сумерки), который получил наибольшее число обзоров. Стоит отметить, что средняя оценка у данных книг не самая высокая.

### 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [14]:
query = '''
SELECT 
    p.publisher,
    CASE
        WHEN b.books_num IS NULL THEN 0
        ELSE b.books_num
    END AS books_num
FROM
    publishers p
LEFT JOIN 
    (SELECT
        publisher_id,
        COUNT(book_id) books_num
    FROM 
        books
    WHERE
        num_pages >= 50
    GROUP BY 
        publisher_id
    ) AS b ON p.publisher_id = b.publisher_id
ORDER BY
    books_num DESC
LIMIT 1
'''

task3 = pd.io.sql.read_sql(query, con = engine)
display(task3)

Unnamed: 0,publisher,books_num
0,Penguin Books,42


Вывод: больше всего книг толще 50 страниц выпустило известное британское издательство Penguin Books.

### 4. Автор с самой высокой средней оценкой книг (для книг с 50 и более оценками)

In [15]:
query = '''
SELECT 
    a.author,
    AVG(avg_rating) avg_rating
FROM
    books b
INNER JOIN 
    (SELECT 
        book_id,
        COUNT(rating_id) ratings_num,
        AVG(rating) avg_rating
    FROM
        ratings
    GROUP BY
        book_id 
    HAVING 
        COUNT(rating_id) >= 50
    ) AS subq_b ON subq_b.book_id = b.book_id
INNER JOIN authors a ON a.author_id = b.author_id
GROUP BY
    a.author_id,
    a.author
ORDER BY
    avg_rating DESC
LIMIT 1
'''

task4 = pd.io.sql.read_sql(query, con = engine)
display(task4)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


Вывод: наивысшая средняя оценка оказалась у писательницы Джоан Роулинг, автора серии книг о Гарри Поттере.

### 5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [16]:
query = '''
SELECT
    AVG(reviews_num)
FROM
    (SELECT
        r.username,
        COUNT(*) reviews_num
    FROM
        reviews r
    INNER JOIN 
        (SELECT 
            username
        FROM
            ratings
        GROUP BY
            username 
        HAVING 
            COUNT(rating_id) >= 50
        ) AS users ON users.username = r.username
    GROUP BY
        r.username
    ) rev
'''

task5 = pd.io.sql.read_sql(query, con = engine)
display(task5)

Unnamed: 0,avg
0,24.222222


Вывод: пользователи, которые поставили больше 50 оценок, в среднем написали 24 обзора.