## Описание проекта

Компания приобрела сервис по чтению книг по подписке. Основная задача - проанализировать имеющуюся БД.

В распоряжении 5 таблиц:

+ `books`
+ `authors`
+ `publishers`
+ `ratings` 
+ `reviews` 

Необходимо изучить данные и сформить первичное представление о том, какими книгами и данными располагает наш сервис.

# Подготовка и ознакомление с таблицами

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Таблица `books`

Содержит данные о книгах:

+ book_id — идентификатор книги;
+ author_id — идентификатор автора;
+ title — название книги;
+ num_pages — количество страниц;
+ publication_date — дата публикации книги;
+ publisher_id — идентификатор издателя.

In [3]:
query = '''
SELECT 
    *
FROM books
'''

In [4]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


В базе содержится информация о 1000 книг.

## Таблица `authors`

Содержит данные об авторах:

+ author_id — идентификатор автора;
+ author — имя автора.

In [5]:
query = '''
SELECT 
    author_id,
    author
FROM authors
LIMIT 10
'''

In [6]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


## Таблица `publishers` 

Содержит данные об издательствах:

+ publisher_id — идентификатор издательства;
+ publisher — название издательства;

In [7]:
query = '''
SELECT 
    *
FROM publishers
LIMIT 10
'''

In [8]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


## Таблица `ratings` 

Содержит данные о пользовательских оценках книг:

+ rating_id — идентификатор оценки;
+ book_id — идентификатор книги;
+ username — имя пользователя, оставившего оценку;
+ rating — оценка книги.

In [9]:
query = '''
SELECT 
    *
FROM ratings
LIMIT 10
'''

In [10]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


## Таблица `reviews` 

Содержит данные о пользовательских обзорах:

+ review_id — идентификатор обзора;
+ book_id — идентификатор книги;
+ username — имя автора обзора;
+ text — текст обзора.

In [11]:
query = '''
SELECT 
    *
FROM reviews
'''

In [12]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


# Задания

## Посчитайте, сколько книг вышло после 1 января 2000 года

In [13]:
query = '''
SELECT 
    COUNT(*) AS cnt
FROM 
    books
WHERE
    publication_date > '2000-01-01'
'''

In [14]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,cnt
0,819


В базе данных содержится информация о 819 книгах, дата публикации которых после 1 января 2000 года. Субъективно, это не очень большой объем книги.

## Для каждой книги посчитайте количество обзоров и среднюю оценку

In [15]:
query = '''
SELECT
    books.title AS book_name,
    subquery_reviews.reviews_qty AS reviews_qty,
    AVG(ratings.rating) AS avg_rating
FROM 
    books
    LEFT JOIN (
        SELECT
            book_id,
            COUNT(username) AS reviews_qty
        FROM
            reviews
        GROUP BY
            book_id
        ) AS subquery_reviews ON subquery_reviews.book_id = books.book_id
    LEFT JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    books.title,
    subquery_reviews.reviews_qty
ORDER BY
    avg_rating DESC
'''

In [16]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_name,reviews_qty,avg_rating
0,Homage to Catalonia,2.0,5.00
1,March,2.0,5.00
2,In the Hand of the Goddess (Song of the Liones...,2.0,5.00
3,Welcome to Temptation (Dempseys #1),2.0,5.00
4,Stone of Farewell (Memory Sorrow and Thorn #2),1.0,5.00
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,3.0,2.25
996,Junky,2.0,2.00
997,His Excellency: George Washington,2.0,2.00
998,Drowning Ruth,3.0,2.00


Неплохо, что в БД содержатся данные об оценках и обзорах на книги. Однако при выводе отсортированной таблицы мы наблюдаем, что максимальное количество обзоров не слишком велико - для самой популярной книги "Сумерки" мы наблюдаем лишь 7 обзоров. 

## Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [17]:
query = '''
SELECT
    publishers.publisher,
    COUNT(title) AS books_qty
FROM
    books
    LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE 
    num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    books_qty DESC
LIMIT 1
'''

In [18]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher,books_qty
0,Penguin Books,42


Наибольшее количество книг в нашей библиотеке было выпущено издательством "Penguin Books" - 42 книги. 

## Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [25]:
query = '''
SELECT
    authors.author,
    AVG(subquery_ratings.avg_rating) AS average_rating
FROM
    books
    LEFT JOIN (
        SELECT 
            book_id,
            AVG(rating) AS avg_rating,
            COUNT(rating) AS rating_qty
        FROM
            ratings
        GROUP BY
            book_id
    ) AS subquery_ratings ON subquery_ratings.book_id = books.book_id
    LEFT JOIN authors ON authors.author_id = books.author_id
WHERE
    rating_qty > 50
GROUP BY
    author
ORDER BY
    average_rating DESC
LIMIT 1
'''

In [26]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.283844


Наивысшая средняя оценка книг у Д. Роулинг. Это довольно ожидаемый результат - серия книг о Гарри Поттере повсеместно пользуется популярностью. Средняя оценка ее книг в БД нашего сервиса - 4.28 балла. 

## Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [21]:
query = '''
WITH
    ratings_subquery AS (
        SELECT
            ratings.username,
            COUNT(rating) AS ratings_quantity
        FROM
            ratings
        GROUP BY
            ratings.username
        HAVING
            COUNT(rating) > 50
        ),
    reviews_subquery AS (
        SELECT
            reviews.username,
            COUNT(text) AS reviews_quantity
        FROM
            reviews
        GROUP BY
            reviews.username
    )
SELECT
    AVG(reviews_quantity)
FROM
    ratings_subquery
    LEFT JOIN reviews_subquery ON reviews_subquery.username = ratings_subquery.username
'''

In [22]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,avg
0,24.333333


В БД присутствует информация об активных пользователях, оставивших более 50 оценок. В среднем такие пользователи оставляют 24.8 обзоров на книгу. 

# Вывод

1. В БД нового сервиса содержится информация о 1000 книг
2. Порядка 82% книг выпущены за последние 20 лет
3. Для большинства книг в БД есть оценки и обзоры (99%)
4. Наибольшее количество книг в нашей подборки выпущены издательством "Penguin Books" - 42 штуки, что составляет 4% от нашей подборки
5. Самый высокие оценки у автора Д. Роулинг - 4.3
6. В базе есть информация об активных пользователях - купленный сервис достаточно "живой", но располагает не слишком большой подборкой книг