# Книжное дело

Компанией было приобретен крупный сервис для чтения книг по подписке. Необходимо проанализировать имеющуюся информацию и определить направления развития  
  
**Цель:**  
Пронализировать базу данных, в которой находятся данные о книгах с целью формулирования ценностного предложения для нового продукта.  
  
**Исходные данные:**  
Информация о книгах, издательствах, авторах, а также пользовательские обзоры книг  
База данных, содержащая таблицы: ***books, authors, publishers, ratings и reviews***

## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

# устанавливаем параметры
db_config = {
    'user': 'praktikum_student',
    'pwd': 'Sdf4$2;d-d30pp',
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, 
    'db': 'data-analyst-final-project-db'} 
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
sql='''
SELECT *
FROM books
LIMIT 5
'''

In [3]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Завернем выполнение SQL-запроса в функцию для удобства

In [4]:
def select(sql):
    return pd.io.sql.read_sql(sql, con = engine) 

In [5]:
select(sql)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


## Изучение данных

Рассмотрим подробнее таблицы, выведем первые строки и узнаем объем

In [6]:
sql='''
SELECT *
FROM books b
LIMIT 5
'''

In [7]:
select(sql)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [8]:
sql='''
SELECT count(b.book_id) AS cnt
FROM books b
'''

In [9]:
select(sql)

Unnamed: 0,cnt
0,1000


Таблица `books` содержит 1000 записей. В таблице представлены идентификаторы книг, авторов и издательств, а также наименования книг, количество страниц и дату издания.

In [10]:
sql='''
SELECT *
FROM authors a
LIMIT 5
'''

In [11]:
select(sql)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [12]:
sql='''
SELECT count(a.author_id) AS cnt
FROM authors a
'''

In [13]:
select(sql)

Unnamed: 0,cnt
0,636


Таблица `authors` содержит 636 записей об авторах книг. Таблица содержит идентификаторы авторов и имена/псевдонимы. По первым строкам таблицы можно увидеть упорядоченость по алфавиту

In [14]:
sql='''
SELECT *
FROM publishers p
LIMIT 5
'''

In [15]:
select(sql)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [16]:
sql='''
SELECT count(p.publisher_id) AS cnt
FROM publishers p
'''

In [17]:
select(sql)

Unnamed: 0,cnt
0,340


Таблица `publishers` содержит 340 записей об издательствах: идентификаторы издательств и названия. Аналогично по первым строкам таблицы можно увидеть упоядоченость по алфавиту

In [18]:
sql='''
SELECT *
FROM ratings r
LIMIT 5
'''

In [19]:
select(sql)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [20]:
sql='''
SELECT count(r.rating_id) AS cnt
FROM ratings r
'''

In [21]:
select(sql)

Unnamed: 0,cnt
0,6456


Таблица `ratings` содержит 6456 записей. Таблица содержит информацию об идентификаторах книг и оценки, а также имя пользователя и поставленная этим пользователем оценка

In [22]:
sql='''
SELECT *
FROM reviews rev
LIMIT 5
'''

In [23]:
select(sql)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [24]:
sql='''
SELECT count(rev.review_id) AS cnt
FROM reviews rev
'''

In [25]:
select(sql)

Unnamed: 0,cnt
0,2793


Таблица `reviews` содержит 2793 записей. Таблица содержит информацию об идентификаторах книг и обзоров, а также имя пользователя и текст обзора

## Аналитика данных о книгах

Проведем аналитику отвечая на интересующие вопросы

### Сколько книг вышло после 1 января 2000 года?

In [26]:
sql='''
SELECT count(b.book_id) AS cnt
FROM books b
WHERE publication_date > '2000-01-01'
'''

In [27]:
select(sql)

Unnamed: 0,cnt
0,819


Начиная со 2 января 2000 года было издано 819 книг

### Какое количество обзоров и средняя оценка у каждой книги?

Воспользуемся конструкцией with для написания подзапросов

In [28]:
sql='''
WITH average_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS average_rating
   FROM books b
   LEFT JOIN ratings r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     count_reviews AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS count_reviews
   FROM books b
   LEFT JOIN reviews rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.book_id,
       a.title, 
       c.count_reviews,
       a.average_rating
FROM average_rating a
JOIN count_reviews c ON a.book_id = c.book_id
ORDER BY a.average_rating DESC
LIMIT 5
'''

In [29]:
select(sql)

Unnamed: 0,book_id,title,count_reviews,average_rating
0,55,A Woman of Substance (Emma Harte Saga #1),2,5.0
1,57,Act of Treason (Mitch Rapp #9),2,5.0
2,17,A Dirty Job (Grim Reaper #1),4,5.0
3,20,A Fistful of Charms (The Hollows #4),2,5.0
4,62,Alas Babylon,2,5.0


Проверим правильность выполнения

In [30]:
sql='''
SELECT avg(r.rating)
FROM ratings r
WHERE r.book_id = 55
'''

In [31]:
select(sql)

Unnamed: 0,avg
0,5.0


In [32]:
sql='''
SELECT count(rev.review_id)
FROM reviews rev
WHERE rev.book_id = 57
'''

In [33]:
select(sql)

Unnamed: 0,count
0,2


Для каждой книги мы определили количество обзоров и среднюю оценку. Отсортировав данные можно заметить, что максимально поставленной оценкой является 5, а минимально поставленной 1.5

### Какое издательство, выпустило наибольшее число книг толще 50 страниц?

Отсекая книги менее 50 страниц мы отсекаем брошюры из анализа

In [34]:
sql='''
SELECT p.publisher_id,
       p.publisher,
       count(book_id) AS cnt
FROM books b
JOIN publishers p ON p.publisher_id = b.publisher_id
WHERE num_pages > 50
GROUP BY p.publisher_id,
         p.publisher
HAVING count(book_id) =
  (SELECT max(cnt)
   FROM
     (SELECT count(book_id) AS cnt
      FROM books b
      WHERE num_pages > 50
      GROUP BY b.publisher_id) AS t)
'''

In [35]:
select(sql)

Unnamed: 0,publisher_id,publisher,cnt
0,212,Penguin Books,42


Больше всего книг (42 штуки) объемом более 50 страниц выпустило издательство `Penguin Books	`

### Какой автор с самой высокой средней оценкой книг?

Учитываются только книги с 50 и более оценками

Вопрос поставлен таким образом, что его можно интерпретировать двумя ответами.  
**Вариант 1:**
   * находим все книги у которых есть больше 50 оценок
   * по каждой книге находим среднее значение оценок
   * из всех средних оценок находим максимальную
   * находим автора книги с максимальной средней оценкой

In [68]:
sql='''
WITH TEMP AS
  (SELECT *,
          rank() OVER (
                       ORDER BY t.avg_rating DESC) AS rank
   FROM
     (SELECT a.author_id,
             a.author,
             b.title,
             avg(r.rating) AS avg_rating
      FROM books b
      LEFT JOIN authors a ON a.author_id = b.author_id
      LEFT JOIN ratings r ON r.book_id = b.book_id
      GROUP BY a.author_id,
               a.author,
               b.title
      HAVING (count(r.rating_id) >= 50)) AS t)
SELECT temp.author_id,
       temp.author,
       temp.title,
       temp.avg_rating
FROM TEMP
WHERE temp.rank=1
'''

In [69]:
select(sql)

Unnamed: 0,author_id,author,title,avg_rating
0,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634


Книгой с самой высокой средней оценкой равной 4.4 является книга `Гарри Поттер и Узник Азкабана` автором которой является Joanne Rowling 

**Вариант 2:**
   * находим все книги у которых есть больше 50 оценок
   * по каждому автору находим средние значения оценок всех его книг из пункта выше
   * находим автора с самой высокой средней оценкой его книг

In [119]:
sql='''
WITH TEMP AS
  (SELECT *,
          rank() OVER (
                       ORDER BY t.avg_rating DESC) AS rank
   FROM
     (SELECT a.author_id,
             a.author,
             avg(r.rating) AS avg_rating
      FROM books b
      LEFT JOIN authors a ON a.author_id = b.author_id
      LEFT JOIN ratings r ON r.book_id = b.book_id
      GROUP BY a.author_id,
               a.author
      HAVING (count(r.rating_id) >= 50)) AS t)
SELECT temp.author_id,
       temp.author,
       temp.avg_rating
FROM TEMP
WHERE temp.rank=1
'''

In [120]:
select(sql)

Unnamed: 0,author_id,author,avg_rating
0,130,Diana Gabaldon,4.3


Автор, у которого средняя оценка всех его книг (которые имеют больше 50 оценок) максимальная и равная 4.3 является Diana Gabaldon

*Мы спорили с мужем, он склоняется ко 2 варианту, я к 1-му*  
Обоим вариантам имеет место быть, за подробностями необходимо обратиться к заказчику:)

### Какое среднее количество обзоров от пользователей, которые поставили больше 50 оценок?

In [125]:
sql='''
WITH users_more_50 AS
  (SELECT r.username
   FROM ratings r
   GROUP BY r.username
   HAVING (count(r.rating_id) > 50))
SELECT avg(t.cnt) AS avg_review
FROM
  (SELECT count(rev.review_id) AS cnt
   FROM reviews rev
   WHERE rev.username in
       (SELECT *
        FROM users_more_50)
   GROUP BY rev.username) AS t
'''

In [126]:
select(sql)

Unnamed: 0,avg_review
0,24.333333


В среднем, пользователь, поставивший больше 50-ти оценок составляет 24 обзора на книги

## Вывод

В ходе анализа базы данных, содержащей информацию о книгах (в том числе об авторах, издательствах, оценках и обзорах), были определены следующие факты:
   * в базе данных хранится информация о 1000 книг
   * 819 книг из 1000 были изданы в 21 веке (после 1 января 2000)
   * максимальная оценка книги является 5, а минимальная (из имеющихся) 1.5
   * 42 книги выпустило издательство `Penguin Books`, что является наибольшим значением среди всех издательств (брошюры не учитывались)
   * автором с самыми высокими оценками (в разрезе книг автора или всех книг из БД) является `Diana Gabaldon`
   * пользователи, оставляющие более 50 оценок к книгам, в среднем делают по 24 обзора