# Анализ базы данных о книгах.

**Цель** — проанализировать базу данных, сформулировать ценностное предложение для нового продукта.

**Задачи**

- Исследовать таблицы — вывести первые строки;
- Решить задания:
- - Посчитать, сколько книг вышло после 1 января 2000 года;
- - Для каждой книги посчитать количество обзоров и среднюю оценку;
- - Определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
- - Определить автора с самой высокой средней оценкой книг (книги с 50 и более оценками);
- - Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.
- Описать выводы по каждой из решённых задач.

Описание данных
**Таблица books**

Содержит данные о книгах:
- *book_id* — идентификатор книги;
- *author_id* — идентификатор автора;
- *title* — название книги;
- *num_pages* — количество страниц;
- *publication_date* — дата публикации книги;
- *publisher_id* — идентификатор издателя.

**Таблица authors**

Содержит данные об авторах:
- *author_id* — идентификатор автора;
- *author* — имя автора.

**Таблица publishers**

Содержит данные об издательствах:
- *publisher_id* — идентификатор издательства;
- *publisher* — название издательства;

**Таблица ratings**

Содержит данные о пользовательских оценках книг:
- *rating_id* — идентификатор оценки;
- *book_id* — идентификатор книги;
- *username* — имя пользователя, оставившего оценку;
- *rating* — оценка книги.

**Таблица reviews**

Содержит данные о пользовательских обзорах:
- *review_id* — идентификатор обзора;
- *book_id* — идентификатор книги;
- *username* — имя автора обзора;
- *text* — текст обзора.

### Подготовительный этап

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine 
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Напишем функцию для выполнения sql запроса.

In [2]:
def connection(sql):
    return pd.io.sql.read_sql(sql, con = engine) 

## Исследование таблиц

### **Таблица books**

In [3]:
sql='''
SELECT *
FROM books
LIMIT 5
'''

In [4]:
connection(sql)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
sql='''
SELECT count(book_id)
FROM books
'''

In [6]:
connection(sql)

Unnamed: 0,count
0,1000


В таблице books информация о название, количестве страниц, дате публикации 1000 книг.

### Таблица authors

In [7]:
sql='''
SELECT *
FROM authors
LIMIT 5
'''

In [8]:
connection(sql)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [9]:
sql='''
SELECT count(author)
FROM authors
'''

In [10]:
connection(sql)

Unnamed: 0,count
0,636


Таблица authors содержит информацию о 636 авторах.

### Таблица publishers

In [11]:
sql='''
SELECT *
FROM publishers
LIMIT 5
'''

In [12]:
connection(sql)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [13]:
sql='''
SELECT count(publisher)
FROM publishers
'''

In [14]:
connection(sql)

Unnamed: 0,count
0,340


Таблица publishers содержит информацию о 340 издательствах.

### Таблица ratings

In [15]:
sql='''
SELECT *
FROM ratings
LIMIT 5
'''

In [16]:
connection(sql)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [17]:
sql='''
SELECT count(rating_id)
FROM ratings
'''

In [18]:
connection(sql)

Unnamed: 0,count
0,6456


Таблица ratings содержит информацию о 6456 оценках пользователей. 

### Таблица reviews

In [19]:
sql='''
SELECT *
FROM reviews
LIMIT 5
'''

In [20]:
connection(sql)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [21]:
sql='''
SELECT count(review_id)
FROM reviews
'''

In [22]:
connection(sql)

Unnamed: 0,count
0,2793


Таблица reviews содержит информацию о 2793 отзывах на книги.

<div class="alert alert-block alert-success">
    

### Комментарий от ревьюера
Отлично
    
Доступ к базе получили, на таблицы посмотрели, переходим к основной работе
    
</div>

## Аналитические задания.

### сколько книг вышло после 1 января 2000 года?

In [23]:
sql='''
SELECT count(book_id) AS cnt
FROM books
WHERE publication_date > '2000-01-01'
'''

In [24]:
connection(sql)

Unnamed: 0,cnt
0,819


**Вывод:** после 1 января 2000 года вышло 819 книг.

### количество обзоров и средняя оценка книг

In [25]:
sql='''
WITH average_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS average_rating
   FROM books b
   LEFT JOIN ratings r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     count_reviews AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS count_reviews
   FROM books b
   LEFT JOIN reviews rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.book_id,
       a.title, 
       c.count_reviews,
       a.average_rating
FROM average_rating a
JOIN count_reviews c ON a.book_id = c.book_id
ORDER BY a.average_rating DESC
LIMIT 5
'''

In [26]:
connection(sql)

Unnamed: 0,book_id,title,count_reviews,average_rating
0,55,A Woman of Substance (Emma Harte Saga #1),2,5.0
1,57,Act of Treason (Mitch Rapp #9),2,5.0
2,17,A Dirty Job (Grim Reaper #1),4,5.0
3,20,A Fistful of Charms (The Hollows #4),2,5.0
4,62,Alas Babylon,2,5.0


### издательство, которое выпустило наибольшее число книг толще 50 страниц 

In [27]:
sql='''
SELECT p.publisher
FROM books b
JOIN publishers p ON p.publisher_id = b.publisher_id
WHERE num_pages > 50
GROUP BY p.publisher_id,
         p.publisher
HAVING count(book_id) =
  (SELECT max(cnt)
   FROM
     (SELECT count(book_id) AS cnt
      FROM books b
      WHERE num_pages > 50
      GROUP BY b.publisher_id) AS t)
'''

In [28]:
connection(sql)

Unnamed: 0,publisher
0,Penguin Books


**Вывод:** издательство Penguin Books выпустило больше всего книг тольще 50 страниц.

### автор с самой высокой средней оценкой книг

In [33]:
sql='''
WITH TEMP AS
  (SELECT *,
          rank() OVER (
                       ORDER BY t.avg_rating DESC) AS rank
   FROM
     (SELECT a.author_id,
             a.author,
             b.title,
             avg(r.rating) AS avg_rating
      FROM books b
      LEFT JOIN authors a ON a.author_id = b.author_id
      LEFT JOIN ratings r ON r.book_id = b.book_id
      GROUP BY a.author_id,
               a.author,
               b.title
      HAVING (count(r.rating_id) >= 50)) AS t)
SELECT temp.author_id,
       temp.author,
       temp.title,
       temp.avg_rating
FROM TEMP
--WHERE temp.rank=1
'''

In [34]:
connection(sql)

Unnamed: 0,author_id,author,title,avg_rating
0,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634
1,240,J.R.R. Tolkien,The Fellowship of the Ring (The Lord of the Ri...,4.391892
2,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Chamber of Secrets (Harry...,4.2875
3,402,Markus Zusak/Cao Xuân Việt Khương,The Book Thief,4.264151
4,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Half-Blood Prince (Harry ...,4.246575
5,376,Louisa May Alcott,Little Women,4.192308
6,236,J.K. Rowling/Mary GrandPré,Harry Potter and the Order of the Phoenix (Har...,4.186667
7,240,J.R.R. Tolkien,The Hobbit or There and Back Again,4.125
8,39,Arthur Golden,Memoirs of a Geisha,4.107143
9,498,Rick Riordan,The Lightning Thief (Percy Jackson and the Oly...,4.080645


**Вывод:** J.K. Rowling/Mary GrandPré автор с самой высокой средней оценкой книг (4,4) - учитывали только книги с 50 и более оценками;

<div class="alert alert-block alert-danger">
        
### Комментарий от ревьюера v_1
Критично

Здесь закралась ошибка, нужно учитывать именно КНИГИ у которых больше 50 оценок
    
Ранжировать стоит, если ты, например, хочешь показать рейтинг, присвоить шкалу писателям. Но, если это ради того, чтобы найти максимальную оценку, следует отсортировать и применить лимит:) (это некритичный момент, тут как тебе удобнее)
</div>

<div class="alert alert-info"> <b>Комментарий студента: </b> ➕</div>

<div class="alert alert-block alert-warning">

### Комментарий от ревьюера v_2
Рекомендация

А сейчас ты считаешь среднюю оценку каждой из этих книг, а не среднюю оценку автора за эти книги))
</div>

### Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [31]:
sql='''
WITH users_more_50 AS
  (SELECT r.username
   FROM ratings r
   GROUP BY r.username
   HAVING (count(r.rating_id) > 50))
SELECT avg(t.cnt) AS avg_review
FROM
  (SELECT count(rev.review_id) AS cnt
   FROM reviews rev
   WHERE rev.username in
       (SELECT *
        FROM users_more_50)
   GROUP BY rev.username) AS t
'''

In [32]:
connection(sql)

Unnamed: 0,avg_review
0,24.333333


**Вывод:** пользователи, оставляющие более 50 оценок к книгам, в среднем делают по 24 обзора