# Анализ базы данных о книгах


**Цель** — проанализировать базу данных, сформулировать ценностное предложение для нового продукта.

- Изучить таблицы;
- Решить задания:
    - Посчитать, сколько книг вышло после 1 января 2000 года;
    - Для каждой книги посчитать количество обзоров и среднюю оценку;
    - Определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
    - Определить автора с самой высокой средней оценкой книг (книги с 50 и более оценками);
    - Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.
- Описать выводы по каждой из решённых задач.

Описание данных

Таблица **books**

Содержит данные о книгах:

    book_id — идентификатор книги;
    author_id — идентификатор автора;
    title — название книги;
    num_pages — количество страниц;
    publication_date — дата публикации книги;
    publisher_id — идентификатор издателя.
    
Таблица **authors**

Содержит данные об авторах:

    author_id — идентификатор автора
    author — имя автора

Таблица **publishers**

Содержит данные об издательствах:

    publisher_id — идентификатор издательства
    publisher — название издательства

Таблица **ratings**

Содержит данные о пользовательских оценках книг:

    rating_id — идентификатор оценки
    book_id — идентификатор книги
    username — имя пользователя, оставившего оценку
    rating — оценка книги

Таблица **reviews**

Содержит данные о пользовательских обзорах:

    review_id — идентификатор обзора
    book_id — идентификатор книги
    username — имя автора обзора
    text — текст обзора

## Настройка окружения

In [1]:
import pandas as pd
from sqlalchemy import create_engine
db_config = {'user': 'praktikum_student', 
'pwd': 'Sdf4$2;d-d30pp', 
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, 
'db': 'data-analyst-final-project-db'} 
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## Изучение таблиц

### Таблица books

In [2]:
query = '''
SELECT *
FROM books
'''

In [3]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


#### Вывод
Таблица books содержит 1000 записей о книгах.

### Табилца authors

In [4]:
query = '''
SELECT *
FROM authors
'''

In [5]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


#### Вывод
Табилца authors содержит 636 данных об авторах.

### Таблица publishers

In [6]:
query = '''
SELECT *
FROM publishers
'''

In [7]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


#### Вывод
Таблица publishers содержит 340 записей об издательствах

### Таблица ratings

In [8]:
query = '''
SELECT *
FROM ratings
'''

In [9]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


#### Вывод
Таблица ratings содержит 6456 записей о пользовательских оценках книг.

### Таблица reviews

In [10]:
query = '''
SELECT *
FROM reviews
'''

In [11]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


#### Вывод
Таблица reviews содержит 2793 записей о пользовательских обзорах на книги.

## Задания

### Количество книг, выпущенных после 1 января 2000 года

In [12]:
pd.io.sql.read_sql(
'''
SELECT COUNT(book_id) 
FROM books
WHERE publication_date > '2000-01-01'
''',
con = engine
)

Unnamed: 0,count
0,819


#### Вывод
В данных находится 819 книг, выпущенных после 1 января 2000 года

### Расчет количества обзоров и средней оценки для каждой книги

In [13]:
pd.io.sql.read_sql(
'''
WITH average_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS average_rating
   FROM books as b
   LEFT JOIN ratings as r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     count_reviews AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS count_reviews
   FROM books as b
   LEFT JOIN reviews as rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.book_id,
       a.title, 
       c.count_reviews,
       a.average_rating
FROM average_rating as a
JOIN count_reviews as c ON a.book_id = c.book_id
ORDER BY a.average_rating DESC
''',
con = engine
)

Unnamed: 0,book_id,title,count_reviews,average_rating
0,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
1,901,The Walking Dead Book One (The Walking Dead #...,2,5.00
2,390,Light in August,2,5.00
3,972,Wherever You Go There You Are: Mindfulness Me...,2,5.00
4,136,Captivating: Unveiling the Mystery of a Woman'...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,316,His Excellency: George Washington,2,2.00
997,202,Drowning Ruth,3,2.00
998,371,Junky,2,2.00


In [14]:
pd.io.sql.read_sql(
'''
WITH average_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS average_rating
   FROM books as b
   LEFT JOIN ratings as r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     count_reviews AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS count_reviews
   FROM books as b
   LEFT JOIN reviews as rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.book_id,
       a.title, 
       c.count_reviews,
       a.average_rating
FROM average_rating as a
JOIN count_reviews as c ON a.book_id = c.book_id
ORDER BY count_reviews DESC
''',
con = engine
)

Unnamed: 0,book_id,title,count_reviews,average_rating
0,948,Twilight (Twilight #1),7,3.662500
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667
996,808,The Natural Way to Draw,0,3.000000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000000
998,221,Essential Tales and Poems,0,4.000000


#### Вывод
Для каждоый книги определены количество обзоров и средняя оценка: наибольшая средняя оценка - 5, наименьшая оценка - 1,5; наибольшее количество обзоров - 7, наименьгее количество обзоров - 0.

### Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [15]:
pd.io.sql.read_sql(
'''
SELECT
    p.publisher,
    COUNT(book_id) AS books_cnt
FROM books as b
LEFT JOIN publishers as p ON p.publisher_id = b.publisher_id
WHERE num_pages > 50
GROUP BY p.publisher
ORDER BY books_cnt DESC
LIMIT 1
''',
con = engine
)

Unnamed: 0,publisher,books_cnt
0,Penguin Books,42


#### Вывод
Больше всего книг (42 штуки) объемом более 50 страниц выпустило издательство Penguin Books

### Автор с самой высокой средней оценкой книг (книги с 50 и более оценками)

In [16]:
pd.io.sql.read_sql(
'''
SELECT
    a.author,
    AVG(average_ratings.avg_rating) AS avg_rating
FROM books as b
LEFT JOIN (
        SELECT 
            book_id,
            AVG(rating) AS avg_rating,
            COUNT(rating_id) AS rating_cnt
        FROM ratings as r
        GROUP BY book_id
        ) AS average_ratings ON average_ratings.book_id = b.book_id
    LEFT JOIN authors as a ON a.author_id = b.author_id
WHERE
    rating_cnt >= 50
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1
''',
con = engine
)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


#### Вывод
У J.K. Rowling самая высокая оценка книг - 4,28, среди книг с 50 и более оценками.

### Среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [17]:
pd.io.sql.read_sql(
'''
WITH rev_users AS
  (SELECT r.username
   FROM ratings as r
   GROUP BY r.username
   HAVING (count(r.rating_id) > 50))
SELECT avg(z.cnt) AS avg_review
FROM
  (SELECT count(rev.review_id) AS cnt
   FROM reviews as rev
   WHERE rev.username in
       (SELECT *
        FROM rev_users)
   GROUP BY rev.username) AS z
''',
con = engine
)

Unnamed: 0,avg_review
0,24.333333


#### Вывод
В среднем пользователи, которые поставили больше 50 оценок, оставляют 24 обзора.

In [18]:
pd.io.sql.read_sql(
'''
SELECT COUNT(*) 
FROM books
''',
con = engine
)

Unnamed: 0,count
0,1000


In [23]:
pd.io.sql.read_sql(
'''
SELECT DISTINCT * 
FROM books
''',
con = engine
)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,640,262,The Beach House,356,2003-05-01,116
1,174,156,Cyrano de Bergerac,240,2003-08-05,267
2,392,357,Like Water for Chocolate,222,1993-09-16,51
3,330,449,How to Be a Domestic Goddess: Baking and the A...,384,2005-09-01,122
4,448,452,Morrigan's Cross (Circle Trilogy #1),321,2006-08-29,164
...,...,...,...,...,...,...
995,922,490,Thinner,320,1996-09-01,265
996,755,599,The Hunchback of Notre-Dame,510,2001-04-10,267
997,758,184,The Idiot,667,2003-04-08,183
998,384,390,Last Chance Saloon,528,2003-05-27,135
