# Анализ базы данных книг

**Описание исследования**

Заказчик - сервис для чтения книг по подписке

Цель - выделить преимущества сервиса для формулирования ценностного предложения

**Описание данных**

Таблица books - содержит данные о книгах:
1. book_id — идентификатор книги;
2. author_id — идентификатор автора;
3. title — название книги;
4. num_pages — количество страниц;
5. publication_date — дата публикации книги;
6. publisher_id — идентификатор издателя.

Таблица authors - содержит данные об авторах:
1. author_id — идентификатор автора;
2. author — имя автора.

Таблица publishers - содержит данные об издательствах:
1. publisher_id — идентификатор издательства;
2. publisher — название издательства;

Таблица ratings - содержит данные о пользовательских оценках книг:
1. rating_id — идентификатор оценки;
2. book_id — идентификатор книги;
3. username — имя пользователя, оставившего оценку;
4. rating — оценка книги.

Таблица reviews - содержит данные о пользовательских обзорах:
1. review_id — идентификатор обзора;
2. book_id — идентификатор книги;
3. username — имя автора обзора;
4. text — текст обзора.

## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db']) 

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [4]:
# функция для выводы запроса
def output(query):
    return pd.io.sql.read_sql(query, con = engine) 

## Обзор данных

In [5]:
# Напишем запрос, выводящий первые и последние строки таблицы books
query_books = '''
    SELECT *
    FROM books
'''

In [6]:
# Выведем
output(query_books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [7]:
# Напишем запрос, выводящий первые и последние строки таблицы authors
query_authors = '''
    SELECT *
    FROM authors
'''

In [8]:
# Выведем
output(query_authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [9]:
# Напишем запрос, выводящий первые и последние строки таблицы ratings
query_ratings = '''
    SELECT *
    FROM ratings
'''

In [10]:
# Выведем
output(query_ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [11]:
# Напишем запрос, выводящий первые и последние строки таблицы reviews
query_reviews = '''
    SELECT *
    FROM reviews
'''

In [12]:
# Выведем
output(query_reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


In [13]:
# Напишем запрос, выводящий первые и последние строки таблицы publishers
query_publishers = '''
    SELECT *
    FROM publishers
'''

In [14]:
# Выведем
output(query_publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


**Вывод:**
- Всего в таблице books 1000 строк (т.е. в библиотеке - 1000 произведений) и 6 столбцов
- Всего в таблице authors 636 строк (т.е. 636 авторов) и 2 столбца
- Всего в таблице ratings 6456 строк (т.е книгам было поставлено 6456 оценки) и 4 столбца
- Всего в таблице reviews 2793 строк (т.е книгам было написано 2793 отзыва) и 4 столбца
- Всего в таблице publishers 340 строк (т.е все книги издавались 340 издателями) и 2 столбца

## Количество книг, вышедших после 1 января 2000 года

In [15]:
# Напишем запрос, чтоб найти количество книг, вышедших после 1 января 2000 года
query_1 = '''
    SELECT COUNT(book_id)
    FROM books
    WHERE publication_date > '2000-01-01'
'''

In [16]:
# Выведем
output(query_1)

Unnamed: 0,count
0,819


**Вывод:**
- Большинство произведений (819 из 1000) было написано после 1 января 2000 года
- В библиотеке содержатся в основном современные произведения

## Количество обзоров и средняя оценка для каждой книги

In [17]:
# Напишем запрос, чтоб найти количество обзоров и среднюю оценку для каждой книги
query_2 = '''
    WITH 
    c AS (SELECT b.book_id, b.title, COUNT(review_id)
    FROM books AS b
    LEFT JOIN reviews AS r ON b.book_id=r.book_id
    GROUP BY b.book_id),
    
    a AS (SELECT b.book_id, b.title, AVG(rating)
    FROM books AS b
    LEFT JOIN ratings AS ra ON ra.book_id=b.book_id
    GROUP BY b.book_id)
    
    SELECT c.title, c.count, a.avg
    FROM c
    FULL OUTER JOIN a ON a.book_id=c.book_id
    ORDER BY c.count DESC, a.avg DESC LIMIT 10
'''

In [18]:
# Выведем
output(query_2)

Unnamed: 0,title,count,avg
0,Twilight (Twilight #1),7,3.6625
1,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
3,The Book Thief,6,4.264151
4,The Glass Castle,6,4.206897
5,Outlander (Outlander #1),6,4.125
6,The Hobbit or There and Back Again,6,4.125
7,The Curious Incident of the Dog in the Night-Time,6,4.081081
8,The Lightning Thief (Percy Jackson and the Oly...,6,4.080645
9,Water for Elephants,6,3.977273


**Вывод:**
- Максимальное количество отзывов имеет книга "Сумерки ч.1" (7 отзывов) с рейтингом 3,66
- Среди книг с 6 отзывами наиболее высоко оценены книги "Гарри Поттер и узник Азкабана" (рейтинг - 4,41) и "Гарри Поттер и тайная комната" (рейтинг - 4,28)

## Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [19]:
# Напишем запрос, чтоб найти издательство, которое выпустило наибольшее число книг толще 50 страниц
query_3 = '''
    SELECT publisher, COUNT(book_id)
    FROM books AS b
    LEFT JOIN publishers AS p ON b.publisher_id=p.publisher_id
    WHERE b.num_pages > 50
    GROUP BY p.publisher_id
    ORDER BY COUNT(b.book_id) DESC LIMIT 3
'''

In [20]:
# Выведем
output(query_3)

Unnamed: 0,publisher,count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25


**Вывод:**
- Наибольшее количество книг (42) было выпущено издательством Penguin Books	  
- Другие издательства с большим количеством выпущенных книг - Vintage (31) и Grand Central Publishing (25)

## Автор с самой высокой средней оценкой книг

In [21]:
# Напишем запрос, чтоб найти автора, книгам которого поставили более 50 оценок, с самой высокой средней оценкой книг
query_4 = '''
    WITH books_rating AS
    (SELECT b.author_id, AVG(rating) as avg_rating
    FROM books AS b
    LEFT JOIN ratings AS r ON b.book_id=r.book_id
    GROUP BY b.book_id
    HAVING COUNT(r.rating_id) > 50)
    
    SELECT a.author, AVG(avg_rating)
    FROM books_rating AS br
    LEFT JOIN authors AS a ON br.author_id=a.author_id
    GROUP BY a.author_id
    ORDER BY AVG(avg_rating) DESC LIMIT 3
    '''

In [22]:
# Выведем
output(query_4)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446


**Вывод:**
- Автор с самой высокой средней оценкой книг - Д. Роулинг - автор серии романов о Гарри Поттере
- Как мы видим, наиболее популярные книги пересекаются с наиболее высоко оцениваемыми авторами, Д. Толкин (автор "Хоббит или Туда и обратно"), Ма́ркус Зусак (автор книги "Книжный вор") также присутствуют в рейтинге 

## Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [23]:
# Напишем запрос, чтоб найти среднее количество обзоров от пользователей, которые поставили больше 50 оценок
query_5 = '''
    WITH c AS
    (SELECT COUNT(r.review_id) AS count_reviews
    FROM reviews AS r
    WHERE r.username IN (SELECT ra.username
                        FROM ratings AS ra
                        GROUP BY ra.username
                        HAVING COUNT(ra.rating_id) > 50)
    GROUP BY r.username)
    
    SELECT COUNT(count_reviews), AVG(count_reviews)
    FROM c
'''

In [24]:
# Выведем
output(query_5)

Unnamed: 0,count,avg
0,6,24.333333


**Вывод:**
- Всего пользователей, которые поставили больше 50 оценок, то есть наиболее активных, - 6
- В среднем, они оставляют 24 обзора на прочитанные книги, это довольно много

## Общий вывод

Таким образом, были исследованы основные данные об произведениях, авторах, издательствах, рейтингах и оценках сервиса.

Для того, чтобы сформулировать ценностное предложение, выделим следующие преимущества сервиса:
- Обширная коллекция современной, новой литературы: всего в сервисе доступно 1000 произведений, среди которых 819 выпущено после 1 января 2000 года
- Большой выбор авторов: в сервисе доступно 636 авторов 
- Наличие всемирно известных произведений: в библиотеке доступны такие книги, как "Сумерки", серия романов о Гарри Поттере, "Книжный вор", "Стеклянный замок" и др.
- Ко многим книгам есть обзоры, это упрощает выбор: всего в сервисе оставлено 2793 отзыва
- У всех произведений есть пользовательский рейтинг, это также упрощает выбор: всем книгам было поставлено 6456 оценки