# Анализ базы данных сервиса для чтения книг  с помощью SQL - запросов

Содержание:

1. [Введение](#intro)  
    * [Цель проекта](#target)
    * [Задача проекта](#task)
    * [Описание данных](#description)
2. [Общая информация о данных](#start)
    * [Таблица books](#books) 
    * [Таблица authors](#authors)
    * [Таблица publishers](#publishers) 
    * [Таблица ratings](#ratings) 
    * [Таблица reviews](#reviews) 
3. [Количество книг, вышедших после 1 января 2000 года](#books_after)
4. [Количество обзоров для каждой книги и  средняя оценка книг](#books_grade)
5. [Издательство, выпустившее наибольшее число книг толще 50 страниц](#publishing_house) 
6. [Автор с самой высокой средней оценкой книг](#best_author) 
7. [Среднее количество обзоров от пользователей](#avg)
8. [Вывод по исследованию](#conclusion) 
   


<a id="intro"></a> 
## Введение

Коронавирус застал мир врасплох и изменил привычный порядок вещей. Люди больше не могут посещать привычные общественные места: торговые центры, кафе, театры. Освободившееся время люди начали посвящать книгам. Данной тенденцией воспользовались стартапы по созданию приложения для чтения книг.

Наша компания не стала исключением и приобрела сервис для чтения книг по подписке. 

<a id="target"></a> 
### Цель проекта

Помочь стартапу исследовать и, затем, наладить качественное предложение по новому приложению.
База данных содержит информация о книгах, издательствах, авторах, а также пользовательские обзоры книг и их рейтинги. Эти данные должны помочь создать новый привлекательный продукт для любителей чтения книг. 


<a id="task"></a> 
### Задача проекта

В ходе выполнения проекта, необходимо ответить на следующие вопросы:
    
- Сколько книг вышло после 1 января 2000 года;
- Сколько обзоров выпущено для каждой книги и какова средняя оценка книг;
- Издательство, которое выпустило наибольшее число книг толще 50 страниц;
- Автор с самой высокой средней оценкой книг;
- Среднее количество обзоров от пользователей, которые поставили больше 50 оценок;
- Дать рекомендации на основе полученных результатов.

<a id="description"></a> 
### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

<a id="start"></a> 
## Общая информация о данных

Сперва подключимся к базе данных:

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

<a id="books"></a> 
### Таблица books

In [3]:
sql= '''
SELECT *
FROM books
LIMIT 5
'''

In [4]:
books = pd.io.sql.read_sql(sql, con = engine) 
books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Посмотрим, сколько всего книг записано в датасете:

In [5]:
sql= '''
SELECT count(book_id) AS count
FROM books
'''

In [6]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,count
0,1000


В датасете содержится информации о тысяче книг.

<a id="authors"></a> 
### Таблица authors

In [7]:
sql= '''
SELECT *
FROM authors
LIMIT 5
'''

In [8]:
authors = pd.io.sql.read_sql(sql, con = engine)
authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Посмотрим, сколько авторов в  датасете:

In [9]:
sql= '''
SELECT count(DISTINCT author_id) AS autors
FROM books
'''

In [10]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,autors
0,636


Датасет содержит данные о 636 авторах.

<a id="publishers"></a> 
### Таблица publishers

In [11]:
sql= '''
SELECT *
FROM publishers
LIMIT 5
'''

In [12]:
publishers = pd.io.sql.read_sql(sql, con = engine) 
publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<a id="ratings"></a> 
### Таблица ratings

In [13]:
sql= '''
SELECT *
FROM ratings
LIMIT 5
'''

In [14]:
ratings = pd.io.sql.read_sql(sql, con = engine) 
ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<a id="reviews"></a> 
### Таблица reviews

In [15]:
sql= '''
SELECT *
FROM reviews
LIMIT 5
'''

In [16]:
reviews = pd.io.sql.read_sql(sql, con = engine) 
reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<a id="books_after"></a> 
## Количество книг, вышедших после 1 января 2000 года

In [18]:
sql = '''
SELECT COUNT(DISTINCT book_id) AS count_book
FROM books
WHERE publication_date > '2000-01-01'
'''

In [19]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,count_book
0,819


После 1 января 2000 года вышли 819 книг.

<a id="books_grade"></a> 
## Количество обзоров для каждой книги и  средняя оценка книг

In [20]:
# Запрос для вывода среднего рейтинга книги от максимального к минимальному:
sql= '''
WITH avg_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS avg_rating
   FROM books b
   LEFT JOIN ratings r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     reviews_count AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS reviews_count
   FROM books b
   LEFT JOIN reviews rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.title, 
       c.reviews_count,
       a.avg_rating
FROM avg_rating a
JOIN reviews_count c ON a.book_id = c.book_id
ORDER BY a.avg_rating DESC
LIMIT 10
'''

In [21]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,title,reviews_count,avg_rating
0,Arrows of the Queen (Heralds of Valdemar #1),2,5.0
1,Crucial Conversations: Tools for Talking When ...,2,5.0
2,Alas Babylon,2,5.0
3,Act of Treason (Mitch Rapp #9),2,5.0
4,Angels Fall,2,5.0
5,Captivating: Unveiling the Mystery of a Woman'...,2,5.0
6,A Woman of Substance (Emma Harte Saga #1),2,5.0
7,A Fistful of Charms (The Hollows #4),2,5.0
8,A Dirty Job (Grim Reaper #1),4,5.0
9,Dead Souls,2,5.0


Таблица показывает, что средний рейтинг книг находится в диапозоне от 5 до 1,5.

In [22]:
# Запрос для вывода количества обзоров на книги:
sql= '''
WITH avg_rating AS
  (SELECT b.book_id,
          title,
          avg(r.rating) AS avg_rating
   FROM books b
   LEFT JOIN ratings r ON r.book_id = b.book_id
   GROUP BY b.book_id),
     reviews_count AS
  (SELECT b.book_id,
          title,
          count(rev.review_id) AS reviews_count
   FROM books b
   LEFT JOIN reviews rev ON rev.book_id = b.book_id
   GROUP BY b.book_id)
SELECT a.title, 
       c.reviews_count,
       a.avg_rating
FROM avg_rating a
JOIN reviews_count c ON a.book_id = c.book_id
ORDER BY reviews_count DESC
LIMIT 10

'''

In [23]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,title,reviews_count,avg_rating
0,Twilight (Twilight #1),7,3.6625
1,The Da Vinci Code (Robert Langdon #2),6,3.830508
2,Eat Pray Love,6,3.395833
3,The Alchemist,6,3.789474
4,The Catcher in the Rye,6,3.825581
5,The Curious Incident of the Dog in the Night-Time,6,4.081081
6,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
7,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
8,Outlander (Outlander #1),6,4.125
9,The Book Thief,6,4.264151


Максимальное количество обзоров на книгу - 7. Да, Сумерки весьма популярны...

<a id="publishing house"></a> 
## Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [24]:
sql = '''
SELECT
    p.publisher,
    COUNT(book_id) AS books_count
FROM books b
    LEFT JOIN publishers p ON p.publisher_id = b.publisher_id
WHERE num_pages > 50
GROUP BY p.publisher
ORDER BY books_count DESC
LIMIT 10
'''

In [25]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,publisher,books_count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
5,Bantam,19
6,Berkley,17
7,St. Martin's Press,14
8,Berkley Books,14
9,William Morrow Paperbacks,13


Издательство, выпустившее наибольшее количество книг толще 50 страниц - Penguin Books c 42я книгами. На втором месте идет - Vintage, замыкает тройку лидеров - Grand Central Publishing.

<a id="best_author"></a> 
## Автор с самой высокой средней оценкой книг

Необходимо определить автора с самой высокой средней оценкой книг, при этом учитывать нужно только книги с 50 и более оценками.

In [26]:
sql = '''
SELECT 
    a.author,
    AVG(r.rating) AS avg_rating
FROM 
    books b
LEFT JOIN ratings r on b.book_id = r.book_id
LEFT JOIN authors a on b.author_id = a.author_id
WHERE
    b.book_id IN (
        SELECT r.book_id
        FROM ratings r
        GROUP BY r.book_id
        HAVING COUNT(r.rating) >= 50)
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 10
'''

In [27]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.246914
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Lois Lowry,3.75


Атором книги с самой высокой средней оценкой книги, где оценок -50 и более - является J.K. Rowling/Mary GrandPré.

<a id="avg"></a> 
## Среднее количество обзоров от пользователей

Необходимо посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок:

In [28]:
sql = '''
WITH
    ratings_q AS (
        SELECT
            r.username,
            COUNT(rating_id) AS ratings_count
        FROM ratings r
        GROUP BY r.username
        HAVING
            COUNT(rating_id) > 50
        ),
    reviews_q AS (
        SELECT
            rev.username,
            COUNT(review_id) AS reviews_count
        FROM reviews rev
        GROUP BY rev.username
    )
SELECT
    AVG(reviews_count) as avg_reviews_count
FROM ratings_q
    LEFT JOIN reviews_q ON reviews_q.username = ratings_q.username
'''

In [29]:
pd.io.sql.read_sql(sql, con = engine) 

Unnamed: 0,avg_reviews_count
0,24.333333


Пользователи, которые поставили более 50 оценок - в среднем оставили 24,3 обзора.

<a id="conclusion"></a> 
## Вывод по исследованию

- В представленном датасете хранится информация о 1000 книг от 636 авторов;
- После 1 января 2000 года вышли 819 книг;
- Средний рейтинг книги находится в диапозоне от 1,5 до 5,0. Максимальное количество обзоров - 7;
- Издательство, которое выпустило наибольшее количество книг толще 50 страниц - Penguin Books;
- Среди книг с более, чем 50 оценками, лидирует J.K. Rowling/Mary GrandPré;
- Cреднее количество обзоров от пользователей, которые поставили более 50 оценок - 24,33 обзора.

Таким образом можно сделать следующие рекомендации:

- следует обратить внимание на авторов с самым высоким рейтингом книг (толще 50 листов) - первая десятка с лидерами J.K. Rowling/Mary GrandPré. Многие книги этих авторов экранизированы, и интерес к этим историям еще долго не угаснет.
- Касательно непосредственно книг и жанров - стоит ориентироваться на полученную в п. 4 таблицу средних рейтингов книг. Касательно жанров - весьма популярны фэнтези, трилеры, постапокалиптические истории и итории о сильных женщинах. Также популярны книги по бизнесу о преодолении.
- Касательно полученной таблицы с количеством обзоров - больше всего обзоров на экранизированные романы, видимо, зрители хотят сравнить фильмы с оригиналом автора. На заметку.
- В отношении издательств - следует обратиться внимание на издательства-лидеры по выпуску  книг : Penguin Books, Vintage, Grand Central Publishing.