# Проект SQL: сервис для чтения книг

**Описание проекта**  
Коронавирус застал мир врасплох, изменив привычный порядок вещей. На какое-то время жители городов перестали выходить на улицу, посещать кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.  
Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке.  

**Цель проекта**  
Анализ базы данных с информацией о книгах, издательствах, авторах, а также о пользовательских обзорах книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.   

**Описание данных**  
В качестве источника данных используется база данных со следующими таблицами:  
Таблица `books` cодержит данные о книгах:  
- *book_id* — идентификатор книги;  
- *author_id* — идентификатор автора;  
- *title* — название книги;  
- *num_pages* — количество страниц;  
- *publication_date* — дата публикации книги;  
- *publisher_id* — идентификатор издателя.  

Таблица `authors` cодержит данные об авторах:  
- *author_id* — идентификатор автора;  
- *author* — имя автора.  

Таблица `publishers` cодержит данные об издательствах:  
- *publisher_id* — идентификатор издательства;  
- *publisher* — название издательства;  

Таблица `ratings` cодержит данные о пользовательских оценках книг:  
- *rating_id* — идентификатор оценки;  
- *book_id* — идентификатор книги;  
- *username* — имя пользователя, оставившего оценку;  
- *rating* — оценка книги.  

Таблица `reviews` cодержит данные о пользовательских обзорах:  
- *review_id* — идентификатор обзора;  
- *book_id* — идентификатор книги;  
- *username* — имя автора обзора;  
- *text* — текст обзора.  

**План исследования**  
1. Загрузка и просмотр данных  
2. Исследовательский анализ:  
    - расчет числа книг, выпущенных после 1 января 2000 года;  
    - количество обзоров и средняя оценка книг;  
    - определение издательства, которое выпустило наибольшее число книг толще 50 страниц;  
    - выявление автора с самой высокой средней оценкой книг;  
    - расчет среднего количества обзоров от пользователей, которые поставили больше 48 оценок.  
3. Выводы по исследованию.

## Загрузка и просмотр данных  
В рамках данного раздела загрузим таблицы и просмотрим первые пять строк.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

# устанавливаем параметры
db_config = {'user': 'praktikum_student',                         # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp',                             # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,                                        # порт подключения
             'db': 'data-analyst-final-project-db'}               # название базы данных

connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

# создадим функцию для выполнения SQL-запросов
def sql_query(query):
    return pd.io.sql.read_sql(sql=text(query), con = engine.connect())

### Загрузка и просмотр таблицы books

In [2]:
books = '''SELECT * 
           FROM books 
           LIMIT 5'''
sql_query(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица состоит из шести полей: идентификатор книги и автора, название книги, количество страниц, дата публикации и идентификатор издательства.

### Загрузка и просмотр таблицы authors

In [3]:
authors = '''SELECT *
             FROM authors
             LIMIT 5'''
sql_query(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Таблица состоит из двух полей: идентификатор автора и имя автора.

### Загрузка и просмотр таблицы  publishers

In [4]:
publishers = '''SELECT * 
                FROM publishers
                LIMIT 5'''
sql_query(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица состоит из двух полей: идентификатор издательства и название издательства

### Загрузка и просмотр таблицы ratings

In [5]:
ratings = '''SELECT * 
             FROM ratings
             LIMIT 5'''
sql_query(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Таблица состоит из четырех полей: идентификатор рейтинга, идентификатор книги, имя пользователя, рейтинг.

### Загрузка и просмотр таблицы reviews

In [6]:
reviews = '''SELECT * 
             FROM reviews
             LIMIT 5'''
sql_query(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблица состоит из четырех полей: идентификатор обзора, идентификатор книги, имя пользователя, текст обзора.

**Вывод по разделу:** в рамках данного раздела мы загрузили таблицы из базы данных, посмотрели их структуру и убедились, что их содержание соответствует описанию.

## Исследовательский анализ

### Расчет числа книг, выпущенных после 1 января 2000 года

In [7]:
books_after_01012000 = '''SELECT COUNT(*)
                          FROM books
                          WHERE publication_date > '2000-01-01'
                       '''
sql_query(books_after_01012000)

Unnamed: 0,count
0,819


**Вывод:** количество книг, выпущенных после 1 января 2000 года составляет 819.

### Количество обзоров и средняя оценка книг

In [8]:
review_rating = '''SELECT b.book_id,
                          b.title,
                          COUNT(DISTINCT rv.review_id) as review_count,
                          ROUND(AVG(r.rating), 2) as average_rating
                   FROM books as b
                   LEFT JOIN reviews as rv ON b.book_id = rv.book_id
                   LEFT JOIN ratings as r ON b.book_id = r.book_id
                   GROUP BY b.book_id
                   ORDER BY b.book_id
                '''

sql_query(review_rating)

Unnamed: 0,book_id,title,review_count,average_rating
0,1,'Salem's Lot,2,3.67
1,2,1 000 Places to See Before You Die,1,2.50
2,3,13 Little Blue Envelopes (Little Blue Envelope...,3,4.67
3,4,1491: New Revelations of the Americas Before C...,2,4.50
4,5,1776,4,4.00
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3,3.67
996,997,Xenocide (Ender's Saga #3),3,3.40
997,998,Year of Wonders,4,3.20
998,999,You Suck (A Love Story #2),2,4.50


**Вывод:** составлена таблица с идентификатором книги, ее наименованием, количеством обзоров и средним рейтингом.

### Выявление издательства, которое выпустило наибольшее число книг толще 50 страниц (для исключения брошюр)

In [9]:
publisher_top_1 = '''SELECT publisher
                     FROM (SELECT p.publisher as publisher,
                                  COUNT(b.book_id) as book_cnt
                           FROM books as b
                           LEFT JOIN publishers as p on p.publisher_id = b.publisher_id
                           WHERE b.num_pages > 50
                           GROUP BY p.publisher
                           ORDER BY COUNT(b.book_id) DESC) AS tbl
                           LIMIT 1
                  '''
sql_query(publisher_top_1)

Unnamed: 0,publisher
0,Penguin Books


**Вывод:** издательство Penguin Books выпустило наибольшее число книг толще 50 страниц.

### Автор с самой высокой средней оценкой книг (с учетом книг с 50 и более оценками)

In [10]:
author_top_1 = '''WITH tbl AS (SELECT b.book_id as book_id,
                                      b.author_id as author_id,
                                      COUNT(r.rating_id) as rating_cnt,
                                      AVG(r.rating) as rating_avg
                               FROM books as b
                               JOIN ratings as r on r.book_id=b.book_id
                               GROUP BY b.book_id
                               HAVING COUNT(r.rating_id) >= 50)

                  SELECT author
                  FROM (SELECT a.author,
                               AVG(tbl.rating_avg)
                        FROM authors as a
                        INNER JOIN tbl ON a.author_id = tbl.author_id
                        GROUP BY a.author
                        ORDER BY AVG(tbl.rating_avg) DESC) as qr
                  LIMIT 1
               '''

sql_query(author_top_1)

Unnamed: 0,author
0,J.K. Rowling/Mary GrandPré


**Вывод:** автор с самой высокой средней оценкой книг (учитывая только книги с 50 оценками и выше) - J.K. Rowling/Mary GrandPré.

### Среднее количество обзоров от пользователей, поставивших более 48 оценок.

In [11]:
reviews_mean = '''WITH rtcnt AS (SELECT username,
                                        COUNT(rating_id) as rating_cnt
                                 FROM ratings
                                 GROUP BY username
                                 HAVING COUNT(rating_id) > 48),
                       rvcnt AS (SELECT username,
                                        COUNT(review_id) as review_cnt
                                 FROM reviews
                                 GROUP BY username)
                  SELECT AVG(review_cnt) as reviews_mean
                  FROM rvcnt
                  INNER JOIN rtcnt ON rvcnt.username = rtcnt.username
               '''

sql_query(reviews_mean)

Unnamed: 0,reviews_mean
0,24.0


**Вывод:** среднее количество обзоров от пользователей, которые поставили более 48 оценок, составляет 24.

## Выводы

В рамках данного проекта мы провели исследование базы данных сервиса для чтения книг по подписке и выполнили следующие работы:  
1. Посчитали, что после 1 января 2000 года было выпущено 819 книг.  
2. Построили сводную таблицу, где для каждой книги указали количество обзоров и среднюю оценку.  
3. Определили, что наибольшее число книг толще 50 страниц было выпущено издательством Penguin Books.  
4. Выявили, что автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré.  
5. Посчитали, что пользователи, поставившие более 48 оценок, написали в среднем 24 обзора.