## SQL исследование сервиса чтения книг

Стартап компания купила сервис для чтения книг по подписке.
**Задача исследования** - проанализировать базу данных, изучить информацию о книгах, издательствах, авторах, чтобы дать рекомендации для развития продукта.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Посмотрим на данные

In [2]:
books = (
    ''' SELECT * 
        FROM books
    ''')
books = pd.io.sql.read_sql(books, con = engine) 
display(books.head())
print(books.info())

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB
None


In [3]:
authors = (
    ''' SELECT * 
        FROM authors
    ''')
authors = pd.io.sql.read_sql(authors, con = engine) 
display(authors.head())
print(authors.info())

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None


In [4]:
publishers = (
    ''' SELECT * 
        FROM publishers
    ''')
publishers = pd.io.sql.read_sql(publishers, con = engine) 
display(publishers.head())
print(publishers.info())

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None


In [5]:
ratings = (
    ''' SELECT * 
        FROM ratings
    ''')
ratings = pd.io.sql.read_sql(ratings, con = engine) 
display(ratings.head())
print(ratings.info())

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None


In [6]:
reviews = (
    ''' SELECT * 
        FROM reviews
    ''')
reviews = pd.io.sql.read_sql(reviews, con = engine) 
display(reviews.head())
print(reviews.info())

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
None


### Задание 1  
Посчитайте, сколько книг вышло после 1 января 2000 года;

In [7]:
query = '''
        SELECT COUNT(DISTINCT book_id)
        FROM books
        WHERE publication_date > '2000-01-01'
        '''   

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,819


Всего книг 1000 из них 819 книг вышло после 1 января 2000 года.

### Задание 2  
Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [8]:
query ='''
SELECT
    books.title,
    COUNT(DISTINCT reviews.review_id),
    AVG(ratings.rating) AS average_score
FROM
    books
    JOIN reviews ON reviews.book_id = books.book_id
    JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    books.title, books.book_id
ORDER BY
    average_score DESC

LIMIT 10 
       '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,title,count,average_score
0,Arrows of the Queen (Heralds of Valdemar #1),2,5.0
1,Crucial Conversations: Tools for Talking When ...,2,5.0
2,Alas Babylon,2,5.0
3,Act of Treason (Mitch Rapp #9),2,5.0
4,Angels Fall,2,5.0
5,Captivating: Unveiling the Mystery of a Woman'...,2,5.0
6,A Woman of Substance (Emma Harte Saga #1),2,5.0
7,A Fistful of Charms (The Hollows #4),2,5.0
8,A Dirty Job (Grim Reaper #1),4,5.0
9,Dead Souls,2,5.0


Посчитали количество обзоров и среднюю оценку для книг, в первые топ 10 попали книги с оценкой 5 и количеством обзоров 2, за исключением одной книги.

### Задание 3   
Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [9]:
query ='''
SELECT
    publishers.publisher,
    COUNT(DISTINCT books.book_id) AS number_books
FROM
    books JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE 
    books.num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    number_books DESC

LIMIT 5 
       '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher,number_books
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19


Издательства: Penguin Books, Vintage, Grand Central Publishing, Penguin Classics, Bantam выпустили наибольшее число книг толще 50 страниц. Penguin Books лидирует с количеством книг 42.

### Задание 4   
Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [10]:
query = ''' 
SELECT 
    author_avg.author,
    AVG(author_avg.rating_avg) AS average_rating
FROM
        (SELECT 
            authors.author AS author,
            AVG(ratings.rating) AS rating_avg
        FROM books
            LEFT JOIN authors ON books.author_id = authors.author_id
            LEFT JOIN ratings ON books.book_id = ratings.book_id
        GROUP BY 
             books.book_id,
             authors.author_id
        HAVING
            COUNT(ratings.rating_id) >=50) AS author_avg 
GROUP BY    
    author_avg.author
ORDER BY
    average_rating DESC
LIMIT 5
        ''' 
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré со средней оценкой 4.28

### Задание 5  
Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [11]:
query = '''
SELECT
  AVG (count_reviews) AS average
  FROM
  (
    SELECT
      COUNT (review_id) AS count_reviews
    FROM
      reviews
    JOIN
     (SELECT
       username,
       COUNT (rating_id) AS count_ratings
      FROM
       ratings
      GROUP BY
       username
      HAVING COUNT (rating_id) > 50 ) AS ratings_users ON ratings_users.username = reviews.username
      GROUP BY
       reviews.username
   ) AS count_reviews
          '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,average
0,24.333333


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равняется 24.

## Итоговый вывод

В ходе работы были проанализированы данные по сервису для чтения книг по подписке.
* Сервис хранит 1000 книг из них 819 книг вышло после 1 января 2000 года. Т.е. наибольшее число книг это современная литература.  
* Далее посчитали количество обзоров и среднюю оценку для книг, в первые топ 10 попали книги с оценкой 5 и количеством обзоров 2, значит сервис хранит достаточно популярные книги.  
* Определили издательство, которое выпустило наибольшее число книг толще 50 страниц - это издательство Penguin Books, оно лидирует с количеством книг 42.   
* Автором с самой высокой средней оценкой книг оказалась J.K. Rowling/Mary GrandPré со средней оценкой 4.28.   
* Так же было посчитано среднее количество обзоров от пользователей, которые поставили больше 50 оценок, оно равняется 24.  
По итогу первичного анализа базы данных можно сказать, что сервис содержит современные и популярные книги, а пользователи сервиса оставляют оценки и обзоры на книги. Предварительно можно сделать вывод, что пользователи довольны сервисом, стоит развивать сервис в том же направлении.