# Анализ базы данных сервиса для чтения книг

## Цели исследования

Проанализировать базу данных крупного сервиса для чтения книг по подписке для дальнейшего формирования ценностного предложения для нового продукта.

## Описание данных
- Таблица books
Содержит данные о книгах:
    - book_id — идентификатор книги;
    - author_id — идентификатор автора;
    - title — название книги;
    - num_pages — количество страниц;
    - publication_date — дата публикации книги;
    - publisher_id — идентификатор издателя.
- Таблица authors
Содержит данные об авторах:
    - author_id — идентификатор автора;
    - author — имя автора.
- Таблица publishers
Содержит данные об издательствах:
    - publisher_id — идентификатор издательства;
    - publisher — название издательства;
- Таблица ratings
Содержит данные о пользовательских оценках книг:
    - rating_id — идентификатор оценки;
    - book_id — идентификатор книги;
    - username — имя пользователя, оставившего оценку;
    - rating — оценка книги.
- Таблица reviews
Содержит данные о пользовательских обзорах:
    - review_id — идентификатор обзора;
    - book_id — идентификатор книги;
    - username — имя автора обзора;
    - text — текст обзора.

## План работы

1. Импорт библиотек, подключение к БД и исследование таблиц с данными;
2. Количество книг вышедших после 1 января 2000 года;
3. Количество обзоров и средняя оценка каждой книги;
4. Издательство, которое выпустило наибольшее число книг толще 50 страниц;
5. Автор с самой высокой средней оценкой книг;
6. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## 1. Импорт библиотек, подключение к БД и исследование таблиц с данными;

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'user', # имя пользователя
             'pwd': 'pasword', # пароль
             'host': 'host',
             'port': 1111, # порт подключения
             'db': 'database'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
query = ''' SELECT *
            FROM books
        '''

In [3]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [4]:
query = ''' SELECT *
            FROM authors
        '''

In [5]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [6]:
query = ''' SELECT *
            FROM publishers
        '''

In [7]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [8]:
query = ''' SELECT *
            FROM ratings
        '''

In [9]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [10]:
query = ''' SELECT *
            FROM reviews
        '''

In [11]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


## 2. Количество книг вышедших после 1 января 2000 года

In [12]:
query = ''' SELECT count(distinct book_id) as cnt
            FROM books
            WHERE publication_date > '2000-01-01'
        '''

In [13]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,cnt
0,819


### Вывод

После 1 января вышло 819 книг.

## 3. Количество обзоров и средняя оценка каждой книги

In [14]:
query = ''' SELECT
            reviews.book_id as book_id,
            avg_raiting_books.title as title,
            avg_raiting_books.avg_raiting as avg_raiting,
            COUNT(reviews.review_id) as review_cnt          
            FROM
            (SELECT
            books.book_id as books_id,
            books.title as title,
            AVG(ratings.rating) as avg_raiting
            FROM books
            INNER JOIN ratings ON ratings.book_id = books.book_id
            GROUP BY books_id, title) as avg_raiting_books   
            INNER JOIN reviews ON reviews.book_id = avg_raiting_books.books_id
            GROUP BY book_id, title, avg_raiting
            ORDER BY review_cnt DESC
        '''

In [15]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,avg_raiting,review_cnt
0,948,Twilight (Twilight #1),3.662500,7
1,656,The Book Thief,4.264151,6
2,734,The Glass Castle,4.206897,6
3,673,The Catcher in the Rye,3.825581,6
4,299,Harry Potter and the Chamber of Secrets (Harry...,4.287500,6
...,...,...,...,...
989,187,Debt of Honor (Jack Ryan #7),3.000000,1
990,855,The Road Not Taken and Other Poems,3.500000,1
991,129,Built to Last: Successful Habits of Visionary ...,4.500000,1
992,248,First Things First,4.000000,1


### Вывод

Сумерки первые по количеству обзоров, но по средней оценке они далеко не лучшие.

## 4. Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [16]:
query = ''' SELECT
            publisher,
            COUNT(book_id) as book_cnt
            FROM
            (SELECT
            publisher_id,
            book_id,
            title,
            num_pages            
            FROM books
            WHERE num_pages > 50) as books_50
            INNER JOIN publishers ON publishers.publisher_id  = books_50.publisher_id
            GROUP BY publisher
            ORDER BY book_cnt DESC
        '''

In [17]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,book_cnt
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


### Вывод

Наибольшее число книг более 50 страниц выпустило издательство Penguin Books - 42.

## 5. Автор с самой высокой средней оценкой книг

In [18]:
query = ''' SELECT 
            authors.author as author,
            AVG(ratings.rating) as avg_rating
            FROM 
            (SELECT
            books.book_id as books_id,
            books.author_id as author_id,
            COUNT(ratings.rating) as rating_cnt,
            books.title as title
            FROM books
            INNER JOIN ratings ON ratings.book_id = books.book_id
            GROUP BY title, books_id
            HAVING COUNT(ratings.rating) > 50) as top_books
            INNER JOIN authors ON authors.author_id = top_books.author_id
            INNER JOIN ratings ON ratings.book_id = top_books.books_id
            GROUP BY author
            ORDER BY avg_rating DESC

        '''

In [19]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.246914
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Lois Lowry,3.75


### Вывод

Самая высокая оценка среди всех авторов у J.K. Rowling совместно с Mary GrandPré.

## 6. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [20]:
query = ''' SELECT AVG(reviews_cnt)
            FROM
            (SELECT COUNT(reviews.review_id) as reviews_cnt, reviews.username
            FROM
            (SELECT username as user, COUNT(rating) as rating_cnt
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating) > 50) as top_users
            INNER JOIN reviews ON reviews.username = top_users.user
            GROUP BY username) as agg_users_reviews
        '''

In [21]:
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.333333


### Вывод

В среднем пользователи, которые поставили больше 50 оценок, делают 24 обзора.