# Анализ сервиса для чтения книг

#### Цели исследования
Проведем анализ сервиса для чтения книг по подписке, проанализировав базу данных. В базе содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

Импортируем библиотеки

In [1]:
import pandas as pd
from sqlalchemy import create_engine

Подключаемся к базе данных

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Формируем sql-запросы

In [3]:
query1 = '''SELECT * 
            FROM books
        '''
query2 = '''SELECT * 
            FROM authors
        '''
query3 = '''SELECT * 
            FROM publishers
        '''
query4 = '''SELECT * 
            FROM ratings
        '''
query5 = '''SELECT * 
            FROM reviews
        '''

Сохраняем результат в таблицы

In [4]:
books = pd.io.sql.read_sql(query1, con = engine, index_col = 'book_id')
authors = pd.io.sql.read_sql(query2, con = engine, index_col = 'author_id')
publishers = pd.io.sql.read_sql(query3, con = engine, index_col = 'publisher_id')
ratings = pd.io.sql.read_sql(query4, con = engine, index_col = 'rating_id')
reviews = pd.io.sql.read_sql(query5, con = engine, index_col = 'review_id')

Исследуем таблицы

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

In [5]:
books.head()

Unnamed: 0_level_0,author_id,title,num_pages,publication_date,publisher_id
book_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,546,'Salem's Lot,594,2005-11-01,93
2,465,1 000 Places to See Before You Die,992,2003-05-22,336
3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
5,125,1776,386,2006-07-04,268


In [6]:
books.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 1 to 1000
Data columns (total 5 columns):
author_id           1000 non-null int64
title               1000 non-null object
num_pages           1000 non-null int64
publication_date    1000 non-null object
publisher_id        1000 non-null int64
dtypes: int64(3), object(2)
memory usage: 46.9+ KB


**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

In [7]:
authors.head()

Unnamed: 0_level_0,author
author_id,Unnamed: 1_level_1
1,A.S. Byatt
2,Aesop/Laura Harris/Laura Gibbs
3,Agatha Christie
4,Alan Brennert
5,Alan Moore/David Lloyd


In [8]:
authors.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 636 entries, 1 to 636
Data columns (total 1 columns):
author    636 non-null object
dtypes: object(1)
memory usage: 9.9+ KB


**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства.

In [9]:
publishers.head()

Unnamed: 0_level_0,publisher
publisher_id,Unnamed: 1_level_1
1,Ace
2,Ace Book
3,Ace Books
4,Ace Hardcover
5,Addison Wesley Publishing Company


In [10]:
publishers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 340 entries, 1 to 340
Data columns (total 1 columns):
publisher    340 non-null object
dtypes: object(1)
memory usage: 5.3+ KB


**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [11]:
ratings.head()

Unnamed: 0_level_0,book_id,username,rating
rating_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,ryanfranco,4
2,1,grantpatricia,2
3,1,brandtandrea,5
4,2,lorichen,3
5,2,mariokeller,2


In [12]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6456 entries, 1 to 6456
Data columns (total 3 columns):
book_id     6456 non-null int64
username    6456 non-null object
rating      6456 non-null int64
dtypes: int64(2), object(1)
memory usage: 201.8+ KB


**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [13]:
reviews.head()

Unnamed: 0_level_0,book_id,username,text
review_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,brandtandrea,Mention society tell send professor analysis. ...
2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
4,3,johnsonamanda,Finally month interesting blue could nature cu...
5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [14]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2793 entries, 1 to 2793
Data columns (total 3 columns):
book_id     2793 non-null int64
username    2793 non-null object
text        2793 non-null object
dtypes: int64(1), object(2)
memory usage: 87.3+ KB


#### Посчитаем, сколько книг вышло после 1 января 2000 года

In [15]:
books_cnt_query = (
''' 
SELECT
COUNT(*) as books_cnt,
COUNT(DISTINCT title) as uniq_books_cnt
FROM books
WHERE publication_date > '2000-01-01'
''')

books_cnt = pd.io.sql.read_sql(books_cnt_query, con = engine)
books_cnt

Unnamed: 0,books_cnt,uniq_books_cnt
0,819,818


#### Для каждой книги посчитаем количество обзоров и среднюю оценку

In [22]:
review_cnt_rating_avg_query =( 
'''
SELECT 
sub2.book_id, 
CASE WHEN (review_cnt IS NULL) THEN '0' ELSE review_cnt END, 
sub2.rating_avg
FROM
(SELECT book_id, COUNT(review_id) as review_cnt 
FROM reviews
GROUP BY book_id
ORDER BY review_cnt desc) as sub1
RIGHT JOIN
(SELECT book_id, AVG(rating) as rating_avg 
FROM ratings
GROUP BY book_id
ORDER BY rating_avg desc) as sub2
on sub1.book_id=sub2.book_id
''')
review_cnt_rating_avg = pd.io.sql.read_sql(review_cnt_rating_avg_query, con = engine)
print(review_cnt_rating_avg.info())
review_cnt_rating_avg.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
book_id       1000 non-null int64
review_cnt    1000 non-null int64
rating_avg    1000 non-null float64
dtypes: float64(1), int64(2)
memory usage: 23.6 KB
None


Unnamed: 0,book_id,review_cnt,rating_avg
0,518,2,5.0
1,732,2,5.0
2,347,2,5.0
3,610,2,5.0
4,330,1,5.0


#### Определяем издательство, которое выпустило наибольшее число книг толще 50 страниц

In [17]:
publisher_query =(
'''
SELECT * 
FROM publishers
WHERE
publisher_id in 
    (SELECT publisher_id
    FROM books
    WHERE num_pages > 50
    GROUP BY publisher_id
    ORDER BY COUNT(title) desc
    LIMIT 1)
''')

publisher = pd.io.sql.read_sql(publisher_query, con = engine)
publisher

Unnamed: 0,publisher_id,publisher
0,212,Penguin Books


In [18]:
publisher_query =(
'''
SELECT * 
FROM publishers
WHERE
publisher_id in 
    (SELECT publisher_id
    FROM books
    WHERE num_pages > 50
    GROUP BY publisher_id
    ORDER BY COUNT(title) desc
    LIMIT 1)
''')

publisher = pd.io.sql.read_sql(publisher_query, con = engine)
publisher

Unnamed: 0,publisher_id,publisher
0,212,Penguin Books


#### Определим автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками

In [19]:
author_query =( 
''' 
SELECT *
FROM authors
WHERE author_id =
    (SELECT author_id
    FROM books
    WHERE book_id in
        (SELECT book_id 
        FROM ratings
        GROUP BY book_id
        HAVING COUNT(rating) >= 50
        ORDER BY AVG(rating) desc
        LIMIT 1))

''')

author = pd.io.sql.read_sql(author_query, con = engine)
author.head(30)

Unnamed: 0,author_id,author
0,236,J.K. Rowling/Mary GrandPré


#### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [20]:
review_avg_query = (
'''
SELECT AVG(review_cnt) as review_avg_cnt
FROM
    (SELECT username, COUNT(review_id) as review_cnt
    FROM reviews
    GROUP BY username) as sub1
RIGHT JOIN
    (SELECT username, COUNT(rating) as rating_cnt
    FROM ratings
    GROUP BY username
    HAVING COUNT(rating) > 50) as sub2 
on sub1.username=sub2.username


''')
review_avg = pd.io.sql.read_sql(review_avg_query, con = engine)
review_avg.round()

Unnamed: 0,review_avg_cnt
0,24.0


### Вывод
* В результате анализа сервиса для чтения книг по подписке получили, что всего после 1 января 2020 года
вышло 819 книг. 
* Для каждой книги было рассчитано количество обзоров и средняя оценка. Количество обзоров от пользователей, которые поставили больше 50 оценок, составило в среднем 24 обзора. 
* Наибольшее число книг выпустило издательство Penguin Books. При расчете учитывались книги с числом страниц больше 50, чтобы исключить брошюры. 
* Автора с самой высокой средней оценкой книгJ.K. Rowling совместно с Mary GrandPré. При расчете учитывались только книги с 50 и более оценками.