# Анализ базы данных сервиса для чтения книг по подписке

## Цель и описание проекта

Компания купила сервис для чтения книг по подписке. Необходимо проанализировать базу данных, чтобы найти информацию для формулирования ценностного предложения нового продукта.

## Описание таблиц

**1. `books` – данные о книгах:**

   - `book_id` — идентификатор книги;
   - `author_id` — идентификатор автора;
   - `title` — название книги;
   - `num_pages` — количество страниц;
   - `publication_date` — дата публикации книги;
   - `publisher_id` — идентификатор издателя.


**2. `authors` – данные об авторах:**

   - `author_id` — идентификатор автора;
   - `author` — имя автора.


**3. `publishers` – данные об издательствах:**

   - `publisher_id` — идентификатор издательства;
   - `publisher` — название издательства;


**4. `ratings` – данные о пользовательских оценках книг:**

   - `rating_id` — идентификатор оценки;
   - `book_id` — идентификатор книги;
   - `username` — имя пользователя, оставившего оценку;
   - `rating` — оценка книги.


**5. `reviews` – данные о пользовательских обзорах на книги:**

   - `review_id` — идентификатор обзора;
   - `book_id` — идентификатор книги;
   - `username` — имя пользователя, написавшего обзор;
   - `text` — текст обзора.

## <a id='content'>План проекта</a>

1. [Подготовка](#step-0)
2. [Исследование таблиц](#step-1)
3. [Выполнение заданий](#step-2)
4. [Результаты и выводы](#result)

---

## <a id='step-1'>Шаг 1. Подготовка</a>

### 1. Импорт библиотек

In [1]:
import pandas as pd
from sqlalchemy import create_engine

### 2. Настройка подключения к базе данных

In [2]:
# устанавливаем параметры подключения к БД
db_config = {'user': '_____', # имя пользователя
             'pwd': '*****', # пароль
             'host': '_____',
             'port': 1234, # порт подключения
             'db': '_____-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### 3. Автоматизация

3.1. Функция для выполнения запроса, которая будет принимать на вход текст запроса и возвращать результат его выполнения:

In [3]:
def sql_request(query):
    return pd.io.sql.read_sql(query, con = engine)

Проверим работу функции:

In [4]:
query = '''
SELECT
    *
FROM
    publishers;
'''

In [5]:
sql_request(query)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


<div align='right'><a href='#content'>↑ В начало проекта ↑</a></div>

---

## <a id='step-2'>Шаг 2. Исследование таблиц</a>

Посмотрим на все таблицы:

In [6]:
# список таблиц
tables_list = ['books', 'authors', 'publishers', 'ratings', 'reviews']

# количество первых строк, которое мы хотим вывести для ознакомления
rows_cnt = 5

In [7]:
for table in tables_list:
    print(f'Первые строки таблицы {table}')
    
    query = f'SELECT * FROM {table} LIMIT {rows_cnt}'
    
    df = sql_request(query)
    display(df)
    df.info()
    
    print()
    print()

Первые строки таблицы books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
book_id             5 non-null int64
author_id           5 non-null int64
title               5 non-null object
num_pages           5 non-null int64
publication_date    5 non-null object
publisher_id        5 non-null int64
dtypes: int64(4), object(2)
memory usage: 368.0+ bytes


Первые строки таблицы authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
author_id    5 non-null int64
author       5 non-null object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


Первые строки таблицы publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
publisher_id    5 non-null int64
publisher       5 non-null object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


Первые строки таблицы ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
rating_id    5 non-null int64
book_id      5 non-null int64
username     5 non-null object
rating       5 non-null int64
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes


Первые строки таблицы reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
review_id    5 non-null int64
book_id      5 non-null int64
username     5 non-null object
text         5 non-null object
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes




<div align='right'><a href='#content'>↑ В начало проекта ↑</a></div>

--- 

## <a id='step-3'>Шаг 3. Выполнение заданий</a>

### 1. Сколько книг вышло после 1 января 2000 года

In [8]:
query = '''
SELECT
    COUNT(DISTINCT book_id) AS books_uniq_cnt
FROM
    books
WHERE
    publication_date >= '2000-01-01'
'''

result = sql_request(query)

print()
print('Количество книг, которые вышли после 1 января 2000 года:', result['books_uniq_cnt'][0])
print()


Количество книг, которые вышли после 1 января 2000 года: 821



### 2. Количество обзоров и средняя оценка для каждой книги

In [9]:
query = '''
SELECT
    books.book_id AS book_id,
    books.title,
    COUNT(DISTINCT reviews.review_id) AS reviews_cnt,
    AVG(ratings.rating) AS rating_mean
FROM
    books
LEFT JOIN reviews ON reviews.book_id = books.book_id
LEFT JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    books.book_id
'''

books_rating = sql_request(query)

print()
print('Количество обзоров и средняя оценка для каждой книги:')
display(books_rating.sort_values(by='reviews_cnt', ascending=False))
print()


Количество обзоров и средняя оценка для каждой книги:


Unnamed: 0,book_id,title,reviews_cnt,rating_mean
947,948,Twilight (Twilight #1),7,3.662500
962,963,Water for Elephants,6,3.977273
732,733,The Giver (The Giver #1),6,3.750000
749,750,The Hobbit or There and Back Again,6,4.125000
626,627,The Alchemist,6,3.789474
...,...,...,...,...
807,808,The Natural Way to Draw,0,3.000000
190,191,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
220,221,Essential Tales and Poems,0,4.000000
386,387,Leonardo's Notebooks,0,4.000000





### 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [10]:
query = '''
SELECT
    publishers.publisher AS publisher,
    COUNT(DISTINCT books.book_id) AS books_snt
FROM
    publishers
INNER JOIN books ON books.publisher_id = publishers.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    publishers.publisher_id
ORDER BY
    books_snt DESC
LIMIT
    1
'''

result = sql_request(query)

print()
print(f'Больше всего книг ({result["books_snt"][0]}) выпустило издательство «{result["publisher"][0]}»')
print()


Больше всего книг (42) выпустило издательство «Penguin Books»



### 4. Автор с самой высокой средней оценкой книг (учитываются только книги с 50 и более оценками)

В этом задании я не уверена в механике расчета. Можно посчитать двумя способами:

- Рассчитать среднюю оценку по каждой книге, и для каждого автора вычислить общую среднюю оценку по средним оценкам его книгам;
- Взять все оценки всех книг автора, и посчитать среднее от общего массива оценок.

Я пошла по второму пути, потому что в первом случае получается расчет среднего от среднего.

In [11]:
query = '''
SELECT
    authors.author AS author,
    
    /* делим сумму всех оценок по книгам автора на количество оценок */
    SUM(subquery.rating_sum) / SUM(subquery.ratings_cnt) AS rating_mean
FROM
    authors
INNER JOIN
    (
    SELECT
        books.author_id AS author_id,
        
        /* складываем все оценки */
        SUM(ratings.rating) AS rating_sum,
        
        /* считаем количество оценок по каждой книге*/
        COUNT(DISTINCT ratings.rating_id) AS ratings_cnt
    FROM
        books
    INNER JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        books.book_id
    ) AS subquery ON subquery.author_id = authors.author_id
WHERE
    subquery.ratings_cnt >= 50
GROUP BY
    authors.author_id
ORDER BY
    rating_mean DESC
LIMIT
    1
'''

result = sql_request(query)

print()
print(f'Самая высокая средняя оценка книг ({result["rating_mean"][0].round(2)}) у {result["author"][0]}.')
print()


Самая высокая средняя оценка книг (4.29) у J.K. Rowling/Mary GrandPré.



### 5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [12]:
query = '''
SELECT
    AVG(subquery1.reviews_cnt) AS reviews_mean
FROM
    (SELECT
        username,
        COUNT(DISTINCT review_id) as reviews_cnt
    FROM 
        reviews
    GROUP BY
        username
    ) AS subquery1

INNER JOIN
    (
    SELECT
        username AS username,
        COUNT(DISTINCT rating_id) AS ratings_cnt
    FROM
        ratings
    GROUP BY
        username
    ) AS subquery2 ON subquery2.username = subquery1.username

WHERE
    subquery2.ratings_cnt > 50
'''

result = sql_request(query)

print()
print('Среднее количество обзоров от пользователей, которые поставили больше 50 оценок:', round(result['reviews_mean'][0], 2))
print()


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок: 24.33



<div align='right'><a href='#content'>↑ В начало проекта ↑</a></div>

---

## <a id='results'>Результаты и выводы</a>

Исходя из беглого анализа данных, можем сделать выводы:

- После 1 января 2020 года была выпущена 821 книга;
- На книги пишут мало отзывов (максимум 7);
- Больше всего книг (42) толще 50-ти страниц выпустило издательство «Penguin Books»;
- Самая высокая средняя оценка книг (4.29) у автора J.K. Rowling/Mary GrandPré;
- Среднее количество обзоров от пользователей, которые поставили больше 50 оценок, равно 24.

Имея доступ к подобной информации, рекомендуем стимулировать пользователей приложения оставлять оценки и писать содержательные отзывы. Тогда ценность продукта может быть основана на полезной информации о книгах, что позволит пользователям более вероятно выбирать интересные для них книги.

<div align='right'><a href='#content'>↑ В начало проекта ↑</a></div>