<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#Количество-книг,-вышедших-после-1-января-2000-года" data-toc-modified-id="Количество-книг,-вышедших-после-1-января-2000-года-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Количество книг, вышедших после 1 января 2000 года</a></span></li><li><span><a href="#Количество-обзоров-и-средняя-оценка-для-каждой-книги" data-toc-modified-id="Количество-обзоров-и-средняя-оценка-для-каждой-книги-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Количество обзоров и средняя оценка для каждой книги</a></span></li><li><span><a href="#Издательство,-выпустившее-наибольшее-число-книг-толще-50-страниц" data-toc-modified-id="Издательство,-выпустившее-наибольшее-число-книг-толще-50-страниц-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Издательство, выпустившее наибольшее число книг толще 50 страниц</a></span></li><li><span><a href="#Автор-с-самой-высокой-средней-оценкой-книг-по-книгам-с-50-и-более-оценками" data-toc-modified-id="Автор-с-самой-высокой-средней-оценкой-книг-по-книгам-с-50-и-более-оценками-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Автор с самой высокой средней оценкой книг по книгам с 50 и более оценками</a></span></li><li><span><a href="#Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок" data-toc-modified-id="Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Среднее количество обзоров от пользователей, которые поставили больше 50 оценок</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

# Исследование базы данных сервиса для чтения книг
Компания приобрела крупный сервис для чтения книг по подписке. Необходимо проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. На основании этих данных сформулировать ценностное предложение для нового продукта.

## Загрузка данных

In [1]:
# Импорт библиотек
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Подключение к БД
# Параметры подключения
db_config = {'user': '...', # имя пользователя
             'pwd': '...', # пароль
             'host': '...',
             'port': ..., # порт подключения
             'db': '...'} # название базы данных
# Строка соединения с БД
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
# Подключение к БД
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
# Просмотр таблиц
query_1 = ''' SELECT *
              FROM books
              LIMIT 5 '''

query_2 = ''' SELECT *
              FROM authors
              LIMIT 5 '''

query_3 = ''' SELECT *
              FROM publishers
              LIMIT 5 '''

query_4 = ''' SELECT *
              FROM ratings
              LIMIT 5 '''

query_5 = ''' SELECT *
              FROM reviews
              LIMIT 5 '''

books = pd.io.sql.read_sql(query_1, con = engine)
authors = pd.io.sql.read_sql(query_2, con = engine)
publishers = pd.io.sql.read_sql(query_3, con = engine)
ratings = pd.io.sql.read_sql(query_4, con = engine)
reviews = pd.io.sql.read_sql(query_5, con = engine)

## Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

In [4]:
books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

In [5]:
authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства.

In [6]:
publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [7]:
ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [8]:
reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Количество книг, вышедших после 1 января 2000 года

In [9]:
query_6 = ''' 
SELECT
    COUNT(book_id) AS count_books
FROM
    books
WHERE
    publication_date > '2000-01-01'
'''

count_books = pd.io.sql.read_sql(query_6, con = engine)
display(count_books)
print('Количество книг -', count_books['count_books'][0], 'шт.')

Unnamed: 0,count_books
0,819


Количество книг - 819 шт.


## Количество обзоров и средняя оценка для каждой книги

In [10]:
query_7 = '''
SELECT
    book_id,
    title,
    count_reviews,
    average_rating
FROM
    
    -- подзапрос для определения количества оценок    
    (SELECT
        books.book_id AS book_id_0,
        AVG(rating) AS average_rating
    FROM
        books
        LEFT JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        books.book_id) AS SBQ1

    INNER JOIN
    
    -- подзапрос для определения количества ревью
    (SELECT
        books.book_id AS book_id_1,
        COUNT(review_id) AS count_reviews
    FROM
        books
        LEFT JOIN reviews ON reviews.book_id = books.book_id
    GROUP BY
        books.book_id) AS SBQ2
        
    ON SBQ1.book_id_0 = SBQ2.book_id_1

    -- объединение с books для определения названия книги по id
    LEFT JOIN books ON SBQ1.book_id_0 = books.book_id

ORDER BY
    average_rating DESC
'''

count_reviews_average_rating = pd.io.sql.read_sql(query_7, con = engine)
count_reviews_average_rating

Unnamed: 0,book_id,title,count_reviews,average_rating
0,518,Pop Goes the Weasel (Alex Cross #5),2,5.00
1,732,The Ghost Map: The Story of London's Most Terr...,2,5.00
2,347,In the Hand of the Goddess (Song of the Liones...,2,5.00
3,610,Tai-Pan (Asian Saga #2),2,5.00
4,330,How to Be a Domestic Goddess: Baking and the A...,1,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,371,Junky,2,2.00
997,316,His Excellency: George Washington,2,2.00
998,202,Drowning Ruth,3,2.00


## Издательство, выпустившее наибольшее число книг толще 50 страниц

In [11]:
query_8 = ''' 
SELECT
    publishers.publisher,
    COUNT(title) AS count_books
FROM
    books
LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    count_books DESC
LIMIT
    1
'''

publisher_max_books = pd.io.sql.read_sql(query_8, con = engine)
display(publisher_max_books)
print('Издательство',
      publisher_max_books['publisher'][0],
      'выпустило наибольшее число книг, с количество страниц больше 50, равное',
      publisher_max_books['count_books'][0],
      'шт.')

Unnamed: 0,publisher,count_books
0,Penguin Books,42


Издательство Penguin Books выпустило наибольшее число книг, с количество страниц больше 50, равное 42 шт.


## Автор с самой высокой средней оценкой книг по книгам с 50 и более оценками

In [12]:
query_9 = '''
SELECT
    author,
    AVG(average_ratings) AS average_ratings_author
FROM

    (SELECT
        books.title,
        MAX(books.author_id) AS author_id,
        COUNT(ratings.rating) AS count_ratings,
        AVG(ratings.rating) AS average_ratings
    FROM
        books
    LEFT JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        books.title
    HAVING
        COUNT(ratings.rating) >= 50
    ORDER BY 
        count_ratings DESC) AS SBQ1
    
LEFT JOIN authors ON authors.author_id = SBQ1.author_id
GROUP BY
    author
ORDER BY
    average_ratings_author DESC
LIMIT
    1
'''

author_max_rating = pd.io.sql.read_sql(query_9, con = engine)
display(author_max_rating)

print('Авторами с самой высокой средней оценкой являются',
      author_max_rating['author'][0],
      '\nСредняя оценка равна',
      (author_max_rating['average_ratings_author'][0]).round(2))

Unnamed: 0,author,average_ratings_author
0,J.K. Rowling/Mary GrandPré,4.283844


Авторами с самой высокой средней оценкой являются J.K. Rowling/Mary GrandPré 
Средняя оценка равна 4.28


## Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [13]:
query_10 = '''
SELECT
    AVG(count_review_id) AS average_reviews
FROM
    (SELECT
        username,
        COUNT(rating) AS count_rating
    FROM
        books
    LEFT JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        username
    HAVING
        COUNT(rating) > 50
    ORDER BY
        count_rating DESC) AS SBQ1
LEFT JOIN
    (SELECT
        username,
        COUNT(review_id) AS count_review_id
    FROM
        reviews
    GROUP BY
        username
    ORDER BY
        count_review_id DESC) AS SBQ2
ON SBQ1.username = SBQ2.username
'''

average_reviews = pd.io.sql.read_sql(query_10, con = engine)
display(average_reviews)

print('Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно',
      (average_reviews['average_reviews'][0]).round(2))

Unnamed: 0,average_reviews
0,24.333333


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно 24.33


## Выводы

Из базы данных приобретённого сервиса были получены ответы на вопросы:

    1) После 1 января 2000 года включительно на сервисе вышла 821 книга.
    2) Были посчитаны количество обзоров и средняя оценка для каждой книги.
    3) Среди книг с количеством страниц больше 50, больше всех выпустило издательство "Penguin Books", а именно 42 книги.
    4) Среди книг с 50 и более оценками, авторами с самой высокой средней оценкой являются J.K. Rowling/Mary GrandPré. Средняя оценка равна 4.28
    5) Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно 24.33 обзора.