# Анализ базы данных книг

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-исследования" data-toc-modified-id="Описание-исследования-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание исследования</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#Исследование-таблиц" data-toc-modified-id="Исследование-таблиц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследование таблиц</a></span></li><li><span><a href="#Вопрос-1.-Сколько-книг-вышло-после-1-января-2000-года" data-toc-modified-id="Вопрос-1.-Сколько-книг-вышло-после-1-января-2000-года-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Вопрос 1. Сколько книг вышло после 1 января 2000 года</a></span></li><li><span><a href="#Вопрос-2.-Количество-обзоров-и-средня-оценка-книг" data-toc-modified-id="Вопрос-2.-Количество-обзоров-и-средня-оценка-книг-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вопрос 2. Количество обзоров и средня оценка книг</a></span></li><li><span><a href="#Вопрос-3.-Издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц" data-toc-modified-id="Вопрос-3.-Издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Вопрос 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц</a></span></li><li><span><a href="#Вопрос-4.-Автор-с-самой-высокой-средней-оценкой-книг" data-toc-modified-id="Вопрос-4.-Автор-с-самой-высокой-средней-оценкой-книг-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Вопрос 4. Автор с самой высокой средней оценкой книг</a></span></li><li><span><a href="#Вопрос-5.-Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок" data-toc-modified-id="Вопрос-5.-Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Вопрос 5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

### Описание исследования
**Цель исследования:** проанализировать базу данных книг и ответить на вопросы, которые помогут сформулировать ценностное предложение для нового продукта.

**Исходные данные:** База данных SQL c информацией о книгах, издательствах, авторах, а также пользовательскими обзорами книг. 

**Задачи исследования:**
- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
- Определить автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Исследование таблиц

Выведем первые строки таблиц и число строк в них

In [3]:
# создадим список таблиц
table_list = [
 'authors',
 'reviews',
 'ratings',
 'publishers',
 'books']

In [4]:
# для каждой таблицы выведем первые пять строк
for table_name in table_list:
    query = 'SELECT * FROM ' + table_name + ' LIMIT 5'
    print('Первые строки таблицы ',table_name)
    display(pd.io.sql.read_sql(query, con = engine))
    print('Число строк: ',pd.io.sql.read_sql('SELECT COUNT(*) FROM ' + table_name, con = engine).iloc[0,0])
    print('-'*40)

Первые строки таблицы  authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Число строк:  636
----------------------------------------
Первые строки таблицы  reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Число строк:  2793
----------------------------------------
Первые строки таблицы  ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Число строк:  6456
----------------------------------------
Первые строки таблицы  publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Число строк:  340
----------------------------------------
Первые строки таблицы  books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Число строк:  1000
----------------------------------------


Содержимое таблиц соответствует их описанию. По предварительной оценке данных достаточно для анализа.

### Вопрос 1. Сколько книг вышло после 1 января 2000 года

In [5]:
query = '''
SELECT COUNT(*)
FROM books
WHERE (publication_date > '2000-01-01')

'''
select = pd.io.sql.read_sql(query, con = engine) 
print('После 1 января 2000 года вышло {} книг.'.format(select.iloc[0,0]))

После 1 января 2000 года вышло 819 книг.


**Вывод:** Большая часть книг содержащаяся в базе вышла после 1 января 2000 года.

### Вопрос 2. Количество обзоров и средня оценка книг

In [6]:
query = '''
WITH n_reviews AS 
(SELECT book_id,
COUNT(book_id) as n_review
FROM reviews
GROUP BY book_id),

mean_ratings AS 
(SELECT book_id,
AVG(rating) as mean_rating
FROM ratings
GROUP BY book_id)

SELECT title,
       n_review,
       mean_rating
FROM books
LEFT JOIN n_reviews ON n_reviews.book_id = books.book_id
LEFT JOIN mean_ratings ON mean_ratings.book_id = books.book_id

'''
print('Образец данных')
pd.io.sql.read_sql(query, con = engine).set_axis(['Название','Число обзоров', 'Средняя оценка'],axis=1)

Образец данных


Unnamed: 0,Название,Число обзоров,Средняя оценка
0,The Body in the Library (Miss Marple #3),2.0,4.500000
1,Galápagos,2.0,4.500000
2,A Tree Grows in Brooklyn,5.0,4.250000
3,Undaunted Courage: The Pioneering First Missio...,2.0,4.000000
4,The Prophet,4.0,4.285714
...,...,...,...
995,The Cat in the Hat and Other Dr. Seuss Favorites,,5.000000
996,Anne Rice's The Vampire Lestat: A Graphic Novel,,3.666667
997,Essential Tales and Poems,,4.000000
998,Leonardo's Notebooks,,4.000000


**Вывод:** Все книги из случайной выборки имеют обзоры и оценки. Скорее всего, наполнение базы обзорами и оценками хорошее. 

### Вопрос 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [11]:
query = '''
WITH max_publisher AS
    (WITH book_stat AS
    (SELECT num_pages > 50 AS non_booklet,
        publisher_id  
    FROM books)

    SELECT publisher_id,
           COUNT(CASE WHEN non_booklet THEN 1 END) AS n_books
    FROM  book_stat      
    GROUP BY publisher_id
    ORDER BY n_books DESC
    LIMIT 1)
    
SELECT publisher,
       n_books
FROM publishers
RIGHT JOIN max_publisher ON max_publisher.publisher_id = publishers.publisher_id
'''
select = pd.io.sql.read_sql(query, con = engine)
print('Наибольшее число книг толще 50 страниц ({}) выпустило издательство {}.'.format(select.iloc[0,1], select.iloc[0,0]))

Наибольшее число книг толще 50 страниц (42) выпустило издательство Penguin Books.


**Вывод:** Penguin Books - крупное издательство, не удивительно что наибольшее число книг в базе издало оно.

### Вопрос 4. Автор с самой высокой средней оценкой книг

In [18]:
query = '''
WITH best_author AS
    (WITH book_avg_ratings AS
    (SELECT book_id,
           AVG(rating) as book_avg_rating
    FROM ratings
    GROUP BY book_id
    HAVING count(book_id) > 50)

    SELECT author_id,
           AVG(book_avg_ratings.book_avg_rating) AS author_rating
    FROM books
    JOIN book_avg_ratings ON book_avg_ratings.book_id = books.book_id
    GROUP BY author_id
    ORDER BY author_rating DESC
    LIMIT 1)
SELECT author,
       author_rating
FROM authors
JOIN best_author ON best_author.author_id = authors.author_id
'''
select = pd.io.sql.read_sql(query, con = engine) 
print('Автор с самой высокой средней оценкой книг ({:2.2f}): {}.'.format(select.iloc[0,1], select.iloc[0,0]))

Автор с самой высокой средней оценкой книг (4.28): J.K. Rowling/Mary GrandPré.


<div class="alert alert-warning" style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid " > <b>Комментарии от ревьюера ⚠️ : </b> 

И здесь ты не ошибся. Ты верно отфильтровал книги и рассчитал средний рейтинг авторов (который можно было вывести для наглядности)
    
</div>

**Вывод:** Наибольшее число оценок и самый высокий рейтинг у Дж. К. Роулинг (и ее иллюстратора).

### Вопрос 5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [9]:
query = '''
WITH n_reviews AS
    (WITH best_reviewers AS (
    SELECT username,
           count(book_id) as n_rating
    FROM ratings
    GROUP BY username
    HAVING count(book_id) > 50)

    SELECT reviews.username,
           count(book_id) AS n_review
    FROM reviews
    JOIN best_reviewers ON best_reviewers.username = reviews.username
    GROUP BY reviews.username)
SELECT AVG(n_review)
FROM n_reviews
'''
select = pd.io.sql.read_sql(query, con = engine) 
print('Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок: {}.'.format(select.iloc[0,0]))

Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок: 24.333333333333332.


<div class="alert alert-success" style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid " > <b>Комментарии от ревьюера ✔️ : </b> 
    

И это .. правильный ответ! Ты корректно отобрал пользователей и рассчитал их показатели.


В итоге, 5\5 с первой попытки - это сильный результат)

</div>

**Вывод:** Активные пользователи и оставляют много оценок и пишут много обзоров.

### Общий вывод
Книги представленные сервисом смогут заинтересовать читателей. Выбрать книгу помогут обзоры и рейтинги. 