# Анализ базы данных книжного сервиса

# Содержание

- Описание проекта
- Описание данных
- Шаг 1. Обзор данных
- Шаг 2. Проведем исследование
- Шаг 3. Общий вывод

# Описание проекта

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. 

Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Наша задача  — проанализировать базу данных.


В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

# Шаг 1. Обзор данных

## Подключение к базе данных:

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Создадим функцию, выводящую результат SQL-запроса:

In [2]:
def sql_result(query):
  return pd.io.sql.read_sql(query, con = engine)

## Запрос к таблице books:

In [3]:
query = \
'''

SELECT * 
FROM books
LIMIT 5

'''
sql_result(query)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


## Запрос к таблице authors:

In [4]:
query = \
'''

SELECT * 
FROM authors
LIMIT 5

'''
sql_result(query)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


## Запрос к таблице publishers:

In [5]:
query = \
'''

SELECT * 
FROM publishers
LIMIT 5

'''
sql_result(query)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


## Запрос к таблице ratings:

In [7]:
query = \
'''

SELECT * 
FROM ratings
LIMIT 5

'''
sql_result(query)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


## Запрос к таблице reviews:

In [8]:
query = \
'''

SELECT * 
FROM reviews
LIMIT 5

'''
sql_result(query)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


# Шаг 2. Проведем исследование

## Подсчитаем количество книг вышедших после 1 января 2000 года:

In [9]:
query = \
'''

SELECT 
    COUNT (book_id) as book_cnt
FROM 
    books
WHERE 
    publication_date > '2000-01-01'

'''
sql_result(query)

Unnamed: 0,book_cnt
0,819


## Подсчитаем количество обзоров и среднюю оценку для каждой книги:

In [10]:
query = \
'''
SELECT 
    books.title, 
    COUNT(distinct reviews.review_id) AS reviews_cnt, 
    AVG(ratings.rating) AS avg_rating
FROM books
LEFT JOIN ratings ON ratings.book_id = books.book_id
LEFT JOIN reviews ON reviews.book_id = books.book_id
GROUP BY 
    books.book_id
ORDER BY 
    COUNT(reviews.review_id) DESC
LIMIT 10
'''
sql_result(query)

Unnamed: 0,title,reviews_cnt,avg_rating
0,Twilight (Twilight #1),7,3.6625
1,The Hobbit or There and Back Again,6,4.125
2,The Catcher in the Rye,6,3.825581
3,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
5,Angels & Demons (Robert Langdon #1),5,3.678571
6,Harry Potter and the Order of the Phoenix (Har...,5,4.186667
7,The Lightning Thief (Percy Jackson and the Oly...,6,4.080645
8,Animal Farm,5,3.72973
9,The Fellowship of the Ring (The Lord of the Ri...,5,4.391892


## Определим издательство, которое выпустило наибольшее число книг толще 50 страниц:

In [11]:
query = \
'''

SELECT
  publisher,
  COUNT (book_id) as book_cnt
FROM
  books
LEFT JOIN
  publishers ON publishers.publisher_id = books.publisher_id
WHERE
  num_pages > 50
GROUP BY
  publisher
ORDER BY
  book_cnt DESC

'''
sql_result(query)

Unnamed: 0,publisher,book_cnt
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


## Определим автора с самой высокой средней оценкой книг — учитываем только книги с 50 и более оценками:

In [12]:
query = \
'''
SELECT 
    aut_avg.author,
    AVG(aut_avg.avg_rating) AS author_rating_avg
FROM
        (SELECT 
            authors.author AS author
           , AVG(ratings.rating) AS avg_rating
        FROM books
            LEFT JOIN authors ON books.author_id = authors.author_id
            LEFT JOIN ratings ON books.book_id = ratings.book_id
        GROUP BY 
             books.book_id
             , authors.author_id
        HAVING
            COUNT(ratings.rating_id) >=50 
        ) AS aut_avg 
GROUP BY    
    aut_avg.author
ORDER BY
    author_rating_avg DESC
LIMIT 10
'''
sql_result(query)

Unnamed: 0,author,author_rating_avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


## Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок:

In [13]:
query = \
'''
SELECT
  AVG(review_cnt) as avg_review_cnt
FROM
(SELECT
  COUNT(review_id) as review_cnt
FROM
  reviews
WHERE username IN
(SELECT
  username
FROM
  ratings
GROUP BY
  username
HAVING
  COUNT(ratings) > 50)
GROUP BY
  username) as sub_review_cnt 

'''
sql_result(query)

Unnamed: 0,avg_review_cnt
0,24.333333


# Шаг 3. Общий вывод

 <div class="alert alert-info">
<h2> Общий вывод </h2>

- После 1 января 2000 года вышло 819 книг;
    
    
- На книгу Twilight (Twilight #1) вышло максимальное количество обзоров - 7, рейтинг книги - 3.7;
    
    
- Издательство, выпустившее наибольшее число книг толще 50 страниц: Penguin Books 42 книги;   
    
    
- автор с самой высокой средней оценкой книг: J.K. Rowling/Mary GrandPré с рейтингом 4.28;
    
    
- среднее количество обзоров от пользователей, которые поставили больше 50 оценок: 24.33.    
<font color='blue'>  </font>