# Анализ базы данных сервис для чтения книг по подписке

База данных содержит информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг. 
Проанализируем эти данные, ответив на следующие вопросы:

- сколько книг вышло после 1 января 2000 года;
- какое количество обзоров и среднюю оценку имеет каждая книга;
- определим издательство, которое выпустило наибольшее число книг толще 50 страниц ;
- определим автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками;
- посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.


## Загрузка таблиц

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Данные о книгах

In [4]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### Данные об авторах

In [5]:
quuery = '''SELECT * FROM authors LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### Данные о пользовательских оценках книг

In [6]:
query = '''SELECT * FROM ratings LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


### Данные о пользовательских обзорах

In [7]:
query = '''SELECT * FROM reviews LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...



### Данные об издательствах

In [8]:
query = '''SELECT * FROM publishers LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


## Анализ данных
###  Количество книг, вышедшее после 1 января 2000 года

Для решения задачи нам мужна таблица `books`, отфильтрованная по дате, фильтруем с помощью `WHERE`

In [9]:
query = (
    '''
    SELECT COUNT(*) 
    FROM books
    WHERE publication_date > '2000-01-01'
    '''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,819


После 1 января 2000 года вышло 819 книг.

### Количество обзоров и средняя оценка для каждой книги

Чтобы получить в результате количество обзоров и среднюю оценку, нам необходимо объединить три таблицы методом `JOIN`. Т.к. нужна информация по каждой книге, сгруппируем данные по `book_id`.

На экран выведем не идентификатор книги, а ее название, чтобы было понятнее, о какой книге речь, а также отсортируем среднему рейтингу и количеству в порядке убывания.

In [10]:
query = (
    '''
    SELECT b.title,
           COUNT(DISTINCT r.review_id),
           AVG(rat.rating) 
    FROM books b
    LEFT JOIN reviews r ON b.book_id = r.book_id
    LEFT JOIN ratings rat ON b.book_id = rat.book_id
    GROUP BY b.book_id
    ORDER BY AVG(DISTINCT rat.rating) DESC, COUNT(r.review_id) DESC
    '''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,title,count,avg
0,A Dirty Job (Grim Reaper #1),4,5.000000
1,School's Out—Forever (Maximum Ride #2),3,5.000000
2,Moneyball: The Art of Winning an Unfair Game,3,5.000000
3,In the Hand of the Goddess (Song of the Liones...,2,5.000000
4,Welcome to Temptation (Dempseys #1),2,5.000000
...,...,...,...
995,1 000 Places to See Before You Die,1,2.500000
996,The Kitchen God's Wife,3,2.333333
997,Junky,2,2.000000
998,His Excellency: George Washington,2,2.000000


Книга `A Dirty Job (Grim Reaper #1)` набрала наибольшее количество обзоров (4) среди книг с рейтингом 5.00

In [11]:
query = (
    '''
    SELECT b.title,
           COUNT(DISTINCT r.review_id),
           AVG(rat.rating) 
    FROM books b
    LEFT JOIN reviews r ON b.book_id = r.book_id
    LEFT JOIN ratings rat ON b.book_id = rat.book_id
    GROUP BY b.book_id
    ORDER BY COUNT(DISTINCT r.review_id) DESC, AVG(rat.rating) DESC
    '''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,title,count,avg
0,Twilight (Twilight #1),7,3.662500
1,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
3,The Book Thief,6,4.264151
4,The Glass Castle,6,4.206897
...,...,...,...
995,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
996,Leonardo's Notebooks,0,4.000000
997,Essential Tales and Poems,0,4.000000
998,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


А книга `Twilight (Twilight #1)` набрала 7 обзоров, при этом ее рейтинг 3.66

### Издательство, которое выпустило наибольшее число книг толще 50 страниц
Для решения этой задачи необходимо объединить таблицы о книгах и издательствах, выбрать только те книги, у которых более 50 страниц, сгруппировать по издательству, посчитать количество книг, которые выпустило каждое ихдательство, отсортировать их в порядке убывания по количеству и оставить только первую строку с помощью `LIMIT`

In [12]:
query = (
    '''
    SELECT p.publisher, 
           COUNT(*)       
    FROM books b
    JOIN publishers p ON b.publisher_id = p.publisher_id
    WHERE b.num_pages > 50
    GROUP BY b.publisher_id, p.publisher
    ORDER BY COUNT(*) DESC
    LIMIT 1
 
    '''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,count
0,Penguin Books,42


Издательство `Penguin Books` выпустило наибольшее число книг толще 50 страниц в количестве 42.

### Автор с самой высокой средней оценкой книг,  учитывая книги с 50 и более оценками
Чтобы решить этот вопрос, объединим три таблицы: книги, авторы и рейтинги. После этого группируем по авторам и методом `HAVING` выбираем только тех авторов, у которых книги с количеством оценок более 50, сортируем по среднему рейтингу по убыванию и оставляем только один - он и будет самым высоким. 

Для удобства в выоде оставим и автора, и рейтинг, округленный до 3 знаков после запятой.

In [13]:
query = (
    '''
    SELECT a.author,
           ROUND(AVG(r.rating), 3)
    FROM books b 
    JOIN authors a ON b.author_id = a.author_id
    JOIN ratings r ON b.book_id = r.book_id
    GROUP BY b.author_id, a.author
    HAVING COUNT(r.rating_id) > 50
    ORDER BY AVG(r.rating) DESC
    LIMIT 1

    '''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,round
0,J.K. Rowling/Mary GrandPré,4.288


Автор с самой высокой средней оценкой книг (среди книг с 50 и более оценками ) - `J.K. Rowling/Mary GrandPré`, ее рейтинг 4,288

### Cреднее количество обзоров от пользователей, которые поставили больше 48 оценок

Эта задача со вложенным запросом в блоке `FROM`, т.к. нам надо получить сначала таблицу с количеством обзоров от каждого пользователя, а потом найти их среднее.
Для удобства вывода округлим среднее до двух знаков после запятой и переименуем столбец

In [14]:
query = ('''
SELECT ROUND(AVG(t2.count), 2) AS сред_колич_обзоров
FROM 
    (SELECT COUNT(review_id)
    FROM reviews
    JOIN (SELECT username,
           COUNT(rating_id) as cnt
        FROM ratings
        GROUP BY username  
        HAVING COUNT(rating_id) > 48) AS t ON reviews.username = t.username
    GROUP BY reviews.username) AS t2

'''
)
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,сред_колич_обзоров
0,24.0


Cреднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24

**Общий вывод:**

База данных содержит информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг. База не очень большая, т.к. в ней содержится всего 819 книг, вышедших после начала 2000 года.

Практически по каждой книге предоставлены обзоры с рейтингом. Самое большое количество обзоров для книги с рейтингом 5.00 - 16. При этом среднее количество обзоров - 163.

Самое популярное издательство Penguin Books, которое выпустило 42 книги.

Самый высокооцененный автор - J.K. Rowling/Mary GrandPré.	