# Аналитика книжного сервиса с помощью SQL

## Задания:
1. Посчитайте, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитайте количество обзоров и среднюю оценку;
3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

<a name="table_of_contents"></a>
# План: 
1) [Импрот библиотек и подключение к базам данных.](#stage_1)

2) [Просмотр баз данных.](#stage_2)

- [Таблица Books](#s_2)

- [Таблица Authors](#s_3)
    
- [Таблица Publishers](#s_4)

- [Таблица Ratings](#s_5)

- [Таблица Reviews](#s_6)
    
3) [Выполнение аналитических заданий](#stage_3)

- [Сколько книг вышло после 1 января 2000 года](#s_7)

- [Количество обзоров и средняя оценка](#s_8)

- [Издательство, которое выпустило больше всего книг 50+ страниц](#s_9)

- [Автор с самой высокой средней оценкой](#s_10)

- [Среднее количество обзоров от пользователей, которые поставили больше 50 оценок.](#s_11)
    
4) [Общие выводы.](#stage_4)


<a name="stage_1"></a>
## Шаг 1: Импрот библиотек и подключение к базам данных:
[К оглавлению](#table_of_contents)

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

<a name="stage_1"></a>
## Шаг 2: Просмотр баз данных:
[К оглавлению](#table_of_contents)

<a name="s_2"></a>
### Таблица Books:
[К оглавлению](#table_of_contents)

In [2]:
books = '''
SELECT *
FROM books
LIMIT 5
'''
pd.io.sql.read_sql(books, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<a name="s_3"></a>
### Таблица Authors:
[К оглавлению](#table_of_contents)

In [3]:
authors = '''
SELECT *
FROM authors
LIMIT 5
'''
pd.io.sql.read_sql(authors, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<a name="s_4"></a>
### Таблица Publishers:
[К оглавлению](#table_of_contents)

In [4]:
publishers = '''
SELECT *
FROM publishers
LIMIT 5
'''
pd.io.sql.read_sql(publishers, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<a name="s_5"></a>
### Таблица Ratings:
[К оглавлению](#table_of_contents)

In [5]:
ratings = '''
SELECT *
FROM ratings
LIMIT 5
'''
pd.io.sql.read_sql(ratings, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<a name="s_6"></a>
### Таблица Reviews:
[К оглавлению](#table_of_contents)

In [53]:
reviews = '''
SELECT *
FROM reviews

'''
pd.io.sql.read_sql(reviews, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


<a name="stage_3"></a>
## Шаг 3: Выполнение аналитических заданий:
[К оглавлению](#table_of_contents)

<a name="s_7"></a>
### Сколько книг вышло после 1 января 2000 года:
[К оглавлению](#table_of_contents)

In [7]:
books_count = '''
SELECT 
COUNT(title) AS cnt
FROM books
WHERE publication_date >= '2000-01-01'
'''
pd.io.sql.read_sql(books_count, con = engine)

Unnamed: 0,cnt
0,821


In [8]:
books_count2 = '''
SELECT 
COUNT(title) AS cnt
FROM books
WHERE publication_date > '2000-01-01'
'''
pd.io.sql.read_sql(books_count2, con = engine)

Unnamed: 0,cnt
0,819


#### Итог по пункту:
1. Если брать в расчет саму дату 01.01.2000 - то у нас получается, что вышла 821 книга.
2. Если же не брать в расчет эту дату, то 819 книг.

<a name="s_8"></a>
### Количество обзоров и средняя оценка:
[К оглавлению](#table_of_contents)

In [66]:
avg_rate = '''
SELECT
    books.book_id AS id,
    books.title AS title,
    COUNT(DISTINCT reviews.review_id) as count_reviews,
    AVG(ratings.rating) as avg_rating
FROM 
    books
LEFT JOIN reviews ON  reviews.book_id = books.book_id
LEFT JOIN ratings ON  ratings.book_id = books.book_id
GROUP BY
    books.book_id
ORDER BY
    avg_rating DESC,
    count_reviews DESC

'''
pd.io.sql.read_sql(avg_rate, con = engine)

Unnamed: 0,id,title,count_reviews,avg_rating
0,17,A Dirty Job (Grim Reaper #1),4,5.00
1,553,School's Out—Forever (Maximum Ride #2),3,5.00
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
4,972,Wherever You Go There You Are: Mindfulness Me...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,202,Drowning Ruth,3,2.00
997,316,His Excellency: George Washington,2,2.00
998,371,Junky,2,2.00


In [68]:
rate_review = '''
SELECT
    books.book_id AS id,
    books.title AS title,
    COUNT(DISTINCT reviews.review_id) AS count_reviews,
    AVG(ratings.rating) AS avg_rating
FROM 
    books
LEFT JOIN reviews ON  reviews.book_id = books.book_id
LEFT JOIN ratings ON  ratings.book_id = books.book_id
GROUP BY
    books.book_id
ORDER BY
    count_reviews DESC,
    avg_rating DESC

'''
pd.io.sql.read_sql(rate_review, con = engine)

Unnamed: 0,id,title,count_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
3,656,The Book Thief,6,4.264151
4,734,The Glass Castle,6,4.206897
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
996,387,Leonardo's Notebooks,0,4.000000
997,221,Essential Tales and Poems,0,4.000000
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


#### Обновленный итог по пункту:
1. Книги с рейтингом в 5 баллов имеють в среднем по 2 ревью.
2. В тройку лидеров входят:
    1. Сумерки (количество ревью = 7, средний балл 3.6),
    2. Гарри Поттер и узник Азкабана (количество ревью = 6, средний балл 4.4),
    3. Гарри Поттер и тайная комната (количество ревью = 6, средний балл 4.2.),

pd.read_sql("""
SELECT b.title, q1.reviews_count, q2.average_rating 
FROM books b
    LEFT JOIN (SELECT book_id, count(text) as reviews_count 
               FROM reviews GROUP BY book_id) as q1 ON b.book_id = q1.book_id
    LEFT JOIN (SELECT book_id, avg(rating) as average_rating 
               FROM ratings GROUP BY book_id) as q2 ON b.book_id = q2.book_id
""", con = engine)

<a name="s_9"></a>
### Издательство, которое выпустило больше всего книг 50+ страниц:
[К оглавлению](#table_of_contents)

In [11]:
publisher_per_book = '''
SELECT 
    publisher, COUNT(subquery.book_id) 
FROM 
    publishers
    LEFT JOIN (
        SELECT book_id, publisher_id FROM books WHERE num_pages > 50
    ) AS subquery ON publishers.publisher_id = subquery.publisher_id
GROUP BY
    publishers.publisher
ORDER BY COUNT(subquery.book_id) DESC
    
'''


pd.io.sql.read_sql(publisher_per_book, con = engine)

Unnamed: 0,publisher,count
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Bantam,19
...,...,...
335,Simon & Schuster Childrens Books,0
336,Atheneum Books for Young Readers,0
337,Tanglewood,0
338,Golden Books,0


In [12]:
top_publisher = '''
SELECT 
    publisher, COUNT(subquery.book_id) 
FROM 
    publishers
    LEFT JOIN (
        SELECT book_id, publisher_id FROM books WHERE num_pages > 50
    ) AS subquery ON publishers.publisher_id = subquery.publisher_id
GROUP BY
    publishers.publisher
ORDER BY COUNT(subquery.book_id) DESC
    LIMIT 1
'''

pd.io.sql.read_sql(top_publisher, con = engine)

Unnamed: 0,publisher,count
0,Penguin Books,42


#### Итог по пункту:
1. Penguin Books - лидер среди издателей по числу публикаций "толстых" книг.
    * Если копнуть в историю, то можно обнаружить, что это старейшее издательство Великобритании и не удивительно, что издательство на вершине списка.
2. Vintage - второй в списке
    * Американское издательство - можно считать антагонистом Penguin Books. 
3. Grand Central Publishing	 - третье место
    * Молодое издательство, "покупает" всех своими привлекательными обложками.

<a name="s_10"></a>
### Автор с самой высокой средней оценкой:
[К оглавлению](#table_of_contents)

In [13]:
rate_per_book = '''
SELECT 
    author, AVG(avg) 
    FROM books 
    RIGHT JOIN
    (SELECT book_id, COUNT(book_id), AVG(rating) 
FROM 
    ratings 
GROUP BY 
    book_id 
    HAVING COUNT(book_id) > 50) AS subquery
    ON books.book_id = subquery.book_id
    LEFT JOIN authors ON authors.author_id = books.author_id
GROUP BY 
    author
ORDER BY 
    avg DESC
'''


pd.io.sql.read_sql(rate_per_book, con = engine)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


In [14]:
top_book = '''
SELECT
      SUBQ.author AS author,
      AVG(SUBQ.avg_rating) AS avg_rating
FROM
(SELECT
     authors.author AS author,
     books.book_id AS id,
     AVG(ratings.rating) AS avg_rating,
     COUNT(ratings.rating) AS cnt_rating
FROM
    authors
INNER JOIN books ON books.author_id = authors.author_id
INNER JOIN ratings ON ratings.book_id = books.book_id
GROUP BY
    author,
    id
    HAVING
    COUNT(ratings.rating) >= 50) AS SUBQ
GROUP BY
    author
ORDER BY
    avg_rating DESC
'''

display(pd.io.sql.read_sql(top_book, con = engine).head(1))

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


pd.read_sql("""
SELECT a.author, avg(m.average_rating) as books_rating 
FROM (SELECT r.book_id, b.author_id, avg(r.rating) as average_rating 
      FROM ratings r
        LEFT JOIN books b ON b.book_id = r.book_id
      GROUP BY r.book_id, b.author_id
      HAVING count(r.rating) > 50) m
LEFT JOIN authors a ON m.author_id = a.author_id
GROUP BY a.author
ORDER BY books_rating DESC
LIMIT 1
""", con = engine)

#### Итог по пункту:
1. Джоан Роулинг - лидер списка писателей.
2. Второй Маркус Зусак.
3. Замыкает список лидеров - Дж.Р.Р. Толкиен.

<a name="s_11"></a>
### Среднее количество обзоров от пользователей, которые поставили больше 50 оценок:
[К оглавлению](#table_of_contents)

In [16]:
mean_review = '''
SELECT ROUND(avg(count)) 
FROM
(SELECT
    COUNT(text)
FROM 
    reviews
FULL OUTER JOIN (SELECT username,
                COUNT(rating_id) as cnt
FROM 
    ratings
GROUP BY
        username) AS cnt_rating
ON 
    cnt_rating.username = reviews.username
where cnt >= 50
GROUP BY 
    reviews.username) as count;                                  
'''
display(pd.io.sql.read_sql(mean_review, con = engine))

Unnamed: 0,round
0,24.0


#### Итог по пункту:
В среднем пользователи, кто ставил 50 и более оценок, оставляли 24 текстовых обзора.

pd.read_sql("""
SELECT avg(count) 
FROM (SELECT username, count(text) 
        FROM reviews re WHERE re.username in (
                    SELECT r.username FROM ratings r 
                    GROUP BY r.username
                    HAVING count(r.rating) > 50)
GROUP BY username) as counts
""", con = engine)

<a name="stage_4"></a>
## Шаг 4: Общие выводы:
[К оглавлению](#table_of_contents)

1. 1 января и после было выпущено 821 книга.
2. Много книг с оценками 5, но по 2-3 ревью (иногда 4).
    * Сумерки (количество ревью = 7, средний балл 3.6),
    * Далее идут книги по Гарри Поттеру (3-я и 2-ая)
3. Penguin Books выпустило 42 "толстые" книги, что делат это издательство лидером в списке.
4. Джоан Роулинг лидер по количеству средних оценок = 4.283844
    * Второй Маркус Зусак = 4.264151.
    * Замыкает список лидеров - Дж.Р.Р. Толкиен = 4.258446.
5. В среднем пользователи, кто ставил 50 и более оценок, оставляли 24 текстовых обзора.