# Аналитика базы данных SQL для сервиса чтения книг по подписке: выпускной проект

## Описание проекта:

**Цель проекта:** с помощью SQL запросов проанализировать базу данных сервиса для чтения книг по подписке с целью извлечения полезных инсайтов для его дальнейшего развития.

**Основные задачи проекта:**
- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги рассчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
- Определить автора с самой высокой средней оценкой книг;
- Рассчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Главные выводы:

* Мы выяснили, что после 1 января 2000 г., вышло 819 книг; 
* Рассчитали для каждой книги количество обзоров и среднюю оценку; 
* Определили издательство, которое выпустило наибольшее число книг - им оказался издатель Penguin Books; 
* Установили, что самая высокая средняя оценка (среди 50 и более оценок) у книг J.K. Rowling (с иллюстрациями Mary GrandPré) - 4.28 балла;
* Также мы рассчитали, что в среднем пользователи, которые поставили более 50 оценок, оставили 24.33 обзора.

## Содержание проекта:<a name="introduction"></a>

1. [Общая информация о таблицах](#paragraph1)
2. [Посчитать, сколько книг вышло после 1 января 2000 года](#paragraph2)
3. [Для каждой книги рассчитать количество обзоров и среднюю оценку](#paragraph3)
4. [Определить издательство, которое выпустило наибольшее число книг толще 50 страниц](#paragraph4)
5. [Определить автора с самой высокой средней оценкой книг](#paragraph5)
6. [Рассчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок](#paragraph6)
7. [Общий вывод](#paragraph7)

In [1]:
import pandas as pd 
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', 
             'pwd': '**********', 
             'host': '**********.mdb.yandexcloud.net', 
             'port': ****,
             'db': 'data-analyst-final-project-db'}

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],  
                                                         db_config['pwd'],  
                                                         db_config['host'],  
                                                         db_config['port'],  
                                                         db_config['db']) 

engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
def sql(query):
    return pd.io.sql.read_sql(query, con = engine)

## 1. Общая информация о таблицах<a name="paragraph1"></a>

* Таблица `books`

In [3]:
sql('''

SELECT *
FROM books
LIMIT 5

''')

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Вывод:** таблица `books` cодержит данные о книгах: `book_id` — идентификатор книги, `author_id` — идентификатор автора, `title` — название книги, `num_pages` — количество страниц, `publication_date` — дата публикации книги, `publisher_id` — идентификатор издателя.

* Таблица `authors`

In [4]:
sql('''

SELECT *
FROM authors
LIMIT 5

''')

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Вывод:** таблица `authors` содержит данные об авторах: `author_id` — идентификатор автора; `author` — имя автора.

* Таблица `publishers`

In [5]:
sql('''

SELECT *
FROM publishers
LIMIT 5

''')

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Вывод:** таблица `publishers` содержит данные об издательствах: `publisher_id` — идентификатор издательства; `publisher` — название издательства.

* Таблица `ratings`

In [6]:
sql('''

SELECT *
FROM ratings
LIMIT 5

''')

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Вывод:** таблица `ratings` содержит данные о пользовательских оценках книг: `rating_id` — идентификатор оценки; `book_id` — идентификатор книги; `username` — имя пользователя, оставившего оценку; `rating` — оценка книги.

* Таблица `reviews`

In [7]:
sql('''

SELECT *
FROM reviews
LIMIT 5

''')

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


**Вывод:** таблица `reviews` содержит данные о пользовательских обзорах: `review_id` — идентификатор обзора; `book_id` — идентификатор книги; `username` — имя автора обзора; `text` — текст обзора.

[Вернуться к оглавлению](#introduction)

## 2. Посчитать, сколько книг вышло после 1 января 2000 года<a name="paragraph2"></a>

In [8]:
sql('''

SELECT COUNT(book_id) AS n_books
FROM books
WHERE publication_date > '2000-01-01'

''')

Unnamed: 0,n_books
0,819


**Вывод:** таким образом, после 1 января 2000 г., вышло 819 книг.

[Вернуться к оглавлению](#introduction)

## 3. Для каждой книги рассчитать количество обзоров и среднюю оценку<a name="paragraph3"></a>

In [9]:
sql('''

WITH books_t1 AS
  (SELECT book_id,
          COUNT(review_id) AS n_reviews
   FROM reviews
   GROUP BY book_id),
     books_t2 AS
  (SELECT book_id,
          AVG(rating) AS avg_rating
   FROM ratings
   GROUP BY book_id)
SELECT title,
       n_reviews,
       avg_rating
FROM books
LEFT JOIN books_t1 ON books.book_id = books_t1.book_id
LEFT JOIN books_t2 ON books.book_id = books_t2.book_id
GROUP BY title,
         n_reviews,
         avg_rating
ORDER BY avg_rating DESC,
         n_reviews DESC
LIMIT 5

''')

Unnamed: 0,title,n_reviews,avg_rating
0,The Cat in the Hat and Other Dr. Seuss Favorites,,5.0
1,A Dirty Job (Grim Reaper #1),4.0,5.0
2,School's Out—Forever (Maximum Ride #2),3.0,5.0
3,Moneyball: The Art of Winning an Unfair Game,3.0,5.0
4,Crucial Conversations: Tools for Talking When ...,2.0,5.0


**Вывод:** в топ 5 по среднему рейтингу попали книги: The Cat in the Hat and Other Dr. Seuss Favorites (есть только оценки без обзоров), A Dirty Job (Grim Reaper #1), School's Out—Forever (Maximum Ride #2), Moneyball: The Art of Winning an Unfair Game, Crucial Conversations.

[Вернуться к оглавлению](#introduction)

## 4. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц<a name="paragraph4"></a>

In [10]:
sql('''

WITH books_t AS
  (SELECT *
   FROM books
   LEFT JOIN publishers ON books.publisher_id = publishers.publisher_id)
SELECT DISTINCT publisher,
                COUNT(title) AS n_titles
FROM books_t
WHERE books_t.num_pages > 50
GROUP BY publisher
ORDER BY n_titles DESC
LIMIT 1

''')

Unnamed: 0,publisher,n_titles
0,Penguin Books,42


**Вывод:** наибольшее количество книг толщиной более 50 страниц было выпущено издателем Penguin Books - 42 книги.

[Вернуться к оглавлению](#introduction)

## 5. Определить автора с самой высокой средней оценкой книг<a name="paragraph5"></a>

In [11]:
sql('''

WITH books_t1 AS
  (SELECT DISTINCT ratings.book_id,
                   COUNT(DISTINCT rating_id) AS n_ratings,
                   AVG(rating) AS avg_rating
   FROM ratings
   GROUP BY ratings.book_id
   HAVING COUNT(DISTINCT rating_id) >= 50),
     books_t2 AS
  (SELECT *
   FROM books
   LEFT JOIN authors ON books.author_id = authors.author_id)
SELECT author,
       AVG(avg_rating) AS avg_rating_for_author
FROM books_t1
INNER JOIN books_t2 ON books_t1.book_id = books_t2.book_id
GROUP BY author
ORDER BY avg_rating_for_author DESC


''')

Unnamed: 0,author,avg_rating_for_author
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


**Вывод:** самая высокая средняя оценка (среди 50 и более оценок) у J.K. Rowling / Mary GrandPré - 4.28 балла.

[Вернуться к оглавлению](#introduction)

## 6. Рассчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок<a name="paragraph6"></a>

In [12]:
sql('''

WITH ratings_t AS
  (SELECT username,
          COUNT(rating_id) AS n_ratings
   FROM ratings
   GROUP BY username
   HAVING COUNT(ratings.rating_id) > 50)
SELECT AVG(n_reviews) AS avg_reviews
FROM
  (SELECT ratings_t.username,
          COUNT(DISTINCT review_id) AS n_reviews
   FROM ratings_t
   LEFT JOIN reviews ON ratings_t.username = reviews.username
   GROUP BY ratings_t.username) AS reviews_t

''')

Unnamed: 0,avg_reviews
0,24.333333


**Вывод:** в среднем пользователи, которые поставили более 50 оценок, оставили 24.33 обзора.

[Вернуться к оглавлению](#introduction)

## 7. Общий вывод<a name="paragraph7"></a>

В данном проекте мы изучили базы данных сервиса чтения книг по подписке и нашли несколько интересных инсайтов в данных:
* Мы выяснили, что после 1 января 2000 г., вышло 819 книг; 
* Рассчитали для каждой книги количество обзоров и среднюю оценку; 
* Определили издательство, которое выпустило наибольшее число книг - им оказался издатель Penguin Books; 
* Установили, что самая высокая средняя оценка (среди 50 и более оценок) у книг J.K. Rowling (с иллюстрациями Mary GrandPré) - 4.28 балла;
* Также мы рассчитали, что в среднем пользователи, которые поставили более 50 оценок, оставили 24.33 обзора.

[Вернуться к оглавлению](#introduction)