# Анализ баз данных книжных издательств. 

Компанией приобретен крупный сервис для чтения книг по подписке. В нашем распоряжении есть базы данных, содержащие информацию о книгах, издательствах, авторах, а также пользовательские рецензии и рейтинг. 
Задача данного проекта - проанлизировать базу данных и ответить на следующие вопросы: 
- сколько книг вышло после 1 января 2000 года;
- количество обзоров и средний рейтинг для каждой книги;
- определить издательство, выпустившее наибольшее количество книг толще 50 страниц;
- определить автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками;
- среднее количество обзоров от пользователей, поставивших более 50 оценок. 

Полученная информация будет использована для создания нового торгового предложения. 



Описание исходных данных:


**Таблица "books"**
- 'book_id' - идентификатор книги;
- 'author_id' - идентификатор автора;
- 'title' - название книги;
- 'num_pages' - количество страниц;
- 'publication_date' - дата пубикации;
- 'publisher_id' - идентификатор издателя.


**Таблица "authors"**
- 'author_id' - идентификатор автора;
- 'author' - имя автора.


**Таблица "publishers"**
- 'publisher_id' - 
- 'publisher' - 


**Таблица "ratings"**
- 'rating_id' - идентификатор оценки;
- 'book_id' - идентификатор книги;
- 'username' - имя пользователя;
- 'rating' - оценка книги.


**Таблица "reviews"**
- 'review_id' - идентификатор обзора;
- 'book_id' - идентификатор книги;
- 'username' - имя пользователя;
- 'text' - текст обзора.

## Содержание

* [1. Загрузка данных](#chapter1)
    
* [2. Изучение данных](#chapter2)
    * [2.1.Таблица "books"](#Section_2_1)
    * [2.2.Таблица "authors"](#section_2_2)
    * [2.3.Таблица "publishers"](#Section_2_3)
    * [2.4.Таблица "ratings"](#section_2_4)
    * [2.5.Таблица "reviews"](#section_2_5)
* [3. Количество книг, опубликованных после 1 января 2000 года](#chapter3)
* [4. Количество обзоров и средний рейтинг для каждой книги](#chapter4)
* [5. Издательство, выпустившее наибольшее количество книг](#chapter5)
* [6. Автор с самой высокой средней оценкой книг](#chapter6)
* [7. Среднее количество обзоров от пользователей](#chapter7)

## 1. Загрузка данных <a class="anchor" id="chapter1"></a>

In [1]:
# импортируем библиотеки:
import pandas as pd
from sqlalchemy import create_engine

# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
               
                                                         db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
# функция для выполнения sql-запросов:
def read_sql(query):
    re = pd.io.sql.read_sql(query, con = engine)
    return re

## 2. Изучение данных: <a class="anchor" id="chapter2"></a>

### 2.1. Таблица 'books': <a class="anchor" id="section_2_1"></a>

In [3]:
books = """
SELECT *
FROM books
limit 5
"""

read_sql(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### 2.2. Таблица 'authors': <a class="anchor" id="section_2_2"></a>

In [4]:
authors = """
SELECT *
FROM authors
limit 5
"""

read_sql(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


### 2.3. Таблица 'publishers': <a class="anchor" id="section_2_3"></a>

In [5]:
publishers = """
SELECT *
FROM publishers
limit 5
"""

read_sql(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


### 2.4. Таблица 'ratings': <a class="anchor" id="section_2_4"></a>

In [6]:
ratings = """
SELECT *
FROM ratings
limit 5
"""

read_sql(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


### 2.5. Таблица 'reviews': <a class="anchor" id="section_2_5"></a>

In [7]:
reviews = """
SELECT *
FROM reviews
limit 5
"""

read_sql(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## 3. Количество книг, опубликованных после 1 января 2000 года. <a class="anchor" id="chapter3"></a>

In [8]:
books_count = """
            SELECT COUNT (*) AS books_count
            FROM books
            WHERE 
                books.publication_date >= '2000-01-01';
            """

read_sql(books_count)


Unnamed: 0,books_count
0,821


**821 книга была издана после 01.01.2000**

## 4. Количество обзоров и средний рейтинг для каждой книги. <a class="anchor" id="chapter4"></a>

In [9]:
rev_rat = """

SELECT books.book_id, 
    authors.author,
    books.title, 
    COUNT(DISTINCT review_id) AS number_users_reviews, 
    ROUND(AVG(ratings.rating),2) AS average_rating
FROM books
    LEFT JOIN reviews on books.book_id = reviews.book_id 
    LEFT JOIN ratings on books.book_id = ratings.book_id 
    LEFT JOIN authors on books.author_id = authors.author_id 
GROUP BY books.book_id, authors.author_id
ORDER BY average_rating desc 
"""
read_sql(rev_rat)[:5]

Unnamed: 0,book_id,author,title,number_users_reviews,average_rating
0,86,Mercedes Lackey,Arrows of the Queen (Heralds of Valdemar #1),2,5.0
1,901,Robert Kirkman/Tony Moore/Charlie Adlard/Cliff...,The Walking Dead Book One (The Walking Dead #...,2,5.0
2,390,William Faulkner,Light in August,2,5.0
3,972,Jon Kabat-Zinn,Wherever You Go There You Are: Mindfulness Me...,2,5.0
4,136,John Eldredge/Stasi Eldredge,Captivating: Unveiling the Mystery of a Woman'...,2,5.0


Составлена таблица, отражающая количество обзоров и рейтинг для каждой книги.

## 5. Издательство, выпустившее наибольшее количество книг (больше 50 страниц). <a class="anchor" id="chapter5"></a>

In [10]:
top_publisher = """
SELECT
    DISTINCT publishers.publisher_id,
    publishers.publisher,
    COUNT(books.book_id) OVER (PARTITION BY publishers.publisher_id) AS count_books
FROM books
    INNER JOIN publishers using(publisher_id)
WHERE books.num_pages > 50
ORDER BY count_books DESC
limit 1
"""

read_sql(top_publisher)

Unnamed: 0,publisher_id,publisher,count_books
0,212,Penguin Books,42


Наибольшее количество книг (42) выпустило издательство Penguin Books.

## 6. Автор с самой высокой средней оценкой книг, учитывая только популярные (50 и более оценок) <a class="anchor" id="chapter6"></a>

In [11]:
top_author = """
WITH books_rating(book_id, author_id, count_marks, avg_rating)
AS (
SELECT 
   DISTINCT book_id,
   authors.author_id,
   count(rating_id) OVER (PARTITION by book_id) AS count_marks,
   ROUND(avg(rating) OVER (PARTITION by book_id), 2) AS avg_rating
FROM books 
   LEFT JOIN ratings using(book_id)
   RIGHT JOIN authors using(author_id)
)
SELECT
    authors.author_id,
    authors.author, 
    COUNT(book_id) AS count_books,
    AVG(avg_rating) AS avg_rat    
FROM books_rating
INNER JOIN authors on books_rating.author_id = authors.author_id 
WHERE count_marks > 50
GROUP BY authors.author_id
ORDER BY avg_rat DESC 
limit 1
"""
read_sql(top_author)

Unnamed: 0,author_id,author,count_books,avg_rat
0,236,J.K. Rowling/Mary GrandPré,4,4.285


 Самая высокая средняя оценка среди популярных книг (т.е. у книг, получивших больше 50 оценок) - у Джоан Роулинг.

## 7. Среднее количество обзоров от пользователей, поставивших более 50 оценок. <a class="anchor" id="chapter7"></a>

In [12]:
avg_reviews = """
WITH users_rated_50_plus (username)
AS (
SELECT 
   ratings.username 
FROM ratings 
GROUP BY username
HAVING count(rating_id) > 50
),
users_count_reviews (username, count_reviews)
AS (
    SELECT 
        DISTINCT username,
        COUNT(review_id) OVER (PARTITION by username) AS count_reviews
    FROM users_rated_50_plus
        INNER JOIN reviews USING(username)
)
SELECT ROUND(AVG(count_reviews), 2) AS avg_reviews 
FROM users_count_reviews
"""
read_sql(avg_reviews)

Unnamed: 0,avg_reviews
0,24.33


Среднее количество обзоров от пользователей, поставивших более 50 оценок, составляет 24.3.