# Анализ базы данных сервиса для чтения книг по подписке

**Описание проекта**

Компанией был куплен крупный сервис для чтения книг по подписке. Необходимо проанализировать базу данных. В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Цель проекта :** Проанализировать информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг для формулирования ценностного предложения для нового продукта.

## Подключение к базе и обзоры таблиц

<div class="alert alert-info">Импорт библиотек</div>

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

<div class="alert alert-info">Параметры для подключения к БД</div>

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных

<div class="alert alert-info">Подключение к базе данных</div>

In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

<div class="alert alert-info">Обзор таблицы books</div>

In [4]:
# Формируем sql-запрос. 
query = ''' SELECT *
            FROM books
            LIMIT 5
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<div class="alert alert-info">Обзор таблицы authors</div>

In [5]:
query = ''' SELECT *
            FROM authors
            LIMIT 5
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<div class="alert alert-info">Обзор таблицы publishers</div>

In [6]:
query = ''' SELECT *
            FROM publishers
            LIMIT 5
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<div class="alert alert-info">Обзор таблицы ratings</div>

In [7]:
query = ''' SELECT *
            FROM ratings
            LIMIT 5
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<div class="alert alert-info">Обзор таблицы reviews</div>

In [8]:
query = ''' SELECT *
            FROM reviews
            LIMIT 5
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Анализ базы данных

<div class="alert alert-info">Количество книг вышедших после 1 января 2000 года</div>

In [9]:
query = ''' SELECT COUNT(book_id)
            FROM books 
            WHERE publication_date >= '2000-01-01'
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,count
0,821


**Промужеточный вывод:**
- начиная со 1 января 2000 года вышло 821 книг.

<div class="alert alert-info">Количество обзоров и средняя оценка для каждой из этих книг</div>

In [10]:
query = ''' SELECT b.book_id,
                   b.title,
                   b.count_reviews,
                   AVG(ra.rating) as avg_rating
            FROM 
            (SELECT a.book_id,
                    a.title,
                    COUNT(r.review_id) as count_reviews
            FROM books as a 
            LEFT JOIN reviews as r ON r.book_id = a.book_id
            GROUP BY a.book_id, a.title) as b
            LEFT JOIN ratings ra ON ra.book_id=b.book_id
            GROUP BY b.book_id, b.title, b.count_reviews
            ORDER BY avg_rating DESC
        '''

display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,625,The Adventures of Tom Sawyer and Adventures of...,1,5.00
1,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
4,62,Alas Babylon,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,202,Drowning Ruth,3,2.00
997,316,His Excellency: George Washington,2,2.00
998,371,Junky,2,2.00


**Промужеточный вывод:**
- с 2000го года вышло около 22 тысяч обзоров на книги
- средняя оценка этих книг - 3,93

<div class="alert alert-info">Издательство, которое выпустило наибольшее число книг толще 50 страниц </div>

In [11]:
query = ''' 
            SELECT a.count_book,
                   p.publisher  
            FROM
            (SELECT publisher_id,
                    COUNT(book_id) as count_book
            FROM books
            WHERE num_pages > 50
            GROUP BY (publisher_id)
            ORDER BY (count_book) DESC) as a 
            LEFT JOIN publishers p ON p.publisher_id = a.publisher_id
            LIMIT 1
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,count_book,publisher
0,42,Penguin Books


**Промужеточный вывод:**
- Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц

<div class="alert alert-info">Автор с самой высокой средней оценкой книг. (Учитываютя только книги с 50 и более оценками) </div>

In [12]:
query = ''' SELECT a.author,
                   AVG(r.avg_rating)
            FROM
            (SELECT book_id,
                   AVG(rating) as avg_rating
            FROM ratings
            GROUP BY book_id
            HAVING COUNT(rating) >= 50
            ) as r
            LEFT JOIN books as b ON b.book_id=r.book_id
            LEFT JOIN authors as a ON b.author_id=a.author_id
            GROUP BY author
            ORDER BY (AVG(r.avg_rating)) DESC
            LIMIT 1
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


**Промужеточный вывод:**
- Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré
- Средний рейтинг его книг  - 4.28

<div class="alert alert-info"> Среднее количество обзоров от пользователей, которые поставили больше 50 оценок</div>

In [13]:
query = ''' 
            SELECT AVG(b.count_reiwiew)
            FROM
            (SELECT COUNT(r.review_id) as count_reiwiew
            FROM
            (SELECT COUNT(rating_id),
                   username
            FROM ratings
            GROUP BY username
            HAVING COUNT(rating_id) > 50) as a
            INNER JOIN reviews as r ON a.username = r.username
            GROUP BY r.username) as b
            
        '''
display(pd.io.sql.read_sql(query, con=engine))

Unnamed: 0,avg
0,24.333333


**Промужеточный вывод:**

- Среднее количество обзоров от пользователей, которые поставили больше 50 оценок  -  24,3 обзора