# Анализ базы данных

На волне возросшего интереса людей к чтению книг компания решила купить крупный сервис для чтения книг по подписке. Необходимо изучить базу данных купленного сервиса.

**Цель** - проанализировать базу данных. Полученная информация поможет сформулировать ценностное предложение для нового продукта.  

**Задачи**:
- Посчитать, сколько книг вышло после 1 января 2000 года
- Для каждой книги посчитать количество обзоров и среднюю оценку
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры
- Определить автора с самой высокой средней оценкой книг — учитывать необходимо только книги с 50 и более оценками
- Посчитайтать среднее количество обзоров от пользователей, которые поставили больше 50 оценок  

**Описание базы данных**:  

Таблица books:
- book_id — идентификатор книги
- author_id — идентификатор автора
- title — название книги
- um_pages — количество страниц
- publication_dat — дата публикации книги
- publisher_id — идентификатор издателя

Таблица authors:
- author_id — идентификатор автора
- author — имя автора

Таблица publishers:
- publisher_id — идентификатор издательства
- publisher — название издательства

Таблица ratings:
- rating_id — идентификатор оценки
- book_id — идентификатор книги
- username — имя пользователя, оставившего оценку
- rating — оценка книги

Таблица reviews:
- review_id — идентификатор обзора
- book_id — идентификатор книги
- username — имя пользователя, написавшего обзор
- text — текст обзора  

**Содержание**:
1. <a href='#Импорт-библиотек-и-подключение-к-БД'>Импорт библиотек и подключение к БД</a>
2. <a href='#Исследование-таблиц'>Исследование таблиц</a>
3. <a href='#Выполнение-запросов-к-БД'>Выполнение запросов к БД</a>
4. <a href='#Выводы'>Выводы</a>

### Импорт библиотек и подключение к БД

Импорт библиотек

In [1]:
import pandas as pd
from sqlalchemy import create_engine

Создание подключения к базе данных

In [2]:
db_config = {
    'user': 'praktikum_student',
    'pwd': 'Sdf4$2;d-d30pp',
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,
    'db': 'data-analyst-final-project-db'
}

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
)

engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Создание функции для выполнения запросов.

In [3]:
def query(engine):
    
    def execute(query):
        return pd.io.sql.read_sql(query, con = engine)
    
    return execute

In [4]:
execute_query = query(engine)

### Исследование таблиц

Исследуем таблицы. Выведем первые строки всех таблиц.

In [5]:
print('Первые строки')
for table in ['books', 'authors', 'ratings', 'reviews', 'publishers']:
    query = f"SELECT * FROM {table}"
    print(f'Таблица {table}:')
    display(execute_query(query))
    print('--------------')

Первые строки
Таблица books:


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


--------------
Таблица authors:


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


--------------
Таблица ratings:


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


--------------
Таблица reviews:


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


--------------
Таблица publishers:


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


--------------


### Выполнение запросов к БД

Посчитаем, сколько книг вышло после 1 января 2000 года

In [6]:
query = "SELECT COUNT(book_id) FROM books WHERE publication_date > '2000-01-01'"

execute_query(query)

Unnamed: 0,count
0,819


После 1 января 200 года вышло 819 книг.  

Для каждой книги посчитаем количество обзоров и среднюю оценку

In [7]:
query = '''
    SELECT books.book_id, title, AVG(rating), COUNT(DISTINCT review_id) FROM books 
    LEFT JOIN ratings ON books.book_id = ratings.book_id
    LEFT JOIN reviews ON books.book_id = reviews.book_id
    GROUP BY books.book_id
'''

books_ratings = execute_query(query)
books_ratings.columns = ['book_id', 'book_name', 'avg_rating', 'reviews_count']
books_ratings

Unnamed: 0,book_id,book_name,avg_rating,reviews_count
0,1,'Salem's Lot,3.666667,2
1,2,1 000 Places to See Before You Die,2.500000,1
2,3,13 Little Blue Envelopes (Little Blue Envelope...,4.666667,3
3,4,1491: New Revelations of the Americas Before C...,4.500000,2
4,5,1776,4.000000,4
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.666667,3
996,997,Xenocide (Ender's Saga #3),3.400000,3
997,998,Year of Wonders,3.200000,4
998,999,You Suck (A Love Story #2),4.500000,2


Получили датафрейм, содержащий количество обзоров и среднюю оценку для каждой книги.  

Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры

In [8]:
query = '''
    SELECT publisher, COUNT(subquery.book_id) FROM publishers
    LEFT JOIN (
        SELECT book_id, publisher_id FROM books WHERE num_pages > 50
    ) AS subquery ON publishers.publisher_id = subquery.publisher_id
    GROUP BY publishers.publisher
    ORDER BY COUNT(subquery.book_id) DESC
    LIMIT 1
'''

execute_query(query)

Unnamed: 0,publisher,count
0,Penguin Books,42


Больше всего книг выпустило издательство "Penguin Books". Оно выпустило 42 книги.  

Определим автора с самой высокой средней оценкой книг — учтём только книги с 50 и более оценками

In [9]:
query = '''
    SELECT author, AVG(avg) FROM books 
    RIGHT JOIN
    (SELECT book_id, COUNT(book_id), AVG(rating) 
    FROM ratings 
    GROUP BY book_id 
    HAVING COUNT(book_id) > 50) AS subquery
    ON books.book_id = subquery.book_id
    LEFT JOIN authors ON authors.author_id = books.author_id
    GROUP BY author
    ORDER BY avg DESC
'''

execute_query(query).head(1)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


Самую высокую среднюю оценку имеют книги автора J.K. Rowling/Mary GrandPré.  

Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [10]:
query = '''
    SELECT AVG(count) FROM
    (SELECT reviews.username, COUNT(review_id) FROM reviews RIGHT JOIN 
    (SELECT username FROM ratings GROUP BY username HAVING COUNT(rating_id) > 50) AS subquery
    ON reviews.username = subquery.username
    GROUP BY reviews.username) AS subquery2
'''

execute_query(query)

Unnamed: 0,avg
0,24.333333


Те, кто поставили больше 50 оценок, в среднем оставляют 24.3 обзора.

### Выводы

- После 1 января 2000 года вышло 819 книг
- Получили датафрейм, содержащий количество обзоров и среднюю оценку для каждой книги
- Больше всего книг выпустило издательство "Penguin Books". Оно выпустило 42 книги
- Самую высокую среднюю оценку имеют книги автора J.K. Rowling/Mary GrandPré
- Те, кто поставили больше 50 оценок, в среднем оставляют 24.3 обзора