# Анализ базы данных сервиса для чтения книг

Задача  — проанализировать базу данных.<br>
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

# Описание данных
**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

# Содержание
1. [Подключение к БД](#db_connecting)
2. [SQL запросы к БД](#sql_queries)
3. [Общий вывод](#general_conclusion)

<a id="db_connecting"></a>
## Подключение к БД

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student',  # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp',  # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,  # порт подключения
             'db': 'data-analyst-final-project-db'}  # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode': 'require'})

<a id="sql_queries"></a>
## SQL запросы к БД

**1. Посчитаем, сколько книг вышло после 1 января 2000 года**

In [2]:
query1 = '''
SELECT COUNT(book_id) AS books_count
FROM books
WHERE publication_date > '2000-01-01'
'''

books_count = pd.io.sql.read_sql(query1, con=engine).loc[0, 'books_count']
print(f'{books_count} книг вышло после 1 января 2000 года')

819 книг вышло после 1 января 2000 года


**2. Для каждой книги посчитаем количество обзоров и среднюю оценку**

In [3]:
query2 = '''
SELECT b.title AS books_name,
       COUNT(rev.review_id) AS reviews,
       AVG(rat.rating) AS avg_rating
FROM books b
     INNER JOIN reviews rev ON b.book_id = rev.book_id
     INNER JOIN ratings rat ON b.book_id = rat.book_id
GROUP BY books_name
'''
avg_rate_and_reviews = pd.io.sql.read_sql(query2, con=engine)
display(avg_rate_and_reviews.head())
print(f'Всего записей в выборке {avg_rate_and_reviews.shape[0]}')

Unnamed: 0,books_name,reviews,avg_rating
0,The Count of Monte Cristo,115,4.217391
1,Count Zero (Sprawl #2),4,2.5
2,The Botany of Desire: A Plant's-Eye View of th...,4,3.5
3,The Poisonwood Bible,110,4.363636
4,The Canterbury Tales,18,3.333333


Всего записей в выборке 993


**3. Определим издательство, которое выпустило наибольшее число книг толще 50 страниц**

In [4]:
query3 = '''
SELECT p.publisher AS publisher_name,
       COUNT(b.book_id) as books_count
FROM publishers p
     INNER JOIN books b ON p.publisher_id = b.publisher_id
WHERE b.num_pages > 50
GROUP BY publisher_name
ORDER BY books_count DESC
LIMIT 1
'''

most_books_publisher = pd.io.sql.read_sql(
    query3, con=engine).loc[0, 'publisher_name']
print(
    'Издательство, которое выпустило наибольшее число книг толще 50 страниц - {}'.format(
        most_books_publisher)
)

Издательство, которое выпустило наибольшее число книг толще 50 страниц - Penguin Books


**4. Определим автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками**

In [5]:
query4 = '''
SELECT a.author AS author_name,
       AVG(rat.rating) AS avg_rating
FROM authors a
     INNER JOIN books b ON a.author_id = b.author_id
     INNER JOIN ratings rat ON rat.book_id = b.book_id
GROUP BY author_name
HAVING COUNT(rat.rating_id) > 50
ORDER BY avg_rating DESC
LIMIT 1
'''

most_avg_rating_author = pd.io.sql.read_sql(
    query4, con=engine).loc[0, 'author_name']
print(
    '{} автор с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками'.format(
        most_avg_rating_author)
)

J.K. Rowling/Mary GrandPré автор с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками


**5. Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок**

In [6]:
query5 = '''
SELECT CAST(FLOOR(AVG(rev_per_user.reviews_count)) AS int) AS reviews_avg_count
FROM (SELECT rat.username AS user_name,
             COUNT(rev.review_id) AS reviews_count
      FROM ratings rat
           INNER JOIN books b ON rat.book_id = b.book_id
           INNER JOIN reviews rev ON b.book_id = rev.book_id
      GROUP BY user_name
      HAVING COUNT(rat.rating_id) > 50
) AS rev_per_user
'''

most_avg_rating_author = pd.io.sql.read_sql(query5, con=engine).loc[0, 'reviews_avg_count']
print(
    'Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - {}'.format(
    most_avg_rating_author)
)

Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 163


<a id="general_conclusion"></a>
## Общий вывод

1. 819 книг вышло после 1 января 2000 года;
2. Издательство, которое выпустило наибольшее число книг толще 50 страниц - Penguin Books;
3. J.K. Rowling/Mary GrandPré автор с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками;
4. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 163.