<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Посчитаем,-сколько-книг-вышло-после-1-января-2000-года" data-toc-modified-id="Посчитаем,-сколько-книг-вышло-после-1-января-2000-года-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Посчитаем, сколько книг вышло после 1 января 2000 года</a></span></li><li><span><a href="#Посчитаем-для-каждой-книги-количество-обзоров-и-среднюю-оценку" data-toc-modified-id="Посчитаем-для-каждой-книги-количество-обзоров-и-среднюю-оценку-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Посчитаем для каждой книги количество обзоров и среднюю оценку</a></span></li><li><span><a href="#Определим-издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц" data-toc-modified-id="Определим-издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Определим издательство, которое выпустило наибольшее число книг толще 50 страниц</a></span></li><li><span><a href="#Определим-автора-с-самой-высокой-средней-оценкой-книг" data-toc-modified-id="Определим-автора-с-самой-высокой-средней-оценкой-книг-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Определим автора с самой высокой средней оценкой книг</a></span></li><li><span><a href="#Посчитаем-среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок" data-toc-modified-id="Посчитаем-среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок</a></span></li></ul></div>

# Проект - исследование базы данных крупного сервиса для чтения книг по подписке

**Цель исследования** - сформулировать ценностное предложение для нового продукта

# Описание данных
**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

# Подключение к базе данных

In [None]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

# Исследование таблиц из базы данных

In [None]:
books = ''' SELECT *
            FROM books
        '''
pd.io.sql.read_sql(books, con = engine) 

In [None]:
authors = ''' SELECT *
              FROM authors
          '''
pd.io.sql.read_sql(authors, con = engine) 

In [None]:
publishers = ''' SELECT *
                 FROM publishers
             '''
pd.io.sql.read_sql(publishers, con = engine) 

In [None]:
ratings = ''' SELECT *
              FROM ratings
          '''
pd.io.sql.read_sql(ratings, con = engine) 

In [None]:
reviews = ''' SELECT *
              FROM reviews
          '''
pd.io.sql.read_sql(reviews, con = engine) 

# Исследовальский анализ данных

## Посчитаем, сколько книг вышло после 1 января 2000 года

In [None]:
books_after_2000 = ''' 
SELECT COUNT(book_id)
FROM books
WHERE publication_date > '2000-01-01'
'''
pd.io.sql.read_sql(books_after_2000, con = engine) 

**Вывод**

819 книг были опубликованы после 1 января 2000 года

## Посчитаем для каждой книги количество обзоров и среднюю оценку

In [None]:
mean_rating = '''
SELECT b.book_id,
            title,
COUNT(DISTINCT rev.review_id) AS total_reviews, AVG(r.rating) AS mean_rating
FROM books AS b LEFT JOIN reviews AS rev ON b.book_id = rev.book_id
LEFT JOIN ratings AS r ON rev.book_id = r.book_id
GROUP BY b.book_id
ORDER BY total_reviews DESC;
'''

pd.io.sql.read_sql(mean_rating, con = engine)

**Вывод**

- количество обзоров до 7, также их может и не быть 
- средняя оценка имеет диапазон 1.5-5
- Twilight - книга с наибольшим количеством обзоров (7)

## Определим издательство, которое выпустило наибольшее число книг толще 50 страниц 

In [None]:
page = ''' 
SELECT publisher, count(book_id) AS books_count
FROM (SELECT books.*, publishers.publisher
FROM books, publishers
WHERE books.publisher_id = publishers.publisher_id) AS tbl
WHERE num_pages > 50
GROUP BY publisher
ORDER BY books_count DESC 
LIMIT 1;
'''
pd.io.sql.read_sql(page, con = engine) 

**Вывод**

Издательство Penguin Books выпустило наибольшее число книг толще 50 страниц

## Определим автора с самой высокой средней оценкой книг 

In [None]:
#учитывайте только книги с 50 и более оценками
pop_author = '''
SELECT authors.author, avg(book_avg_ratings.book_rating_avg) as author_rating_avg
FROM books
INNER JOIN (SELECT book_id, avg(rating) as book_rating_avg
FROM ratings
GROUP BY book_id
HAVING COUNT(*) >= 50) AS book_avg_ratings
ON book_avg_ratings.book_id = books.book_id
INNER JOIN authors ON authors.author_id = books.author_id
GROUP BY authors.author
ORDER BY author_rating_avg desc                   
'''
pd.io.sql.read_sql(pop_author, con = engine)

**Вывод**

Автор с самой высокой средней оценкой книг среди книг с 50 и более оценками - J.K. Rowling/Mary GrandPré, оценка - 4.28

##  Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [None]:
mean_review = '''
SELECT AVG(tbl.count)
FROM (SELECT total.username, COUNT(total.username)
FROM (SELECT username, COUNT(rating_id) AS count
FROM ratings
GROUP BY username) as total
JOIN reviews ON reviews.username = total.username
WHERE total.count > 50
GROUP BY total.username) as tbl          
'''
pd.io.sql.read_sql(mean_review, con = engine)

**Вывод**

Активные пользователи в среднем пишут 24 обзора.

# Общий вывод по анализу данных

Данные содержат информацию о 1000 книг, 636 авторах, 340 издателях. Было зарегистрировано 6456 оценок по книгам и оставлено 2793 отзыва.
- 819 книг были опубликованы после 1 января 2000 года
- количество обзоров до 7, также их может и не быть
- средняя оценка имеет диапазон 1.5-5
- издательство Penguin Books выпустило наибольшее число книг толще 50 страниц
- автор с самой высокой средней оценкой книг среди книг с 50 и более оценками - J.K. Rowling/Mary GrandPré, оценка - 4.28
- активные пользователи в среднем пишут 24 обзора.