# Проект по SQL. Анализ издательской индустрии

**Описание проекта**

В рамках проекта проводится анализ данных в сфере издательской индустрии с целью проработки ценностного предложения нового онлайн-сервиса для чтения книг.

Основа исследования - данные о книгах, издательствах, авторах, а также пользовательские обзоры книг.

**Задачи исследования**:
1) посчитать количество книг, выпущенных после 1 января 2000 года;\
2) посчитать количество пользовательских обзоров и среднюю оценку для каждой книги;\
3) определить издательство, которое выпустило наибольшее число книг толще 50 страниц, чтобы исключить из анализа брошюры;\
4) определить автора с самой высокой средней оценкой книг с учетом только тех книг, у которых 50 и более пользовательских оценок;\
5) посчитать среднее количество обзоров пользователей, которые поставили более 48 оценок.

**Описание исходных данных**

- `Таблица books`\
Содержит данные о книгах:\
book_id — идентификатор книги;\
author_id — идентификатор автора;\
title — название книги;\
num_pages — количество страниц;\
publication_date — дата публикации книги;\
publisher_id — идентификатор издателя.


- `Таблица authors`\
Содержит данные об авторах:\
author_id — идентификатор автора;\
author — имя автора.


- `Таблица publishers`\
Содержит данные об издательствах:\
publisher_id — идентификатор издательства;\
publisher — название издательства.


- `Таблица ratings`\
Содержит данные о пользовательских оценках книг:\
rating_id — идентификатор оценки;\
book_id — идентификатор книги;\
username — имя пользователя, оставившего оценку;\
rating — оценка книги.


- `Таблица reviews`\
Содержит данные о пользовательских обзорах на книги:\
review_id — идентификатор обзора;\
book_id — идентификатор книги;\
username — имя пользователя, написавшего обзор;\
text — текст обзора.

**Структура данных**

![ER-диаграмма](https://pictures.s3.yandex.net/resources/scheme_1589269096.png)

## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa

In [2]:
# устанавливаем параметры подключения к базе данных
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [3]:
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

In [4]:
# функция для выполнения SQL-запросов с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

In [5]:
# формируем запросы и выводим данные по каждой таблице

#Книги
query = '''SELECT * FROM books'''
books = get_sql_data(query)
display(books)

#Авторы
query = '''SELECT * FROM authors'''
authors = get_sql_data(query)
display(authors)

#Издательства
query = '''SELECT * FROM publishers'''
publishers = get_sql_data(query)
display(publishers)

#Пользовательские рейтинги
query = '''SELECT * FROM ratings'''
ratings = get_sql_data(query)
display(ratings)

#Пользовательские обзоры
query = '''SELECT * FROM reviews'''
reviews = get_sql_data(query)
display(reviews)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


## Анализ данных

### Количество книг, выпущенных после 1 января 2000 года

In [6]:
books_count = '''
SELECT COUNT(*)
FROM books
WHERE publication_date > '2000-01-01'
'''
display(get_sql_data(books_count))

Unnamed: 0,count
0,819


Всего в базе данных есть информация о 1000 книгах, 819 из которых изданы после 1 января 2000 года.

### Количество пользовательских обзоров и средняя оценка для каждой книги

In [7]:
reviews_count_avg_rating = '''
SELECT b.title AS book_name,
        b.book_id AS id,
        COUNT(DISTINCT re.review_id) AS reviews_count,
        AVG(ra.rating) AS avg_rating
FROM books AS b
LEFT JOIN reviews AS re ON b.book_id = re.book_id
LEFT JOIN ratings AS ra ON b.book_id = ra.book_id
GROUP BY id
ORDER BY reviews_count DESC
'''
display(get_sql_data(reviews_count_avg_rating))

Unnamed: 0,book_name,id,reviews_count,avg_rating
0,Twilight (Twilight #1),948,7,3.662500
1,Water for Elephants,963,6,3.977273
2,The Glass Castle,734,6,4.206897
3,Harry Potter and the Prisoner of Azkaban (Harr...,302,6,4.414634
4,The Curious Incident of the Dog in the Night-Time,695,6,4.081081
...,...,...,...,...
995,Anne Rice's The Vampire Lestat: A Graphic Novel,83,0,3.666667
996,The Natural Way to Draw,808,0,3.000000
997,The Cat in the Hat and Other Dr. Seuss Favorites,672,0,5.000000
998,Essential Tales and Poems,221,0,4.000000


Книга с наибольшим количеством пользовательских обзоров - "Сумерки", на которую писали ревью 7 раз. Также в базе есть 6 книг без обзора. Для 44 книг отмечен наивысший рейтинг (5.0), включая книгу, на которую в базе нет ни одного обзора.

### Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [8]:
top_publishers = '''
SELECT p.publisher_id,
        p.publisher,
        COUNT(b.book_id) AS books_count
FROM publishers AS p
LEFT JOIN books AS b ON b.publisher_id = p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher_id, p.publisher
ORDER BY books_count DESC
LIMIT 10
'''
display(get_sql_data(top_publishers))

Unnamed: 0,publisher_id,publisher,books_count
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,33,Ballantine Books,19
5,35,Bantam,19
6,45,Berkley,17
7,284,St. Martin's Press,14
8,46,Berkley Books,14
9,83,Delta,13


В топе издательств, выпустивших самое большое количество книг объемом более 50 страниц - Penguin Books (42 книги). Далее со значительным отрывом следуют издательства Vintage (31 книга), Grand Central Publishing (25 книг) и Penguin Classics (24 книги).

### Автор с самой высокой средней оценкой книг с учетом только тех книг, у которых 50 и более пользовательских оценок

In [9]:
author_rating = '''
WITH avg_rating_author AS (SELECT a.author AS author,
                                    b.book_id AS id,
                            AVG(ra.rating) AS avg_rating
                            FROM authors AS a
                            JOIN books AS b ON b.author_id = a.author_id
                            JOIN ratings AS ra ON b.book_id = ra.book_id
                            GROUP BY author, id
                            HAVING COUNT(ra.rating) >=50)

SELECT avg_rating_author.author AS author,
        ROUND(AVG(avg_rating_author.avg_rating), 2) AS avg_rating
FROM avg_rating_author
GROUP BY author
ORDER BY avg_rating DESC
'''
display(get_sql_data(author_rating))

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.28
1,Markus Zusak/Cao Xuân Việt Khương,4.26
2,J.R.R. Tolkien,4.26
3,Louisa May Alcott,4.19
4,Rick Riordan,4.08
5,William Golding,3.9
6,J.D. Salinger,3.83
7,William Shakespeare/Paul Werstine/Barbara A. M...,3.79
8,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.79
9,Lois Lowry,3.75


Автором с самой высокой средней оценкой книг среди тех, которых пользователи оценивали 50 и более раз, является Джоан Роулинг со средней оценкой 4.28 по всем её работам. Помимо автора-лидера, в перечень авторов со средним рейтингом выше 4.0 входят Маркус Зусак, Дж.Р.Р. Толкин, Луиза Мэй Олкотт и Рик Риордан.

### Среднее количество обзоров пользователей, которые поставили более 48 оценок

In [10]:
review_avg_count = '''
WITH user_review_count AS (SELECT username, COUNT(review_id) AS review_count
                        FROM reviews
                        WHERE username IN (SELECT username
                        FROM ratings
                        GROUP BY username
                        HAVING COUNT(username) > 48)
                        GROUP BY username)

SELECT AVG(user_review_count.review_count) AS review_avg_count
FROM user_review_count
'''
display(get_sql_data(review_avg_count))

Unnamed: 0,review_avg_count
0,24.0


В среднем пользователи, которые ставят более 48 оценок, пишут по 24 отзыва.

 <div class="alert alert-success">
 <b>👍 Успех:</b> Все верно!
 </div>

## Выводы исследования

1. Всего в базе данных собрана информация о 1000 книгах, 819 из которых изданы после 1 января 2000 года.
2. Книга с наибольшим количеством пользовательских обзоров - "**Сумерки**", на которую писали ревью 7 раз. Также в базе есть 6 книг без обзора. Для 44 книг отмечен наивысший рейтинг (5.0), включая книгу, на которую в базе нет ни одного обзора.
3. В топе издательств, выпустивших самое большое количество книг объемом более 50 страниц - **Penguin Books** (42 книги). Далее со значительным отрывом следуют издательства Vintage (31 книга), Grand Central Publishing (25 книг) и Penguin Classics (24 книги).
4. Автором с наиболее высокой средней оценкой книг среди тех, которые пользователи оценивали 50 и более раз, является **Джоан Роулинг**. Средний рейтинг ее работ составляет 4.28. Помимо автора-лидера, в перечень авторов со средним рейтингом выше 4.0 входят Маркус Зусак, Дж.Р.Р. Толкин, Луиза Мэй Олкотт и Рик Риордан.
5. В среднем пользователи, которые ставят более 48 оценок, пишут по 24 отзыва.