# Проект по SQL

## Задача

На основе данных сервиса-конкурента сформулировать ценностное предложение для нового книжного приложения.

## Подключение к базе данных

In [2]:
import pandas as pd
from sqlalchemy import create_engine
db_config = {'user': 'user',
'pwd': 'pwd', 
'host': 'host',
'port': 1111,
'db': 'db'}
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Описание данных

In [3]:
pd.io.sql.read_sql('SELECT * FROM books;', con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


Таблица `books` содержит данные о 1000 книг:
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

In [4]:
pd.io.sql.read_sql('SELECT * FROM authors;', con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


Таблица `authors` cодержит данные о 636 авторах:
- `author_id` — идентификатор автора;
- `author` — имя автора.

In [5]:
pd.io.sql.read_sql('SELECT * FROM publishers;', con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


Таблица `publishers` cодержит данные о 340 издательствах:
- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства.

In [6]:
pd.io.sql.read_sql('SELECT * FROM ratings;', con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


Таблица `ratings` cодержит данные о 6456 оценках книг разными пользователями:
- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [7]:
pd.io.sql.read_sql('SELECT * FROM reviews;', con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


Таблица `reviews` cодержит данные о 2793 пользовательских обзорах на книги:
- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Исследование

**1) Посчитайте количество книг, выпущенных после 1 января 2000 года**

In [8]:
pd.io.sql.read_sql(
    """SELECT COUNT(*)
     FROM books
     WHERE publication_date >= '2000-01-01';""", 
    con = engine)

Unnamed: 0,count
0,821


В нашей БД более 80% книг были изданы в 21 веке (821 из 1000).

**2) Посчитайте количество пользовательских обзоров и среднюю оценку для каждой книги**

In [17]:
pd.io.sql.read_sql(
    """
    SELECT
    books.title,
    rating_tab.rating AS rating,
    COALESCE(review_tab.review, 0) AS reviews
    FROM books
    LEFT JOIN 
        (
        SELECT 
        book_id AS book_id,
        AVG(rating) AS rating
        FROM ratings
        GROUP BY book_id)
        AS rating_tab
    ON books.book_id = rating_tab.book_id
    LEFT JOIN 
        (
        SELECT 
        book_id AS book_id,
        COUNT(review_id) AS review
        FROM reviews
        GROUP BY book_id)
        AS review_tab
    ON books.book_id = review_tab.book_id
    ORDER BY reviews desc
    LIMIT 10;
    """, 
    con = engine)

Unnamed: 0,title,rating,reviews
0,Twilight (Twilight #1),3.6625,7
1,The Alchemist,3.789474,6
2,The Da Vinci Code (Robert Langdon #2),3.830508,6
3,The Glass Castle,4.206897,6
4,The Hobbit or There and Back Again,4.125,6
5,The Road,3.772727,6
6,Outlander (Outlander #1),4.125,6
7,The Curious Incident of the Dog in the Night-Time,4.081081,6
8,Water for Elephants,3.977273,6
9,Eat Pray Love,3.395833,6


Так выглядит ТОП-10 самых популярных книг в базе (на них было оставлено больше всего отзывов), однако, это не книги с самым высоким рейтингом, а, скорее, разрекламированные бестселлеры, классические шедевры и книги, на которые были сняты популярные фильмы. 

**3) Определите издательство, которое издало наибольшее число книг толще 50 страниц (так вы исключите из анализа различные брошюры)**

In [14]:
pd.io.sql.read_sql(
    """
    SELECT
    publishers.publisher AS publisher,
    COUNT(books.book_id) AS published_books
    FROM publishers
    LEFT JOIN books ON publishers.publisher_id = books.publisher_id
    WHERE books.num_pages > 50
    GROUP BY publisher
    ORDER BY published_books DESC;
    """, 
    con = engine)

Unnamed: 0,publisher,published_books
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


Penguin Books - издательство, которое издало больше всего книг из нашей базы (42).

**4) Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более пользовательскими оценками**

In [15]:
pd.io.sql.read_sql(
    """
    SELECT
    authors.author AS author,
    AVG(ratings.rating) AS rating
    FROM authors
    JOIN books ON authors.author_id = books.author_id
    JOIN ratings ON books.book_id = ratings.book_id
    WHERE ratings.book_id IN
        (
        SELECT book_id
        FROM ratings
        GROUP BY book_id
        HAVING COUNT(rating_id) >= 50
        )
    GROUP BY author
    ORDER BY rating DESC;
    """, 
    con = engine)

Unnamed: 0,author,rating
0,J.K. Rowling/Mary GrandPré,4.287097
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.246914
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Lois Lowry,3.75


Роулинг - автор с самой высокой средней оценкой книг.

**5) Посчитайте среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок**

In [16]:
pd.io.sql.read_sql(
    """
    SELECT
    AVG(sum_reviews) AS avg_reviews,
    COUNT(*) AS n_users
    FROM
        (
        SELECT 
        ratings.username AS user,
        COUNT(ratings.rating_id) AS sum_ratings
        FROM ratings
        GROUP BY ratings.username
        HAVING COUNT(ratings.rating_id) > 50
        )
    AS t1
    LEFT JOIN
        (
        SELECT 
        reviews.username AS user,
        COUNT(reviews.review_id) AS sum_reviews
        FROM reviews
        GROUP BY reviews.username
        )
    AS t2 ON t1.user = t2.user;
    """, 
    con = engine)

Unnamed: 0,avg_reviews,n_users
0,24.333333,6


Пользователи, которые поставили более 50 оценок, в среднем, написали по 24 отзыва.

## Вывод

Судя по тому, что в имеющихся у нас данных нет информации о продажах или "прочитанности" книг, приложение конкурентов - какой-то сервис с рейтингами и обзорами на книги (наподобие "Кинопоиска", но для любителей почитать). И мы, соотвественно, планируем делать что-то похожее.  

Тогда нам очень важно быть конкурентоспособными в следующем:
1) Обширная и регулярно обновляемая база книг (больше, чем у конкурентов)
2) Рейтинги книг (по темам, авторам, возрасту и пр., которые легко будет найти в приложении)
3) Связи между "похожими" на странице каждой книги (можно реализовать через машинное обучение или предлагать пользователям добавлять похожие на их взгляд произвения на карточку книги)

Начать наполнение базы стоит с бестселлеров: их много читают, их оценивают, о них любят спорить и оставлять отзывы. Это позволит повысить активность в приложении.

Если мы не планируем продавать книги через приложение, то монетизировтаься можно через рекламу. Например, рекламу издательств, которые будут платить за карточку книги именно в их издании, или за рекомендацию от нас, где книгу можно купить, или за рекламу новых книг, которые будут выходить в этом издательстве).