# Проект по SQL

## Цели

Проанализировать базу данных с информацией о книгах, издательствах, авторах, а также пользовательских обзоров книг. 

На их основе сформулировать ценностное предложение для нового продукта - крупного сервиса для чтения книг по подписке, что может быть востребовано в период коронавирусных ограничений.

## Описание данных

<b> Таблица books </b>
Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

<b> Таблица authors </b>
Содержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

<b> Таблица publishers </b>
Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

<b> Таблица ratings </b>
Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

<b> Таблица reviews</b>
Содержит данные о пользовательских обзорах:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.

## Инициализация параметров

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
import logging
from IPython.display import display

logger = logging.getLogger('logger')
logger.setLevel(logging.INFO)

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
             'pwd': '', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [3]:
def show_result(sql, show=3, engine=engine):
    logger.warning(sql)
    pd_df = pd.io.sql.read_sql(sql, con = engine) 
    print(f"count= {len(pd_df)}")
    display(pd_df.head(show))
    return pd_df

## Проверка входных таблиц

In [4]:
sql= """
    select *
    from books
"""

c=show_result(sql, 5)


    select *
    from books



count= 1000


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
sql= """
    select *
    from ratings
"""

c=show_result(sql, 5)


    select *
    from ratings



count= 6456


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [6]:
sql= """
    select *
    from reviews
"""

c=show_result(sql, 5)


    select *
    from reviews



count= 2793


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [7]:
sql= """
    select *
    from authors
"""

c=show_result(sql, 5)


    select *
    from authors



count= 636


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [8]:
sql= """
    select *
    from publishers
"""

c=show_result(sql, 5)


    select *
    from publishers



count= 340


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [9]:
# check: нет дублей книг

sql= """
    select count(distinct book_id) as cnt_book_id, count(*)
    from books
"""

c=show_result(sql)


    select count(distinct book_id) as cnt_book_id, count(*)
    from books



count= 1


Unnamed: 0,cnt_book_id,count
0,1000,1000


In [10]:
# check: нет дублей рейтингов по книгам

sql= """
    select book_id, count(distinct rating_id), count(rating)
    from ratings
    group by book_id
"""

c=show_result(sql, 10)


    select book_id, count(distinct rating_id), count(rating)
    from ratings
    group by book_id



count= 1000


Unnamed: 0,book_id,count,count.1
0,1,3,3
1,2,2,2
2,3,3,3
3,4,2,2
4,5,6,6
5,6,10,10
6,7,3,3
7,8,3,3
8,9,4,4
9,10,5,5


## Задания проекта

In [11]:
# Посчитайте, сколько книг вышло после 1 января 2000 года;

sql= """
    select count(distinct book_id) as cnt_book_id
    from books
    where date(publication_date) >= '2000-01-01'
"""

task_1 = show_result(sql)


    select count(distinct book_id) as cnt_book_id
    from books
    where date(publication_date) >= '2000-01-01'



count= 1


Unnamed: 0,cnt_book_id
0,821


###### Вывод

после 1 января 2000 года вышла 821 книга

In [12]:
# Для каждой книги посчитайте количество обзоров и среднюю оценку

sql= """
    with book_rating as (
        select book_id, avg(rating) avg_rating
        from ratings
        group by book_id
    ),
    book_review as (
        select book_id, count(review_id) cnt_review
        from reviews
        group by book_id
    )
    select b.book_id, b.title, avg_rating, cnt_review
    from books b
    left join book_rating brat on b.book_id = brat.book_id
    left join book_review brev on b.book_id = brev.book_id
    order by 1 asc
"""


task_2 = show_result(sql, 10)


    with book_rating as (
        select book_id, avg(rating) avg_rating
        from ratings
        group by book_id
    ),
    book_review as (
        select book_id, count(review_id) cnt_review
        from reviews
        group by book_id
    )
    select b.book_id, b.title, avg_rating, cnt_review
    from books b
    left join book_rating brat on b.book_id = brat.book_id
    left join book_review brev on b.book_id = brev.book_id
    order by 1 asc



count= 1000


Unnamed: 0,book_id,title,avg_rating,cnt_review
0,1,'Salem's Lot,3.666667,2.0
1,2,1 000 Places to See Before You Die,2.5,1.0
2,3,13 Little Blue Envelopes (Little Blue Envelope...,4.666667,3.0
3,4,1491: New Revelations of the Americas Before C...,4.5,2.0
4,5,1776,4.0,4.0
5,6,1st to Die (Women's Murder Club #1),3.5,4.0
6,7,2nd Chance (Women's Murder Club #2),3.0,3.0
7,8,4th of July (Women's Murder Club #4),4.0,3.0
8,9,A Beautiful Mind,4.25,2.0
9,10,A Bend in the Road,3.2,3.0


###### Вывод

- произвели расчет для каждой книги среднего рейтинга и количества обзоров
- убедились что не образовалось дублей в финальной таблице
- отсортировали по id книги

In [13]:
# Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

sql = """
    select p.publisher_id, p.publisher, count(distinct book_id) cnt_book
    from publishers p
    inner join books b on p.publisher_id = b.publisher_id
    where b.num_pages > 50
    group by p.publisher_id, p.publisher
    order by 3 desc
"""

task_3 = show_result(sql, 1)


    select p.publisher_id, p.publisher, count(distinct book_id) cnt_book
    from publishers p
    inner join books b on p.publisher_id = b.publisher_id
    where b.num_pages > 50
    group by p.publisher_id, p.publisher
    order by 3 desc



count= 334


Unnamed: 0,publisher_id,publisher,cnt_book
0,212,Penguin Books,42


###### Вывод

- издательство, которое выпустило наибольшее число книг толще 50 страниц - Penguin Booksб
- количество выпущенных этим издательством книг - 42
- в task_3 лежит статистика по всем издательствам, на вывод подал только одну строку топ 1, согласно заданию

In [14]:
# Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

sql = """
    with books_over_50_ratings as (
        select b.book_id, b.author_id, author, count(rating) as cnt_rating, avg(rating) as avg_rating
        from books b 
        inner join ratings r on b.book_id = r.book_id
        inner join authors a on b.author_id = a.author_id
        group by b.book_id, b.author_id, author
        having count(rating) >= 50
    )
    select author, avg(avg_rating)
    from books_over_50_ratings
    group by author
    order by 2 desc
"""

task_4 = show_result(sql, 1)


    with books_over_50_ratings as (
        select b.book_id, b.author_id, author, count(rating) as cnt_rating, avg(rating) as avg_rating
        from books b 
        inner join ratings r on b.book_id = r.book_id
        inner join authors a on b.author_id = a.author_id
        group by b.book_id, b.author_id, author
        having count(rating) >= 50
    )
    select author, avg(avg_rating)
    from books_over_50_ratings
    group by author
    order by 2 desc



count= 14


Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


###### Вывод

- автора с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré
- средняя оценка книг у этого автора 4.283844
- в task_4 лежит статистика по всем авторам книг, по которым было выставлено более 50 оценок, на вывод подал только одну строку топ 1, согласно заданию

In [15]:
# Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок

sql = """
    with rat as (
        select username, count(*) cnt_rating
        from ratings
        group by username
        having count(*) > 50
    ), 
    temp as (
        select rat.username, cnt_rating, count(distinct rev.review_id) cnt_review
        from rat
        inner join reviews rev on rat.username = rev.username
        group by rat.username, cnt_rating
    )
    select avg(cnt_review)
    from temp
"""

task_5 = show_result(sql, 10)


    with rat as (
        select username, count(*) cnt_rating
        from ratings
        group by username
        having count(*) > 50
    ), 
    temp as (
        select rat.username, cnt_rating, count(distinct rev.review_id) cnt_review
        from rat
        inner join reviews rev on rat.username = rev.username
        group by rat.username, cnt_rating
    )
    select avg(cnt_review)
    from temp



count= 1


Unnamed: 0,avg
0,24.333333


###### Вывод

- среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.3
- пользователь sfitzgerald оставил 28 обзоров, при этом оставил 55 рейтингов