# Финальный проект: SQL

На фоне карантина, введенного во время пандемии коронавируса, жители городов стали меньше времени проводить на улице, в кафе и ТРК, что повлекло рост интереса к чтению. 

Компания решает купить крупный сервис для чтения книг по подписке. 
Задача аналитика - изучить базу данных, найти информацию о наиболее публикуемых аторах, книгах, издательствах, чтобы дать рекомендации по предложению пользователям нового продукта. 


## Данные

* Таблица books содержит данные о книгах;
* Таблица authors содержит данные об авторах;
* Таблица publishers содержит данные об издательствах;
* Таблица raitings содержит данные о пользовательских оценках книг;
* Таблица reviews содержит данные о пользовательских обзорах на книги;

## Задачи

- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так я исключу из анализа брошюры;
- Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками;
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Загрузка данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-final-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string) 


In [2]:
books = pd.io.sql.read_sql('SELECT * FROM books', con = engine) 
authors = pd.io.sql.read_sql('SELECT * FROM authors', con = engine) 
publishers = pd.io.sql.read_sql('SELECT * FROM publishers', con = engine) 
ratings = pd.io.sql.read_sql('SELECT * FROM ratings', con = engine) 
reviews = pd.io.sql.read_sql('SELECT * FROM reviews', con = engine) 

In [3]:
pd.io.sql.read_sql('SELECT * FROM books LIMIT 5;', con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [4]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
book_id             1000 non-null int64
author_id           1000 non-null int64
title               1000 non-null object
num_pages           1000 non-null int64
publication_date    1000 non-null object
publisher_id        1000 non-null int64
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [5]:
pd.io.sql.read_sql('SELECT * FROM authors LIMIT 5;', con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [6]:
authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
author_id    636 non-null int64
author       636 non-null object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [7]:
pd.io.sql.read_sql('SELECT * FROM publishers LIMIT 5;', con = engine) 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [8]:
publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
publisher_id    340 non-null int64
publisher       340 non-null object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [9]:
pd.io.sql.read_sql('SELECT * FROM ratings LIMIT 5;', con = engine) 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [10]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
rating_id    6456 non-null int64
book_id      6456 non-null int64
username     6456 non-null object
rating       6456 non-null int64
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [11]:
pd.io.sql.read_sql('SELECT * FROM reviews LIMIT 5;', con = engine) 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [12]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
review_id    2793 non-null int64
book_id      2793 non-null int64
username     2793 non-null object
text         2793 non-null object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


Данные загружены, можно приступать к запросам

## Запрос №1: количество книг, вышедших после 1 января 2000 года

In [13]:
query1 = '''SELECT 
COUNT(book_id) AS book_cnt 
FROM books 
WHERE publication_date::date >= '2000-01-01' '''
pd.io.sql.read_sql(query1, con = engine)

Unnamed: 0,book_cnt
0,821


Число книг из датасета, вышедших после 1 яневаря 2000 года, равно 821.

## Запрос №2: количество обзоров и средняя оценка для каждой книги

In [14]:
query2 = '''SELECT 
books.book_id AS book_id,
books.title AS book_title, 
AVG(ratings.rating) AS avg_rating,
COUNT(DISTINCT(reviews.review_id)) AS review_cnt

FROM books 
LEFT JOIN ratings ON ratings.book_id = books.book_id 
LEFT JOIN reviews ON reviews.book_id = books.book_id

GROUP BY 
books.book_id;
'''
pd.io.sql.read_sql(query2, con = engine)

Unnamed: 0,book_id,book_title,avg_rating,review_cnt
0,1,'Salem's Lot,3.666667,2
1,2,1 000 Places to See Before You Die,2.500000,1
2,3,13 Little Blue Envelopes (Little Blue Envelope...,4.666667,3
3,4,1491: New Revelations of the Americas Before C...,4.500000,2
4,5,1776,4.000000,4
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.666667,3
996,997,Xenocide (Ender's Saga #3),3.400000,3
997,998,Year of Wonders,3.200000,4
998,999,You Suck (A Love Story #2),4.500000,2


Для каждой книги посчитана средняя оценка и число обзоров. 

## Запрос №3: определение издательства, выпустившего наибольшее количество книг толще 50 страниц

In [15]:
query3 = '''SELECT 
publishers.publisher AS publisher, 
COUNT(books.book_id) AS books_amount

FROM publishers 
INNER JOIN books ON books.publisher_id = publishers.publisher_id 

WHERE 
num_pages > 50

GROUP BY 
publishers.publisher 

ORDER BY 
books_amount DESC 

LIMIT 1;
'''
pd.io.sql.read_sql(query3, con = engine)


Unnamed: 0,publisher,books_amount
0,Penguin Books,42


Издательство, которое выпустило наибольшее количество книг толще 50 страниц - это Penguin Books		, и выпустило оно 42 книги

## Запрос №4: определение автора с самой высокой средней оценкой книг среди книг с 50 и большим числом оценок

In [16]:
query4 = '''
SELECT
SUBQ.author_id AS author_id,
authors.author AS author,
SUBQ.avg_rating AS avg_rating

FROM
    (
    SELECT
    books.book_id,
    books.author_id,
    AVG(ratings.rating) AS avg_rating
        
    FROM 
    books 
    INNER JOIN ratings ON ratings.book_id = books.book_id

    GROUP BY 
    books.book_id

    HAVING
    COUNT(ratings.rating_id) >= 50
    ) AS SUBQ
INNER JOIN authors ON authors.author_id = SUBQ.author_id

ORDER BY
SUBQ.avg_rating DESC

LIMIT 1;
'''
pd.io.sql.read_sql(query4, con = engine)

Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.414634


Было определено, что J.K. Rowling/Mary GrandPré	являются авторами с самой высокой средней оценкой книг при рассмотрении книг датасета с числом оценок 50 и более.Средняя оценка книг авторов составила почти 4.4 

## Запрос №5: расчет среднего количества обзоров от пользователей, которые поставили больше 50 оценок

In [17]:
query5 = '''
SELECT
AVG(SUBQ1.reviews_amount) AS avg_reviews

FROM 
(
SELECT 
SUBQ.username AS username,
COUNT(reviews.review_id) AS reviews_amount 
        
FROM 
    (
    SELECT
    ratings.username AS username
    
    FROM
    ratings
    
    GROUP BY 
    ratings.username
    
    HAVING 
    COUNT(ratings.rating_id) > 50
    ) AS SUBQ 
INNER JOIN reviews ON reviews.username = SUBQ.username

GROUP BY
SUBQ.username
) AS SUBQ1;

'''

pd.io.sql.read_sql(query5, con = engine)

Unnamed: 0,avg_reviews
0,24.333333


Выбрала пользователей, которые поставили более 50 оценок книгам, рассчитала, что среднее количетиво обзоров на книги от этих пользователей равно 24,3. 

## Вывод

В данном исследовании были проанализированы датасеты, с информацией о книгах, их авторах, издателшям, а также с оценками и рейтингами пользователей. 

Было выявлено, что из 1000 книг в датасете после 1 января 2000 года вышла 821 книга;

Для каждой книги была посчитана средняя оценка и число обзоров;

Было определено, что Penguin Books является издательством, выпустившим наибольшее количество книг (не считая брошюр), из 1000 книг в датасете 42 книги приходятся на издательство Penguin Books;

Было определено, что J.K. Rowling/Mary GrandPré являются авторами с самой высокой средней оценкой книг при рассмотрении книг датасета с числом оценок 50 и более. Средняя оценка книг авторов составила почти 4.4 из 5;

Также были выбраны пользователи, которые поставили более 50 оценок книгам, среди них было рассчитано среднее число обзоров, которые они делают, получилось 24,3 обзора на такого пользователя, их можно отнести к наиболее активным читателям в разрезе данного датасета. 

На основании проведенного анализа можно делать специальные подборки книг для активных пользоватиелей, можно составить портрет читателя, посмотреть, какие авторы удостаиваются наибольших оценок, добавлять на платформу книги этих авторов. 

Можно построить рейтинг издательств, чью книги также удостаиваются наилучших оценок и наибольшего количества обзоров, и пополнять коллекцию книг приложения книгами этих издательств. 

Уже отмечены такие авторы как J.K. Rowling/Mary GrandPré и продуктивное издательство Penguin Books, на них нужно обратить внимание в первую очередь. 