# Сервис для чтения книг. Проект по SQL

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Компания Newstat решила быть на волне и купила крупный сервис для чтения книг по подписке. 

**Цель проекта:**
Проанализировать базу данных сервиса для чтения книг.

**Описание базы данных:**
* Таблица **books** - информация о книгах
* Таблица **authors** - информация об авторах
* Таблица **publishers** - информация об издательствах
* Таблица **ratings** информация о пользовательских оценках книг
* Таблица **reviews** - информация о пользовательских обзорах

## Импортирование библиотек и подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'student', # имя пользователя
'pwd': 'Ars4$6;d-530pp', # пароль
'host': 'rg1b-itoiyxj3yxf.mdb.yandex.cloud',
'port': 1234, # порт подключения
'db': 'project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Исследование таблиц

In [4]:
# данные из всех таблиц
query = '''
           SELECT * 
           FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)

query_1 = '''
             SELECT * 
             FROM authors
          '''
authors = pd.io.sql.read_sql(query_1, con = engine)

query_2 = '''
             SELECT * 
             FROM publishers
          '''
publishers = pd.io.sql.read_sql(query_2, con = engine)

query_3 = '''
             SELECT * 
             FROM ratings
          '''
ratings = pd.io.sql.read_sql(query_3, con = engine)

query_4 = '''
             SELECT * 
             FROM reviews
          '''
reviews = pd.io.sql.read_sql(query_4, con = engine)

Выведем информацию и первые пять строк каждой таблицы.

In [5]:
# таблица с данными о книгах
display(books.head())
display(books.info())

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


None

In [6]:
# таблица с данными об авторах
display(authors.head())
display(authors.info())

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


None

In [7]:
# таблица с данными об издательствах
display(publishers.head())
display(publishers.info())

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


None

In [8]:
# таблица с данными о пользовательских оценках книг
display(ratings.head())
display(ratings.info())

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


None

In [9]:
# таблица с данными о пользовательских обзорах
display(reviews.head())
display(reviews.info())

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


None

*Таблица с данными о книгах содержит 1000 строк и не имеет пропусков. Необходимо изменить тип данных для столбца publication_date на соответствующий.*  
*Таблица с данными об авторах содержит 636 строк и не имеет пропусков, типы данных соответствуют.*  
*Таблица с данными об издательствах содержит 340 строк и не имеет пропусков, типы данных соответствуют.*  
*Таблица с данными о пользовательских оценках книг содержит 6456 строк, не имеет пропусков, типы данных соответствуют.*  
*Таблица с данными о пользовательских обзорах содержит 2793 строки, не имеет пропусков, типы данных соответствуют.*
*Для всех таблиц стилистически верно заданы названия столбцов.*


## Анализ данных сервиса

### Расчитаем, сколько книг вышло после 1 января 2000 года

In [10]:
request_1 = '''
                SELECT 
                    COUNT(book_id) 
                FROM 
                    books  as b
                WHERE 
                    publication_date > '2000-01-01'
            '''
con = engine.connect()
pd.io.sql.read_sql(sql=text(request_1), con = con)

Unnamed: 0,count
0,819


После 1 января 2000 года вышло 819 книг

### Для каждой книги посчитаем количество обзоров и среднюю оценку

In [15]:
request_2 = '''SELECT 
                    b.title AS title,
                    b.book_id AS id,
                    ROUND(AVG(r.rating),2) AS avg_rating,
                    COUNT(DISTINCT re.review_id) AS count_reviews
               FROM
                    books as b
                    LEFT JOIN ratings as r ON r.book_id = b.book_id
                    LEFT JOIN reviews as re ON re.book_id = b.book_id
               GROUP BY
                    b.title,
                    b.book_id
               ORDER BY
                    count_reviews DESC,
                    avg_rating DESC                        
               LIMIT 10
            '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(request_2), con = con)

Unnamed: 0,title,id,avg_rating,count_reviews
0,Twilight (Twilight #1),948,3.66,7
1,Harry Potter and the Prisoner of Azkaban (Harr...,302,4.41,6
2,Harry Potter and the Chamber of Secrets (Harry...,299,4.29,6
3,The Book Thief,656,4.26,6
4,The Glass Castle,734,4.21,6
5,Outlander (Outlander #1),497,4.13,6
6,The Hobbit or There and Back Again,750,4.13,6
7,The Curious Incident of the Dog in the Night-Time,695,4.08,6
8,The Lightning Thief (Percy Jackson and the Oly...,779,4.08,6
9,Water for Elephants,963,3.98,6


В данной таблице представлено количество обзоров и средняя оценка.  
Самое большое количество обзоров у книги Twilight (Twilight #1) со средним рейтингом 3,66

### Определим издательство, которое выпустило наибольшее число книг толще 50 страниц

In [12]:
request_3 = '''
                SELECT 
                    p.publisher,
                    b.publisher_id as publisher_id,
                    COUNT(b.book_id) as count_books
                FROM 
                    books as b JOIN publishers as p
                    ON b.publisher_id=p.publisher_id
                WHERE 
                    b.num_pages >= 50
                GROUP BY
                    p.publisher,
                    b.publisher_id
                ORDER BY   
                    count_books DESC
                LIMIT 1
            '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(request_3), con = con)

Unnamed: 0,publisher,publisher_id,count_books
0,Penguin Books,212,42


Больше всех книг, свыше 50 страниц, выпустило издательство Penguin Books	

### Определим автора с самой высокой средней оценкой книг
учитывая только книги с 50 и более оценками

In [13]:
request_4 = '''
                SELECT 
                    author_avg.author,
                    ROUND(AVG(author_avg.avg_rating),2) AS avg_avg_rating
                FROM
                    (SELECT 
                        a.author AS author,
                        b.title AS name,
                        AVG(r.rating) AS avg_rating
                    FROM books as b
                        LEFT JOIN authors as a ON b.author_id = a.author_id
                        LEFT JOIN ratings as r ON b.book_id = r.book_id
                    GROUP BY 
                         b.book_id,
                         b.title,
                         a.author_id
                    HAVING
                        COUNT(r.rating_id) >=50 
                    ) AS author_avg 
                GROUP BY    
                    author_avg.author
                ORDER BY
                    avg_avg_rating DESC
                LIMIT 1
            '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(request_4), con = con)

Unnamed: 0,author,avg_avg_rating
0,J.K. Rowling/Mary GrandPré,4.28


Среди книг с количеством оценок более 50, самая высокая средняя оценка 4.28 у книги J.K. Rowling/Mary GrandPré

### Посчитаем среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [14]:
request_5 = '''
                SELECT
                    AVG(rr.count_reviews)
                FROM
                    (SELECT
                        username,
                        COUNT(review_id) AS count_reviews
                    FROM
                        reviews
                    WHERE 
                        username IN (
                                SELECT 
                                    username
                                FROM 
                                    ratings
                                GROUP BY 
                                    username
                                HAVING 
                                    COUNT(rating_id) > 48
                                    )
                    GROUP BY 
                        username
                    ) AS rr
            '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(request_5), con = con)

Unnamed: 0,avg
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24

*После 1 января 2000 года вышло 819 книг.*   
*Самое большое количество обзоров у книги Twilight (Twilight #1) со средним рейтингом 3,66.*  
*Больше всех книг, свыше 50 страниц, выпустило издательство Penguin Books.*  
*Среди книг с количеством оценок более 50, самая высокая средняя оценка 4.28 у книги J.K. Rowling/Mary GrandPré.*  
*Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24.*  


### Выводы
- Исследование таблиц показало, что в таблицах нет пропусков данных, во всех таблицах стилистически верно заданы названия столбцов, изменение типа данных необходимо только в таблице books (столбец publication_date).
- Анализ данных показал, что: 
    * после 1 января 2000 года вышло 819 книг;
    * самое большое количество обзоров у книги Twilight (Twilight #1) со средним рейтингом 3,66;
    * больше всех книг, свыше 50 страниц, выпустило издательство Penguin Books;
    * среди книг с количеством оценок более 50, самая высокая средняя оценка 4.28 у книги J.K. Rowling/Mary GrandPré;
    * среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24.