# Анализ сервиса для чтения книг

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

# Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [1]:
# импорт библиотек
import pandas as pd
from sqlalchemy import create_engine
import numpy as np

In [2]:
# устанавливка параметров
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
# строка соединения с БД
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

# Шаг 1. Формирование SQL-запросов 

In [3]:
# Формируем sql-запрос.
query = ''' SELECT book_id, author_id, title, num_pages, publication_date, publisher_id
            FROM books 
        '''

In [4]:
books = pd.io.sql.read_sql(query, con = engine) 

In [5]:
print(books.head(), end='\n\n\n')
print(books.info())

   book_id  author_id                                              title  \
0        1        546                                       'Salem's Lot   
1        2        465                 1 000 Places to See Before You Die   
2        3        407  13 Little Blue Envelopes (Little Blue Envelope...   
3        4         82  1491: New Revelations of the Americas Before C...   
4        5        125                                               1776   

   num_pages publication_date  publisher_id  
0        594       2005-11-01            93  
1        992       2003-05-22           336  
2        322       2010-12-21           135  
3        541       2006-10-10           309  
4        386       2006-07-04           268  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
book_id             1000 non-null int64
author_id           1000 non-null int64
title               1000 non-null object
num_pages           1000 non-null int64

In [6]:
query2 = ''' SELECT author_id, author
             FROM authors
        '''
authors = pd.io.sql.read_sql(query2, con = engine) 

In [7]:
print(authors.head(), end='\n\n\n')
print(authors.info())

   author_id                          author
0          1                      A.S. Byatt
1          2  Aesop/Laura Harris/Laura Gibbs
2          3                 Agatha Christie
3          4                   Alan Brennert
4          5        Alan Moore/David   Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
author_id    636 non-null int64
author       636 non-null object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None


In [8]:
query3 = ''' SELECT publisher_id, publisher
             FROM publishers
        '''
publishers = pd.io.sql.read_sql(query3, con = engine) 

In [9]:
print(publishers.head(), end='\n\n\n')
print(publishers.info())

   publisher_id                          publisher
0             1                                Ace
1             2                           Ace Book
2             3                          Ace Books
3             4                      Ace Hardcover
4             5  Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
publisher_id    340 non-null int64
publisher       340 non-null object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None


In [10]:
query4 = ''' SELECT rating_id, book_id, username, rating
             FROM ratings
        '''
ratings = pd.io.sql.read_sql(query4, con = engine) 

In [11]:
print(ratings.head(), end='\n\n\n')
print(ratings.info())

   rating_id  book_id       username  rating
0          1        1     ryanfranco       4
1          2        1  grantpatricia       2
2          3        1   brandtandrea       5
3          4        2       lorichen       3
4          5        2    mariokeller       2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
rating_id    6456 non-null int64
book_id      6456 non-null int64
username     6456 non-null object
rating       6456 non-null int64
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None


In [12]:
query5 = ''' SELECT review_id, book_id, username, text
             FROM reviews
        '''
reviews = pd.io.sql.read_sql(query5, con = engine) 

In [13]:
print(reviews.head(), end='\n\n\n')
print(reviews.info())

   review_id  book_id       username  \
0          1        1   brandtandrea   
1          2        1     ryanfranco   
2          3        2       lorichen   
3          4        3  johnsonamanda   
4          5        3    scotttamara   

                                                text  
0  Mention society tell send professor analysis. ...  
1  Foot glass pretty audience hit themselves. Amo...  
2  Listen treat keep worry. Miss husband tax but ...  
3  Finally month interesting blue could nature cu...  
4  Nation purpose heavy give wait song will. List...  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
review_id    2793 non-null int64
book_id      2793 non-null int64
username     2793 non-null object
text         2793 non-null object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
None


# Шаг 2. Ответы на вопросы

### 1) Cколько книг вышло после 1 января 2000 года

In [14]:
# Формируем sql-запрос.
books_after_1_january = ''' SELECT 
                COUNT (book_id) AS books_after_1_january
                FROM books WHERE publication_date > '2000-01-01'
        '''

In [15]:
books_after_1_january = pd.io.sql.read_sql(books_after_1_january, con = engine) 
books_after_1_january

Unnamed: 0,books_after_1_january
0,819


### 2) Для каждой книги посчитайте количество обзоров и среднюю оценку

In [16]:
rating_reviews = '''
    SELECT
        b.book_id,
        b.title, 
        (SELECT COUNT(*) FROM reviews r WHERE r.book_id = b.book_id) AS count_review,
        (SELECT AVG(rating) FROM ratings r WHERE r.book_id = b.book_id) AS avg_rating
    FROM books b ORDER BY count_review DESC'''


In [17]:
rating_reviews_ans = pd.io.sql.read_sql(rating_reviews, con = engine) 
rating_reviews_ans.head()

Unnamed: 0,book_id,title,count_review,avg_rating
0,948,Twilight (Twilight #1),7,3.6625
1,963,Water for Elephants,6,3.977273
2,734,The Glass Castle,6,4.206897
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081081


### 3) Определить издательство, которое выпустило наибольшее число книг толще 50 страниц

In [18]:
publish_house = '''
    SELECT 
         publisher_id, publisher,
        (SELECT COUNT(*) FROM books b WHERE num_pages > 50 AND b.publisher_id = p.publisher_id) AS count_books
    FROM publishers p ORDER BY count_books DESC'''

In [19]:
count_books_ans = pd.io.sql.read_sql(publish_house, con = engine) 
count_books_ans.head(1)

Unnamed: 0,publisher_id,publisher,count_books
0,212,Penguin Books,42


### 4) Определить автора с самой высокой средней оценкой книг — учитывайть только книги с 50 и более оценками

In [20]:
top_author = '''
    SELECT 
         a.author_id, a.author,
         AVG (br.avg_rating) AS top_rating
    FROM authors a
    JOIN (SELECT
            b.author_id,
            (SELECT AVG(rating) FROM ratings r WHERE r.book_id = b.book_id) AS avg_rating,
            (SELECT COUNT(*) FROM ratings r WHERE r.book_id = b.book_id) AS count_rating
         FROM books b) AS br ON br.author_id = a.author_id AND br.count_rating > 50
         GROUP BY a.author_id
         ORDER BY top_rating DESC 
    '''

In [21]:
top_author_ans = pd.io.sql.read_sql(top_author, con = engine) 
top_author_ans

Unnamed: 0,author_id,author,top_rating
0,236,J.K. Rowling/Mary GrandPré,4.283844
1,402,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,240,J.R.R. Tolkien,4.258446
3,376,Louisa May Alcott,4.192308
4,498,Rick Riordan,4.080645
5,621,William Golding,3.901408
6,235,J.D. Salinger,3.825581
7,469,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,630,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,106,Dan Brown,3.75454


### 5) Посчитайть среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [22]:
count_reviews = '''
    SELECT 
        AVG (rev.count_review)
        
    FROM 
    (SELECT r.username, COUNT (r.review_id) AS count_review FROM reviews r GROUP BY r.username) AS rev 
    JOIN (SELECT r.username, COUNT (r.rating_id) AS count_rating FROM ratings r GROUP BY r.username) AS rat
    ON rev.username = rat.username AND rat.count_rating > 50
    
    '''

In [23]:
count_reviews_ans = pd.io.sql.read_sql(count_reviews, con = engine) 
count_reviews_ans

Unnamed: 0,avg
0,24.333333
