# Исследование продуктов сервиса для чтения книг

Цели:   исследовать информацию о книгах, издательствах, авторах и пользовательские обзоры книг. 

Задачи:   
- Найти количество книг, вышедших после 1.01.2000 г   
- найти количество обзоров и ср. оценку для каждой книги   
- Определеить издательство, выпустивщее наибольшее число книг толще 50 страниц    
- Определить автора с самой высокой ср. оценкой книг (учесть только книги с 50 и более оценками)   
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

## Описание данных

Таблица `books`          
Содержит данные о книгах:       
`book_id` — идентификатор книги;           
`author_id` — идентификатор автора;          
`title` — название книги;     
`num_pages` — количество страниц;     
`publication_date` — дата публикации книги;     
`publisher_id` — идентификатор издателя.

Таблица `authors`      
Содержит данные об авторах:     
`author_id` — идентификатор автора;     
`author` — имя автора.

Таблица `publishers`     
Содержит данные об издательствах:     
`publisher_id` — идентификатор издательства;     
`publisher` — название издательства;     

Таблица `ratings`     
Содержит данные о пользовательских оценках книг:      
`rating_id` — идентификатор оценки;     
`book_id` — идентификатор книги;     
`username` — имя пользователя, оставившего оценку;     
`rating` — оценка книги.

Таблица `reviews`    
Содержит данные о пользовательских обзорах:    
`review_id` — идентификатор обзора;     
`book_id` — идентификатор книги;     
`username` — имя автора обзора;     
`text` — текст обзора

## Загрузим данные и подготовим их к исследованию

In [1]:

import pandas as pd
from sqlalchemy import text, create_engine
# для вывода полного содержимого ячейки
pd.options.display.max_colwidth = 190


Устанавливаем параметры для подключения

In [2]:

db_config = {
    'user': 'praktikum_student',  # имя пользователя
    'pwd': 'Sdf4$2;d-d30pp',  # пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,  # порт подключения
    'db': 'data-analyst-final-project-db'  # название базы данных
}
connection_string = ('postgresql://{user}:{pwd}@{host}:{port}/{db}'
                     .format(**db_config))

сохраняем коннектор

In [3]:

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas

In [4]:
def get_result(query_sql):
    """Функция выполнения SQL запроса"""

    # обработка ошибок
    try:
        con = engine.connect()
        return pd.io.sql.read_sql(sql=text(query_sql), con=con)
    
    except Exception as error:
        print(error)

а также напишем функцию, чтоб ознакомится с основной информацией о  таблице

In [5]:
def get_info_table(table_name, rows=5):
    """Получение общей информации о таблице: число строк, первые N строк таблицы"""
    
    # обработка ошибок
    try:
        first_rows = ''' 
                SELECT *
                FROM {}
                LIMIT {}
                '''.format(table_name, rows)

        count_rows = ''' 
                SELECT COUNT(*) AS число_записей
                FROM {}
                '''.format(table_name)
        print('='*60)
        print(f'Первые {rows} строк таблицы {table_name.upper()}')
        display(get_result(first_rows))
        
        
        display(get_result(count_rows))

        
        


    except Exception as error:
        print(error)

## Исследование данных

Ознакомимся с таблицами и содержимым

In [6]:
list_tables = ['books', 'authors', 'publishers', 'ratings', 'reviews']

In [7]:
for table in list_tables:
    get_info_table(table, rows=7)

Первые 7 строк таблицы BOOKS


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116


Unnamed: 0,число_записей
0,1000


Первые 7 строк таблицы AUTHORS


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien


Unnamed: 0,число_записей
0,636


Первые 7 строк таблицы PUBLISHERS


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks


Unnamed: 0,число_записей
0,340


Первые 7 строк таблицы RATINGS


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5


Unnamed: 0,число_записей
0,6456


Первые 7 строк таблицы REVIEWS


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With personal where occur direction foot. Half sit role want.


Unnamed: 0,число_записей
0,2793


Данные соответсвуют описанию таблиц и обозначенной структуре.

## Число книг, вышедщих после 1.01.2000 г

In [8]:
query_sql='''
            SELECT COUNT(book_id) as число_книг
            FROM books
            WHERE CAST(publication_date as date)>='01-01-2000'
'''

get_result(query_sql)

Unnamed: 0,число_книг
0,821


А всего книг представлено 1000 (исходя из числа записей в таблицах в пункте выше) . Тогда их доля равна 82% (821/1000).

## Количество обзоров и ср. оценка каждой книги

Для этого следует соединить 3 таблицы в одну: books, ratings, rewievs по book_id

In [9]:
query_sql = '''
            SELECT b.book_id, 
                    b.title AS название_книги,
                    COUNT(DISTINCT rev.review_id) AS число_обзоров,
                    ROUND(AVG(rat.rating),2) as средний_рейтинг
            FROM books as b
            LEFT JOIN reviews as rev ON b.book_id=rev.book_id
            LEFT JOIN ratings as rat ON b.book_id=rat.book_id
            GROUP BY b.book_id
            ORDER BY COUNT(DISTINCT rev.review_id) DESC, AVG(rat.rating) DESC
'''

get_result(query_sql)

Unnamed: 0,book_id,название_книги,число_обзоров,средний_рейтинг
0,948,Twilight (Twilight #1),7,3.66
1,302,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),6,4.41
2,299,Harry Potter and the Chamber of Secrets (Harry Potter #2),6,4.29
3,656,The Book Thief,6,4.26
4,734,The Glass Castle,6,4.21
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden Book),0,4.00
996,387,Leonardo's Notebooks,0,4.00
997,221,Essential Tales and Poems,0,4.00
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67


Последние 2 книги из первых трех, действетельно интересные (по оценкам)

## Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [10]:
query_sql='''
            SELECT p.publisher AS издательство,
                    COUNT(b.book_id) AS выпущено_книг
            FROM publishers as p
            LEFT JOIN books AS b ON p.publisher_id=b.publisher_id
            WHERE b.num_pages>50
            GROUP BY p.publisher
            ORDER BY COUNT(b.book_id) DESC
            LIMIT 1
            
'''

get_result(query_sql)

Unnamed: 0,издательство,выпущено_книг
0,Penguin Books,42


Итог : 'Penguin Books' - британское издательство, выпустивщее наибольшее число книг толще 50 страниц. 

## Автор с самой высокой ср. оценкой книг

НАм следует учесть только книги с 50 и более оценками

In [11]:
query_sql='''
            SELECT a.author AS автор,
                  ROUND(AVG(ra.rating),2) AS ср_оценка
           
           FROM (SELECT b.book_id,
                        COUNT(ra.rating),
                        b.author_id
                 FROM books AS b
                 LEFT JOIN ratings AS ra ON b.book_id=ra.book_id
                 GROUP BY b.book_id
                 HAVING COUNT(ra.rating) >= 50) AS book
           
           LEFT JOIN ratings AS ra ON book.book_id=ra.book_id
           LEFT JOIN authors AS a ON a.author_id=book.author_id
           GROUP BY a.author
           ORDER BY AVG(ra.rating) DESC
           LIMIT 1

            
'''

get_result(query_sql)

Unnamed: 0,автор,ср_оценка
0,J.K. Rowling/Mary GrandPré,4.29


Как будто это не удивительно, это же автор(с иллюстратором) книг о Гарри Поттере!

## Среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [12]:
query_sql = '''
        -- пользователи, поставившие больше 48 оценок
        WITH users as (SELECT COUNT(rating_id),
                         username
                 FROM ratings
                 GROUP BY username
                 HAVING COUNT(rating_id)>48),
                 
        -- количество обзоров от пользователей

        all_reviews as (SELECT COUNT(re.review_id) AS количество_обзоров,
                               re.username AS пользователи
                        FROM reviews AS re
                        RIGHT JOIN users ON users.username = re.username
                        GROUP BY re.username)

-- среднее количество обзоров от пользователей

SELECT AVG(количество_обзоров) as среднее_число_обзоров
FROM all_reviews;
    
        '''

get_result(query_sql)

Unnamed: 0,среднее_число_обзоров
0,24.0


# Итоги   
1. Книг, вышедщих сразу после 1.01.2000, найдено 821 шт (более 80%)      
2. Собрали таблицу со средними оценками и числом обзоров книг, в которой можно находить интересные, обозреваемые( и не очень), не скучные книги судя по некоторым оценкам. 
3. Издательством, выпустивщим книги, толще 50 стр, является `Penguin Books` (британское издательство).      
4. Автором с самой высокой ср. оценкой книг (среди книг с 50 и больше оценками), является `J.K.Rowling/Mary GrandPré` (ср. оценка - 4.29) - автор книг о Гарри Поттере  
5. Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24.