# SQL анализ книжного сервиса

**Цель исследования:** 

подготовить рекомендации для заказчика, исследовав базу данных крупного сервиса для чтения книг по подписке, которые послужат базой для дальнейшей формулировки им ценностного предложения для нового продукта.

**Исходные данные**: база данных книжного сервиса.

**Ход исследования:**

Исследование состоит из следующих этапов:
- изучение общей информации о данных
- исследовательский анализ данных
- подготовка заключительных выводов

## Изучение общей информации

In [1]:
#импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

#устанавливаем параметры
db_config = {'user': 'praktikum_student', #имя пользователя
'pwd': 'Sdf4$2;d-d30pp', #пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, #порт подключения
'db': 'data-analyst-final-project-db'} #название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

#сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

#### Books

In [2]:
#выведем первые строки таблицы `books`
query = '''
        SELECT * 
        FROM books 
        LIMIT 20;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [3]:
#изучим общую информацию по всем полям
query = '''
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = 'books';
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,column_name,data_type
0,book_id,integer
1,author_id,integer
2,title,text
3,num_pages,integer
4,publication_date,date
5,publisher_id,integer


In [4]:
#изучим количество строк
query = '''
        SELECT COUNT(*)
        FROM books;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,1000


- всего 1000 записей
- типы данных соблюдены
- названия полей верные

#### Authors

In [5]:
#выведем первые строки таблицы `authors`
query = '''
        SELECT * 
        FROM authors 
        LIMIT 20;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [6]:
#изучим общую информацию по всем полям
query = '''
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = 'authors';
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,column_name,data_type
0,author_id,integer
1,author,text


In [7]:
#изучим количество строк
query = '''
        SELECT COUNT(*)
        FROM authors;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,636


- всего 636 записей
- типы данных соблюдены
- названия полей верные

#### Publishers

In [8]:
#выведем первые строки таблицы `publishers`
query = '''
        SELECT * 
        FROM publishers 
        LIMIT 20;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [9]:
#изучим общую информацию по всем полям
query = '''
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = 'publishers';
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,column_name,data_type
0,publisher_id,integer
1,publisher,text


In [10]:
#изучим количество строк
query = '''
        SELECT COUNT(*)
        FROM publishers;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,340


- всего 340 записей
- типы данных соблюдены
- названия полей верные

#### Ratings

In [11]:
#выведем первые строки таблицы `ratings`
query = '''
        SELECT * 
        FROM ratings 
        LIMIT 20;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [12]:
#изучим общую информацию по всем полям
query = '''
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = 'ratings';
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,column_name,data_type
0,rating_id,integer
1,book_id,integer
2,username,text
3,rating,integer


In [13]:
#изучим количество строк
query = '''
        SELECT COUNT(*)
        FROM ratings;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,6456


- всего 6456 записей
- типы данных соблюдены
- названия полей верные

#### Reviews

In [14]:
#выведем первые строки таблицы `reviews`
query = '''
        SELECT * 
        FROM reviews 
        LIMIT 20;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


In [15]:
#изучим общую информацию по всем полям
query = '''
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = 'reviews';
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,column_name,data_type
0,review_id,integer
1,book_id,integer
2,username,text
3,text,text


In [16]:
#изучим количество строк
query = '''
        SELECT COUNT(*)
        FROM reviews;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,2793


- всего 2793 записи
- типы данных соблюдены
- названия полей верные

**Промежуточный вывод:**

Все таблицы имеют:

- корректные названия полей
- корректные типы данных

## Предобработка данных

### Обзор пропущенных значений

#### Books

In [17]:
#изучим наличие пропущенных значений
query = '''
        SELECT COUNT(*) AS missing_values
        FROM books
        WHERE book_id IS NULL OR author_id IS NULL OR title IS NULL OR num_pages IS NULL OR publication_date IS NULL OR publisher_id IS NULL;
        '''
con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,missing_values
0,0


#### Authors

In [18]:
#изучим наличие пропущенных значений
query = '''
        SELECT COUNT(*) AS missing_values
        FROM authors
        WHERE author_id IS NULL OR author IS NULL;
        '''
con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,missing_values
0,0


#### Publishers

In [19]:
#изучим наличие пропущенных значений
query = '''
        SELECT COUNT(*) AS missing_values
        FROM publishers
        WHERE publisher_id IS NULL OR publisher IS NULL;
        '''
con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,missing_values
0,0


#### Ratings

In [20]:
#изучим наличие пропущенных значений
query = '''
        SELECT COUNT(*) AS missing_values
        FROM ratings
        WHERE rating_id IS NULL OR book_id IS NULL OR username IS NULL OR rating IS NULL;
        '''
con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,missing_values
0,0


#### Reviews

In [21]:
#изучим наличие пропущенных значений
query = '''
        SELECT COUNT(*) AS missing_values
        FROM reviews
        WHERE review_id IS NULL OR book_id IS NULL OR username IS NULL OR text IS NULL;
        '''
con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,missing_values
0,0


Пропущенные значения отсутствуют по всем столбцам.

### Поиск дубликатов

#### Books

In [22]:
#найдем дубликаты
query = '''
        SELECT book_id, author_id, title, num_pages, publication_date, publisher_id, COUNT(*) as duplicates_count
        FROM books
        GROUP BY book_id, author_id, title, num_pages, publication_date, publisher_id
        HAVING COUNT(*) > 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,duplicates_count


In [23]:
#найдем уникальные значения
query = '''
        SELECT DISTINCT *
        FROM books;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,640,262,The Beach House,356,2003-05-01,116
1,174,156,Cyrano de Bergerac,240,2003-08-05,267
2,392,357,Like Water for Chocolate,222,1993-09-16,51
3,330,449,How to Be a Domestic Goddess: Baking and the A...,384,2005-09-01,122
4,448,452,Morrigan's Cross (Circle Trilogy #1),321,2006-08-29,164
...,...,...,...,...,...,...
995,922,490,Thinner,320,1996-09-01,265
996,755,599,The Hunchback of Notre-Dame,510,2001-04-10,267
997,758,184,The Idiot,667,2003-04-08,183
998,384,390,Last Chance Saloon,528,2003-05-27,135


Дубликатов нет, все записи уникальны.

#### Authors

In [24]:
#найдем дубликаты
query = '''
        SELECT author_id, author, COUNT(*) as duplicates_cnt
        FROM authors
        GROUP BY author_id, author
        HAVING COUNT(*) > 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author,duplicates_cnt


In [25]:
#найдем уникальные значения
query = '''
        SELECT DISTINCT *
        FROM authors;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,434,Neil Gaiman/Dave McKean
1,235,J.D. Salinger
2,451,Nora Ephron
3,270,Janet Evanovich
4,238,J.M. Coetzee
...,...,...
631,159,Edward P. Jones
632,541,Stephen Hawking
633,27,Anna Quindlen
634,339,Kate DiCamillo/Bagram Ibatoulline


Дубликатов нет, все записи уникальны.

#### Publishers

In [26]:
#найдем дубликаты
query = '''
        SELECT publisher_id, publisher, COUNT(*) as duplicates_cnt
        FROM publishers
        GROUP BY publisher_id, publisher
        HAVING COUNT(*) > 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher,duplicates_cnt


In [27]:
#найдем уникальные значения
query = '''
        SELECT DISTINCT *
        FROM publishers;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,258,Scribner
1,141,HarperPrism
2,254,Scholastic Books
3,142,HarperTempest
4,295,Top Shelf Productions
...,...,...
335,29,Avon Books
336,8,Albin Michel
337,91,Disney Hyperion Books
338,218,Penguin Classics Deluxe Editions


Дубликатов нет, все записи уникальны.

#### Ratings

In [28]:
#найдем дубликаты
query = '''
        SELECT rating_id, book_id, username, rating, COUNT(*) as duplicates_cnt
        FROM ratings
        GROUP BY rating_id, book_id, username, rating
        HAVING COUNT(*) > 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating,duplicates_cnt


In [29]:
#найдем уникальные значения
query = '''
        SELECT DISTINCT *
        FROM ratings;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,6373,978,walter49,4
1,123,28,znelson,4
2,1729,299,rmiller,5
3,5484,848,ewerner,3
4,1541,281,roberto26,4
...,...,...,...,...
6451,848,144,znelson,5
6452,805,133,kevinquinn,5
6453,5975,928,perrypatricia,2
6454,3554,577,briannachavez,2


Дубликатов нет, все записи уникальны.

#### Reviews

In [30]:
#найдем дубликаты
query = '''
        SELECT review_id, book_id, username, text, COUNT(*) as duplicates_cnt
        FROM reviews
        GROUP BY review_id, book_id, username, text
        HAVING COUNT(*) > 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text,duplicates_cnt


In [31]:
#найдем уникальные значения
query = '''
        SELECT DISTINCT *
        FROM reviews;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,2046,735,danielpatrick,Relationship evidence foot quality set. Availa...
1,2738,979,danielpatrick,Decide record difficult better firm military r...
2,1220,444,nicoleburns,Pretty under while but method. In total color ...
3,546,201,yvasquez,Police mean ago. View above same fact cold. St...
4,238,81,grantpatricia,Cold foreign magazine. Trade cell want factor ...
...,...,...,...,...
2788,1322,479,kevincampbell,Nearly impact according. Someone just treatmen...
2789,902,334,taylorjeffrey,Pass form really. Effect beat staff deal someo...
2790,2444,875,emcdaniel,Ability be whose believe drop win energy. Say ...
2791,1706,621,susan85,Fight investment part himself town. Space true...


Дубликатов нет, все записи уникальны.

### Поиск аномальных значений

#### Books

In [32]:
#посмотрим на num_pages (books)
query = '''
        SELECT COUNT(num_pages),
        AVG(num_pages),
        MIN(num_pages),
        MAX(num_pages),
        STDDEV(num_pages)
        FROM books;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count,avg,min,max,stddev
0,1000,389.111,14,2690,229.39014


In [33]:
#посмотрим на книгу с 14 страницами
query = '''
        SELECT book_id, title
        FROM books
        WHERE num_pages = 14;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title
0,446,Moo Baa La La La!
1,988,Without Fail (Jack Reacher #6)


In [34]:
#посмотрим на книгу с 2690 страницами
query = '''
        SELECT book_id, title
        FROM books
        WHERE num_pages = 2690;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title
0,298,Harry Potter Boxed Set Books 1-5 (Harry Potte...


Среднее число страниц - 389. Выбивающихся значений нет. Число страниц в найденных книгах соответствует действительности.

#### Ratings

In [35]:
#посмотрим на rating (ratings)
query = '''
        SELECT COUNT(rating),
        AVG(rating),
        MIN(rating),
        MAX(rating),
        STDDEV(rating)
        FROM ratings;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count,avg,min,max,stddev
0,6456,3.928284,1,5,0.943303


Среднее рейтинг - 4, минимальный - 1, максимальный - 5.

**Промежуточный вывод**:

В ходе предобработки данных было выявлено:

- отсутствие пропущенных значений
- отсутствие дубликатов
- отсутствие аномальных значений

Данные всех таблиц полностью корректны для дальнейшего исследовательского анализа.

## Исследовательский данных

### Количество книг, вышедших после 1 января 2000 года

In [36]:
query = '''
        SELECT COUNT(book_id) AS books_cnt
        FROM books
        WHERE publication_date > '2000-01-01'
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,books_cnt
0,819


После 1 января 2000 года всего вышло 819 книг.

### Распределение количества обзоров и средней оценки по книгам

In [37]:
query = '''
        SELECT b.book_id,
               b.title,
        COUNT(DISTINCT rev.review_id) AS cnt_reviews, 
        ROUND(AVG(rat.rating), 2) AS avg_rating
        FROM books AS b
        LEFT JOIN reviews AS rev ON b.book_id=rev.book_id
        LEFT JOIN ratings AS rat ON b.book_id=rat.book_id
        GROUP BY b.book_id
        ORDER BY cnt_reviews DESC;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title,cnt_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.66
1,963,Water for Elephants,6,3.98
2,734,The Glass Castle,6,4.21
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,695,The Curious Incident of the Dog in the Night-Time,6,4.08
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67
996,808,The Natural Way to Draw,0,3.00
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
998,221,Essential Tales and Poems,0,4.00


Получили 1000 записей, из которых книга с максимальным количеством обзоров (7) - Twilight (Twilight #1). 

У книг из топ-5 максимальное количество отзывов 6-7 и средняя оценка рейтинга колеблется от 4.41 до 3.66.

Минимальное количество отзывов - 0.

### Издательство, выпустившее наибольшее число книг больше 50 страниц

In [38]:
query = '''
        SELECT pub.publisher,
        COUNT(b.book_id) AS cnt_books
        FROM publishers AS pub
        LEFT JOIN books AS b ON pub.publisher_id=b.publisher_id
        WHERE b.num_pages > 50
        GROUP BY pub.publisher
        ORDER BY cnt_books DESC;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,cnt_books
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
...,...,...
329,Turtleback,1
330,Atheneum Books for Young Readers: Richard Jack...,1
331,Penguin Signet,1
332,Victor Gollancz,1


Всего 334 издательства (исключили издательства, выпускающие брошюры). Больше всех выпустил книг издательство Penguin Books - 42 книги.

Далее следует издательство Vintage, выпустившее 31 книгу, и Grand Central Publishing - 25.

Максимальное количество выпущенных книг - 42 книги, тогда ка минимальное - 1 книга.

### Автор с наивысшей средней оценкой книг с 50 и более оценками

In [39]:
query = '''
        SELECT auth.author,
               ROUND(AVG(rat.rating), 2) AS avg_rating
        FROM ratings AS rat
        LEFT JOIN books AS b ON rat.book_id=b.book_id
        LEFT JOIN authors AS auth ON b.author_id=auth.author_id
        WHERE rat.book_id IN (--выбираем книги только с 50 и более оценками
                              SELECT rat.book_id 
                              FROM ratings AS rat
                              GROUP BY rat.book_id
                              HAVING COUNT(rat.book_id) >= 50
                             )
        GROUP BY auth.author
        ORDER BY avg_rating DESC
        LIMIT 1;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.29


J.K. Rowling/Mary GrandPré имеет наивысшую среднюю оценку по всем своим книгам - 4.29.

### Среднее количество обзоров пользователей, поставивших больше 48 оценок

In [40]:
query = '''
        SELECT AVG(cnt_rev.cnt_reviews) AS avg_reviews
        FROM (
              SELECT rev.username,
              COUNT(rev.review_id) AS cnt_reviews --считаем количество обзоров по пользователям
              FROM reviews AS rev
              WHERE rev.username IN (--выбираем только пользователей, которые поставили больше 48 оценок
                                     SELECT rat.username
                                     FROM ratings AS rat
                                     GROUP BY rat.username
                                     HAVING COUNT(rat.rating_id) > 48
                                    )
              GROUP BY rev.username
             ) AS cnt_rev;
        '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_reviews
0,24.0


Пользователь, который ставит больше 48 оценок, в среднем имеет 24 обзора.

**Промежуточный вывод**:

1. 819 книг вышло после 1 января 2000 года

2. Twilight (Twilight #1) - книга с максимальным количеством обзоров (7) и средней оценкой 3.66

3. Издательство Penguin Books выпустило больше всего книг - 42 (с количеством страниц больше 50)

4. J.K. Rowling/Mary GrandPré имеет самую высокую среднюю оценку по своим книгам - 4.29 (с 50 и более оценкаим)

5. Пользователь в среднем имеет 24 обзора на книги из тех, кто поставил больше 48 оценок

## Общий вывод

**SQL анализ книжного сервиса** 

Была решена следующая **задача:** подготовлены рекомендации для заказчика после исследования базы данных крупного сервиса для чтения книг по подписке.

**Использованные входные данные:** база данных книжного сервиса.

***

**1. Были осуществлены изучение общей информации о данных и их предобработка:**

- в данных соблюден нижний и "змеиный" регистр
- в данных корректны типы данных
- в данных отсутствуют пропущенные значения
- в данных отсутствуют дубликаты
- в данных отсутствуют аномальные значения


**2. Был проведен исследовательский анализ данных:**

*1. Количество книг, вышедших после 1 января 2000*

- после 1 января 2000 года вышло 819 книг

*2. Распределение количества обзоров и средней оценки по книгам*

Топ-5 книг:
- Twilight (Twilight #1): максимальное из всех количество обзоров (7), средний рейтинг (3.66)
- Water for Elephants: количество обзоров (6), средняя оценка (3.98)
- The Glass Castle: количество обзоров (6), средняя оценка (4.21)
- Harry Potter and the Prisoner of Azkaban: количество обзоров (6), средняя оценка (4.41)
- The Curious Incident of the Dog in the Night-Time: количество обзоров (6), средняя оценка (4.08)

    У книг из топ-5 максимальное количество отзывов 6-7 и средняя оценка рейтинга колеблется от 4.41 до 3.66.

*3. Издательство, выпустившее наибольшее число книг больше 50 страниц*

Топ-5 издательств:
- Penguin Books - 42 книги
- Vintage - 31 книга
-  Grand Central Publishing - 25 книг
-  Penguin Classics - 24 книги
-  Ballantine Books - 19 книг

    Максимальное количество выпущенных книг - 42 книги, тогда ка минимальное - 1 книга.

    Минимальное количество отзывов - 0.
    
*4. Автор с наивысшей средней оценкой книг с 50 и более оценками*

- J.K. Rowling/Mary GrandPré имеет наивысшую среднюю оценку по всем своим книгам - 4.29.
    
    
*5. Среднее количество обзоров пользователей, поставивиших больше 48 оценок*

- Пользователь, который ставит больше 48 оценок, в среднем имеет 24 обзора.

***

**Рекомендации для бизнеса:**

а) для привлечения внимания аудитории можно использовать произведения авторов, которые имеют наивысшую среднюю оценку своих книг. Это будет надежным вариантом для старта книжного сервиса, т.к. такие авторы и их произведения будут пользовать спросом (среди тех, кто не знает, с чего начать и выбирает топ, или же просто доверяет оценкам других пользователей).

- J.K. Rowling/Mary GrandPré 4.29
- Markus Zusak/Cao Xuân Việt Khương 4.26
- J.R.R. Tolken 4.25
- Louisa May Alcott 4.19
- Rick Riordan 4.08

б) пользователей, больше среднего ставящих оценки и пишущих обзоры на книги, можно поощрять дополнительными бонусами (+1 бесплатная книга, доступ к лимитированным изданиям, приглашения на литературные встречи и т.д.). Это будет мотивировать людей быть активными в сервисе, что непроизвольно повысит их лояльность и будет продвигать авторов и отдельные книги.

в) сотрудничество с наиболее крупными изданиями в первое время позволит заинтересовать больше пользователей уже известным и "проверенным" ими издательством.

г) рекомендуем продвигать книги, либо входящие в топ-15 среднего рейтинга, либо с наибольшим количество обзоров других пользователей, т.к. часто люди выбирают прочитать то, что уже "одобрено" или наоборот, раскритиковано, другими людьми или создало резонанс своим количеством обзоров.


***

**Заключение:**
результаты данного исследования могут послужить базой для формулирования стартапом ценностного предложения для своего продукта.