# Анализ базы данных сервиса для чтения книг

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

# Цель исследования

В связи с приобретением компанией крупного сервиса для чтения книг по подписке, необходимо провести анализ базы данных, благодаря которому будет возможно формулирование ценностного предложения для нового продукта. 



# Описание данных


Таблица **"books"** (содержит данные о книгах):



- **book_id** — идентификатор книги;

- **author_id** — идентификатор автора;

- **title** — название книги;

- **num_pages** — количество страниц;

- **publication_date** — дата публикации книги;

- **publisher_id** — идентификатор издателя.








Таблица **"authors"** (содержит данные об авторах):

- **author_id** — идентификатор автора;

- **author** — имя автора.








Таблица **"publishers"** (содержит данные об издательствах):

- **publisher_id** — идентификатор издательства;

- **publisher** — название издательства;








Таблица **"ratings"** (содержит данные о пользовательских оценках книг):

- **rating_id** — идентификатор оценки;

- **book_id** — идентификатор книги;

- **username** — имя пользователя, оставившего оценку;








Таблица **"reviews"** (содержит данные о пользовательских обзорах на книги):

- **review_id** — идентификатор обзора;

- **book_id** — идентификатор книги;

- **username** — имя пользователя, написавшего обзор;

- **text** — текст обзора.

# План работы:

[1. Подключение к базе данных и изучение таблиц](#one)

[2.Анализ данных](#two)

   [2.1.Расчет количества книг, которые вышли после 1 января 2000 года](#two_1)
   
   [2.1.1. Вывод](#two_1_1)
   
   [2.2. Расчет для каждой книги количества обзоров и средней оценки](#two_2)
   
   [2.2.1. Вывод](#two_2_1)
   
   [2.3.Определение издательства, которое выпустило наибольшее число книг толще 50 страниц](#two_3)
   
   [2.3.1. Вывод](#two_3_1)
   
   [2.4. Определение автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками](#two_4)
   
   [2.4.1. Вывод](#two_4_1)
   
   [2.5. Расчет среднего количества обзоров от пользователей, которые поставили больше 50 оценок](#two_5)
   
   [2.5.1. Вывод](#two_5_1)
   
 [3. Общий вывод](#three)

<a id="one"></a> 
## Подключение к базе данных и изучение таблиц

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 
# устанавливаем параметры
db_config = {'user': '.........', # имя пользователя
             'pwd': '...........', # пароль
             'host': '...............', 
             'port': ......, # порт подключения
              'db': '...........'} # название базы данных
connection_string = '.............              '.format(db_config['...'], 
                                                         db_config['...'], 
                                                         db_config['...'], 
                                                         db_config['...'], 
                                                         db_config['...']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [2]:
# создадим функцию, которая принимает на вход SQL-запрос и выводит  результат SQL-запроса

def request_result(query):
  return pd.io.sql.read_sql(query, con = engine)

**Запрос к таблице  "books"**

In [3]:
query = '''SELECT * 
           FROM books
           LIMIT 5

        '''
request_result(query)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Запрос к таблице "authors"**

In [4]:
query = '''SELECT * 
           FROM authors
           LIMIT 5

        '''
request_result(query)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Запрос к таблице "publishers"**

In [5]:
query = '''SELECT * 
           FROM publishers
           LIMIT 5

        '''
request_result(query)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Запрос к таблице "ratings"**

In [6]:
query = '''SELECT * 
           FROM ratings
           LIMIT 5

        '''
request_result(query)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Запрос к таблице "reviews"**

In [7]:
query = '''SELECT * 
           FROM reviews
           LIMIT 5

        '''
request_result(query)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<a id="two"></a>
## Анализ данных

<a id="two_1"></a>    
### Расчет количества книг, которые вышли после 1 января 2000 года

In [8]:
query = '''SELECT COUNT(book_id) AS number_of_books
           FROM books
           WHERE publication_date > '2000-01-01'
        '''
request_result(query)

Unnamed: 0,number_of_books
0,819


<a id="two_1_1"></a>
#### Вывод



В базе содержится 819 книг, которые были выпущены после 1 января 2000 года. При выработке бизнес-стратегии  стоит учесть тот факт, что с 2000 года не было ситуации мирового локдауна и поэтому вполне возможно, что такое количество книг было выпущено на платформе, в связи с тем, что они не были настолько востребованы, как могут быть в период мирового карантина.  

<a id="two_2" ></a>
### Расчет для каждой книги количества обзоров и средней оценки

In [9]:
query = '''SELECT
               books.title AS title,
               COUNT (distinct review_id) AS number_of_reviews,
                ROUND(AVG(rating), 2) AS number_of_rating
            FROM 
                books
            LEFT JOIN
                reviews ON reviews.book_id = books.book_id
            LEFT JOIN
                ratings ON ratings.book_id = books.book_id
            GROUP BY
                books.title
            ORDER BY 
                COUNT(reviews.review_id) DESC

         '''
request_result(query)

Unnamed: 0,title,number_of_reviews,number_of_rating
0,Twilight (Twilight #1),7,3.66
1,The Hobbit or There and Back Again,6,4.13
2,The Catcher in the Rye,6,3.83
3,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,Harry Potter and the Chamber of Secrets (Harry...,6,4.29
...,...,...,...
994,Disney's Beauty and the Beast (A Little Golden...,0,4.00
995,Essential Tales and Poems,0,4.00
996,Leonardo's Notebooks,0,4.00
997,The Natural Way to Draw,0,3.00


<a id="two_2_1"></a>
#### Вывод

Из анализа информации видим, что наибольшее количество отзывов имеет книга "Twilight" ("Сумерки"), но она не является самой рейтинговой (ее рейтинг - 3,66). В то время как книга "The Cat in the Hat and Other Dr. Seuss Favorites" имеет рейтинг - 5.0, хотя обзоров на нее на сервисе нет. Таким образом видим, что наибольшее количество отзывов не влечет за собой высокие оценки для книг.  



<a id="two_3" ></a>
### Определение издательства, которое выпустило наибольшее число книг толще 50 страниц

In [10]:
query = '''SELECT publishers.publisher AS name_publishing_house,
                  COUNT (subq.book_id) AS number_of_books
           FROM (
               SELECT book_id,
                      publisher_id
               FROM books
               WHERE num_pages > 50) AS subq
           INNER JOIN publishers ON publishers.publisher_id = subq.publisher_id
           GROUP BY name_publishing_house
           ORDER BY number_of_books DESC
           LIMIT 1;
        '''

request_result(query)

Unnamed: 0,name_publishing_house,number_of_books
0,Penguin Books,42


<a id="two_3_1" ></a>
#### Вывод

Наблюдаем, что издательством, которое выпустило наибольшее число книг (исключая брошюры) является "Penguin Books". Исследуя информацию в интернете, видим, что   это британское издательство, основанное в 1935 году в Лондоне. Главной заслугой издательства считают демократизацию книжного рынка, превратившую книгу из предмета роскоши в удовольствие, доступное массам. Исходя из полученной информации, тот факт, что данное издательство на сервисе выпустило наибольшее количество книг, подтверждает выбранную стратегию издательства, а для нас эти данные будут полезны при формировании предложений для читателей.

<a id="two_4" ></a>
### Определение автора с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками

In [15]:
query = '''SELECT
               author,
               ROUND(AVG(sub.avg_rating), 2) AS best_rating
           FROM
               (SELECT
                   author,
                   books.book_id,
                   AVG(rating) AS avg_rating
                FROM 
                   authors
                LEFT JOIN books ON books.author_id = authors.author_id
                LEFT JOIN ratings ON ratings.book_id = books.book_id
                GROUP BY
                    author,
                    books.book_id
                HAVING
                    COUNT(rating) >= 50) AS sub
                GROUP BY
                    author
                ORDER BY
                    best_rating DESC
                LIMIT 1
        '''
request_result(query)

Unnamed: 0,author,best_rating
0,J.K. Rowling/Mary GrandPré,4.28


<a id="two_4_1" ></a>
#### Вывод

Автором с самой высокой средней оценкой книг, учитывая только книги с количеством 50 оценок и более, является - Джоан Роулинг(J. K. Rowling) — британская писательница, сценаристка и кинопродюсер, наиболее известная как автор серии романов о Гарри Поттере.  Данная информация нам будет полезна при формировании списка книг, доступных на сервисе для читателя, и соответственно, повышения популярности нашего сервиса для чтения книг.

<a id="two_5" ></a>
### Расчет среднего количества обзоров от пользователей, которые поставили больше 50 оценок

In [12]:
query = '''SELECT
               ROUND(AVG(sub.count_review), 2) AS avg_number_of_reviews
           FROM
               (SELECT
                COUNT(review_id) AS count_review
                FROM
                    reviews
                WHERE username IN
                    (SELECT
                         username
                     FROM
                         ratings
                     GROUP BY
                         username
                     HAVING
                         COUNT(ratings) > 50)
                     GROUP BY
                         username) AS sub 

       '''
request_result(query)

Unnamed: 0,avg_number_of_reviews
0,24.33


<a id="two_5_1" ></a>
#### Вывод


Среднее количество обзоров читателей, которые поставили больше 50 оценок - 24 ед. Наблюдаем неплохую активность пользователей, но насколько эта активность велика на данный момент оценить трудно, для оценки данного показателя требуются дополнительные исследования.  

<a id="three" ></a>
## Общий вывод

В базе содержится 819 книг, которые были выпущены после 1 января 2000 года. Учитывая, что исследование проводится в 2020 году, то это количество книг выглядит, возможно, не достаточно большим за 20 лет. При выработке бизнес-стратегии также стоит учесть тот факт, что с 2000 года не было ситуации мирового локдауна и поэтому вполне возможно, что такое количество книг было выпущено на платформе, в связи с тем, что они не были настолько востребованы, как могут быть в период мирового карантина. Поэтому, в целях повышения конкурентнособности сервиса, стоит повышать количество книг, представляемых для чтения пользователям.

Наибольшее количество отзывов не влечет за собой высокие оценки для книг. Возможно, читатели не являются активными в социальном плане по психотипу и соответственно, не оставляют обзоры на понравившиеся книги, но одновременно активны в чтении книг. 

Издательством, которое выпустило наибольшее число книг (исключая брошюры) является "Penguin Books", а также Автором с самой высокой средней оценкой книг, учитывая только книги с количеством 50 оценок и более, является - Джоан Роулинг. Следует обратить внимание на данное издательство и автора при формировании дополнительных списков книг для чтения на сервисе.

Читатели исследуемого сервиса делают обзоры на книги в среднем в количестве - 24-х.

Рекомендовано провести дополнительный анализ целевой аудитории (возраст, частота посещений сервиса, предпочтения жанров и авторов наиболее активными читателями и наиболее активными читателями оставляющими обзоры). Рекомендованный дополнительный анализ даст полезную информацию при дополнении списка книг для чтения и, соответственно, повышения активности читателей и  монетизации проекта.