# Анализ базы данных сервиса для чтения книг

На волне коронавирусной инфекции люди попрятались по домам и стали читать больше книг. Это заметили стартаперы и стали создавать всё больше сервисов для чтения.

Наша компания решила не отставать и приобрела крупный книжный сервис.

**Задача:** проанализировать базу данных сервиса для чтения книг.
В базе данных содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

## Описание данных

**Таблица `books`**

Содержит данные о книгах:
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные о авторах:
- `author_id  ` — идентификатор автора;
- `author  ` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:
- `publisher_id ` — идентификатор издательства;
- `publisher ` — название издательства.

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:
- `rating_id ` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username ` — имя пользователя, оставившего оценку;
- `rating ` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:
- `review_id  ` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username ` — имя пользователя, написавшего обзор;
- `text  ` — текст обзора.

## Доступ к базе данных и знакомство с данными

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Загрузим все таблицы из базы данных.

In [2]:
query = '''
            SELECT * FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [4]:
query = '''
            SELECT * FROM authors
        '''
authors = pd.io.sql.read_sql(query, con = engine)
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [5]:
authors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [6]:
query = '''
            SELECT * FROM publishers
        '''
publishers = pd.io.sql.read_sql(query, con = engine)
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
publishers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [8]:
query = '''
            SELECT * FROM ratings
        '''
ratings = pd.io.sql.read_sql(query, con = engine)
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [9]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [10]:
query = '''
            SELECT * FROM reviews
        '''
reviews = pd.io.sql.read_sql(query, con = engine)
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [11]:
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


Пропуски в данных отсутствуют, проверим явные дубликаты.

In [12]:
books.duplicated().sum()

0

In [13]:
authors.duplicated().sum()

0

In [14]:
publishers.duplicated().sum()

0

In [15]:
ratings.duplicated().sum()

0

In [16]:
reviews.duplicated().sum()

0

**Вывод:** Загрузили все таблицы из базы данных и ознакомились с ними. Пропуски и явные дубликаты отсутствуют.

## Задачи

### Количество изданных после 1-ого января 2000 года книг

In [17]:
query = '''
            SELECT count(book_id) as books_21
            FROM books
            where publication_date > '2000-1-1'
        '''
books_21_century = pd.io.sql.read_sql(query, con = engine)
books_21_century

Unnamed: 0,books_21
0,819


**Вывод:** После 1-ого января 2000 года включительно вышло `819 книг`. Примерно 40 книг в год.

### Количество обзоров и средняя оценка для каждой книги

In [18]:
query = '''
            SELECT b.book_id,
                b.title,
                a.author, 
                count(rev.review_id) as reviews_cnt,
                round(avg(rat.rating), 1) as avg_rating
            FROM books as b
                left join authors a using(author_id)
                left join reviews rev using(book_id)
                left join ratings rat using(book_id)
            group by 1, 2, 3
            order by 4 desc
        '''
books_analytics = pd.io.sql.read_sql(query, con = engine)
books_analytics

Unnamed: 0,book_id,title,author,reviews_cnt,avg_rating
0,948,Twilight (Twilight #1),Stephenie Meyer,1120,3.7
1,750,The Hobbit or There and Back Again,J.R.R. Tolkien,528,4.1
2,673,The Catcher in the Rye,J.D. Salinger,516,3.8
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,492,4.4
4,299,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling/Mary GrandPré,480,4.3
...,...,...,...,...,...
995,672,The Cat in the Hat and Other Dr. Seuss Favorites,Dr. Seuss/Various,0,5.0
996,808,The Natural Way to Draw,Kimon Nicolaides/Mamie Harmon,0,3.0
997,387,Leonardo's Notebooks,Leonardo da Vinci/H. Anna Suh,0,4.0
998,221,Essential Tales and Poems,Edgar Allan Poe/Benjamin F. Fisher,0,4.0


**Вывод:** Лидер по количеству отзывов с большим отрывом - `"Сумерки" Стефани Майер`. Также популярны книги Дж.Р.Р. Толкина "Хоббит или туда и обратно", Дж.К.Роулинг "Гарри Поттер и Узник Азкабана" и "Гарри Поттер и Тайная Комната" и "Над пропустью во ржи" Дж.Д.Сэлинджера. Присутствуют книги без обзоров.

### Издательство с наибольшим числом книг

Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры.

In [19]:
query = '''
            SELECT b.publisher_id,
                p.publisher,
                count(b.book_id) as books_count
            FROM books b
                inner join publishers p using(publisher_id)
            where num_pages > 50
            group by 1, 2
            order by 3 desc
            limit 1
        '''
publisher_many_sheets = pd.io.sql.read_sql(query, con = engine)
publisher_many_sheets

Unnamed: 0,publisher_id,publisher,books_count
0,212,Penguin Books,42


**Вывод:** Лидером по количеству изданных книг толще 50 страниц становится издательство `Penguin Books`(42 книги).

### Автор с самой высокой средней оценкой книг

Определим автора с самой высокой средней оценкой книг — учтём только книги с 50 и более оценками.

In [20]:
query = '''
            select a.author_id,
                a.author,
                round(avg(rat.rating), 2) as avg_rating
            from authors a
                left join books b using(author_id)
                left join ratings rat using(book_id)
            where b.book_id in (
                SELECT b.book_id
                FROM books b
                    left join ratings rat using(book_id)
                group by 1
                having count(rat.rating_id) >= 50
                )
            group by 1, 2
            order by 3 desc
            limit 1
        '''
author_high_avg_rating = pd.io.sql.read_sql(query, con = engine)
author_high_avg_rating

Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.29


**Вывод:** Автором с самой высокой средней оценкой книг с более чем 50 оценками становится `Дж.К.Роулинг` - средняя оценка 4.29.

### Среднее количество обзоров активных пользователей

Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [21]:
query = '''
            with t1 as(
                select username,
                    count(review_id) as review_cnt
                from reviews
                where username in
                    (
                        SELECT username
                        FROM ratings
                        group by 1
                        having count(rating_id) > 50
                    )
                group by 1
            )
            select round(avg(review_cnt)) as avg_reviews_cnt
            from t1
        '''
active_users_avg_reviews_cnt = pd.io.sql.read_sql(query, con = engine)
active_users_avg_reviews_cnt

Unnamed: 0,avg_reviews_cnt
0,24.0


**Вывод:** Среднее количество обзоров от активных пользователей, поставивших больше 50 оценок - 24 обзора. Книгоманы и графоманы.

## Вывод

В ходе исследования выявлены следующие факты:
- С 1-ого января 2000 года включительно вышла 821 книга. Примерно 40 книг в год.
- Лидер по количеству отзывов с большим отрывом - "Сумерки" Стефани Майер.
- Также много отзывов получили книги Дж.Р.Р. Толкина "Хоббит или туда и обратно", Дж.К.Роулинг "Гарри Поттер и Узник Азкабана" и "Гарри Поттер и Тайная Комната" и "Над пропустью во ржи" Дж.Д.Сэлинджера. 
- Присутствуют книги без обзоров.
- Лидер по количеству изданных книг толще 50 страниц - издательство Penguin Books - 42 книги.
- Автор с самой высокой средней оценкой книг с более чем 50 оценками - Дж.К.Роулинг - средняя оценка 4.29.
- Среднее количество обзоров от активных пользователей, поставивших больше 50 оценок - 24 обзора.

Эти данные могут помочь сформулировать ценностное предложение для нового продукта, в запуске рекламных кампаний.