# Исследование базы данных сервиса для чтения книг

В рамках данного исследования наша задача состоит в анализе базы данных сервиса для чтения книг по подписке. В нашем распоряжении информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

Данные хранятся в пяти таблицах:
- `books`
- `authors`
- `publishers`
- `ratings`
- `reviews`

Приступим к исследованию!

## Загрузка и изучение данных

Для начала импортируем нужные библиотеки.

In [1]:
import pandas as pd
import sqlalchemy as sa

Установим параметры для подключения.

In [2]:
# установим параметры
db_config = {
    'user': 'praktikum_student',
    'pwd': 'Sdf4$2;d-d30pp',
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,
    'db': 'data-analyst-final-project-db'
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраним коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

# напишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''
    Открываем соединение, получаем данные из sql, закрываем соединение
    '''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

Теперь загрузим таблицы и изучим основную информацию о них.

### Книги

Таблица `books` содержит данные о книгах.

In [3]:
first_10_books = '''
SELECT *
FROM books
LIMIT 10
'''

In [4]:
get_sql_data(first_10_books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [5]:
count_books = '''
SELECT COUNT(book_id)
FROM books
'''

In [6]:
get_sql_data(count_books)

Unnamed: 0,count
0,1000


Таблица содержит информацию о тысяче книг.

Согласно документации к данным:
- `book_id` — идентификатор книги
- `author_id` — идентификатор автора
- `title` — название книги
- `num_pages` — количество страниц
- `publication_date` — дата публикации книги
- `publisher_id` — идентификатор издателя

### Авторы

Таблица `authors` содержит данные об авторах.

In [7]:
first_10_authors = '''
SELECT *
FROM authors
LIMIT 10
'''

In [8]:
get_sql_data(first_10_authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [9]:
count_authors = '''
SELECT COUNT(author_id)
FROM authors
'''

In [10]:
get_sql_data(count_authors)

Unnamed: 0,count
0,636


Таблица содержит информацию о более чем шести сотнях книг.

Согласно документации к данным:
- `author_id` — идентификатор автора
- `author` — имя автора

### Издательства

Таблица `publishers` содержит данные об издательствах.

In [11]:
first_10_publishers = '''
SELECT *
FROM publishers
LIMIT 10
'''

In [12]:
get_sql_data(first_10_publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [13]:
count_publishers = '''
SELECT COUNT(publisher_id)
FROM publishers
'''

In [14]:
get_sql_data(count_publishers)

Unnamed: 0,count
0,340


Таблица содержит информацию о более чем трех стонях издательств.

Согласно документации к данным:
- `publisher_id` — идентификатор издательства
- `publisher` — название издательства

### Пользовательские оценки книг

Таблица `ratings` содержит данные о пользовательских оценках книг.

In [15]:
first_10_ratings = '''
SELECT *
FROM ratings
LIMIT 10
'''

In [16]:
get_sql_data(first_10_ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [17]:
count_ratings = '''
SELECT COUNT(rating_id)
FROM ratings
'''

In [18]:
get_sql_data(count_ratings)

Unnamed: 0,count
0,6456


Таблица содержит информацию о более чем шести тысячах пользовательских оценок книг.

Согласно документации к данным:
- `rating_id` — идентификатор оценки
- `book_id` — идентификатор книги
- `username` — имя пользователя, оставившего оценку
- `rating` — оценка книги

### Пользовательские обзоры на книги

Таблица `reviews` содержит данные о пользовательских оценках книг.

In [19]:
first_10_reviews = '''
SELECT *
FROM reviews
LIMIT 10
'''

In [20]:
get_sql_data(first_10_reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


In [21]:
count_reviews = '''
SELECT COUNT(review_id)
FROM reviews
'''

In [22]:
get_sql_data(count_reviews)

Unnamed: 0,count
0,2793


Таблица содержит информацию о более чем двух тысячах пользовательских обзоров на книги.

Согласно документации к данным:
- `review_id` — идентификатор обзора
- `book_id` — идентификатор книги
- `username` — имя автора обзора
- `text` — текст обзора

## Ответы на вопросы бизнеса

### Количество книг, опубликованных с начала 2000 года

Посчитаем, сколько книг вышло после 1 января 2000 года.

In [23]:
books_2000 = '''
SELECT COUNT(book_id)
FROM books
WHERE publication_date >= '2000-01-01'
'''

In [24]:
get_sql_data(books_2000)

Unnamed: 0,count
0,821


С начала 2000 года вышла 821 книга - это 80% от всего объема книг в сервисе.

### Количество обзоров и средняя оценка каждой книги

Для каждой книги посчитаем количество обзоров и среднюю оценку.

In [25]:
book_info = '''
SELECT title,
       COUNT(DISTINCT review_id) AS count_reviews,
       AVG(rating) AS avg_rating
FROM books LEFT JOIN reviews ON books.book_id = reviews.book_id LEFT JOIN ratings ON books.book_id = ratings.book_id
GROUP BY books.book_id
ORDER BY count_reviews DESC, avg_rating DESC
LIMIT 10
'''

In [26]:
get_sql_data(book_info)

Unnamed: 0,title,count_reviews,avg_rating
0,Twilight (Twilight #1),7,3.6625
1,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
3,The Book Thief,6,4.264151
4,The Glass Castle,6,4.206897
5,Outlander (Outlander #1),6,4.125
6,The Hobbit or There and Back Again,6,4.125
7,The Curious Incident of the Dog in the Night-Time,6,4.081081
8,The Lightning Thief (Percy Jackson and the Oly...,6,4.080645
9,Water for Elephants,6,3.977273


Наибольшее количество отзывов получила первая книга серии "Сумерки" - 7 отзывов. Это стоставлет всего лишь 0.25% от общего числа отзывов на платформе.

### Самое крупное издательство

Определим издательство, которое выпустило наибольшее число книг. Для того, чтобы исключить из анализа брошюры, будем учитывать толкьо книги толще 50 страниц.

In [27]:
biggest_publisher = '''
SELECT publisher,
       COUNT(book_id) AS count_books
FROM publishers LEFT JOIN books ON books.publisher_id = publishers.publisher_id
WHERE num_pages > 50
GROUP BY publisher
ORDER BY count_books DESC
LIMIT 1
'''

In [28]:
get_sql_data(biggest_publisher)

Unnamed: 0,publisher,count_books
0,Penguin Books,42


Самое крупное издательство - Penguin Books, на него приходится 42 книги толще 50 страниц.

### Самый признанный автор

Определим автора с самой высокой средней оценкой книг. Для объективности будем учитывать только книги с 50 и более оценками.  

In [29]:
most_liked_author = '''
WITH
book_info AS (SELECT books.book_id,
                     author,
                     COUNT(DISTINCT rating_id) AS count_ratings,
                     AVG(rating) AS avg_rating
FROM books LEFT JOIN authors ON books.author_id = authors.author_id LEFT JOIN ratings ON books.book_id = ratings.book_id
GROUP BY books.book_id, author
HAVING COUNT(rating_id) >= 50
)
SELECT author,
       AVG(avg_rating) AS avg_rating
FROM book_info
GROUP BY author
ORDER BY avg_rating DESC
LIMIT 1
'''

In [30]:
get_sql_data(most_liked_author)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


Самая высокая средняя оценка книг с 50 и более оценками у Дж. Роулинг - 4.29.

### Среднее количество обзоров на пользователя

Посчитаем среднее количество обзоров на пользователя при условии, что пользователь поставил больше 48 оценок.  

In [31]:
avg_reviews_count = '''
WITH
ratings_count AS (SELECT username,
                         COUNT(rating_id) AS count_ratings
                   FROM ratings 
                   GROUP BY username
                   HAVING COUNT(rating_id) > 48),
reviews_count AS (SELECT username,
                         COUNT(review_id) AS count_reviews
                   FROM reviews
                   WHERE username IN (SELECT username FROM ratings_count)
                   GROUP BY username)
SELECT AVG(count_reviews) AS avg_count_review
FROM reviews_count
'''

In [32]:
get_sql_data(avg_reviews_count)

Unnamed: 0,avg_count_review
0,24.0


Среднее количество обзоров на пользователя, который поставил больше 48 оценок - 24.

## Вывод

В ходе данного исследования мы загрузили основные таблицы из базы данных и изучили основную информацию в них.

Всего библиотека сервиса насчитывает 1000 книг 636 авторов в 340 издательствах. К этим книгам есть 6456 оценок и 2793 отзыва.

Ответы на вопросы бизнеса:
1. С начала 2000 года вышло 819 книг - это 80% от всего объема книг в сервисе.
2. Наибольшее количество отзывов получила первая книга серии "Сумерки" - 7 отзывов. Это стоставлет всего лишь 0.25% от общего числа отзывов на платформе.
3. Самое крупное издательство - Penguin Books, на него приходится 42 книги толще 50 страниц.
4. Самая высокая средняя оценка книг с 50 и более оценками у Дж. Роулинг - 4.29.
5. Среднее количество обзоров на пользователя, который поставил больше 48 оценок - 24.
