# АНАЛИЗ БАЗЫ ДАННЫХ ИНТЕРНЕТ-МАГАЗИНА КНИГ

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

### Задания

- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [4]:
def result(query):
    return pd.io.sql.read_sql(query, con = engine) 

## Исследование таблиц

In [5]:
books = '''
SELECT *
FROM books;
'''
result(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [6]:
result(books).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


In [7]:
authors = '''
SELECT *
FROM authors;
'''
result(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [8]:
result(authors).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


In [9]:
publishers = '''
SELECT *
FROM publishers;
'''
result(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [10]:
result(publishers).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


In [11]:
ratings = '''
SELECT *
FROM ratings;
'''
result(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [12]:
result(ratings).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


In [13]:
reviews = '''
SELECT *
FROM reviews;
'''
result(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


In [14]:
result(reviews).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


__Выполнены запросы ко всем таблицам, таблицы сохранены в переменные. Выдедена основная информация о данных по каждой таблице. Все названия столбцов и их тип данных не нуждаются в обработке__ 

## 1. Посчитайте, сколько книг вышло после 1 января 2000 года;

In [15]:
count_book = '''
SELECT COUNT(book_id)
FROM books
WHERE publication_date > '2000-01-01';
'''
result(count_book)

Unnamed: 0,count
0,819


__819 книг вышло после 1 января 2000 г.__

## 2. Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [16]:
query_2 = '''
SELECT b.book_id,
       b.title,
       COUNT(DISTINCT(rev.review_id)) as review,
       ROUND(AVG(r.rating), 2) as rating
FROM books AS b 
LEFT JOIN ratings AS r USING(book_id)
LEFT JOIN reviews AS rev USING(book_id)
GROUP BY 2, 1
ORDER BY 3 DESC;
'''
result(query_2)

Unnamed: 0,book_id,title,review,rating
0,948,Twilight (Twilight #1),7,3.66
1,963,Water for Elephants,6,3.98
2,734,The Glass Castle,6,4.21
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,695,The Curious Incident of the Dog in the Night-Time,6,4.08
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67
996,808,The Natural Way to Draw,0,3.00
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
998,221,Essential Tales and Poems,0,4.00


__Лидирует книга "Сумерки" (7 обзоров , рейтинг 3, 66). На втором месте книга "Воды слонам" (6 обзоров, рейтинг 3,98), в лидерах также книги "Стеклянный замок" и "Гарри Потер и узник Азкабана" (по 6 обзоров с рейтингом 4,21)__

## 3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [17]:
query_3 = '''     
WITH
a AS (SELECT publisher_id,
       COUNT(DISTINCT(book_id)) as count
       FROM books 
       WHERE num_pages > 50
       GROUP BY 1
       ORDER BY 2 DESC
       LIMIT 1),
b AS (SELECT publisher_id,
             publisher
             FROM publishers)
SELECT b.publisher
       FROM a LEFT JOIN b USING(publisher_id);
'''
result(query_3)

Unnamed: 0,publisher
0,Penguin Books


__Издательством, выпустившим наибольшее число книг толще 50 страниц стало издательство "Penguin Books"__

## Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [18]:
query_4 = '''     
WITH
a AS (SELECT book_id,
             COUNT(rating_id) as count_rating
             FROM ratings 
       GROUP BY 1
       HAVING COUNT(rating_id) >=50),
b AS (SELECT auth.author_id,
             auth.author,
             b.book_id,
             AVG(rating) AS avg_rating
       FROM authors AS auth
       LEFT JOIN books AS b USING(author_id)
       LEFT JOIN ratings AS rat ON b.book_id=rat.book_id
       GROUP BY 1,3)
SELECT b.author,
       ROUND(AVG(b.avg_rating),2)
       FROM a LEFT JOIN b USING(book_id)
       GROUP BY 1
       ORDER BY 2 DESC;
       
'''
result(query_4)

Unnamed: 0,author,round
0,J.K. Rowling/Mary GrandPré,4.28
1,Markus Zusak/Cao Xuân Việt Khương,4.26
2,J.R.R. Tolkien,4.26
3,Louisa May Alcott,4.19
4,Rick Riordan,4.08
5,William Golding,3.9
6,J.D. Salinger,3.83
7,William Shakespeare/Paul Werstine/Barbara A. M...,3.79
8,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.79
9,Lois Lowry,3.75


__Автором с самой высокой средней оценкой книг (при условии 50 и более количества оценок) является J.K. Rowling/Mary GrandPré (средняя оценка 4,28).__

## 5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [19]:
query_5 = '''     
WITH
a AS (SELECT DISTINCT(r.username) AS username,
            COUNT(DISTINCT(r.review_id)) as count_review,
            COUNT(DISTINCT(b.rating_id)) as count_ratings 
       FROM reviews AS r
       LEFT JOIN ratings AS b USING(username)  
       GROUP BY 1)
SELECT ROUND(AVG(a.count_review),0)
       FROM a 
       WHERE a.count_ratings > 50
'''
result(query_5)

Unnamed: 0,round
0,24.0


__Среднее количество обзоров от пользователей, которые поставили больше 50 оценок составляет 24 обзора__

## Oбщий вывод:

__В соответствии с поставленными задачами были послучены следующие результаты:__

+ 819 книг вышло после 1 января 2000 г.
+ Лидирует книга "Сумерки" (7 обзоров , рейтинг 3, 66). На втором месте книга "Воды слонам" (6 обзоров, рейтинг 3,98), в лидерах также книги "Стеклянный замок" и "Гарри Потер и узник Азкабана" (по 6 обзоров с рейтингом 4,21)
+ Издательством, выпустившим наибольшее число книг толще 50 страниц стало издательство "Penguin Books"
+ Автором с самой высокой средней оценкой книг (при условии 50 и более количества оценок) является J.K. Rowling/Mary GrandPré (средняя оценка 4,28)
+ Среднее количество обзоров от пользователей, которые поставили больше 50 оценок составляет 24 обзора