# Исследование базы данных о книгах

**Цель исследования** — проанализировать базу данных, чтобы на основе полученных данных в дальнейшем можно было сформулировать ценностное предложение для нового продукта.

**Задачи исследования:**

- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц, исключить из анализа брошюры;
- Определить автора с самой высокой средней оценкой книг (учитывать только книги с 50 и более оценками);
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.


**Описание данных**

В базе данных хранится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [1]:
# импорт необходимых библиотек
import pandas as pd
from sqlalchemy import text, create_engine

## Обзор данных

**Подключение к базе данных**

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

con=engine.connect()

**Вывод данных из таблицы books**

In [3]:
query = '''SELECT * FROM books LIMIT 5'''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Вывод данных из таблицы authors**

In [4]:
query = '''SELECT * FROM authors LIMIT 5'''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Вывод данных из таблицы publishers**

In [5]:
query = '''SELECT * FROM publishers LIMIT 5'''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Вывод данных из таблицы ratings**

In [6]:
query = '''SELECT * FROM ratings LIMIT 5'''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Вывод данных из таблицы reviews**

In [7]:
query = '''SELECT * FROM reviews LIMIT 5'''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [8]:
# функция для отображения таблиц
list = ['books', 'authors', 'publishers', 'ratings', 'reviews']

for name in list:
    query = '''SELECT * FROM {} LIMIT 5'''.format(name)
    display(pd.io.sql.read_sql(sql=text(query), con = con))

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Исследовательский анализ данных

**Анализ количества книг, вышедших после 1 января 2000 года**

In [10]:
query = '''SELECT COUNT(DISTINCT title)
           FROM books
           WHERE publication_date >= '2000-01-01' '''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,820


После 1 января 2000 года было выпущего 820 книг

**Анализ количества обзоров и средней оценки для каждой книги**

In [11]:
query = '''WITH rate AS (SELECT book_id,
                                AVG(rating) as avg_raiting
                         FROM ratings
                         GROUP BY book_id),
           
           review AS (SELECT book_id,
                             COUNT(username) as reviews_count
                      FROM reviews
                      GROUP BY book_id)

           SELECT title,
                  reviews_count,
                  avg_raiting
           FROM books AS b
           LEFT JOIN review AS r ON b.book_id=r.book_id
           LEFT JOIN rate AS ra ON b.book_id=ra.book_id
           LIMIT 10'''


pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,title,reviews_count,avg_raiting
0,The Body in the Library (Miss Marple #3),2,4.5
1,Galápagos,2,4.5
2,A Tree Grows in Brooklyn,5,4.25
3,Undaunted Courage: The Pioneering First Missio...,2,4.0
4,The Prophet,4,4.285714
5,American Gods (American Gods #1),5,4.0
6,Influence: The Psychology of Persuasion,3,4.333333
7,The Idiot,3,4.25
8,Rebecca,4,4.0
9,The Source,2,3.5


**Определение издательства, которое выпустило наибольшее число книг толще 50 страниц**

In [12]:
query = '''SELECT publisher,
                  COUNT(title) as books_count
           FROM books AS b
           JOIN publishers AS p ON b.publisher_id=p.publisher_id
           WHERE num_pages > 50
           GROUP BY publisher
           ORDER BY books_count DESC
           LIMIT 1 '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,books_count
0,Penguin Books,42


Больше всего книг выпустило издательство Penguin Books - 42 штуки

**Определение автора с самой высокой средней оценкой книг (учитывать только книги с 50 и более оценками)**

In [13]:
query = '''WITH rate_count AS (SELECT book_id,
                                      ROUND(AVG(rating), 2) AS avg_rating,
                                      COUNT(rating) as raiting_count
                               FROM ratings
                               GROUP BY book_id)

           SELECT author,
                  ROUND(AVG(avg_rating),2) as author_rating_avg
           FROM books as b
           JOIN authors AS a ON a.author_id=b.author_id
           JOIN rate_count AS r ON r.book_id=b.book_id
           WHERE raiting_count >= 50
           GROUP BY author
           ORDER BY author_rating_avg DESC
           LIMIT 1'''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,author_rating_avg
0,J.K. Rowling/Mary GrandPré,4.29


Автор с самым высоким рейтингом - J.K. Rowling/Mary GrandPré (4,29)

**Расчет среднего количества обзоров от пользователей, которые поставили больше 48 оценок**

In [14]:
query = '''WITH rating AS (SELECT username,
                                  COUNT(rating_id) AS rating_count
                           FROM ratings
                           GROUP BY username),
                           
                 reviews AS (SELECT username,
                                    COUNT(review_id) as review_count
                             FROM reviews
                             GROUP BY username)            
                
             SELECT ROUND(AVG(review_count),2)
             FROM reviews AS rew
             JOIN rating AS rate ON rew.username=rate.username
             WHERE rating_count > 48
       '''

con=engine.connect()

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,round
0,24.0


Среднее количество обзоров от пользователей с рейтингом 48 - 24

**Доп. задание 1**

Вывод таблицы, которая будет содержать информацию, сгруппированную по году публикации:
- количество издательств;
- выпущенных книг;
- сколько всего тысяч страниц было в изданных книгах.

Отобразить нужно только те года, в которых издано более 30 книг.

In [15]:
query = '''               
             SELECT EXTRACT(YEAR FROM publication_date) AS year,
                    COUNT(publisher_id) AS publishers_count,
                    COUNT(book_id) AS books_count,
                    FLOOR(SUM(num_pages)/1000) AS total_pages
             FROM books
             GROUP BY year
             HAVING COUNT(book_id) > 30
             ORDER BY year
       '''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,year,publishers_count,books_count,total_pages
0,1999.0,41,41,15.0
1,2000.0,38,38,13.0
2,2001.0,60,60,21.0
3,2002.0,94,94,38.0
4,2003.0,105,105,41.0
5,2004.0,124,124,46.0
6,2005.0,139,139,55.0
7,2006.0,184,184,68.0
8,2007.0,50,50,18.0


**Доп. задание 2**

Вывод в таблице двух чисел — средней оценки тех книг, на которые написало отзывов более 3 человек, и отдельно среднюю оценку остальных книг.

In [16]:
query = '''               
       WITH three_reviews AS (SELECT book_id,
                                     COUNT(review_id)
                              FROM reviews
                              GROUP BY book_id
                              HAVING COUNT(review_id) > 3),
       
            three_rev_rating AS (SELECT ROUND(AVG(rating),2) AS books_with_3_reviews
                                 FROM ratings
                                 WHERE book_id IN (SELECT book_id FROM three_reviews)),
                            
                
            less_three_rating AS (SELECT ROUND(AVG(rating),2) AS books_with_less_reviews
                                  FROM ratings
                                  WHERE book_id NOT IN (SELECT book_id FROM three_reviews))
       
       SELECT * FROM three_rev_rating, less_three_rating
        
       

       '''

pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,books_with_3_reviews,books_with_less_reviews
0,3.95,3.89


Рейтинги отличаются незначительно, однако средний рейтинг для книг, для которых написали отзывы более 3-х человек выше.

## Выводы:

- После 1 января 2000 года было выпущего 818 книг
- Больше всего книг выпустило издательство Penguin Books - 42 штуки
- Автор с самым высоким рейтингом - J.K. Rowling/Mary GrandPré (4,29)
- Срденее количество обзоров от пользователей с рейтингом 48 - 24