# Анализ базы данных сервиса для чтения книг

Проанализированы данные о книгах, издательствах, авторах, а также пользовательские обзоры книг при помощи SQL-запросов.

<a id='f_6'></a>
1. [Ознакомление с данными](#f_1)
2. [Выполнение SQL-запросов](#f_2)

### Стэк:

In [21]:
import pandas as pd
import sqlalchemy as sa

Установим доступ к базе данных.

In [5]:
# устанавливаем параметры
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

<a id='f_1'></a>
## Ознакомление с данными
[К оглавлению](#f_6)

Присвоим каждой таблице переменную и выведем по 5 строчек каждой таблице на экран. 

In [6]:
# формируем запрос и выводим данные таблицы books
books = '''SELECT * FROM books LIMIT 5'''
get_sql_data(books)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица содержит данные о книгах. В таблице books мы видим 6 столбцов:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Далее,посчитаем количество строк в таблице.

In [7]:
# формируем запрос и выводим количество строк в таблице books
books_qnt = '''SELECT COUNT(*) FROM books '''
get_sql_data(books_qnt)

Unnamed: 0,count
0,1000


В таблице 1000 книг. Далее изучим таблицу authors.

In [8]:
# формируем запрос и выводим данные таблицы authors
authors = '''SELECT * FROM authors LIMIT 5'''
get_sql_data(authors)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Таблица содержит данные об авторах. В таблице 2 столбца:

- author_id — идентификатор автора;
- author — имя автора.

Далее,посчитаем количество строк в таблице.

In [9]:
authors_qnt = '''SELECT count(*) FROM authors '''
get_sql_data(authors_qnt)

Unnamed: 0,count
0,636


Итак, у нас всего 636 авторов. Далее изучим таблицу publishers.

In [10]:
# формируем запрос и выводим данные таблицы publishers
publishers = '''SELECT * FROM publishers LIMIT 5'''
get_sql_data(publishers)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица содержит данные об издательствах. В таблице 2 столбца:

- publisher_id — идентификатор издательства;
- publisher — название издательства.

Далее,посчитаем количество строк в таблице.

In [11]:
publishers_qnt = '''SELECT count(*) FROM publishers '''
get_sql_data(publishers_qnt)

Unnamed: 0,count
0,340


Всего в данных 340 издательств. Изучим данные о пользовательских оценках книг:

In [12]:
# формируем запрос и выводим данные таблицы ratings
ratings = '''SELECT * FROM ratings LIMIT 5'''
get_sql_data(ratings)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Таблица содержит 4 столбца:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Далее,посчитаем количество строк в таблице.

In [13]:
ratings_qnt = '''SELECT count(*) FROM ratings '''
get_sql_data(ratings_qnt)

Unnamed: 0,count
0,6456


Всего у нас 6456 оценок.

Далее изучим данные о пользовательских обзорах на книги:

In [14]:
# формируем запрос и выводим данные таблицы reviews
reviews = '''SELECT * FROM reviews LIMIT 5'''
get_sql_data(reviews)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблица содержит 4 столбца:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

Далее,посчитаем количество строк в таблице.

In [15]:
reviews_qnt = '''SELECT count(*) FROM reviews '''
get_sql_data(reviews_qnt)

Unnamed: 0,count
0,2793


Всего у нас 2793 обзора на книги.

Приступим к выполнению заданий.

<a id='f_2'></a>
## Выполнение SQL-запросов
[К оглавлению](#f_6)

### Расчет количества книг,вышедших после 1 января 2000 года.

In [16]:
query = '''SELECT count(distinct book_id) 
           FROM BOOKS 
           WHERE publication_date > '2000-01-01'
           '''


get_sql_data(query)

Unnamed: 0,count
0,819


Всего из тысячи книг, присутствующих в датасете, 819 были выпущены после 1 января 2000 года.

### Расчет количества обзоров  и средней оценки для каждой книги.

In [17]:
query = '''SELECT  b.book_id, b.title, COUNT(DISTINCT rew.review_id)as rev_cnt, ROUND(AVG(rat.rating),2) as avg_rate 
           FROM BOOKS b
           LEFT JOIN reviews rew on b.book_id=rew.book_id
           LEFT JOIN ratings rat on b.book_id=rat.book_id
           GROUP BY b.book_id
           ORDER BY COUNT(rew.review_id) DESC
            '''


get_sql_data(query)

Unnamed: 0,book_id,title,rev_cnt,avg_rate
0,948,Twilight (Twilight #1),7,3.66
1,750,The Hobbit or There and Back Again,6,4.13
2,673,The Catcher in the Rye,6,3.83
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
4,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.29
...,...,...,...,...
995,221,Essential Tales and Poems,0,4.00
996,387,Leonardo's Notebooks,0,4.00
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.00
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67


Мы рассчитали количество обзоров и средней оценки для каждой книги. Из полученной таблицы видно, что самая обозреваемая книга "Twilight (Twilight #1)" (7 обзоров). На втором месте книга "The Hobbit or There and Back Again" (6 обзоров).

### Определение издательства, которое выпустило наибольшее число книг толще 50 страниц

In [18]:
query = '''SELECT  p.publisher, COUNT(b.book_id) as book_cnt 
           FROM BOOKS b
           LEFT JOIN publishers p on b.publisher_id=p.publisher_id
           WHERE b.num_pages>50
           GROUP BY p.publisher
           ORDER BY COUNT(b.book_id) DESC
           LIMIT 1
            '''


get_sql_data(query)

Unnamed: 0,publisher,book_cnt
0,Penguin Books,42


С помощью sql-запроса мы определили издательство, которое выпустило наибольшее количество книг - "Penguin Books". Всего они выпустили 42 книги.

### Определение автора с самой высокой средней оценкой книг с учетом книг, имеющих 50 и более оценок

In [19]:
query = '''WITH ratings_fifty AS(SELECT *
                                 FROM (SELECT rat.book_id, b.author_id, 
                                       COUNT(rat.rating_id) as cnt_rat 
                                       
                                       FROM ratings rat
                                       JOIN books b on b.book_id=rat.book_id
                                       GROUP BY rat.book_id, b.author_id) as ratings_count
                                 WHERE cnt_rat>=50 )     
           SELECT author, ROUND(AVG(rating),4)
           FROM ratings_fifty r
           JOIN ratings rat on r.book_id=rat.book_id
           JOIN authors a on a.author_id=r.author_id 
           GROUP BY author
           ORDER BY AVG(rating) DESC
           LIMIT 1


            '''
get_sql_data(query)

Unnamed: 0,author,round
0,J.K. Rowling/Mary GrandPré,4.2871


С помощью sql-запроса мы определили авторов с самой высокой средней оценкой книг с учетом книг, имеющих 50 и более оценок - J.K. Rowlin и Mary GrandPré. Их средняя оценка 4,29.

###  Расчет среднего количества обзоров от пользователей, поставивших больше 48 оценок.

In [20]:
query = '''WITH users AS (SELECT  rat.username, 
                            COUNT(rat.rating_id) as cnt_rate, 
                            COUNT(rew.review_id) OVER (PARTITION BY rat.username) as cnt_rev

                           FROM ratings rat
                           LEFT JOIN reviews rew on rat.username = rew.username
                           GROUP BY rat.username, rew.review_id
                           HAVING COUNT(rat.rating_id) >48           
                           ---ORDER BY COUNT(rating_id) DESC
                           )
           SELECT ROUND(AVG(cnt_rev))
        
           FROM users 
           
           
            '''


get_sql_data(query)

Unnamed: 0,round
0,24.0


В среднем на каждого пользователя, поставившего более 48 оценок, приходится 24 обзора.