# SQL. Анализ базы данных сервиса для чтения книг по подписки

<b>Цель исследования: </b><br>

Провести исследование базы данных сервиса для чтения книг по подписки.

<b>Задачи исследования:</b><br>
- определить сколько книг вышло после 1 января 2000 года;
- посчитать количество обзоров и среднюю оценку для каждой книги;
- определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
- определить автора с самой высокой средней оценкой книг — учитывайть только книги с 50 и более оценками;
- посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

<b>Описание данных:</b>

Имеется база данных из 5 таблиц:

1) <b>books</b> — содержит данные о книгах.

<b>book_id</b> — идентификатор книги;<br>
<b>author_id</b> — идентификатор автора;<br>
<b>title</b> — название книги;<br>
<b>num_pages</b> — количество страниц;<br>
<b>publication_date</b> — дата публикации книги;<br>
<b>publisher_id</b> — идентификатор издателя.<br>

2) <b>authors</b> — содержит данные об авторах.

<b>author_id</b> — идентификатор автора;<br>
<b>author</b> — имя автора.<br>

3) <b>publishers</b> — содержит данные об издательствах.

<b>publisher_id</b> — идентификатор издательства;<br>
<b>publisher</b> — название издательства.<br>

4) <b>ratings</b> — содержит данные о пользовательских оценках книг.

<b>rating_id</b> — идентификатор оценки;<br>
<b>book_id </b> — идентификатор книги;<br>
<b>username</b> — имя пользователя, оставившего оценку;<br>
<b>rating</b> — оценка книги.<br>

4) <b>reviews</b> — содержит данные о пользовательских обзорах на книги.

<b>review_id</b> — идентификатор обзора;<br>
<b>book_id </b> — идентификатор книги;<br>
<b>username</b> — имя пользователя, оставившего обзор;<br>
<b>text</b> — текст обзора.<br>

<b>Ход исследования: </b>

1) Обзор данных.<br>
2) Исследовательский анализ данных<br>
3) Общий вывод.

### 1. Обзор данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})
con=engine.connect()

Чтобы выполнить `SQL-запрос`, используем `Pandas`

In [4]:
# для таблицы books
books = '''

SELECT * 
FROM books 
LIMIT 10

'''

pd.io.sql.read_sql(sql=text(books), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


In [5]:
# для таблицы authors
authors = '''

SELECT * 
FROM authors 
LIMIT 10

'''

pd.io.sql.read_sql(sql=text(authors), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


In [6]:
# для таблицы publishers
publishers = '''

SELECT * 
FROM publishers 
LIMIT 10

'''

pd.io.sql.read_sql(sql=text(publishers), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


In [7]:
# для таблицы ratings
ratings = '''

SELECT * 
FROM ratings 
LIMIT 10

'''

pd.io.sql.read_sql(sql=text(ratings), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


In [8]:
# для таблицы reviews
reviews = '''

SELECT * 
FROM reviews 
LIMIT 10

'''

pd.io.sql.read_sql(sql=text(reviews), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


<b>Вывод:</b> при обзоре таблиц информация о данных соответствует описанной в задании.

### 2. Исследовательский анализ данных

<b>Задание №1 - определить сколько книг вышло после 1 января 2000 года

In [9]:
ex_1 = '''

SELECT COUNT(book_id) 
FROM books 
WHERE publication_date > '2000-01-01'

'''

pd.io.sql.read_sql(sql=text(ex_1), con = con)

Unnamed: 0,count
0,819


<b>Краткий вывод:</b> после 1 января 2000 года вышло 819 книг

<b>Задание №2 - посчитать количество обзоров и среднюю оценку для каждой книги

In [10]:
ex_2_1 = '''

SELECT b.book_id,
    b.title,
    ROUND(AVG(rat.rating), 2) AS rat_avg,
    COUNT(DISTINCT rev.text) AS rev_count
FROM books AS b
LEFT JOIN ratings AS rat ON rat.book_id = b.book_id
LEFT JOIN reviews AS rev ON rev.book_id = b.book_id
GROUP BY b.book_id
ORDER BY rat_avg DESC

'''

pd.io.sql.read_sql(sql=text(ex_2_1), con = con)

Unnamed: 0,book_id,title,rat_avg,rev_count
0,86,Arrows of the Queen (Heralds of Valdemar #1),5.00,2
1,901,The Walking Dead Book One (The Walking Dead #...,5.00,2
2,390,Light in August,5.00,2
3,972,Wherever You Go There You Are: Mindfulness Me...,5.00,2
4,136,Captivating: Unveiling the Mystery of a Woman'...,5.00,2
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,2.25,3
996,316,His Excellency: George Washington,2.00,2
997,202,Drowning Ruth,2.00,3
998,371,Junky,2.00,2


In [11]:
ex_2_2 = '''

SELECT b.book_id,
    b.title,
    ROUND(AVG(rat.rating), 2) AS rat_avg,
    COUNT(DISTINCT rev.text) AS rev_count
FROM books AS b
LEFT JOIN ratings AS rat ON rat.book_id = b.book_id
LEFT JOIN reviews AS rev ON rev.book_id = b.book_id
GROUP BY b.book_id
ORDER BY rev_count DESC

'''

pd.io.sql.read_sql(sql=text(ex_2_2), con = con)

Unnamed: 0,book_id,title,rat_avg,rev_count
0,948,Twilight (Twilight #1),3.66,7
1,963,Water for Elephants,3.98,6
2,734,The Glass Castle,4.21,6
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,4.41,6
4,695,The Curious Incident of the Dog in the Night-Time,4.08,6
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,3.67,0
996,808,The Natural Way to Draw,3.00,0
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,5.00,0
998,221,Essential Tales and Poems,4.00,0


<b>Краткий вывод:</b> Всего рассматривается 1000 книг. Оценка книг варьируется от 1,5 до 5. Количество отзывов - от 0 до 6. С 7 отзывами только одна книга - <u>Twilight</u>. Количество отзывов на оценку книги никак не влияет.

<b>Задание №3 - определить издательство, которое выпустило наибольшее число книг толще 50 страниц

In [12]:
ex_3 = '''

SELECT  pub.publisher,
        COUNT(b.book_id) AS count
FROM publishers AS pub
JOIN books AS b ON pub.publisher_id = b.publisher_id
GROUP BY pub.publisher
ORDER BY count DESC
LIMIT 1

'''

pd.io.sql.read_sql(sql=text(ex_3), con = con)

Unnamed: 0,publisher,count
0,Penguin Books,42


<b>Краткий вывод:</b> Больше всего книг (книги считаются от 50 стр.) выпустило издательство `Penguin Books`. Таких книг у издательства 42 штуки.

<b>Задание №4 - определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками

In [13]:
ex_4 = '''

WITH
vr AS (
    SELECT a.author,
        b.book_id,
        AVG(rat.rating) AS avg_rat,
        COUNT(rat.rating) AS count_rat
    FROM authors AS a
    JOIN books AS b ON b.author_id = a.author_id
    JOIN ratings AS rat ON rat.book_id = b.book_id
    GROUP BY a.author, 
             b.book_id
    HAVING COUNT(rat.rating) >= 50)

SELECT vr.author,
       ROUND(AVG(vr.avg_rat),6) AS avg_rat
FROM vr
GROUP BY vr.author
ORDER BY avg_rat DESC
LIMIT 1

'''

pd.io.sql.read_sql(sql=text(ex_4), con = con)

Unnamed: 0,author,avg_rat
0,J.K. Rowling/Mary GrandPré,4.283844


<b>Краткий вывод:</b> самая высокая средня оценка книг, у которых 50 и более оценок, у автора `J.K. Rowling` - 4,28.

<b>Задание №5 - посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [14]:
ex_5 = '''

WITH
t AS (SELECT username, 
             COUNT(review_id) AS count_rev
      FROM reviews
      WHERE username IN (SELECT username
                          FROM ratings
                          GROUP BY username
                          HAVING COUNT(rating_id) > 48)
     GROUP BY username
     )

SELECT AVG(count_rev) AS avg_rev
FROM t 
      
'''

pd.io.sql.read_sql(sql=text(ex_5), con = con)

Unnamed: 0,avg_rev
0,24.0


<b>Краткий вывод:</b> в среднем пользователи, которые поставили больше 48 оценок, совершили 24 обзора.

### 3. Общий вывод

1) В ходе ознакомления с данными стало известно, что имеется пять таблиц с данными о книгах (<b>books</b>), об авторах <b>authors</b>, об издательствах <b>publishers</b>,  о пользовательских оценках книг <b>ratings</b>, о пользовательских обзорах на книги <b>reviews</b>.
2) В ходе исследовательского анализа стало известно:
- после 1 января 2000 года вышло 819 книг;
- оценка книг варируется от 1,5 до 5. Количество отзывов - от 0 до 6. С 7 отзывами только одна книга - <b>Twilight</b>. Количество отзывов на оценку книги никак не влияет;
- больше всего книг (книги считаются от 50 стр.) выпустило издательство Penguin Books. Таких книг у издательства 42 штуки;
- самая высокая средня оценка книг, у которых 50 и более оценок, у автора <b>J.K. Rowling</b> - 4,28;
- в среднем пользователи, которые поставили больше 48 оценок, совершили 24 обзора.