# SQL

Анализ базы данных сервиса для чтения книг по подписке.
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для продукта.

## Обзор данных


In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', 
             'pwd': 'Sdf4$2;d-d30pp',
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, 
             'db': 'data-analyst-final-project-db'} # 

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
                                                         db_config['pwd'], 
                                                         db_config['host'], 
                                                         db_config['port'],
                                                         db_config['db']) 

engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
query = '''  SELECT *
             FROM books
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [4]:
query = '''  SELECT *
             FROM books
             LIMIT 5
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
query = '''  SELECT *
             FROM authors
             LIMIT 5
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [6]:
query = '''  SELECT *
             FROM publishers
             LIMIT 5
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [7]:
query = '''  SELECT *
             FROM ratings
             LIMIT 5
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [8]:
query = '''  SELECT *
             FROM reviews
             LIMIT 5
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Анализ данных

- Посчитаем, сколько книг вышло после 1 января 2000 года;
- Для каждой книги узнаем количество обзоров и среднюю оценку;
- Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры;
- Определим автора с самой высокой средней оценкой книг — учтем только книги с 50 и более оценками;
- Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [9]:
# сколько книг вышло после 1 января 2000 года
query = '''  SELECT COUNT(DISTINCT book_id) 
             FROM books
             WHERE CAST(publication_date AS date) > '2000-01-01';
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


С 1 января 2020 года вышло 819 книг

In [10]:
# Для каждой книги посчитаем количество обзоров и среднюю оценку
query = '''  SELECT b.book_id, b.title, COUNT(DISTINCT re.review_id), AVG(ra.rating)
             FROM books AS b
             LEFT JOIN reviews AS re ON b.book_id = re.book_id
             LEFT JOIN ratings AS ra ON b.book_id = ra.book_id
             GROUP BY b.book_id
             ORDER BY b.book_id;
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,count,avg
0,1,'Salem's Lot,2,3.666667
1,2,1 000 Places to See Before You Die,1,2.500000
2,3,13 Little Blue Envelopes (Little Blue Envelope...,3,4.666667
3,4,1491: New Revelations of the Americas Before C...,2,4.500000
4,5,1776,4,4.000000
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3,3.666667
996,997,Xenocide (Ender's Saga #3),3,3.400000
997,998,Year of Wonders,4,3.200000
998,999,You Suck (A Love Story #2),2,4.500000


Мы посчитали количество обзоров и среднюю оценку для каждой из книг. Всего в данных хранится информация о 1000 книгах.

In [11]:
# Определим издательство, которое выпустило наибольшее число книг 
# толще 50 страниц — так исключим из анализа брошюры;

query = '''  SELECT p.publisher, COUNT(DISTINCT b.book_id) AS count
             FROM publishers AS p
             JOIN books AS b ON p.publisher_id = b.publisher_id
             WHERE b.num_pages > 50
             GROUP BY p.publisher
             ORDER BY count DESC
             LIMIT 1;
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,count
0,Penguin Books,42


Penguin Books выпустила наибольше количество книг толще 50 страниц (42 книги)

In [12]:
# Определим автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

query = '''  WITH
             c AS (SELECT b.book_id, COUNT(DISTINCT ra.rating_id) AS count
                   FROM books AS b
                   JOIN ratings AS ra ON b.book_id = ra.book_id
                   GROUP BY b.book_id
                   HAVING COUNT(DISTINCT ra.rating_id) > 50)


             SELECT a.author, COUNT(b.book_id), AVG(ra.rating) AS avg
             FROM authors AS a 
             JOIN books AS b ON b.author_id = a.author_id
             JOIN ratings AS ra ON b.book_id = ra.book_id
             JOIN c ON b.book_id = c.book_id
             GROUP BY a.author
             ORDER BY avg DESC
             LIMIT 1;
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,count,avg
0,J.K. Rowling/Mary GrandPré,310,4.287097


Джоан Роулинг является автором с самой высокой средней оценкой книг

In [13]:
# Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

query = '''  WITH
             h AS (SELECT re.username, COUNT(DISTINCT re.review_id) as count
                   FROM reviews AS re
                   JOIN ratings AS ra ON ra.username = re.username
                   GROUP BY re.username
                   HAVING COUNT(DISTINCT ra.rating_id) > 50)


             SELECT AVG(h.count)
             FROM h;
        '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.333333


В среднем, пользователи, поставившие более 50 оценок, пишут около 24 обзоров.