# SQL Project

## Project description

The coronavirus caught the world off guard, changing the usual order of things. For a while, city dwellers stopped going out, visiting cafes, and shopping malls. But they had more time for books. Startups noticed this and rushed to create apps for those who love to read.
Your company decided to ride the wave and bought a large subscription-based book reading service. 

## The task
With SQL we are going to analyse the database to get info about books, publishing houses, authors, and book reviews from readers. We need to propose price estimate for a new product


## Data

Таблица `books`  
Содержит данные о книгах:  
`book_id` — идентификатор книги;  
`author_id` — идентификатор автора;  
`title` — название книги;  
`num_pages` — количество страниц;  
`publication_date` — дата публикации книги;  
`publisher_id` — идентификатор издателя.  

Таблица `authors`  
Содержит данные об авторах:  
`author_id` — идентификатор автора;  
`author` — имя автора.    

Таблица `publishers`  
Содержит данные об издательствах:  
`publisher_id` — идентификатор издательства;  
`publisher` — название издательства.    

Таблица `ratings`  
Содержит данные о пользовательских оценках книг:  
`rating_id` — идентификатор оценки;  
`book_id` — идентификатор книги;  
`username` — имя пользователя, оставившего оценку;  
`rating` — оценка книги.   

Таблица `reviews`  
Содержит данные о пользовательских обзорах:  
`review_id` — идентификатор обзора;  
`book_id` — идентификатор книги;  
`username` — имя автора обзора;  
`text` — текст обзора.  

In [1]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa
# устанавливаем параметры
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})


In [2]:
# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

## Изучим первые строки всех таблиц в БД
### Таблица books

In [3]:
# отображение первых строк таблицы
query = '''SELECT * FROM books LIMIT 5'''
display(get_sql_data(query))
# вывод информации по всей таблице
query = '''SELECT * FROM books'''
get_sql_data(query).info()
get_sql_data(query).describe()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


Unnamed: 0,book_id,author_id,num_pages,publisher_id
count,1000.0,1000.0,1000.0,1000.0
mean,500.5,320.417,389.111,171.27
std,288.819436,181.620172,229.39014,99.082685
min,1.0,1.0,14.0,1.0
25%,250.75,162.75,249.0,83.0
50%,500.5,316.5,352.0,177.5
75%,750.25,481.0,453.0,258.0
max,1000.0,636.0,2690.0,340.0


In [4]:
query = '''SELECT MIN(publication_date), MAX(publication_date) FROM books'''
display(get_sql_data(query))


Unnamed: 0,min,max
0,1952-12-01,2020-03-31


**Таблица с книгами содержит идентификаторы книг и авторов, название и прочую информацию о книгах, как указано в описании данных. Данные книги были опубликованы за период с 01.12.1952 по 31.03.2020. Всего в таблице 1000 строк, нет пропущенных значений,число страниц в книгах от 14 до 2690**

### Таблица authors

In [5]:
# отображение первых строк таблицы
query = '''SELECT * FROM authors LIMIT 5'''
display(get_sql_data(query))

# вывод информации по всей таблице
query = '''SELECT * FROM authors'''
get_sql_data(query).info()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


**Таблица с авторами имеет 636 строк, нет пропущенных значений. Таблица содержит информацию по авторам и их идентификаторам**

### Таблица publishers

In [6]:
# отображение первых строк таблицы
query = '''SELECT * FROM publishers LIMIT 5'''
display(get_sql_data(query))

# вывод информации по всей таблице
query = '''SELECT * FROM publishers'''
get_sql_data(query).info()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


**Таблица с издательствами содержит информацию о названии издательства и его идентификаторе. В таблице 340 строк, пропусков нет**

### Таблица ratings

In [7]:
# отображение первых строк таблицы
query = '''SELECT * FROM ratings LIMIT 5'''
display(get_sql_data(query))

# вывод информации по всей таблице
query = '''SELECT * FROM ratings'''
get_sql_data(query).info()
get_sql_data(query).describe()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


Unnamed: 0,rating_id,book_id,rating
count,6456.0,6456.0,6456.0
mean,3228.5,510.574195,3.928284
std,1863.831001,284.141636,0.943303
min,1.0,1.0,1.0
25%,1614.75,291.0,3.0
50%,3228.5,506.0,4.0
75%,4842.25,750.0,5.0
max,6456.0,1000.0,5.0


**Таблица с рейтингами содержит информацию о пользователе, поставившем оценку, саму оценку, ее идентификатор и идентификатор книги, которой присвоена оценка. В таблице 6456 строк, нет пропусков. Рейтинг книг варьируется от 1 до 5, средний рейтинг всех книг около 4**

### Таблица reviews

In [8]:
# отображение первых строк таблицы
query = '''SELECT * FROM reviews LIMIT 5'''
display(get_sql_data(query))

# вывод информации по всей таблице
query = '''SELECT * FROM reviews'''
get_sql_data(query).info()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


**Таблица с обзорами содержит информацию о пользователе, составившем обзор, сам текст обзора, идентификатор обзора и идентификатор книги, на которую составлен обзор. В таблице 2793 строк, нет пропусков**

## Промежуточный вывод по таблицам из БД

В БД 5 таблиц, связанных по первичным ключам:  
- Таблица с книгами содержит идентификаторы книг и авторов, название и прочую информацию о книгах, как указано в описании данных. Данные книги были опубликованы за период с 01.12.1952 по 31.03.2020. Всего в таблице 1000 строк, нет пропущенных значений,число страниц в книгах от 14 до 2690
- Таблица с авторами имеет 636 строк, нет пропущенных значений. Таблица содержит информацию по авторам и их идентификаторам
- Таблица с издательствами содержит информацию о названии издательства и его идентификаторе. В таблице 340 строк, пропусков нет
- Таблица с рейтингами содержит информацию о пользователе, поставившем оценку, саму оценку, ее идентификатор и идентификатор книги, которой присвоена оценка. В таблице 6456 строк, нет пропусков. Рейтинг книг варьируется от 1 до 5, средний рейтинг всех книг около 4
- Таблица с обзорами содержит информацию о пользователе, составившем обзор, сам текст обзора, идентификатор обзора и идентификатор книги, на которую составлен обзор. В таблице 2793 строк, нет пропусков

## Задание №1
Посчитайте, сколько книг вышло после 1 января 2000 года

In [9]:
query = '''SELECT COUNT(book_id) as book_count
FROM books
WHERE publication_date >= '2000-01-01';
'''
get_sql_data(query)

Unnamed: 0,book_count
0,821


**После 1 января 2000 года вышла 821 книга, указанная в имеющейся БД**

## Задание №2
Для каждой книги посчитайте количество обзоров и среднюю оценку

In [10]:
# исходный запрос
query = '''SELECT b.book_id, b.title, COUNT(rv.review_id) as review_count, AVG(rt.rating) as average_rating
FROM books b
LEFT JOIN reviews rv on b.book_id = rv.book_id 
LEFT JOIN ratings rt on b.book_id = rt.book_id 
GROUP BY b.book_id
ORDER BY review_count DESC, average_rating DESC
LIMIT 100'''

get_sql_data(query)

Unnamed: 0,book_id,title,review_count,average_rating
0,948,Twilight (Twilight #1),1120,3.662500
1,750,The Hobbit or There and Back Again,528,4.125000
2,673,The Catcher in the Rye,516,3.825581
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.414634
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.287500
...,...,...,...,...
95,64,Alice in Wonderland,52,4.230769
96,212,Ella Enchanted (Ella Enchanted #1),52,4.076923
97,357,Into Thin Air: A Personal Account of the Mount...,52,3.769231
98,304,Hatchet (Brian's Saga #1),50,4.200000


In [11]:
# подсчет общего числа отзывов по запросу
query = '''SELECT SUM(review_count)
FROM (SELECT b.book_id, b.title, COUNT(rv.review_id) as review_count, AVG(rt.rating) as average_rating
FROM books b
LEFT JOIN reviews rv on b.book_id = rv.book_id 
LEFT JOIN ratings rt on b.book_id = rt.book_id 
GROUP BY b.book_id
ORDER BY review_count DESC, average_rating DESC) t'''

get_sql_data(query)

Unnamed: 0,sum
0,26167.0


In [12]:
# подсчет общего числа отзывов по таблице reviews
query = '''SELECT COUNT(review_id) FROM reviews'''
get_sql_data(query)

Unnamed: 0,count
0,2793


In [13]:
# исправленный запрос
query = '''WITH t AS (SELECT b.book_id, b.title, AVG(rt.rating)
FROM books b
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id)
SELECT t.book_id, t.title, t.avg as average_rating, COUNT(rv.review_id) as review_count
FROM t
LEFT JOIN reviews rv ON t.book_id = rv.book_id
GROUP BY t.book_id, t.title, t.avg
ORDER BY COUNT(rv.review_id) DESC, t.avg DESC
LIMIT 5'''
get_sql_data(query)

Unnamed: 0,book_id,title,average_rating,review_count
0,948,Twilight (Twilight #1),3.6625,7
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634,6
2,299,Harry Potter and the Chamber of Secrets (Harry...,4.2875,6
3,656,The Book Thief,4.264151,6
4,734,The Glass Castle,4.206897,6


In [14]:
# посчсет числа отзывов по исправленному запросу
query = '''WITH t AS (SELECT b.book_id, b.title, AVG(rt.rating)
FROM books b
LEFT JOIN ratings rt ON b.book_id = rt.book_id
GROUP BY b.book_id), 
t2 AS (SELECT t.book_id, t.title, t.avg as average_rating, COUNT(rv.review_id) as review_count
FROM t
LEFT JOIN reviews rv ON t.book_id = rv.book_id
GROUP BY t.book_id, t.title, t.avg
ORDER BY COUNT(rv.review_id) DESC)
SELECT SUM(review_count)
from t2'''
get_sql_data(query)

Unnamed: 0,sum
0,2793.0


**Наиболее популярная книга по количеству оценок - Twilight, она получила 7 оценок и средний рейтинг 3,7. Следом идут две книги о Гарри Поттере  c 6 оценками каждая и рейтингом 4,1 и 4,3 соответственно**

## Задача №3
Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [15]:
query = '''select p.publisher, count(b.book_id) as books_count
from books b 
left join publishers p  on b.publisher_id = p.publisher_id
where book_id in (SELECT book_id  
	FROM books
	where num_pages > 50)
group by p.publisher
order by books_count desc 
limit 1;'''

get_sql_data(query)

Unnamed: 0,publisher,books_count
0,Penguin Books,42


**Больше всего книг (не брошюр) было выпущено издательством Penguin Books**

## Задача №4
Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [16]:
query = '''WITH br AS (SELECT b.book_id, b.author_id, AVG(r.rating)
FROM books b
LEFT JOIN ratings r ON b.book_id = r.book_id
GROUP BY b.book_id
HAVING COUNT(r.rating_id) >= 50)

SELECT a.author_id, a.author, AVG(br.avg) as average_books_rating
FROM br
LEFT JOIN authors a ON br.author_id = a.author_id
GROUP BY a.author_id, a.author
ORDER BY average_books_rating DESC
LIMIT 1;'''

get_sql_data(query)


Unnamed: 0,author_id,author,average_books_rating
0,236,J.K. Rowling/Mary GrandPré,4.283844


**Автором с самым высоким средним рейтингом книг (4,3) является Дж. Роулинг (c книгами о Гарри Поттере, иллюстрации к которым были исполнены Mary GrandPre)**

## Задача №5 
Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [17]:
query = '''
SELECT AVG(count)
FROM (SELECT username, count(review_id)
FROM reviews
WHERE username in (SELECT username
FROM ratings
GROUP BY username
HAVING count(rating_id) > 48)
GROUP BY username) t;'''

get_sql_data(query)

Unnamed: 0,avg
0,24.0


**Пользователи, которые поставили больше 48 оценок, в среднем пишут 24 обзора**

## Общий вывод

В предоставленной БД 5 таблиц, связанных по первичным ключам:  
- Таблица с книгами содержит идентификаторы книг и авторов, название и прочую информацию о книгах, как указано в описании данных. Данные книги были опубликованы за период с 01.12.1952 по 31.03.2020. Всего в таблице 1000 строк, нет пропущенных значений,число страниц в книгах от 14 до 2690
- Таблица с авторами имеет 636 строк, нет пропущенных значений. Таблица содержит информацию по авторам и их идентификаторам
- Таблица с издательствами содержит информацию о названии издательства и его идентификаторе. В таблице 340 строк, пропусков нет
- Таблица с рейтингами содержит информацию о пользователе, поставившем оценку, саму оценку, ее идентификатор и идентификатор книги, которой присвоена оценка. В таблице 6456 строк, нет пропусков. Рейтинг книг варьируется от 1 до 5, средний рейтинг всех книг около 4
- Таблица с обзорами содержит информацию о пользователе, составившем обзор, сам текст обзора, идентификатор обзора и идентификатор книги, на которую составлен обзор. В таблице 2793 строк, нет пропусков

По результатм краткого анализа информации в БД удалось выяснить, что:
- После 1 января 2000 года вышла 821 книга, указанная в имеющейся БД
- Наиболее популярная книга по количеству оценок - Twilight, она получила 7 оценок и средний рейтинг 3,7. Следом идут две книги о Гарри Поттере  c 6 оценками каждая и рейтингом 4,1 и 4,3 соответственно
- Больше всего книг (не брошюр) было выпущено издательством Penguin Books
- Автором с самым высоким средним рейтингом книг (4,3) является Дж. Роулинг (c книгами о Гарри Поттере, иллюстрации к которым были исполнены Mary GrandPre)
- Пользователи, которые поставили больше 48 оценок, в среднем пишут 24 обзора