# Проект по SQL

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать. Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке.

*Цели исследования:*

1. Проанализировать базу данных.

2. Изучить информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных
Таблица `books`
cодержит данные о книгах:

`book_id` — идентификатор книги;

`author_id` — идентификатор автора;

`title` — название книги;

`num_pages` — количество страниц;

`publication_date` — дата публикации книги;

`publisher_id` — идентификатор издателя.

Таблица `authors`
cодержит данные об авторах:

`author_id` — идентификатор автора;

`author` — имя автора.

Таблица `publishers`
cодержит данные об издательствах:

`publisher_id` — идентификатор издательства;

`publisher` — название издательства;

Таблица ratings
cодержит данные о пользовательских оценках книг:

`rating_id` — идентификатор оценки;

`book_id` — идентификатор книги;

`username` — имя пользователя, оставившего оценку;

`rating` — оценка книги.

Таблица `reviews`
cодержит данные о пользовательских обзорах:

`review_id` — идентификатор обзора;

`book_id` — идентификатор книги;

`username` — имя автора обзора;

`text` — текст обзора.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'censored', # пароль
'host': 'censored',
'port': censored, # порт подключения
'db': 'censored'} # название базы данных
connection_string = 'censored'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [2]:
query = '''
SELECT *
FROM books
LIMIT 3
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135


In [3]:
query = '''
SELECT *
FROM authors
LIMIT 3
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie


In [4]:
query = '''
SELECT *
FROM publishers
LIMIT 3
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books


In [5]:
query = '''
SELECT *
FROM ratings
LIMIT 3
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5


In [6]:
query = '''
SELECT *
FROM reviews
LIMIT 3
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...


У нас имеется пять таблиц: `books`, `authors`, `ratings`, `reviews` и `publishers`. "Эти таблицы содержат информацию о книгах, авторах, оценках пользователей, обзорах и издательствах. Подробное описание данных представлено в разделе "Описание данных".

### Посчитайте, сколько книг вышло после 1 января 2000 года;

In [7]:
query = '''
SELECT 
  COUNT(book_id) 
FROM 
  books 
WHERE 
  publication_date > '2000-01-01'
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


В нашей базе данных 819 книг, выпущенных после 01.01.2000 г.

### Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [8]:
query = '''
SELECT 
  b.book_id,
  b.title, 
  COUNT(DISTINCT rv.review_id) AS cnt_reviews, 
  ROUND(
    AVG(r.rating), 
    1
  ) AS avg_rating 
FROM 
  books AS b 
  LEFT JOIN reviews AS rv ON b.book_id = rv.book_id 
  LEFT JOIN ratings AS r ON b.book_id = r.book_id 
GROUP BY 
  b.book_id,
  b.title 
ORDER BY 
  avg_rating DESC;
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,cnt_reviews,avg_rating
0,169,Crucial Conversations: Tools for Talking When ...,2,5.0
1,901,The Walking Dead Book One (The Walking Dead #...,2,5.0
2,17,A Dirty Job (Grim Reaper #1),4,5.0
3,275,Geek Love,2,5.0
4,321,Homage to Catalonia,2,5.0
...,...,...,...,...
995,772,The Kitchen God's Wife,3,2.3
996,316,His Excellency: George Washington,2,2.0
997,202,Drowning Ruth,3,2.0
998,371,Junky,2,2.0


В нашей бд 1000 книг, максимальный рейтинг 5.0, минимальный - 1.5. Обзоров на каждую книгу от 0 до 7. 

### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [9]:
query = '''
SELECT 
  p.publisher AS publisher_name, 
  COUNT(b.book_id) AS cnt_books 
FROM 
  publishers AS p 
  LEFT JOIN (
    SELECT 
      book_id, 
      publisher_id 
    FROM 
      books 
    WHERE 
      num_pages > 50
  ) AS b ON p.publisher_id = b.publisher_id 
GROUP BY 
  publisher_name 
ORDER BY 
  cnt_books DESC
LIMIT 1;
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_name,cnt_books
0,Penguin Books,42


Наибольшее число книг толще 50 страниц выпустили Penguin Books, ими выпущего 42 книги указанной толщины.

### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [10]:
query = '''
SELECT 
  a.author_id, 
  a.author, 
  AVG(r.rating) AS avg_rating 
FROM 
  books AS b 
  INNER JOIN authors AS a ON b.author_id = a.author_id 
  INNER JOIN ratings AS r ON b.book_id = r.book_id 
WHERE 
  b.book_id IN (
    SELECT 
      book_id 
    FROM 
      ratings 
    GROUP BY 
      book_id 
    HAVING 
      COUNT(rating_id) > 49
  )
GROUP BY 
  a.author_id, 
  a.author 
ORDER BY 
  AVG(r.rating) DESC 
LIMIT 1;

'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097


Автор с самой высокой средней оценкой книг (среди книг с 50 и более оценками) - J.K. Rowling/Mary GrandPré. Средний рейтинг - 4.28

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [11]:
query = '''
SELECT 
  COUNT(DISTINCT rev.text) / COUNT(DISTINCT rev.username) AS avg_rev_count 
FROM 
  reviews AS rev 
WHERE 
  rev.username IN (
    SELECT 
      username 
    FROM 
      ratings 
    GROUP BY 
      username 
    HAVING 
      COUNT(rating_id) > 48
  )

'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_rev_count
0,24


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок - 24.