# Проект по SQL

**Задача:** анализ базы данных с информацией о книгах, издательствах, авторах и пользовательских обзорах книг.

**Цель исследования:** выводы, на основе которых можно сформулировать предложение для нового продукта.

**Описание данных:**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

**Импортируем нужные библиотеки и подключимся к БД:**

In [1]:
import pandas as pd
from sqlalchemy import create_engine

# настроим полный вывод содержимого столбцов
pd.options.display.max_colwidth = 150

# устанавливаем параметры
db_config = {'user': '****', # имя пользователя
 'pwd': '****', # пароль
 'host': '****',
 'port': ****, # порт подключения
 'db': '****'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Сформируем текст SQL-запроса и вызовем команду выполнения запроса, чтобы можно было вывести содержимое таблиц на экран:

In [2]:
query = ''' SELECT *
            FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)


query = ''' SELECT *
            FROM authors
        '''
authors = pd.io.sql.read_sql(query, con = engine)


query = ''' SELECT *
            FROM publishers
        '''
publishers = pd.io.sql.read_sql(query, con = engine)


query = ''' SELECT *
            FROM ratings
        '''
ratings = pd.io.sql.read_sql(query, con = engine)


query = ''' SELECT *
            FROM reviews
        '''
reviews = pd.io.sql.read_sql(query, con = engine)

**Изучим таблицы:**

In [3]:
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [4]:
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [5]:
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [6]:
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [7]:
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.


### Задания:

**1. Посчитаем, сколько книг вышло после 1 января 2000 года.**

In [8]:
query = '''
SELECT COUNT(*)
FROM books t
WHERE t.publication_date> '2000-01-01';
'''

solution = pd.io.sql.read_sql(query, con = engine)
solution

Unnamed: 0,count
0,819


**Вывод:** после 1 января 2000 года вышло 819 книг.

**2. Для каждой книги посчитаем количество обзоров и среднюю оценку.**

In [9]:
query = '''
SELECT i.title,
       rv.review_count,
       rt.rating_avg
FROM books i
LEFT JOIN
    (SELECT book_id,
            COUNT(review_id) AS review_count
     FROM reviews
     GROUP BY book_id
     ORDER BY book_id) rv on i.book_id = rv.book_id
LEFT JOIN
    (SELECT book_id,
            AVG(rating) AS rating_avg
     FROM ratings
     GROUP BY book_id
     ORDER BY book_id) rt on i.book_id = rt.book_id
ORDER BY rating_avg DESC;
'''

solution_2 = pd.io.sql.read_sql(query, con = engine)
solution_2

Unnamed: 0,title,review_count,rating_avg
0,Arrows of the Queen (Heralds of Valdemar #1),2.0,5.00
1,The Walking Dead Book One (The Walking Dead #1-12),2.0,5.00
2,Light in August,2.0,5.00
3,Wherever You Go There You Are: Mindfulness Meditation in Everyday Life,2.0,5.00
4,Captivating: Unveiling the Mystery of a Woman's Soul,2.0,5.00
...,...,...,...
995,The World Is Flat: A Brief History of the Twenty-first Century,3.0,2.25
996,His Excellency: George Washington,2.0,2.00
997,Drowning Ruth,3.0,2.00
998,Junky,2.0,2.00


**Вывод:**

Самая высокая средняя оценка (5.00) у книг: "Arrows of the Queen (Heralds of Valdemar #1)", "The Walking Dead Book One (The Walking Dead #1-12)", "Light in August" и т.д.

Самая низкая оценка (1.50) у книги "Harvesting the Heart".

**3. Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры.**

In [10]:
query = '''
SELECT t.publisher_id,
       p.publisher,
       COUNT(t.book_id) AS count_book
FROM books t
LEFT JOIN public.publishers p on t.publisher_id = p.publisher_id
WHERE t.num_pages > 50
GROUP BY t.publisher_id, p.publisher
ORDER BY count_book DESC
LIMIT 1;
'''

solution_3 = pd.io.sql.read_sql(query, con = engine)
solution_3

Unnamed: 0,publisher_id,publisher,count_book
0,212,Penguin Books,42


**Вывод:**

Издательство, которое выпустило наибольшее число книг толще 50 страниц - "Penguin Books" (42 книги).

**4. Определим автора с самой высокой средней оценкой книг — будем учитывать только книги с 50 и более оценками.**

In [11]:
query = '''
SELECT t.author_id,
       a.author,
       t.book_id,
       AVG(rt.rating) AS rating_avg, t.title
FROM public.books AS t
LEFT JOIN public.ratings AS rt on t.book_id = rt.book_id
LEFT JOIN
    (SELECT book_id,
     COUNT(rating_id) AS rating_count
     FROM public.ratings
     GROUP BY book_id
     ORDER BY book_id) AS rc on t.book_id = rc.book_id
LEFT JOIN public.authors AS a on t.author_id = a.author_id
WHERE rating_count >= 50
GROUP BY t.author_id, a.author, t.book_id, t.title
ORDER BY rating_avg DESC, t.author_id
LIMIT 1;
'''

solution_4 = pd.io.sql.read_sql(query, con = engine)
solution_4

Unnamed: 0,author_id,author,book_id,rating_avg,title
0,236,J.K. Rowling/Mary GrandPré,302,4.414634,Harry Potter and the Prisoner of Azkaban (Harry Potter #3)


**Вывод:**

Автор с самой высокой средней оценкой книг с 50 и более оценками - J.K. Rowling/Mary GrandPré (средняя оценка 4.4, книга "Harry Potter and the Prisoner of Azkaban (Harry Potter #3)").

**5. Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.**

In [12]:
query = '''
SELECT ROUND(AVG(review),2)
FROM
    (SELECT t.username,
            COUNT(t.review_id) AS review
     FROM reviews t
LEFT JOIN
    (SELECT username,
            COUNT(rating_id) AS rating_count
     FROM ratings
     GROUP BY username
     ORDER BY username) AS rc on t.username = rc.username
WHERE rating_count > 50
GROUP BY t.username) a;
'''

solution_5 = pd.io.sql.read_sql(query, con = engine)
solution_5

Unnamed: 0,round
0,24.33


**Вывод:**

Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24 шт.