# Проект по SQL

Компания владеет  крупным сервис для чтения книг по подписке. 

**Цель исследования**

Формулирование ценностного предложения для нового продукта.

**Задача**

- Определение количества книг, которые  вышли после 1 января 2000 года;
- Для каждой книги посчет количества обзоров и средней оценки;
- Определение издательства, которое выпустило наибольшее число книг толще 50 страниц, так будут исключены из анализа брошюры;
- Определение автора с самой высокой средней оценкой книг, учитываются только книги с 50 и более оценками;
- Определение среднего количества обзоров от пользователей, которые поставили больше 48 оценок.

**Описание данных**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя автора обзора;
- `text` — текст обзора.

**План исследования**

1. Обзор и загрузка данных.
- загрузка библиотек
- исследование таблиц.
2. Ответы на задачи исследования.
- Определение количества книг, которые вышли после 1 января 2000 года;
- Для каждой книги посчет количества обзоров и средней оценки;
- Определение издательства, которое выпустило наибольшее число книг толще 50 страниц, так будут исключены из анализа брошюры;
- Определение автора с самой высокой средней оценкой книг, учитываются только книги с 50 и более оценками;
- Определение среднего количества обзоров от пользователей, которые поставили больше 48 оценок.
3. Вывод.

## Обзор и загрузка данных

### Загрузка библиотек

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Исследование таблиц

**Таблица books**

In [2]:
# выведем первые 5 строк таблицы
query = '''
       SELECT *
       FROM books
       LIMIT 5
    '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица содержит данные о книгах: 
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

**Таблица authors**

In [3]:
# выведем первые 5 строк таблицы
query = '''
       SELECT *
       FROM authors
       LIMIT 5
    '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Таблица содержит данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.

**Таблица publishers**

In [4]:
# выведем первые 5 строк таблицы
query = '''
       SELECT *
       FROM publishers
       LIMIT 5
    '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица содержит данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства.

**Таблица ratings**

In [5]:
# выведем первые 5 строк таблицы
query = '''
       SELECT *
       FROM ratings
       LIMIT 5
    '''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Таблица содержит данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

**Таблица reviews**

In [6]:
# выведем первые 5 строк таблицы
query = '''
       SELECT *
       FROM reviews
       LIMIT 5
    '''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблица содержит данные о пользовательских обзорах на книги:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

## Ответы на задачи исследования

### Определение количества книг, которые вышли после 1 января 2000 года

In [7]:
# составим запрос
query = '''
       SELECT COUNT(book_id)
       FROM books
       WHERE publication_date > '2000-01-01'
    '''

# выполним запрос
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,819


После 01 января 2000 вышло 819 книг.

### Для каждой книги посчет количества обзоров и средней оценки

In [8]:
# составим запрос
query_2 = '''
       SELECT b.book_id, b.title,
       COUNT(DISTINCT r.review_id) AS review_count, 
       ROUND(AVG(rt.rating), 2) AS average_rating
       FROM books AS b
       LEFT OUTER JOIN reviews AS r ON b.book_id = r.book_id
       LEFT OUTER JOIN ratings AS rt ON b.book_id = rt.book_id
       GROUP BY b.book_id
       ORDER BY average_rating DESC, review_count DESC
    '''
# выполним запрос
pd.io.sql.read_sql(query_2, con = engine)


Unnamed: 0,book_id,title,review_count,average_rating
0,17,A Dirty Job (Grim Reaper #1),4,5.00
1,553,School's Out—Forever (Maximum Ride #2),3,5.00
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,642,The Big Bad Wolf (Alex Cross #9),2,5.00
4,967,Welcome to Temptation (Dempseys #1),2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,202,Drowning Ruth,3,2.00
997,316,His Excellency: George Washington,2,2.00
998,371,Junky,2,2.00


Для каждой книги посчет количества обзоров и средней оценки выполнен. Каждая книга содержит оценку.

### Определение издательства, которое выпустило наибольшее число книг толще 50 страниц, так будут исключены из анализа брошюры

In [9]:
# составим запрос
query_3 = '''
       SELECT p.publisher, COUNT(b.book_id) AS book_count
       FROM books b
       JOIN publishers p ON b.publisher_id = p.publisher_id
       WHERE b.num_pages > 50
       GROUP BY p.publisher
       ORDER BY book_count DESC
       LIMIT 1;
    
'''
# выполним запрос
pd.io.sql.read_sql(query_3, con = engine) 

Unnamed: 0,publisher,book_count
0,Penguin Books,42


Издательство Penguin Books  выпустило наибольшее число книг - 42 шт., которые  толще 50 страниц.

### Определение автора с самой высокой средней оценкой книг, учитываются только книги с 50 и более оценками

In [10]:
# составим запрос
query_4 = '''
    WITH book_ratings AS (
        SELECT b.book_id,b.author_id, AVG(r.rating) AS avg_rating,
            COUNT(r.rating_id) AS rating_count
        FROM books b
        JOIN ratings r ON b.book_id = r.book_id
        GROUP BY b.book_id, b.author_id
        HAVING COUNT(r.rating_id) >= 50
    ),
    author_avg_ratings AS (
        SELECT a.author_id,a.author, AVG(br.avg_rating) AS author_avg_rating
        FROM book_ratings br
        JOIN authors a ON br.author_id = a.author_id
        GROUP BY a.author_id, a.author
    )
    SELECT author,author_avg_rating
    FROM author_avg_ratings
    ORDER BY author_avg_rating DESC
    LIMIT 1;
'''

# выполним запрос
pd.io.sql.read_sql(query_4, con = engine)

Unnamed: 0,author,author_avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


J.K. Rowling/Mary GrandPré автор с самой высокой средней оценкой книг, имеющий оценки   50 и более.

### Определение среднего количества обзоров от пользователей, которые поставили больше 48 оценок

In [11]:
# составим запрос
query_5 = '''
       SELECT AVG(review_count) AS avg_reviews_per_user
       FROM (SELECT r.username, COUNT(r.review_id) AS review_count
       FROM reviews AS r
       WHERE r.username IN (SELECT rt.username
       FROM ratings AS rt
       GROUP BY rt.username
       HAVING COUNT(rt.rating_id) > 48)
       GROUP BY r.username) AS review_count
            '''
         
# выполним запрос       
pd.io.sql.read_sql(query_5, con = engine)


Unnamed: 0,avg_reviews_per_user
0,24.0


Cреднее количества обзоров от пользователей, которые поставили больше 48 оценок составляет 24.

## Вывод

- После 01 января 2000 вышло 819 книг.
- Для каждой книги посчет количества обзоров и средней оценки выполнен. Каждая книга содержит рейтинг.
- Издательство Penguin Books выпустило наибольшее число книг - 42 шт., которые толще 50 страниц.
- J.K. Rowling/Mary GrandPré автор с самой высокой средней оценкой книг, имеющий оценки 50 и более.
- Cреднее количества обзоров от пользователей, которые поставили больше 48 оценок составляет 24.