# Проект по SQL

## Описание проекта
Компания решила выйти на популярный в условиях коронавируса рынок и приобрела сервис для чтения книг по подписке. Первостпенная задача в таком сервисе произвести анализ располагаемых книг в базе данных. В данной базе находятся данные о книгах и их характеристиках. В качестве результата предполагается новое предложение для продукта.  

## Цели и задачи проекта
**Цель проекта** — получить целостное представление о располагаемых книгах сервиса, чтобы сформировать дальнейшую стратегию развития нового сервиса.

**Задачи проекта**:
1) выявить актуальные книги (с 2000 года),  
2) сколько обзоров и какие оценки у книг,  
3) какое издательство выпустило большее число книг, чей объем превышает 50 страниц,  
4) выявить автора с самой высокой средней оценкой книг, которые получили 50 и более оценок,  
5) выявить среднее количество обзоров от пользователей, поставивших больше 48 оценок.  

## Описание базы данных
В нашем распоряжении база данных из 5 таблиц с следующей ER-диаграммой.

![image.png](attachment:image.png)

1) Таблица с информацией о книгах `books`, включающая поля:
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

2) Таблица с информацией об авторах `authors`, включающая поля:
- `author_id` — идентификатор автора;
- `author` — имя автора.
    
3) Таблица с информацией об издательствах `publishers`, включающая поля:  
- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства.

4) Таблица с информацией о пользовательских оценках книг `ratings`, включающая поля:  
- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.
    
5) Таблица с информацией о о пользовательских обзорах `reviews`, включающая поля: 
- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя автора обзора;
- `text` — текст обзора.
____________________________________________________________________________________

## Запросы к базе данных
### Подключение к базе данных и знакомство с таблицами

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {
    'user': 'praktikum_student', # имя пользователя
    'pwd': '############', # пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, # порт подключения
    'db': 'data-analyst-final-project-db' # название базы данных
}

In [3]:
# формируем строку подключения
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

In [4]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [5]:
# выведем таблицу "books"
query = '''
        SELECT * 
        FROM books 
        LIMIT 5
        '''

con=engine.connect()

# выведем первые 5 строк
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


В таблице представлено 6 полей: 
- `book_id` с целочисленными идентификаторомами, 
- `author_id` с целочисленными идентификаторомами, 
- `title` с названиями в формате строк, 
- `num_pages` с целочисленным количеством страниц, 
- `publication_date` с датами публикации в формате datetime,
- `publisher_id` с целочисленными идентификаторомами.  

Структура и данные таблицы соответствует описанию.

In [6]:
# выведем таблицу "authors"
query = '''
        SELECT * 
        FROM authors 
        LIMIT 5
        '''

con=engine.connect()

# выведем первые 5 строк
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


В таблице `authors` представлено 2 поля: 
- `author_id` с целочисленными идентификаторомами авторов,
- `author` с именами авторов в формате строки.  

Структура и данные таблицы `authors` соответствует описанию.

In [7]:
# выведем таблицу "publishers"
query = '''
        SELECT * 
        FROM publishers 
        LIMIT 5
        '''

con=engine.connect()

# выведем первые 5 строк
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


В таблице `publishers` представлено 2 поля: 
- `publisher_id` с целочисленными идентификаторомами издателей,
- `publisher` с названиями издателей в формате строки.  

Структура и данные таблицы `publishers` соответствует описанию.

In [8]:
# выведем таблицу "ratings"
query = '''
        SELECT * 
        FROM ratings 
        LIMIT 5
        '''

con=engine.connect()

# выведем первые 5 строк
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


В таблице `ratings` представлено 4 поля: 
- `rating_id` с целочисленными идентификаторомами оценок, 
- `book_id` с целочисленными идентификаторомами книг, 
- `username` с никнеймами пользователей в формате строки,
- `rating` с целочисленной оценкой.  

Структура и данные таблицы `ratings` соответствует описанию.

In [9]:
# выведем таблицу "reviews"
query = '''
        SELECT * 
        FROM reviews 
        LIMIT 5
        '''

con=engine.connect()

# выведем первые 5 строк
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


В таблице `reviews` представлено 4 поля: 
- `review_id` с целочисленными идентификаторомами обзоров, 
- `book_id` с целочисленными идентификаторомами книг, 
- `username` с никнеймами пользователей в формате строки,
- `text` с текстом обзоров в формате строки.  

Структура и данные таблицы `reviews` соответствует описанию.

#### Вывод
Мы ознакомились с таблицами базы данных, по факту чего можно сделать вывод о том, что база данных со структурой и данными ее таблиц соответствуют заявленному описанию. Подключившись к базе и проверив ее структуру и данные мы можем приступить к формированию запросов.

__________________________

### Количество актуальных книг
**Задача**: посчитать, сколько книг вышло после 1 января 2000 года.

In [10]:
# сформируем запрос к БД
query = '''
        SELECT    COUNT(book_id) AS books_after_1_2000
        FROM      books
        WHERE     CAST(publication_date AS date) > '2000-01-01'
        '''

con=engine.connect()

# выведем результат запроса
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,books_after_1_2000
0,819


Как мы видим, всего в сервисе 819 книг, вышедших после 1 января 2000 года. Для сервиса это очень мало. Для успешного развития сервиса потребуется увеличить ассортимент книг.
___________________________________________________

### Обзоры и оценки книг
**Задача**: посчитать для каждой книги количество обзоров и среднюю оценку.

In [11]:
# сформируем запрос к БД
query = '''
        SELECT     b.book_id,
                   b.title,
                   rc.review_cnt,
                   ar.avg_rating
        FROM       books AS b
        LEFT JOIN (SELECT    book_id,
                             COUNT(review_id) AS review_cnt
                   FROM      reviews
                   GROUP BY  book_id) AS rc ON b.book_id=rc.book_id
        LEFT JOIN (SELECT    book_id,
                             AVG(rating) AS avg_rating
                   FROM      ratings
                   GROUP BY  book_id) AS ar ON b.book_id=ar.book_id
        ORDER BY   ar.avg_rating DESC
        '''

con=engine.connect()

# выведем результат запроса
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title,review_cnt,avg_rating
0,518,Pop Goes the Weasel (Alex Cross #5),2.0,5.00
1,732,The Ghost Map: The Story of London's Most Terr...,2.0,5.00
2,347,In the Hand of the Goddess (Song of the Liones...,2.0,5.00
3,610,Tai-Pan (Asian Saga #2),2.0,5.00
4,330,How to Be a Domestic Goddess: Baking and the A...,1.0,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3.0,2.25
996,371,Junky,2.0,2.00
997,316,His Excellency: George Washington,2.0,2.00
998,202,Drowning Ruth,3.0,2.00


Как мы видим, несколько книг имеют средний рейтинг 5. В условиях ограниченного контента, его качество поможет сервису не потерять аудиторию, пока доступный контент растет.
__________________________________

### Обзоры и оценки книг
**Задача**: определить издательство, которое выпустило наибольшее число книг толще 50 страниц (так будут исключены из анализа брошюры).

In [12]:
# сформируем запрос к БД
query = '''
        SELECT    pub.publisher AS top_publisher,
                  COUNT(b.book_id) AS books_published
        FROM      publishers AS pub
        LEFT JOIN books AS b ON pub.publisher_id=b.publisher_id
        WHERE     b.num_pages > 50
        GROUP BY  pub.publisher
        ORDER BY  books_published DESC
        LIMIT     1
        '''

con=engine.connect()

# выведем результат запроса
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,top_publisher,books_published
0,Penguin Books,42


Лидером по количеству выпущенных книг является известное британское издательство Penguin. Данный издатель отличается широким набором тем (от художетсвенных произведений до социальных наук), что демонстрирует вариативность в контенте при малом числе книг в сервисе.
________________________________________________________

### Самый высокооцененный автор
**Задача**: определить автора с самой высокой средней оценкой книг (учитывать только книги с 50 и более оценками).

In [13]:
# сформируем запрос к БД
query = '''
        SELECT    aba.author,
                  AVG(aba.avg_rating) AS common_avg_rating
        FROM     (SELECT    aut.author,
                            top.avg_rating
                  FROM      (SELECT    book_id,
                                       AVG(rating) AS avg_rating
                             FROM      ratings
                             WHERE     book_id IN (SELECT    book_id
                                                   FROM      ratings
                                                   GROUP BY  book_id
                                                   HAVING    COUNT(rating_id) > 50)
                             GROUP BY  book_id) AS top
                  LEFT JOIN  books AS b ON top.book_id=b.book_id
                  LEFT JOIN  authors AS aut ON b.author_id=aut.author_id) AS aba
        GROUP BY  aba.author
        ORDER BY  common_avg_rating DESC
        LIMIT     1
        '''

con=engine.connect()

# выведем результат запроса
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,common_avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


Самый высокий средний рейтинг среди авторов имеет Дж.Роулинг (илл. М.Гранпре) - 4,28.
_________________________________________

### Количество обзоров самых активных пользователей
**Задача**: посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [14]:
# сформируем запрос к БД
query = '''
        SELECT    AVG(review_cnt) AS avg_reviews_cnt
        FROM     (SELECT    username,
                            COUNT(review_id) AS review_cnt
                  FROM      reviews AS rev
                  WHERE     username IN (SELECT    username
                                         FROM      ratings
                                         GROUP BY  username
                                         HAVING    COUNT(rating_id) > 48)
                  GROUP BY  username) AS users
        '''

con=engine.connect()

# выведем результат запроса
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_reviews_cnt
0,24.0


Среденее количество обзоров у пользователей, поставивших больше 48 оценок, составляет 24 обзора. Такая активность пользователей в сервисе предоставляет простор для создания дополнительных функций и форумов, что в свою очередь может повысить вовлеченность пользователей в продукт. 
_______________________________________________

## Выводы и рекомендации
По результатам запросов к базе данных сервиса мы можем сделать следующие выводы:  
- количество актуальных книг (с 01.01.2000) всего 819, что достаточно мало для сервиса, поэтому требуется увеличить объем доступного контента;
- в сервисе представлены книги со средней оценкой 5;
- самое крупное по объему выпущенных книг издательство, представленное в сервисе, - Penguin Books;
- автор, представленный в сервисе, с самой высокой средней оценкой книг - Дж.Роулинг со средней оценкой в 4,28;
- у самых активных пользователей (более 48 оценок) в среднем оставлено 24 обзора.

В результате можно порекомендовать следующие меры по улучшению продукта:
- рекомендуется увеличивать бибилиотеку сервиса, т.к. несмотря на высокие оценки контента для сервиса мало и пользователи могут уйти к конкурентам за большей библиотекой;
- при подборе библиотеки следует ориентироваться на авторов с более высокими средними оценками, а также на издательства с б*о*льшим тематическим охватом, что позволит быстрее наполнить библиотеку, удовлетворяющую пользователей;
- рекомендуется добавить на платформу сервиса дополнительный функционал, поддерживающий активность пользователей, что в свою очередь увеличит их вовлеченность в продукт;
- поскольку в сервисе представлены книги со средней оценкой в 5 баллов, то именно их следует использовать в рекомендательной системе.