# Проект по анализу базы данных SQL, сервиса для чтения книг по подписке

### Задача:

Проанализировать базу данных с помощью SQL. Произвести требуемые выгрузки и расчеты.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## План проекта:

### 1. Импорт библиотек

### 2. Исследование таблиц
- Выведем первые строки

### 3. Решение заданий

- Выведем результат каждого SQL-запроса;
- Опишем выводы по каждой из решённых задач.

## Задания:

- Посчитаем, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитаем количество обзоров и среднюю оценку;
- Определим издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры;
- Определим автора с самой высокой средней оценкой книг — учтем только книги с 50 и более оценками;
- Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Выводы

## 1. Импорт библиотек

In [85]:
import pandas as pd
from sqlalchemy import create_engine

**Настроим подключение к базе данных**

In [86]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## 2. Исследование таблиц
- Выведем первые строки

**Таблица `books`**

In [87]:
query = ''' SELECT *
            FROM books
            LIMIT 5
        ''' 

In [88]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Таблица `authors`**

In [89]:
query = ''' SELECT *
            FROM authors
            LIMIT 5
        ''' 

In [90]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Таблица `publishers`**

In [91]:
query = ''' SELECT *
            FROM publishers
            LIMIT 5
        ''' 

In [92]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Таблица `ratings`**

In [93]:
query = ''' SELECT *
            FROM ratings
            LIMIT 5
        ''' 

In [94]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Таблица `reviews`**

In [95]:
query = ''' SELECT *
            FROM reviews
            LIMIT 5
        ''' 

In [96]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## 3. Решение заданий

- **Посчитаем, сколько книг вышло после 1 января 2000 года**

In [102]:
query = ''' SELECT COUNT(book_id)
            FROM books
            WHERE publication_date > '2000-01-01'
        ''' 

In [103]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,819


После 1 января 2000 года вышло **819** книг

- **Для каждой книги посчитаем количество обзоров и среднюю оценку**

In [104]:
query = ''' WITH a AS
            (SELECT book_id,
                  COUNT(review_id) as count_review
            FROM reviews
            GROUP BY 1
            ORDER BY 1),
            
            b as 
            (SELECT book_id,
                  AVG(rating) as avg_rating
            FROM ratings
            GROUP BY 1
            ORDER BY 1)
            
            SELECT title,
                   a.count_review,
                   b.avg_rating
            FROM books as bo
            LEFT OUTER JOIN a ON bo.book_id = a.book_id
            LEFT OUTER JOIN b ON bo.book_id = b.book_id
        ''' 

Для каждой книги посчитали количество обзоров и среднюю оценку

In [105]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,title,count_review,avg_rating
0,'Salem's Lot,2.0,3.666667
1,1 000 Places to See Before You Die,1.0,2.500000
2,13 Little Blue Envelopes (Little Blue Envelope...,3.0,4.666667
3,1491: New Revelations of the Americas Before C...,2.0,4.500000
4,1776,4.0,4.000000
...,...,...,...
995,The Cat in the Hat and Other Dr. Seuss Favorites,,5.000000
996,Anne Rice's The Vampire Lestat: A Graphic Novel,,3.666667
997,Essential Tales and Poems,,4.000000
998,Leonardo's Notebooks,,4.000000


- **Определим издательство, которое выпустило наибольшее число книг толще 50 страниц**

In [106]:
query = ''' WITH a AS
                  (SELECT publisher_id,
                  COUNT(book_id) as count_book
                                  FROM books
                                  WHERE num_pages > '50'
                                  GROUP BY 1
                                  ORDER BY COUNT(book_id) DESC
                                  LIMIT 1)
            SELECT p.publisher,
                   a.count_book
            FROM publishers as p
            INNER JOIN a ON p.publisher_id = a.publisher_id
        ''' 

In [107]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher,count_book
0,Penguin Books,42


**Penguin Books** - издательство, выпустившее **42** книги толще 50 страниц, лидер в данном рейтинге

- **Определим автора с самой высокой средней оценкой книг — учтем только книги с 50 и более оценками**

In [108]:
query = ''' WITH 
            a AS (SELECT book_id,
                    AVG(rating)
            FROM ratings
            GROUP BY book_id
            HAVING COUNT(rating_id) >= 50
            ORDER BY AVG(rating) DESC),
            
            ra AS (SELECT b.author_id,
                   AVG(a.avg) as avg_rating
            FROM books as b
            INNER JOIN a ON b.book_id = a.book_id
            INNER JOIN authors as au ON b.author_id = au.author_id
            GROUP BY 1
            ORDER BY AVG(a.avg) DESC
            LIMIT 1)
            
            SELECT au.author,
                   ra.avg_rating
            FROM authors AS au
            INNER JOIN ra ON au.author_id = ra.author_id
        ''' 

In [109]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844


**J.K. Rowling/Mary GrandPré** -  автор с самой высокой средней оценкой книг (книги с 50 и более оценками)

- **Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок**

In [110]:
query = ''' 
            SELECT AVG(a.count)
            FROM 
                (SELECT username,
                       COUNT(review_id)
                FROM reviews
                WHERE username IN
                                 (SELECT username
                                 FROM ratings
                                 GROUP BY username
                                 HAVING COUNT(rating_id) > 50)
                GROUP BY 1) as a
        '''

In [111]:
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,avg
0,24.333333


**24.33** - среднее количество обзоров от пользователей, которые поставили больше 50 оценок

### Выводы

**Ответы решенных задач:**

- После 1 января 2000 года вышло **819 книг**,
- Посчитали количество обзоров и среднюю оценку для каждой книги,
- **Penguin Books** - издательство, которое выпустило наибольшее число книг толще 50 страниц — **42 книги**,
- **J.K. Rowling/Mary GrandPré** - автор с самой высокой средней оценкой книг —  **4.28** (учтены только книги с 50 и более оценками),
- **24.33** - среднее количество обзоров от пользователей, которые поставили больше 50 оценок