# Проект по SQL

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.   

В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Задания

- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

### Как выполнить задание?

- Опишите цели исследования;
- Исследуйте таблицы — выведите первые строки;
- Сделайте по одному SQL-запросу для решения каждого задания;
- Выведите результат каждого запроса в тетрадке;
- Опишите выводы по каждой из решённых задач.

## Цели исследования
**`Проанализировать базу данных, которая содержит информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг.`**   

## Описание данных

**В нашем рапоряжении база данных, которая содержит информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг.**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

**Чтобы выполнить SQL-запрос, используем Pandas:**

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine 

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
#
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## Исследование таблиц
* выведите первые строки;

In [3]:
query_1 = '''
           SELECT * 
           FROM books
           LIMIT 3
         '''
pd.io.sql.read_sql(query_1, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135


- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.   

Таблица `books` соединена со всеми остальными таблицами: через *book_id* - с  *ratings* и *reviews*; через `author_id` - с *authors*; через `publisher_id` - с *publishers*

In [4]:
query_2 = '''
            SELECT * 
            FROM authors
            LIMIT 3
          '''
pd.io.sql.read_sql(query_2, con = engine) 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie


- `author_id` — идентификатор автора;
- `author` — имя автора.

In [5]:
query_3 = '''
            SELECT 
            * FROM publishers
            LIMIT 3
          '''
pd.io.sql.read_sql(query_3, con = engine) 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books


- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

In [6]:
query_4 = '''
            SELECT * 
            FROM ratings
            LIMIT 3
          '''
pd.io.sql.read_sql(query_4, con = engine) 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5


- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [7]:
query_5 = '''
            SELECT * 
            FROM reviews
            LIMIT 3
          '''
pd.io.sql.read_sql(query_5, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...


- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Задание 1
- Посчитайте, сколько книг вышло после 1 января 2000 года;

In [8]:
query_6 = '''
            SELECT COUNT(book_id)
            FROM books
            WHERE publication_date > '2000-01-01'
          '''
pd.io.sql.read_sql(query_6, con = engine) 

Unnamed: 0,count
0,819


### Вывод
**`После 1 января 2000 года вышло 819 книг`**

## Задание 2
- Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [9]:
query_7a = '''
            WITH a AS 
                 (SELECT book_id,
                        AVG(rating) AS avg_rating
                 FROM ratings
                 GROUP BY book_id),
                 c AS 
                 (SELECT book_id, 
                        COUNT(review_id) AS count_review
                 FROM reviews AS re 
                 GROUP BY book_id)
            
                   
            SELECT  c.book_id,
                    t.title,
                    c.count_review,
                    a.avg_rating
            FROM c
            JOIN a ON a.book_id=c.book_id
            JOIN books AS t ON t.book_id = c.book_id
            LIMIT 5
          '''
pd.io.sql.read_sql(query_7a, con = engine) 

Unnamed: 0,book_id,title,count_review,avg_rating
0,652,The Body in the Library (Miss Marple #3),2,4.5
1,273,Galápagos,2,4.5
2,51,A Tree Grows in Brooklyn,5,4.25
3,951,Undaunted Courage: The Pioneering First Missio...,2,4.0
4,839,The Prophet,4,4.285714


### Вывод

**`Обзоры с оценками имееют 1000 книг`**

## Задание 3
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [10]:
query_8 = '''
            SELECT b.publisher_id, 
                   p.publisher, 
                   COUNT(*) count_books
            FROM books b
            LEFT JOIN publishers p ON b.publisher_id = p.publisher_id
            WHERE num_pages > 50
            GROUP BY b.publisher_id, p.publisher
            ORDER BY COUNT(*) DESC
            LIMIT 1
        '''
pd.io.sql.read_sql(query_8, con = engine)

Unnamed: 0,publisher_id,publisher,count_books
0,212,Penguin Books,42


### Вывод
**`Penguin Books - издательство, которое выпустило наибольшее число книг(42) толще 50 страниц`**

## Задание 4
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [11]:
query_9 = '''
            SELECT a.author, 
                   AVG(ratings)
            FROM (SELECT book_id, 
                         AVG(rating) ratings
                  FROM ratings
                  GROUP BY book_id
                  HAVING COUNT(*) > 50
                 ) rat
            JOIN (SELECT book_id, 
                 author_id FROM books
                 ) b ON rat.book_id=b.book_id
            JOIN (SELECT author_id, 
                author FROM authors
                ) a ON b.author_id=a.author_id
            GROUP BY a.author
            ORDER BY avg(ratings) DESC
            LIMIT 1  
        '''
pd.io.sql.read_sql(query_9, con = engine)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


### Вывод
**`J.K. Rowling - автор с самой высокой средней оценкой (4.28) книг`**

## Задание 5
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [12]:
query = '''
            SELECT AVG(count_reviews)
            FROM (SELECT username, 
                  COUNT(*) count_reviews
                  FROM reviews
                  WHERE username IN (SELECT username--, COUNT(*)
                                    FROM ratings
                                    GROUP BY username
                                    HAVING COUNT(*) > 50
                                    )
            GROUP BY username
            ) rev
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg
0,24.333333


### Вывод
**`Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.33`**

## Общий вывод

* После 1 января 2000 года вышло 819 книг.  
* На 1000 книг есть обзоры и оценки - это поможет в их продвижении, либо поможет отсеять непопулярные книги.
* Издательство Penguin Books несомненный лидер - выпустило больше всего книг (42). Может стать хорошим партнером.
* Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré - (4.28). Его книги должны присутствовать в новом продукте.
* Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24,3. Говорит об активной вовлеченности читателей.   

Учитывая информацию, маркетологи могут сформировать уникальное торговое предложение. 