# SQL
[Описание задания](https://www.notion.so/SQL-d5462ca554014f1b9be3e6f78854750f)

### Оглавление  <a id="0"></a>
[Описание задачи](#1)
- [Описание данных](#1_1) 
- [Задания](#1_2) 
- [Как выполнить задание?](#1_3) 

[Загрузка и предобработка данных](#3)
- [Загрузка библиотек](#3_1) 
- [Загрузка данных](#3_2)

[Запросы](#4)
- [Количество книг, выпущенных после 1 января 2000 года](#4_1) 
- [Количество пользовательских обзоров и средняя оценка для каждой книги](#4_2) 
- [Издательство, которое издало наибольшее число книг](#4_3) 
- [Автор с самой высокой средней оценкой книг](#4_4) 
- [Среднее количество текстовых обзоров пользователей](#4_5)

[Ценностное предложение для нового продукта](#5)

## Описание задачи <a id="1"></a>  [↑](#0)

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато теперь они могут уделять больше времени книгам. На это обратили внимание стартаперы, которые бросились создавать новые приложения для тех, кто любит читать.

Вам передали базу данных одного из конкурирующих сервисов. В ней есть информация о книгах, издательствах, авторах, а также пользовательские обзоры на книги. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных <a id="1_1"></a>  [↑](#0)

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

![title](sql.png)

### Задания <a id="1_2"></a>  [↑](#0)

- Посчитайте количество книг, выпущенных после 1 января 2000 года;
- Посчитайте количество пользовательских обзоров и среднюю оценку для каждой книги;
- Определите издательство, которое издало наибольшее число книг толще 50 страниц (так вы исключите из анализа различные брошюры);
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более пользовательскими оценками;
- Посчитайте среднее количество текстовых обзоров пользователей, которые поставили более чем по 50 оценок.

### Как выполнить задание? <a id="1_3"></a>  [↑](#0)

- Опишите цели исследования;
- Исследуйте таблицы (выведите первые строки);
- Сделайте по одному SQL-запросу для решения каждой из пяти представленных задач;
- Выведите результаты каждого запроса в тетрадке;
- Опишите выводы по каждой из решённых задач.

### Загрузка и предобработка данных <a id="3"></a>  [↑](#0)

#### Загрузка библиотек <a id="3_1"></a>  [↑](#0)

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
db_config['pwd'],
db_config['host'],
db_config['port'],
db_config['db'])
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

#### Загрузка данных <a id="3_2"></a>  [↑](#0)  
Вывожу первые строки и данные о типах данных каждой таблицы:

In [3]:
query = '''select * from books limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336


In [4]:
query = '''SELECT COLUMN_NAME, DATA_TYPE, CHARACTER_MAXIMUM_LENGTH 
        FROM information_schema.columns WHERE TABLE_NAME = 'books' '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,column_name,data_type,character_maximum_length
0,book_id,integer,
1,author_id,integer,
2,title,text,
3,num_pages,integer,
4,publication_date,date,
5,publisher_id,integer,


In [5]:
query = '''select * from authors limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs


In [6]:
query = '''SELECT COLUMN_NAME, DATA_TYPE, CHARACTER_MAXIMUM_LENGTH 
        FROM information_schema.columns WHERE TABLE_NAME = 'authors' '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,column_name,data_type,character_maximum_length
0,author_id,integer,
1,author,text,


In [7]:
query = '''select * from publishers limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book


In [8]:
query = '''SELECT COLUMN_NAME, DATA_TYPE, CHARACTER_MAXIMUM_LENGTH 
        FROM information_schema.columns WHERE TABLE_NAME = 'publishers' '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,column_name,data_type,character_maximum_length
0,publisher_id,integer,
1,publisher,text,


In [9]:
query = '''select * from ratings limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2


In [10]:
query = '''SELECT COLUMN_NAME, DATA_TYPE, CHARACTER_MAXIMUM_LENGTH 
        FROM information_schema.columns WHERE TABLE_NAME = 'ratings' '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,column_name,data_type,character_maximum_length
0,rating_id,integer,
1,book_id,integer,
2,username,text,
3,rating,integer,


In [11]:
query = '''select * from reviews limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...


In [12]:
query = '''SELECT COLUMN_NAME, DATA_TYPE, CHARACTER_MAXIMUM_LENGTH 
        FROM information_schema.columns WHERE TABLE_NAME = 'reviews' '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,column_name,data_type,character_maximum_length
0,review_id,integer,
1,book_id,integer,
2,username,text,
3,text,text,


Типы данных корректны

### Запросы <a id="4"></a>  [↑](#0)

#### Количество книг, выпущенных после 1 января 2000 года <a id="4_1"></a>  [↑](#0)

In [13]:
query = '''select * from books limit 2'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336


In [14]:
query = '''SELECT DISTINCT COUNT(*) FROM books WHERE publication_date > '1999-12-31'
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,821


In [15]:
query = '''select count(*) from books'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,1000


Из 1000 книг, по которым есть данные, 821 книга (82%) выпущена после 2000 года включительно. Исходя из этого, при создании приложения можно или скопировать модель конкурента и сконцентрироваться на новых книгах, или, наоборот, использовать незанятую нишу и ориентироваться на более старые книги.

#### Количество пользовательских обзоров и средняя оценка для каждой книги <a id="4_2"></a>  [↑](#0)

In [16]:
query = '''SELECT
                books.book_id,
                books.title,
                numreviews.num_reviews,
                avgrating.avg_rating
                
            FROM
                books
            LEFT JOIN
                (SELECT
                    book_id,
                    COUNT(review_id) as num_reviews
                FROM
                    reviews
                GROUP BY
                    book_id) AS numreviews ON numreviews.book_id = books.book_id
            LEFT JOIN
                (SELECT
                    book_id,
                    AVG(rating) as avg_rating
                FROM
                    ratings
                GROUP BY
                    book_id) AS avgrating ON avgrating.book_id = books.book_id
            ORDER BY 
                avgrating.avg_rating DESC
            LIMIT 5;'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,num_reviews,avg_rating
0,182,Dead Souls,2,5.0
1,699,The Demon-Haunted World: Science as a Candle i...,2,5.0
2,390,Light in August,2,5.0
3,57,Act of Treason (Mitch Rapp #9),2,5.0
4,418,March,2,5.0


Выведены верхние 5 книг по средней оценке. По этим данным можно собрать интегральный рейтинг популярности и средних оценок книг и при продвижении приложения показывать их пользователям в первую очередь.

#### Издательство, которое издало наибольшее число книг <a id="4_3"></a>  [↑](#0)
только книги толще 50 страниц

In [17]:
query = '''SELECT 
            publisher,
            publisher_id,
            COUNT(publisher_id) AS count
        FROM
            (SELECT 
                books.book_id AS book_id, 
                books.publisher_id AS publisher_id,
                books.num_pages AS num_pages,
                publishers.publisher AS publisher
            FROM
                books
            LEFT JOIN 
                publishers ON publishers.publisher_id = books.publisher_id) AS subtable
        WHERE 
            num_pages > 50
        GROUP BY 
            publisher,
            publisher_id
        ORDER BY
            count DESC
        LIMIT 1;
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,publisher_id,count
0,Penguin Books,212,42


Издательство Penguin Books выпустило 42 книги толще 50 страниц. Исходя из того, что максимальная доля одного издательства - всего 4% от количества книг, можно сказать, что у конкурента есть большой охват разных издательств, что нужно учитывать в маркетинговой стратегии.

#### Автор с самой высокой средней оценкой книг <a id="4_4"></a>  [↑](#0)
только книги с 50 и более пользовательскими оценками

In [18]:
query = '''SELECT
                author,
                author_id,
                AVG(avg_book_rating) AS avg_rating
            FROM
                (SELECT
                    ratings.book_id AS book_id,
                    books_authors.author_id AS author_id,
                    books_authors.author AS author,
                    COUNT(ratings.rating) AS count_ratings,
                    AVG(ratings.rating) AS avg_book_rating
                FROM
                    ratings
                LEFT JOIN
                    (SELECT 
                        books.book_id AS book_id,
                        books.author_id AS author_id,
                        authors.author AS author
                    FROM 
                        books
                    LEFT JOIN
                        authors ON books.author_id = authors.author_id) 
                            AS books_authors ON books_authors.book_id = ratings.book_id
                GROUP BY
                    ratings.book_id,
                    books_authors.author_id,
                    books_authors.author
                HAVING
                    COUNT(ratings.rating) > 50) as chosen_books
            GROUP BY
                author,
                author_id
            ORDER BY
                AVG(avg_book_rating) DESC
            LIMIT 1;
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,author_id,avg_rating
0,J.K. Rowling/Mary GrandPré,236,4.283844


Наивысшая средняя оценка книг, набравших более 50 оценок, у авторов J.K. Rowling/Mary GrandPré. По аналогии с количеством обзоров и средней оценкой по книгам, средняя оценка по авторам может быть полезна для продвижения новым пользователям.

#### Среднее количество текстовых обзоров пользователей <a id="4_5"></a>  [↑](#0)
только пользователи, которые поставили более чем по 50 оценок

In [19]:
query = '''SELECT 
                AVG(subtable.review_count) AS average_text_reviews
            FROM
                (SELECT 
                    ratings.username AS username,
                    COUNT(ratings.rating_id) AS ratings_count,
                    subtable2.review_count AS review_count 
                FROM
                    ratings
                LEFT JOIN 
                    (SELECT 
                        username,
                        COUNT(review_id) AS review_count
                    FROM 
                        reviews
                    GROUP BY
                        username) AS subtable2 ON ratings.username = subtable2.username 
                GROUP BY 
                    ratings.username,
                    subtable2.review_count
                HAVING 
                    COUNT(ratings.rating_id) > 50) AS subtable;'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,average_text_reviews
0,24.333333


В среднем, пользователи с 50+ оценками оставляют 24 текстовых обзора. Немногие пользователи оставляют больше 50 оценок, то есть почти на каждую вторую оценку они пишут отзыв. Такие показатели могут использоваться как метрика вовлеченности пользователей.

### Ценностное предложение для нового продукта <a id="5"></a>  [↑](#0)
Выводы и предполагаемые возможности использования данных каждого запроса описаны выше. Из-за отсутствия специфики запрашиваемых данных и информации о конкурентах и предполагаемом продукте, на основе полученных данных нельзя сформулировать осмысленное ценностное предложение.