## SQL 

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.  

Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.  
В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
def select(sql):
    return pd.io.sql.read_sql(sql, con = engine)

Посчитайте, сколько книг вышло после 1 января 2000 года.

In [3]:
sql = '''
SELECT COUNT(book_id) AS books_count 
FROM books 
WHERE publication_date >= '2000-01-02'
'''
select(sql)

Unnamed: 0,books_count
0,819


819 книг выпущено после 1 января 2000 года.

Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [4]:
sql = '''
SELECT 
    books.title AS name, 
    books.book_id,
    AVG(ratings.rating) AS rating_avg,
    COUNT(DISTINCT reviews.text) AS reviews_count
FROM
    books
INNER JOIN ratings ON ratings.book_id = books.book_id
INNER JOIN reviews ON reviews.book_id = books.book_id
GROUP BY
     books.title,
     books.book_id
order by
     reviews_count DESC
limit 5
'''
select(sql)

Unnamed: 0,name,book_id,rating_avg,reviews_count
0,Twilight (Twilight #1),948,3.6625,7
1,Outlander (Outlander #1),497,4.125,6
2,Eat Pray Love,207,3.395833,6
3,Harry Potter and the Chamber of Secrets (Harry...,299,4.2875,6
4,Harry Potter and the Prisoner of Azkaban (Harr...,302,4.414634,6


Максимальное количество обзоров у книги Twilight - 7.

Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры.

In [5]:
sql = '''
SELECT
    publishers.publisher AS publisher_name,
    COUNT(books.book_id) AS books_count
FROM
    publishers
INNER JOIN books ON books.publisher_id = publishers.publisher_id
WHERE
    books.num_pages > 50
GROUP BY
    publisher_name
ORDER BY 
    books_count desc
LIMIT 1
'''
select(sql)

Unnamed: 0,publisher_name,books_count
0,Penguin Books,42


Издательство Penguin Books выпустило наибольше число книг толще 50 страниц - 42.

Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками.

In [8]:
sql = '''
SELECT
    T.author,
    AVG(T.rating_avg) as rating
FROM
    (SELECT
        author,
        books.book_id,
        AVG(rating) AS rating_avg
    FROM
        authors
    INNER JOIN books ON books.author_id = authors.author_id
    INNER JOIN ratings ON ratings.book_id = books.book_id
    GROUP BY
        author,
        books.book_id
    HAVING COUNT(rating) >= 50) AS T
GROUP BY
    T.author
ORDER BY
    rating DESC

'''
select(sql)

Unnamed: 0,author,rating
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


Лидер по средним оценкам - J.K. Rowling/Mary GrandPré.

Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [7]:
sql = '''
SELECT ROUND(AVG(T.count))
FROM
(SELECT COUNT(reviews.username)
    FROM 
        reviews
    GROUP BY
        reviews.username
    HAVING
        username IN (SELECT username
                     FROM 
                         ratings
                     GROUP BY
                         username
                     HAVING
                     COUNT(rating_id)>50)) AS T
'''
select(sql)    

Unnamed: 0,round
0,24.0


Среднее кол-во текстовых обзоров пользователей, которые поставили более чем по 50 - 24.