# SQL

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.

Наша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. 
В базе данных — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.Э

![avatar](https://concrete-web-bad.notion.site/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F069818d1-0e5c-4d87-a461-0de584ab9c33%2FUntitled_(33).png?table=block&id=bd53c8db-b4fd-49eb-8cc9-572ebb3c9163&spaceId=9e4bd47b-c6e6-4ca3-bcee-279794b47315&width=2000&userId=&cache=v2)

### Задания

1. Посчитать, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитать количество обзоров и среднюю оценку;
3. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так исключим из анализа брошюры;
4. Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками;
5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [11]:
import pandas as pd
from sqlalchemy import create_engine

In [12]:
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db']) 
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [13]:
query = '''
            SELECT *
            FROM books
'''
pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


## Задача 1
Посчитать, сколько книг вышло после 1 января 2000 года

In [14]:
query = '''
            SELECT COUNT(*)
            FROM books
            WHERE publication_date > '2000-01-01'
'''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,count
0,819


## Задача 2
Для каждой книги посчитать количество обзоров и среднюю оценку

In [15]:
query = '''
            WITH rc AS (SELECT book_id, COUNT(*) AS reviews_count
                        FROM reviews
                        GROUP BY book_id),
            avg_ratings AS (SELECT book_id, AVG(rating) AS avg_rating
                            FROM ratings
                            GROUP BY book_id)
            
            SELECT b.*, rc.reviews_count, ar.avg_rating
            FROM books AS b
            LEFT JOIN avg_ratings AS ar ON b.book_id = ar.book_id
            LEFT JOIN rc ON  b.book_id = rc.book_id
'''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,reviews_count,avg_rating
0,652,3,The Body in the Library (Miss Marple #3),191,2006-09-01,50,2.0,4.500000
1,273,352,Galápagos,324,1999-01-12,88,2.0,4.500000
2,51,54,A Tree Grows in Brooklyn,496,2006-05-30,135,5.0,4.250000
3,951,540,Undaunted Courage: The Pioneering First Missio...,592,2003-10-06,269,2.0,4.000000
4,839,332,The Prophet,127,2010-01-01,251,4.0,4.285714
...,...,...,...,...,...,...,...,...
995,672,144,The Cat in the Hat and Other Dr. Seuss Favorites,61,2003-10-14,174,,5.000000
996,83,174,Anne Rice's The Vampire Lestat: A Graphic Novel,404,1991-11-30,33,,3.666667
997,221,151,Essential Tales and Poems,688,2004-10-25,42,,4.000000
998,387,365,Leonardo's Notebooks,352,2005-08-01,49,,4.000000


## Задача 3
Определить издательство, которое выпустило наибольшее число книг толще 50 страниц

In [17]:
query = '''
            SELECT b.publisher_id, p.publisher, COUNT(*)
            FROM books AS b
            JOIN publishers AS p ON p.publisher_id = b.publisher_id
            WHERE b.num_pages > 50
            GROUP BY 1, 2
            ORDER BY COUNT(*) DESC
            LIMIT 1
'''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,publisher_id,publisher,count
0,212,Penguin Books,42


## Задача 4
Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками

In [19]:
query = ''' 
            WITH book_50 AS ( 
                SELECT book_id, AVG(rating) AS avg_rating
                FROM ratings
                GROUP BY book_id
                HAVING COUNT(*) >= 50)
                
            SELECT a.author, AVG(b_50.avg_rating)
            FROM book_50 AS b_50
            LEFT JOIN books AS b ON b.book_id = b_50.book_id
            JOIN authors AS a ON b.author_id = a.author_id
            GROUP BY b.author_id, a.author
            ORDER BY 2 DESC
            LIMIT 1
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844


## Задача 5
Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [20]:
query = '''
            WITH users_50 AS (SELECT username
                                FROM ratings
                                GROUP BY username
                                HAVING COUNT(*) > 50),
                                
            rev_count AS (SELECT username, COUNT(*) AS rev_count
                            FROM reviews
                            GROUP BY username)
                            
            SELECT ROUND(AVG(rev_count))
            FROM users_50 AS u
            JOIN rev_count AS r ON u.username = r.username
'''

pd.io.sql.read_sql(query, con = engine) 

Unnamed: 0,round
0,24.0


## Выводы
819 книг вышло после 1 января 2000 года.   
Издательство "Penguin Books" выпустило больше всего книг.   
Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré.   
Среднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.   
