## Проект по SQL.

#### Техническое задание:

- Посчитать количество книг, которые были выпущены после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц (исключение брошюр);
- Определить автора с самой высокой средней оценкой книг (учитываются только книги с 50 и более оценками);
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Описание данных:

#### Таблица books - данные о книгах:

- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

#### Таблица authors - данные об авторах:

- author_id — идентификатор автора;
- author — имя автора.

#### Таблица publishers - данные об издательствах:

- publisher_id — идентификатор издательства;
- publisher — название издательства;

#### Таблица ratings - данные о пользовательских оценках книг:

- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

#### Таблица reviews - данные о пользовательских обзорах на книги:

- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

<div class="alert alert-info">
    <h2> Комментарий учащегося</h2>
    
Тело запроса можно посмотреть в логе подключения (выводится на экран).
    
Подзапросы вида select a, b from (select a, b from ... where ... group by ...) знаю, но считаю их НЕнаглядными, поэтому предпочитаю пользоваться конструкций WITH .. AS ..

</div>

In [1]:
import pandas as pd
import sys
import os

from typing import Dict

sys.path.append("/home/sergey/drclinics/")

from common.universal_connection import UniversalConnection, DBType
from reports.report_utils import query_by_list

<div class="alert alert-info">
    <h2> Комментарий учащегося</h2>
    
Смотрим содержание таблиц:

</div>

In [2]:
sql_queries = [
    'books',
    'authors',
    'publishers',
    'ratings',
    'reviews'
]

con = UniversalConnection(os.getcwd() + '/credentials/yandex.cfg', DBType.Postgres)
df: Dict = query_by_list(con, os.getcwd(), sql_queries)
con.close()

books: pd.DataFrame = df['books']
authors: pd.DataFrame = df['authors']
publishers: pd.DataFrame = df['publishers']
ratings: pd.DataFrame = df['ratings']
reviews: pd.DataFrame = df['reviews']

2021-03-30 19:18:13 connect to postgres database using config file "/home/sergey/drclinics/reports/telemed/yndx/sql/credentials/yandex.cfg"
2021-03-30 19:18:13 connect postgres using parameters:
                    database: data-analyst-final-project-db
				    user: praktikum_student
				    password: ***masked***
				    host: rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net
				    port: 6432
2021-03-30 19:18:14 @data-analyst-final-project-db: execute sql:
				    SET TIME ZONE 'Europe/Moscow'
				    None
2021-03-30 19:18:14 @data-analyst-final-project-db query:
                    SELECT 
				        * 
				    FROM 
				        books
				    LIMIT 10
                    None
2021-03-30 19:18:14 return 10 rows
2021-03-30 19:18:14 @data-analyst-final-project-db query:
                    SELECT 
				        * 
				    FROM 
				        authors
				    LIMIT 10
                    None
2021-03-30 19:18:14 return 10 rows
2021-03-30 19:18:14 @data-analyst-final-project-db query:
           

In [3]:
display(books)
display(authors)
display(publishers)
display(ratings)
display(reviews)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


Unnamed: 0,publisher,books_amount
0,Penguin Books,42


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


<div class="alert alert-info">
    <h2> Комментарий учащегося</h2>
    
Решение задач:

</div>

In [6]:
sql_tasks = [
    'count_books',
    'review_books',
    'publishers',
    'most_rated_author',
    'average_reviews'
]

con = UniversalConnection(os.getcwd() + '/credentials/yandex.cfg', DBType.Postgres)
df_tasks: Dict = query_by_list(con, os.getcwd(), sql_tasks)
con.close()

df_books: pd.DataFrame = df_tasks['count_books']
df_review: pd.DataFrame = df_tasks['review_books']
df_publishers: pd.DataFrame = df_tasks['publishers']
df_most_rated_author: pd.DataFrame = df_tasks['most_rated_author']
df_average_reviews: pd.DataFrame = df_tasks['average_reviews']

2021-03-30 19:42:35 connect to postgres database using config file "/home/sergey/drclinics/reports/telemed/yndx/sql/credentials/yandex.cfg"
2021-03-30 19:42:35 connect postgres using parameters:
                    database: data-analyst-final-project-db
				    user: praktikum_student
				    password: ***masked***
				    host: rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net
				    port: 6432
2021-03-30 19:42:35 @data-analyst-final-project-db: execute sql:
				    SET TIME ZONE 'Europe/Moscow'
				    None
2021-03-30 19:42:35 @data-analyst-final-project-db query:
                    select  
				        count(*) books_amount
				    from
				        books
				    where 
				        publication_date > '2000-01-01'
                    None
2021-03-30 19:42:35 return 1 rows
2021-03-30 19:42:35 @data-analyst-final-project-db query:
                    SELECT 
				        title, 
				        COUNT(DISTINCT review_id) total_reviews, 
				        ROUND(AVG(rating), 2) avg_rating
				    FROM boo

In [7]:
print('Количество книг, которые были выпущены после 1 января 2000 года:')
display(df_books)

print()
print('Количество обзоров и средняя оценка книг:')
display(df_review)

print()
print('Издательство, которое выпустило наибольшее число книг толще 50 страниц:')
display(df_publishers)

print()
print('Автор с самой высокой средней оценкой книг (учитываются только книги с 50 и более оценками):')
display(df_most_rated_author)

print()
print('Среднее количество обзоров от пользователей, которые поставили больше 50 оценок:')
display(df_average_reviews)

Количество книг, которые были выпущены после 1 января 2000 года:


Unnamed: 0,books_amount
0,819



Количество обзоров и средняя оценка книг:


Unnamed: 0,title,total_reviews,avg_rating
0,Twilight (Twilight #1),7,3.66
1,The Da Vinci Code (Robert Langdon #2),6,3.83
2,Eat Pray Love,6,3.4
3,The Alchemist,6,3.79
4,The Catcher in the Rye,6,3.83
5,The Curious Incident of the Dog in the Night-Time,6,4.08
6,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
7,Harry Potter and the Chamber of Secrets (Harry...,6,4.29
8,Outlander (Outlander #1),6,4.13
9,The Book Thief,6,4.26



Издательство, которое выпустило наибольшее число книг толще 50 страниц:


Unnamed: 0,publisher,books_amount
0,Penguin Books,42



Автор с самой высокой средней оценкой книг (учитываются только книги с 50 и более оценками):


Unnamed: 0,author_name,avg_rating
0,J.K. Rowling/Mary GrandPré,4.29



Среднее количество обзоров от пользователей, которые поставили больше 50 оценок:


Unnamed: 0,average_reviews
0,24.33
