# Задача - проанализировать базу данных

# Вывод - база данных работает исправно, запросы выполняются, связи между таблицами настроены корректно. 

# Декомпозиция
Задача
Вывод
1 Шаг. Подключение к БД и предобработка данных
    
    * Подключение к БД
    * Проверка на пропуски
    * Проверка на дубликаты
    * Просмотр таблиц
    * Проверка названий столбцов
    * Вывод по шагу
    
    
2 Шаг. Проверка работоспособности БД

    Проверка на выполнение различных запросов
    
    2.1 Количество книг, которые вышли после 1 января 2000 года;
    2.2 Количество обзоров и средняя оценка для каждой книги;
    2.3 Издательство, которое выпустило наибольшее число книг толще 50 страниц;
    2.4 Автор с самой высокой средней оценкой книг(учитывая только книги с 50 и более оценками);
    2.5 Среднее количество обзоров от пользователей, которые поставили больше 50 оценок. 
    
3 Шаг. Вывод
    

<a id="1"></a> 
## Шаг. Подключение к БД и предобработка данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine


In [2]:
# устанавливаем параметры
db_config = {'user': '*', # имя пользователя
             'pwd': '*', # пароль
             'host': '*',
             'port': *, # порт подключения
             'db': '*'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                  db_config['pwd'],
                                                  db_config['host'],
                                                  db_config['port'],
                                                  db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [3]:
#просматривать таблицы будем через цикл
def review(tabl):
    query = 'SELECT * FROM ' + tabl
    df = pd.io.sql.read_sql(query, con=engine)
    print(f'Пропусков: {df.isna().sum().sum()}')
    print(f'Дубликатов: {df.duplicated().sum()}')
    display(df.head())

In [4]:
review('books')

Пропусков: 0
Дубликатов: 0


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица books содержит данные о книгах:
* book_id — идентификатор книги;
* author_id — идентификатор автора;
* title — название книги;
* num_pages — количество страниц;
* publication_date — дата публикации книги;
* publisher_id — идентификатор издателя.

In [5]:
review('authors')

Пропусков: 0
Дубликатов: 0


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Таблица authors cодержит данные об авторах:
* author_id — идентификатор автора;
* author — имя автора.

In [6]:
review('publishers')

Пропусков: 0
Дубликатов: 0


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Таблица publishers содержит данные об издательствах:
* publisher_id — идентификатор издательства;
* publisher — название издательства;

In [7]:
review('ratings')

Пропусков: 0
Дубликатов: 0


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Таблица ratings содержит данные о пользовательских оценках книг:
* rating_id — идентификатор оценки;
* book_id — идентификатор книги;
* username — имя пользователя, оставившего оценку;
* rating — оценка книги.

In [8]:
review('reviews')

Пропусков: 0
Дубликатов: 0


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Таблица reviews содержит данные о пользовательских обзорах:
* review_id — идентификатор обзора;
* book_id — идентификатор книги;
* username — имя автора обзора;
* text — текст обзора.

<a id="11"></a> 
### Вывод по 1 шагу

В ходе выполнения первого шага были проделаны следующие действия:

    * Подключение к базе данных
    * проверка на пропуски (отсутствуют)
    * проверка на дубликаты (отсутствуют)  
    * просмотр первых 5 строк и названия столбцов 
В распоряжении имеетя база данных:
![image.png](attachment:image.png)


    

<a id="2"></a>
## Шаг. Проверка работоспособности БД

<a id="21"></a> 
### Количество книг, которые вышли после 1 января 2000 года

In [9]:
query = """
SELECT COUNT(*)
FROM books
WHERE CAST(publication_date AS date) > '2000-01-01'
;
"""

pd.io.sql.read_sql(query, con=engine)

Unnamed: 0,count
0,819


<a id="22"></a> 
### Количество обзоров каждой книги и ее средняя оценка

In [10]:
query = """
SELECT b.book_id,
       COUNT(re.review_id) as колво_обзоров,
       AVG(ra.rating) as средняя_оценка
FROM books b
    FULL JOIN reviews re ON b.book_id = re.book_id
    FULL JOIN ratings ra ON b.book_id = ra.book_id
        
GROUP BY b.book_id

;
"""

pd.io.sql.read_sql(query, con=engine)



Unnamed: 0,book_id,колво_обзоров,средняя_оценка
0,652,4,4.500000
1,273,4,4.500000
2,51,60,4.250000
3,951,4,4.000000
4,839,28,4.285714
...,...,...,...
995,64,52,4.230769
996,55,4,5.000000
997,148,21,3.428571
998,790,4,3.500000


<a id="23"></a> 
### Издательство, которое выпустило наибольшее число книг толще 50 страниц

In [11]:
query = """
WITH pub AS (
    SELECT p.publisher,
           count(b.book_id)       
    FROM books b
        JOIN publishers p ON b.publisher_id = p.publisher_id     
    WHERE b.num_pages > 50
    GROUP BY p.publisher
    ORDER BY count DESC)

SELECT publisher
FROM pub
LIMIT 1

;
"""

pd.io.sql.read_sql(query, con=engine)

Unnamed: 0,publisher
0,Penguin Books


<a id="24"></a> 
### Автор с самой высокой средней оценкой книг(учитывая только книги с 50 и более оценками)

In [12]:
query = """

WITH temp AS
    (SELECT b.book_id,
        COUNT(r.rating_id),
        AVG(r.rating),
        b.author_id
    FROM books b
        JOIN ratings r ON b.book_id = r.book_id
    GROUP BY b.book_id
    ),
    
    authors_avg AS(
    SElECT t.author_id,
        AVG(t.avg)
    FROM temp t
    WHERE count > 49
    GROUP BY t.author_id)

SELECT a.author
FROM authors_avg aa
    JOIN authors a ON a.author_id = aa.author_id    
ORDER BY aa.avg DESC
LIMIT 1
;
"""

pd.io.sql.read_sql(query, con=engine)

Unnamed: 0,author
0,J.K. Rowling/Mary GrandPré


<a id="25"></a> 
### Среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [13]:
#count_ratings - пользователь и кол-во его оценок
#users - пользователи которые поставили больше 50 оценок
#count_reviews - users + колво их обзоров
query = """
WITH count_ratings AS(
    SELECT username,
       COUNT(rating_id)   
    FROM ratings
    GROUP BY username
    ),
    
    users AS (
    SELECT username
    FROM count_ratings
    WHERE count > 50
    ),
    
    count_reviews AS(
    SELECT COUNT(*),
       u.username
    FROM users u
        JOIN reviews r ON u.username = r.username
    GROUP BY u.username
    )
    
SELECT ROUND(AVG(count),2)
FROM count_reviews
    

;
"""

pd.io.sql.read_sql(query, con=engine)

Unnamed: 0,round
0,24.33


<a id="3"></a> 
## Шаг. Вывод

В ходе выполнения проекта мы выяснили

    1) БД работает исправно, запросы выполняются, связи между таблицами настроены корректно.
    2) В базе хранятся 819книг вышедших в 21веке.
    3) 994 книги имеют хотя бы один отзыв и одну оценку.
    4) Больше всего книг, которые есть в нашей библиотеке, выпустило издательство 'Penguin Books'.
    5) Писательница J.K. Rowling и иллюстратор Mary GrandPré за свои книги награждены самой высокой средней оценкой. 
    6) Читатели которые ставят много оценок (больше 50), часто пишут обзоры, в среднем по 24,3 шт на пользователя.
