# Выпускной проект: "SQL -  запросы"

> # Цель:
- Анализ баз данных для формирования ценностного предложения для нового продукта.

> # Задачи:
- Описать цели исследования,
- Импортировать библиотеки,
- Установить параметры для SQL-запросов,
- Вывести первые строки таблиц,
- Сформировать по одному запросу для решения каждого задания,
- Описать результаты запросов,
- Сформулировать общие выводы по итогам решения задач.

> # Описание проекта и техническое задание:

<b>В базе данных содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.</b>

<b>Согласно технического задания необходимо:</b>
- Посчитать, сколько книг вышло после 1 января 2000 года,
- Для каждой книги посчитать количество обзоров и среднюю оценку,
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц ( таким образом из анализа будут исключены брошюры),
- Определить автора с самой высокой средней оценкой книг (необходимо учитывать только книги с 50 и более оценками),
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

<b>Для анализа доступны следующие таблицы:</b>
- Books - содержит данные о книгах,
- Authors - содержит данные об авторах,
- Publishers - содержит данные об издательствах,
- Ratings - содержит данные о пользовательских рейтингах книг,
- Reviews - содержит данные о пользовательских обзорах на книги.

# Оглавление:
- <a id='1'>Импорт библиотек</a>
- <a id='2'>Установка параметров подключения</a>
- <a id='3'>Сохранение коннектора</a>
- <a id='4'>Анализ таблиц, вывод первых строк</a>
- <a id='5'>Первый запрос</a>
- <a id='7'>Второй запрос</a>
- <a id='9'>Третий запрос</a>
- <a id='11'>Четвертый запрос</a>
- <a id='13'>Пятый запрос</a>
- <a id='14'>Общие выводы</a>


___

# Импорт библиотек и установка параметров подключения

In [1]:
# Импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Устанавливаем параметры подключения
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'\
.format(db_config['user'], db_config['pwd'], db_config['host'], db_config['port'],
db_config['db'])

In [3]:
# Сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

___

# Анализ таблиц, вывод первых строк 

<span style=color:blue><b>По условиям ТЗ необходимо вывести первые строки таблиц.</b></span>

In [4]:
# Формируем функцию для вывода данных из таблиц
for chart in ['books', 'authors', 'publishers', 'ratings', 'reviews']:
    print('Первые семь строк таблицы ', chart)
    display(pd.io.sql.read_sql(f'''SELECT * FROM {chart} LIMIT 7''', con = engine))
    print()

Первые семь строк таблицы  books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116



Первые семь строк таблицы  authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien



Первые семь строк таблицы  publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks



Первые семь строк таблицы  ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5



Первые семь строк таблицы  reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...





<span style=color:red><b>ВАЖНО!</b></span>

Функция вывела первые семь строк каждой таблицы. Приступаем к формированию запросов.

___

# Формирование запросов

<span style=color:blue><b>Последовательно выводим запросы для ответа на поставленные в задании вопросы.</b></span>

<span style=color:blue><b>Первый запрос: количество книг, вышедших после первого января 2000 года.</b></span>

In [5]:
# Выводим первый запрос
query = '''
SELECT
    COUNT(book_id)
FROM
    books
WHERE
    publication_date > '2000-01-01'
'''

In [6]:
# Выводим результат
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,count
0,819


<span style=color:red><b>ВАЖНО!</b></span>

После 01-01-2000 вышло 819 книг.

___

<span style=color:blue><b>Второй запрос: количество обзоров и средняя оценка для каждой книги.</b></span>

In [7]:
# Выводим запрос на количество обзоров и среднюю оценку
query1 = '''
SELECT
    books.book_id,
    books.title,
    COUNT(DISTINCT review_id) as count_reviews,
    AVG(rating) as avg_rating
FROM 
    books
FULL JOIN reviews ON  reviews.book_id = books.book_id
FULL JOIN ratings ON  ratings.book_id = books.book_id
GROUP BY
    books.book_id
ORDER BY
    count_reviews DESC,
    avg_rating DESC
LIMIT 10
'''

In [8]:
# Выводим результат
pd.io.sql.read_sql(query1, con = engine)

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.6625
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
3,656,The Book Thief,6,4.264151
4,734,The Glass Castle,6,4.206897
5,497,Outlander (Outlander #1),6,4.125
6,750,The Hobbit or There and Back Again,6,4.125
7,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
8,779,The Lightning Thief (Percy Jackson and the Oly...,6,4.080645
9,963,Water for Elephants,6,3.977273


<span style=color:red><b>ВАЖНО!</b></span>

Больше всего обзоров (7) написано на книгу Twilight, однако лучший рейтинг (4,41) - у книги Harry Potter and the Prisoner of Azkaban.

<span style=color:blue><b>Третий запрос: издательство, выпустившее наибольшее количество книг, толще 50 страниц.</b></span>

In [9]:
# Выводим запрос
query2 = '''
SELECT
    publisher,
    COUNT(book_id) as count_book
FROM
    publishers
FULL JOIN books ON  books.publisher_id = publishers.publisher_id 
WHERE 
    num_pages > 50
GROUP BY
    publisher
ORDER BY
    count_book DESC
LIMIT 10
'''

In [10]:
# Выводим результат
pd.io.sql.read_sql(query2, con = engine)

Unnamed: 0,publisher,count_book
0,Penguin Books,42
1,Vintage,31
2,Grand Central Publishing,25
3,Penguin Classics,24
4,Ballantine Books,19
5,Bantam,19
6,Berkley,17
7,St. Martin's Press,14
8,Berkley Books,14
9,William Morrow Paperbacks,13


<span style=color:red><b>ВАЖНО!</b></span>

Больше всего книг (42), объемом более 50 страниц выпущено издательством Penguin Books.

___

<span style=color:blue><b>Четвертый запрос: автор с самой высокой средней оценкой книг толще 50 страниц.</b></span>

In [11]:
# Выводим запрос
query3 = '''
WITH data as (
SELECT
   a.author,
   r.book_id,
   COUNT(rating) as count_rating,
   AVG(rating) as avg_rating
FROM
   ratings r
LEFT JOIN books b ON r.book_id = b.book_id
LEFT JOIN authors a ON b.author_id = a.author_id
GROUP BY
    a.author,
    r.book_id
HAVING
   COUNT(rating) > 50
   )

SELECT
    author,
    AVG(avg_rating) as avg_rating
FROM
    data
GROUP BY
    author
ORDER BY
    avg_rating DESC
'''

In [12]:
# Выводим результат
pd.io.sql.read_sql(query3, con = engine)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645
5,William Golding,3.901408
6,J.D. Salinger,3.825581
7,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,Dan Brown,3.75454


<span style=color:red><b>ВАЖНО!</b></span>

У автора (авторов) J.K. Rowling/Mary GrandPré наиболее высокая средняя оценка (4,3) .

___

<span style=color:blue><b>Пятый запрос: среднее количество обзоров от пользователей, которые поставили больше 50 оценок.</b></span>

In [13]:
# Выводим запрос
query4 = '''
WITH a AS (
SELECT
    COUNT(review_id) as count_review
FROM 
    reviews
WHERE username IN
    (SELECT
         username
     FROM 
         ratings
     GROUP BY
         username
     HAVING
         COUNT(ratings) > 50)
GROUP BY 
   username
   )

SELECT
    ROUND(AVG(count_review))
FROM
    a
'''

In [14]:
# Выводим результат
pd.io.sql.read_sql(query4, con = engine)

Unnamed: 0,round
0,24.0


<span style=color:red><b>ВАЖНО!</b></span>

Имеется 24 обзора от пользователей, которые поставили больше 50 оценок.

___

# Общие выводы:

<b>Результаты анализа таблиц из базы данных:</b>
- После 01-01-2000 вышло 819 книг,
- Больше всего обзоров (7) написано на книгу Twilight, однако лучший рейтинг (4,41) - у книги Harry Potter and the Prisoner of Azkaban,
- Больше всего книг (42), объемом более 50 страниц выпущено издательством Penguin Books,
- У автора (авторов) J.K. Rowling/Mary GrandPré наиболее высокая средняя оценка (4,3),
- Имеется 24 обзора от пользователей, которые поставили больше 50 оценок.