# "SQL - запросы"
=================================================================================================


   # Задачи:
- Описать цели исследования,
- Импортировать библиотеки,
- Установить параметры для SQL-запросов,
- Вывести первые строки таблиц,
- Сформировать по одному запросу для решения каждого задания,
- Описать результаты запросов,
- Сформулировать общие выводы по итогам решения задач.

   # Описание проекта и техническое задание:
   
**В базе данных содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта**

**Согласно технического задания необходимо:**

- Посчитать, сколько книг вышло после 1 января 2000 года,
- Для каждой книги посчитать количество обзоров и среднюю оценку,
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц ( таким образом из анализа будут исключены брошюры),
- Определить автора с самой высокой средней оценкой книг (необходимо учитывать только книги с 50 и более оценками),
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.
- Для анализа доступны следующие таблицы:

    - Books - содержит данные о книгах,
    - Authors - содержит данные об авторах,
    - Publishers - содержит данные об издательствах,
    - Ratings - содержит данные о пользовательских рейтингах книг,
    - Reviews - содержит данные о пользовательских обзорах на книги.

# Оглавление

1. [Загрузка данных](#1)
      * [1.1. Таблица Books](#2)
      * [1.2. Таблица Authors](#3)
      * [1.3. Таблица Publishers](#4)
      * [1.4. Таблица Ratings](#5)
      * [1.5. Таблица Reviews](#6)


2. [Исследовательский анализ данных](#7)
      * [2.1  Cколько книг вышло после 1 января 2000 года](#8)
      * [2.2  Количество обзоров и средняя оценка для каждой книги.](#9)
      * [2.3  Издательство, выпустившее наибольшее количество книг, толще 50 страниц.](#10)
      * [2.4  Автор с самой высокой средней оценкой книг толще 50 страниц.](#11)
      * [2.5  Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок](#12)
      
      
3. [Вывод](#13)

## Загрузка данных
<a id="#1"></a>

In [1]:
# Импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

# Устанавливаем параметры подключения
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'\
.format(db_config['user'],
        db_config['pwd'],
        db_config['host'],
        db_config['port'],
        db_config['db'])

# Сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

### Таблица books:
<a id="#2"></a>

In [2]:
query = '''
SELECT *
FROM books
LIMIT 5
'''
display(pd.io.sql.read_sql(query, con = engine))
pd.io.sql.read_sql(query, con = engine).info()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
book_id             5 non-null int64
author_id           5 non-null int64
title               5 non-null object
num_pages           5 non-null int64
publication_date    5 non-null object
publisher_id        5 non-null int64
dtypes: int64(4), object(2)
memory usage: 368.0+ bytes


### Таблица authors:
<a id="#3"></a>

In [3]:
query = '''
SELECT *
FROM authors
LIMIT 5
'''
display(pd.io.sql.read_sql(query, con = engine))
pd.io.sql.read_sql(query, con = engine).info()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
author_id    5 non-null int64
author       5 non-null object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


### Таблица publishers:
<a id="#4"></a>

In [4]:
query = '''
SELECT *
FROM publishers
LIMIT 5
'''
display(pd.io.sql.read_sql(query, con = engine))
pd.io.sql.read_sql(query, con = engine).info()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
publisher_id    5 non-null int64
publisher       5 non-null object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


### Таблица ratings:
<a id="#5"></a>

In [5]:
query = '''
SELECT *
FROM ratings
LIMIT 5
'''
display(pd.io.sql.read_sql(query, con = engine))
pd.io.sql.read_sql(query, con = engine).info()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
rating_id    5 non-null int64
book_id      5 non-null int64
username     5 non-null object
rating       5 non-null int64
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes


### Таблица reviews:
<a id="#6"></a>

In [6]:
query = '''
SELECT *
FROM reviews
LIMIT 5
'''
display(pd.io.sql.read_sql(query, con = engine))
pd.io.sql.read_sql(query, con = engine).info()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
review_id    5 non-null int64
book_id      5 non-null int64
username     5 non-null object
text         5 non-null object
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes


## Исследовательский анализ данных
<a id="#7"></a>

### Cколько книг вышло после 1 января 2000 года
<a id="#8"></a>

In [7]:
query = '''
SELECT
    COUNT(DISTINCT book_id) AS book_cnt
FROM
    books
WHERE
    publication_date > '2000-01-01'
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_cnt
0,819


✅ После 1 января 2000 года вышло 819 книг.

### Количество обзоров и средняя оценка для каждой книги.
<a id="#9"></a>

In [8]:
query = '''
SELECT
    books.book_id,
    books.title,
    COUNT(DISTINCT review_id) as review_cnt,
    AVG(rating) as avg_rating
FROM 
    books
INNER JOIN reviews ON  reviews.book_id = books.book_id
INNER JOIN ratings ON  ratings.book_id = books.book_id
GROUP BY
    books.book_id
ORDER BY
    review_cnt DESC
LIMIT 10
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,review_cnt,avg_rating
0,948,Twilight (Twilight #1),7,3.6625
1,696,The Da Vinci Code (Robert Langdon #2),6,3.830508
2,207,Eat Pray Love,6,3.395833
3,627,The Alchemist,6,3.789474
4,673,The Catcher in the Rye,6,3.825581
5,695,The Curious Incident of the Dog in the Night-Time,6,4.081081
6,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
7,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.2875
8,497,Outlander (Outlander #1),6,4.125
9,656,The Book Thief,6,4.264151


✅ Больше всего обзоров (7) написано на книгу Twilight, однако лучший рейтинг (4,41) - у книги Harry Potter and the Prisoner of Azkaban.

### Издательство, выпустившее наибольшее количество книг, толще 50 страниц.
<a id="#10"></a>

In [9]:

query = '''
SELECT
    publishers.publisher,
    COUNT(title) AS books_qty
FROM
    books
    LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id
WHERE 
    num_pages > 50
GROUP BY
    publishers.publisher
ORDER BY
    books_qty DESC
LIMIT 1
'''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher,books_qty
0,Penguin Books,42


✅ Наибольшее количество книг в нашей библиотеке было выпущено издательством "Penguin Books" - 42 книги.

###  Автор с самой высокой средней оценкой книг толще 50 страниц.
<a id="#11"></a>

In [10]:
query = '''
SELECT
    authors.author,
    AVG(subquery_ratings.avg_rating) AS average_rating
FROM
    books
    LEFT JOIN (
        SELECT 
            book_id,
            AVG(rating) AS avg_rating,
            COUNT(rating) AS rating_qty
        FROM
            ratings
        GROUP BY
            book_id
    ) AS subquery_ratings ON subquery_ratings.book_id = books.book_id
    LEFT JOIN authors ON authors.author_id = books.author_id
WHERE
    rating_qty > 50
GROUP BY
    author
ORDER BY
    average_rating DESC
LIMIT 1
'''

pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.283844


✅ Самый высокий средний рейтинг (4,3) в данный выборке у писательницы Джоан Роулинг, наиболее известная как автор серии романов о Гарри Поттере.

### Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок.
<a id="#12"></a>

In [11]:
query4 = '''
WITH a AS (
SELECT
    COUNT(review_id) as count_review
FROM 
    reviews
WHERE username IN
    (SELECT
         username
     FROM 
         ratings
     GROUP BY
         username
     HAVING
         COUNT(ratings) > 50)
GROUP BY 
   username
   )

SELECT
    ROUND(AVG(count_review))
FROM
    a
'''

pd.io.sql.read_sql(query4, con = engine)

Unnamed: 0,round
0,24.0


✅ В среднем пользователи оставляют 24 обзора на книги.

# Вывод
<a id="#13"></a>


- После 1 января 2000 года вышло 819 книг;
- Для книги Twilight вышло 7 обзоров при рейтинге книги 3.66, в то время как для книги Harry Potter and the Prisoner of Azkaban при рейтинге 4.4 вышло 6 обзоров;
- Издательство, выпустившее наибольшее число книг толще 50 страниц: Penguin Books 42 книги;
- Автор с самой высокой средней оценкой книг: J.K. Rowling/Mary GrandPré с рейтингом 4.28;
- Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок: 24