# SQL проект
Компания купила сервис для чтения книг по подпике. Нам предстоит проанализировать базу данных. В базе данных несколько таблиц:
### Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

Разделим исследование на несколько шагов:

## <a href='#section1'>1. Загрузка данных и библиотек<br></a>
## <a href='#section2'>2. Исследование таблиц<br></a>
## <a href='#section3'>3. Задания<br></a>
### <a href='#section31'>3.1. Количество книг после 01.01.2000<br></a>
### <a href='#section32'>3.2. Количество обзоров и средняя оценка для каждой книги<br></a>
### <a href='#section33'>3.3. Издательство с наибольшим числом книг от 50 страниц<br></a>
### <a href='#section34'>3.4. Автор с самой высокой средней оценкой книг (книги имеют не менее 50 оценок) <br></a>
### <a href='#section35'>3.5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок<br></a>

## <a id='section1'>1. Загрузка данных и библиотек<br></a>

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [2]:
#Создаем функцию получения информации из БД по запросу
def get_data(query):
    data = pd.io.sql.read_sql(query, con = engine) 
    return data

## <a id='section2'>2. Исследование таблиц<br></a>

In [3]:
#Создадим запросы для подключения к каждой БД
books_query =  '''
    SELECT *
    FROM books
'''
authors_query =  '''
    SELECT *
    FROM authors
'''
publishers_query =  '''
    SELECT *
    FROM publishers
'''
ratings_query =  '''
    SELECT *
    FROM ratings
'''
reviews_query =  '''
    SELECT *
    FROM reviews
'''
#Получаем общую информацию о таблицах
for i in [books_query, authors_query, publishers_query, ratings_query, reviews_query]:
    i = get_data(i)
    print('=============================================================')
    print('Получаем информацию о таблице')
    print('=============================================================')
    print()
    display(i.head())
    print('Размер таблицы')
    display(i.shape)
    print('Основные статистические характеристики')
    display(i.describe())
    print('Краткий обзор набора данных')
    display(i.info())
    print('Проверка на дубликаты')
    display(i[i.duplicated()].count())

Получаем информацию о таблице



Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Размер таблицы


(1000, 6)

Основные статистические характеристики


Unnamed: 0,book_id,author_id,num_pages,publisher_id
count,1000.0,1000.0,1000.0,1000.0
mean,500.5,320.417,389.111,171.27
std,288.819436,181.620172,229.39014,99.082685
min,1.0,1.0,14.0,1.0
25%,250.75,162.75,249.0,83.0
50%,500.5,316.5,352.0,177.5
75%,750.25,481.0,453.0,258.0
max,1000.0,636.0,2690.0,340.0


Краткий обзор набора данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
book_id             1000 non-null int64
author_id           1000 non-null int64
title               1000 non-null object
num_pages           1000 non-null int64
publication_date    1000 non-null object
publisher_id        1000 non-null int64
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


None

Проверка на дубликаты


book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64

Получаем информацию о таблице



Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


Размер таблицы


(636, 2)

Основные статистические характеристики


Unnamed: 0,author_id
count,636.0
mean,318.5
std,183.741666
min,1.0
25%,159.75
50%,318.5
75%,477.25
max,636.0


Краткий обзор набора данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
author_id    636 non-null int64
author       636 non-null object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


None

Проверка на дубликаты


author_id    0
author       0
dtype: int64

Получаем информацию о таблице



Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Размер таблицы


(340, 2)

Основные статистические характеристики


Unnamed: 0,publisher_id
count,340.0
mean,170.5
std,98.293777
min,1.0
25%,85.75
50%,170.5
75%,255.25
max,340.0


Краткий обзор набора данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
publisher_id    340 non-null int64
publisher       340 non-null object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


None

Проверка на дубликаты


publisher_id    0
publisher       0
dtype: int64

Получаем информацию о таблице



Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


Размер таблицы


(6456, 4)

Основные статистические характеристики


Unnamed: 0,rating_id,book_id,rating
count,6456.0,6456.0,6456.0
mean,3228.5,510.574195,3.928284
std,1863.831001,284.141636,0.943303
min,1.0,1.0,1.0
25%,1614.75,291.0,3.0
50%,3228.5,506.0,4.0
75%,4842.25,750.0,5.0
max,6456.0,1000.0,5.0


Краткий обзор набора данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
rating_id    6456 non-null int64
book_id      6456 non-null int64
username     6456 non-null object
rating       6456 non-null int64
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


None

Проверка на дубликаты


rating_id    0
book_id      0
username     0
rating       0
dtype: int64

Получаем информацию о таблице



Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


Размер таблицы


(2793, 4)

Основные статистические характеристики


Unnamed: 0,review_id,book_id
count,2793.0,2793.0
mean,1397.0,504.693161
std,806.413976,288.472931
min,1.0,1.0
25%,699.0,259.0
50%,1397.0,505.0
75%,2095.0,753.0
max,2793.0,1000.0


Краткий обзор набора данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
review_id    2793 non-null int64
book_id      2793 non-null int64
username     2793 non-null object
text         2793 non-null object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


None

Проверка на дубликаты


review_id    0
book_id      0
username     0
text         0
dtype: int64

Дубликатов и ошибок в таблицах не обнаружено. Можем приступать к решению задач.

## <a id='section3'>3. Задания<br></a>

### <a id='section31'>3.1. Количество книг после 01.01.2000<br></a>

Задание: <b>Посчитайте, сколько книг вышло после 1 января 2000 года</b>

In [4]:
query31 =  '''
SELECT 
    COUNT(*) AS books_amount
FROM 
    books
WHERE 
    publication_date >= '2000-01-01'
'''
data31 = get_data(query31)
data31

Unnamed: 0,books_amount
0,821


Ответ: <b>После 1 января 2000 года вышла 821 книга</b>

### <a id='section32'>3.2. Количество обзоров и средняя оценка для каждой книги<br></a>

Задание: <b>Для каждой книги посчитайте количество обзоров и среднюю оценку</b>

In [5]:
query32 =  '''
SELECT 
    books.book_id AS book_id,
    books.title AS title,
    COUNT(DISTINCT reviews.review_id) AS review_cnt,
    AVG(DISTINCT ratings.rating) AS rating_avg
FROM
    books
INNER JOIN reviews ON books.book_id = reviews.book_id
INNER JOIN ratings ON books.book_id = ratings.book_id
GROUP BY 
    books.book_id
ORDER BY
    review_cnt DESC,
    rating_avg DESC
'''
data32 = get_data(query32)
data32.head()

Unnamed: 0,book_id,title,review_cnt,rating_avg
0,948,Twilight (Twilight #1),7,3.0
1,656,The Book Thief,6,4.0
2,734,The Glass Castle,6,4.0
3,627,The Alchemist,6,3.5
4,750,The Hobbit or There and Back Again,6,3.5


Ответ: <b>Больше всего обзоров у книги 'Twilight (Twilight #1)' (7), а у книг с 6 обзорами самая высокая средняя оценка у 'The Glass Castle' (4.0) и 'The Book Thief'(4.0)</b>

### <a id='section33'>3.3. Издательство с наибольшим числом книг от 50 страниц<br></a>

Задание: <b>Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры</b>

In [6]:
query33 =  '''
SELECT 
    publisher,
    COUNT(DISTINCT books.book_id) AS total_books_with_50_and_more_pages
FROM
    publishers
INNER JOIN books ON books.publisher_id =  publishers.publisher_id
WHERE
    books.num_pages > 50
GROUP BY 
    publisher
ORDER BY
    total_books_with_50_and_more_pages DESC
LIMIT 1
'''
data33 = get_data(query33)
data33

Unnamed: 0,publisher,total_books_with_50_and_more_pages
0,Penguin Books,42


Ответ: <b>Издательство, которое выпустило наибольшее число книг толще 50 страниц - 'Penguin Books'</b>

### <a id='section34'>3.4. Автор с самой высокой средней оценкой книг (книги имеют не менее 50 оценок) <br></a>

Задание: <b>Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками</b>

In [7]:
query34 = '''
SELECT 
    author,
    AVG(subquery.rating_avg) AS max_avg_rating_for_author
FROM
    authors
INNER JOIN
    (
    SELECT
        books.author_id,
        books.book_id,
        title AS book_title,
        COUNT(ratings.rating) AS rating_cnt,
        AVG(ratings.rating) AS rating_avg
    FROM
        books
    INNER JOIN ratings ON books.book_id = ratings.book_id
    GROUP BY
        books.author_id,
        books.book_id,
        book_title
        ) AS subquery ON subquery.author_id = authors.author_id
WHERE rating_cnt >= 50
GROUP BY 
    author
ORDER BY
    max_avg_rating_for_author DESC
LIMIT 1
'''
data34 = get_data(query34)
data34

Unnamed: 0,author,max_avg_rating_for_author
0,J.K. Rowling/Mary GrandPré,4.283844


Ответ: <b>Автор с самой высокой средней оценкой книг, учитывая только книги с 50 и более оценками, - 'J.K. Rowling/Mary GrandPré'</b>

### <a id='section35'>3.5. Среднее количество обзоров от пользователей, которые поставили больше 50 оценок<br></a>

Задание: <b>Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок</b>

In [8]:
query35 = '''
SELECT
    AVG(review_cnt) AS avg_review_cnt
FROM
    (
    SELECT 
        reviews.username,
        COUNT(review_id) AS review_cnt
    FROM
        reviews
    INNER JOIN
        (
        SELECT 
            username,
            COUNT(rating) AS rating_cnt
        FROM
            ratings
        GROUP BY
            username
        ) AS subquery1 ON reviews.username = subquery1.username
    WHERE 
        rating_cnt > 50
    GROUP BY
        reviews.username
    ) AS subquery2
'''
data35 = get_data(query35)
data35

Unnamed: 0,avg_review_cnt
0,24.333333


Ответ: <b>Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок - 24.33</b>