# Проект SQL: Анализ сервиса для чтения книг по подписке.

__Цель исследования__ - проанализировать базу данных сервиса для чтения книг по подписке. 

## Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Изучение данных.

In [1]:
#импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения                     
'db': 'data-analyst-final-project-db'} # название базы данных  
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

#сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

In [3]:
#открываем все таблицы и информацию о них
for info in ['books', 'authors', 'publishers', 'ratings', 'reviews']:
    query = ''' SELECT * FROM {}; 
    '''.format(info) 

    data = pd.io.sql.read_sql(query, con = engine)  # чтобы выполнить SQL-запрос
    
    #выводим таблицы
    print('')
    print(f'Общая информация о таблице: {info}')
    display(data.head())
    print(data.info())
    print('')


Общая информация о таблице: books


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB
None


Общая информация о таблице: authors


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
None


Общая информация о таблице: publishers


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
None


Общая информация о таблице: ratings


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
None


Общая информация о таблице: reviews


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
None



__Вывод:__
Пропусков нет, в таблице books в колонке publication_date возможно нужно будет поменять тип данных.

## Задание 1. Посчитайте, сколько книг вышло после 1 января 2000 года.

In [4]:
#формируем запрос
query = '''

SELECT COUNT(*)
FROM books
WHERE publication_date  > '2000-01-01'

'''

#SQL-запрос
data = pd.io.sql.read_sql(query, con = engine)

print('После 1 января 2000 года вышло {} книг.'.format(data.loc[0, 'count']))

После 1 января 2000 года вышло 819 книг.


## Задание 2. Для каждой книги посчитайте количество обзоров и среднюю оценку.

In [5]:
#формируем запрос
query = '''

SELECT b.title,
       COUNT (DISTINCT r.review_id) as count_review, 
       ROUND (avg(rt.rating)) as ratings
FROM reviews AS r
RIGHT JOIN books AS b ON b.book_id=r.book_id
LEFT JOIN ratings AS rt ON rt.book_id=b.book_id
GROUP BY b.book_id
ORDER BY count_review DESC

'''

#SQL-запрос
data = pd.io.sql.read_sql(query, con = engine)

display(data.head())

print('Количество книг {}, медиана количества обзоров на одну книгу {}, медиана средних оценок на книги {}.'
      .format(data['title'].count(), data['count_review'].median(), data['ratings'].median()))

Unnamed: 0,title,count_review,ratings
0,Twilight (Twilight #1),7,4.0
1,Water for Elephants,6,4.0
2,The Glass Castle,6,4.0
3,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.0
4,The Curious Incident of the Dog in the Night-Time,6,4.0


Количество книг 1000, медиана количества обзоров на одну книгу 3.0, медиана средних оценок на книги 4.0.


## Задание 3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры.

In [6]:
#формируем запрос
query = '''

SELECT p.publisher,
       COUNT(b.book_id) AS c
FROM publishers AS p 
LEFT JOIN books AS b ON b.publisher_id=p.publisher_id
WHERE b.num_pages > 50
GROUP BY p.publisher
ORDER BY c DESC
LIMIT 1

'''
#SQL-запрос
data = pd.io.sql.read_sql(query, con = engine)

print('Наибольшее число книг выпустило издательство {}. Они выпустили - {} книги.'
      .format(data.loc[0, 'publisher'], data.loc[0, 'c']))

Наибольшее число книг выпустило издательство Penguin Books. Они выпустили - 42 книги.


## Задание 4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками.

In [7]:
#формируем запрос
query = '''

SELECT a.author,
      ROUND(AVG(r.rating), 2)
FROM authors as a
LEFT JOIN books AS b ON b.author_id=a.author_id
LEFT JOIN ratings AS r ON r.book_id=b.book_id
WHERE b.book_id IN (SELECT book_id
                    FROM ratings
                    GROUP BY book_id
                    HAVING COUNT(rating) > 50)
GROUP BY author
ORDER BY AVG(rating) DESC
LIMIT 1

'''

#SQL-запрос
data = pd.io.sql.read_sql(query, con = engine)

print('Самая высокая средняя оценка книг у автора - {}, которая составляет - {}.'
      .format(data.loc[0, 'author'], data.loc[0, 'round']))

Самая высокая средняя оценка книг у автора - J.K. Rowling/Mary GrandPré, которая составляет - 4.29.


## Задание 5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [8]:
#формируем запрос
query = '''

SELECT ROUND(AVG(a.review))
FROM (SELECT username,
             COUNT(review_id) AS review
      FROM reviews
      WHERE username IN (SELECT username
                         FROM ratings
                         GROUP BY username
                         HAVING COUNT(rating_id) > 50)
      GROUP BY username) AS a;  

'''

#SQL-запрос
data = pd.io.sql.read_sql(query, con = engine)

print('Среднее количество обзоров от пользователей, которые поставили более 50 оценок - {}.'
      .format(data.loc[0, 'round']))

Среднее количество обзоров от пользователей, которые поставили более 50 оценок - 24.0.


__Вывод:__

Анализ базы данных сервиса для чтения книг по подписке показал:
- После 1 января 2000 года вышло 819 книг.
- Была выведена таблица с количеством обзоров и средней оценкой для каждой книги. Количество книг 1000, медиана количества обзоров на одну книгу 3, медиана средних оценок на книги 4.0.
- Наибольшее число книг выпустило издательство Penguin Books. Они выпустили - 42 книги.
- Самая высокая средняя оценка книг у автора - J.K. Rowling/Mary GrandPré, которая составляет - 4.29
- Среднее количество обзоров от пользователей, которые поставили более 50 оценок - 24.