# Проект по SQL

# Описание проекта

Необходимо проанализировать базу данных крупного сервиса для чтения книг по подписке.
В базе данных информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

# Описание данных

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

# Схема базы данных

![](https://concrete-web-bad.notion.site/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F069818d1-0e5c-4d87-a461-0de584ab9c33%2FUntitled_(33).png?id=bd53c8db-b4fd-49eb-8cc9-572ebb3c9163&table=block&spaceId=9e4bd47b-c6e6-4ca3-bcee-279794b47315&width=1640&userId=&cache=v2)

**Навыки и инструменты**

`Python`  
`Pandas`  
`PostgreSQL`  
`SQL`  

**Вывод**

Анализ данных таблиц показал следующее:

* 1. После 1 января 2000 года вышло **`819 книг`**.  


* 2. Для каждой книги было расчитано количество обзоров и средняя оценка.  
Максимальное количество обзоров у книги: **`Twilight (Twilight #1) - 1120 обзоров, рейтинг - 3,66.`**  


* 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц - **`Penguin Books (42 книги)`**.  


* 4. Автор с самой высокой средней оценкой книг (учитывая только книги с 50 и более оценками) - **`J.K. Rowling/Mary GrandPré, средняя оценка книг - 4,29.`**  


* 5.  Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок: **`24,33.`**

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подключение-к-базе-данных." data-toc-modified-id="Подключение-к-базе-данных.-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подключение к базе данных.</a></span></li><li><span><a href="#Исследование-данных-таблиц." data-toc-modified-id="Исследование-данных-таблиц.-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование данных таблиц.</a></span></li><li><span><a href="#Анализ-данных-таблиц." data-toc-modified-id="Анализ-данных-таблиц.-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Анализ данных таблиц.</a></span><ul class="toc-item"><li><span><a href="#Количество-книг,-вышедших-после-1-января-2000-года." data-toc-modified-id="Количество-книг,-вышедших-после-1-января-2000-года.-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Количество книг, вышедших после 1 января 2000 года.</a></span></li><li><span><a href="#Количество-обзоров-и-средняя-оценка-для-каждой-книги." data-toc-modified-id="Количество-обзоров-и-средняя-оценка-для-каждой-книги.-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Количество обзоров и средняя оценка для каждой книги.</a></span></li><li><span><a href="#Издательство,-выпустившее-наибольшее-число-книг-толще-50-страниц." data-toc-modified-id="Издательство,-выпустившее-наибольшее-число-книг-толще-50-страниц.-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Издательство, выпустившее наибольшее число книг толще 50 страниц.</a></span></li><li><span><a href="#Автор-с-самой-высокой-средней-оценкой-книг,-имеющих-50-и-более-оценок." data-toc-modified-id="Автор-с-самой-высокой-средней-оценкой-книг,-имеющих-50-и-более-оценок.-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Автор с самой высокой средней оценкой книг, имеющих 50 и более оценок.</a></span></li><li><span><a href="#Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок." data-toc-modified-id="Среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок.-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Среднее количество обзоров от пользователей, которые поставили больше 50 оценок.</a></span></li></ul></li><li><span><a href="#Вывод." data-toc-modified-id="Вывод.-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Вывод.</a></span></li></ul></div>

___________________________

## Подключение к базе данных.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# задаём параметры подключения к БД
db_config = {'user': '...', # имя пользователя
            'pwd': '...', # пароль
            'host': '...',
            'port': ...., # порт подключения
            'db': '...'} # название базы данных

# формируем строку соединения с БД
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])
# подключаемся к БД
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Исследование данных таблиц.

Выведем первые 5 строк и общую информацию о таблицах, количество пропусков и дубликатов в них.  

Для вывода информации по таблицам будем использовать функцию.

In [3]:
def data_view(table_name):
    
    """Эта функция выводит первые 5 строк таблицы, 
    общую информацию о таблице, количестве пропусков 
    и дубликатов в ней.

    Функция принимает на вход следующий аргумент:
    - название таблицы.
    
    """
    
    # формируем sql-запрос данных таблицы
    query = f'''SELECT * 
                FROM {table_name};
             '''
    
    # выполняем запрос и сохраняем результат выполнения в переменную "data"
    data = pd.io.sql.read_sql(query, con = engine)
    
    # выводим информацию о таблице
    print('\033[1m_\033[0m' * 80)
    print(' ')
    print(f'\033[1m Первые 5 строк таблицы "{table_name}": \033[0m')
    display(data.head())
    print('_' * 50)
    print(' ')
    print(f'\033[1m Информация о таблице "{table_name}": \033[0m')
    print(' ')
    data.info()
    print('_' * 50)
    print(' ')
    print(f'\033[1m Количество пропусков в таблице "{table_name}": \033[0m')
    print(' ')
    print(data.isna().sum())
    print('_' * 50)
    print(' ')
    print(f'\033[1m Количество дубликатов в таблице "{table_name}": \033[0m {data.duplicated().sum()}')

Сохраним названия таблиц в список и выведем информацию о таблицах.

In [4]:
table_names = ['books', 'authors', 'ratings', 'reviews', 'publishers']

for table in table_names:
    data_view(table)

[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m
 
[1m Первые 5 строк таблицы "books": [0m


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


__________________________________________________
 
[1m Информация о таблице "books": [0m
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB
__________________________________________________
 
[1m Количество пропусков в таблице "books": [0m
 
book_id             0
author_id           0
title               0
num_pages           0
publication_date    0
publisher_id        0
dtype: int64
__________________________________________________
 
[1m Количество дубликатов в таблице "books": [0m 0
[1m_[0m[1m_[0m[1m_[

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


__________________________________________________
 
[1m Информация о таблице "authors": [0m
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB
__________________________________________________
 
[1m Количество пропусков в таблице "authors": [0m
 
author_id    0
author       0
dtype: int64
__________________________________________________
 
[1m Количество дубликатов в таблице "authors": [0m 0
[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


__________________________________________________
 
[1m Информация о таблице "ratings": [0m
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB
__________________________________________________
 
[1m Количество пропусков в таблице "ratings": [0m
 
rating_id    0
book_id      0
username     0
rating       0
dtype: int64
__________________________________________________
 
[1m Количество дубликатов в таблице "ratings": [0m 0
[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


__________________________________________________
 
[1m Информация о таблице "reviews": [0m
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB
__________________________________________________
 
[1m Количество пропусков в таблице "reviews": [0m
 
review_id    0
book_id      0
username     0
text         0
dtype: int64
__________________________________________________
 
[1m Количество дубликатов в таблице "reviews": [0m 0
[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0m[1m_[0

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


__________________________________________________
 
[1m Информация о таблице "publishers": [0m
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB
__________________________________________________
 
[1m Количество пропусков в таблице "publishers": [0m
 
publisher_id    0
publisher       0
dtype: int64
__________________________________________________
 
[1m Количество дубликатов в таблице "publishers": [0m 0


**Вывод по п.2.**

В таблицах **`'books'`, `'authors'`, `'ratings'`, `'reviews'`** и **`'publishers'`** данные о книгах, авторах, пользовательских оценках книг и обзорах на книги, издательствах.  
Типы данных столбцов — "*object*", "*int64*", соответствуют указанным в них значениям, кроме типа данных столбца `'publication_date'` таблицы **`'books'`**, т.к. он содержит дату и имеет тип данных "*object*". Поменять тип данных этого столбца можно при выгрузке, используя оператор "CAST", при этом тип данных в самой таблице не изменится.  
В таблицах нет пропусков и дубликатов.

## Анализ данных таблиц.

Для анализа данных таблиц будем использовать следующую функцию.

In [5]:
def table_analysis(query):
    
    """Эта функция выводит результат SQL-запроса.

    Функция принимает на вход следующий аргумент:
    - SQL-запрос, записанный в тройных кавычках.
    """
    
    # формируем sql-запрос
    query_data = query

    # выполняем запрос и сохраняем результат выполнения в переменную
    result = pd.io.sql.read_sql(query_data, con = engine)
    return result

### Количество книг, вышедших после 1 января 2000 года.

Посчитаем, сколько книг вышло после 1 января 2000 года.

In [6]:
query_1 = '''SELECT COUNT(*) 
             FROM books
             WHERE CAST(publication_date AS date) > '2000-01-01';
          '''

print(' ')
print('Количество книг, вышедших после 1 января 2000 года:', table_analysis(query_1)['count'][0])

 
Количество книг, вышедших после 1 января 2000 года: 819


### Количество обзоров и средняя оценка для каждой книги.

Для каждой книги посчитаем количество обзоров и среднюю оценку.

In [7]:
query_2 = '''SELECT b.book_id,
                    b.title,
                    COUNT(rew.review_id) AS review_quantity,
                    ROUND(AVG(rat.rating), 2) AS avg_rating
             FROM books AS b
             LEFT OUTER JOIN ratings AS rat ON b.book_id = rat.book_id
             LEFT OUTER JOIN reviews AS rew ON b.book_id = rew.book_id
             GROUP BY b.book_id
             ORDER BY review_quantity DESC;
          '''

print(' ')
print('Количество обзоров и средняя оценка для каждой книги:')
table_analysis(query_2)

 
Количество обзоров и средняя оценка для каждой книги:


Unnamed: 0,book_id,title,review_quantity,avg_rating
0,948,Twilight (Twilight #1),1120,3.66
1,750,The Hobbit or There and Back Again,528,4.13
2,673,The Catcher in the Rye,516,3.83
3,302,Harry Potter and the Prisoner of Azkaban (Harr...,492,4.41
4,299,Harry Potter and the Chamber of Secrets (Harry...,480,4.29
...,...,...,...,...
995,221,Essential Tales and Poems,0,4.00
996,808,The Natural Way to Draw,0,3.00
997,191,Disney's Beauty and the Beast (A Little Golden...,0,4.00
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.67


### Издательство, выпустившее наибольшее число книг толще 50 страниц.

Определим издательство, которое выпустило наибольшее число книг толще 50 страниц.

In [8]:
query_3 = '''SELECT p.publisher_id,
                    p.publisher,
                    COUNT(b.book_id) AS books_quantity
             FROM publishers AS p
             LEFT OUTER JOIN books AS b ON p.publisher_id = b.publisher_id
             WHERE b.num_pages > 50
             GROUP BY  p.publisher_id
             ORDER BY books_quantity DESC
             LIMIT 1;
          '''

print(' ')
print('Издательство, которое выпустило наибольшее число книг толще 50 страниц:')
table_analysis(query_3)

 
Издательство, которое выпустило наибольшее число книг толще 50 страниц:


Unnamed: 0,publisher_id,publisher,books_quantity
0,212,Penguin Books,42


### Автор с самой высокой средней оценкой книг, имеющих 50 и более оценок.

Определим автора с самой высокой средней оценкой книг. Будем учитывать только книги с 50 и более оценками.

In [9]:
query_4 = '''SELECT a.author_id,
                    a.author,
                    ROUND(AVG(r.rating), 2) AS avg_rating
             FROM authors AS a
             LEFT OUTER JOIN books AS b ON a.author_id = b.author_id
             INNER JOIN ratings AS r ON b.book_id=r.book_id
             WHERE b.book_id IN (SELECT b.book_id
                                 FROM books AS b
                                 LEFT OUTER JOIN ratings AS r ON b.book_id = r.book_id
                                 GROUP BY b.book_id
                                 HAVING COUNT(r.rating_id) >= 50)
             GROUP BY a.author_id
             ORDER BY avg_rating DESC
             LIMIT 1;
          '''

print(' ')
print('Автор с самой высокой средней оценкой книг (учитывая только книги с 50 и более оценками):')
table_analysis(query_4)

 
Автор с самой высокой средней оценкой книг (учитывая только книги с 50 и более оценками):


Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.29


### Среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [10]:
query_5 = '''WITH

             a AS (SELECT COUNT(review_id) AS reviews_count
                   FROM reviews
                   WHERE username IN (SELECT username
                                      FROM ratings
                                      GROUP BY username
                                      HAVING COUNT(rating) > 50)
                   GROUP BY username)
      
             SELECT ROUND(AVG(a.reviews_count), 2) AS avg_reviews_quantity
             FROM a;
          '''

print(' ')
print('Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок:')
table_analysis(query_5)

 
Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок:


Unnamed: 0,avg_reviews_quantity
0,24.33


## Вывод.

Анализ данных таблиц показал следующее:

* 1. После 1 января 2000 года вышло **`819 книг`**.  


* 2. Для каждой книги было расчитано количество обзоров и средняя оценка.  
Максимальное количество обзоров у книги: **`Twilight (Twilight #1) - 1120 обзоров, рейтинг - 3,66.`**  


* 3. Издательство, которое выпустило наибольшее число книг толще 50 страниц - **`Penguin Books (42 книги)`**.  


* 4. Автор с самой высокой средней оценкой книг (учитывая только книги с 50 и более оценками) - **`J.K. Rowling/Mary GrandPré, средняя оценка книг - 4,29.`**  


* 5.  Cреднее количество обзоров от пользователей, которые поставили больше 50 оценок: **`24,33.`**

_________________________