# Проект: Задание SQL

<a id="num1"></a>
## Цели

Определить особенности представленных данных.

<a id="num2"></a>
## Вопросы

1. Посчитайте, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитайте количество обзоров и среднюю оценку;
3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

<a id="num3"></a>
## Оглавление 
* [1. Цели исследования](#num1)
* [2. Поставленные вопросы](#num2)
* [3. Оглавление](#num3)
* [4. Ключ к данным](#num4)
    * [4.1  Графическое представление схемы](#num41)
* [5. Подготовка данных](#num5)
    * [5.1. Библиотеки](#num51)
    * [5.2. Загрузка данных](#num52)
        * [5.2.1  Параметры подключения](#num52)
        * [5.2.2  Получение данных](#num52)
        * [5.2.3  Проверка данных](#num52)
        * [5.2.4  Формируем датафреймы](#num52)
    * [5.3  Ознакомление с данными](#num53)
* [6. Анализ данных](#num6)  
    * [6.1  Посчитайте, сколько книг вышло после 1 января 2000 года](#num6) 
    * [6.2  Для каждой книги посчитайте количество обзоров и среднюю оценку](#num6) 
    * [6.3  Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры](#num6) 
    * [6.4  Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками](#num6) 
    * [6.5  Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок](#num6) 
* [7. Выводы](#num7)   
* [8. Выводы](#num8)   

<a id="num4"></a>
## Ключ к данным 

Таблица ``books`` — содержит данные о книгах.

Таблица ``authors`` — содержит данные об авторах.

Таблица ``publishers`` — содержит данные об издательствах.

Таблица ``ratings`` — содержит данные о пользовательских оценках книг.

Таблица ``reviews`` — содержит данные о пользовательских обзорах на книги.

<a id="num41"></a>
### Графическое представление схемы

![Untitled.svg](attachment:Untitled.svg)

<a id="num5"></a>
## Подготовка данных

<a id="num51"></a>
### Библиотеки

In [1]:
import pandas as pd
import sqlalchemy as sa

In [2]:
!pip install psycopg2





<a id="num52"></a>
### Загрузка данных

<a id="num521"></a>
#### Параметры подключения

In [3]:
# устанавливаем параметры
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}

In [4]:
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

<a id="num522"></a>
#### Получение данных

In [5]:
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

<a id="num523"></a>
#### Проверка данных

In [6]:
query = '''

SELECT * 
FROM publishers 
LIMIT 5
'''
get_sql_data(query)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


<a id="num524"></a>
#### Формируем датафреймы

Сформируем датафреймы по каждой таблице в базе данных. 

In [7]:
query = '''
SELECT * 
FROM books 
'''
books =  get_sql_data(query)
books

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [8]:
query = '''
SELECT * 
FROM authors 
'''
authors =  get_sql_data(query)
authors

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [9]:
query = '''
SELECT * 
FROM publishers 
'''
publishers =  get_sql_data(query)
publishers

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [10]:
query = '''
SELECT * 
FROM ratings 
'''
ratings =  get_sql_data(query)
ratings

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [11]:
query = '''
SELECT * 
FROM reviews 
'''
reviews =  get_sql_data(query)
reviews

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


Всего получилось пять таблиц: 
- ``books`` — данные о книгах,
- ``authors`` — данные об авторах,
- ``publishers`` — данные об издательствах,
- ``ratings`` — данные о пользовательских оценках книг,
- ``reviews`` — данные о пользовательских обзорах на книги.

<a id="num53"></a>
### Ознакомление с данными

Посмотрим на данные более подробно. 

In [12]:
merged_data = pd.merge(books, authors, on='author_id', how='left')
merged_data = pd.merge(merged_data, publishers, on='publisher_id', how='left')
merged_data = pd.merge(merged_data, ratings, on='book_id', how='left')
merged_data = pd.merge(merged_data, reviews, on='book_id', how='left')
merged_data.head(5)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,author,publisher,rating_id,username_x,rating,review_id,username_y,text
0,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,1,ryanfranco,4,1.0,brandtandrea,Mention society tell send professor analysis. ...
1,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,1,ryanfranco,4,2.0,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,2,grantpatricia,2,1.0,brandtandrea,Mention society tell send professor analysis. ...
3,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,2,grantpatricia,2,2.0,ryanfranco,Foot glass pretty audience hit themselves. Amo...
4,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,3,brandtandrea,5,1.0,brandtandrea,Mention society tell send professor analysis. ...


In [13]:
print('\033[1m'+'1. Первые пять строк данных'+'\033[0m')
display(merged_data.head(5))
print('\033[1m'+'2. Описание данных'+'\033[0m')
display(merged_data.describe())
print('\033[1m'+'3. Общая информацию о датафрейме'+'\033[0m')
display(merged_data.info())
print('\033[1m'+'4. Графическое отображение процента пропусков'+'\033[0m')
display((merged_data.isna().mean() * 100).sort_values().to_frame().style.format("{:.2f}", na_rep="")
        .background_gradient('Blues'))

[1m1. Первые пять строк данных[0m


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id,author,publisher,rating_id,username_x,rating,review_id,username_y,text
0,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,1,ryanfranco,4,1.0,brandtandrea,Mention society tell send professor analysis. ...
1,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,1,ryanfranco,4,2.0,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,2,grantpatricia,2,1.0,brandtandrea,Mention society tell send professor analysis. ...
3,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,2,grantpatricia,2,2.0,ryanfranco,Foot glass pretty audience hit themselves. Amo...
4,1,546,'Salem's Lot,594,2005-11-01,93,Stephen King/Jerry N. Uelsmann,Doubleday,3,brandtandrea,5,1.0,brandtandrea,Mention society tell send professor analysis. ...


[1m2. Описание данных[0m


Unnamed: 0,book_id,author_id,num_pages,publisher_id,rating_id,rating,review_id
count,26180.0,26180.0,26180.0,26180.0,26180.0,26180.0,26167.0
mean,520.82246,319.487166,394.230863,170.876165,3295.331971,3.936784,1441.602782
std,283.576708,176.338347,209.092642,95.433838,1860.613222,0.944553,792.770115
min,1.0,1.0,14.0,1.0,1.0,1.0,1.0
25%,299.0,193.0,264.0,91.0,1720.0,3.0,809.0
50%,537.0,304.0,366.0,178.0,3332.0,4.0,1479.0
75%,750.0,469.0,488.0,253.0,4874.0,5.0,2087.0
max,1000.0,636.0,2690.0,340.0,6456.0,5.0,2793.0


[1m3. Общая информацию о датафрейме[0m
<class 'pandas.core.frame.DataFrame'>
Int64Index: 26180 entries, 0 to 26179
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   book_id           26180 non-null  int64  
 1   author_id         26180 non-null  int64  
 2   title             26180 non-null  object 
 3   num_pages         26180 non-null  int64  
 4   publication_date  26180 non-null  object 
 5   publisher_id      26180 non-null  int64  
 6   author            26180 non-null  object 
 7   publisher         26180 non-null  object 
 8   rating_id         26180 non-null  int64  
 9   username_x        26180 non-null  object 
 10  rating            26180 non-null  int64  
 11  review_id         26167 non-null  float64
 12  username_y        26167 non-null  object 
 13  text              26167 non-null  object 
dtypes: float64(1), int64(6), object(7)
memory usage: 3.0+ MB


None

[1m4. Графическое отображение процента пропусков[0m


Unnamed: 0,0
book_id,0.0
author_id,0.0
title,0.0
num_pages,0.0
publication_date,0.0
publisher_id,0.0
author,0.0
publisher,0.0
rating_id,0.0
username_x,0.0


In [14]:
for column in merged_data.columns:
    print('Столбец:', column)
    print('Количество пропусков:', merged_data[column].isna().sum())
    print('Количество уникальных значений:', merged_data[column].nunique())

Столбец: book_id
Количество пропусков: 0
Количество уникальных значений: 1000
Столбец: author_id
Количество пропусков: 0
Количество уникальных значений: 636
Столбец: title
Количество пропусков: 0
Количество уникальных значений: 999
Столбец: num_pages
Количество пропусков: 0
Количество уникальных значений: 454
Столбец: publication_date
Количество пропусков: 0
Количество уникальных значений: 618
Столбец: publisher_id
Количество пропусков: 0
Количество уникальных значений: 340
Столбец: author
Количество пропусков: 0
Количество уникальных значений: 636
Столбец: publisher
Количество пропусков: 0
Количество уникальных значений: 340
Столбец: rating_id
Количество пропусков: 0
Количество уникальных значений: 6456
Столбец: username_x
Количество пропусков: 0
Количество уникальных значений: 160
Столбец: rating
Количество пропусков: 0
Количество уникальных значений: 5
Столбец: review_id
Количество пропусков: 13
Количество уникальных значений: 2793
Столбец: username_y
Количество пропусков: 13
Количе

В данных 26180 уникальных строк, со следующими столбцами: 
- ``book_id`` — идентификатор книги: 
    - пропусков нет, 
    - уникальных значений 1000
- ``author_id`` — идентификатор автора: 
    - пропусков нет, 
    - уникальных значений 636
- ``title`` — название книги: 
    - пропусков нет, 
    - уникальных значений 999
- ``num_pages`` — количество страниц: 
    - пропусков нет, 
    - уникальных значений 454
    - минимальное кол-во страниц в книге — 14
    - максимальное кол-во страниц в книге — 2690
- ``publication_date`` — дата публикации книги: 
    - пропусков нет, 
    - уникальных значений 618
    - минимальная дата 1.12.1952 
    - максимальная дата 31.3.2020
- ``publisher_id`` — идентификатор издателя: 
    - пропусков нет, 
    - уникальных значений 340
- ``author`` — идентификатор автора: 
    - пропусков нет, 
    - уникальных значений 636
- ``publisher`` — название издательства: 
    - пропусков нет, 
    - уникальных значений 340
- ``rating_id`` — идентификатор оценки: 
    - пропусков нет, 
    - уникальных значений 6456
- ``username_x`` — имя пользователя, оставившего оценку: 
    - пропусков нет, 
    - уникальных значений 160
- ``rating`` — оценка книги: 
    - пропусков нет, 
    - уникальных значений 5
    - средня оценка 3.93. 
- ``review_id`` — идентификатор обзора: 
    - пропусков нет, 
    - уникальных значений 2793
- ``username_y`` — имя пользователя, написавшего обзор: 
    - пропусков 13, 
    - уникальных значений 160    
- ``text`` — текст обзора: 
    - пропусков 13, 
    - уникальных значений 2793    

<a id="num6"></a>
## Анализ данных

<a id="num61"></a>
### Посчитайте, сколько книг вышло после 1 января 2000 года

In [15]:
query = '''
SELECT 
    COUNT(book_id)
FROM 
    books 
WHERE 
    publication_date > '2000-01-01';

'''
get_sql_data(query)

Unnamed: 0,count
0,819


Из 1000 книг, которые представлены в данных 819 изданы после 2000 года. 

<a id="num62"></a>
### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [16]:
query = '''
SELECT 
    b.book_id, 
    b.title,
    review_count, 
    ROUND(AVG(ra.rating), 2) AS avg_rating
FROM 
    books AS b
LEFT JOIN 
    (SELECT 
        book_id, 
        COUNT(review_id) AS review_count 
        FROM 
            reviews 
        GROUP BY book_id) 
                        AS re ON re.book_id = b.book_id
LEFT JOIN 
    (SELECT 
        book_id, 
        AVG(rating) AS rating 
        FROM 
            ratings 
        GROUP BY 
            book_id) 
                    AS ra ON ra.book_id = b.book_id
GROUP BY 
    b.book_id, review_count
ORDER BY 
    b.book_id;
'''
data = get_sql_data(query)
data

Unnamed: 0,book_id,title,review_count,avg_rating
0,1,'Salem's Lot,2.0,3.67
1,2,1 000 Places to See Before You Die,1.0,2.50
2,3,13 Little Blue Envelopes (Little Blue Envelope...,3.0,4.67
3,4,1491: New Revelations of the Americas Before C...,2.0,4.50
4,5,1776,4.0,4.00
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.0,3.67
996,997,Xenocide (Ender's Saga #3),3.0,3.40
997,998,Year of Wonders,4.0,3.20
998,999,You Suck (A Love Story #2),2.0,4.50


In [17]:
data['avg_rating'].describe()

count    1000.000000
mean        3.899040
std         0.562388
min         1.500000
25%         3.500000
50%         4.000000
75%         4.330000
max         5.000000
Name: avg_rating, dtype: float64

На все книги рейтинги распредилились следующим образом: 
- Минимальная оценка — 1.5 
- Максимальная оценка — 5.0
- Средняя оценка 3.4 
- Медианная оценка 4.0 

Судя по полученным данным, большая часть книг интересна пользователям и низкие оценки только исключение. 

<a id="num63"></a>
### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры

In [18]:
query = '''

SELECT 
    p.publisher, 
    COUNT(b.publisher_id) AS count_p
FROM publishers AS p

LEFT JOIN 
    books AS b ON b.publisher_id = p.publisher_id
WHERE 
    b.num_pages > 50
GROUP BY 
    p.publisher
ORDER BY 
    COUNT(b.publisher_id) DESC
LIMIT 1;

'''
get_sql_data(query)

Unnamed: 0,publisher,count_p
0,Penguin Books,42


Издательство Penguin Books издало больше всего книг — 42.

<a id="num64"></a>
### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [19]:
query = '''
SELECT 
    a.author,
    ROUND(AVG(avg_r.avg_rating), 2) AS average_rating
FROM 
    (SELECT 
         b.author_id,
         AVG(ra.rating) AS avg_rating
     FROM 
         books AS b
         LEFT JOIN ratings AS ra ON ra.book_id = b.book_id
     GROUP BY 
         b.author_id, b.book_id
     HAVING 
         COUNT(ra.rating_id) >= 50) AS avg_r
JOIN 
    authors AS a ON a.author_id = avg_r.author_id
GROUP BY 
    a.author
ORDER BY 
    average_rating DESC
LIMIT 1;

'''
get_sql_data(query)

Unnamed: 0,author,average_rating
0,J.K. Rowling/Mary GrandPré,4.28


Книги Джоан Роулинг, в соавторстве с иллюстратором Mary GrandPré, она занималась иллюстрациями к англоязычным книгам о Гарри Поттере, имеют самый высокий средний рейтинг — 4.28

<a id="num65"></a>
### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [20]:
query = '''
SELECT 
AVG(review_count) AS average_reviews
FROM (
    SELECT 
        COUNT(*) AS review_count
    FROM 
        reviews
    WHERE 
        username IN (
            SELECT 
                username
            FROM 
                ratings
            GROUP BY 
                username 
            HAVING 
                COUNT(rating_id) > 48)
    GROUP BY 
        username
) AS review_counts;

'''
get_sql_data(query)

Unnamed: 0,average_reviews
0,24.0


Активные пользователи, которые ставят больше 48 оценок, в среднем пишут 24 отзыва. 

<a id="num7"></a>
## Выводы

Данных о книгах не очень много, но из представленного можно сделать вывод что: 
- Большая часть книг интересна пользователям и низкие оценки только исключение, ведь медианный рейтинг держится на 4.
- Penguin Books самое успешное издательство и издало 42 полноценные книги из представленных в данных.
- Книги Джоан Роулинг, в соавторстве с иллюстратором Mary GrandPré, получают самые высокие оценки. 
- Самые активные пользователи пишут в среднем по 24 отзыва. 

<a id="num8"></a>
## Рекомендации

Данных не очень много, чтобы давать рекомендации. 

Из того, что есть, можно предложить и дальше сотрудничать с издательством Penguin Books, похоже, что они печатают много успешных книг. Также, если это данные для планирования будущих продаж, не стоит упускать из виду авторов из первого топ-5, а не только целиться на книги Джоан Роулинг. 

Также, среди общего количества пользователей, не очень многие пишут отзывы, основная группа людей, которая поставила более 48 оценок составляет 12 человек. Если есть задача увеличить эту группу — стоит ввести систему поощрений и внутренних бонусов, возможно сезонные или под определенное событие мероприятия в рамках сервиса для комментирующих пользователей. 