# Проект по SQL: "Формирование ценностного предложения для нового книжного приложения"

**Цель исследования:** проанализировать базу данных сервиса для чтения книг по подписке в целях выявления потенциально успешных продуктов для использования в стартапе.

In [1]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa

In [2]:
# устанавливаем параметры
db_config = {
'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db' # название базы данных
}
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})


In [3]:
# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

In [4]:
#pd.set_option('display.max_rows', None)
#a = '''select * from books'''
#get_sql_data(a)

In [5]:
# формируем запрос и выводим данные
query = '''SELECT * FROM books LIMIT 5'''
get_sql_data(query)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [6]:
# устанавливаю полный вывод строки
pd.set_option('display.max_colwidth', None)

## Исследование таблиц

### Таблица 1

In [7]:
# ознакомилась с таблицей, вывела 5 первых строк
basis_1 = '''
SELECT *
FROM books
LIMIT 5
'''
get_sql_data(basis_1)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [8]:
# количество строк
basis_1 = '''
SELECT COUNT(*)
FROM books
'''
get_sql_data(basis_1)

Unnamed: 0,count
0,1000


In [9]:
#смотрю типы данных
basis_1 = '''
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'books';

'''
get_sql_data(basis_1)

Unnamed: 0,column_name,data_type
0,book_id,integer
1,author_id,integer
2,num_pages,integer
3,publication_date,date
4,publisher_id,integer
5,title,text


### Таблица 2

In [10]:
# ознакомилась с таблицей, вывела 5 первых строк
basis_2 = '''
SELECT *
FROM authors
LIMIT 5
'''
get_sql_data(basis_2)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [11]:
# количество строк
basis_2 = '''
SELECT COUNT(*)
FROM authors
'''
get_sql_data(basis_2)

Unnamed: 0,count
0,636


In [12]:
#смотрю типы данных
basis_2 = '''
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'authors';

'''
get_sql_data(basis_2)

Unnamed: 0,column_name,data_type
0,author_id,integer
1,author,text


### Таблица 3

In [13]:
# ознакомилась с таблицей, вывела 5 первых строк
basis_3 = '''
SELECT *
FROM ratings
LIMIT 5
'''
get_sql_data(basis_3)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [14]:
# количество строк
basis_3 = '''
SELECT COUNT(*)
FROM ratings
'''
get_sql_data(basis_3)

Unnamed: 0,count
0,6456


In [15]:
#смотрю типы данных
basis_3 = '''
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'ratings';

'''
get_sql_data(basis_3)

Unnamed: 0,column_name,data_type
0,rating_id,integer
1,book_id,integer
2,rating,integer
3,username,text


### Таблица 4

In [16]:
# ознакомилась с таблицей, вывела 5 первых строк
basis_4 = '''
SELECT *
FROM reviews
LIMIT 5
'''
get_sql_data(basis_4)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.


In [17]:
# количество строк
basis_4 = '''
SELECT COUNT(*)
FROM reviews
'''
get_sql_data(basis_4)

Unnamed: 0,count
0,2793


In [18]:
#смотрю типы данных
basis_4 = '''
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'reviews';

'''
get_sql_data(basis_4)

Unnamed: 0,column_name,data_type
0,review_id,integer
1,book_id,integer
2,username,text
3,text,text


### Таблица 5

In [19]:
# ознакомилась с таблицей, вывела 5 первых строк
basis_5 = '''
SELECT *
FROM publishers
LIMIT 5
'''
get_sql_data(basis_5)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [20]:
# количество строк
basis_5 = '''
SELECT COUNT(*)
FROM publishers
'''
get_sql_data(basis_5)

Unnamed: 0,count
0,340


In [21]:
#смотрю типы данных
basis_5 = '''
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'publishers';

'''
get_sql_data(basis_5)

Unnamed: 0,column_name,data_type
0,publisher_id,integer
1,publisher,text


Таким образом, я ознакомилась с таблицами, проверила типы данных, установила, что типы данных соответствуют значениям столбцов. Далее приступаю к решению задач и проведению анализа.

## Проведение анализа

### Задача №1. Посчитайте, сколько книг вышло после 1 января 2000 года;

In [22]:
first = '''
SELECT COUNT(book_id)
FROM books
WHERE CAST(publication_date  AS DATE)>'2000-01-01';
'''
get_sql_data(first)

Unnamed: 0,count
0,819


Установлено, что после 1 января 2000 года вышло 819 книг.

### Задача №2. Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [23]:
second = '''
SELECT b.book_id,
       b.title,
       COUNT(distinct r.review_id) AS count_of_reviews,
       ROUND(AVG(rt.rating), 3) AS average_rating       
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY average_rating desc;

'''
get_sql_data(second)


Unnamed: 0,book_id,title,count_of_reviews,average_rating
0,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
1,901,The Walking Dead Book One (The Walking Dead #1-12),2,5.00
2,390,Light in August,2,5.00
3,972,Wherever You Go There You Are: Mindfulness Meditation in Everyday Life,2,5.00
4,136,Captivating: Unveiling the Mystery of a Woman's Soul,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twenty-first Century,3,2.25
996,316,His Excellency: George Washington,2,2.00
997,202,Drowning Ruth,3,2.00
998,371,Junky,2,2.00


In [24]:
second = '''
SELECT b.book_id,
       b.title,
       COUNT(distinct r.review_id) AS count_of_reviews,
       ROUND(AVG(rt.rating), 3) AS average_rating       
FROM books AS b
LEFT JOIN reviews AS r ON b.book_id = r.book_id
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id, b.title
ORDER BY count_of_reviews desc;

'''
get_sql_data(second)


Unnamed: 0,book_id,title,count_of_reviews,average_rating
0,948,Twilight (Twilight #1),7,3.663
1,963,Water for Elephants,6,3.977
2,734,The Glass Castle,6,4.207
3,302,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),6,4.415
4,695,The Curious Incident of the Dog in the Night-Time,6,4.081
...,...,...,...,...
995,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.667
996,808,The Natural Way to Draw,0,3.000
997,672,The Cat in the Hat and Other Dr. Seuss Favorites,0,5.000
998,221,Essential Tales and Poems,0,4.000


Второй раз задачу №2 вывела, чтобы показать фильтр по количеству обзоров. Наибольшее количество обзоров в размере 7ми установлено у книги Twilight (Twilight #1).	

Таким образом, выведены количество обзоров и средняя оценка книг. Самый высокий рейтинг - 5, данным рейтингом обладают несколько книг, самый низкий - 1.5 у книги Harvesting the Heart. Наибольшее количество обзоров в размере 7ми установлено у книги Twilight (Twilight #1).	

### Задача №3. Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [25]:
third = '''
SELECT pub.publisher,
       COUNT(b.book_id) AS count_of_books
FROM publishers AS pub
JOIN books AS b ON b.publisher_id = pub.publisher_id
WHERE b.num_pages>50
GROUP BY pub.publisher
ORDER BY count_of_books DESC
LIMIT 1;
'''
get_sql_data(third)

Unnamed: 0,publisher,count_of_books
0,Penguin Books,42


Издательство, которое выпустило наибольшее количество книг толщиной более 50 страниц - Penguin Books, количество изданных книг составило 42.

### Задача №4. Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [26]:
fourth = '''
WITH sorted_books AS(
SELECT b.book_id AS book_id
FROM books AS b
LEFT JOIN ratings AS rt ON b.book_id = rt.book_id
GROUP BY b.book_id
HAVING COUNT(rt.rating_id)>=50
) 

SELECT a.author AS author,
       AVG(rt.rating) AS avg_rating       
FROM authors AS a
LEFT JOIN books AS b ON b.author_id = a.author_id
LEFT JOIN ratings AS rt ON rt.book_id = b.book_id
WHERE b.book_id IN 
      (SELECT book_id
       FROM sorted_books)
GROUP BY a.author
ORDER BY AVG(rt.rating) DESC
LIMIT 1

'''
get_sql_data(fourth)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.287097


Автор с самой высокой средней оценкой книги при учете книг с 50 и более оценками - J.K. Rowling/Mary GrandPré. Средняя оценка ее книг составляет 4.287.

### Задача №5. Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [27]:
fifth = '''
WITH names_and_ratings AS(
SELECT DISTINCT username,
       COUNT(rating_id) AS count_of_ratings
FROM ratings
GROUP BY username
HAVING COUNT(rating_id)>48
ORDER BY COUNT(rating_id) DESC
), 
reviews AS(
SELECT COUNT(review_id) AS count_of_reviews,
       username
FROM reviews
WHERE username IN (SELECT username FROM names_and_ratings)
GROUP BY username
)
SELECT AVG(count_of_reviews)
FROM reviews

'''
get_sql_data(fifth)

Unnamed: 0,avg
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24.

## Формирование предложений

Таким образом, в новом приложении рекомендуется:

- загрузить книги с высокими оценками, например, Arrows of the Queen (Heralds of Valdemar #1);
- загрузить книги с большим количеством обзоров, например, Twilight (Twilight #1);
- загрузить книги издательства Penguin Books, возможно, за счет большого числа изданных книг, данное издательство знакомо более широкой аудитории читателей;
- загрузить книги авторов, имеющих самые высокие средние оценки и наибольшее количество таких оценок, например, книги автора J.K. Rowling/Mary GrandPré. Средняя оценка ее книг составляет 4.287.