# Проект SQL

# Описание проекта

Коронавирус застал мир врасплох, изменив привычный порядок вещей. В свободное время жители городов больше не выходят на улицу, не посещают кафе и торговые центры. Зато стало больше времени для книг. Это заметили стартаперы — и бросились создавать приложения для тех, кто любит читать.
Ваша компания решила быть на волне и купила крупный сервис для чтения книг по подписке. Ваша первая задача как аналитика — проанализировать базу данных.

# Данные

Нам предоставлена база данных, в которой содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

# Описание данных

Таблица books
Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Таблица authors
Содержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

Таблица publishers
Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица ratings
Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Таблица reviews
Содержит данные о пользовательских обзорах на книги:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.

# Цель проекта

По итогам анализа базы данных сформировать предложение для запуска нового продукта.

# Ход исследования

1. Подключение к базам данных
2. Знакомство с таблицами
3. Анализ данных на основании SQL запросов
4. Выводы

# Задачи

1. Посчитать, сколько книг вышло после 1 января 2000 года;
2. Для каждой книги посчитать количество обзоров и среднюю оценку;
3. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
4. Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками;
5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

### Импорт библиотек и подключение к базе данных

In [1]:
!pip install psycopg2-binary



In [2]:
# импортируем библиотеки
import pandas as pd
import sqlalchemy as sa

In [3]:
#устанавливаем параметры
db_config = {
            'user_id': 'praktikum_student', #имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', #пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, #порт подключения
            'db': 'data-analyst-final-project-db'
            }

# сохраняем коннектор
connection_string = 'postgresql://{user_id}:{pwd}@{host}:{port}/{db}'.format(**db_config)

engine = sa.create_engine(connection_string, connect_args={'sslmode':'require'})

# чтобы выполнить SQL-запрос, пишем функцию с использованием Pandas
def get_sql_data(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
    '''Открываем соединение, получаем данные из sql, закрываем соединение'''
    with engine.connect() as con:
        return pd.read_sql(sql=sa.text(query), con = con)

# формируем запрос и выводим данные
query = '''SELECT * FROM books LIMIT 5'''
get_sql_data(query)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


### Знакомство с таблицами

- Таблица books

In [4]:
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


- Таблица authors

In [5]:
query = '''SELECT * FROM authors LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


- Таблица ratings

In [6]:
query = '''SELECT * FROM ratings LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


- Таблица reviews

In [7]:
query = '''SELECT * FROM reviews LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


- Таблица publishers

In [8]:
query = '''SELECT * FROM publishers LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Вывод:** На данном этапе мы предварительно посмотрели и ознакомились с имеющимися таблицами

### Анализ данных
- Задача 1. Посчитаем, сколько книг вышло после 01.01.2000 г.

In [9]:
query_1 = '''SELECT COUNT(DISTINCT book_id) FROM books b WHERE CAST(publication_date AS date) > '2000-01-01' '''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_1), con = con)

Unnamed: 0,count
0,819


Видим, что с начала 2000 г было выпущено 819 книг

- Задача 2. Для каждой книги посчитать количество обзоров и среднюю оценку

In [16]:
query_2 = '''SELECT title, reviews, avg_rating FROM books as b
LEFT JOIN (SELECT book_id, COUNT(review_id) as reviews 
FROM reviews GROUP BY  book_id) as rev ON b.book_id=rev.book_id
LEFT JOIN (SELECT book_id,  ROUND(AVG(rating),2) as avg_rating 
FROM ratings GROUP BY book_id ) as rat ON b.book_id=rat.book_id '''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_2), con = con)

Unnamed: 0,title,reviews,avg_rating
0,The Body in the Library (Miss Marple #3),2.0,4.50
1,Galápagos,2.0,4.50
2,A Tree Grows in Brooklyn,5.0,4.25
3,Undaunted Courage: The Pioneering First Missio...,2.0,4.00
4,The Prophet,4.0,4.29
...,...,...,...
995,Alice in Wonderland,4.0,4.23
996,A Woman of Substance (Emma Harte Saga #1),2.0,5.00
997,Christine,3.0,3.43
998,The Magicians' Guild (Black Magician Trilogy #1),2.0,3.50


Сформировали таблицу с информацией о количестве обзоров книги и ее среднюю оценку

Рассмотрим максимальный и минимальный рейтинг книг

ТОП книг исходя из рейтинга

In [11]:
query_2_max_rating = '''SELECT title, reviews, avg_rating FROM books as b
LEFT JOIN (SELECT book_id, COUNT(review_id) as reviews 
FROM reviews GROUP BY  book_id) as rev ON b.book_id=rev.book_id
LEFT JOIN (SELECT book_id,  ROUND(AVG(rating),2) as avg_rating 
FROM ratings GROUP BY book_id ) as rat ON b.book_id=rat.book_id
ORDER BY avg_rating DESC
LIMIT 10'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_2_max_rating), con = con)

Unnamed: 0,title,reviews,avg_rating
0,The Ghost Map: The Story of London's Most Terr...,2,5.0
1,Evening Class,2,5.0
2,Wherever You Go There You Are: Mindfulness Me...,2,5.0
3,Neil Gaiman's Neverwhere,2,5.0
4,March,2,5.0
5,Light in August,2,5.0
6,The Demon-Haunted World: Science as a Candle i...,2,5.0
7,Act of Treason (Mitch Rapp #9),2,5.0
8,Dead Souls,2,5.0
9,Welcome to Temptation (Dempseys #1),2,5.0


Книги с самым низким рейтингом

In [12]:
query_2_min_rating = '''SELECT title, reviews, avg_rating FROM books as b
LEFT JOIN (SELECT book_id, COUNT(review_id) as reviews 
FROM reviews GROUP BY  book_id) as rev ON b.book_id=rev.book_id
LEFT JOIN (SELECT book_id,  ROUND(AVG(rating),2) as avg_rating 
FROM ratings GROUP BY book_id ) as rat ON b.book_id=rat.book_id
ORDER BY avg_rating
LIMIT 10'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_2_min_rating), con = con)

Unnamed: 0,title,reviews,avg_rating
0,Harvesting the Heart,2,1.5
1,His Excellency: George Washington,2,2.0
2,Drowning Ruth,3,2.0
3,Junky,2,2.0
4,The World Is Flat: A Brief History of the Twen...,3,2.25
5,The Mermaid Chair,3,2.33
6,The Kitchen God's Wife,3,2.33
7,1 000 Places to See Before You Die,1,2.5
8,Thunderstruck,2,2.5
9,The Winter of Our Discontent,2,2.5


На основании полученной таблицы с информацией о среднем рейтинге и количестве обзоров мы сможем сделать выводы и определить ТОП самых популярных и востребованных книг, а также тех книг, которые не пользуются популярностью среди читателей.


- Задача 3. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры

In [13]:
query_3 = '''SELECT p.publisher, COUNT(b.book_id) as total_books
FROM books as b
LEFT JOIN publishers as p ON b.publisher_id = p.publisher_id
WHERE num_pages > 50
GROUP BY publisher
ORDER BY total_books DESC
LIMIT 1'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_3), con = con)

Unnamed: 0,publisher,total_books
0,Penguin Books,42


Penguin Books - издательство, которое выпустило больше всего книг в количестве 42. Это книги с количеством страниц больше 50.

 
- Задача 4. Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками

In [14]:
query_4 = '''SELECT author, AVG(rating) as rating FROM books as b
RIGHT JOIN (SELECT book_id
            FROM ratings
            GROUP BY book_id 
            HAVING COUNT(rating_id) > 49) as lim ON b.book_id=lim.book_id
LEFT JOIN authors a ON b.author_id = a.author_id
LEFT JOIN ratings r ON r.book_id = b.book_id
GROUP BY author
ORDER BY rating DESC 
LIMIT 1 '''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_4), con = con)

Unnamed: 0,author,rating
0,J.K. Rowling/Mary GrandPré,4.287097


J.K. Rowling является самым популярным писателем с высоким рейтингом. В связи с этим книги Гарри Поттера необходимо будет включить (популярны именно книги, созданные в паре с июллюстратором Mary GrandPré)

- Задача 5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [15]:
query_5 = '''WITH users as 
(SELECT rev.username , count(review_id) as review
 FROM reviews AS rev
 RIGHT JOIN (SELECT username
             FROM ratings
             GROUP BY username HAVING COUNT(rating_id) > 48) AS rat ON rev.username = rat.username
GROUP BY rev.username)
SELECT AVG(review) from users'''
con=engine.connect()
pd.io.sql.read_sql(sql=sa.text(query_5), con = con)

Unnamed: 0,avg
0,24.0


Видим, что пользователи, которые поставили более 48 оценок, в среднем составили по 24 обзора.

# Вывод

1. На основании полученной таблицы со списком книг, их рейтингом и количеством обзоров можно выбрать ТОП самых популярных и читаемых книг для включения их в библиотеку своего приложения.
2. Количество изданных книг с января 2000 года составляет 819 штук.
3. В имеющемся списке книги имеют рейтинг от 1,5 до 5.
4. Penguin Books -  издательство, которое выпустило больше всего книг объемом более 50 страниц.
5. Самым популярным писателем с высоким рейтингом является J.K. Rowling, а именно книги, созданные в паре с иллюстратором Mary GrandPré.
6. Пользователи, которые оставили более 48 оценок, считаются самой активной категорией пользователей. Среднее количество обзоров от этих пользователей - 24.

# Предложение

Исходя из проведенного анализа, руководителю стартапа рекомендуем при запуске приложения и составлении основной базы книг опираться на результат проверки имеющегося списка популярных книг, выбирать на основании рейтингов пользователей и количества обзоров в библиотеку те книги, которые являются более востребованными среди читателей.