# Проект по SQL

**Цель исследования**

Проанализировать базу данных для книг. В ней - информация о книгах, издательствах, авторах, пользователях и обзорах. Данные помогут сформулировать ценностное предложение для нового продукта.

**Задачи**

- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц (из анализа исключаются брошюры);
- Определить автора с самой высокой средней оценкой книг, при этом учитывать только книги с 50 и более оценками;
- Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Общая информация

Подключение к базе данных

In [None]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Сохраняю в переменных таблицы

In [None]:
books = ''' SELECT *
            FROM books
        '''
authors = ''' SELECT *
            FROM authors
        '''
publishers = ''' SELECT *
            FROM publishers
        '''
ratings = ''' SELECT *
            FROM ratings
        '''
reviews = ''' SELECT *
            FROM reviews
        '''

Выводить результаты буду с помощью функуции

In [None]:
def dataset(query):
    return pd.io.sql.read_sql(query, con = engine)

In [None]:
dataset(books).info()
dataset(books).head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   book_id           1000 non-null   int64 
 1   author_id         1000 non-null   int64 
 2   title             1000 non-null   object
 3   num_pages         1000 non-null   int64 
 4   publication_date  1000 non-null   object
 5   publisher_id      1000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 47.0+ KB


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


Таблица с книгами содержит 1000 строк, пропусков нет. В ней данные о книгах
- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

In [None]:
dataset(authors).info() 
dataset(authors).head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636 entries, 0 to 635
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   author_id  636 non-null    int64 
 1   author     636 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.1+ KB


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


636 строки в таблице, содержащей сведения об авторах. Это
- `author_id` — идентификатор автора;
- `author` — имя автора.

In [None]:
dataset(ratings).info()
dataset(ratings).head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6456 entries, 0 to 6455
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rating_id  6456 non-null   int64 
 1   book_id    6456 non-null   int64 
 2   username   6456 non-null   object
 3   rating     6456 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 201.9+ KB


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


В таблице оценок 6456 строк без пропусков. Это
- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [None]:
dataset(reviews).info()
dataset(reviews).head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review_id  2793 non-null   int64 
 1   book_id    2793 non-null   int64 
 2   username   2793 non-null   object
 3   text       2793 non-null   object
dtypes: int64(2), object(2)
memory usage: 87.4+ KB


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


В таблице 2793 строки, содержащие данные о пользовательских обзорах
- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя автора обзора;
- `text` — текст обзора.

In [None]:
dataset(publishers).info()
dataset(publishers).head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher_id  340 non-null    int64 
 1   publisher     340 non-null    object
dtypes: int64(1), object(1)
memory usage: 5.4+ KB


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


340 издательств. В таблице 2 колонки: идентификатор издательства и название

## Задачи

### Количество книг, вышедших после 1 января 2000 года


In [None]:
count_books = ''' SELECT COUNT(book_id)
                  FROM books
                  WHERE publication_date > '2000-01-01'
              '''

In [None]:
dataset(count_books)

Unnamed: 0,count
0,819


**Вывод** 819 книг вышло после 1 января 2000 года

### Количество обзоров по книге и средняя оценка

In [None]:
count_reviews = '''WITH
                   t_1 AS (SELECT book_id,
                                  COUNT(review_id) AS count_reviews
                           FROM reviews
                           GROUP BY book_id),
                   t_2 AS (SELECT book_id,
                                  ROUND(AVG(rating),2) AS avg_rating 
                           FROM ratings
                           GROUP BY book_id),
                   t_3 AS (SELECT book_id,
                                  title
                           FROM books)
                   SELECT t_3.book_id,
                          t_3.title,
                          t_1.count_reviews,
                          t_2.avg_rating
                   FROM t_3 LEFT JOIN t_1 ON t_3.book_id=t_1.book_id
                   JOIN t_2 ON t_3.book_id=t_2.book_id
                   
                 '''

In [None]:
dataset(count_reviews)

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,1,'Salem's Lot,2.0,3.67
1,2,1 000 Places to See Before You Die,1.0,2.50
2,3,13 Little Blue Envelopes (Little Blue Envelope...,3.0,4.67
3,4,1491: New Revelations of the Americas Before C...,2.0,4.50
4,5,1776,4.0,4.00
...,...,...,...,...
995,996,Wyrd Sisters (Discworld #6; Witches #2),3.0,3.67
996,997,Xenocide (Ender's Saga #3),3.0,3.40
997,998,Year of Wonders,4.0,3.20
998,999,You Suck (A Love Story #2),2.0,4.50


После запроса итоговая таблица содержит идентификатор книги, ее название, количество обзоров и среднюю оценку. Всего в таблице 1000 строк как и количества книг в таблице `books`

Дополнительно хотелось бы посмотреть топ-рейтинг по количеству обзоров и средней оценке. Дополню запрос

In [None]:
count_reviews_top = '''WITH
                   t_1 AS (SELECT book_id,
                                  COUNT(review_id) AS count_reviews
                           FROM reviews
                           GROUP BY book_id),
                   t_2 AS (SELECT book_id,
                                  ROUND(AVG(rating),2) AS avg_rating 
                           FROM ratings
                           GROUP BY book_id),
                   t_3 AS (SELECT book_id,
                                  title
                           FROM books)
                   SELECT t_3.book_id,
                          t_3.title,
                          t_1.count_reviews,
                          t_2.avg_rating
                   FROM t_3 LEFT JOIN t_1 ON t_3.book_id=t_1.book_id
                   JOIN t_2 ON t_3.book_id=t_2.book_id
                   ORDER BY t_1.count_reviews DESC
                   LIMIT(10)
                 '''

In [None]:
dataset(count_reviews_top)

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,191,Disney's Beauty and the Beast (A Little Golden...,,4.0
1,221,Essential Tales and Poems,,4.0
2,387,Leonardo's Notebooks,,4.0
3,808,The Natural Way to Draw,,3.0
4,672,The Cat in the Hat and Other Dr. Seuss Favorites,,5.0
5,83,Anne Rice's The Vampire Lestat: A Graphic Novel,,3.67
6,948,Twilight (Twilight #1),7.0,3.66
7,497,Outlander (Outlander #1),6.0,4.13
8,627,The Alchemist,6.0,3.79
9,299,Harry Potter and the Chamber of Secrets (Harry...,6.0,4.29


У 6 книг пропуски в обзорах. Это значит, что при объединении таблиц не нашлось соответствующего значения в присоединяемой таблице (`reviews`). Больше всего обзоров у книги Сумерки 

Посмотрим на топ-лист книг по средней оценке. Дополню sql запрос

In [None]:
top_rating =    '''WITH
                   t_1 AS (SELECT book_id,
                                  COUNT(review_id) AS count_reviews
                           FROM reviews
                           GROUP BY book_id),
                   t_2 AS (SELECT book_id,
                                  ROUND(AVG(rating),2) AS avg_rating 
                           FROM ratings
                           GROUP BY book_id),
                   t_3 AS (SELECT book_id,
                                  title
                           FROM books)
                   SELECT t_3.book_id,
                          t_3.title,
                          t_1.count_reviews,
                          t_2.avg_rating
                   FROM t_3 LEFT JOIN t_1 ON t_3.book_id=t_1.book_id
                   JOIN t_2 ON t_3.book_id=t_2.book_id
                   ORDER BY t_2.avg_rating DESC
                   LIMIT(10)
                 '''

In [None]:
dataset(top_rating)

Unnamed: 0,book_id,title,count_reviews,avg_rating
0,86,Arrows of the Queen (Heralds of Valdemar #1),2,5.0
1,169,Crucial Conversations: Tools for Talking When ...,2,5.0
2,62,Alas Babylon,2,5.0
3,57,Act of Treason (Mitch Rapp #9),2,5.0
4,76,Angels Fall,2,5.0
5,136,Captivating: Unveiling the Mystery of a Woman'...,2,5.0
6,55,A Woman of Substance (Emma Harte Saga #1),2,5.0
7,20,A Fistful of Charms (The Hollows #4),2,5.0
8,17,A Dirty Job (Grim Reaper #1),4,5.0
9,182,Dead Souls,2,5.0


Одинаково высокая средняя оценка есть у нескольких книг 

**Вывод** В задаче было рассчитано количество обзоров и средняя оценка по каждой книге. Высокую среднюю оценку имеют сразу несколько книг. Наибольшее количество обзоров у книги `Сумерки`

### Издательство, выпустившее большее число книг более 50 страниц

In [None]:
publisher = ''' SELECT p.publisher,
                       COUNT(b.book_id) as amount_published
                FROM books AS b
                FULL OUTER JOIN publishers AS p ON b.publisher_id=p.publisher_id
                WHERE b.num_pages > 50
                GROUP BY p.publisher
                ORDER BY amount_published DESC
                LIMIT(1)
            '''

In [None]:
dataset(publisher)

Unnamed: 0,publisher,amount_published
0,Penguin Books,42


**Вывод** Более всего книг (точнее 42), в которых более 50 страниц, выпустило издательство `Penguin Books`

### Автор и средний рейтинг его книг

In [None]:
author_rating = ''' WITH 
                    a_1 AS (SELECT book_id, ROUND(AVG(rating),3) as avg_rating
                            FROM ratings
                            GROUP BY book_id
                            HAVING COUNT(rating_id) >= 50),
                    a_2 AS (SELECT a.author, b.book_id
                            FROM authors AS a
                            LEFT JOIN books AS b ON a.author_id=b.author_id)
                    SELECT a_2.author, AVG(a_1.avg_rating) as rating_avg
                    FROM a_1 LEFT JOIN a_2 ON a_1.book_id=a_2.book_id
                    GROUP BY author
                    ORDER BY rating_avg DESC
                    LIMIT (1)
                    
                
            '''

In [None]:
dataset(author_rating)

Unnamed: 0,author,rating_avg
0,J.K. Rowling/Mary GrandPré,4.28425


**Вывод** Наивысший средний рейтинг у книг автора `J.K.Rowling`

### Среднее количество обзоров активных пользователей 

Посчитаем среднее количество обзоров у тех пользвоателей, кто поставил более 50 оценок

In [None]:
users_reviews = ''' WITH
                    s_1 AS (SELECT username
                            FROM ratings
                            GROUP BY username
                            HAVING COUNT(rating)>50
                            ),
                    s_2 AS (SELECT username, COUNT(text) as reviews_count
                            FROM reviews
                            GROUP BY username)
                    SELECT ROUND(AVG(s_2.reviews_count),2) as avg_reviews_count
                    FROM s_1 LEFT JOIN s_2 ON s_1.username=s_2.username
                    
            '''

In [None]:
dataset(users_reviews)

Unnamed: 0,avg_reviews_count
0,24.33


**Вывод** В среднем пользователи, кто поставил более 50 оценок, написали по 24 обзора