# SQL

Наша команда купила крупный сервис для чтения книг по подписке.

Моя первая задача как аналитика — проанализировать базу данных.

В ней — информация о книгах, издательствах, авторах, а также пользовательские обзоры книг. Эти данные помогут сформулировать ценностное предложение для нового продукта.

**Задания**

- Посчитать, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитать количество обзоров и среднюю оценку;
- Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определить автора с самой высокой средней оценкой книг — неоходимо учитывать только книги с 50 и более оценками;
- Посчитайть среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Описание данных**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

## Ипрорт библиотек и подключение к базе данных

In [2]:
import pandas as pd
from sqlalchemy import create_engine

In [3]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'Sdf4$2;d-d30pp', # пароль
 'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
 'port': 6432, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## Знакомство с таблицами

Выведу первые строки таблиц

In [4]:
query_1 = '''
         SELECT *
         FROM books
        '''
books = pd.io.sql.read_sql(query_1, con = engine)
books 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [5]:
query_2 = '''
         SELECT *
         FROM authors
        '''
authors = pd.io.sql.read_sql(query_2, con = engine)
authors 

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [6]:
query_3 = '''
         SELECT *
         FROM publishers
        '''
publishers = pd.io.sql.read_sql(query_3, con = engine)
publishers 

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [7]:
query_4 = '''
         SELECT *
         FROM ratings
        '''
ratings = pd.io.sql.read_sql(query_4, con = engine)
ratings 

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [8]:
query_5 = '''
         SELECT *
         FROM reviews
        '''
reviews = pd.io.sql.read_sql(query_5, con = engine)
reviews 

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


Все таблицы на месте, в таблицах:
 - books - 1000 строк
 - authors - 636 строк
 - publishers - 340 строк
 - ratings - 6456 строк
 - reviews - 2793 строки
 

## Посчитаю какое количество книг вышло после 1 января 2000 года

In [9]:
# Напишу функцию для выполнения запросов.
def query_display(query):
    return pd.io.sql.read_sql(query, con = engine)


query_6 = '''
         SELECT COUNT(book_id) AS "Количество книг"
         FROM books
         WHERE publication_date > '2000-01-01'
         
        '''
query_display(query_6)

Unnamed: 0,Количество книг
0,819


После 1 января 2000 года было опубликованно 819 книг.

## Для каждой книги посчитаю количество обзоров и среднюю оценку

In [10]:
query_7 = '''
         SELECT b.book_id, title, COUNT(DISTINCT text) AS number_of_reviews, AVG(rating) AS avg_rating
         FROM books b
         LEFT JOIN reviews r ON r.book_id = b.book_id
         LEFT JOIN ratings ra ON ra.book_id = b.book_id
         GROUP BY b.book_id, title
         ORDER BY number_of_reviews DESC, avg_rating DESC 
        '''

query_display(query_7)

Unnamed: 0,book_id,title,number_of_reviews,avg_rating
0,948,Twilight (Twilight #1),7,3.662500
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.414634
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.287500
3,656,The Book Thief,6,4.264151
4,734,The Glass Castle,6,4.206897
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden...,0,4.000000
996,387,Leonardo's Notebooks,0,4.000000
997,221,Essential Tales and Poems,0,4.000000
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


Топ-5 по количеству обзоров и средней оценки

 - Twilight (Twilight #1) 7 обзоров / 3.66 средний рейтинг обзора
 - Harry Potter and the Prisoner of Azkaban 6 обзоров / 4.41 средний рейтинг обзора
 - Harry Potter and the Chamber of Secrets  6 обзоров /4.28 средний рейтинг обзора
 - The Book Thief 6 обзоров / 4.26 средний рейтинг обзора
 - The Glass Castle 6 обзоров/ 4.21 средний рейтинг обзора

## Определю издательство, которое выпустило наибольшее число книг толще 50 страниц — так я исключю из анализа брошюры;

In [11]:
query_8 = '''
         SELECT publisher, COUNT(b.book_id) as number_of_books
         FROM publishers p
         JOIN books b ON p.publisher_id = b.publisher_id
         WHERE num_pages > 50
         GROUP BY publisher
         ORDER BY number_of_books DESC
         LIMIT 1
        '''
query_display(query_8)

Unnamed: 0,publisher,number_of_books
0,Penguin Books,42


Издательство, которое выпустило наибольшее число книг толще 50 страниц это Penguin books - 42 книги.

## Определю автора с самой высокой средней оценкой книг — учитываю только книги с 50 и более оценками

In [12]:
query_9 = '''
         SELECT author, AVG(avg_rating) AS avg_rating_total
         FROM authors a
         JOIN books b ON b.author_id = a.author_id
         JOIN(
             SELECT b.book_id, title, COUNT(rating_id) AS number_of_ratings, AVG(rating) AS avg_rating
             FROM books b
             JOIN ratings r ON r.book_id = b.book_id
             GROUP BY b.book_id, title) j  ON j.book_id = b.book_id
         WHERE number_of_ratings >= 50
         GROUP BY author
         ORDER BY avg_rating_total DESC
         LIMIT 1
        '''
query_display(query_9)

Unnamed: 0,author,avg_rating_total
0,J.K. Rowling/Mary GrandPré,4.283844


Автор с самой высокой средней оценкой книг это J.K. Rowling/Mary GrandPré

## Посчитаю среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [13]:
query_10 = '''
          SELECT ROUND(AVG(count_text)) AS rounded_avg_review    
          FROM(
               SELECT COUNT(text) AS count_text
               FROM reviews r
               FULL OUTER JOIN (
                                SELECT username, COUNT(rating_id) AS count_raring 
                                FROM ratings 
                                GROUP BY username) c ON c.username = r.username 
                WHERE count_raring > 50
                GROUP BY r.username) count_text;    
     '''
query_display(query_10)

Unnamed: 0,rounded_avg_review
0,24.0


Среднее кол-во текстовых обзоров пользователей 24, которые поставили более чем по 50 оценок.

## Вывод

После 1 января 2000 года было выпущено 819 книг.
Топ-5 по количеству обзоров и среднему рейтингу:

 - Memoirs of a Geisha  8 / 4.13 средний рейтинг обзора
 - Twilight (Twilight #1) 7 обзоров / 3.66 средний рейтинг обзора
 - Harry Potter and the Prisoner of Azkaban 6 обзоров / 4.41 средний рейтинг обзора
 - Harry Potter and the Chamber of Secrets  6 обзоров /4.28 средний рейтинг обзора
 - The Book Thief 6 обзоров / 4.26 средний рейтинг обзора
Издательство Penguin Books - выпустило наибольше число книг в кол-ве 42 книг, толще 50 страниц.

Cамая высокая средняя оценка у автора J.K. Rowling/Mary GrandPré.
Среднее кол-во текстовых обзоров пользователей 24, которые поставили более чем по 50 оценок.