# SQL

**Цель исследования**: Сформулировать ценностное предложение для нового продукта.  
**Задача:** Проанализировать базу данных новоприобритенного сервиса для чтения книг по подписке.

В рамках анализа необходимо ответить на следующие вопросы:

- Сколько книг вышло после 1 января 2000 года;
- Какое количество обзоров и средняя оценка для каждой книги;
- Какое издательство, выпустило наибольшее число книг толще 50 страниц (для исключения из анализа брошюр);
- Какой автор имеет самую высокую среднюю оценку книг — (учитываются только книги с 50 и более оценками);
- Какого среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

**Описание данных**

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

Загрузим необходимые библиотеки и подключимся к базе данных.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

Посмотрим содержимое таблиц: books, authors, publishers, ratings, reviews

In [3]:
# Формируем sql-запрос для books.
query = ''' SELECT *
            FROM books
        '''

pd.read_sql_query(query, con=engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
...,...,...,...,...,...,...
995,996,571,Wyrd Sisters (Discworld #6; Witches #2),265,2001-02-06,147
996,997,454,Xenocide (Ender's Saga #3),592,1996-07-15,297
997,998,201,Year of Wonders,358,2002-04-30,212
998,999,94,You Suck (A Love Story #2),328,2007-01-16,331


In [4]:
# Формируем sql-запрос для authors.
query = ''' SELECT *
            FROM authors
        '''

pd.read_sql_query(query, con=engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


In [5]:
# Формируем sql-запрос для publishers.
query = ''' SELECT *
            FROM publishers
        '''

pd.read_sql_query(query, con=engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


In [6]:
# Формируем sql-запрос для ratings
query = ''' SELECT *
            FROM ratings
        '''

pd.read_sql_query(query, con=engine)


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
...,...,...,...,...
6451,6452,1000,carolrodriguez,4
6452,6453,1000,wendy18,4
6453,6454,1000,jarvispaul,5
6454,6455,1000,zross,2


In [7]:
# Формируем sql-запрос для reviews
query = ''' SELECT *
            FROM reviews
        '''

pd.read_sql_query(query, con=engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
...,...,...,...,...
2788,2789,999,martinadam,Later hospital turn easy community. Fact same ...
2789,2790,1000,wknight,Change lose answer close pressure. Spend so now.
2790,2791,1000,carolrodriguez,Authority go who television entire hair guy po...
2791,2792,1000,wendy18,Or western offer wonder ask. More hear phone f...


Ключи соединяющие таблицы: book_id,	author_id, 	publisher_id.

Перейдем к анализу данных.
Ответим на вопрос:
Сколько книг вышло после 1 января 2000 года

In [8]:
#- Сколько книг вышло после 1 января 2000 года;

query = ''' SELECT COUNT(book_id)
            FROM books
            WHERE publication_date  > '2000-01-01' 
        '''

pd.read_sql_query(query, con=engine)


Unnamed: 0,count
0,819


In [9]:
819 / 1000 * 100

81.89999999999999

После 1 января 2000 г вышло 819 книг, это 82% всех книг базы данных.

In [10]:
#Какое количество обзоров и средняя оценка для каждой книги;

query3 = ''' WITH rev_tabl AS
                (SELECT book_id,
                 COUNT(review_id) AS review_cnt
                 FROM reviews
                 GROUP BY book_id),
             
             rat_tabl AS
                (SELECT book_id,
                 AVG(rating) AS rating_avg
                 FROM ratings
                 GROUP BY book_id)
             
             SELECT b.book_id,
                    b.title,
                    rat_tabl.rating_avg,
                    rev_tabl.review_cnt
             FROM books AS b
             LEFT JOIN rev_tabl ON b.book_id = rev_tabl.book_id
             LEFT JOIN rat_tabl ON b.book_id = rat_tabl.book_id
             ORDER BY rat_tabl.rating_avg
                          
        '''

pd.read_sql_query(query3, con=engine)

Unnamed: 0,book_id,title,rating_avg,review_cnt
0,303,Harvesting the Heart,1.50,2.0
1,202,Drowning Ruth,2.00,3.0
2,316,His Excellency: George Washington,2.00,2.0
3,371,Junky,2.00,2.0
4,915,The World Is Flat: A Brief History of the Twen...,2.25,3.0
...,...,...,...,...
995,330,How to Be a Domestic Goddess: Baking and the A...,5.00,1.0
996,418,March,5.00,2.0
997,86,Arrows of the Queen (Heralds of Valdemar #1),5.00,2.0
998,444,Moneyball: The Art of Winning an Unfair Game,5.00,3.0


In [11]:
#Какое количество обзоров и средняя оценка для каждой книги;

#query3 = ''' SELECT b.book_id,
               #    b.title,
               #    AVG(rat.rating),
               #    COUNT(rev.review_id)
            # FROM books AS b
            # FULL OUTER JOIN ratings AS rat ON rat.book_id = b.book_id
            # FULL OUTER JOIN reviews AS rev ON rat.book_id  = rev.book_id
            # GROUP BY b.book_id, b.title
            # ORDER BY AVG(rat.rating) DESC
   #     '''

#pd.read_sql_query(query3, con=engine)

Средний рейтинг минимально достигает  1.5. В базе данных есть книги имеющую максимальную среднюю оценку 5.  
Максимальное число отзывов 1120, минимальное 2.

In [12]:
#Какое издательство, выпустило наибольшее число книг толще 50 страниц (для исключения из анализа брошюр);

query5 = ''' SELECT p.publisher,
                    p.publisher_id,
                    COUNT(b.book_id)
             FROM books AS b
             INNER JOIN publishers AS p ON b.publisher_id = p.publisher_id
             WHERE b.num_pages > 50
             GROUP BY p.publisher, p.publisher_id
             ORDER BY COUNT(b.book_id) DESC
             LIMIT 5
        '''

pd.read_sql_query(query5, con=engine)

Unnamed: 0,publisher,publisher_id,count
0,Penguin Books,212,42
1,Vintage,309,31
2,Grand Central Publishing,116,25
3,Penguin Classics,217,24
4,Bantam,35,19


Издательство Penguin Books лидирует по кол-ву выпущенных книг (свыше 50 стр).
Также в  Топ-5 входят  издательства Vintage, Grand Central Publishing, Penguin Classics, Ballantine Books.

In [13]:
#Какой автор имеет самую высокую среднюю оценку книг — (учитываются только книги с 50 и более оценками);

query6 = ''' WITH tabl AS
                (SELECT a.author AS author,
                        b.book_id,
                        AVG(rat.rating) AS avg_rating,
                        COUNT(rat.rating_id)
             FROM books AS b
             LEFT JOIN authors AS a ON b.author_id = a.author_id
             LEFT JOIN ratings AS rat ON b.book_id = rat.book_id
             GROUP BY a.author, b.book_id
             HAVING COUNT(rat.rating_id) >= 50)
             
             
             SELECT t.author,
                    AVG(t.avg_rating)
             FROM tabl AS t
             GROUP BY t.author
             ORDER BY AVG(t.avg_rating) DESC
             LIMIT 5
        '''

pd.read_sql_query(query6, con=engine)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.283844
1,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,J.R.R. Tolkien,4.258446
3,Louisa May Alcott,4.192308
4,Rick Riordan,4.080645


Автор J.K. Rowling/Mary GrandPré имеет самую высокую среднюю оценку (среди авторов книги которых набрали 50 и более оценок).

In [14]:
#Какого среднее количество обзоров от пользователей, которые поставили больше 50 оценок.
query7 = ''' WITH tabl AS
               (SELECT username,
                    COUNT(review_id) AS count_review
                FROM reviews 
                WHERE username IN (SELECT username
                                   FROM ratings 
                                   GROUP BY username
                                   HAVING COUNT(rating_id) > 50)
                GROUP BY username)
             
             SELECT AVG (t.count_review)
             FROM  tabl AS t
             
        '''

pd.read_sql_query(query7, con=engine)

Unnamed: 0,avg
0,24.333333


Пользователи, которые поставили более 50 оценок, в среднем оставили 24 обзора.

**Выводы:**  

Произведен анализ представленных данных в ходе которого были найдены следующие результаты:

*Сколько книг вышло после 1 января 2000 года?*
- После 1 января 2000 г вышло 819 книг, это 82% всех книг базы данных.

*Какое количество обзоров и средняя оценка для каждой книги?*
- Средний рейтинг минимально достигает  1.5. В базе данных есть книги имеющую максимальную среднюю оценку 5. Максимальное число отзывов 1120, минимальное 2.

*Какое издательство, выпустило наибольшее число книг толще 50 страниц (для исключения из анализа брошюр)?*
- Издательство Penguin Books лидирует по кол-ву выпущенных книг (свыше 50 стр). Также в  Топ-5 входят  издательства Vintage, Grand Central Publishing, Penguin Classics, Ballantine Books.

*Какой автор имеет самую высокую среднюю оценку книг — (учитываются только книги с 50 и более оценками)?*
- Автор J.K. Rowling/Mary GrandPré имеет самую высокую среднюю оценку (среди авторов книги которых набрали 50 и более оценок).

*Какого среднее количество обзоров от пользователей, которые поставили больше 50 оценок?*
-  Пользователи, которые поставили более 50 оценок, в среднем оставили 24 обзора.