### SQL. Финальный проект.

#### Цель исследования:

В эпоху короновируса у жителей городов стало гораздо больше свободного времени для чтения книг.  Стартаперы стали создавать приложения для тех кто любит читать.

Наша компания купила купила крупный сервис для чтения книг по подписке.

Первая задача - проанализировать базу данных, в которой содержится информация о книгах, издательствах, авторах, а также пользовательские обзоры книг.

Эти данных должны помочь нам сформулировать ценностное предложение для нового продукта.


###### Подключаемся к базе данных и выводим первые 5 строк таблицы 'books'.

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': '......', # пароль
'host': '.yandexcloud.net',
'port': ...., # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


##### Таблица books

###### Содержит данные о книгах:

book_id — идентификатор книги;

author_id — идентификатор автора;

title — название книги;

num_pages — количество страниц;

publication_date — дата публикации книги;

publisher_id — идентификатор издателя.

###### Выводим первые 5 строк таблицы 'authors'.

In [2]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM authors LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


##### Таблица authors

###### Содержит данные об авторах:

author_id — идентификатор автора;

author — имя автора.

###### Выводим первые 5 строк таблицы 'punlishers'.

In [3]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM publishers LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


##### Таблица publishers

###### Содержит данные об издательствах:

publisher_id — идентификатор издательства;

publisher — название издательства;

###### Выводим первые 5 строк таблицы 'ratings'.

In [4]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM ratings LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


##### Таблица ratings

###### Содержит данные о пользовательских оценках книг:

rating_id — идентификатор оценки;

book_id — идентификатор книги;

username — имя пользователя, оставившего оценку;

rating — оценка книги.

##### Выводим первые 5 строк таблицы 'reviews'.

In [5]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT * FROM reviews LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


##### Таблица reviews

###### Содержит данные о пользовательских обзорах на книги:

review_id — идентификатор обзора;

book_id — идентификатор книги;

username — имя пользователя, написавшего обзор;

text — текст обзора.

### Задания

##### 1. Посчитать, сколько книг вышло после 1 января 2000 года.

In [6]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT COUNT(book_id) 
FROM books
WHERE books.publication_date > '01.01.2000' '''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,count
0,819


После 1 января 2000 года вышло 819 книг.

##### 2. Для каждой книги посчитать количество обзоров и среднюю оценку.

In [7]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''SELECT b.book_id,
                  b.title,
                  COUNT(DISTINCT r.text) AS count_review,                   
                  ROUND(AVG(rt.rating),2) AS avg_rating
FROM reviews AS r
JOIN ratings AS rt ON r.book_id=rt.book_id
JOIN books AS b ON rt.book_id=b.book_id
GROUP BY b.book_id,b.title 
ORDER BY count_review DESC, avg_rating DESC
LIMIT 10
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,book_id,title,count_review,avg_rating
0,948,Twilight (Twilight #1),7,3.66
1,302,Harry Potter and the Prisoner of Azkaban (Harr...,6,4.41
2,299,Harry Potter and the Chamber of Secrets (Harry...,6,4.29
3,656,The Book Thief,6,4.26
4,734,The Glass Castle,6,4.21
5,497,Outlander (Outlander #1),6,4.13
6,750,The Hobbit or There and Back Again,6,4.13
7,695,The Curious Incident of the Dog in the Night-Time,6,4.08
8,779,The Lightning Thief (Percy Jackson and the Oly...,6,4.08
9,963,Water for Elephants,6,3.98


Для каждой книги посчитано количество обзоров и средняя оценка. 7 отзывов набрала только 1 книга. В то же время средний рейтинг у книг, набравших больше всего отзывов не самый высокий. Со средним рейтингом 5.0 43 книги, при этом количество отзывов у 40  книг из 43 с рейтингом 5.0 - 1 (у 3-х книг) и 2 (у 37 книг). На мой взгляд, рейтинг у книг, имеющих большее количество отзывов, более объективный.

##### 3. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — так мы исключим из анализа брошюры.

In [8]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''WITH df AS (SELECT DISTINCT pb.publisher AS publisher,
                  COUNT(DISTINCT b.book_id) AS count_book
FROM publishers AS pb
JOIN books AS b ON pb.publisher_id=b.publisher_id
WHERE b.num_pages > 50
GROUP BY pb.publisher
ORDER BY count_book DESC)
SELECT publisher,
       count_book
FROM df
ORDER BY count_book DESC
LIMIT 1
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,publisher,count_book
0,Penguin Books,42


Наибольшее количество книг толще 50 страниц выпустило издательство Penguin Books - 42 книги.

##### 4. Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками.

In [9]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''
SELECT a.author,
       ROUND(AVG(r.rating),2) AS avg_rating
FROM authors AS a
JOIN books AS b ON a.author_id=b.author_id
JOIN ratings AS r ON b.book_id=r.book_id
WHERE b.book_id IN (SELECT b.book_id
                     FROM books AS b
                     JOIN ratings AS r ON b.book_id=r.book_id
                     GROUP BY b.book_id
                     HAVING COUNT(r.rating_id)>=50)
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.29


Автором с самой высокой средней оценкой книги по рейтингу с учетом книг, имеющих 50 и более оценок, является J.K. Rowling/Mary GrandPré	со средней оценкой 4,29.

##### 5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

In [10]:
# чтобы выполнить SQL-запрос, используем Pandas
query = '''WITH df AS (SELECT username,
                              COUNT(review_id) AS count_review
                       FROM reviews
                       WHERE username IN (SELECT username
                                          FROM ratings
                                          GROUP BY username
                                          HAVING COUNT(rating_id)>48)
                       GROUP BY username)
           SELECT SUM(count_review)/COUNT(count_review) AS avg_review
           FROM df
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_review
0,24.0


Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24 обзора.

#### Выводы:

В процессе работы над проектом описаны цели исследования, познакомились с данными, посмотрели содержимое таблиц и получены ответы на поставленные вопросы.

1. Посчитать количество книг, вышедших после 1 января 2000 года. - После 1 января 2000 года вышло 819 книг. 

2. Для каждой книги посчитать количество обзоров и среднюю оценку. - Для каждой книги посчитано количество обзоров и средняя оценка. Для каждой книги посчитано количество обзоров и средняя оценка. 7 отзывов набрала только 1 книга. В то же время средний рейтинг у книг, набравших больше всего отзывов не самый высокий. Со средним рейтингом 5.0 43 книги, при этом количество отзывов у 40  книг из 43 с рейтингом 5.0 - 1 (у 3-х книг) и 2 (у 37 книг). На мой взгляд, рейтинг у книг, имеющих большее количество отзывов, более объективный.

3. Определить издачельство, которое выпустило наибольшее число книг толще 50 страниц. - Наибольшее количество книг толще 50 страниц выпустило издательство Penguin Books - 42 книги.

4. Определить автора с самой высокой средней оценкой книги. - Автором с самой высокой средней оценкой книги по рейтингу с учетом книг, имеющих 50 и более оценок, является J.K. Rowling/Mary GrandPré	со средней оценкой 4,29.

5. Посчитать среднее количество обзоров от пользователей, которые поставили больше 48 оценок. -  Среднее количество обзоров от пользователей, которые поставили больше 48 оценок, составляет 24 обзора.