# Проект по SQL

## Описание

Имеется база данных с информацией о книгах, содержащая 5 таблиц:
- таблица books с идентификатором книги (book_id), иднетификатором автора (author_id), названием книги (title), количеством страниц (num_pages), датой публикации книги (publication_date) и идентификатором издателя (publisher_id);
- таблица authors с идентификатором автора (author_id) и именем автора (author);
- таблица publishers с идентификатором издательства (publisher_id) и названием издательства (publisher);
- таблица ratings с идентификатором оценки (rating_id), идентификатором книги (book_id), именем пользователя (username) и оценкой книги (rating);
- таблица reviews с идентификатором обзора (review_id), идентификатором книги (book_id), именем пользователя (username) и текстом обзора (text).

Требуется проанализировать таблицы, определить популярные издательства и авторов, а также пользователей, наиболее активно участвующих в оценке книг.

## Подключение к базе данных и получение таблиц

In [1]:
import pandas as pd
from sqlalchemy import create_engine 

In [2]:
db_config = {'user': 'praktikum_student', # имя пользователя
 'pwd': 'пароль', # пароль
 'host': '',
 'port': порт подключения, # порт подключения
 'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])

engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

In [3]:
# выведем по 10 первых строк каждой таблицы

tables = ['books','authors','publishers','ratings','reviews']
for table in tables:
    query = '''SELECT * FROM {} LIMIT 10'''.format(table) 
    display(pd.io.sql.read_sql(query, con = engine)) 

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


## Запросы

In [4]:
# Посчитаем, сколько книг вышло после 1 января 2000 года

query1 = ''' SELECT COUNT(book_id) as cnt 
             FROM books
             WHERE publication_date > '2000.01.01';  '''
pd.io.sql.read_sql(query1, con = engine)

Unnamed: 0,cnt
0,819


Из 1000 имеющихся книг 819 выпущены после 1 января 2000 года.

In [5]:
# Для каждой книги посчитаем количество обзоров и среднюю оценку. 

query2 = ''' SELECT b.book_id, b.title, AVG(rt.rating) as avg_rating, COUNT(DISTINCT rv.review_id) as reviews_number
             FROM books b LEFT JOIN ratings rt ON b.book_id = rt.book_id LEFT JOIN reviews rv ON b.book_id = rv.book_id
             GROUP BY b.book_id
             ORDER BY avg_rating DESC;
            '''
pd.io.sql.read_sql(query2, con = engine)

Unnamed: 0,book_id,title,avg_rating,reviews_number
0,86,Arrows of the Queen (Heralds of Valdemar #1),5.00,2
1,901,The Walking Dead Book One (The Walking Dead #...,5.00,2
2,390,Light in August,5.00,2
3,972,Wherever You Go There You Are: Mindfulness Me...,5.00,2
4,136,Captivating: Unveiling the Mystery of a Woman'...,5.00,2
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,2.25,3
996,316,His Excellency: George Washington,2.00,2
997,202,Drowning Ruth,2.00,3
998,371,Junky,2.00,2


У всех книг есть рейтинги, средний рейтинг варьируется от 1,5 до 5.

In [6]:
# Определим издательство, которое выпустило наибольшее число книг толще 50 страниц. 

query3 = ''' SELECT pub.publisher_id, pub.publisher, COUNT(b.book_id) as book_number
             FROM (books b INNER JOIN publishers pub ON b.publisher_id = pub.publisher_id) 
             WHERE num_pages >50
             GROUP BY pub.publisher_id
             ORDER BY book_number DESC
             LIMIT 5;
            '''
pd.io.sql.read_sql(query3, con = engine)

Unnamed: 0,publisher_id,publisher,book_number
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25
3,217,Penguin Classics,24
4,35,Bantam,19


Издательство, выпустившее наибольшее число книг толще 50 страниц, называется Penguin Books.

In [7]:
# Определим автора с самой высокой средней оценкой книг,будем учитывать только книги с 50 и более оценками

query4 = ''' SELECT author_id, author, AVG(rating) as avg_rating
             FROM (
             SELECT b.book_id, b.author_id, author, rating, COUNT(rating) OVER (PARTITION BY b.book_id) as rating_number
             FROM books b INNER JOIN ratings rt ON b.book_id = rt.book_id INNER JOIN authors a ON b.author_id = a.author_id
             ) as sub
             WHERE rating_number >= 50
             GROUP BY author_id, author
             ORDER BY avg_rating DESC;
                ;
            '''
pd.io.sql.read_sql(query4, con = engine)

Unnamed: 0,author_id,author,avg_rating
0,236,J.K. Rowling/Mary GrandPré,4.287097
1,402,Markus Zusak/Cao Xuân Việt Khương,4.264151
2,240,J.R.R. Tolkien,4.246914
3,376,Louisa May Alcott,4.192308
4,498,Rick Riordan,4.080645
5,621,William Golding,3.901408
6,235,J.D. Salinger,3.825581
7,469,Paulo Coelho/Alan R. Clarke/Özdemir İnce,3.789474
8,630,William Shakespeare/Paul Werstine/Barbara A. M...,3.787879
9,372,Lois Lowry,3.75


Писатель с самой высокой оценкой книг (для книг с 50 и более оценками)  - Джоан Роулинг, это cерия о Гарри Поттере с иллюстрациями Мэри ГрандПре. Джон Стейнбек, лауреат Пулитцеровской и Нобелевской премий проигрывает автору "Сумерек" Стефани Майер:)

In [8]:
# Посчитаем среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

query5 = ''' SELECT avg(count) as avg_reviews
             FROM (SELECT rt.username, COUNT(DISTINCT review_id)
                   FROM ratings rt INNER JOIN reviews rv on rt.username = rv.username
                   GROUP BY rt.username
                   HAVING COUNT(DISTINCT rating_id) > 50) as sub'''
pd.io.sql.read_sql(query5, con = engine)

Unnamed: 0,avg_reviews
0,24.333333


Самые книголюбы, поставившие больше 50 оценок, написали в среднем 24 обзора.