# Изучение крупного сервиса для чтения книг.

## Цель исследования:
изучить пользовательские предпочтения по отношению к книгам, чтобы составить предложение, актуальное для большинства пользователей.

>Таблица books

>Содержит данные о книгах:

>>book_id — идентификатор книги;

>>author_id — идентификатор автора;

>>title — название книги;

>>num_pages — количество страниц;

>>publication_date — дата публикации книги;

>>publisher_id — идентификатор издателя.

>Таблица authors

>Содержит данные об авторах:

>>author_id — идентификатор автора;

>>author — имя автора.

>Таблица publishers

>Содержит данные об издательствах:

>>publisher_id — идентификатор издательства;

>>publisher — название издательства;

>Таблица ratings

>Содержит данные о пользовательских оценках книг:

>>rating_id — идентификатор оценки;

>>book_id — идентификатор книги;

>>username — имя пользователя, оставившего оценку;

>>rating — оценка книги.

>Таблица reviews

>Содержит данные о пользовательских обзорах:

>>review_id — идентификатор обзора;

>>book_id — идентификатор книги;

>>username — имя автора обзора;

>>text — текст обзора.

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных

In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 

In [4]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

Изучить данные.

In [5]:
sql = '''SELECT *
FROM Books LIMIT 20'''

In [6]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


В датасете содержатся названия книг, страницы, дата публикации и айди. Мы можем увидеть, что большинство книг являются достаточно большими, люди очень любят читать, они любят длинные осмысленные книги, в которых есть история, и неважно в каком году даже была эта книга написана, важнее история.

In [7]:
sql = '''SELECT *
FROM authors '''

In [8]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
...,...,...
631,632,William Strunk Jr./E.B. White
632,633,Zadie Smith
633,634,Zilpha Keatley Snyder
634,635,Zora Neale Hurston


В таблице содержаться большое количество авторов,у каждого из них в таблице есть свой айди.

In [9]:
sql = '''SELECT *
FROM publishers '''

In [10]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
...,...,...
335,336,Workman Publishing Company
336,337,Wyatt Book
337,338,Yale University Press
338,339,Yearling


Также в таблице имеется большое количество издательств. Каждое из них как ячейка для хранения большого количества книг. Мы можем заполнить каждую эту ячейку не одной очень интересной историей.

In [11]:
sql = '''SELECT *
FROM ratings LIMIT 20'''

In [12]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


У каждой книги есть свой читатель, который вносит в нее свою оценку, далее эта оценка может использоваться другими людьми для понимания того насколько желаемо прочтение , поэтому оценки могут мотивировать одних людей читать новые книги, и делать их еще более желанными для других.

In [13]:
sql = '''SELECT *
FROM reviews LIMIT 20'''

In [14]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


Мы можем также изучить обзор на книги, которые создают еще одну важную часть истории перед прочтением книги, поэтому каждый обзор очень важен, один обзор способен внести больше желания чем 100 оценок, умение красиво передавать мысли создает желание заполучить то, что стоит за этими словами.

In [15]:
#CODE REVIEW
queries = ["""SELECT reltuples AS estimate FROM pg_class WHERE relname = 'books';""",
           """SELECT *
FROM information_schema."columns" c 
WHERE table_name = 'books';"""
          ]

for q in queries:
    print(q)
    with engine.connect() as con:
        res = con.execute(q)
        df = pd.DataFrame(res, columns=res.keys())
        display(df)
        print()

SELECT reltuples AS estimate FROM pg_class WHERE relname = 'books';


Unnamed: 0,estimate
0,1000.0



SELECT *
FROM information_schema."columns" c 
WHERE table_name = 'books';


Unnamed: 0,table_catalog,table_schema,table_name,column_name,ordinal_position,column_default,is_nullable,data_type,character_maximum_length,character_octet_length,...,is_identity,identity_generation,identity_start,identity_increment,identity_maximum,identity_minimum,identity_cycle,is_generated,generation_expression,is_updatable
0,data-analyst-final-project-db,public,books,book_id,1,,NO,integer,,,...,NO,,,,,,NO,NEVER,,YES
1,data-analyst-final-project-db,public,books,author_id,2,,YES,integer,,,...,NO,,,,,,NO,NEVER,,YES
2,data-analyst-final-project-db,public,books,title,3,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES
3,data-analyst-final-project-db,public,books,num_pages,4,,YES,integer,,,...,NO,,,,,,NO,NEVER,,YES
4,data-analyst-final-project-db,public,books,publication_date,5,,YES,date,,,...,NO,,,,,,NO,NEVER,,YES
5,data-analyst-final-project-db,public,books,publisher_id,6,,YES,integer,,,...,NO,,,,,,NO,NEVER,,YES





Посчитать, сколько книг вышло после 1 января 2000 года.

In [16]:
sql = '''SELECT COUNT(publication_date)
FROM Books WHERE publication_date > '2000-01-01' '''

In [17]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,count
0,819


После 1 января было выпущено 819 книг, это не так много, мы могли бы увеличить оборот книг, привлечь к нашему сайту новых авторов, талантливых и обладающих универсальным и современным мышлением, чтобы поднять эту планку.

Для каждой книги посчитать количество обзоров и среднюю оценку.

In [18]:
sql = '''SELECT b.title, AVG(r.rating), COUNT(re.review_id)
FROM books AS b
LEFT JOIN ratings AS r ON b.book_id = r.book_id
LEFT JOIN reviews AS re ON b.book_id = re.book_id
GROUP BY b.book_id
ORDER BY avg DESC '''

In [19]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,title,avg,count
0,Pop Goes the Weasel (Alex Cross #5),5.00,4
1,The Ghost Map: The Story of London's Most Terr...,5.00,4
2,In the Hand of the Goddess (Song of the Liones...,5.00,6
3,Tai-Pan (Asian Saga #2),5.00,4
4,How to Be a Domestic Goddess: Baking and the A...,5.00,2
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,2.25,12
996,Junky,2.00,4
997,His Excellency: George Washington,2.00,4
998,Drowning Ruth,2.00,9


Мы можем сказать, что количества обзоров не хватает для книг, которые обладают высоким рейтингом. Можно попытаться это также исправить, мотивировать людей чаще оставлять отзывы , чтобы поднять популярность книг среди отзывов а не только среди рейтингов.

Определить издательство, которое выпустило наибольшее число книг толще 50 страниц — чтобы исключить из анализа брошюры.

In [20]:
sql = '''SELECT COUNT(title),p.publisher
FROM publishers AS p
JOIN books AS b ON  p.publisher_id= b.publisher_id 
WHERE b.num_pages >=50 
GROUP BY p.publisher 
ORDER BY count DESC LIMIT 1'''


In [21]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,count,publisher
0,42,Penguin Books


Мы можем увидеть, что самое популярное издательство по количеству книг-это издательство 'Penguin Books', возможно, у нас на сайте не хватает книг с других издательств, или каким то пользователям больше нравятся книги других издательств? почему бы это не узнать у них

Определить автора с самой высокой средней оценкой книг — учитывать только книги с 50 и более оценками.

In [22]:
sql = '''WITH a  AS
(SELECT book_id, COUNT(rating)
FROM ratings
GROUP BY book_id
HAVING COUNT(rating) >= 50)
SELECT AVG(r.rating), au.author
FROM a JOIN books AS b ON a.book_id = b.book_id 
JOIN ratings AS r ON b.book_id = r.book_id
JOIN authors AS au ON b.author_id  = au.author_id 

GROUP BY au.author_id
ORDER BY avg DESC
LIMIT 1
'''

In [23]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,avg,author
0,4.287097,J.K. Rowling/Mary GrandPré


Мы выделили книги с большим количеством оценок, и выбрали всего лишь одного автора по рейтингу. Им оказался John Grisham, его книги нравятся людям. Есть ли книги его написания , которых по какой-то причине нет на нашем сайте? или может все они есть только издатества Penguin Books? нам нужно обратить на это внимание, чтобы максимально отразить пользовательские симпатии.

Посчитать среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [24]:
sql = '''WITH a  AS
(SELECT COUNT(rating), username
FROM ratings
GROUP BY username
HAVING COUNT(rating) > 50),
b as 
(SELECT COUNT(r.review_id),r.username 
FROM reviews AS r
RIGHT JOIN books AS b ON  r.book_id= b.book_id 
GROUP BY r.username)
SELECT AVG(b.count)
FROM b RIGHT JOIN a ON b.username = a.username;  '''


In [25]:
pd.io.sql.read_sql(sql, con = engine)

Unnamed: 0,avg
0,24.333333


Мы можем сказать, что людям , которые часто проставляют оценки так же часто пишут и отзывы, это здорово, мы можем использовать это понимание для определения самых активных пользователей, чтобы в первую очередь отражать их интересы среди наших книжных полок на сайте.

## Общий вывод
Я считаю, что стоит более детально изучить данные , чтобы выделить все возможные особенности во взаимодействии людей с сайтом, их желания и их предпочтения в образе сайта. Стоит изучить все намного лучше, и тогда многие вещи станут понятнее, и тогда развивать ресурс станет намного проще.