# Исследование данных о книгах

***Цель:*** Исследовать танные о книгах их авторах, издательствах, оценках и обзоров, чтобы сформулировать ценностное предложение для нового продукта.

Таблица ***books***

Содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Таблица ***authors***

Содержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

Таблица ***publisher***

Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица ***ratings***

Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги; username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Таблица ***reviews***

Содержит данные о пользовательских обзорах на книги:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя пользователя, написавшего обзор;
- text — текст обзора.


## Доступ к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine
import sqlalchemy as sa

# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432, # порт подключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)

# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

con=engine.connect()

def get(query:str, engine:sa.engine.base.Engine=engine) -> pd.DataFrame:
  '''Открываем соединение, получаем данные из sql, закрываем соединение'''
  with engine.connect() as con:
    return pd.read_sql(sql=sa.text(query), con = con)

## Обзор данных

Выведем первый строки таблиц и количество записей.

In [2]:
books = '''select *
           from books limit 10'''
bo = '''select count(*)
        from books'''
display(get(books) )
print('Количество записей:', get(bo))

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268
5,6,257,1st to Die (Women's Murder Club #1),424,2005-05-20,116
6,7,258,2nd Chance (Women's Murder Club #2),400,2005-05-20,116
7,8,260,4th of July (Women's Murder Club #4),448,2006-06-01,318
8,9,563,A Beautiful Mind,461,2002-02-04,104
9,10,445,A Bend in the Road,341,2005-04-01,116


Количество записей:    count
0   1000


In [3]:
authors = '''select *
           from authors limit 10'''
au = '''select count(*)
        from authors'''
display(get(authors) )
print('Количество записей:', get(au))

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd
5,6,Alan Paton
6,7,Albert Camus/Justin O'Brien
7,8,Aldous Huxley
8,9,Aldous Huxley/Christopher Hitchens
9,10,Aleksandr Solzhenitsyn/H.T. Willetts


Количество записей:    count
0    636


In [4]:
publishers = '''select *
           from publishers limit 10'''
pub = '''select count(*)
        from publishers'''
display(get(publishers) )
print('Количество записей:', get(pub))

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company
5,6,Aladdin
6,7,Aladdin Paperbacks
7,8,Albin Michel
8,9,Alfred A. Knopf
9,10,Alfred A. Knopf Books for Young Readers


Количество записей:    count
0    340


In [5]:
ratings = '''select *
           from ratings limit 10'''
rat = '''select count(*)
        from ratings'''
display(get(ratings) )
print('Количество записей:', get(rat))

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2
5,6,3,johnsonamanda,4
6,7,3,scotttamara,5
7,8,3,lesliegibbs,5
8,9,4,abbottjames,5
9,10,4,valenciaanne,4


Количество записей:    count
0   6456


In [6]:
reviews = '''select *
           from reviews limit 10'''
rev = '''select count(*)
        from reviews'''
display(get(reviews) )
print('Количество записей:', get(rev))

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...
5,6,3,lesliegibbs,Analysis no several cause international.
6,7,4,valenciaanne,One there cost another. Say type save. With pe...
7,8,4,abbottjames,Within enough mother. There at system full rec...
8,9,5,npowers,Thank now focus realize economy focus fly. Ite...
9,10,5,staylor,Game push lot reduce where remember. Including...


Количество записей:    count
0   2793


Имеем данные о 1000 книг, 636 авторах, 340 издательствах, 6456 оценках и 2793 обзорах.

## Исследование данных

### Количество книг, вышедших после 01.01.2000

In [7]:
query = '''select count(book_id)
           from books
           where publication_date > '2000-01-01'
           '''
get(query)


Unnamed: 0,count
0,819


### Количество обзоров и средняя оценка книг

In [16]:
query = '''select title,
                  count(distinct review_id) as rev_cnt,
                  avg(rating) as rat_avg
           from books as bo
           left join reviews as rew on bo.book_id=rew.book_id
           left join ratings as rat on bo.book_id=rat.book_id
           group by bo.book_id
           order by rat_avg desc
           '''

get(query)

Unnamed: 0,title,rev_cnt,rat_avg
0,Arrows of the Queen (Heralds of Valdemar #1),2,5.00
1,The Walking Dead Book One (The Walking Dead #...,2,5.00
2,Light in August,2,5.00
3,Wherever You Go There You Are: Mindfulness Me...,2,5.00
4,Captivating: Unveiling the Mystery of a Woman'...,2,5.00
...,...,...,...
995,The World Is Flat: A Brief History of the Twen...,3,2.25
996,His Excellency: George Washington,2,2.00
997,Drowning Ruth,3,2.00
998,Junky,2,2.00


### Издательство, выпустившее наибольшее количество книг толще 50 страниц

In [44]:
query = '''select publisher,
                  count(book_id)
           from books as bo
           left join publishers as pub on pub.publisher_id = bo.publisher_id
           where num_pages > 50
           group by publisher
           order by count(book_id) desc
           limit 1
           '''
get(query)

Unnamed: 0,publisher,count
0,Penguin Books,42


### Автор с самой высокой средней оценкой книг, у которых от 50 оценок

In [52]:
query = '''select au.author,
                  avg(rat.rating)
            from ratings as rat
            join books as bo on bo.book_id = rat.book_id
            join authors as au on au.author_id = bo.author_id
            where rat.book_id in(select book_id
                                 from ratings
                                 group by book_id
                                 having count(book_id) >= 50)
            group by au.author
            order by avg(rat.rating) desc
            limit 1
            '''
get(query)

Unnamed: 0,author,avg
0,J.K. Rowling/Mary GrandPré,4.287097


### Среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [56]:
query = '''select avg(rev_cnt) as rev_avg
           from( select username,
                        count(review_id) as rev_cnt
                 from reviews
                 group by username
                 having username in(select username
                                    from ratings
                                    group by username
                                    having count(rating_id) > 48)) as i
                                    '''
get(query)

Unnamed: 0,rev_avg
0,24.0


### Вывод

- После 01.01.2000 вышло 819 книг
- Книга с наибольшим количеством обзоров "Сумерки" - , а книга с наибольшей средней оценкой "Стрела королевы" - 5.
- Больше всего книг с более чем 50 страниц выпустило издательство "Penguin Books"
- Автор с самой высокой средней оценкой книг, у которых от 50 оценок - Джоан Роулинг (так же над книгами работала Мари ГрапдПре - иллюстратор), средняя оценка 4.29
- Пользователи, которые ставят более 48 оценок в среднем создают по 24 обзора.