# Цель исследования: 
проанализировать базу данных, состоящую из книг, авторов, издателей, а также пользовательские обзоры книг на основе которых сформулировать ценностное предложение для нового продукта.



# Описание данных

Таблица `books` содержит данные о книгах:
- book_id — идентификатор книги;
- author_id — идентификатор автора;
- title — название книги;
- num_pages — количество страниц;
- publication_date — дата публикации книги;
- publisher_id — идентификатор издателя.

Таблица `authors` cодержит данные об авторах:
- author_id — идентификатор автора;
- author — имя автора.

Таблица `publishers` Содержит данные об издательствах:
- publisher_id — идентификатор издательства;
- publisher — название издательства;

Таблица `ratings` Содержит данные о пользовательских оценках книг:
- rating_id — идентификатор оценки;
- book_id — идентификатор книги;
- username — имя пользователя, оставившего оценку;
- rating — оценка книги.

Таблица `reviews` Содержит данные о пользовательских обзорах:
- review_id — идентификатор обзора;
- book_id — идентификатор книги;
- username — имя автора обзора;
- text — текст обзора.


In [5]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine


In [6]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
 db_config['pwd'],
 db_config['host'],
 db_config['port'],
 db_config['db'])


In [7]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})

## Таблица books


In [8]:
query = '''
            SELECT * 
            FROM books
        '''
books = pd.io.sql.read_sql(query, con = engine)
books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


## Таблица authors


In [9]:
query = '''
            SELECT * 
            FROM authors
        '''
authors = pd.io.sql.read_sql(query, con = engine)
authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


## Таблица publishers


In [10]:
query = '''
            SELECT * 
            FROM publishers
        '''
publishers = pd.io.sql.read_sql(query, con = engine)
publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


## Таблица ratings


In [11]:
query = '''
            SELECT * 
            FROM ratings
        '''
ratings = pd.io.sql.read_sql(query, con = engine)
ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


## Таблица reviews


In [12]:
query = '''
            SELECT * 
            FROM reviews
        '''
reviews = pd.io.sql.read_sql(query, con = engine)
reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


## Задание 1: сколько книг вышло после 1 января 2000 года

In [13]:
query = '''
            SELECT COUNT(book_id) count_of_books
            FROM books 
            WHERE publication_date > '01-01-2000'
        '''
pd.io.sql.read_sql(query, con = engine)


Unnamed: 0,count_of_books
0,819


C 1 января 2000 года (не включительно) вышло 819 книг 

## Задание 2:  количество обзоров и средняя оценка для каждой книги

In [14]:
query = '''
            SELECT b.book_id, b.title, rat.avg_rating, rev.review_count
            FROM books b
            LEFT JOIN (SELECT book_id, AVG(rating) avg_rating 
                    FROM ratings 
                    GROUP BY book_id) rat ON b.book_id=rat.book_id
            LEFT JOIN (SELECT book_id, COUNT(*) review_count 
                    FROM reviews 
                    GROUP BY book_id) rev ON b.book_id=rev.book_id
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,book_id,title,avg_rating,review_count
0,652,The Body in the Library (Miss Marple #3),4.500000,2.0
1,273,Galápagos,4.500000,2.0
2,51,A Tree Grows in Brooklyn,4.250000,5.0
3,951,Undaunted Courage: The Pioneering First Missio...,4.000000,2.0
4,839,The Prophet,4.285714,4.0
...,...,...,...,...
995,64,Alice in Wonderland,4.230769,4.0
996,55,A Woman of Substance (Emma Harte Saga #1),5.000000,2.0
997,148,Christine,3.428571,3.0
998,790,The Magicians' Guild (Black Magician Trilogy #1),3.500000,2.0


Для большинства книг есть сразу несколько обзоров, их средний рейтинг сильно варьируется 

## Задание 3:  издательство, которое выпустило наибольшее число книг толще 50 страниц (искючаем брошюры)

In [15]:
query = '''
            SELECT b.publisher_id, p.publisher, COUNT(*) count_books
            FROM books b
            LEFT JOIN publishers p ON b.publisher_id = p.publisher_id
            WHERE num_pages > 50
            GROUP BY b.publisher_id, p.publisher
            ORDER BY COUNT(*) DESC
            LIMIT 3
        '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,publisher_id,publisher,count_books
0,212,Penguin Books,42
1,309,Vintage,31
2,116,Grand Central Publishing,25


Издательство Penguin Books выпустило 42 книги с количеством страниц больше 50. Следом идет Vintage с числом выпущенных книг 31 и Grand Central Publishing - 25

## Задание 4: автор с самой высокой средней оценкой книг — учитываем только книги с 50 и более оценками;

In [16]:
query = '''
            SELECT authors.author AS автор, AVG(ratings.rating) AS средний_рейтинг
            FROM ratings
            JOIN books ON books.book_id = ratings.book_id
            JOIN authors ON books.author_id = authors.author_id
            WHERE ratings.book_id IN (
                   SELECT ratings.book_id
                   FROM ratings
                   GROUP BY ratings.book_id
                   HAVING COUNT(ratings.book_id) >= 50)
            GROUP BY authors.author_id
            ORDER BY AVG(ratings.rating) DESC
            LIMIT 1'''
data = pd.io.sql.read_sql(query, con = engine)
data

Unnamed: 0,автор,средний_рейтинг
0,J.K. Rowling/Mary GrandPré,4.287097


Конечно, Гарри Поттер:) J.K. Rowling/Mary GrandPré	- авторы с самой высокой средней оценкой книг

## Задание 5: среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [17]:
query = '''
            SELECT AVG(reviews_count) as avg_reviews_count
            FROM (SELECT username,
                        COUNT(review_id) as reviews_count
                        FROM reviews
                        GROUP BY username
                        HAVING username IN (
                            SELECT username
                            FROM ratings
                            GROUP BY username
                            HAVING COUNT (rating_id) > 50
                            )
                            
                            
                ) as reviews
  
  '''
pd.io.sql.read_sql(query, con = engine)

Unnamed: 0,avg_reviews_count
0,24.333333


Читатели, которые поставили больше 50 оценок, в среднем пишут по 24 обзора

# Вывод 

Для анализа предоставлена база данных с пятью таблицами, содержащими информацию о книгах, их авторах, рецензиях на них и тд. Были составлены запросы для уточнения необходимых вопросов:

- с 1 января 2000 года было выпущено 819 книг
- Для большинства книг есть сразу несколько обзоров, их средний рейтинг сильно варьируется
- Издательство Penguin Books выпустило 42 книги с количеством страниц больше 50
- J.K. Rowling/Mary GrandPré	со средним рейтингом 4.287 занимает первую строчку среди авторов с самыми высокими рейтинговыми оценками
- Читатели, которые поставили больше 50 оценок, в среднем пишут по 24 обзора