# SQL проект по исследованию базы данных сервиса для четния книг

## Основная цель и задачи проекта

**Основная цель** - проанализировать базу данных недавно купленного сервиса для чтения книг по подписке. Результаты должны помочь сформулировать ценностное предложение для нового продукта.

**Задания:**

- Посчитайте, сколько книг вышло после 1 января 2000 года;
- Для каждой книги посчитайте количество обзоров и среднюю оценку;
- Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;
- Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;
- Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

## Выполнение проекта

### Подключение к базе:

In [1]:
# импортируем библиотеки
import pandas as pd 
from sqlalchemy import create_engine 
import warnings
warnings.filterwarnings('ignore')
# для вывода всех символов в значениях столбцов таблицы
pd.set_option('max_colwidth', -1)
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'], 
 db_config['pwd'], 
 db_config['host'], 
 db_config['port'], 
 db_config['db']) 
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

### Просмотр таблиц:

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

In [2]:
query = ''' SELECT *
            FROM books
        '''
books=pd.io.sql.read_sql(query, con = engine)

books.head()

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope #1),322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before Columbus,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

In [3]:
query = ''' SELECT *
            FROM authors
        '''
authors=pd.io.sql.read_sql(query, con = engine)

authors.head()

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

In [4]:
query = ''' SELECT *
            FROM publishers
        '''
publishers=pd.io.sql.read_sql(query, con = engine)

publishers.head()

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

In [5]:
query = ''' SELECT *
            FROM ratings
        '''
ratings=pd.io.sql.read_sql(query, con = engine)

ratings.head()

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

In [6]:
query = ''' SELECT *
            FROM reviews
        '''
reviews=pd.io.sql.read_sql(query, con = engine)

reviews.head()

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. Over provide race technology continue these.
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Among admit investment argue security.
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but person sport treatment industry. Kitchen decision deep the. Social party body the.
3,4,3,johnsonamanda,Finally month interesting blue could nature cultural bit. Prepare beat finish grow that smile teach. Dream me play near.
4,5,3,scotttamara,Nation purpose heavy give wait song will. List dinner another whole positive radio fast. Music staff many green.


Согласно ER-диаграмме из описания задания, таблица books связывает все остальные таблицы.

### Кол-во книг вышло после 1 января 2000 года:

In [7]:
query_1 = '''
        SELECT 
            COUNT(book_id) AS release_after_01_01_2000
            
        FROM 
            books
            
        WHERE
            publication_date > '2000-01-01'
        '''
query_1 = pd.io.sql.read_sql(query_1, con = engine)

query_1

Unnamed: 0,release_after_01_01_2000
0,819


После 1 января 2000 года вышло 819 книг.

### Для каждой книги посчитайте количество обзоров и среднюю оценку

In [13]:
query_2 = '''
        SELECT 
            books.book_id,
            books.title,
            COUNT(DISTINCT reviews.review_id) AS reviews_cnt, 
            AVG (CAST(ratings.rating AS integer)) AS avo_ratings
             
        FROM 
            books
        LEFT JOIN reviews ON reviews.book_id = books.book_id 
        LEFT JOIN ratings ON ratings.book_id = books.book_id
            
        GROUP BY 
            books.book_id,
            books.title
            
        ORDER BY 
            reviews_cnt DESC,
            avo_ratings DESC         
                        
               '''
query_2 = pd.io.sql.read_sql(query_2, con = engine)

query_2

Unnamed: 0,book_id,title,reviews_cnt,avo_ratings
0,948,Twilight (Twilight #1),7,3.662500
1,302,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),6,4.414634
2,299,Harry Potter and the Chamber of Secrets (Harry Potter #2),6,4.287500
3,656,The Book Thief,6,4.264151
4,734,The Glass Castle,6,4.206897
...,...,...,...,...
995,191,Disney's Beauty and the Beast (A Little Golden Book),0,4.000000
996,387,Leonardo's Notebooks,0,4.000000
997,221,Essential Tales and Poems,0,4.000000
998,83,Anne Rice's The Vampire Lestat: A Graphic Novel,0,3.666667


По кол-ву обзоров список из первых 5 книг выглядит следующим образом:
1. Twilight (Twilight #1)	                                    	
2. Harry Potter and the Prisoner of Azkaban (Harry Potter #3)	
3. Harry Potter and the Chamber of Secrets (Harry Potter #2)	
4. The Book Thief                                           		
5. The Glass Castle	                                            



In [9]:
query_3 = '''
        SELECT 
            books.book_id,
            books.title,
            COUNT(DISTINCT reviews.review_id) AS reviews_cnt, 
            AVG (CAST(ratings.rating AS integer)) AS avo_ratings
             
        FROM 
            books
        LEFT JOIN reviews ON reviews.book_id = books.book_id 
        LEFT JOIN ratings ON ratings.book_id = books.book_id
            
        GROUP BY 
            books.book_id,
            books.title
            
        ORDER BY 
            avo_ratings DESC,
            reviews_cnt DESC                     
        LIMIT 5                
               '''
query_3 = pd.io.sql.read_sql(query_3, con = engine)

query_3

Unnamed: 0,book_id,title,reviews_cnt,avo_ratings
0,17,A Dirty Job (Grim Reaper #1),4,5.0
1,444,Moneyball: The Art of Winning an Unfair Game,3,5.0
2,553,School's Out—Forever (Maximum Ride #2),3,5.0
3,57,Act of Treason (Mitch Rapp #9),2,5.0
4,20,A Fistful of Charms (The Hollows #4),2,5.0


Первые пять книг со средним рейтингом 5:
1. A Dirty Job (Grim Reaper #1)
2. Moneyball: The Art of Winning an Unfair Game
3. School's Out—Forever (Maximum Ride #2)	
4. Act of Treason (Mitch Rapp #9)	
5. A Fistful of Charms (The Hollows #4)	

### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц

In [10]:
query_4 = '''
        SELECT 
            publishers.publisher_id,
            publishers.publisher,
            COUNT(books.book_id) AS books_cnt
            
             
        FROM 
            books
        LEFT JOIN publishers ON publishers.publisher_id = books.publisher_id 
        
        WHERE
            books.num_pages >= 50
        
        GROUP BY
            publishers.publisher_id,
            publishers.publisher
            
        ORDER BY
            books_cnt DESC
                       
        LIMIT 1
             
        '''
query_4 = pd.io.sql.read_sql(query_4, con = engine)

query_4

Unnamed: 0,publisher_id,publisher,books_cnt
0,212,Penguin Books,42


Издательством выпустившим наибольшее кол-во книг толще 50 страниц является Penguin Books	

### Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками

In [11]:
query_5 = '''
        SELECT 
            authors.author_id, 
            authors.author,
            SUM(COUNT_RATING_BOOK.cnt_rating) AS cnt_rating,
            SUM(COUNT_RATING_BOOK.sum_rating) AS sum_rating,
            SUM(COUNT_RATING_BOOK.sum_rating) / SUM(COUNT_RATING_BOOK.cnt_rating) AS avg_rating
             
        FROM 
        (SELECT 
            books.book_id,
            books.title,
            books.author_id,
            COUNT(ratings.rating) AS cnt_rating,
            SUM(ratings.rating) AS sum_rating
             
        FROM 
            books
        INNER JOIN ratings ON ratings.book_id = books.book_id
             
        GROUP BY
            books.book_id,
            books.title,
            books.author_id          
            
        HAVING
            COUNT(ratings.rating) >= 50           
        ) AS COUNT_RATING_BOOK
        
        LEFT JOIN authors ON authors.author_id = COUNT_RATING_BOOK.author_id
        
        GROUP BY
            authors.author_id, 
            authors.author
            
            
        --HAVING--
            
            
        ORDER BY
            avg_rating DESC
            
                       
        LIMIT 1
             
        '''
query_5 = pd.io.sql.read_sql(query_5, con = engine)

query_5

Unnamed: 0,author_id,author,cnt_rating,sum_rating,avg_rating
0,236,J.K. Rowling/Mary GrandPré,310.0,1329.0,4.287097


Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré - средняя оценка 4.28.

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок

In [12]:
query_5 = '''
        SELECT 
            COUNT(reviews.review_id) / COUNT(DISTINCT reviews.username) AS avg_reviews
             
        FROM 
        (SELECT 
            ratings.username,
            COUNT(ratings.rating_id)
            
        FROM 
            ratings  
            
        GROUP BY
            ratings.username
                    
        HAVING
            COUNT(ratings.rating_id) >= 50
        ) AS users_50_rating_score
        
                 
        INNER JOIN reviews ON reviews.username = users_50_rating_score.username
             
        '''

query_5 = pd.io.sql.read_sql(query_5, con = engine)

query_5

Unnamed: 0,avg_reviews
0,24


Среднее кол-во обзоров от пользователей поставивших более 50 оценок составляет 24

## Общие выводы и рекомендации:


- после 1 января 2000 года вышло 819 книг;
- Для каждой книги посчитали количество обзоров и среднюю оценку:


![image.png](attachment:image.png)

- Издательством выпустившим наибольшее кол-во книг толще 50 страниц является Penguin Books
- Автор с самой высокой средней оценкой книг - J.K. Rowling/Mary GrandPré - средняя оценка 4.28.
- Среднее кол-во обзоров от пользователей поставивших более 50 оценок составляет 24