# Анализ базы данных методом запросов SQL

***Цели исследования:***

* Проанализировать базу данных для того чтобы сформулировать ценностное предложение для нового продукта
* Изучить информацию о книгах, издательствах, авторах и пользовательских обзоров книг.

***Описание данных***

**Таблица `books`**

Содержит данные о книгах:

- `book_id` — идентификатор книги;
- `author_id` — идентификатор автора;
- `title` — название книги;
- `num_pages` — количество страниц;
- `publication_date` — дата публикации книги;
- `publisher_id` — идентификатор издателя.

**Таблица `authors`**

Содержит данные об авторах:

- `author_id` — идентификатор автора;
- `author` — имя автора.

**Таблица `publishers`**

Содержит данные об издательствах:

- `publisher_id` — идентификатор издательства;
- `publisher` — название издательства;

**Таблица `ratings`**

Содержит данные о пользовательских оценках книг:

- `rating_id` — идентификатор оценки;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, оставившего оценку;
- `rating` — оценка книги.

**Таблица `reviews`**

Содержит данные о пользовательских обзорах на книги:

- `review_id` — идентификатор обзора;
- `book_id` — идентификатор книги;
- `username` — имя пользователя, написавшего обзор;
- `text` — текст обзора.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Импортирование-библиотек" data-toc-modified-id="Импортирование-библиотек-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Импортирование библиотек</a></span></li><li><span><a href="#Изучение-общей-информации" data-toc-modified-id="Изучение-общей-информации-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Изучение общей информации</a></span></li><li><span><a href="#Задания" data-toc-modified-id="Задания-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Задания</a></span><ul class="toc-item"><li><span><a href="#Посчитайте,-сколько-книг-вышло-после-1-января-2000-года;" data-toc-modified-id="Посчитайте,-сколько-книг-вышло-после-1-января-2000-года;-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Посчитайте, сколько книг вышло после 1 января 2000 года;</a></span></li><li><span><a href="#Для-каждой-книги-посчитайте-количество-обзоров-и-среднюю-оценку;" data-toc-modified-id="Для-каждой-книги-посчитайте-количество-обзоров-и-среднюю-оценку;-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Для каждой книги посчитайте количество обзоров и среднюю оценку;</a></span></li><li><span><a href="#Определите-издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц-—-так-вы-исключите-из-анализа-брошюры;" data-toc-modified-id="Определите-издательство,-которое-выпустило-наибольшее-число-книг-толще-50-страниц-—-так-вы-исключите-из-анализа-брошюры;-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;</a></span></li><li><span><a href="#Определите-автора-с-самой-высокой-средней-оценкой-книг-—-учитывайте-только-книги-с-50-и-более-оценками;" data-toc-modified-id="Определите-автора-с-самой-высокой-средней-оценкой-книг-—-учитывайте-только-книги-с-50-и-более-оценками;-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;</a></span></li><li><span><a href="#Посчитайте-среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок." data-toc-modified-id="Посчитайте-среднее-количество-обзоров-от-пользователей,-которые-поставили-больше-50-оценок.-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.</a></span></li></ul></li></ul></div>

## Импортирование библиотек

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# устанавливаем параметры 
db_config = {'user': 'praktikum_student', # имяпользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net', 'port': 6432,# портподключения
             'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],  db_config['pwd'],  
                                                         db_config['host'],  db_config['port'],  
                                                         db_config['db'])

In [3]:
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'}) 

## Изучение общей информации

In [4]:
books = '''SELECT * FROM books LIMIT 5'''
pd.io.sql.read_sql(books, con = engine)

Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [5]:
authors = '''SELECT * FROM authors LIMIT 5'''
pd.io.sql.read_sql(authors, con = engine)

Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [6]:
ratings = '''SELECT * FROM ratings LIMIT 5'''
pd.io.sql.read_sql(ratings, con = engine)

Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [7]:
reviews = '''SELECT * FROM reviews LIMIT 5'''
pd.io.sql.read_sql(reviews, con = engine)

Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


In [8]:
publishers = '''SELECT * FROM publishers LIMIT 5'''
pd.io.sql.read_sql(publishers, con = engine)

Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


Итого, у нас есть 5 таблиц: `books`, `authors`, `ratings`, `reviews` и `publishers`. В каждой из таблиц содержится информация о книгах, издательствах, авторах и пользовательских обзоров книг. Описание данных содержится в таблице брифа.
    

## Задания

### Посчитайте, сколько книг вышло после 1 января 2000 года;

In [9]:
task_1 = '''
SELECT COUNT(publication_date)
FROM books
WHERE publication_date >= '2000-01-01'
'''
books_released = pd.io.sql.read_sql(task_1, con = engine)
print('Количество книг, вышедших после 1 января 2000 года: {:.0f}'.format(books_released.iloc[0][0]))

Количество книг, вышедших после 1 января 2000 года: 821


После 1 января 2000 года вышло 821 книг.

### Для каждой книги посчитайте количество обзоров и среднюю оценку;

In [10]:
task_2 = '''
SELECT books.title AS book_title,
    AVG (ratings.rating) AS avg_rating,
    COUNT (DISTINCT reviews.review_id) AS cnt_review
FROM books 
    INNER JOIN ratings ON ratings.book_id = books.book_id 
    INNER JOIN reviews ON reviews.book_id = ratings.book_id
GROUP BY books.book_id
ORDER BY cnt_review DESC, avg_rating DESC
'''

avg_rating = pd.io.sql.read_sql(task_2, con = engine)
avg_rating.head(10)

Unnamed: 0,book_title,avg_rating,cnt_review
0,Twilight (Twilight #1),3.6625,7
1,Harry Potter and the Prisoner of Azkaban (Harr...,4.414634,6
2,Harry Potter and the Chamber of Secrets (Harry...,4.2875,6
3,The Book Thief,4.264151,6
4,The Glass Castle,4.206897,6
5,The Hobbit or There and Back Again,4.125,6
6,Outlander (Outlander #1),4.125,6
7,The Curious Incident of the Dog in the Night-Time,4.081081,6
8,The Lightning Thief (Percy Jackson and the Oly...,4.080645,6
9,Water for Elephants,3.977273,6


In [11]:
# task_2_1 = '''
# SELECT title, avg_rating, cnt_review 
# FROM books
# LEFT JOIN (SELECT ratings.book_id,
#     AVG (ratings.rating) AS avg_rating
#     FROM ratings
#     GROUP BY ratings.book_id) AS sub_1 ON books.book_id = sub_1.book_id     
# LEFT JOIN (SELECT reviews.book_id,
#     COUNT (reviews.text) AS cnt_review
#     FROM reviews
#     GROUP BY reviews.book_id) AS sub_2 ON books.book_id = sub_2.book_id 
# ORDER BY cnt_review DESC LIMIT 10
# '''

# avg_rating_2 = pd.io.sql.read_sql(task_2_1, con = engine)
# avg_rating_2.head(10)

Наибольшее количество обзоров вышло по книге Twilight - 7. При этом рейтинг у этой книги ниже остальных с большим количеством обзоров - всего 3,66.

### Определите издательство, которое выпустило наибольшее число книг толще 50 страниц — так вы исключите из анализа брошюры;

In [12]:
task_3 = '''
SELECT publisher AS publisher_name,
    COUNT (books.book_id) AS cnt_books
FROM books 
    INNER JOIN publishers ON books.publisher_id = publishers.publisher_id
WHERE books.num_pages > 50
GROUP  BY publisher
ORDER  BY cnt_books DESC
'''

publisher_most_books = pd.io.sql.read_sql(task_3, con = engine)
publisher_most_books
print('Издательство', publisher_most_books.iloc[0, 0], 'выпустило наибольшее число книг -', 
      publisher_most_books.iloc[0, 1], 'шт. толще 50 страниц.'  )

Издательство Penguin Books выпустило наибольшее число книг - 42 шт. толще 50 страниц.


Лидирующим издательством, которое выпустило наибольшее число книг толще 50 страниц  является издательство Penguin Books - на его счету 42 выпущенные книги.

###  Определите автора с самой высокой средней оценкой книг — учитывайте только книги с 50 и более оценками;

In [13]:
task_4 = '''
SELECT authors.author AS author_name,
AVG(r.average_rating) as avg_rating
FROM books 
INNER JOIN (SELECT book_id, COUNT(rating) AS cnt,
             AVG(rating) AS average_rating
      FROM ratings
      GROUP BY book_id) AS r
ON r.book_id = books.book_id
INNER JOIN authors ON authors.author_id = books.author_id
WHERE r.cnt >= 50
GROUP BY author_name
ORDER BY avg_rating DESC
LIMIT 1
'''

auth_books_avg_rating = pd.io.sql.read_sql(task_4, con = engine)
print('Автор -', auth_books_avg_rating.iloc[0,0], 'с самой высокой средней оценкой книг:',
      auth_books_avg_rating.iloc[0,1] )

Автор - J.K. Rowling/Mary GrandPré с самой высокой средней оценкой книг: 4.283844038868471


Автор - J.K. Rowling/Mary GrandPré является авторос с самой высокой средней оценкой книг: 4.28.

### Посчитайте среднее количество обзоров от пользователей, которые поставили больше 50 оценок.

In [14]:
task_5 = '''
SELECT
    AVG(sub.cnt_text)
FROM
(SELECT 
   reviews.username,
   COUNT(DISTINCT reviews.text) AS cnt_text,
   COUNT(DISTINCT ratings.book_id) AS cnt_book
FROM reviews
     INNER JOIN ratings ON ratings.username = reviews.username
GROUP BY
   reviews.username
HAVING
   COUNT(DISTINCT ratings.book_id)>50) AS sub
'''

avg_cnt_reviews = pd.io.sql.read_sql(task_5, con = engine)
avg_cnt_reviews.head(10)
print('Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно:', 
      avg_cnt_reviews.iloc[0][0])

Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно: 24.333333333333332


Среднее количество обзоров от пользователей, которые поставили больше 50 оценок равно: 24.