# Проект по SQL (финал)

<span style="font-size:larger;">**Цель исследования:**</span>
Необходимо проанализировать базу данных крупного сервиса для чтения книг по подписке для формулирования ценностного предложения для нового продукта.

<span style="font-size:larger;">**Исходные данные:**</span>
База  данных крупного сервиса для чтения книг по подписке, содержащая информацию о книгах, издательствах, авторах, а также пользовательские обзоры книг:

**Таблица books**
Содержит данные о книгах:
* book_id — идентификатор книги;
* author_id — идентификатор автора;
* title — название книги;
* num_pages — количество страниц;
* publication_date — дата публикации книги;
* publisher_id — идентификатор издателя.

**Таблица authors**
Содержит данные об авторах:
* author_id — идентификатор автора;
* author — имя автора.

**Таблица publishers**
Содержит данные об издательствах:
* publisher_id — идентификатор издательства;
* publisher — название издательства.

**Таблица ratings**
Содержит данные о пользовательских оценках книг:
* rating_id — идентификатор оценки;
* book_id — идентификатор книги;
* username — имя пользователя, оставившего оценку;
* rating — оценка книги.

**Таблица reviews**
Содержит данные о пользовательских обзорах:
* review_id — идентификатор обзора;
* book_id — идентификатор книги;
* username — имя автора обзора;
*text — текст обзора.


<span style="font-size:larger;">**Ход исследования:**</span>

1. Подключение к базе данных;
2. Исследование каждой таблицы базы  данных;
3. Расчет количества книг, выпущенных после 1 января 2000 года;
4. Для каждой книги посчитать количество обзоров и среднюю оценку;
5. Определить издательство, которое выпустило наибольшее число книг толще 50 страниц;
6. Определить автора с самой высокой средней оценкой книг (по книгам с 50 и более оценками);
7. Посчитайть среднее количество обзоров от пользователей, которые поставили больше 48 оценок;
8. Общий вывод.



## Подключение к базе данных

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
'pwd': 'Sdf4$2;d-d30pp', # пароль
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения
'db': 'data-analyst-final-project-db'} # название базы данных
connection_string = 'postgresql://{user}:{pwd}@{host}:{port}/{db}'.format(**db_config)
# сохраняем коннектор
engine = create_engine(connection_string, connect_args={'sslmode':'require'})


Подключились к базе данных.

## Исследование каждой таблицы базы данных

In [2]:
# Формируем SQL-запрос, используем Pandas
query = '''SELECT * FROM books LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,book_id,author_id,title,num_pages,publication_date,publisher_id
0,1,546,'Salem's Lot,594,2005-11-01,93
1,2,465,1 000 Places to See Before You Die,992,2003-05-22,336
2,3,407,13 Little Blue Envelopes (Little Blue Envelope...,322,2010-12-21,135
3,4,82,1491: New Revelations of the Americas Before C...,541,2006-10-10,309
4,5,125,1776,386,2006-07-04,268


In [3]:
# Формируем SQL-запрос, используем Pandas
query = '''SELECT * FROM authors LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,author_id,author
0,1,A.S. Byatt
1,2,Aesop/Laura Harris/Laura Gibbs
2,3,Agatha Christie
3,4,Alan Brennert
4,5,Alan Moore/David Lloyd


In [4]:
# Формируем SQL-запрос, используем Pandas
query = '''SELECT * FROM publishers LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,publisher_id,publisher
0,1,Ace
1,2,Ace Book
2,3,Ace Books
3,4,Ace Hardcover
4,5,Addison Wesley Publishing Company


In [5]:
# Формируем SQL-запрос, используем Pandas
query = '''SELECT * FROM ratings LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,rating_id,book_id,username,rating
0,1,1,ryanfranco,4
1,2,1,grantpatricia,2
2,3,1,brandtandrea,5
3,4,2,lorichen,3
4,5,2,mariokeller,2


In [6]:
# Формируем SQL-запрос, используем Pandas
query = '''SELECT * FROM reviews LIMIT 5'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,review_id,book_id,username,text
0,1,1,brandtandrea,Mention society tell send professor analysis. ...
1,2,1,ryanfranco,Foot glass pretty audience hit themselves. Amo...
2,3,2,lorichen,Listen treat keep worry. Miss husband tax but ...
3,4,3,johnsonamanda,Finally month interesting blue could nature cu...
4,5,3,scotttamara,Nation purpose heavy give wait song will. List...


**Вывод**:
Вывели первые 5 строк каждой таблицы базы данных.


## Расчет количества книг, выпущенных после 1 января 2000 года

In [7]:
# Формируем SQL-запрос, используем Pandas
query = '''
SELECT COUNT(book_id) 
FROM books
WHERE CAST(publication_date AS date) > '2000-01-01'
'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,count
0,819


**Вывод**:
819 книг было выпущено после 1 января 2000 года.

## Для каждой книги посчитать количество обзоров и среднюю оценку

In [13]:
# Формируем SQL-запрос, используем Pandas
query = '''

WITH t1 AS (
  SELECT 
    b.book_id AS book_id, 
    b.title AS title, 
    COUNT(r.review_id) AS cnt_reviews 
  FROM 
    books AS b 
    LEFT JOIN reviews r ON b.book_id = r.book_id 
  GROUP BY 
    b.book_id, 
    b.title
) 
SELECT 
  t1.book_id, 
  t1.title, 
  t1.cnt_reviews, 
  AVG(r.rating) AS avg_rating 
FROM 
  t1 
  LEFT JOIN ratings r ON t1.book_id = r.book_id 
GROUP BY 
  t1.book_id, 
  t1.title, 
  t1.cnt_reviews 
ORDER BY 
  avg_rating DESC, 
  t1.cnt_reviews DESC;


'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,book_id,title,cnt_reviews,avg_rating
0,17,A Dirty Job (Grim Reaper #1),4,5.00
1,553,School's Out—Forever (Maximum Ride #2),3,5.00
2,444,Moneyball: The Art of Winning an Unfair Game,3,5.00
3,732,The Ghost Map: The Story of London's Most Terr...,2,5.00
4,169,Crucial Conversations: Tools for Talking When ...,2,5.00
...,...,...,...,...
995,915,The World Is Flat: A Brief History of the Twen...,3,2.25
996,202,Drowning Ruth,3,2.00
997,316,His Excellency: George Washington,2,2.00
998,371,Junky,2,2.00


**Вывод**:
Всего 1000 уникальных книг с количеством обзоров от 2 до 4 и средней оценкой от 1.50 до 5.00.

*Топ- 5 книг по количеству обзоров и средней оценке:* 
* A Dirty Job (Grim Reaper #1);
* School's Out—Forever (Maximum Ride #2);
* Moneyball: The Art of Winning an Unfair Game;
* The Ghost Map: The Story of London's Most Terrifying Epidemic;
* Crucial Conversations: Tools for Talking When Stakes Are High.

## Определить издательство, которое выпустило наибольшее число книг толще 50 страниц

In [9]:
# Формируем SQL-запрос, используем Pandas
query = '''

SELECT 
  b.publisher_id, 
  p.publisher, 
  COUNT(b.book_id) AS cnt_books 
FROM 
  books AS b 
  LEFT JOIN publishers p ON b.publisher_id = p.publisher_id 
WHERE 
  b.num_pages > 50 
GROUP BY 
  b.publisher_id, 
  p.publisher 
ORDER BY 
  cnt_books DESC 
LIMIT  1;


'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,publisher_id,publisher,cnt_books
0,212,Penguin Books,42


**Вывод**:
Издательство 212 Penguin Books выпустило наибольшее число ( 42 шт.) книг толще 50 страниц.

## Определить автора с самой высокой средней оценкой книг (по книгам с 50 и более оценками)

In [10]:
# Формируем SQL-запрос, используем Pandas
query = '''

SELECT a.author, ROUND(AVG(t1.avg_ratings),2) AS avg_rating

FROM (SELECT b.author_id, b.book_id, AVG(r.rating) AS avg_ratings
FROM books AS b
LEFT  JOIN  ratings r ON b.book_id = r.book_id
GROUP BY b.author_id,b.book_id
HAVING COUNT(r.rating)>=50) AS t1 
LEFT JOIN  authors a ON t1.author_id = a.author_id
GROUP BY a.author
ORDER BY avg_rating DESC
LIMIT 1;


'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)


Unnamed: 0,author,avg_rating
0,J.K. Rowling/Mary GrandPré,4.28


**Вывод**:
J.K. Rowling/Mary GrandPré -автор с самой высокой средней оценкой (4.28) книг (по книгам с 50 и более оценками).

## Посчитайте среднее количество обзоров от пользователей, которые поставили больше 48 оценок

In [11]:
# Формируем SQL-запрос, используем Pandas
query = '''
WITH t1 AS (
  SELECT 
    username, 
    COUNT(review_id) AS cnt_reviews 
  FROM 
    reviews 
  WHERE 
    username IN (
      SELECT 
        username 
      FROM 
        ratings 
      GROUP BY 
        username 
      HAVING 
        COUNT(rating)> 48
    ) 
  GROUP BY 
    username
) 
SELECT 
  AVG(t1.cnt_reviews) AS avg_reviews 
FROM 
  t1

'''
con=engine.connect()
pd.io.sql.read_sql(sql=text(query), con = con)

Unnamed: 0,avg_reviews
0,24.0


**Вывод**:
24 - среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

## Общий вывод:
Для формулирования ценностного предложения для нового продукта был проведен анализ базы данных крупного сервиса для чтения книг по подписке, в результате которого было выявлены следующие результаты:
* 819 книг было выпущено после 1 января 2000 года;
* Всего 1000 уникальных книг с количеством обзоров от 2 до 4 и средней оценкой от 1.50 до 5.00;
* Издательство 212 Penguin Books выпустило наибольшее число ( 42 шт.) книг толще 50 страниц;
* J.K. Rowling/Mary GrandPré -автор с самой высокой средней оценкой (4.28) книг (по книгам с 50 и более оценками);
* 24 - среднее количество обзоров от пользователей, которые поставили больше 48 оценок.

